Pytorch: LSTM oublier l'initialisation de la polarisation de la porte

Créé le 15 févr. 2017  ·  3Commentaires  ·  Source: pytorch/pytorch

Certains articles suggèrent de définir le biais de la porte oubliée des LSTM sur une valeur spécifique. Par example:
http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf

Est-il possible de faire en utilisant l'implémentation actuelle de LSTM/LSTMCell ?

Commentaire le plus utile

Oui, l'ordre des poids a biais est le même pour toutes les implémentations et est ingate, forgetgate, cellgate, outgate . Vous devez initialiser les valeurs entre 1/4 et 1/2 du vecteur de biais à la valeur souhaitée.

Tous les 3 commentaires

Oui, l'ordre des poids a biais est le même pour toutes les implémentations et est ingate, forgetgate, cellgate, outgate . Vous devez initialiser les valeurs entre 1/4 et 1/2 du vecteur de biais à la valeur souhaitée.

Quelle est la différence entre "bias_ih" et "bias_hh" dans les cellules LSTM et GRU ? Les deux doivent-ils être initialisés avec des valeurs comprises entre 1/4 et 1/2 ?

L'un d'eux est ajouté à la transformée linéaire de l'entrée, un autre à la transformée cachée. C'est redondant - il ne pourrait y avoir qu'un seul biais, et le modèle serait équivalent. Cependant, c'est ce que fait cuDNN, nous avons donc préféré le garder comme ça pour plus de cohérence.

Cette page vous a été utile?
0 / 5 - 0 notes