Pytorch: LSTM oublier l'initialisation de la polarisation de la porte

Créé le 15 févr. 2017 · 3Commentaires · Source: pytorch/pytorch

Certains articles suggèrent de définir le biais de la porte oubliée des LSTM sur une valeur spécifique. Par example:
http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf

Est-il possible de faire en utilisant l'implémentation actuelle de LSTM/LSTMCell ?

Source

ikostrikov

Commentaire le plus utile

Oui, l'ordre des poids a biais est le même pour toutes les implémentations et est ingate, forgetgate, cellgate, outgate . Vous devez initialiser les valeurs entre 1/4 et 1/2 du vecteur de biais à la valeur souhaitée.

apaszke le 17 févr. 2017

👍5

Tous les 3 commentaires

apaszke le 17 févr. 2017

👍5

Quelle est la différence entre "bias_ih" et "bias_hh" dans les cellules LSTM et GRU ? Les deux doivent-ils être initialisés avec des valeurs comprises entre 1/4 et 1/2 ?

kellywzhang le 20 févr. 2017

L'un d'eux est ajouté à la transformée linéaire de l'entrée, un autre à la transformée cachée. C'est redondant - il ne pourrait y avoir qu'un seul biais, et le modèle serait équivalent. Cependant, c'est ce que fait cuDNN, nous avons donc préféré le garder comme ça pour plus de cohérence.

apaszke le 24 févr. 2017

Cette page vous a été utile?

0 / 5 - 0 notes