Certains articles suggèrent de définir le biais de la porte oubliée des LSTM sur une valeur spécifique. Par example:
http://jmlr.org/proceedings/papers/v37/jozefowicz15.pdf
Est-il possible de faire en utilisant l'implémentation actuelle de LSTM/LSTMCell ?
Oui, l'ordre des poids a biais est le même pour toutes les implémentations et est ingate, forgetgate, cellgate, outgate
. Vous devez initialiser les valeurs entre 1/4 et 1/2 du vecteur de biais à la valeur souhaitée.
Quelle est la différence entre "bias_ih" et "bias_hh" dans les cellules LSTM et GRU ? Les deux doivent-ils être initialisés avec des valeurs comprises entre 1/4 et 1/2 ?
L'un d'eux est ajouté à la transformée linéaire de l'entrée, un autre à la transformée cachée. C'est redondant - il ne pourrait y avoir qu'un seul biais, et le modèle serait équivalent. Cependant, c'est ce que fait cuDNN, nous avons donc préféré le garder comme ça pour plus de cohérence.
Commentaire le plus utile
Oui, l'ordre des poids a biais est le même pour toutes les implémentations et est
ingate, forgetgate, cellgate, outgate
. Vous devez initialiser les valeurs entre 1/4 et 1/2 du vecteur de biais à la valeur souhaitée.