Creo que podríamos eliminar el parámetro de amortiguación de SGD aquí https://github.com/pytorch/pytorch/blob/master/torch/optim/sgd.py#L10 , es confuso y cambia el impulso si se usa
tal vez establecer el valor predeterminado en 0 en lugar de momentum
?
Por defecto es 0.
arreglado a través de https://github.com/pytorch/pytorch/commit/4eb12a26bc5e3671c03f154f61076fd72fcfd233
Este cambio en la amortiguación predeterminada me acaba de llegar :) Pasé unos días averiguando por qué la red portada dejó de alcanzar los niveles de precisión correctos. Gracias @szagoruyko por el consejo.
Anteriormente, con impulso = 0,9 (y 1 - dampening = 0.1
), el gradiente anterior era 9 veces más importante que el actual. Ahora es solo un 10% menos importante ( 1 - dampening = 1
).
Posiblemente esto valga la pena mencionarlo en
http://pytorch.org/docs/optim.html o en http://pytorch.org/tutorials/beginner/former_torchies_tutorial.html , ya que ahora es necesario ajustar las tasas de aprendizaje al portar el código lua Torch, a pesar de las expectativas ingenuas.
Comentario más útil
Este cambio en la amortiguación predeterminada me acaba de llegar :) Pasé unos días averiguando por qué la red portada dejó de alcanzar los niveles de precisión correctos. Gracias @szagoruyko por el consejo.
Anteriormente, con impulso = 0,9 (y
1 - dampening = 0.1
), el gradiente anterior era 9 veces más importante que el actual. Ahora es solo un 10% menos importante (1 - dampening = 1
).Posiblemente esto valga la pena mencionarlo en
http://pytorch.org/docs/optim.html o en http://pytorch.org/tutorials/beginner/former_torchies_tutorial.html , ya que ahora es necesario ajustar las tasas de aprendizaje al portar el código lua Torch, a pesar de las expectativas ingenuas.