Acho que poderíamos remover o parâmetro de amortecimento do SGD aqui https://github.com/pytorch/pytorch/blob/master/torch/optim/sgd.py#L10 , é confuso e muda o momento se usado
talvez defina o valor padrão para 0 em vez de momentum
?
Tornado padrão para 0.
corrigido via https://github.com/pytorch/pytorch/commit/4eb12a26bc5e3671c03f154f61076fd72fcfd233
Essa mudança de amortecimento padrão acabou de me atingir :) Passei alguns dias descobrindo por que a rede portada parou de atingir os níveis de precisão corretos. Obrigado @szagoruyko pela dica.
Anteriormente, com momentum = 0,9 (e 1 - dampening = 0.1
), o gradiente antigo era 9x mais importante que o atual. Agora é apenas 10% menos importante ( 1 - dampening = 1
).
Possivelmente, isso vale a pena mencionar em
http://pytorch.org/docs/optim.html ou em http://pytorch.org/tutorials/beginner/former_torchies_tutorial.html , já que as taxas de aprendizado agora precisam ser ajustadas ao portar o código lua Torch, apesar das expectativas ingênuas.
Comentários muito úteis
Essa mudança de amortecimento padrão acabou de me atingir :) Passei alguns dias descobrindo por que a rede portada parou de atingir os níveis de precisão corretos. Obrigado @szagoruyko pela dica.
Anteriormente, com momentum = 0,9 (e
1 - dampening = 0.1
), o gradiente antigo era 9x mais importante que o atual. Agora é apenas 10% menos importante (1 - dampening = 1
).Possivelmente, isso vale a pena mencionar em
http://pytorch.org/docs/optim.html ou em http://pytorch.org/tutorials/beginner/former_torchies_tutorial.html , já que as taxas de aprendizado agora precisam ser ajustadas ao portar o código lua Torch, apesar das expectativas ingênuas.