Embora a validação do nome do recurso possa ser útil em alguns casos, ela também traz problemas quando os novos dados não contêm o recurso correspondente. Isso pode acontecer com frequência em dados esparsos e não é o comportamento desejado. A verificação frequente dos nomes dos recursos também prejudica a velocidade durante a fase de treinamento, quando os dados são esparsos.
Eu proporia remover a validação do nome do recurso e torná-la opcional. Gostaria de entender a consequência e ver se quem quer fazer um PR sobre isso. @sinhrks @terrytangyuan @phunterlau
Espero que possamos resolver https://github.com/dmlc/xgboost/issues/1238 completamente e adicionar testes de regressão para evitar que isso aconteça
Eu concordo com essa mudança.
Não tenho muito tempo livre para fazer relações públicas recentemente, mas acho que deve ser bastante simples tornar isso opcional.
Não acho que seja necessário validá-lo durante cada atualização e aumentar a chamada. Acho que só precisamos validá-lo uma vez durante a inicialização de DMatrix
e Booster
. Devemos definitivamente notificar explicitamente os usuários sobre as consequências e desvantagens de ignorar validações.
Isso está resolvido?
idem. esperando que isso seja resolvido. ainda executando 0.4a30
...
Fechando, já que o nº 3323 aborda esse problema.
Comentários muito úteis
Eu concordo com essa mudança.
Não tenho muito tempo livre para fazer relações públicas recentemente, mas acho que deve ser bastante simples tornar isso opcional.
Não acho que seja necessário validá-lo durante cada atualização e aumentar a chamada. Acho que só precisamos validá-lo uma vez durante a inicialização de
DMatrix
eBooster
. Devemos definitivamente notificar explicitamente os usuários sobre as consequências e desvantagens de ignorar validações.