Xgboost: [PYTHON] Tornar opcional a validação do nome do recurso

Criado em 22 set. 2016 · 4Comentários · Fonte: dmlc/xgboost

Embora a validação do nome do recurso possa ser útil em alguns casos, ela também traz problemas quando os novos dados não contêm o recurso correspondente. Isso pode acontecer com frequência em dados esparsos e não é o comportamento desejado. A verificação frequente dos nomes dos recursos também prejudica a velocidade durante a fase de treinamento, quando os dados são esparsos.

Eu proporia remover a validação do nome do recurso e torná-la opcional. Gostaria de entender a consequência e ver se quem quer fazer um PR sobre isso. @sinhrks @terrytangyuan @phunterlau

Espero que possamos resolver https://github.com/dmlc/xgboost/issues/1238 completamente e adicionar testes de regressão para evitar que isso aconteça

Fonte

tqchen

👍2

Comentários muito úteis

Eu concordo com essa mudança.

Não tenho muito tempo livre para fazer relações públicas recentemente, mas acho que deve ser bastante simples tornar isso opcional.

Não acho que seja necessário validá-lo durante cada atualização e aumentar a chamada. Acho que só precisamos validá-lo uma vez durante a inicialização de DMatrix e Booster . Devemos definitivamente notificar explicitamente os usuários sobre as consequências e desvantagens de ignorar validações.