Scikit-learn: Agregue soporte para eliminar variables colineales

Creado en 3 feb. 2020  ·  3Comentarios  ·  Fuente: scikit-learn/scikit-learn

Describe el flujo de trabajo que quieres habilitar.

¿Podemos agregar una característica en LinearRegression que podría eliminar la colinealidad (colinealidad exacta) en los datos?

Describe tu solución propuesta

Mi propuesta es agregar un argumento adicional como remove_collinearity si lo establece el usuario, entonces podemos eliminar las variables colineales exactas usando el rango de la matriz o las variables colineales usando VIF. Esto puede ahorrar algo de tiempo en lugar de optar por la regresión de Ridge.

New Feature

Comentario más útil

Se está trabajando en esto como un transformador de selección de características aquí: https://github.com/scikit-learn/scikit-learn/pull/14698

Todos 3 comentarios

Podría ser mejor tener esto como preprocesador en sklearn.feature_selection , de esa manera podría aplicarse a múltiples estimadores. Sin embargo, no estoy seguro de que la colinealidad exacta sea un problema frecuente. ¿Quizás un estimador con un umbral de correlación de características definido por el usuario?

No estoy seguro de si es algo que se hace a menudo, en lugar de decir agrupación de funciones. Esto último se puede hacer en scikit-learn con cluster.FeatureAgglomeration aunque tal vez la interfaz con un n_clusters requerido no sea ideal.

cc @glemaitre

Se está trabajando en esto como un transformador de selección de características aquí: https://github.com/scikit-learn/scikit-learn/pull/14698

De hecho gracias. Cerrando este problema como un duplicado de https://github.com/scikit-learn/scikit-learn/issues/13405 entonces. Si tiene otros comentarios o sugerencias @ divyaprabha123, por favor comente allí.

¿Fue útil esta página
0 / 5 - 0 calificaciones