¿Podemos agregar una característica en LinearRegression que podría eliminar la colinealidad (colinealidad exacta) en los datos?
Mi propuesta es agregar un argumento adicional como remove_collinearity si lo establece el usuario, entonces podemos eliminar las variables colineales exactas usando el rango de la matriz o las variables colineales usando VIF. Esto puede ahorrar algo de tiempo en lugar de optar por la regresión de Ridge.
Podría ser mejor tener esto como preprocesador en sklearn.feature_selection
, de esa manera podría aplicarse a múltiples estimadores. Sin embargo, no estoy seguro de que la colinealidad exacta sea un problema frecuente. ¿Quizás un estimador con un umbral de correlación de características definido por el usuario?
No estoy seguro de si es algo que se hace a menudo, en lugar de decir agrupación de funciones. Esto último se puede hacer en scikit-learn con cluster.FeatureAgglomeration aunque tal vez la interfaz con un n_clusters requerido no sea ideal.
cc @glemaitre
Se está trabajando en esto como un transformador de selección de características aquí: https://github.com/scikit-learn/scikit-learn/pull/14698
De hecho gracias. Cerrando este problema como un duplicado de https://github.com/scikit-learn/scikit-learn/issues/13405 entonces. Si tiene otros comentarios o sugerencias @ divyaprabha123, por favor comente allí.
Comentario más útil
Se está trabajando en esto como un transformador de selección de características aquí: https://github.com/scikit-learn/scikit-learn/pull/14698