Scikit-learn: Ajout de la prise en charge de la suppression des variables colinéaires

Créé le 3 févr. 2020  ·  3Commentaires  ·  Source: scikit-learn/scikit-learn

Décrivez le workflow que vous souhaitez activer

Pouvons-nous ajouter une fonctionnalité dans LinearRegression qui pourrait supprimer la colinéarité (colinéarité exacte) dans les données ?.

Décrivez la solution que vous proposez

Ma proposition est d'ajouter un argument supplémentaire comme remove_collinearity s'il est défini par l'utilisateur, nous pouvons alors supprimer les variables colinéaires exactes en utilisant le rang de la matrice ou les variables colinéaires en utilisant VIF. Cela peut faire gagner du temps au lieu d'opter pour la régression Ridge.

New Feature

Commentaire le plus utile

Ceci est en cours d'élaboration en tant que transformateur de sélection de fonctionnalités ici : https://github.com/scikit-learn/scikit-learn/pull/14698

Tous les 3 commentaires

Il serait peut-être préférable de l'avoir en tant que pré-processeur dans sklearn.feature_selection , de cette façon, il pourrait être appliqué à plusieurs estimateurs. Je ne suis pas sûr que la colinéarité exacte soit un problème fréquent cependant. Peut-être un estimateur avec un seuil de corrélation de caractéristiques défini par l'utilisateur ?

Je ne sais pas si c'est quelque chose qui est souvent fait, par opposition au regroupement de fonctionnalités ? Ce dernier peut être fait dans scikit-learn avec cluster.FeatureAgglomération bien que l'interface avec un n_clusters requis ne soit peut-être pas idéale.

cc @glemaitre

Ceci est en cours d'élaboration en tant que transformateur de sélection de fonctionnalités ici : https://github.com/scikit-learn/scikit-learn/pull/14698

En effet merci. Clôturer ce problème en tant que doublon de https://github.com/scikit-learn/scikit-learn/issues/13405 puis. Si vous avez d'autres commentaires ou suggestions @divyaprabha123, veuillez commenter ici.

Cette page vous a été utile?
0 / 5 - 0 notes