Können wir in LinearRegression eine Funktion hinzufügen, die Kollinearität (genaue Kollinearität) in den Daten entfernen könnte?.
Mein Vorschlag ist, ein zusätzliches Argument wie remove_collinearity hinzuzufügen, wenn es vom Benutzer festgelegt wird, dann können wir genaue kollineare Variablen mithilfe des Rangs der Matrix oder kollineare Variablen mithilfe von VIF entfernen. Dies kann einige Zeit sparen, anstatt sich für die Ridge-Regression zu entscheiden.
Es könnte besser sein, dies als Präpräprozessor in sklearn.feature_selection
, damit es auf mehrere Schätzer angewendet werden kann. Ich bin mir jedoch nicht sicher, ob genaue Kollinearität ein häufiges Problem ist. Vielleicht ein Schätzer mit einem benutzerdefinierten Schwellenwert für die Merkmalskorrelation?
Ich bin mir nicht sicher, ob es etwas ist, das oft gemacht wird, im Gegensatz zu Feature-Clustering? Letzteres kann in scikit-learn mit cluster.FeatureAgglomeration durchgeführt werden, obwohl die Schnittstelle mit einem erforderlichen n_clusters möglicherweise nicht ideal ist.
cc @glemaitre
Daran wird hier als Feature Selection Transformer gearbeitet: https://github.com/scikit-learn/scikit-learn/pull/14698
In der Tat danke. Schließen Sie dieses Problem dann als Duplikat von https://github.com/scikit-learn/scikit-learn/issues/13405 . Wenn Sie andere Kommentare oder Vorschläge @divyaprabha123 haben, kommentieren
Hilfreichster Kommentar
Daran wird hier als Feature Selection Transformer gearbeitet: https://github.com/scikit-learn/scikit-learn/pull/14698