Scikit-learn: Unterstützung für das Löschen kollinearer Variablen hinzufügen

Erstellt am 3. Feb. 2020 · 3Kommentare · Quelle: scikit-learn/scikit-learn

Beschreiben Sie den Workflow, den Sie aktivieren möchten

Können wir in LinearRegression eine Funktion hinzufügen, die Kollinearität (genaue Kollinearität) in den Daten entfernen könnte?.

Beschreiben Sie Ihren Lösungsvorschlag

Mein Vorschlag ist, ein zusätzliches Argument wie remove_collinearity hinzuzufügen, wenn es vom Benutzer festgelegt wird, dann können wir genaue kollineare Variablen mithilfe des Rangs der Matrix oder kollineare Variablen mithilfe von VIF entfernen. Dies kann einige Zeit sparen, anstatt sich für die Ridge-Regression zu entscheiden.

New Feature

Quelle

divyaprabha123

Hilfreichster Kommentar

Daran wird hier als Feature Selection Transformer gearbeitet: https://github.com/scikit-learn/scikit-learn/pull/14698

thomasjpfan am 3. Feb. 2020

👍2

Alle 3 Kommentare

Es könnte besser sein, dies als Präpräprozessor in sklearn.feature_selection , damit es auf mehrere Schätzer angewendet werden kann. Ich bin mir jedoch nicht sicher, ob genaue Kollinearität ein häufiges Problem ist. Vielleicht ein Schätzer mit einem benutzerdefinierten Schwellenwert für die Merkmalskorrelation?

Ich bin mir nicht sicher, ob es etwas ist, das oft gemacht wird, im Gegensatz zu Feature-Clustering? Letzteres kann in scikit-learn mit cluster.FeatureAgglomeration durchgeführt werden, obwohl die Schnittstelle mit einem erforderlichen n_clusters möglicherweise nicht ideal ist.

cc @glemaitre

rth am 3. Feb. 2020

Daran wird hier als Feature Selection Transformer gearbeitet: https://github.com/scikit-learn/scikit-learn/pull/14698

thomasjpfan am 3. Feb. 2020

👍2

In der Tat danke. Schließen Sie dieses Problem dann als Duplikat von https://github.com/scikit-learn/scikit-learn/issues/13405 . Wenn Sie andere Kommentare oder Vorschläge @divyaprabha123 haben, kommentieren

rth am 3. Feb. 2020

👍1

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Verwandte Themen

min_weight_fraction_leaf schlug Verbesserungen vor

ben519 · 3Kommentare

Der EM-Algorithmus in GMM schlägt für eindimensionale Datensätze mit 0.16.1 fehl (aber gut mit 0.15.2)

rebeccaroisin · 4Kommentare

Fehler bei der Netzsuche in der Pipeline mit Keine für Transformatorschritt

jrbourbeau · 3Kommentare

CountVectorizer- und TfidfVectorizer-Dokumente erwähnen nicht, dass token_pattern ignoriert wird, wenn ein benutzerdefinierter Tokenizer übergeben wird

stephantul · 3Kommentare

AttributeError: Modul 'sklearn' hat kein Attribut 'datasets'

ArtyomKaltovich · 3Kommentare