Evalml: Ein Hot Encoder: Lassen Sie standardmäßig ein redundantes Feature für Features mit zwei Kategorien fallen

Erstellt am 5. März 2021 · 14Kommentare · Quelle: alteryx/evalml

Unser One-Hot-Encoder erstellt ein Feature für jede Ebene des ursprünglichen kategorialen Features:

from evalml.pipelines import OneHotEncoder
import pandas as pd
df = pd.DataFrame({"category": ["a", "b"], "number": [4,5 ]})
OneHotEncoder().fit_transform(df).to_dataframe()

Die Spalten category_a und category_b sind vollständig kollinear, was eine überflüssig macht. Dies könnte nachteilige Auswirkungen auf die Anpassung des Schätzers haben. Ich denke, wir sollten standardmäßig einen löschen.

Zur Info @rpeck

enhancement

Quelle

freddyaboulton

Hilfreichster Kommentar

Drittes Gesetz des Codes: Du sollst nicht machen == Vergleiche mit Floats

rpeck am 5. März 2021

😄3

Alle 14 Kommentare

💯 % sollten wir die Negativ-Case-Spalte weglassen.

Wenn wir die OHE zuerst selbst machen, dann wird sklearn sie hoffentlich nicht erweitern. Wie Freddy sagte, können Sie sich dies so vorstellen, als würden Sie zwei Spalten erzeugen, die eine perfekte Kollinearität aufweisen.

Es gibt zwei Probleme, die ich beim Erweitern einer Binärdatei in zwei Spalten statt in eine sehe:

Wie andere Formen der Merkmalskollinearität bringt es viele Dinge in Bezug auf die Interpretierbarkeit durcheinander, da der Effekt der einen ursprünglichen Quellspalte auf die beiden OHE-Spalten aufgeteilt wird. Freddys neue SHAP-Rollups beheben dies offensichtlich, aber Dinge wie Feature Importance und Partial Dependence Plots werden das Problem weiterhin haben.
Baummodelle wie Random Forest und GBM sampeln ihre Eingabemerkmale nach dem Zufallsprinzip. Die Quellspalte wird in diesem Fall doppelt so oft zufällig ausgewählt, wie es eigentlich sein sollte, sodass sie einen übergroßen Einfluss auf das Modell haben kann.

rpeck am 5. März 2021

👍1

@freddyaboulton F: Der obige Datenrahmen für die OHE-Spalten zeigt sie als Floats an. Ist das wirklich wahr?

rpeck am 5. März 2021

@rpeck Ja!

freddyaboulton am 5. März 2021

😕1

@freddyaboulton Was? Das ist seltsam. Ich habe noch nie etwas anderes als echte boolesche Werte oder 0/1-Ganzzahlen gesehen. Ich frage mich, wie die Baummodelle eigentlich damit umgehen. Für mich riecht es unangenehm.

rpeck am 5. März 2021

Drittes Gesetz des Codes: Du sollst nicht machen == Vergleiche mit Floats

rpeck am 5. März 2021

😄3

(ok, es sei denn, es ist mit Math.NaN )

rpeck am 5. März 2021

Hmm, ich dachte, wir machen das!

Ich stimme zu, wir sollten. Ich dachte, es wäre nur ein Flag, das wir im zugrunde liegenden Impl setzen müssen.

dsherry am 9. März 2021

@dsherry @freddyaboulton Es sieht so aus, als hätten wir Unterstützung dafür über unseren Parameter drop , aber berücksichtigt nur Benutzereingaben und wird von unserem Impl nicht verwendet, daher verfolgt dieses Problem nur die Einstellung der Standardeinstellung für drop zu etwas anderem als None?

https://github.com/alteryx/evalml/blob/91775ffc26c47205adc0fb255832d828ead6e7c9/evalml/pipelines/components/transformers/encoders/onehot_encoder.py#L28

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

Wir könnten entweder first oder if_binary wählen, sind uns nicht sicher, was der richtige Anruf ist.

angela97lin am 11. März 2021

🎉1

@angela97lin Sie haben Recht, dass es ausreichen würde, den Standardwert zu ändern! Ich denke, first ist der richtige Weg, da wir perfekt kollineare Merkmale vermeiden sollten, selbst wenn die Anzahl der Kategorien > 2 ist. Was denkst du

freddyaboulton am 11. März 2021

👀1

Habe ein bisschen hineingelesen und diesen Link gefunden: https://inmachineswetrust.com/posts/drop-first-columns/

Die zentralen Thesen:

Das Löschen von Spalten ist nur erforderlich, wenn ein OLS-Modell ohne Regularisierung erstellt wird (ich glaube, der lineare Regressor fällt in diese Kategorie: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html, https:// scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares)
Das Löschen von One-Hot-codierten Spalten ändert die Parameter und Vorhersagen eines linearen Regressionsmodells, was sich auf das zurückgegebene Modell auswirkt. Es ist jedoch schwierig für mich festzustellen, ob dies zum Besseren oder nicht.

Der erste Kommentar von RE durcheinander , weil der Effekt der einen ursprünglichen Quellspalte auf die beiden OHE-Spalten aufgeteilt wird. Freddys neue SHAP-Rollups gehen dies offensichtlich an. Aber Dinge wie Feature Importance und Partial Dependence Plots werden das Problem immer noch haben."

Dies ist für binäre Fälle sinnvoll, aber in dem Fall, in dem wir mehrere Kategorien haben, wird das Löschen einer Spalte immer noch dieses Problem haben.

Vielleicht sollten wir dies nicht standardmäßig tun, sondern make_pipeline aktualisieren, um einen OHE mit first als Parameter zu erstellen, wenn der Schätzer ein linearer Regressor ist?

Leider habe ich kein starkes Verständnis für die zugrunde liegende Mathematik, um ein Urteil zu fällen, also würde ich gerne Ihre Gedanken hören, @freddyaboulton @rpeck @dsherry

angela97lin am 15. März 2021

Nachgespräch mit @rpeck @dsherry @chukarsten @jeremyliweishih

Wir werden dies nur für binäre Fälle tun.
Ein "nice-to-have" ist zu verwenden, im binären Fall ist die Minderheitsklasse, aber ansonsten sollte nur die Auswahl einer der beiden Kategorien ausreichen.

angela97lin am 16. März 2021

🚀2

@angela97lin klingt nach einem guten RE-Standardverhalten. Ein weiterer Vorteil: Möglichkeit, dieses Standardverhalten über die Komponentenparameter zu überschreiben

dsherry am 16. März 2021

@dsherry Wenn ich das richtig verstehe, haben Benutzer die Möglichkeit, dies zu überschreiben, indem sie den Komponentenparameter manuell drop (einem Parameter) aktualisieren.

angela97lin am 16. März 2021

Habe herumgegraben, um zu sehen, was notwendig war, um dies zu implementieren. Insbesondere war ich neugierig, wie schwierig es sein würde, die Minderheitsklasse im binären Fall immer zu entfernen.

Das Ergebnis dieses Grabens ist:

Bei scikit-learn ist es ziemlich schwierig auszuwählen, welche Kategorie entfernt werden soll. Aus der Dokumentation scheint dies über die Array-Option für den Parameter drop (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html) machbar zu sein. Nach dem Ausprobieren muss jedoch für jede Spalte ein Indexwert angegeben werden. Daher der folgende Fehler, der versucht, die bei Index 0 angegebene Kategorie für Spalte 0 und keine anderen Werte für die Spalten 1 und 2 zu entfernen:

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

X = pd.DataFrame({'col_1': ["a", "b", "b", "a", "b"],
                      'col_2': ["a", "b", "a", "c", "b"],
                      'col_3': ["a", "a", "a", "a", "a"]})

indices_to_drop = np.array([0, None, None])

ohe = OneHotEncoder(drop=indices_to_drop)
ohe.fit(X)

ValueError                                Traceback (most recent call last)
<ipython-input-4-a099fa2fc4a7> in <module>
----> 1 ohe.fit(X)

~/Desktop/venv/lib/python3.7/site-packages/sklearn/preprocessing/_encoders.py in fit(self, X, y)
    417         self._fit(X, handle_unknown=self.handle_unknown,
    418                   force_all_finite='allow-nan')
--> 419         self.drop_idx_ = self._compute_drop_idx()
    420         return self
    421 

~/Desktop/venv/lib/python3.7/site-packages/sklearn/preprocessing/_encoders.py in _compute_drop_idx(self)
    394                                 ["Category: {}, Feature: {}".format(c, v)
    395                                     for c, v in missing_drops])))
--> 396                 raise ValueError(msg)
    397             return np.array(drop_indices, dtype=object)
    398 

ValueError: The following categories were supposed to be dropped, but were not found in the training data.
Category: 0, Feature: 0
Category: 1, Feature: None
Category: 2, Feature: None

Ich glaube, dies ist auch die Hälfte dessen, was in dieser Ausgabe herausgestellt wird: https://github.com/scikit-learn/scikit-learn/issues/16511

Eine Alternative, die wir tun können, um dies zu unterstützen, besteht darin, manuell zu verfolgen, welche Spalten und welche Werte wir während der Anpassung löschen möchten. Übergeben Sie die Daten an scikit-learn. Beschneiden Sie dann die Spalten, die wir gespeichert und angegeben haben, dass wir sie löschen möchten. Dies erfordert jedoch einige logische Handhabung, um das Original (Merkmal, Wert) aus dem transformierten Spaltennamen zu ermitteln. (Wir haben diese Logik in get_feature_names aber das hilft uns, die Spaltennamen zu verbinden, vorausgesetzt, dass nichts weggelassen werden sollte ...)

All dies soll sagen, dass vielleicht nur die Verwendung des Standard-Scikit-Learn if_binary für den Moment ausreicht, und wir können ein separates Problem einreichen, um immer die Minderheitsklasse zu verwenden. Ehrlich gesagt auch dafür, dass wir uns von der OHE-Implementierung von scikit-learn abwenden, da wir so viel daran arbeiten mussten.

Nützliche Ressourcen:
OHE-Dokument: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
Code in scikit-learn verursacht Inflexibilität: https://github.com/scikit-learn/scikit-learn/blob/95119c13af77c76e150b753485c662b7c52a41a2/sklearn/preprocessing/_encoders.py#L338
Verwandtes Problem: https://github.com/scikit-learn/scikit-learn/issues/16511

Um if_binary : scikit-learn erfordert, dass handle_unknown error . Dies passt nicht gut zu unseren top_n Parametern, die alles außer den Top N Kategorien fallen lassen, weil die zu transformierenden Daten nicht wissen, was sie mit den neuen Kategorien anfangen sollen. Wie Becca in https://github.com/alteryx/evalml/pull/830 feststellte, müssten wir top_n auf None setzen, damit diese Parameter funktionieren.

In diesem Sinne ist es vielleicht am besten, einfach unser eigenes Impl zu rollen 🤔

angela97lin am 17. März 2021

👍1

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Evalml: Ein Hot Encoder: Lassen Sie standardmäßig ein redundantes Feature für Features mit zwei Kategorien fallen

Hilfreichster Kommentar

Alle 14 Kommentare

Verwandte Themen