Evalml: Rückruf als Automl-Ziel nicht zulassen

Erstellt am 10. März 2020 · 5Kommentare · Quelle: alteryx/evalml

Problem
Ein Modell, das immer wahr vorhersagt, hat einen perfekten Erinnerungswert. Indem wir automl erlauben, den Rückruf zu optimieren, ermutigen wir es, ein triviales Modell zu erstellen.

Hilfreiche Referenz hier .

Vorschlag
Löschen Sie das Rückrufziel.

Im Allgemeinen sollten wir den Satz von Automl-Zielen auf diejenigen beschränken, die wir für wertvoll halten und bei denen die Optimierung für diese Ziele gute Modelle hervorbringt.

Ich denke, wir sollten auch mehr binäre Klassifizierungsziele hinzufügen. Nr. 457 enthält einen Vorschlag für einen, der für unausgeglichene Klassen gut sein könnte.

Fragen
*Kann ein ähnliches Argument für Präzision angeführt werden? Oder ist es sinnvoll, dies zu optimieren?
*Kann ein ähnliches Argument für die Genauigkeit vorgebracht werden (#294)?

@angela97lin @kmax12 FYI

enhancement

Quelle

dsherry

👀1

Hilfreichster Kommentar

Ich denke, Präzision und Genauigkeit sind in dem Sinne in Ordnung, dass sie Ihnen kein triviales Modell geben.

Wir wollen Recall nicht unbedingt als Ziel löschen, es sollte nur nicht in der Automl-Suche dagegen optimiert werden. Zum Beispiel möchte ich vielleicht für f1 optimieren, aber dann meine Erinnerungspunktzahl daneben sehen

kmax12 am 10. März 2020

👍2

Alle 5 Kommentare

Ich denke, Präzision und Genauigkeit sind in dem Sinne in Ordnung, dass sie Ihnen kein triviales Modell geben.

kmax12 am 10. März 2020

👍2

@kmax12 Ja, richtig, wir möchten den Code, der den Rückruf berechnet, nicht löschen, und wir möchten die Berechnung des Rückrufs weiterhin als Punktzahl in einer Pipeline unterstützen, aber wir möchten dies als unterstütztes Optimierungsziel in automl verbieten.

Dies erinnert mich an die anhaltende Diskussion um die Plotting-/Info-Methoden für binäre Klassifikationen für ROC und Konfusionsmatrix (#427, #365). Das sind keine Metriken, für die wir in automl optimieren können, und es sind auch keine Einzahl-Scores, aber unter unserer API bestand die einfachste Möglichkeit, sie zu definieren, darin, sie als Instanzen von ObjectiveBase hinzuzufügen.

Wir haben derzeit eine Reihe von Dingen, die mit Pipelines berechnet werden können:

Vorhersagen
Zielfunktionswerte für automl
Scoring-Metriken, nach automl
Plotten von Daten (Beispiel für binäre Klassifikation: ROC-Kurve, Konfusionsmatrix)
Feature-Bedeutungen

Ich denke, bis heute haben wir versucht, ObjectiveBase zu verwenden, um 2, 3 und 4 darzustellen. Mit anderen Worten, uns fehlt eine klare API, um Scoring-Methoden und Plot-Methoden zu definieren, getrennt vom Automl-Prozess .

Ich denke, der nächste Schritt hier sollte darin bestehen, diese APIs zu entwerfen. Sieht so aus, als hätte ich das bereits als #392 abgelegt. Ich werde dieses Ticket so aktualisieren, dass es darauf blockiert wird.

dsherry am 11. März 2020

👍1

Für die derzeitige Überarbeitung der Ziel-API haben wir ROC und Confusion Matrix stattdessen nach PlotMetrics verschoben (weniger Designaufwand, dies war der einfachste Weg, diese beiden von den übrigen Zielen ohne zu trennen Dinge kaputt machen). Wir haben auch can_optimize_threshold als Attribut für BinaryClassificationObjective hinzugefügt, wenn also fit() mit einem Ziel mit can_optimize_threshold=True aufgerufen wird, dann optimieren wir für dieses Ziel, andernfalls optimieren wir für Genauigkeit. Gedanken dazu und wie könnte dies mit einigen der hier aufgeworfenen Fragen übereinstimmen? Wäre es unklar, wenn ein Benutzer bei Recall fit anruft, wir aber stattdessen auf Genauigkeit optimiert haben?

angela97lin am 11. März 2020

@angela97lin ja, ich denke, dass die Verschiebung von ROC/confusion von ObjectiveBase ein positiver Schritt war! Ich denke, #392 sollte weitergehen. Lassen Sie uns stattdessen das Gespräch darüber fortsetzen, wie die API auf #392 aktualisiert wird. Auf diese Weise kann dieses Problem nur den Rückruf von Aktualisierungen verfolgen, sobald wir eine Entscheidung darüber getroffen haben, wie wir mit diesem Zeug allgemeiner umgehen.

Ich denke auch, dass die Optimierung der Schwellenwerte für die binäre Klassifizierung ein separates Thema ist, und zum Glück eines, das Ihre laufende Arbeit in # 346 zu 100% behandelt!

dsherry am 11. März 2020

Zusammenfassende Diskussion mit @eccabay und @jeremyliweishih vorhin : Optionen, dies zu unterstützen, sind:

Löschen Sie die Rückrufziele vollständig.
Löschen Sie die Einträge für die Rückrufziele in objectives/utils.py OPTIONS und bestätigen Sie, dass diese Ziele in automl nicht zugelassen werden.

dsherry am 19. Mai 2020

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Evalml: Rückruf als Automl-Ziel nicht zulassen

Hilfreichster Kommentar

Alle 5 Kommentare

Verwandte Themen