Xgboost: Ansatz (Dokumentation) Mehrdeutigkeit

Erstellt am 25. Nov. 2015 · 3Kommentare · Quelle: dmlc/xgboost

Hallo, ich versuche, den xgboost-Ansatz für das Modelltraining zu verstehen. Damit meine ich folgendes. Ich kann entweder Booster verwenden und xgb.train aufrufen oder ich kann sklearn-APIs verwenden, um Classifier/Regressor zu verwenden. Das Problem, dass ich im früheren Ansatz (gemäß der xgboost-Dokumentation) die Anzahl der Boosting-Iterationen angeben muss und keine Anzahl von Bäumen angeben muss, während ich später die Anzahl der Boosting-Bäume angeben muss, um zu passen, aber ich habe keine Option um die Anzahl der verstärkten Iterationen anzugeben. Ist die Anzahl der Boosting-Iterationen die Anzahl der Schätzer? Kann das jemand klären?

Wenn ich den Code richtig lese, verwenden die sklearn-APIs einen internen Booster, sodass ich meinem xgb.train clf._Booster zuweisen kann, wobei n_estimators der Anzahl der Boosted-Runden entspricht. Und ich muss clf.fit nicht anrufen, wenn eine solche Zuordnung vorgenommen wurde. Habe ich recht? Wenn ja, kann die Dokumentation angepasst werden, um explizit zu sagen, dass n_estimators das ist, was num_rounds für xgb.train verwendet.

Es wäre schön, eine Dokumentation zu haben, die genau die Beziehung zwischen dem Low-Level-Booster-Ansatz und den Sklearn-APIs erklärt. Ich verstehe, dass später die erste aufgerufen wird, aber es wäre schön zu verstehen, wie es gemacht wird, und dies in der Dokumentation zu klären, um Verwirrung für das Ende zu vermeiden -Benutzer.

Quelle

vkuznet

👍4 ❤1

Hilfreichster Kommentar

Hallo Wladimir,

Boosting ist im Allgemeinen ein Meta-Algorithmus, der iterativ (oder in "Runden") eine Sequenz einfacher/schwacher Lernender (oder Schätzer) so trainiert, dass die gesamte Kombination besser abschneidet. Es kann verschiedene Arten von schwachen Lernenden geben, nicht nur Bäume. ZB hat xgboost Bäume und (verallgemeinerte) lineare Modelloptionen. Seltsamerweise werden diese schwachen Lerner in xgboost als "Booster" bezeichnet und das gesamte Kombinationsmodell wird als "Lerner" bezeichnet. Das verwirrte mich ein wenig, als ich zum ersten Mal die Dokumente und den Code von xgboost las, da es eine Art Umkehrung zu meinem eigenen mentalen Abdruck der Terminologie war.

Es wäre zwar schön, eine konsistente Nomenklatur zwischen verschiedenen Projekten zu demselben Thema und eine konsistente, qualitativ hochwertige Cross-Link-Dokumentation zu haben, aber es ist nicht immer machbar oder leicht zu warten, insbesondere in Open-Source-Projekten. Anfänger neigen dazu, meist eine einzige Benutzeroberfläche zu verwenden. Anwender, die sich mit der Materie gut auskennen, könnten die Gemeinsamkeiten leicht abbilden. Und wer sich für Details auf niedriger Ebene interessiert, der kümmert sich normalerweise genug, um den Code zu lesen.

Was Ihre spezielle Frage betrifft, lesen Sie richtig, dass der Parameter n_estimators im sklearn-Wrapper-Code [1] num_boost_round innerhalb von train [2] zugeordnet ist. Aber warum möchten Sie als Endbenutzer ein Sklearn-Wrapper-Objekt auf diese Weise hacken? Um dies kontrollierbar zu machen, müssten Sie den Wrapper-Code ziemlich gut kennen.

[1] https://github.com/dmlc/xgboost/blob/2859c190cd0d168df25e2a7ea2b1fd5211ce94f0/python-package/xgboost/sklearn.py#L185
[2] https://github.com/dmlc/xgboost/blob/83e61bf99ec7d01607867b4e281da283230883b1/python-package/xgboost/training.py#L12

khotilov am 26. Nov. 2015

👍4

Alle 3 Kommentare

Hallo Wladimir,

khotilov am 26. Nov. 2015

👍4

Gibt es die gleichen Probleme für R?

Am Do, 26. November 2015 um 11:39 Uhr, Vadim Khotilovich <
[email protected]> schrieb:

Hallo Wladimir,
Boosting ist im Allgemeinen ein Meta-Algorithmus, der iterativ (oder in
"Runden") trainiert eine Abfolge einfacher/schwacher Lernender (oder Schätzer) in solchen
so dass die gesamte Kombination besser abschneidet. Es könnten verschiedene sein
Arten von schwachen Lernenden, nicht nur Bäume. ZB hat xgboost Bäume und
(verallgemeinerte) lineare Modelloptionen. Seltsamerweise sind diese schwachen Lernenden in
xgboost werden als "Booster" bezeichnet und das gesamte Kombinationsmodell ist
als "Lerner" bezeichnet. Das hat mich anfangs etwas verwirrt
das Lesen der Dokumente und des Codes von xgboost, da es irgendwie umgekehrt zu meiner eigenen Mentalität war
Impressum der Terminologie.
Es wäre zwar schön, eine einheitliche Nomenklatur zwischen verschiedenen zu haben
Projekte, die sich auf das gleiche Thema beziehen und ein konstant hohes
hochwertige Cross-Link-Dokumentation, es ist nicht immer machbar oder einfach
wartbar, insbesondere in Open-Source-Projekten. Anfänger neigen dazu,
verwenden meist eine einzige Schnittstelle. Anwender, die sich mit dem Thema gut auskennen
Materie wäre leicht in der Lage, die Gemeinsamkeiten abzubilden. Und wen es interessiert
um Details auf niedriger Ebene kümmern sie sich normalerweise genug, um den Code zu lesen.
Was Ihre spezifische Frage betrifft, lesen Sie richtig, dass die n_estimators
Parameter im sklearn-Wrapper-Code [1] wird num_boost_round innerhalb . zugeordnet
Zug [2]. Aber warum möchten Sie als Endbenutzer ein Sklearn hacken?
Wrapper-Objekt so? Um dies kontrollierbar zu tun, müssten Sie
um den Wrapper-Code ziemlich gut kennenzulernen.
[1]
https://github.com/dmlc/xgboost/blob/2859c190cd0d168df25e2a7ea2b1fd5211ce94f0/python-package/xgboost/sklearn.py#L185
[2]
https://github.com/dmlc/xgboost/blob/83e61bf99ec7d01607867b4e281da283230883b1/python-package/xgboost/training.py#L12
—
Antworten Sie direkt auf diese E-Mail oder zeigen Sie sie auf GitHub an
https://github.com/dmlc/xgboost/issues/651#issuecomment -159956213.

Sandy4321 am 26. Nov. 2015

@khotilov , danke für die Erklärung. Es reicht für meine Bedürfnisse und ich schließe das Ticket.

vkuznet am 2. Dez. 2015

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Xgboost: Ansatz (Dokumentation) Mehrdeutigkeit

Hilfreichster Kommentar

Alle 3 Kommentare

Verwandte Themen