Scikit-learn: CountVectorizer- und TfidfVectorizer-Dokumente erwähnen nicht, dass token_pattern ignoriert wird, wenn ein benutzerdefinierter Tokenizer übergeben wird

Erstellt am 29. Nov. 2019  ·  3Kommentare  ·  Quelle: scikit-learn/scikit-learn

Beschreibung

Die Dokumentation für den Countvectorizer und TfidfVectorizer ist nicht klar über die Interaktion zwischen token_pattern und der Übergabe eines benutzerdefinierten tokenizer . Wenn ein tokenizer wird, wird derzeit das token_pattern ignoriert. Aber der Docstring-Eintrag für den Tokenizer-Parameter erwähnt nur Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Für mich war nicht sofort klar, dass damit token_pattern nicht verwendet wurde.

Hier ist ein Benutzer, der davon geworfen wurde: Stackoverflow

Einige Dinge fallen mir ein:

  • eine Warnung ausgeben, wenn der Benutzer ein (nicht standardmäßiges) Token-Muster und einen benutzerdefinierten Tokenizer übergibt
  • Aktualisieren Sie den Docstring, um die Interaktion explizit anzugeben

Hilfreichster Kommentar

Die Warnung ist neu. Mal sehen wie es läuft

Alle 3 Kommentare

Warnungen sollten in 0.23rc3 vorliegen. versuchen Sie es für uns?

Sicher. Die Warnung ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) wird tatsächlich angezeigt, mein Fehler, dass ich sie nicht zuerst überprüft habe. Wenn Sie möchten, kann ich eine PR mit einigen Dokumentbearbeitungen erstellen, die angeben, was vor sich geht, aber vielleicht reicht die Warnung aus.

Die Warnung ist neu. Mal sehen wie es läuft

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen