Die Dokumentation für den Countvectorizer und TfidfVectorizer ist nicht klar über die Interaktion zwischen token_pattern
und der Übergabe eines benutzerdefinierten tokenizer
. Wenn ein tokenizer
wird, wird derzeit das token_pattern
ignoriert. Aber der Docstring-Eintrag für den Tokenizer-Parameter erwähnt nur Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. Für mich war nicht sofort klar, dass damit token_pattern
nicht verwendet wurde.
Hier ist ein Benutzer, der davon geworfen wurde: Stackoverflow
Einige Dinge fallen mir ein:
Warnungen sollten in 0.23rc3 vorliegen. versuchen Sie es für uns?
Sicher. Die Warnung ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) wird tatsächlich angezeigt, mein Fehler, dass ich sie nicht zuerst überprüft habe. Wenn Sie möchten, kann ich eine PR mit einigen Dokumentbearbeitungen erstellen, die angeben, was vor sich geht, aber vielleicht reicht die Warnung aus.
Die Warnung ist neu. Mal sehen wie es läuft
Hilfreichster Kommentar
Die Warnung ist neu. Mal sehen wie es läuft