La documentation du Countvectorizer et du TfidfVectorizer n'est pas claire sur l'interaction entre token_pattern
et le passage d'un tokenizer
. Actuellement, lorsqu'un tokenizer
est passé, le token_pattern
est ignoré. Mais l'entrée docstring pour le paramètre tokenizer ne mentionne que Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. Pour moi, il n'était pas immédiatement clair que cela signifiait que token_pattern
n'était pas du tout utilisé.
Voici un utilisateur qui a été renversé par ceci : Stackoverflow
Certaines choses auxquelles je peux penser:
Les avertissements doivent être présents dans 0.23rc3. l'essayer pour nous?
Sûr. L'avertissement ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) s'affiche en effet, c'est dommage de ne pas l'avoir vérifié en premier. Si vous le souhaitez, je peux créer un PR avec quelques modifications de la documentation indiquant ce qui se passe, mais peut-être que l'avertissement est suffisant.
L'avertissement est nouveau. Voyons comment ça se passe
Commentaire le plus utile
L'avertissement est nouveau. Voyons comment ça se passe