Scikit-learn: Les documents CountVectorizer et TfidfVectorizer ne mentionnent pas que token_pattern est ignoré lors de la transmission d'un tokenizer personnalisé

Créé le 29 nov. 2019  ·  3Commentaires  ·  Source: scikit-learn/scikit-learn

La description

La documentation du Countvectorizer et du TfidfVectorizer n'est pas claire sur l'interaction entre token_pattern et le passage d'un tokenizer . Actuellement, lorsqu'un tokenizer est passé, le token_pattern est ignoré. Mais l'entrée docstring pour le paramètre tokenizer ne mentionne que Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Pour moi, il n'était pas immédiatement clair que cela signifiait que token_pattern n'était pas du tout utilisé.

Voici un utilisateur qui a été renversé par ceci : Stackoverflow

Certaines choses auxquelles je peux penser:

  • déclencher un avertissement si l'utilisateur passe un modèle de jeton (non standard) et un générateur de jetons personnalisé
  • mettre à jour la docstring pour être explicite sur l'interaction

Commentaire le plus utile

L'avertissement est nouveau. Voyons comment ça se passe

Tous les 3 commentaires

Les avertissements doivent être présents dans 0.23rc3. l'essayer pour nous?

Sûr. L'avertissement ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) s'affiche en effet, c'est dommage de ne pas l'avoir vérifié en premier. Si vous le souhaitez, je peux créer un PR avec quelques modifications de la documentation indiquant ce qui se passe, mais peut-être que l'avertissement est suffisant.

L'avertissement est nouveau. Voyons comment ça se passe

Cette page vous a été utile?
0 / 5 - 0 notes