Scikit-learn: Les documents CountVectorizer et TfidfVectorizer ne mentionnent pas que token_pattern est ignoré lors de la transmission d'un tokenizer personnalisé

Créé le 29 nov. 2019 · 3Commentaires · Source: scikit-learn/scikit-learn

La description

La documentation du Countvectorizer et du TfidfVectorizer n'est pas claire sur l'interaction entre token_pattern et le passage d'un tokenizer . Actuellement, lorsqu'un tokenizer est passé, le token_pattern est ignoré. Mais l'entrée docstring pour le paramètre tokenizer ne mentionne que Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Pour moi, il n'était pas immédiatement clair que cela signifiait que token_pattern n'était pas du tout utilisé.

Voici un utilisateur qui a été renversé par ceci : Stackoverflow

Certaines choses auxquelles je peux penser:

déclencher un avertissement si l'utilisateur passe un modèle de jeton (non standard) et un générateur de jetons personnalisé
mettre à jour la docstring pour être explicite sur l'interaction

Source

stephantul

Commentaire le plus utile

L'avertissement est nouveau. Voyons comment ça se passe

jnothman le 1 déc. 2019

👍3

Tous les 3 commentaires

Les avertissements doivent être présents dans 0.23rc3. l'essayer pour nous?

jnothman le 30 nov. 2019

Sûr. L'avertissement ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) s'affiche en effet, c'est dommage de ne pas l'avoir vérifié en premier. Si vous le souhaitez, je peux créer un PR avec quelques modifications de la documentation indiquant ce qui se passe, mais peut-être que l'avertissement est suffisant.

stephantul le 30 nov. 2019

L'avertissement est nouveau. Voyons comment ça se passe

jnothman le 1 déc. 2019

👍3

Cette page vous a été utile?

0 / 5 - 0 notes

Questions connexes

sklearn.cross_validation LabelKFold donne des avertissements et des erreurs

StevenLOL · 3Commentaires

Ajouter un badge Azure Pipelines au fichier Lisez-moi?

amueller · 3Commentaires

warnings.filterwarnings -- veuillez ne pas faire cela. c'est un mauvais comportement.

dfee · 3Commentaires

GridSearchCV.fit(...,n_job=-1) peut contenir un bogue de parallélisme

tluocs · 3Commentaires

Améliorer la conception des classes pour AgglomerativeClustering et FeatureAgglomeration (pooling_func dans AgglomerativeClustering ne fonctionnait pas)

yinruiqing · 3Commentaires