Scikit-learn: Os documentos CountVectorizer e TfidfVectorizer não mencionam que token_pattern é ignorado ao passar um tokenizer personalizado

Criado em 29 nov. 2019  ·  3Comentários  ·  Fonte: scikit-learn/scikit-learn

Descrição

A documentação do Countvectorizer e do TfidfVectorizer não é clara sobre a interação entre token_pattern e a passagem de um tokenizer . Atualmente, quando um tokenizer é passado, o token_pattern é ignorado. Mas a entrada docstring para o parâmetro tokenizer menciona apenas Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Para mim, não ficou imediatamente claro se isso significava que token_pattern não foi usado.

Aqui está um usuário que ficou surpreso com isso: Stackoverflow

Algumas coisas em que posso pensar:

  • gerar um aviso se o usuário passar um padrão de token (não padrão) e um tokenizer personalizado
  • atualize a docstring para ser explícito sobre a interação

Comentários muito úteis

O aviso é novo. Vamos ver como acontece

Todos 3 comentários

Os avisos devem estar presentes em 0,23rc3. tente para nós?

Certo. O aviso ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) realmente aparece, meu mal por não tê-lo verificado primeiro. Se você quiser, posso criar um PR com algumas edições de documentos que informam o que está acontecendo, mas talvez o aviso seja suficiente.

O aviso é novo. Vamos ver como acontece

Esta página foi útil?
0 / 5 - 0 avaliações