A documentação do Countvectorizer e do TfidfVectorizer não é clara sobre a interação entre token_pattern
e a passagem de um tokenizer
. Atualmente, quando um tokenizer
é passado, o token_pattern
é ignorado. Mas a entrada docstring para o parâmetro tokenizer menciona apenas Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. Para mim, não ficou imediatamente claro se isso significava que token_pattern
não foi usado.
Aqui está um usuário que ficou surpreso com isso: Stackoverflow
Algumas coisas em que posso pensar:
Os avisos devem estar presentes em 0,23rc3. tente para nós?
Certo. O aviso ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) realmente aparece, meu mal por não tê-lo verificado primeiro. Se você quiser, posso criar um PR com algumas edições de documentos que informam o que está acontecendo, mas talvez o aviso seja suficiente.
O aviso é novo. Vamos ver como acontece
Comentários muito úteis
O aviso é novo. Vamos ver como acontece