La documentación para Countvectorizer y TfidfVectorizer no es clara sobre la interacción entre token_pattern
y pasar un tokenizer
. Actualmente, cuando un tokenizer
se pasa, el token_pattern
se ignora. Pero la entrada de la cadena de documentos para el parámetro del tokenizador solo menciona Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. Para mí, no quedó claro de inmediato que esto significara que token_pattern
no se usó en absoluto.
Aquí 'un usuario que fue arrojado por esto: Stackoverflow
Algunas cosas en las que puedo pensar:
Las advertencias deben estar presentes en 0.23rc3. probarlo por nosotros?
Seguro. La advertencia ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) de hecho aparece, mi mal por no verificarla primero. Si lo desea, puedo crear un PR con algunas ediciones de documentos que indiquen lo que está sucediendo, pero tal vez la advertencia sea suficiente.
La advertencia es nueva. Veamos cómo va
Comentario más útil
La advertencia es nueva. Veamos cómo va