Scikit-learn: Los documentos CountVectorizer y TfidfVectorizer no mencionan que token_pattern se ignora al pasar un tokenizador personalizado

Creado en 29 nov. 2019  ·  3Comentarios  ·  Fuente: scikit-learn/scikit-learn

Descripción

La documentación para Countvectorizer y TfidfVectorizer no es clara sobre la interacción entre token_pattern y pasar un tokenizer . Actualmente, cuando un tokenizer se pasa, el token_pattern se ignora. Pero la entrada de la cadena de documentos para el parámetro del tokenizador solo menciona Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Para mí, no quedó claro de inmediato que esto significara que token_pattern no se usó en absoluto.

Aquí 'un usuario que fue arrojado por esto: Stackoverflow

Algunas cosas en las que puedo pensar:

  • generar una advertencia si el usuario pasa un patrón de token (no estándar) y un tokenizador personalizado
  • actualice la cadena de documentos para que sea explícito sobre la interacción

Comentario más útil

La advertencia es nueva. Veamos cómo va

Todos 3 comentarios

Las advertencias deben estar presentes en 0.23rc3. probarlo por nosotros?

Seguro. La advertencia ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) de hecho aparece, mi mal por no verificarla primero. Si lo desea, puedo crear un PR con algunas ediciones de documentos que indiquen lo que está sucediendo, pero tal vez la advertencia sea suficiente.

La advertencia es nueva. Veamos cómo va

¿Fue útil esta página
0 / 5 - 0 calificaciones