Scikit-learn: Los documentos CountVectorizer y TfidfVectorizer no mencionan que token_pattern se ignora al pasar un tokenizador personalizado

Creado en 29 nov. 2019 · 3Comentarios · Fuente: scikit-learn/scikit-learn

Descripción

La documentación para Countvectorizer y TfidfVectorizer no es clara sobre la interacción entre token_pattern y pasar un tokenizer . Actualmente, cuando un tokenizer se pasa, el token_pattern se ignora. Pero la entrada de la cadena de documentos para el parámetro del tokenizador solo menciona Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Para mí, no quedó claro de inmediato que esto significara que token_pattern no se usó en absoluto.

Aquí 'un usuario que fue arrojado por esto: Stackoverflow

Algunas cosas en las que puedo pensar:

generar una advertencia si el usuario pasa un patrón de token (no estándar) y un tokenizador personalizado
actualice la cadena de documentos para que sea explícito sobre la interacción

Fuente

stephantul

Comentario más útil

La advertencia es nueva. Veamos cómo va

jnothman en 1 dic. 2019

👍3

Todos 3 comentarios

Las advertencias deben estar presentes en 0.23rc3. probarlo por nosotros?

jnothman en 30 nov. 2019

Seguro. La advertencia ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) de hecho aparece, mi mal por no verificarla primero. Si lo desea, puedo crear un PR con algunas ediciones de documentos que indiquen lo que está sucediendo, pero tal vez la advertencia sea suficiente.

stephantul en 30 nov. 2019

La advertencia es nueva. Veamos cómo va

jnothman en 1 dic. 2019

👍3

¿Fue útil esta página

0 / 5 - 0 calificaciones