Scikit-learn: В документах CountVectorizer и TfidfVectorizer не упоминается, что token_pattern игнорируется при передаче пользовательского токенизатора

Созданный на 29 нояб. 2019 · 3Комментарии · Источник: scikit-learn/scikit-learn

Описание

В документации для Countvectorizer и TfidfVectorizer неясно взаимодействие между token_pattern и передачей пользовательского tokenizer . В настоящее время, когда передается tokenizer , token_pattern игнорируется. Но в строке документации для параметра токенизатора упоминается только Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Для меня не сразу было ясно, что это означает, что token_pattern вообще не используется.

Вот пользователь, которого это бросило :

Некоторые вещи, о которых я могу думать:

генерировать предупреждение, если пользователь передает (нестандартный) шаблон токена и настраиваемый токенизатор
обновить строку документации, чтобы она была явной о взаимодействии

Источник

stephantul

Самый полезный комментарий

Предупреждение новое. Посмотрим, как это будет

jnothman 1 дек. 2019

👍3

Все 3 Комментарий

Предупреждения должны присутствовать в 0.23rc3. попробуй для нас?

jnothman 30 нояб. 2019

Конечно. Предупреждение ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) действительно появляется, я плохо, что не проверил его сначала. Если хотите, я могу создать PR с некоторыми правками документов, в которых говорится о том, что происходит, но, возможно, предупреждения будет достаточно.

stephantul 30 нояб. 2019

Предупреждение новое. Посмотрим, как это будет

jnothman 1 дек. 2019

👍3

Была ли эта страница полезной?

0 / 5 - 0 рейтинги