Scikit-learn: В документах CountVectorizer и TfidfVectorizer не упоминается, что token_pattern игнорируется при передаче пользовательского токенизатора

Созданный на 29 нояб. 2019  ·  3Комментарии  ·  Источник: scikit-learn/scikit-learn

Описание

В документации для Countvectorizer и TfidfVectorizer неясно взаимодействие между token_pattern и передачей пользовательского tokenizer . В настоящее время, когда передается tokenizer , token_pattern игнорируется. Но в строке документации для параметра токенизатора упоминается только Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Для меня не сразу было ясно, что это означает, что token_pattern вообще не используется.

Вот пользователь, которого это бросило :

Некоторые вещи, о которых я могу думать:

  • генерировать предупреждение, если пользователь передает (нестандартный) шаблон токена и настраиваемый токенизатор
  • обновить строку документации, чтобы она была явной о взаимодействии

Самый полезный комментарий

Предупреждение новое. Посмотрим, как это будет

Все 3 Комментарий

Предупреждения должны присутствовать в 0.23rc3. попробуй для нас?

Конечно. Предупреждение ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) действительно появляется, я плохо, что не проверил его сначала. Если хотите, я могу создать PR с некоторыми правками документов, в которых говорится о том, что происходит, но, возможно, предупреждения будет достаточно.

Предупреждение новое. Посмотрим, как это будет

Была ли эта страница полезной?
0 / 5 - 0 рейтинги