В документации для Countvectorizer и TfidfVectorizer неясно взаимодействие между token_pattern
и передачей пользовательского tokenizer
. В настоящее время, когда передается tokenizer
, token_pattern
игнорируется. Но в строке документации для параметра токенизатора упоминается только Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
. Для меня не сразу было ясно, что это означает, что token_pattern
вообще не используется.
Вот пользователь, которого это бросило :
Некоторые вещи, о которых я могу думать:
Предупреждения должны присутствовать в 0.23rc3. попробуй для нас?
Конечно. Предупреждение ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
) действительно появляется, я плохо, что не проверил его сначала. Если хотите, я могу создать PR с некоторыми правками документов, в которых говорится о том, что происходит, но, возможно, предупреждения будет достаточно.
Предупреждение новое. Посмотрим, как это будет
Самый полезный комментарий
Предупреждение новое. Посмотрим, как это будет