Scikit-learn: CountVectorizer 和 TfidfVectorizer 文档没有提到传递自定义标记器时 token_pattern 被忽略

创建于 2019-11-29  ·  3评论  ·  资料来源: scikit-learn/scikit-learn

描述

Countvectorizer 和 TfidfVectorizer 的文档并不清楚token_pattern和传递自定义tokenizer之间的交互。 目前,当tokenizer通过, token_pattern被忽略。 但是 tokenizer 参数的文档字符串条目只提到Override the string tokenization step while preserving the preprocessing and n-grams generation steps. 。 对我来说,并不清楚这意味着根本没有使用token_pattern

这是一个被抛出的用户: Stackoverflow

我能想到的一些事情:

  • 如果用户传递(非标准)令牌模式和自定义令牌生成器,则发出警告
  • 更新文档字符串以明确交互

最有用的评论

警告是新的。 让我们看看它是怎么回事

所有3条评论

警告应该出现在 0.23rc3 中。 给我们试试?

当然。 警告( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' )确实出现了,我的坏处是没有先检查它。 如果你愿意,我可以创建一个带有一些文档编辑的 PR,说明正在发生的事情,但也许警告就足够了。

警告是新的。 让我们看看它是怎么回事

此页面是否有帮助?
0 / 5 - 0 等级