Countvectorizer 和 TfidfVectorizer 的文档并不清楚token_pattern
和传递自定义tokenizer
之间的交互。 目前,当tokenizer
通过, token_pattern
被忽略。 但是 tokenizer 参数的文档字符串条目只提到Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
。 对我来说,并不清楚这意味着根本没有使用token_pattern
。
这是一个被抛出的用户: Stackoverflow
我能想到的一些事情:
警告应该出现在 0.23rc3 中。 给我们试试?
当然。 警告( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
)确实出现了,我的坏处是没有先检查它。 如果你愿意,我可以创建一个带有一些文档编辑的 PR,说明正在发生的事情,但也许警告就足够了。
警告是新的。 让我们看看它是怎么回事
最有用的评论
警告是新的。 让我们看看它是怎么回事