CountvectorizerとTfidfVectorizerのドキュメントは、 token_pattern
とカスタムtokenizer
受け渡しの間の相互作用について明確ではありません。 現在、 tokenizer
が渡されると、 token_pattern
は無視されます。 ただし、tokenizerパラメーターのdocstringエントリには、 Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
しか記載されていません。 私には、これがtoken_pattern
がまったく使用されなかったことを意味することはすぐにはわかりませんでした。
これによってスローされたユーザーは次のとおりです: Stackoverflow
私が考えることができるいくつかのこと:
警告は0.23rc3に存在する必要があります。 私たちのためにそれを試してみませんか?
もちろん。 警告( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
)は確かに表示されますが、最初にチェックしないのは悪いことです。 必要に応じて、何が起こっているかを示すいくつかのドキュメント編集を使用してPRを作成できますが、おそらく警告で十分です。
警告は新しいものです。 それがどうなるか見てみましょう
最も参考になるコメント
警告は新しいものです。 それがどうなるか見てみましょう