Scikit-learn: CountVectorizerとTfidfVectorizerのドキュメントには、カスタムトークナイザーを渡すときにtoken_patternが無視されるとは記載されていません

作成日 2019年11月29日 · 3コメント · ソース: scikit-learn/scikit-learn

説明

CountvectorizerとTfidfVectorizerのドキュメントは、 token_patternとカスタムtokenizer受け渡しの間の相互作用について明確ではありません。現在、 tokenizerが渡されると、 token_patternは無視されます。ただし、tokenizerパラメーターのdocstringエントリには、 Override the string tokenization step while preserving the preprocessing and n-grams generation steps.しか記載されていません。私には、これがtoken_patternがまったく使用されなかったことを意味することはすぐにはわかりませんでした。

これによってスローされたユーザーは次のとおりです： Stackoverflow

私が考えることができるいくつかのこと：

ユーザーが（非標準の）トークンパターンとカスタムトークナイザーを渡すと、警告が表示されます
相互作用について明示的になるようにdocstringを更新します

ソース

stephantul

最も参考になるコメント

警告は新しいものです。それがどうなるか見てみましょう

jnothman 2019年12月01日

👍3

全てのコメント3件

警告は0.23rc3に存在する必要があります。私たちのためにそれを試してみませんか？

jnothman 2019年11月30日

もちろん。警告（ UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ）は確かに表示されますが、最初にチェックしないのは悪いことです。必要に応じて、何が起こっているかを示すいくつかのドキュメント編集を使用してPRを作成できますが、おそらく警告で十分です。

stephantul 2019年11月30日

警告は新しいものです。それがどうなるか見てみましょう

jnothman 2019年12月01日

👍3

このページは役に立ちましたか？

0 / 5 - 0 評価