Scikit-learn: Dokumen CountVectorizer dan TfidfVectorizer tidak menyebutkan token_pattern diabaikan saat melewati tokenizer khusus

Dibuat pada 29 Nov 2019 · 3Komentar · Sumber: scikit-learn/scikit-learn

Keterangan

Dokumentasi untuk Countvectorizer dan TfidfVectorizer tidak jelas tentang interaksi antara token_pattern dan meneruskan tokenizer kustom. Saat ini, ketika tokenizer dilewatkan, token_pattern diabaikan. Tetapi entri docstring untuk parameter tokenizer hanya menyebutkan Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Bagi saya, tidak segera jelas bahwa ini berarti token_pattern tidak digunakan sama sekali.

Inilah pengguna yang terlempar oleh ini: Stackoverflow

Beberapa hal yang dapat saya pikirkan:

berikan peringatan jika pengguna melewati pola token (non-standar) dan tokenizer khusus
perbarui docstring agar eksplisit tentang interaksi

Sumber

stephantul

Komentar yang paling membantu

Peringatan itu baru. Mari kita lihat bagaimana kelanjutannya

jnothman pada 1 Des 2019

👍3

Semua 3 komentar

Peringatan harus ada di 0.23rc3. mencobanya untuk kita?

jnothman pada 30 Nov 2019

Tentu. Peringatan ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) memang muncul, saya salah karena tidak memeriksanya terlebih dahulu. Jika Anda mau, saya dapat membuat PR dengan beberapa pengeditan dokumen yang menyatakan apa yang sedang terjadi, tetapi mungkin peringatannya sudah cukup.

stephantul pada 30 Nov 2019

Peringatan itu baru. Mari kita lihat bagaimana kelanjutannya

jnothman pada 1 Des 2019

👍3

Apakah halaman ini membantu?

0 / 5 - 0 peringkat