Scikit-learn: Dokumen CountVectorizer dan TfidfVectorizer tidak menyebutkan token_pattern diabaikan saat melewati tokenizer khusus

Dibuat pada 29 Nov 2019  ·  3Komentar  ·  Sumber: scikit-learn/scikit-learn

Keterangan

Dokumentasi untuk Countvectorizer dan TfidfVectorizer tidak jelas tentang interaksi antara token_pattern dan meneruskan tokenizer kustom. Saat ini, ketika tokenizer dilewatkan, token_pattern diabaikan. Tetapi entri docstring untuk parameter tokenizer hanya menyebutkan Override the string tokenization step while preserving the preprocessing and n-grams generation steps. . Bagi saya, tidak segera jelas bahwa ini berarti token_pattern tidak digunakan sama sekali.

Inilah pengguna yang terlempar oleh ini: Stackoverflow

Beberapa hal yang dapat saya pikirkan:

  • berikan peringatan jika pengguna melewati pola token (non-standar) dan tokenizer khusus
  • perbarui docstring agar eksplisit tentang interaksi

Komentar yang paling membantu

Peringatan itu baru. Mari kita lihat bagaimana kelanjutannya

Semua 3 komentar

Peringatan harus ada di 0.23rc3. mencobanya untuk kita?

Tentu. Peringatan ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None' ) memang muncul, saya salah karena tidak memeriksanya terlebih dahulu. Jika Anda mau, saya dapat membuat PR dengan beberapa pengeditan dokumen yang menyatakan apa yang sedang terjadi, tetapi mungkin peringatannya sudah cukup.

Peringatan itu baru. Mari kita lihat bagaimana kelanjutannya

Apakah halaman ini membantu?
0 / 5 - 0 peringkat