Countvectorizer ๋ฐ TfidfVectorizer์ ๋ํ ๋ฌธ์๋ token_pattern
์ ์ฌ์ฉ์ ์ ์ tokenizer
์ ๋ฌ ๊ฐ์ ์ํธ ์์ฉ์ ๋ํด ๋ช
ํํ์ง ์์ต๋๋ค. ํ์ฌ tokenizer
๊ฐ ์ ๋ฌ๋๋ฉด token_pattern
๋ ๋ฌด์๋ฉ๋๋ค. ๊ทธ๋ฌ๋ ํ ํฌ๋์ด์ ๋งค๊ฐ๋ณ์์ ๋ํ docstring ํญ๋ชฉ์ Override the string tokenization step while preserving the preprocessing and n-grams generation steps.
๋ง ์ธ๊ธํฉ๋๋ค. ๋์๊ฒ๋ ์ด๊ฒ์ด token_pattern
๊ฐ ์ ํ ์ฌ์ฉ๋์ง ์์๋ค๋ ๊ฒ์ ์๋ฏธํ๋์ง ์ฆ์ ๋ช
ํํ์ง ์์์ต๋๋ค.
๋ค์์ ์ด๊ฒ์ผ๋ก ์ธํด ๋ฐ์ํ ์ฌ์ฉ์์ ๋๋ค. Stackoverflow
๋ด๊ฐ ์๊ฐํ ์ ์๋ ๋ช ๊ฐ์ง:
๊ฒฝ๊ณ ๋ 0.23rc3์ ์์ด์ผ ํฉ๋๋ค. ์ฐ๋ฆฌ๋ฅผ ์ํด ๊ทธ๊ฒ์ ์๋?
ํ์ ํ๋. ๊ฒฝ๊ณ ( UserWarning: The parameter 'token_pattern' will not be used since 'tokenizer' is not None'
)๊ฐ ์ค์ ๋ก ๋ํ๋ฉ๋๋ค. ๋จผ์ ํ์ธํ์ง ์์ ๊ฒ์ด ๋์ฉ๋๋ค. ์ํ์ ๋ค๋ฉด ์งํ ์ํฉ์ ์ค๋ช
ํ๋ ๋ฌธ์ ํธ์ง์ผ๋ก PR์ ๋ง๋ค ์ ์์ง๋ง ์๋ง๋ ๊ฒฝ๊ณ ๋ก ์ถฉ๋ถํ ๊ฒ์
๋๋ค.
๊ฒฝ๊ณ ๋ ์๋ก์ด ๊ฒ์ ๋๋ค. ์ด๋ป๊ฒ ๋๋์ง ๋ณด์
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
๊ฒฝ๊ณ ๋ ์๋ก์ด ๊ฒ์ ๋๋ค. ์ด๋ป๊ฒ ๋๋์ง ๋ณด์