๋ฐ์ดํฐ์ ๊ณต์ ์ฑ(์ ํํ ๊ณต์ ์ฑ)์ ์ ๊ฑฐํ ์ ์๋ ๊ธฐ๋ฅ์ LinearRegression์ ์ถ๊ฐํ ์ ์์ต๋๊น?
๋ด ์ ์์ ์ฌ์ฉ์๊ฐ ์ค์ ํ ๊ฒฝ์ฐ remove_collinearity์ ๊ฐ์ ์ถ๊ฐ ์ธ์๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๋๋ค. ๊ทธ๋ฌ๋ฉด ํ๋ ฌ์ ์์๋ฅผ ์ฌ์ฉํ์ฌ ์ ํํ ๊ณต์ ๋ณ์๋ฅผ ์ ๊ฑฐํ๊ฑฐ๋ VIF๋ฅผ ์ฌ์ฉํ์ฌ ๊ณต์ ๋ณ์๋ฅผ ์ ๊ฑฐํ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด Ridge ํ๊ท๋ฅผ ์ฌ์ฉํ๋ ๋์ ์๊ฐ์ ์ ์ฝํ ์ ์์ต๋๋ค.
์ด๊ฒ์ sklearn.feature_selection
์ ์ ์ฒ๋ฆฌ๊ธฐ๋ก ๋๋ ๊ฒ์ด ๋ ๋์ ์ ์์ต๋๋ค. ๊ทธ๋ ๊ฒ ํ๋ฉด ์ฌ๋ฌ ์ถ์ ๊ธฐ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์ ํํ ๊ณต์ ์ฑ์ด ์์ฃผ ๋ฐ์ํ๋ ๋ฌธ์ ์ธ์ง๋ ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ฌ์ฉ์ ์ ์ ๊ธฐ๋ฅ ์๊ด ์๊ณ๊ฐ์ด ์๋ ์ถ์ ๊ธฐ์ผ๊น์?
๊ธฐ๋ฅ ํด๋ฌ์คํฐ๋ง๊ณผ ๋ฌ๋ฆฌ ์์ฃผ ์ํ๋๋ ์์ ์ธ์ง ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ํ์๋ cluster.FeatureAgglomeration์ ์ฌ์ฉํ์ฌ scikit-learn์์ ์ํํ ์ ์์ง๋ง ํ์ํ n_clusters๊ฐ ์๋ ์ธํฐํ์ด์ค๊ฐ ์ด์์ ์ด์ง ์์ ์ ์์ต๋๋ค.
cc @glemaitre
์ด๊ฒ์ ์ฌ๊ธฐ์์ ๊ธฐ๋ฅ ์ ํ ๋ณํ๊ธฐ๋ก ์์ ์ค์ ๋๋ค: https://github.com/scikit-learn/scikit-learn/pull/14698
์ ๋ง ๊ฐ์ฌํฉ๋๋ค. ์ด ๋ฌธ์ ๋ฅผ https://github.com/scikit-learn/scikit-learn/issues/13405 ์ ๋ณต์ ๋ณธ์ผ๋ก ์ฌํญ์ด ์์ผ๋ฉด ๋ณด๋ด ์ฃผ์ญ์์ค.
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
์ด๊ฒ์ ์ฌ๊ธฐ์์ ๊ธฐ๋ฅ ์ ํ ๋ณํ๊ธฐ๋ก ์์ ์ค์ ๋๋ค: https://github.com/scikit-learn/scikit-learn/pull/14698