๋ค์๊ณผ ๊ฐ์ ์ฐ๊ด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ด ์๋ค๋ ๊ฒ์ ์์์ต๋๋ค.
์ํผ์ค๋ฆฌ ์๊ณ ๋ฆฌ์ฆ
๋ฑ๊ฐ ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ(Eclat)
์ ๋์ฌ ์คํฌ
FP-์ฑ์ฅ
๋ชจ๋ ๋ฐ์ดํฐ ์ธํธ์์ ํจํด ์กฐํฉ์ ๊ฐ์งํ๋ ๋ฐ ์ฌ์ฉ๋ฉ๋๋ค.
๊ทธ ์ค ์ผ๋ถ๋ ๊ตฌํํ๊ธฐ๊ฐ ๋ค์ ์ด๋ ต์ต๋๋ค. ์ฝ 200์ค์ ์ฝ๋๋ผ๊ณ ํ ๊น์?
์์ดํ ์ธํธ ๋ง์ด๋์ด sklearn์ ๋ฒ์์ ์๋์ง ์ ๋ชจ๋ฅด๊ฒ ์ต๋๋ค. ์ ๋ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ๋ง ์๊ณ ์์ง๋ง ๋ ๋ฐ์ ๋ ์๊ณ ๋ฆฌ์ฆ์ด ์๋ค๋ ๊ฒ์ ์๋๋ค. ํฌ์ ์งํ ํ๋ ฌ์ ์ฌ์ฉํ์ฌ API์ ๋ง์ถ ์ ์์ง๋ง ์ด๋ป๊ฒ ๋ ๋๋จธ์ง sklearn๊ณผ ๋งค์ฐ ๋ถ๋ฆฌ๋์ด ๋ณด์ ๋๋ค.
๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ํ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ์ธ CBA ์๊ณ ๋ฆฌ์ฆ์ ์ ๊ตฌ์ฒด๋ก ์ฌ์ฉํ ์ ์์ต๋๋ค.
sklearn์ one-hot-transform์ด ์๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ ๋ํ ๊ฒฐ์ ํธ๋ฆฌ(๋๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ)๋ ์์ต๋๋ค.
๋น๋ฒํ ์์ดํ ๋ง์ด๋์ OT๋ก ๊ฐ์ฃผ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ํต์ฌ ๊ฐ๋ฐ์ ์ค ๋๊ตฌ๋ ํด๋น ์์ญ์์ ์ผํ์ง ์์ผ๋ฏ๋ก ์ ์ถ๋ ์ฝ๋๋ ๊ณ ์๊ฐ ๋ ์ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ๋ฐ๋ก ์ด๋ฌํ ์ด์ ๋ก ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ฒ์๋ฅผ ์ค์ด๋ ค๊ณ ๋ ธ๋ ฅํ์ต๋๋ค.
๋น๋ฒํ ์์ดํ ๋ง์ด๋์ OT๋ก ๊ฐ์ฃผ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ํต์ฌ์ด ์์
๊ฐ๋ฐ์๋ ํด๋น ์์ญ์์ ์์ ํ๋ฏ๋ก ์ ์ถ๋ ์ฝ๋๋
๊ณ ์
๋ํ ์ฝ๋ ํจํด์ ์ข
๋ฅ๊ฐ ๋งค์ฐ ๋ค๋ฅผ ๊ฒ์ด๋ผ๊ณ ๋ฏฟ์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฐ๋ฆฌ๊ฐ ํ์ฌ ๊ฐ์ง๊ณ ์๋ ๊ฒ.
์ฌ๋ฏธ์๋ค๋ ๋ง์ด ์๋๋ผ ๊ทธ๋ฅ ๋๊ตฌ๊ฐ
๋ค๋ฅธ ๊ฒ.
์๋ ,
Apriori ๋ฐ FP ์ฑ์ฅ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ง์์ด ์์ต๋๋ค. ์ด ๋ฌธ์ ์ ๋ํด ์์ ํ๊ณ ์ถ์ต๋๋ค. ์ด๋ฏธ ์์ ์ค์ธ ๋ค๋ฅธ ์ฌ๋์ด ์์ต๋๊น? ๊ทธ๋ ๋ค๋ฉด ์ ๋ ๋๊ณ ์ถ์ต๋๋ค.
์ด ๋ฌธ์ ๋ฅผ ๋ซ์ต๋๋ค. ์ฐ๊ด ํ์ต์ ๋ณ๋์ ํจํค์ง์์ ํ๋กํ ํ์ ์ด ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ฝ๋์ ์ธํฐํ์ด์ค๊ฐ ์ฐ๋ฆฌ์ ์ถฉ๋ถํ ์ ์ฌํ๋ค๊ณ ํ๋ช ๋๋ฉด scikit-learn์ผ๋ก ๋ณํฉํ๋ ์ฝ๋๋ฅผ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
์ฌํ ๊ฒฐ์ !
์ด ๋ฌธ์ ๋ฅผ ๋ซ์ต๋๋ค. ์ฐ๊ด ํ์ต์ ๋ณ๋์ ํจํค์ง์์ ํ๋กํ ํ์ ์ด ๋์ด์ผ ํ๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ฝ๋์ ์ธํฐํ์ด์ค๊ฐ ์ฐ๋ฆฌ์ ์ถฉ๋ถํ ์ ์ฌํ๋ค๊ณ ํ๋ช ๋๋ฉด scikit-learn์ผ๋ก ๋ณํฉํ๋ ์ฝ๋๋ฅผ ๊ณ ๋ คํ ์ ์์ต๋๋ค.
๋งค์ฐ ํฉ๋ฆฌ์ ์ธ ๊ฒฐ์ :)
:+1: ์ด์
:-1: ์ ์๋ ค์ง ๋น์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฒด ํด๋์ค๋ฅผ ์ ์ธํฉ๋๋ค.
@joernhees ์ด ๋น์ง๋ ํ์ต ๊ณต์์ด scikit-learn API์ ์ด๋ป๊ฒ ๋ง๋์ง ์ค๋ช ํด ์ฃผ์๊ฒ ์ต๋๊น? ์ฝ์ง ์๋ค๋ฉด ์๋ง๋ ์์ฒด API๋ฅผ ๊ตฌ์ถํ ์ ์๋ ๋ค๋ฅธ ํ๋ก์ ํธ์ ๋ฒ์์ ์ํ ๊ฒ์ ๋๋ค. ๋๋ @larsmans ๊ฐ ์์์ ๊ทธ๊ฒ์ ์์ฃผ ๋ช ํํ๊ฒ ํ๋ค๊ณ ์๊ฐํ๋ฉฐ ๋น๊ผฌ๋ ๋ฐ์์ ํ ๊ฐ์น๊ฐ ์์ต๋๋ค.
์ด๊ฒ์ด ๋น๊ผฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ค๋ฉด ์ฃ์กํฉ๋๋ค. ๊ทธ๊ฒ์ ์ ์๋๊ฐ ์๋์์ต๋๋ค.
๋๋ ์๋ ์ฐ๊ด ๊ท์น ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฒ์ํ์ฌ ์ฌ๊ธฐ์ ๋์ฐฉํ๊ณ sklearn์์ ์ฐพ์ ๊ฒ์ผ๋ก ์์ํ์ต๋๋ค(๊ธฐ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๊ฝค ๋ฉ์ง ๋ชจ์์ด๊ณ ์ผ๋ฐ์ ์ผ๋ก ๋ด๊ฐ ํ์ํ ๋๋ถ๋ถ์ ๊ฒ์ ์ฐพ์ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค(๋๋จํ ๊ฐ์ฌํฉ๋๋ค)).
์ด ์ค๋ ๋๋ฅผ ์ฝ์ ํ ๋๋ ๊ธฐ์๊ธฐ๋ ํ๊ณ ์ค๋ง์ค๋ฝ๊ธฐ๋ ํ๊ณ ๋ ๋ค ๋ชฉ์๋ฆฌ๋ฅผ ๋ด๊ณ ์ถ์์ต๋๋ค.
์ฐ๊ด ๊ท์น ๋ง์ด๋์ด ํ์ฌ API์ ์์ ํ ๋ง์ง ์๋ ๊ฒ์ด ๋ง์ต๋๋ค. ๊ฐ๋ ์ ์ผ๋ก ๋๋ ์ฐจ์ ์ถ์ ๊ธฐ์ ๊ณผ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง ์ฌ์ด์ ์ด๋๊ฐ์์ ๊ทธ๊ฒ์ ๋ด ๋๋ค. API์ ๊ฒฝ์ฐ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ๊ฐ์ฅ ๊ฐ๊น์ต๋๋ค.
๋ ์ค์ด ๋๋ฌด ์งง์์ ์น๊ทผํ๊ฒ ํํํ๊ธฐ์๋ ๋๋ฌด ์งง์ ์ ์์ผ๋ ์ํด ๋ถํ๋๋ฆฝ๋๋ค.
๊ด์ฐฎ์์. ํ์คํ ์ ํ์ ํ์ด์ฌ ๊ตฌํ์ด ์์ต๋๋ค.
๋์์ ์์งํ๊ณ ์ ๊ณตํ๋ ์ข์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ตฌ์ถ
์ผ๊ด๋ (scikit-learn-like) API๋ ์ข์ ํ๋ก์ ํธ์ฒ๋ผ ๋ณด์
๋๋ค... ์ ์๊ฐ์๋
์ฐ๊ด ๊ท์น ๋ง์ด๋์ ๊ธฐ๋ฐํ ๋ถ๋ฅ๊ธฐ๋ ๋ค์์ ๋ฒ์์ ํฌํจ๋ ์ ์์ต๋๋ค.
scikit-learn, ๊ทธ๋ฌ๋ ์ถฉ๋ถํ ๋์ค์ ์ด๊ณ ํ์คํ๋์ง ์์ ๊ฒฝ์ฐ
์ด๋ฏธ ๊ด๋ฆฌ์ ์์ด ์ฝ๋๊ฐ ๋ ์ํ์ด ์์ต๋๋ค.
2014๋ 9์ 24์ผ 07:52 Jรถrn Hees [email protected] ์ ๋ค์๊ณผ ๊ฐ์ด ์ผ์ต๋๋ค.
์ด๊ฒ์ด ๋น๊ผฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์๋ค๋ฉด ์ฃ์กํฉ๋๋ค. ๊ทธ๊ฒ์ ์ ์๋๊ฐ ์๋์์ต๋๋ค.
๋๋ ์๋ ์ฐ๊ด ๊ท์น ํ์ต์ ๊ฒ์ํ์ฌ ์ฌ๊ธฐ์ ๋์ฐฉํ์ต๋๋ค.
์๊ณ ๋ฆฌ์ฆ์ ๋ง๋ค๊ณ sklearn์์ ์ฐพ์ ๊ฒ์ผ๋ก ์์ํ์ต๋๋ค(์์๊ธฐ ๋๋ฌธ์
๊ธฐ๊ณ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ฉ์ง ๋ชจ์์ด๋ฉฐ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๋ง์ด ์ฐพ์ต๋๋ค.
๋ด๊ฐ ํ์ํ ๊ฒ๋ค (ํฐ ๊ฐ์ฌํฉ๋๋ค)).์ด ์ค๋ ๋๋ฅผ ์ฝ์ ํ ๋๋ ๋ง์กฑํ๊ณ ์ค๋งํ์ผ๋ฉฐ ์ํ์ต๋๋ค.
๋ ๋ค ์์ฑ:
- ์ข์ ์ํํธ์จ์ด ์์ง๋์ด๋ง ๊ฒฐ์ ์ ๋ด๋ฆฌ์ ๊ฒ์ ๊ธฐ์๊ฒ ์๊ฐํฉ๋๋ค.
์ด์ ์ ๋ง์ถ๋ค(์ด๋ ต๋ค).- ์ฐ๊ด ๊ท์น ๋ง์ด๋์ด ๊ทธ ์ผ๋ถ๊ฐ ์๋๋ผ๋ ์ ์ ์ค๋งํ๊ณ
๊ทธ๊ฒ์ ๊ทธ๋ฆฌ์ํ๋ ๋ ๋ค๋ฅธ ์ฌ๋์ด ์์ต๋๋ค. ๋ด๊ฐ ๋งํ๋ฏ์ด ๊ทธ๊ฒ์ ๋ค์๊ณผ ๊ฐ์ด ๋ณผ ์ ์์ต๋๋ค.
๋น์ง๋ ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์์ฒด ํด๋์ค์ด๋ฉฐ ๋งค์ฐ ์ฑ๊ณต์ ์ ๋๋ค.
(์๋ง์กด). ๋ฐ์ดํฐ ๋ง์ด๋์ด ๋๋ฌด ๋ง๊ณ ๋๋ฌด ์ ์ต๋๋ค.
sklearn์ ์ํ ๋จธ์ ๋ฌ๋, ํ์ง๋ง ์กฐ๊ธ ๋นํ๋ฉด ๊ท์น์ ์ป์ ์ ์์ต๋๋ค.
๋ค์์ ๋ํ ์ค๋ช ๊ฐ๋ฅํ ์์ธก์ ๋งค์ฐ ์ ์ฉํ ํ์ต
์๋ฅผ ๋ค์ด ์กํฐ๊ฐ ์ทจํ ์ ์๋ ์กฐ์น.์ฐ๊ด ๊ท์น ๋ง์ด๋์ด
ํ์ฌ API. ๊ฐ๋ ์ ์ผ๋ก ๋๋ ๊ทธ๊ฒ์ ์ฐจ์ ์ฌ์ด ์ด๋๊ฐ์์ ๋ด ๋๋ค.
์ถ์ ๊ธฐ์ ๋ฐ ๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง. API ํ๋ช ํ ๊ทธ๊ฒ์ ์๋ง๋
๊ณ์ธต์ ํด๋ฌ์คํฐ๋ง์ ๊ฐ์ฅ ๊ฐ๊น์ต๋๋ค.์น๊ทผํ๊ฒ ํํํ๊ธฐ์๋ ๋ ์ค์ด ๋๋ฌด ์งง์์,
์ ์ฌ๊ณผ๋ฅผ ๋ฐ์์ฃผ์ธ์.โ
์ด ์ด๋ฉ์ผ์ ์ง์ ๋ต์ฅํ๊ฑฐ๋ GitHub์์ ํ์ธํ์ธ์.
https://github.com/scikit-learn/scikit-learn/issues/2662#issuecomment -56595906
.
๋๋ ์ด๊ฒ์ด ๊ฐ์น๊ฐ ์๋ค๊ณ ์๊ฐํฉ๋๋ค. ์ด ๊ธฐ์ฌ: ์ฐ๊ด ๊ท์น๊ณผ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ๋น๊ตfor Disease Prediction ์ ์์ฌ๊ฒฐ์ ๋๋ฌด์ ๋น๊ตํ์ฌ ๋ถ๋ช ํ ์ด์ ์ ๋ณด์ฌ์ค๋๋ค.
์ด ๋ธ๋ก๊ทธ ๊ฒ์๋ฌผ ์๋ A-Priori์ฉ Python ์ฝ๋๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ์ธ์ ๊ฐ ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํด ๋ณด๋ ๊ฒ๋ ํฅ๋ฏธ๋ก์ธ ๊ฒ์ ๋๋ค. ๋ณ๋์ ํ๋กํ ํ์ดํ ํจํค์ง์ ๋ํ ์์ ์ด ์์ต๋๊น?
์ง๊ธ๊น์ง ์์. ๋ฉ์ผ๋ง ๋ฆฌ์คํธ์์ ์ด์ ๋ํ ์ง์์ ์์งํ ์ ์์ต๋๊น?
์ฐ์ ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ด sklearn์์ ๊ตฌํ๋์ง ์๋๋ค๋ ์ ์ ์ค๋งํ์ต๋๋ค. ์ ๊ณ ๋ฌธ์ FP-growth ๋ฐ PrefixSpan์ ์ ์์ธ Jiawei Han์ด๋ฉฐ, ๋ ๋ ผ๋ฌธ("ํ๋ณด ์์ฑ ์์ด ๋น๋ฒํ ํจํด ๋ง์ด๋" ๋ฐ "ํจํด ์ฑ์ฅ์ ์ํ ์์ฐจ์ ํจํด ๋ง์ด๋")์ ๋ํ ์ธ์ฉ ํ์๋ ๋ ๋ ผ๋ฌธ ๋ชจ๋์ ๋ํ ์ฆ๊ฑฐ์ ๋๋ค. ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ sklearn์ ์์ต๋๋ค.
scikit-learn์ ํฌํจ๋ ์ธ๊ธฐ ๊ธฐ์ค์ด ์๊ธฐ ๋๋ฌธ์
์๊ณ ๋ฆฌ์ฆ, ์ฆ ๋ชจ๋ ์ธ๊ธฐ ์๋ ์๊ณ ๋ฆฌ์ฆ์ด ํฌํจ๋์ด์ผ ํ๋ค๋ ์๋ฏธ๋ ์๋๋๋ค.
Scikit-learn์ ๋ฒ์๊ฐ ์ ํ๋์ด์ผ ํ๋ฉฐ ์ด๋ ๋จ์ํ
๋ถ๋ฅ ๋ฐ ํ๊ท์ ๊ฐ์ ๋ฌธ์ (๋ด๊ฐ ๊ด์ฌ์ ๊ฐ๊ณ ์์ง๋ง
๊ตฌํ๋ ์ฑ๊ณต์ ์ธ ์ฐ๊ด ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ ์ฐธ์กฐ).
์ค๋งํด๋ ๋์ง๋ง ARL ๊ธฐ์ ์ด
๊ฐ๊น์ด ์ฅ๋์ scikit-learn์ ์ง์ ํฌํจ๋ ๊ฒ์
๋๋ค(๋น๋ก
๋ค๋ฅธ ํ๋ก์ ํธ์์ scikit-learn๊ณผ ์ ์ฌํ API๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค. ์๋ค
์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ด ๋ ์ ํฉํ ๋ค๋ฅธ ํ๋ก์ ํธ์ด์ง๋ง
๊ทธ๋ค์๊ฒ๋ ์ค๋งํ์ต๋๋ค. ์ง์ ๋ง๋์ญ์์ค.
2015๋ 3์ 25์ผ 09:11์ Henry [email protected] ์ ๋ค์๊ณผ ๊ฐ์ด ์ผ์ต๋๋ค.
์ฐ์ ์ด๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ด
์ค์ผ๋ฐ. ์ ๊ณ ๋ฌธ์ FP-growth ๋ฐ PrefixSpan์ ์ ์์ธ Jiawei Han์ ๋๋ค.
๋ ๋ ผ๋ฌธ์ ์ธ์ฉ ํ์(
"ํ๋ณด ์์ฑ ์์ด ๋น๋ฒํ ํจํด ๋ง์ด๋" ๋ฐ "๋ง์ด๋
ํจํด ์ฑ์ฅ์ ์ํ ์์ฐจ์ ํจํด")์ ๋ ๊ฐ์ง ๋ชจ๋๋ฅผ ์ฆ๋ช ํฉ๋๋ค.
์๊ณ ๋ฆฌ์ฆ์ sklearn์ ์์ต๋๋ค.โ
์ด ์ด๋ฉ์ผ์ ์ง์ ๋ต์ฅํ๊ฑฐ๋ GitHub์์ ํ์ธํ์ธ์.
https://github.com/scikit-learn/scikit-learn/issues/2662#issuecomment -85713120
.
์ฐ๊ด ํ์ต ์๊ณ ๋ฆฌ์ฆ์ ๋ถ๋ฅ ๋ฐ ํ๊ท์ ๊ฐ์ ๋ฌธ์ ์์ ๋๋ฌด ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ countvectorizer ๋ฐ tfidfvectorizer์ ๊ฐ์ ๊ธฐ๋ฅ ์์ฑ ์๊ณ ๋ฆฌ์ฆ ๋์ ๋น๋ฒํ ํญ๋ชฉ ์งํฉ/ํจํด ๋ง์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ณ ๋ คํ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋น๋ฒํ ํจํด์ ๋ชจ๋ ๋ถ๋ฅ๊ธฐ ์๊ณ ๋ฆฌ์ฆ์์ ์ ๋ ฅ ๊ธฐ๋ฅ์ผ๋ก ์ฌ์ฉ๋ ์ ์์ผ๋ฉฐ ์ ๋ณด ํ๋ ๊ธฐ๋ฐ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ํ์ต์ ์ ์ฉํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ์ง๊ด์ ์ด๊ณ ๋ค์ ๋ค๋ฆ ๋๋ค.
๊ทธ๊ฒ์ ์ต์ ์ ๋๋ค. Kudo์ Matsumoto ๋ PrefixSpan์ ์ฌ์ฉํ์ฌ ํด๋ฆฌ์ปค๋์ ํ์ ์งํฉ์ ์ํ๋งํ๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค.
scikit-learn ๋ฌธ์๋ฅผ ์กฐํํ๊ณ ํ์ธํ ์ ์์ง๋ง scikit-learn์์ ์ด ์ต์ (Kudo ๋ฐ Matsumoto)์ ์ฌ์ฉํ ์ ์์ต๋๊น?
์๋จ. ๊ทธ๋ฅ ๊ทธ๋ด ์๋ ์์ด์.
Apiori ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฝ์ฐ +1
๋น๋ฒํ ํญ๋ชฉ ๋ชฉ๋ก์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ML ์๊ณ ๋ฆฌ์ฆ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, Cynthia Rudin์ ๋ฒ ์ด์ง์ ๊ท์น ๋ชฉ๋ก(cf, http://www.stat.washington.edu/research/reports/2012/tr609%20-%20old.pdf)์ ์ฐธ์กฐํ์ญ์์ค.
๋ชจ๋ ๊ธฐ๋ฅ์ด ์ด์ง ์งํ(์๋ง๋ ์-ํซ ์ธ์ฝ๋ฉ์ ๊ฒฐ๊ณผ)์ธ ์์ธกํ ์๋ต ๋ณ์๊ฐ ์๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ณ ๋ คํ์ญ์์ค. ํ๋ จ ์ธํธ ํ์ '๋ฐ๊ตฌ๋'๋ก ๊ฐ์ฃผํ๊ณ ํด๋น ํ๋ จ ์ธํธ ํ์ ๋ํ ๊ธฐ๋ฅ์ ์กด์ฌ๋ฅผ ๋ฐ๊ตฌ๋ ๋ด์ 'ํญ๋ชฉ'์ผ๋ก ๊ฐ์ฃผํ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ์๋นํ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ธํธ๋ ์ ํ์ , FP ์ฑ์ฅ ๋ฐ ๊ธฐํ ๋น๋ฒํ ํญ๋ชฉ ์ธํธ ๋ง์ด๋ ๊ธฐ์ ์ ์ํด ์กฐ์๋ ์ ์์ต๋๋ค.
๋ฒ ์ด์ง์ ๊ท์น ๋ชฉ๋ก ์๊ณ ๋ฆฌ์ฆ์์ ๋น๋ฒํ ํญ๋ชฉ ์งํฉ์ด ํ๊ฐ๋๊ณ ๊ฒฐ๊ตญ์๋ if-then-else ๊ตฌ์กฐ๊ฐ ์์ฑ๋ฉ๋๋ค. ์์ธํ ๋ด์ฉ์ ์ฐธ๊ณ ๋ ผ๋ฌธ์ ์ฐธ์กฐํ์ญ์์ค.
์์ ์ ์ฌ์ฉ ๊ฐ๋ฅํ ํญ๋ชฉ ์งํฉ ๋ง์ด๋ ์ ๊ทผ ๋ฐฉ์์ ์์ฃผ ์ฌ์ฉํ๋ฉด ์ฅ๋ฐ๊ตฌ๋ ๋ถ์๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ sklearn์ ๋ฒ์ ๋ด์ ์๋ ๋ถ๋ฅ์์ ํ๊ท์๋ฅผ ์ง์ํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
์๋ง๋ scipy์์ ๊ทธ๋ฌํ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ์ ์๊ฒ ๋ ๋๊ธฐ์
๋๋ค. ์
๋ฌผ๋ก scikit-learn์ ํฌํจ์ ์ถฉ์กฑํ๋ ๋ถ๋ฅ๊ธฐ ๋๋ ์ด์ ์ ์ฌํ ๊ฒฝ์ฐ
๊ฐ์ด๋๋ผ์ธ์ ์์ดํ
์ธํธ ๋ง์ด๋์ผ๋ก ๊ตฌํ๋์์ผ๋ฉฐ, ์ข์ ๊ธฐํ๋ฅผ ์ป์์ต๋๋ค.
ํฌํจ, ์ ํ์ ๋ฐ ๋ชจ๋ ๊ฒ.
2016๋ 4์ 19์ผ 01:14์ rmenich [email protected] ์์ ๋ค์๊ณผ ๊ฐ์ด ์ผ์ต๋๋ค.
๋ค์๊ณผ ๊ฐ์ด ๋น๋ฒํ ํญ๋ชฉ ๋ชฉ๋ก์ ์์กดํ๋ ML ์๊ณ ๋ฆฌ์ฆ์ด ์์ต๋๋ค.
์ ๋ ฅ. ์๋ฅผ ๋ค์ด, Cynthia Rudin์ ๋ฒ ์ด์ง์ ๊ท์น ๋ชฉ๋ก(cf,
http://www.stat.washington.edu/research/reports/2012/tr609%20-%20old.pdf).์์ธกํ ์๋ต ๋ณ์๊ฐ ์๋ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ๊ณ ๋ คํ์ญ์์ค.
๊ธฐ๋ฅ์ ์ด์ง ์งํ์ ๋๋ค(์๋ง๋
์-ํซ ์ธ์ฝ๋ฉ). ํ๋ จ ์ธํธ ํ์ '๋ฐ๊ตฌ๋'๋ก ๊ฐ์ฃผํ ์ ์์ผ๋ฉฐ
ํด๋น ํ๋ จ ์ธํธ ํ์ด 'ํญ๋ชฉ'์ด ๋ ๊ธฐ๋ฅ์ ์กด์ฌ
๋ฐ๊ตฌ๋. ๋ฐ๋ผ์ ์๋นํ ์ผ๋ฐ์ ์ธ ๋ฐ์ดํฐ ์ธํธ๋
apriori, FP-growth ๋ฐ ๊ธฐํ ๋น๋ฒํ ํญ๋ชฉ ์งํฉ ๋ง์ด๋ ๊ธฐ์ .๋ฒ ์ด์ง์ ๊ท์น ๋ชฉ๋ก ์๊ณ ๋ฆฌ์ฆ์์๋ ๋น๋ ํญ๋ชฉ ์งํฉ์ด ํ๊ฐ๋ฉ๋๋ค.
๊ทธ๋ฆฌ๊ณ ๊ฒฐ๊ตญ if-then-else ๊ตฌ์กฐ๊ฐ ๊ทธ๋ค๋ก๋ถํฐ ์์ฑ๋ฉ๋๋ค. ์ฐธ์กฐ
์์ธํ ๋ด์ฉ์ ์ฐธ์กฐ ๋ฌธ์๋ฅผ ์ฐธ์กฐํ์ญ์์ค.์์ ์ ์ฌ์ฉ ๊ฐ๋ฅํ ํญ๋ชฉ ์งํฉ ๋ง์ด๋ ์ ๊ทผ ๋ฐฉ์์ ์์ฃผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ๋๋ค.
๋ถ๋ฅ๊ธฐ ๋ฐ ํ๊ท์๋ฅผ ์ง์ํ ์ ์์ --- ์ด๋ฏธ ๋ฒ์ ๋ด
sklearn --- ๋จ์ํ ์ฅ๋ฐ๊ตฌ๋ ๋ถ์์ด ์๋๋๋ค.โ
๋น์ ์ด ๋๊ธ์ ๋ฌ์๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ ๋ฐ๋ ๊ฒ์ ๋๋ค.
์ด ์ด๋ฉ์ผ์ ์ง์ ๋ต์ฅํ๊ฑฐ๋ GitHub์์ ํ์ธํ์ธ์.
https://github.com/scikit-learn/scikit-learn/issues/2662#issuecomment -211424583
์ด ๋ํ๊ฐ ์์๋ ์ดํ๋ก sklearn์ด ์ผ๋ง๋ ๋ง์ด ๋ณ๊ฒฝ๋์๋์ง ๋ชจ๋ฅด์ง๋ง ํ๊ท/๋ถ๋ฅ๋ ์๋ ์ ์ฒด "ํด๋ฌ์คํฐ" ํจํค์ง๊ฐ ์์ต๋๋ค. ์ฐ๊ด ๊ท์น ๋ฐ ๋น๋ฒํ ํญ๋ชฉ ์งํฉ์ ๋ํ ์ต์ ์๊ณ ๋ฆฌ์ฆ์ ์ข์ ๊ตฌํ์ sklearn์ ๋ง์ ์ฌ๋๋ค์ด ํ์ํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํฉ๋๋ค.
ํด๋ฌ์คํฐ๋ง์ ๋ถ๋ฅ์ ๋งค์ฐ ์ ์ฌํ์ง๋ง ๊ฐ๋ ๋์ง ์์ผ๋ฉฐ ์ค๋ซ๋์ scikit-learn์ ์ผ๋ถ์์ต๋๋ค. ์ฐ๊ด ๊ท์น ๋ง์ด๋์ scikit-learn์ด ์ค์ ์ ๋๋ ๊ธฐ๋ณธ ์์ ์ธ๋ถ์ ์์ผ๋ฉฐ API์ ๊น๋ํ๊ฒ ๋ง์ง ์์ง๋ง ์ฐ๊ด ๊ธฐ๋ฐ ๋ถ๋ฅ๊ธฐ์ ๋งฅ๋ฝ์์ ๊ด๋ จ์ด ์์ ์ ์์ต๋๋ค.
"์ต์ ์๊ณ ๋ฆฌ์ฆ"์ scikit-learn์ ๊ดํ ๊ฒ์ด ์๋๋๋ค. FAQ ๋ฅผ ์ฐธ์กฐํ์ญ์์ค.
๋ ์์ ์ ๋ฐ๋ณตํ์ง ์์๋ ์ข์ ๊ฒ์ ๋๋ค.
@actsasgeek scikit-learn๊ณผ ํธํ๋๋ ๋ฐฉ์์ผ๋ก ์ฐ๊ด ๊ท์น ๋ง์ด๋์ ๊ตฌํํ๋ ค๋ฉด scikit-learn-contrib์ ํฌํจ์์ผ ๋๋ฆฌ๊ฒ ์ต๋๋ค. https://github.com/scikit-learn-contrib/scikit-learn -contrib/blob/master/README.md
scikit learn๊ณผ ๊ฐ์ ํ๋ฅญํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์์ ์ฐ๊ด ๊ท์น ๋ง์ด๋์ ์ถ๊ฐํ๋ ๊ฒ์ ๋ฐ๋๋๋ ๋๋์ ๋ณด์๊ธฐ ๋๋ฌธ์ ๋ฐ๋ณต์ ์ธ ์ง๋ฌธ์ด ๊ทํ๋ฅผ ๊ท์ฐฎ๊ฒ ํ์ง ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ์ด ์ค๋ ๋๋ฅผ ์์ฑํ ์ง 3๋ ์ด ์ง๋ ํ scikit learn์ ๊ตฌํ๋ ๋น๋ฒํ ํญ๋ชฉ ์งํฉ์ด ์๋์ง ์ ๋ฐ์ดํธํ๊ณ ์ถ์ต๋๋ค.
์ฐ๊ด ๊ท์น ๋ง์ด๋์ ๊ธฐ๊ณ ํ์ต์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ณ ,
ํ์คํ scikit-learn์ ๋ฒ์๋ฅผ ๋ฒ์ด๋ฌ์ต๋๋ค.
์ฐ๊ด ๊ท์น์ ๊ธฐ๋ฐํ ๋ถ๋ฅ๋ ์ฐ๋ฆฌ๊ฐ
๊ทธ๊ฒ์ ๊ณ ๋ คํ ๊ฒ์ด๊ณ , ์ฌ์ ํ ์ด์ฌํ ํ ํ์๊ฐ ์์ ๊ฒ์
๋๋ค.
2017๋ 8์ 17์ผ 15:59์ saria85 [email protected] ์์ ๋ค์๊ณผ ๊ฐ์ด ์ผ์ต๋๋ค.
๋ด ๋ฐ๋ณต์ ์ธ ์ง๋ฌธ์ด ๋น์ ์ ๊ดด๋กญํ์ง ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
๋ค์๊ณผ ๊ฐ์ ํ๋ฅญํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์ฐ๊ด ๊ท์น ๋ง์ด๋์ ์ถ๊ฐํ๋ ๊ฒ๊ณผ ๋ฐ๋์ ๋๋ค.
์ฌ์ดํฅ ๋ฐฐ์ฐ๋ค. ์์ฃผ ์ ๋ฐ์ดํธ๋๋ ํญ๋ชฉ์ด ์๋์ง ํ์ธํ๊ณ ์ถ์ต๋๋ค.
์ด ์์ฑ ํ 3๋ ํ์ scikit Learn์์ ๊ตฌํ๋์์ต๋๋ค.
์ฐ๋ ๋?.โ
๋น์ ์ด ๋๊ธ์ ๋ฌ์๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ ๋ฐ๋ ๊ฒ์ ๋๋ค.
์ด ์ด๋ฉ์ผ์ ์ง์ ๋ต์ฅํ๊ณ GitHub์์ ํ์ธํ์ธ์.
https://github.com/scikit-learn/scikit-learn/issues/2662#issuecomment-322976532 ,
๋๋ ์ค๋ ๋ ์์๊ฑฐ
https://github.com/notifications/unsubscribe-auth/AAEz67fCICLgV-3OpYiV3ErpJSW0mobgks5sY9a4gaJpZM4BT5PS
.
๊ด์ฌ ์์ผ์ ๋ถ๋ค์,
mlxtend
๋ผ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ ์ ํ์ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํฉ๋๋ค.
http://rasbt.github.io/mlxtend/api_subpackages/mlxtend.frequent_patterns/
์, ๋ชจ๋๊ฐ ๊ทธ๊ฒ์ ํ์๋ก ํ๋ฏ๋ก scikit-learn์ ์์ผ๋ฉด ์ข์ ๊ฒ์
๋๋ค.
ML์์ ์ฌ์ฉํ๊ธฐ ์ํ ๋ ํ๋์ ๋งํฌ
http://www2.cs.uh.edu/~ordonez/pdfwww/w-2006-HIKM-ardtmed.pdf
์ฐ๊ฒฐ ๊ท์น ๋ฐ ์์ฌ ๊ฒฐ์ ํธ๋ฆฌ ๋น๊ต
์ง๋ณ ์์ธก์ ์ํด
๊ทธ๊ฒ์ ML์ด ์๋ ํจํด ๋ง์ด๋์ ๋๋ค.
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
์๋ ,
Apriori ๋ฐ FP ์ฑ์ฅ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ์ง์์ด ์์ต๋๋ค. ์ด ๋ฌธ์ ์ ๋ํด ์์ ํ๊ณ ์ถ์ต๋๋ค. ์ด๋ฏธ ์์ ์ค์ธ ๋ค๋ฅธ ์ฌ๋์ด ์์ต๋๊น? ๊ทธ๋ ๋ค๋ฉด ์ ๋ ๋๊ณ ์ถ์ต๋๋ค.