Scikit-learn: ์†์‹ค ํ•จ์ˆ˜์˜ ํ‘ธ์•„์†ก, ๊ฐ๋งˆ ๋ฐ ํŠธ์œ„๋”” ๊ณ„์—ด

์— ๋งŒ๋“  2015๋…„ 12์›” 07์ผ  ยท  57์ฝ”๋ฉ˜ํŠธ  ยท  ์ถœ์ฒ˜: scikit-learn/scikit-learn

sklearn์—์„œ Poisson, gamma ๋ฐ ๊ธฐํƒ€ Tweedie ๊ฐ€์กฑ ์†์‹ค ๊ธฐ๋Šฅ์„ ์ง€์›ํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์†์‹ค ๋ถ„ํฌ๋Š” ์นด์šดํŠธ ๋ฐ ๊ธฐํƒ€ ๋กฑํ…Œ์ผ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์—…๊ณ„์—์„œ ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ R: GLM, GLMNET, GBM ext์™€ ๊ฐ™์€ ๋‹ค๋ฅธ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ๋„ ๊ตฌํ˜„๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ถ„ํฌ๋ฅผ ๊ตฌํ˜„ํ•˜๋Š” ๋ถ€๋ถ„์€ ์˜คํ”„์…‹์ด ์†์‹ค ํ•จ์ˆ˜์— ์ „๋‹ฌ๋˜๋Š” ๋ฐฉ๋ฒ•์„ ํฌํ•จํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์ด๋Ÿฌํ•œ ๋ถ„ํฌ์™€ ํ•จ๊ป˜ ๋กœ๊ทธ ๋งํฌ ๊ธฐ๋Šฅ์„ ์‚ฌ์šฉํ•  ๋•Œ ๋…ธ์ถœ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค.

sklearn ์ปค๋ฎค๋‹ˆํ‹ฐ์—์„œ ์ด๋Ÿฌํ•œ ์†์‹ค ๊ธฐ๋Šฅ์„ ์ถ”๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ? ๊ทธ๋ ‡๋‹ค๋ฉด ๋‚˜ ๋˜๋Š” (๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค๋„) ์ด๋Ÿฌํ•œ ์†์‹ค ํ•จ์ˆ˜ ๋ฐ ์˜คํ”„์…‹์„ sklearn API์— ๊ตฌํ˜„ํ•˜๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ๊ธฐ๊บผ์ด ์กฐ์‚ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ฐ์‚ฌ ํ•ด์š”

New Feature

๊ฐ€์žฅ ์œ ์šฉํ•œ ๋Œ“๊ธ€

@thenomemac ๋…ธ์ถœ๋กœ ์ธํ•ด ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ๋ณ€๊ฒฝ๋œ๋‹ค๋Š” ๊ฒƒ์€ ์ ˆ๋Œ€์ ์œผ๋กœ ์˜ณ์Šต๋‹ˆ๋‹ค. ์ œ๊ฐ€ ์ฐฉ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์‹ค, ๋‚˜๋Š” ๊ทธ๊ฒƒ์„ ํ•ด๊ฒฐํ–ˆ๋‹ค๊ณ  ๋ฏฟ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ์•„์ฃผ ์ดˆ๊ธฐ์˜ WIP๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค(๊ทธ๋ƒฅ ๋†€๊ณ  ์žˆ๋Š” ๊ฒƒ ์ด์ƒ) _poisson_loss() https://github.com/bjlkeng/scikit-learn/blob/poisson_regression/sklearn/linear_model/poisson.py ).

@josef-pkt ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. statsmodels ๊ตฌํ˜„์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” ๊ฝค ์ข‹์Šต๋‹ˆ๋‹ค(๋‚ด๊ฐ€ ํŒฌ์ด ์•„๋‹Œ API ์ œ์™ธ). ์‹ค์ œ๋กœ "์นด์šดํŠธ" ๋ชจ๋ธ์ด ์Œ์˜ ์ดํ•ญ๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์นด์šดํŠธ ๊ธฐ๋ฐ˜ ํšŒ๊ท€๋ฅผ ์ง€์›ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ข€ ๋” ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค. statsmodel ๊ตฌํ˜„์€ ์ด๋ฏธ ๋…ธ์ถœ๊ณผ ์ •๊ทœํ™”๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค(์ด๋Š” ์ œ๊ฐ€ ๋˜ํ•œ ์ฐพ๊ณ  ์žˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค).

statsmodels์— ๊ตฌํ˜„์ด ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ์•ˆํ•  ๋•Œ sklearn ์— ์ด์™€ ๊ฐ™์€ ๊ฒƒ์„ ๊ฐ–๋Š” ๊ฒƒ์ด ์—ฌ์ „ํžˆ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์‹ญ๋‹ˆ๊นŒ? ๊ทธ๋ ‡๋‹ค๋ฉด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋” ๋งŽ์€ ๋…ธ๋ ฅ์„ ๊ธฐ์šธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ์ด ๋„ˆ๋ฌด ๋ฐ”๋น ์„œ ์‹œ๊ฐ„์ด ๋ณ„๋กœ ์—†์—ˆ์–ด์š”.

๋ชจ๋“  57 ๋Œ“๊ธ€

๋‚˜๋Š” ๊ทธ๊ฒƒ์— ๋Œ€ํ•ด ์ž˜ ์•Œ์ง€๋Š” ๋ชปํ•˜์ง€๋งŒ ์ ์–ด๋„ ํฌ์•„์†ก ํšŒ๊ท€๋ฅผ ์ถ”๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.
์—ด๋ ค ์žˆ๋Š” ์˜ˆ์ œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?
๊ฐ๋งˆ ์†์‹ค์€ ์–ด๋–ค ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์— ์‚ฌ์šฉ๋ฉ๋‹ˆ๊นŒ?

์˜คํ”„์…‹์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์„ค๋ช…ํ•ด ์ฃผ์‹œ๊ฒ ์Šต๋‹ˆ๊นŒ?

์ด๊ฒƒ๋“ค์€ ๋ชจ๋‘ linear_model ์˜ ๋ณ„๋„ ๋ชจ๋ธ์ด ๋  ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋Š” ๊ทธ๋“ค์ด ์ผ๋ฐ˜์ ์œผ๋กœ l-bfgs๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š”์ง€ ๋˜๋Š” ์‚ฌ๋žŒ๋“ค์ด CD ์†”๋ฒ„๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€ ์ž˜ ๋ชจ๋ฅด๊ฒ ์Šต๋‹ˆ๋‹ค. @mblondel ๋˜๋Š” @larsmans ๋˜๋Š” @agramfort ๊ฐ€ ๋” ๋งŽ์ด ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ?

ํฌ์•„์†ก ๋ถ„ํฌ๋Š” ์นด์šดํŠธ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ๋ง์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์‹œํ–‰ ํšŸ์ˆ˜๊ฐ€ ๋ฌดํ•œ๋Œ€๋กœ ๊ฐ€๊ณ  ํ™•๋ฅ ์ด 0์ด ๋˜๊ณ  ๋‘˜ ๋‹ค np๊ฐ€ ํ”„๋กœ์„ธ์Šค์˜ ํ‰๊ท  ๋นˆ๋„์™€ ๊ฐ™์€ ๋น„์œจ๋กœ ๋ฐœ์ƒํ•˜๋Š” ์ดํ•ญ์‹์— ๋Œ€ํ•œ ์ •๊ทœ ๊ทผ์‚ฌ์— ๋Œ€ํ•œ ์ œํ•œ ๋ถ„ํฌ๋กœ ํ‘œ์‹œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ๋งˆ๋Š” ํฌ์•„์†ก ์ด๋ฒคํŠธ๊ฐ€ ๋ฐœ์ƒํ•  ๋•Œ๊นŒ์ง€์˜ ์‹œ๊ฐ„์œผ๋กœ ์ด๋ก ์ ์œผ๋กœ ํ‘œ์‹œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์˜ฌํ•ด ๋ฐœ์ƒํ•  ์‚ฌ๊ณ ์˜ ์ˆ˜๋Š” ์ด๋ก ์ ์œผ๋กœ ํฌ์•„์†ก์œผ๋กœ ํ‘œ์‹œ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋‹ค์Œ ์‚ฌ๊ณ ๊นŒ์ง€ ์˜ˆ์ƒ๋˜๋Š” ์‹œ๊ฐ„์€ ๊ฐ๋งˆ ํ”„๋กœ์„ธ์Šค์ž…๋‹ˆ๋‹ค. Tweedie๋Š” 0์— ์ถ”๊ฐ€ ๊ฐ€์ค‘์น˜๋ฅผ ํ—ˆ์šฉํ•˜๋Š” ์ด๋Ÿฌํ•œ ๋ถ„ํฌ์˜ ์ผ๋ฐ˜ํ™”๋œ ๋ถ€๋ชจ์ž…๋‹ˆ๋‹ค. tweedie๋ฅผ ์†์‹ค ๋น„์šฉ์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ƒ๊ฐํ•˜๊ณ  ๋ชจ๋“  ๊ณ ๊ฐ์˜ 99%๋Š” ๊ฐ€์ค‘์น˜๊ฐ€ 0์ž…๋‹ˆ๋‹ค. ๋‚˜๋จธ์ง€๋Š” ๊ธด ๊ผฌ๋ฆฌ์˜ ์–‘์˜ ์†์‹ค ๋˜๋Š” ๊ฐ๋งˆ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ด๋Ÿฌํ•œ ๋ถ„ํฌ๋Š” ๋ณดํ—˜, ์œ„ํ—˜ ๋ชจ๋ธ๋ง, ์žฌํ•ด ๋ชจ๋ธ, ๊ธˆ์œต, ๊ฒฝ์ œ ๋ฐ ์‚ฌํšŒ ๊ณผํ•™์˜ ํšŒ๊ท€ ๋ฌธ์ œ์— ๋„๋ฆฌ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค. ์ž์œ ๋กญ๊ฒŒ ์œ„ํ‚คํ”ผ๋””์•„๋ฅผ ์ฐธ์กฐํ•˜์‹ญ์‹œ์˜ค. ์ด๋Ÿฌํ•œ ์†์‹ค ๊ธฐ๋Šฅ์„ glmnet, GBM ๋ฐ ๋žœ๋ค ํฌ๋ ˆ์ŠคํŠธ์—์„œ ์„ ํƒํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์˜ˆ๋ฅผ ๋“ค์–ด GBM์—์„œ Freedman์˜ ๋ถ€์ŠคํŒ… ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๊ฐ€์šฐ์‹œ์•ˆ ๋˜๋Š” ์‚ฌ๋ถ„์œ„์ˆ˜ ์†์‹ค ๋Œ€์‹  ์ด ์†์‹ค์„ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ฐ๋งˆ ๋ฐ ํฌ์•„์†ก(๋ฒ ํƒ€ tweedie)์€ ์ด๋ฏธ Rs GBM ๋ฐ glm ํŒจํ‚ค์ง€์— ์žˆ์œผ๋ฉฐ xgboost๊ฐ€ ์ผ๋ถ€ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ์˜คํ”„์…‹์€ ๋…ธ์ถœ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ์— ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ๊ธฐ ์œ„ํ•ด ์‹ค๋ฌด์ž๊ฐ€ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ํฌ์•„์†ก ๋ชจ๋ธ์—๋Š” ๋งํฌ ๊ธฐ๋Šฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ: yhat=offset x exp(ํšŒ๊ท€ ๋ชจ๋ธ ์ถœ๋ ฅ)๋Š” ๋กœ๊ทธ ๋งํฌ๋ผ๊ณ  ํ•˜๋ฉฐ ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—์„œ ์˜คํ”„์…‹์„ ์‚ฌ์šฉํ•˜๋ฉด ๋‹ค์–‘ํ•œ ๊ด€์ฐฐ ๋‹จ์œ„์— ๋Œ€ํ•ด ๋…ธ์ถœ์„ ๋‹ค๋ฅด๊ฒŒ ์บก์ฒ˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํฌ์•„์†ก ํ”„๋กœ์„ธ์Šค๋Š” ๊ฐ€์‚ฐ์ ์ด์ง€๋งŒ ๋™์ผํ•˜์ง€ ์•Š์€ ๊ณต๊ฐ„์ด๋‚˜ ์‹œ๊ฐ„ ๋˜๋Š” ๊ณ ๊ฐ ์ˆ˜์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ์˜ˆ๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ์„ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ฐ ๊ด€์ฐฐ์— ๋Œ€ํ•ด ์˜คํ”„์…‹ ๋ฒกํ„ฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด ํ”„๋กœ๊ทธ๋ž˜๋ฐ์„ ๊ธฐ๊บผ์ด ์ฒ˜๋ฆฌํ•˜๊ณ  ์‹ถ์ง€๋งŒ API์— ๋Œ€ํ•ด ์ž˜ ์•Œ์ง€ ๋ชปํ•˜๋ฏ€๋กœ ์ œ์•ˆ์— ๊ฐ์‚ฌ๋“œ๋ฆฌ๋ฉฐ ์ด ์ž‘์—…์„ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋ฆด๋ฆฌ์Šค์— ์ ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์•Œ๊ฒ ์Šต๋‹ˆ๋‹ค. ์ €๋Š” ์ด๊ฒƒ์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ๋ ฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์œ„์—์„œ ์–ธ๊ธ‰ํ•œ ์„ธ ๊ฐ€์ง€ ๋ถ„ํฌ์™€ ์˜คํ”„์…‹์„ ์ถ”๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์˜คํ”„์…‹์„ ๊ตฌํ˜„ํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ผ๋ฐ˜ sklearn ์ฒญ์ค‘์˜ ํ”ผ๋“œ๋ฐฑ์— ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค. GradientBoostedRegression ํ˜ธ์ถœ 'offset=None'์— ์ƒˆ ์ธ์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•  ๊ณ„ํš์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ offset์€ ๊ธธ์ด๊ฐ€ n(์ƒ˜ํ”Œ ์ˆ˜)์ธ ๊ฐ์ฒด์™€ ๊ฐ™์€ ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค. ๋‚ด ์ฃผ์š” ์งˆ๋ฌธ์€ R์˜ GBM ๊ตฌํ˜„์—์„œ ์ˆ˜ํ–‰๋˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ๋ชจ๋“  ์†์‹ค ํ•จ์ˆ˜(Gaussian, Huber, Quantile)์— ์˜คํ”„์…‹์„ ์ถ”๊ฐ€ํ•ด์•ผ ํ•˜๋Š”์ง€ ์•„๋‹ˆ๋ฉด tweedie ์ œํ’ˆ๊ตฐ๊ณผ ํ•จ๊ป˜ ์ž‘๋™ํ•˜๋„๋ก ์˜คํ”„์…‹์„ ํ™œ์„ฑํ™”ํ•˜๊ณ  ์‹œ๋„ํ•˜๋ฉด ๊ฒฝ๊ณ ๋ฅผ ํ‘œ์‹œํ•˜๋„๋ก ์ถ”๊ฐ€ํ•ด์•ผ ํ•˜๋Š”์ง€ ์—ฌ๋ถ€์ž…๋‹ˆ๋‹ค. ์ง€์›๋˜์ง€ ์•Š๋Š” ์†์‹ค ํ•จ์ˆ˜์™€ ํ•จ๊ป˜ ์˜คํ”„์…‹์„ ์‚ฌ์šฉํ•˜๋ ค๋ฉด?

์ €๋Š” ๋ฐ์ดํ„ฐ ์„ธํŠธ๋‚˜ ์ถœํŒ๋ฌผ์—์„œ์™€ ๊ฐ™์ด ์‹ค์šฉ์ ์ธ ์‚ฌ์šฉ ์‚ฌ๋ก€๋ฅผ ๋” ๋งŽ์ด ์š”๊ตฌํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ๋ฐฐํฌํŒ์ด ๋ฌด์—‡์„ํ•˜๋Š”์ง€ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค ;)

๊ท€ํ•˜์˜ ๊ธฐ์—ฌ๊ฐ€ ๋ณ‘ํ•ฉ๋  ๊ฒƒ์ด๋ผ๊ณ  ๋ณด์žฅํ•  ์ˆ˜๋Š” ์—†์ง€๋งŒ ์ข‹์€ ์ถ”๊ฐ€ ๊ธฐ๋Šฅ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ๋…ผ์˜ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋‹จ์ง€ ์ž์‹ ์„ ์œ„ํ•ด ๊ตฌํ˜„ํ•˜๊ณ  ๋ณ‘ํ•ฉํ•˜๋”๋ผ๋„ ์ƒ๊ด€ํ•˜์ง€ ์•Š๋Š” ํ•œ ;)

์„ ํ˜• ๋ชจ๋ธ์ด ์•„๋‹Œ ๊ทธ๋ž˜๋””์–ธํŠธ ๋ถ€์ŠคํŒ…์— ์ฃผ๋กœ ๊ด€์‹ฌ์ด ์žˆ์œผ์‹ญ๋‹ˆ๊นŒ?

ping @pprett @glouppe @arjoly

๋‚˜๋Š” ๊ทธ๊ฒƒ์„ ๋ชจ๋“  ๊ณณ์—์„œ ํ†ตํ•ฉํ•˜๋Š” ๋ฐ ๊ด€์‹ฌ์ด ์žˆ์ง€๋งŒ ๋Œ€๋ถ€๋ถ„์€ ํŠธ๋ฆฌ ์•™์ƒ๋ธ”์ž…๋‹ˆ๋‹ค.
์ฒซ ๋ฒˆ์งธ. ์–ด๋Š ์ชฝ์ด๋“  ๊ทธ๋“ค์€ ์ž„์˜์˜ ์ˆฒ์œผ๋กœ ์ƒ๋‹นํ•œ ์–‘์˜ ๋ณต์ œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
๋ฐ GBM์€ ๋ชจ๋‘ ๊ฐ ์†์‹ค ํ•จ์ˆ˜์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ABC๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋‚œ ๊ทธ๋ƒฅ ํ•  ์ˆ˜
ํ•œ ๋ฒˆ๋งŒ ์ž‘๋™ํ•˜๋ฉด ๋ถˆํ–‰ํžˆ๋„ ๋‘˜ ๋‹ค์—์„œ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋„ ์ข€ ๋ฐ›์„ ์ˆ˜ ์žˆ์–ด
๋ฐ์ดํ„ฐ์„ธํŠธ. ์ด ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ณ‘ํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ํ”„๋กœ์„ธ์Šค๋Š” ์–ด๋–ป๊ฒŒ ์ƒ๊ฒผ์Šต๋‹ˆ๊นŒ?
๋”ฐ๋ผ์•ผ ํ• ๊นŒ์š”. ๋‚˜๋Š” ๊ธฐ์—ฌํ•˜๋Š” ๊ฒƒ์ด ์ฒ˜์Œ์ด๋ฏ€๋กœ ์™„๋ฃŒ๋˜์—ˆ๋Š”์ง€ ํ™•์ธํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.
์˜ค๋ฅธ์ชฝ. ๊ทธ๋Ÿฌ๋‚˜ ๋‚ด๊ฐ€ ๋งํ–ˆ๋“ฏ์ด GBM์€ ์†์‹ค ํด๋ž˜์Šค๋ฅผ ๋‹ค๋ฅธ ๊ฒƒ๊ณผ ๋…๋ฆฝ์ ์œผ๋กœ ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.
sklearn์—์„œ GBM์— ๋Œ€ํ•œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์ด ์‰ฝ๊ฒŒ ๋…๋ฆฝ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ํ•ด์•ผ๋งŒ ํ•œ๋‹ค
.py ์Šคํฌ๋ฆฝํŠธ์—์„œ ์ฝ”๋“œ๋ฅผ ํŽธ์ง‘ํ•˜์‹ญ์‹œ์˜ค.
2015๋…„ 12์›” 10์ผ ์˜คํ›„ 4์‹œ 57๋ถ„์— "Andreas Mueller" [email protected] ์ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ผ์Šต๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์„ธํŠธ ๋˜๋Š”
์ถœํŒ๋ฌผ. ๋‚˜๋Š” ๋ฐฐํฌํŒ์ด ๋ฌด์—‡์„ํ•˜๋Š”์ง€ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค ;)

์•„๋งˆ๋„ ์ข‹์€ ์ถ”๊ฐ€ ์‚ฌํ•ญ์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๊ท€ํ•˜์˜ ๊ธฐ์—ฌ๊ฐ€ ๋ณ‘ํ•ฉ๋ฉ๋‹ˆ๋‹ค. ๋…ผ์˜ํ•˜๋Š” ๊ฒƒ์ด ์ข‹์„ ๊ฒƒ ๊ฐ™๋‹ค.
์‹œ์ž‘ํ•˜๊ธฐ ์ „์— ๋” ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ
๋‹น์‹ ์˜ ์ž์•„์ด๋ฉฐ ์šฐ๋ฆฌ๊ฐ€ ๊ทธ๊ฒƒ์„ ๋ณ‘ํ•ฉํ•ด๋„ ์ƒ๊ด€ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค ;)

๊ทธ๋ž˜์„œ ๋‚˜๋Š” ๋‹น์‹ ์ด ์„ ํ˜•์ด ์•„๋‹Œ ๊ทธ๋ผ๋””์–ธํŠธ ๋ถ€์ŠคํŒ…์— ์ฃผ๋กœ ๊ด€์‹ฌ์ด ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.
๋ชจ๋ธ?

ํ•‘ @pprett https://github.com/pprett @glouppe
https://github.com/glouppe @arjoly https://github.com/arjoly

โ€”
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ฑฐ๋‚˜ GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/scikit-learn/scikit-learn/issues/5975#issuecomment -163761067
.

์œ„์—์„œ pingํ•œ GBM ์ „๋ฌธ๊ฐ€์˜ ์˜๊ฒฌ์„ ๋ฐ›๋Š” ๊ฒƒ์ด ์ข‹๊ฒ ์ง€๋งŒ ์‚ฌ๋žŒ๋“ค์ด ์ถ”๊ฐ€์— ๊ด€์‹ฌ์ด ์žˆ๋Š”์ง€ ๋ฌป๋Š” ๋ฉ”์ผ๋ง ๋ฆฌ์ŠคํŠธ์— ๊ธ€์„ ์“ธ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

L1/L2 ํŒจ๋„ํ‹ฐ๋กœ ์ขŒํ‘œ ์†”๋ฒ„๋„ ์ง€์›ํ•  ๊ณ„ํš์ž…๋‹ˆ๊นŒ?
_glmnet์ฒ˜๋Ÿผ
?_

์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ์—…๋ฐ์ดํŠธ๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ? linear_models ์— ์ถ”๊ฐ€๋œ Poisson ํšŒ๊ท€๋ฅผ ๋ณด๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ sklearn ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ ์™ธ์—๋Š” ๋ชจํ—˜์„ ํ•  ํ•„์š”๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์•„๋ฌด๋„ ์ ๊ทน์ ์œผ๋กœ ์ž‘์—…ํ•˜์ง€ ์•Š์œผ๋ฉด ๊ตฌํ˜„์— ์ฐ”๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์•„๋ฌด๋„ AFAIK.

์ฃผ์ €ํ•˜์ง€ ๋ง๊ณ  ์‹œ๋„ํ•ด ๋ณด๊ณ  WIP ๊ตฌํ˜„์„ ๊ณต์œ ํ•˜์‹ญ์‹œ์˜ค.

๋‚˜๋Š” ์ด๊ฒƒ์— ๋Œ€ํ•ด ์ผํ•  ์˜ˆ์ •์ด์—ˆ๊ณ  ์ง€๊ธˆ๋„ ๊ณ„์†ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜๋„ ๋‚ด๊ฐ€ ํ•˜๋ฉด
API์— ์˜คํ”„์…‹์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊น”๋”ํ•œ ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๊ฐ€ํ• ๊นŒ ๊ณ ๋ฏผํ•˜๋‹ค๊ฐ€
์˜คํ”„์…‹ kwarg ๋ฐ ๊ธฐ๋ณธ๊ฐ’์€ ์—†์Œ์ด ๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์†์‹ค์ด ๋ฐœ์ƒํ•˜๋ฉด ๊ฒฝ๊ณ ๋ฅผ ๋˜์ง‘๋‹ˆ๋‹ค.
ํฌ์•„์†ก์ด ์•„๋‹™๋‹ˆ๋‹ค. ๋‚˜๋Š” ์ฃผ๋กœ ๋ณดํ—˜ ๋ชจ๋ธ๋ง์„ ์œ„ํ•ด ํฌ์•„์†ก์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
์˜คํ”„์…‹์€ ๋กœ๊ทธ(๋…ธ์ถœ ํš๋“)์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๋ฐ ๋ฐฐํฌ๋ฅผ ํ†ตํ•ด ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
ํฌ์†Œ ์นด์šดํŠธ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ์šฐ ํ›จ์”ฌ ์—ด๋“ฑํ•œ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ด๋ก 
์˜คํ”„์…‹ ์—†์ด. ํ˜„์žฌ R์˜ ์„ ํ˜• ๋ชจ๋ธ๊ณผ GBM์€ ๋ชจ๋‘ ํ‘ธ์•„์†ก์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค.
์˜คํ”„์…‹์œผ๋กœ. ์ด๊ฒƒ์ด ํ˜„์žฌ ๋„๊ตฌ๋กœ์˜ ์ด๋™์ž…๋‹ˆ๋‹ค. ๋‚˜๋Š” ์ด๊ฒƒ์„ ์ถ”๊ฐ€ํ•˜๊ณ  ์‹ถ๋‹ค
๋‹ค๋ฅธ ์‚ฌ๋žŒ๋“ค์ด ์ถ”๊ฐ€ํ•˜๋ ค๋Š” ๊ฒฝ์šฐ sklearn.
2016๋…„ 5์›” 1์ผ ์˜ค์ „ 4์‹œ 3๋ถ„, "Alexandre Gramfort" [email protected]
์ผ๋‹ค:

์•„๋ฌด๋„ AFAIK.

์ฃผ์ €ํ•˜์ง€ ๋ง๊ณ  ์‹œ๋„ํ•ด ๋ณด๊ณ  WIP ๊ตฌํ˜„์„ ๊ณต์œ ํ•˜์‹ญ์‹œ์˜ค.

โ€”
์Šค๋ ˆ๋“œ๋ฅผ ์ž‘์„ฑํ–ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋ฉ”์‹œ์ง€๋ฅผ ๋ฐ›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ฑฐ๋‚˜ GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/scikit-learn/scikit-learn/issues/5975#issuecomment -216024458

@thenomemac ๋‚ด๊ฐ€ ์‚ดํŽด๋ณผ ์ˆ˜ ์žˆ๋Š” WIP ๊ตฌํ˜„์ด ์žˆ์Šต๋‹ˆ๊นŒ?

์˜คํ”„์…‹์˜ ๊ฒฝ์šฐ "y" ๊ฐ’์„ ์นด์šดํŠธ ๋Œ€์‹  ๋น„์œจ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ์ž๊ฐ€ ์˜คํ”„์…‹/๋…ธ์ถœ๋กœ ์นด์šดํŠธ๋ฅผ ๋‚˜๋ˆ„๋„๋ก ์š”๊ตฌํ•  ์ˆ˜ ์—†์—ˆ์Šต๋‹ˆ๊นŒ(https://en.wikipedia.org/wiki/Poisson_regression#. 22Exposure.22_and_offset)? R์˜ GLM ํŒจํ‚ค์ง€์—๋Š” ๋ชจ๋ธ ์ง€์ •(์˜คํ”„์…‹ ์ง€์ • ํฌํ•จ)์„ ์œ„ํ•œ ํ›Œ๋ฅญํ•œ ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ์žˆ์ง€๋งŒ ์ด๊ฒƒ์ด ๊ธฐ์กด ์„ ํ˜• ๋ชจ๋ธ API์— ์–ด๋–ป๊ฒŒ ๋งž๋Š”์ง€๋Š” ํ™•์‹คํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

@bjlkeng ์•„์ง WIP ๊ตฌํ˜„์ด ์™„๋ฃŒ๋˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์–ผ๋งˆ ์ „์— ์‹œ์ž‘ํ–ˆ๋Š”๋ฐ ์‚ฐ๋งŒํ•ด์กŒ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ํฌ์•„์†ก ๋น„์œจ์„ ์–ป๊ธฐ ์œ„ํ•ด ๋…ธ์ถœ๋กœ ๋‚˜๋ˆ„๋Š” ๊ฒƒ์ด ํฌ์•„์†ก ์†์‹ค์— ๋Œ€ํ•œ GBM ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์˜ฌ๋ฐ”๋ฅธ ํŒŒ์ƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜๋””์–ธํŠธ์˜ offset=log(exposure)๋Š” ์ถ”๊ฐ€ ์š”์†Œ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋…ธ์ถœ์ด ๋” ๋†’์€ "์˜์—ญ"์— ๋” ๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๋ถ€์—ฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ํ˜„์žฌ ํŠธ๋ฆฌ ํ•™์Šต์ž์—๊ฒŒ ๊ฐ€์ค‘์น˜๋ฅผ ์ „๋‹ฌํ•˜๋Š” ๋ฐฉ์‹์€ ๊ฐ€์‚ฐ์ด ์•„๋‹Œ ์Šน๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ธฐ๋ณธ ํ•™์Šต์ž(ํŠธ๋ฆฌ)๋ฅผ ํ”ผํŒ…ํ•  ๋•Œ๋งˆ๋‹ค ์˜ฌ๋ฐ”๋ฅธ ๊ธฐ์šธ๊ธฐ๋กœ ๋Œ์•„๊ฐˆ ์ˆ˜ ์žˆ๋Š”์ง€ 100% ํ™•์‹ ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ๋‚ด๊ฐ€ ๋งํ•˜๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ๋” ์—„๊ฒฉํ•œ ์ˆ˜ํ•™์  ํŒŒ์ƒ๋ฌผ์„ ์ž…๋ ฅํ•˜๋ ค๊ณ  ๋…ธ๋ ฅํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์‹ค๋ฌด์—์„œ ์ค‘์š”ํ•˜๋‹ค๊ณ  ๋ง์”€๋“œ๋ฆด ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ์นด์šดํŠธ ๋ฐ์ดํ„ฐ๊ฐ€ ํฌ์•„์†ก์ด ๋  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋˜๋Š” ๊ณณ์—์„œ ๋ชจ๋ธ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. R์˜ gbm์„ ์‚ฌ์šฉํ•˜๋ฉด ์˜คํ”„์…‹์„ "์ˆ˜ํ•™์ ์œผ๋กœ" ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋” ๋น ๋ฅด๊ณ  ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋กœ ์ˆ˜๋ ด๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํฌ์•„์†ก ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์žˆ๋Š” xgboost์™€ ๊ฐ™์€ ๋‹ค๋ฅธ gbm ๊ตฌํ˜„์€ ์ œ์•ˆ๋œ ๋Œ€๋กœ ํฌ์•„์†ก ๋น„์œจ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋ธ๋งํ•  ์ˆ˜๋„ ์—†์Šต๋‹ˆ๋‹ค.

(์ด ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋งํฌ๋Š” stats.stackexchange์—์„œ ์ฐพ์•˜์Šต๋‹ˆ๋‹ค.

statmodels GLM์—๋Š” ์˜คํ”„์…‹ ๋ฐ ๋…ธ์ถœ์ด ์žˆ์Šต๋‹ˆ๋‹ค(๋กœ๊ทธ ๋งํฌ์—๋งŒ ๋…ธ์ถœ).

๋งˆ์Šคํ„ฐ์—๋Š” ์ด์ œ ์ขŒํ‘œ ํ•˜๊ฐ•์„ ์œ„ํ•ด apython ๋ฃจํ”„๋ฅผ ํ†ตํ•ด ๊ตฌํ˜„๋œ GLM ๋ฐ ๊ธฐํƒ€ ๋ช‡ ๊ฐ€์ง€ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํƒ„๋ ฅ์  ๋„คํŠธ ์˜ต์…˜์ด ์žˆ์Šต๋‹ˆ๋‹ค(์˜คํ”„์…‹๊ณผ ํ•จ๊ป˜ ์ผ๋ฐ˜ ์ตœ๋Œ€ ๊ฐ€๋Šฅ์„ฑ ์‚ฌ์šฉ).

๋งˆ์Šคํ„ฐ์—๋Š” ์ด์ œ GLM์šฉ Tweedie ์ œํ’ˆ๊ตฐ๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ํ•ญ์˜ ๋ฌดํ•œ ํ•ฉ์ด๊ณ  ์ž˜๋ฆฐ ๋ฒ„์ „์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด ๋Š๋ฆฌ๊ณ  ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๊ทผ์‚ฌ์น˜๊ฐ€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ณต๊ฐ„์˜ ์ผ๋ถ€ ๋ฒ”์œ„์—์„œ ๋งค์šฐ ์ •ํ™•ํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— ์ „์ฒด ๋กœ๊ทธ ๊ฐ€๋Šฅ์„ฑ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ฐธ์กฐ ๊ตฌํ˜„์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ statsmodels์—๋Š” ์ด๋Ÿฌํ•œ ๋ถ€๋ถ„์ด ์žˆ์Šต๋‹ˆ๋‹ค. GLM์šฉ GBM์— ๋Œ€ํ•ด ๋“ค์–ด๋ณธ ์ ๋„ ๋ณธ ์ ๋„ ์—†์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ๋˜ํ•œ scikit-learn ์ฝ”๋“œ์— ๋Œ€ํ•ด ์ž˜ ์•Œ์ง€ ๋ชปํ•˜์—ฌ ๊ทธ๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ๋“ค์–ด๋งž๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
)

@thenomemac ๋…ธ์ถœ๋กœ ์ธํ•ด ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ๋ณ€๊ฒฝ๋œ๋‹ค๋Š” ๊ฒƒ์€ ์ ˆ๋Œ€์ ์œผ๋กœ ์˜ณ์Šต๋‹ˆ๋‹ค. ์ œ๊ฐ€ ์ฐฉ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์‚ฌ์‹ค, ๋‚˜๋Š” ๊ทธ๊ฒƒ์„ ํ•ด๊ฒฐํ–ˆ๋‹ค๊ณ  ๋ฏฟ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ์•„์ฃผ ์ดˆ๊ธฐ์˜ WIP๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค(๊ทธ๋ƒฅ ๋†€๊ณ  ์žˆ๋Š” ๊ฒƒ ์ด์ƒ) _poisson_loss() https://github.com/bjlkeng/scikit-learn/blob/poisson_regression/sklearn/linear_model/poisson.py ).

@josef-pkt ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. statsmodels ๊ตฌํ˜„์„ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” ๊ฝค ์ข‹์Šต๋‹ˆ๋‹ค(๋‚ด๊ฐ€ ํŒฌ์ด ์•„๋‹Œ API ์ œ์™ธ). ์‹ค์ œ๋กœ "์นด์šดํŠธ" ๋ชจ๋ธ์ด ์Œ์˜ ์ดํ•ญ๊ณผ ๊ฐ™์€ ๋‹ค๋ฅธ ์นด์šดํŠธ ๊ธฐ๋ฐ˜ ํšŒ๊ท€๋ฅผ ์ง€์›ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ข€ ๋” ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค. statsmodel ๊ตฌํ˜„์€ ์ด๋ฏธ ๋…ธ์ถœ๊ณผ ์ •๊ทœํ™”๋ฅผ ๊ณ ๋ คํ•ฉ๋‹ˆ๋‹ค(์ด๋Š” ์ œ๊ฐ€ ๋˜ํ•œ ์ฐพ๊ณ  ์žˆ๋˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค).

statsmodels์— ๊ตฌํ˜„์ด ์žˆ๋‹ค๋Š” ์ ์„ ๊ฐ์•ˆํ•  ๋•Œ sklearn ์— ์ด์™€ ๊ฐ™์€ ๊ฒƒ์„ ๊ฐ–๋Š” ๊ฒƒ์ด ์—ฌ์ „ํžˆ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•˜์‹ญ๋‹ˆ๊นŒ? ๊ทธ๋ ‡๋‹ค๋ฉด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋” ๋งŽ์€ ๋…ธ๋ ฅ์„ ๊ธฐ์šธ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ผ์ด ๋„ˆ๋ฌด ๋ฐ”๋น ์„œ ์‹œ๊ฐ„์ด ๋ณ„๋กœ ์—†์—ˆ์–ด์š”.

๋‚˜๋Š” ์ด๊ฒƒ์ด ์—ฌ์ „ํžˆ ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.

@bjlkeng ๋Œ“๊ธ€ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! ๊ทธ๊ฒƒ์„ ๋ฐ›์•„๋“ค์ด๊ณ  ํ’€ ๋ฆฌํ€˜์ŠคํŠธ๋ฅผ ํ•˜๋Š” ๋ฐ ๊ด€์‹ฌ์ด ์žˆ์Šต๋‹ˆ๊นŒ? ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒฝ์šฐ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ณ  PR์„ ์‹œ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € ํ‘ธ์•„์†ก์— ๋Œ€ํ•ด ๋‹ค์Œ์—๋Š” ๊ฐ๋งˆ์— ๋Œ€ํ•ด... @agramfort ๊ดœ์ฐฎ์Šต๋‹ˆ๊นŒ? :)

@raghavrv๋‹˜ , ๋‹ต๋ณ€์ด ๋Šฆ์–ด ์ฃ„์†กํ•ฉ๋‹ˆ๋‹ค. ์ผ์ด ๊ฝค ๋ฐ”๋น ์„œ ์ƒ๊ฐ๋ณด๋‹ค ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค๋Š” ๊ฒƒ๋„ ๊นจ๋‹ฌ์•˜์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ณ„์† ์ง„ํ–‰ํ•ด ์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค. statsmodel ๊ตฌํ˜„์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—์„œ ์›ํ•˜๋Š” ๊ธฐ๋Šฅ์ด ๋Œ€๋ถ€๋ถ„ ํฌํ•จ๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

@raghavrv ์ด ์ž‘์—…์„ ์‹œ์ž‘ํ•˜์…จ๋‚˜์š”? ๋‚˜๋Š” ๋˜ํ•œ sklearn์—์„œ ์ตœ์†Œํ•œ Poisson ํšŒ๊ท€๋ฅผ ๊ฐ–๋„๋ก ๊ธฐ์—ฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

@btabibian @raghavrv ์ด ์ƒํƒœ๊ฐ€ ์–ด๋–ค๊ฐ€์š”? ํ”„๋กœ์ ํŠธ์— ํ‘ธ์•„์†ก ํšŒ๊ท€ ๊ตฌํ˜„์ด ํ•„์š”ํ•˜๊ณ  ๊ธฐ๊บผ์ด ๊ธฐ์—ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ง„ํ–‰ํ•ด์ฃผ์„ธ์š” :) ๊ทธ๋Ÿด ์‹œ๊ฐ„์ด ์—†์—ˆ์–ด์š” ์ฃ„์†กํ•ฉ๋‹ˆ๋‹ค...

๋‚˜๋Š” ์‹œ๊ฐ„์ด ์—†์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ API์™€
์˜คํ”„์…‹์„ ํ†ตํ•ฉํ•ฉ๋‹ˆ๋‹ค. statsmodels์—์„œ ์ˆ˜ํ•™ ๋˜๋Š” ์ฝ”๋“œ ์˜ˆ์ œ๋ฅผ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ TLDR์— ํฌ์•„์†ก ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๋ฉด ์˜คํ”„์…‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๋™์ผํ•˜์ง€ ์•Š์€ ๋…ธ์ถœ(๋ฉด์  ๋˜๋Š” ์‹œ๊ฐ„)์ด ๋ฐœ์ƒํ•˜๋ฉด ์˜คํ”„์…‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ๊ทธ๋ ‡์ง€ ์•Š๋‹ค
์นด์šดํŠธ๋ฅผ ๋…ธ์ถœ๋กœ ๋‚˜๋ˆ„๋ฉด ์˜ฌ๋ฐ”๋ฅธ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์‹ญ์‹œ์˜ค.

2017๋…„ 4์›” 1์ผ ์˜คํ›„ 2์‹œ 49๋ถ„, "(Venkat) Raghav (Rajagopalan)" <
[email protected]>์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ผ์Šต๋‹ˆ๋‹ค.

์ง„ํ–‰ํ•ด์ฃผ์„ธ์š” :) ๊ทธ๋Ÿด ์‹œ๊ฐ„์ด ์—†์—ˆ์–ด์š” ์ฃ„์†กํ•ฉ๋‹ˆ๋‹ค...

โ€”
๋‹น์‹ ์ด ์–ธ๊ธ‰๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์„ ๋ฐ›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ณ  GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/scikit-learn/scikit-learn/issues/5975#issuecomment-290939521 ,
๋˜๋Š” ์Šค๋ ˆ๋“œ ์Œ์†Œ๊ฑฐ
https://github.com/notifications/unsubscribe-auth/AOeuWjVGf3-VmeasNHMLQAB1dnd4zuUQks5rrpw4gaJpZM4Gwd6-
.

๊ทธ๋•Œ๋ถ€ํ„ฐ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. @thenomemac ํŒ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! ๋…ธ์ถœ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋ณด๊ธฐ ์œ„ํ•ด statsmodels ๊ตฌํ˜„์„ ํ™•์ธํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์•ˆ๋…•ํ•˜์„ธ์š”, ์—…๋ฐ์ดํŠธ๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ? ์Œ์˜ ์ดํ•ญ ๊ฐ€๋Šฅ์„ฑ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๊นŒ? ์ด๊ฒƒ์€ Poisson์— ํฐ ์ฐจ์ด๋ฅผ ๋งŒ๋“ค์ง€ ์•Š์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด ๋‚˜๋Š” ์ด๊ฒƒ์„ ์กฐ์‚ฌ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค ..

์ตœ์ƒ์˜,
์‹œ๋ชฌ

์•ˆ๋…•ํ•˜์„ธ์š” @dirmeier , ๋ถˆํ–‰ํžˆ๋„ ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ €๋Š” ๊ณ„์ธต์  ๋ฒ ์ด์ง€์•ˆ ๋ชจ๋ธ๋กœ ์ „ํ™˜ํ–ˆ๊ณ  ํฌ์•„์†ก ํšŒ๊ท€๋ฅผ ๊ตฌํ˜„ํ•œ ์ ์ด ์—†์Šต๋‹ˆ๋‹ค.

@dirmeier , @jakobworldpeace ์ง„ํ–‰ ์ค‘์ธ ์ž‘์—…์— ๋Œ€ํ•ด ์•Œ๋ ค์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ? ์ด๊ฒƒ๋„ ๋ณด๊ณ  ๋„˜์–ด๊ฐ€๋„ ๋ ๊นŒ์š”?

์•ˆ๋…•ํ•˜์„ธ์š” @NickHoernle ,
๋‚˜๋Š” ์‹œ๊ฐ„์ด ์—†๊ธฐ ๋•Œ๋ฌธ์— ํ˜„์žฌ NB-ํšŒ๊ท€์— R์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๊ฒƒ์„ ๊ตฌํ˜„ํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด ๊ธฐ์  ๊ฒƒ์ž…๋‹ˆ๋‹ค :)

@NickHoernle WIP๋Š” ์—†์ง€๋งŒ statsmodels Poisson ํšŒ๊ท€ ๊ตฌํ˜„์„ ์‹œ์ž‘ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

ํ›Œ๋ฅญํ•œ. ๋‚˜๋Š” ์ด๊ฒƒ์„ ์‚ดํŽด๋ณด๊ธฐ ์‹œ์ž‘ํ•˜๊ณ  ์šฐ๋ฆฌ๊ฐ€ ์–ด๋””๋กœ ๊ฐ€๋Š”์ง€ ๋ณผ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ €๋Š” https://github.com/madrury/py-glm์—์„œ GLM์„ ์ž‘์—…ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‚˜๋Š” ์ด๊ฒƒ์„ sklearn์— ๋ณ‘ํ•ฉํ•˜๋ ค๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์‹ค์ œ๋กœ ํ•™์ƒ๋“ค์ด ์ˆ˜์—…์—์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ด์ง€๋งŒ ์ด ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์œ ์šฉํ•  ๊ฒฝ์šฐ๋ฅผ ๋Œ€๋น„ํ•˜์—ฌ ์ž‘์—…์„ ์ง€์ ํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.

๋†’์€ ์ˆ˜์ค€์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์„ ๋‰ดํ„ด ๋ฐฉ์‹์˜ ์†”๋ฒ„
์น˜์ˆ˜. ๋˜ํ•œ L1 ์œ ํ˜• ํŒจ๋„ํ‹ฐ๋ฅผ ์ง€์›ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. API๋„ ํ™•์ธํ•˜์„ธ์š”.
sklearn๊ณผ์˜ ์ผ๊ด€์„ฑ. ๋งž์ถค์€ X, y ๋ฐ sample_weights๋งŒ ์ทจํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๊ฐ€์žฅ ๋จผ์ € ํ•  ์ผ์€ l-bfgs๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ณด๋‹ค
์šฐ๋ฆฌ์˜ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ์ฝ”๋“œ

HTH

๋‚ด๊ฐ€ ๋งํ–ˆ๋“ฏ์ด ๋‚ด ๋ชฉํ‘œ๋Š” sklearn๊ณผ์˜ ์™„์ „ํ•œ ์ผ๊ด€์„ฑ์ด ์•„๋‹ˆ๋ผ MuCullagh ๋ฐ Nelder๋ฅผ ๋”ฐ๋ฅด๊ณ  ์ผ๋ถ€ ์ถ”๋ก  ๋„๊ตฌ(sklearn์˜ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚จ)๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฐ„๋‹จํ•œ ๊ตฌํ˜„์„ ๊ฐ–๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ค‘๊ฐ„ ํฌ๊ธฐ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ๊ฐ•์˜์‹ค ํ™˜๊ฒฝ์—์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค. sklearn์„ ์œ„ํ•ด ์ด ๊ธฐ๋Šฅ์„ ์ž‘์—…ํ•˜๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์œ ์šฉํ•œ ์•„์ด๋””์–ด๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ๋ฅผ ๋Œ€๋น„ํ•˜์—ฌ ์—ฌ๊ธฐ์— ์ฝ”๋“œ๋ฅผ ์—ฐ๊ฒฐํ•˜๊ณ  ์‹ถ์—ˆ์Šต๋‹ˆ๋‹ค.

L1 ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ฒ”์œ„๋กœ ์ƒ๊ฐํ•˜์ง€ ์•Š๊ณ  glmnet ๋งŒ ์‚ฌ์šฉํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. L2๋Š” ๋‚ด๊ฐ€ ๊ณ„์†ํ•ด์„œ ์ถ”๊ฐ€ํ•œ ๊ณ ์ „์ ์ธ GLM ํ”„๋ ˆ์ž„์›Œํฌ์— ํ†ตํ•ฉํ•˜๊ธฐ์— ์ถฉ๋ถ„ํžˆ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค.

fit ๋ฐฉ๋ฒ•์— ๊ด€ํ•ด์„œ๋Š” ์—ฌ๊ธฐ์— ์ž‘์€ ์„ค๋ช…์„ ๋ง๋ถ™์ด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ ๊ฒƒ์ด ์•„๋‹ˆ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค. ์ ํ•ฉํ•˜๋„๋ก ์ œ๊ณต๋œ offset ์˜ ๋ถ€์กฑ์€ sklearn์ด ์ง€๋‚œ ์ง์žฅ์—์„œ ์ฃผ๋ชฉ๋ฐ›์ง€ ๋ชปํ•œ ์ด์œ ์˜ ํฐ ๋ถ€๋ถ„์ด์—ˆ์Šต๋‹ˆ๋‹ค. ์ ์ ˆํ•œ ๋ณดํ—˜ ๋ชจ๋ธ๋ง์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ •๋ง ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๊ทœ์ œ ๊ธฐ๊ด€์€ Poisson ๋ฐ Tweedie ๋ชจ๋ธ์ด ๊ทธ๋Ÿฐ ์‹์œผ๋กœ ์ ํ•ฉํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๋ฉฐ ๊ธฐ๋Œ€์น˜๊ฐ€ ์ƒ๋‹นํžˆ ์—„๊ฒฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋น„์ „์„ ๋ช…ํ™•ํžˆ ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

์˜คํ”„์…‹๊ณผ ๊ด€๋ จํ•˜์—ฌ ํ‘ธ์•„์†ก ๋ฐ ํŠธ์œ„๋”” ๋ชจ๋ธ์—๋งŒ ํ•ด๋‹น๋ฉ๋‹ˆ๊นŒ?
์ƒ˜ํ”Œ ํŠน์ • ๊ฐ’์ธ ๊ฒฝ์šฐ ํ”ผํŒ…์—์„œ sample_prop์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋งค๊ฐœ๋ณ€์ˆ˜.
๋ฐ์ดํ„ฐ์— ์˜์กดํ•˜์ง€ ์•Š๋Š” max_iter ๋˜๋Š” tol์ผ ๋ฟ์ž…๋‹ˆ๋‹ค.
์ดˆ๊ธฐํ™”

#9405์™€ ๋น„๊ตํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

@agramfort ๋‹น์‹ ์€ max_iter์™€ tol์— ๋Œ€ํ•ด ์˜ณ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ๊ทธ๊ฒƒ๋“ค์„ __init__์œผ๋กœ ์˜ฎ๊ธธ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

sample_prop ์˜ ์˜๋ฏธ์— ๋Œ€ํ•œ ์ฐธ์กฐ๊ฐ€ ์žˆ์Šต๋‹ˆ๊นŒ?

https://github.com/scikit-learn/enhancement_proposals/pull/6 ์ฐธ์กฐ

๊ฐ€์žฅ ์ข‹์€ ๋ฐฉ๋ฒ•์ด ๋ฌด์—‡์ธ์ง€ ์•„์ง ๋…ผ์˜ ์ค‘์ž…๋‹ˆ๋‹ค...

์˜คํ”„์…‹์— ๋Œ€ํ•œ ์งง์€ ์ฐธ๊ณ  ์‚ฌํ•ญ: AFAIK, ์ƒ˜ํ”Œ ๊ฐ€์ค‘์น˜๋Š” ๋…ธ์ถœ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, y=values/exposure๋ฅผ sample_weight=exposure๋กœ ๋งž์ถ”๋ฉด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๋กœ๊ทธ ๋งํฌ๊ฐ€ ์žˆ๋Š” Poisson ์ด์™ธ์˜ ๋‹ค๋ฅธ ๋ฐฐํฌ ๋ฐ ๋งํฌ์— ์ผ๋ฐ˜ํ™”๋ฉ๋‹ˆ๋‹ค.

@madrury ๊ณต์œ ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋Š” ๋‹น์‹ ์˜ ๊ตฌํ˜„์„ ์‚ดํŽด๋ณด๊ณ  ๋‚ด ๊ฒƒ๊ณผ ๋น„๊ตํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์‚ฌ๋žŒ๋“ค์ด ์—ฌ์ „ํžˆ ์ด๊ฒƒ์— ๊ด€์‹ฌ์ด ์žˆ์Šต๋‹ˆ๊นŒ? ๋‚˜๋Š” ๊ธฐ์—ฌ์— ๊ด€์‹ฌ์ด ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ˆ„๊ตฐ๊ฐ€ sklearn์„ ์ถ”๊ฐ€ํ•˜๋ฉด ๊ธฐ๋Šฅ์— ์—ฌ์ „ํžˆ ๊ด€์‹ฌ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2017๋…„ 12์›” 21์ผ ๋ชฉ์š”์ผ ์˜คํ›„ 6:04 Jared Samet ์•Œ๋ฆผ @github.com
์ผ๋‹ค:

์‚ฌ๋žŒ๋“ค์ด ์—ฌ์ „ํžˆ ์ด๊ฒƒ์— ๊ด€์‹ฌ์ด ์žˆ์Šต๋‹ˆ๊นŒ? ๋‚˜๋Š” ๊ธฐ์—ฌ์— ๊ด€์‹ฌ์ด ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

โ€”
๋‹น์‹ ์ด ์–ธ๊ธ‰๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์„ ๋ฐ›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ณ  GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/scikit-learn/scikit-learn/issues/5975#issuecomment-353479618 ,
๋˜๋Š” ์Šค๋ ˆ๋“œ ์Œ์†Œ๊ฑฐ
https://github.com/notifications/unsubscribe-auth/AOeuWtvi4Um_o_ERuVe1ob86201G-ASdks5tCuP4gaJpZM4Gwd6-
.

@oracleofnj @thenomemac

py-glm ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์— ๊ฒ€์ฆ๋œ ์ผ๋ฐ˜ glm ๊ตฌํ˜„์ด ์žˆ์ง€๋งŒ sklearn์— ๋ณ‘ํ•ฉํ•  ๊ณ„ํš์ด ์—†์Šต๋‹ˆ๋‹ค(sklearn๊ณผ ํ˜ธํ™˜๋˜์ง€ ์•Š๋Š” ๋””์ž์ธ ๊ฒฐ์ •์„ ๋‚ด๋ฆผ). ๋‹ค๋ฅธ ์ง€์ˆ˜๊ตฐ์„ ์ถ”๊ฐ€ํ•˜๊ธฐ๊ฐ€ ๋งค์šฐ ์‰ฝ๋„๋ก ์„ค์ •๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋‚˜๋Š” ๋˜ํ•œ ๋™์ผํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ๋™์ผํ•œ ์ง€์ˆ˜ ํŒจ๋ฐ€๋ฆฌ๋ฅผ ์ง€์›ํ•˜๋Š” ์™„์ „ํ•˜๊ณ  ์ˆœ์ˆ˜ํ•œ python glmnet ๊ตฌํ˜„์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ ๋ฒ„๊ทธ์— ๊ฑธ๋ ค์„œ ๋‚ด๋ ค ๋†“์•˜์Šต๋‹ˆ๋‹ค. ๋ฒ„๊ทธ๋ฅผ ํ†ตํ•ด ์ถ”๋ก ํ•˜๋Š” ๋ฐ ๋„์›€์ด ๋˜์—ˆ์œผ๋ฉด ํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ๋ณต๊ตฌํ•  ๋™๊ธฐ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

@madrury ํ•ด๋‹น ๋ฒ„๊ทธ๋ฅผ ๋„์™€๋“œ๋ฆด ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด ๊ธฐ์ฉ๋‹ˆ๋‹ค.

์•ˆ๋…•ํ•˜์„ธ์š”, ์ด๋Ÿฌํ•œ ๋ฐฐํฌํŒ์„ ์œ„ํ•ด ๊ตฌ์ถ•๋œ ๊ฒƒ์ด ์žˆ์Šต๋‹ˆ๊นŒ? ์—…๋ฐ์ดํŠธ๊ฐ€ ๊ถ๊ธˆํ•ฉ๋‹ˆ๋‹ค. ๊ฐ์‚ฌ ํ•ด์š”.

๊ธฐ์—ฌ์ž๋ฅผ ๋•๊ธฐ ์œ„ํ•ด ์ด ๋ฌธ์ œ๋ฅผ ๋‹ซ๋Š” ๊ฒƒ์ด ๊ฐœ์ธ์ ์œผ๋กœ ์ข‹์Šต๋‹ˆ๋‹ค.
์ง‘์ค‘ํ•˜๋‹ค. ์›์ธ:

  • ํŒŒ์ด์ฌ ํ’๊ฒฝ์ด ๋ฐ”๋€Œ์—ˆ๋‹ค

  • statsmodels๋Š” ์ด์ œ ํ›จ์”ฌ ๋” ์„ฑ์ˆ™ํ•ด์กŒ์œผ๋ฉฐ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฐฐํฌํŒ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.
    ์ ์ ˆํ•œ ๋…ธ์ถœ ๊ฐ€์ค‘์น˜

  • pytorch ๋˜๋Š” tensorflow๋ฅผ ํ†ตํ•œ jit ๊ธฐ๋ฐ˜ ๊ตฌํ˜„์„ ํ†ตํ•ด
    ์„ฑ๋Šฅ ์ €ํ•˜ ๋˜๋Š” ํŒจํ‚ค์ง€ ์—†์ด ๋ชจ๋“  ๋‚œํ•ดํ•œ ์†์‹ค์„ ๊ตฌํ˜„ํ•ฉ๋‹ˆ๋‹ค.
    ์žฌ์ปดํŒŒ์ผ

์ƒ๊ฐ?

์šฐ๋ฆฌ๋Š” ํ˜„์žฌ ๋‹ค์Œ์„ ๋•๊ธฐ ์œ„ํ•ด ๋ฆฌ์†Œ์Šค๋ฅผ ํ• ๋‹นํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
https://github.com/scikit-learn/scikit-learn/pull/9405
๊ทธ๋ฆฌ๊ณ  ๊ทธ๊ฒƒ์„ (์ ์–ด๋„ ์ผ๋ถ€) ๋งˆ์Šคํ„ฐ์— ์ฐฉ๋ฅ™์‹œํ‚ค์‹ญ์‹œ์˜ค. ๊ทน๋ณตํ•ด์•ผ ํ•œ๋‹ค
๋‹ค์Œ ๋‹ฌ.

๋ฉ‹์ง„ ์ผ !

2019๋…„ 4์›” 13์ผ ํ† ์š”์ผ ์˜ค์ „ 3:27 Alexandre Gramfort [email protected]
์ผ๋‹ค:

์šฐ๋ฆฌ๋Š” ํ˜„์žฌ ๋‹ค์Œ์„ ๋•๊ธฐ ์œ„ํ•ด ๋ฆฌ์†Œ์Šค๋ฅผ ํ• ๋‹นํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
https://github.com/scikit-learn/scikit-learn/pull/9405
๊ทธ๋ฆฌ๊ณ  ๊ทธ๊ฒƒ์„ (์ ์–ด๋„ ์ผ๋ถ€) ๋งˆ์Šคํ„ฐ์— ์ฐฉ๋ฅ™์‹œํ‚ค์‹ญ์‹œ์˜ค. ๊ทน๋ณตํ•ด์•ผ ํ•œ๋‹ค
๋‹ค์Œ ๋‹ฌ.

โ€”
๋‹น์‹ ์ด ์–ธ๊ธ‰๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์„ ๋ฐ›๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ณ  GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/scikit-learn/scikit-learn/issues/5975#issuecomment-482784732 ,
๋˜๋Š” ์Šค๋ ˆ๋“œ ์Œ์†Œ๊ฑฐ
https://github.com/notifications/unsubscribe-auth/AOeuWj8PD0nfltM7Acg12Pfhl4sG5n7Fks5vgYbogaJpZM4Gwd6-
.

sciki-learn์— GLM์ด ์žˆ์œผ๋ฉด ์ข‹์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ๋‹ค๋ฅธ ์–ธ์–ด๋กœ ์ด๋™ํ•  ํ•„์š”๊ฐ€ ์ค„์–ด๋“ญ๋‹ˆ๋‹ค. ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

๋™์˜. R ์„ธ๊ณ„์—์„œ ์˜จ ๋‚˜๋Š” sklearn์— GLM ๊ธฐ๋Šฅ์ด ์•„์ง ์—†๋‹ค๋Š” ์‚ฌ์‹ค์— ๋†€๋ž์Šต๋‹ˆ๋‹ค. ๊ณง ๊ทธ๋ ‡๊ฒŒ ๋˜๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค.

sklearn์— GLM์„ ํฌํ•จํ•˜๊ธฐ ์œ„ํ•ด ๋˜ ๋‹ค๋ฅธ ํˆฌํ‘œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. ํ•™๋ถ€ ํ†ต๊ณ„ ํ”„๋กœ๊ทธ๋žจ์—์„œ ๊ฐ€๋ฅด์น˜๋Š” ๋ชจ๋ธ์˜ ํ•ต์‹ฌ ํด๋ž˜์Šค์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์‚ฌ์šฉ์ž ๋งค๋‰ด์–ผ์— ๋งํฌ ๊ธฐ๋Šฅ์ด๋‚˜ ์˜ค๋ฅ˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๋…ผ์˜๊ฐ€ ํฌํ•จ๋˜์ง€ ์•Š์€ "์ผ๋ฐ˜ํ™”๋œ ์„ ํ˜• ๋ชจ๋ธ" ์„น์…˜์ด ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์€ ์ €์—๊ฒŒ ๋†€๋ผ์šด ์ผ์ž…๋‹ˆ๋‹ค.

@patrickspry Statsmodels๋Š” ํ•™๋ถ€์ƒ์ด ๋ฐฐ์šธ ์ˆ˜ ์žˆ๋Š” ๋Œ€๋ถ€๋ถ„์˜ GLM์„ ์ž˜ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค.

@patrickspry https://github.com/scikit-learn/scikit-learn/pull/9405 ์— ์ƒ๋‹นํžˆ ์™„์ „ํ•œ PR์ด ์žˆ์œผ๋ฉฐ ํ•ด๋‹น ๊ธฐ๋Šฅ์„ ๋ณ‘ํ•ฉํ•˜๊ธฐ ์œ„ํ•œ ์ž‘์—…์ด ์ง„ํ–‰ ์ค‘์ž…๋‹ˆ๋‹ค.

์˜ค, ํ™˜์ƒ์ ์ด์•ผ! ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค!

PR ๋ณ‘ํ•ฉ์— ๋Œ€ํ•œ ์˜ˆ์ƒ ์ผ์ •์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ? ๊ฐ์‚ฌ ํ•ด์š”.

@Jiang-Li ์—ฌ๊ธฐ๋ฅผ ์ฐธ์กฐ ํ•˜์‹ญ์‹œ์˜ค

์„ ํ˜• ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ #14300์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๊ณต๊ฐœ ๋ฌธ์ œ #15123์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ์ธ์ ์œผ๋กœ tweedie ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์žˆ๋Š” ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋ณด๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.

์„ ํ˜• ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ #14300์ด ์ด์ œ ๋ณ‘ํ•ฉ๋˜์ง€๋งŒ ์ถ”๊ฐ€ ๊ธฐ๋Šฅ์€ ์—ฌ์ „ํžˆ โ€‹โ€‹์ถ”๊ฐ€๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. https://github.com/scikit-learn/scikit-learn/pull/9405#issuecomment -594553953

๊ฐœ์ธ์ ์œผ๋กœ tweedie ์†์‹ค ํ•จ์ˆ˜๊ฐ€ ์žˆ๋Š” ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์„ ๋ณด๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.

๊ทธ๊ฒƒ์€ ์‹ค์ œ๋กœ ๋‹ค์Œ ๋‹จ๊ณ„๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค(์˜ˆ: https://github.com/scikit-learn/scikit-learn/issues/15123#issuecomment-542090766)

Poisson, gamma ๋ฐ tweedie๋ฅผ ํฌํ•จํ•˜๋Š” sklearn 0.23์˜ ํ›Œ๋ฅญํ•œ ์ž‘์—…์„ ๋ณด๋Š” ๊ฒƒ์€ ์ธ์ƒ์ ์ž…๋‹ˆ๋‹ค. ์•ž์œผ๋กœ ๋” ๋งŽ์€ ๊ฐœ์„  ์‚ฌํ•ญ์„ ๋ณผ ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค.
์‚ฌ์šฉ์ž ๊ฐ€์ด๋“œ๋ฅผ ์ฝ๊ณ  ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์ผ๋ฐ˜ํ™” ์„ ํ˜• ํšŒ๊ท€์˜ ์™ธ๋ถ€์— ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋งˆ๋„ ์ผ๋ฐ˜ํ™” ์„ ํ˜• ํšŒ๊ท€ ์„น์…˜์—์„œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๊ฐ€ GLM์˜ ํ•œ ์œ ํ˜•์ด๊ณ  ๋™์ผํ•œ ์ดํƒˆ๋„ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์–ธ๊ธ‰ํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ์ตœ์†Œํ•œ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

#14300์ด ๋ณ‘ํ•ฉ๋˜์—ˆ์œผ๋ฏ€๋กœ ์ด์ œ ๋ฌธ์ œ๋ฅผ ์ข…๋ฃŒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

์‚ฌ์šฉ์ž ๊ฐ€์ด๋“œ๋ฅผ ์ฝ๊ณ  ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋Š” ์ผ๋ฐ˜ํ™” ์„ ํ˜• ํšŒ๊ท€์˜ ์™ธ๋ถ€์— ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋งˆ๋„ ์ผ๋ฐ˜ํ™” ์„ ํ˜• ํšŒ๊ท€ ์„น์…˜์—์„œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๊ฐ€ GLM์˜ ํ•œ ์œ ํ˜•์ด๊ณ  ๋™์ผํ•œ ์ดํƒˆ๋„ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์–ธ๊ธ‰ํ•˜๋Š” ๋‹จ์–ด๊ฐ€ ์ตœ์†Œํ•œ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํ”ผ๋“œ๋ฐฑ์„ ๋ณด๋‚ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค @magicmathmandarin ! ๋„ค ๊ทธ๋Ÿผ์š”. ์›๋ž˜ PR https://github.com/scikit-learn/scikit-learn/pull/9405 ์—๋Š” ์‹ค์ œ๋กœ ์ด์ง„ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์— ๋Œ€ํ•œ BinomialDistribution์˜ ์ดํƒˆ์ด ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ๋ณ‘ํ•ฉ๋œ PR์— ํฌํ•จํ•˜์ง€ ์•Š์€ ์ด์œ ๋Š” ๊ทธ๊ฒƒ๋“ค์ด ์‹ค์ œ๋กœ ๋™์ผํ•œ ์ด๋ก ์  ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ผ๋ถ€์ด๋”๋ผ๋„ ํ˜„์žฌ๋กœ์„œ๋Š” ์ „๋ฌธํ™”๋œ LogisticRegression ๊ตฌํ˜„์ด ์—ฌ์ „ํžˆ ๊ถŒ์žฅ๋˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค(์‚ฌ์šฉ์ž๊ฐ€ ๋” ์ž˜ ํ…Œ์ŠคํŠธํ•˜๊ณ  ๋” ๋งŽ์€ ์˜ต์…˜์„ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ์˜ˆ: ๋‹ค์ค‘ ํด๋ž˜์Šค), ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๋Š” ์‚ฌ์šฉ์ž๋ฅผ ํ˜ผ๋ž€์Šค๋Ÿฝ๊ฒŒ ํ•˜๊ณ  ์‹ถ์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. ์ด์ œ ๋ณ‘ํ•ฉ๋˜์—ˆ์œผ๋ฏ€๋กœ ๊ทธ ๋ถ€๋ถ„์„ ๋” ์ž˜ ๊ณต์‹ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฐ ๋™์˜ํ•ฉ๋‹ˆ๋‹ค.

#14300์ด ๋ณ‘ํ•ฉ๋˜์—ˆ์œผ๋ฏ€๋กœ ์ด์ œ ๋ฌธ์ œ๋ฅผ ์ข…๋ฃŒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

ํ™•์‹ ํ•˜๋Š”. https://github.com/scikit-learn/scikit-learn/issues/16668 , https://github.com/scikit-learn/scikit-learn/pull/16692 ๋ฐ https: //github.com/scikit-learn/scikit-learn/issues/15123.

์ด ํŽ˜์ด์ง€๊ฐ€ ๋„์›€์ด ๋˜์—ˆ๋‚˜์š”?
0 / 5 - 0 ๋“ฑ๊ธ‰