Xgboost: gblinear+reg:linear๋Š” ์ •ํ™•ํžˆ ๋ฌด์—‡์„ ํ•ฉ๋‹ˆ๊นŒ? ๊ทธ๋ฆฌ๊ณ  ๋‹ค๋ฅธ ์งˆ๋ฌธ๋“ค

์— ๋งŒ๋“  2015๋…„ 05์›” 24์ผ  ยท  12์ฝ”๋ฉ˜ํŠธ  ยท  ์ถœ์ฒ˜: dmlc/xgboost

์•ˆ๋…•,

์ €๋Š” xgboost์˜ ํž˜์„ ๋ฐœ๊ฒฌํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ๊ณ  ๋”ฐ๋ผ์„œ ๋ฐ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ(์ง€๊ธˆ ๋‹น์žฅ sklearn.datasets์˜ ๋ณด์Šคํ„ด ๋ฐ์ดํ„ฐ ์„ธํŠธ)๋ฅผ ๊ฐ€์ง€๊ณ  ๋†€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ดํ•ดํ•˜๋ฉด ๋‹ค์Œ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

plst=[('silent', 1),
 ('eval_metric', 'rmse'),
 ('nthread', 1),
 ('objective', 'reg:linear'),
 ('eta', 1),
 ('booster', 'gblinear'),
 ('lambda', 0),
 ('alpha', 10)]

์•ฝํ•œ ํ•™์Šต์ž๋กœ ์˜ฌ๊ฐ€๋ฏธ ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ถ€์ŠคํŒ…์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. _๋งž๋‚˜์š”?_ ๊ทธ๋ ‡๋‹ค๋ฉด num_round=1์ผ ๋•Œ ๋‹จ์ผ ์˜ฌ๊ฐ€๋ฏธ ํšŒ๊ท€์˜ ์ถœ๋ ฅ์„ ๋‹ค์‹œ ๊ฐ€์ ธ์™€์•ผ ํ•˜๋ฏ€๋กœ ๋งค์šฐ ํฌ์†Œํ•œ ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ๋ฅผ ๋ฐ˜ํ™˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์™„์ „ํžˆ ์‚ฌ์‹ค์ด ์•„๋‹™๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์‚ฌ์‹ค ํ•œ ๋ผ์šด๋“œ์˜ ๊ฒฐ๊ณผ๋ฌผ์„ ์–ป๋Š” ๊ฒƒ์€ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ num_round=1์ธ ๊ฒฝ์šฐ์—๋„ eta๋ฅผ ๋ณ€๊ฒฝํ•˜๋ฉด ๋ชจ๋ธ ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ๊ฐ€ ๋ณ€๊ฒฝ๋ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ตœ์†Œํ•œ ๋‘ ๊ฐœ์˜ ๋ผ์šด๋“œ๊ฐ€ ์žˆ๊ฑฐ๋‚˜ ๋‚ด๊ฐ€ ๋ญ”๊ฐ€๋ฅผ ์ž˜๋ชป ์ดํ•ดํ–ˆ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค. _๋‚ด ํ•ด์„์ด ๋งž๋‚˜์š”?_

๋˜ํ•œ ๋ช‡ ๊ฐ€์ง€ ํ…Œ์ŠคํŠธ ํ›„์— ๋งค๊ฐœ๋ณ€์ˆ˜ eta๊ฐ€ ๊ตฌํ˜„์—์„œ ๊ทธ๋ผ๋””์–ธํŠธ ๋ถ€์ŠคํŒ… ํŠธ๋ฆฌ๋กœ ์ œํ•œ๋˜์ง€ ์•Š๋Š”๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์„œ์—์„œ๋Š” ํ•˜์œ„ ์„น์…˜ _tree ๋งค๊ฐœ๋ณ€์ˆ˜_์— ์žˆ์Šต๋‹ˆ๋‹ค. ํ•™์Šต๋ฅ ์„ ์„ค์ •ํ•˜์—ฌ ์ถ•์†Œํ•˜๋Š” ๊ฒƒ์€ ๋ถ€์ŠคํŒ… ํŠธ๋ฆฌ์—๋งŒ ๊ตญํ•œ๋˜์ง€ ์•Š๋Š” ๋ถ€์ŠคํŒ…์„ ์ •๊ทœํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๊ธฐ ๋•Œ๋ฌธ์— ์ด๊ฒƒ์€ ๋…ผ๋ฆฌ์ ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.
๋˜ํ•œ ๋ถ€์ŠคํŒ… ํŠธ๋ฆฌ์— ๊ตญํ•œ๋˜์ง€ ์•Š๋Š” ๊ฒƒ์€ '์„œ๋ธŒ์ƒ˜ํ”Œ' ์˜ต์…˜์ž…๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ๋ถ€์ŠคํŒ… ํŠธ๋ฆฌ(์ ์–ด๋„ ์ด๋ก ์ƒ)๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋ถ€์ŠคํŒ… ์„ ํ˜• ํšŒ๊ท€๋ฅผ ์ •๊ทœํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, ๋‚ด๊ฐ€ ํ™•์‹คํžˆ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ํ•™์Šต ๋ชฉํ‘œ๋Š” ์ฃผ์–ด์ง„ ์†์‹ค์— ํ•ด๋‹นํ•˜๋ฉฐ, ์ด๋Š” ๋ฐ˜๋“œ์‹œ eval_metric์— ์—ฐ๊ฒฐ๋˜์ง€ ์•Š๊ณ  ์‚ฌ์šฉ์ž ํ‰๊ฐ€์—๋งŒ ์‚ฌ์šฉ๋ฉ๋‹ˆ๊นŒ? ๋งŽ์€ eval_metrics๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ reg:logistic , reg:linear ๋ฐ multi:softmax ์— ๋Œ€ํ•œ ๋‹ค๋ฅธ ์†์‹ค์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ? (์˜ˆ: ํšŒ๊ท€์— ๋Œ€ํ•œ ์ œ๊ณฑ ์†์‹ค ๋˜๋Š” ์ ˆ๋Œ€ ์†์‹ค, ๋ถ„๋ฅ˜์— ๋Œ€ํ•œ ์ง€์ˆ˜ ๋˜๋Š” ์ดํƒˆ๋„ ์†์‹ค?)

๋‹ต๋ณ€ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์ตœ์ƒ์˜,
์•จ๋ฆฌ์Šค

๊ฐ€์žฅ ์œ ์šฉํ•œ ๋Œ“๊ธ€

@tqchen gblinear๊ฐ€ ์‹ค์ œ๋กœ ํ•˜๋Š” ์ผ์— ๋Œ€ํ•ด ์ข€ ๋” ์ž์„ธํžˆ ์„ค๋ช…ํ•ด ์ฃผ์‹œ๊ฒ ์Šต๋‹ˆ๊นŒ? ๊ธฐ์‚ฌ/๊ณต์‹์— ๋Œ€ํ•œ ์ฐธ์กฐ๊ฐ€ ์ข‹์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ, 1๋ผ์šด๋“œ ํ›ˆ๋ จ( nrounds=1 )์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค. ๋‹ค์Œ์€ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ์„ธํŠธ์ž…๋‹ˆ๋‹ค.

> train
        x      y
 1: 13.36  37.54
 2:  5.35  14.54
 3:  0.26  -0.72
 4: 84.16 261.19
 5: 24.67  76.90
 6: 22.26  67.15
 7: 18.02  53.89
 8: 14.29  43.48
 9: 61.66 182.60
10: 57.26 179.44

{ booster="gblinear" , objective="reg:linear" , eta=1 , subsample=1 , lambda=0 , lambda_bias=0 ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ๊ณผ xgboost ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚จ ํ›„ alpha=0 } ๋‹ค์Œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค

> test
        x      y Pred.linreg Pred.xgb
 1: 47.75 153.23      146.25    155.7
 2: 12.13  40.05       35.78    107.9
 3: 89.05 274.37      274.34    211.1
 4: 38.87 116.51      118.71    143.8
 5: 27.30  80.61       82.83    128.2
 6: 87.66 267.95      270.02    209.3
 7: 39.33 114.97      120.14    144.4
 8: 64.32 191.73      197.64    177.9
 9: 13.18  48.28       39.04    109.3
10:  8.89  23.30       25.73    103.5

์—ฌ๊ธฐ์—์„œ ์‹ค์ œ๋กœ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ? ๊ฐ์‚ฌ ํ•ด์š”!

๋ชจ๋“  12 ๋Œ“๊ธ€

๋‹จ์ผ ์˜ฌ๊ฐ€๋ฏธ ํšŒ๊ท€๋ฅผ ๋‹ค์‹œ ์–ป๊ธฐ ์œ„ํ•ด gblinear์—์„œ ์—ฌ๋Ÿฌ ๋ผ์šด๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์ด๋Š” ์„ ํ˜• ๋ชจ๋ธ(๋‹ค์‹œ ์„ ํ˜• ๋ชจ๋ธ์ด์—ˆ์Œ)์„ ์Œ“๋Š” ๊ฒƒ์ด ์˜๋ฏธ๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋‹จ์ผ ์˜ฌ๊ฐ€๋ฏธ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์—…๋ฐ์ดํŠธ์˜ num_round ๋‹จ๊ณ„๊ฐ€ ๊ณต๋™์œผ๋กœ ์‚ฌ์šฉ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

eval_metric์€ ๋ชฉ์  ํ•จ์ˆ˜์™€ ๊ด€๋ จ์ด ์—†์Šต๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜๋Š” ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€์— ๋Œ€ํ•œ md reg:logistic , ์ œ๊ณฑ ์†์‹ค์— ๋Œ€ํ•œ reg:linear ๋ฐ softmax ๋‹ค์ค‘ ํด๋ž˜์Šค ๋ถ„๋ฅ˜์— ๋Œ€ํ•œ muti:softmax ์— ๋Œ€ํ•œ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋ฌธ์„œํ™”๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

์•ˆ๋…•,

๋‹ต๋ณ€ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! 1์ด ์•„๋‹Œ ํฐ num_rounds ํ›„์— ๋‹จ์ผ ์˜ฌ๊ฐ€๋ฏธ๋ฅผ ์–ป๋Š” ๋ฐฉ๋ฒ•์„ ์ดํ•ดํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋‘ ๋ฒˆ์งธ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต๋ณ€๋„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰ ํšŒ๊ท€์— ์ œ๊ณฑ ์†์‹ค์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋ถ„๋ฅ˜์— ์ดํ•ญ/๋‹คํ•ญ ํŽธ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. _๊ทธ ๋งž์Šต๋‹ˆ๊นŒ?_

ํšŒ๊ท€์˜ ๊ฒฝ์šฐ ์˜ˆ๋ฅผ ๋“ค์–ด L1 ์†์‹ค ๋˜๋Š” Huber ์†์‹ค์„ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ํ™•์‹คํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค(ํ†ต๊ณ„ ํ•™์Šต ์š”์†Œ์˜ ์„น์…˜ 10.10.2์— ์ œ๊ณต๋œ ์ผ๋ฐ˜์ ์ธ ์˜ˆ).

๋„์›€์„ ์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์•จ๋ฆฌ์Šค

์•ˆ๋…•,

ํšŒ๊ท€ ๋ชจ๋ธ์— xgboost๋ฅผ ์ ์šฉํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ๋‚ด ์ข…์† ๋ณ€์ˆ˜๊ฐ€ ์—ฐ์† ์ˆซ์ž ์œ ํ˜•์ž„์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ "label" ์ธ์ˆ˜์— ๋ฌด์—‡์„ ์ œ๊ณตํ•ด์•ผ ํ•˜๋Š”์ง€ ํ˜ผ๋ž€์Šค๋Ÿฝ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์—์„œ ๋„์™€์ฃผ์„ธ์š”.

๋ฌธ์•ˆ ์ธ์‚ฌ,
๋น„๋ฒก

ํšŒ๊ท€์˜ ๊ฒฝ์šฐ ๋ ˆ์ด๋ธ”์€ ํšŒ๊ท€ ๋Œ€์ƒ์ž…๋‹ˆ๋‹ค.

2015๋…„ 5์›” 25์ผ ์›”์š”์ผ ์˜ค์ „ 8์‹œ 43๋ถ„, Vivek Agarwal [email protected]
์ผ๋‹ค:

์•ˆ๋…•,

ํšŒ๊ท€ ๋ชจ๋ธ์— xgboost๋ฅผ ์ ์šฉํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ๋‚ด ์ข…์† ๋ณ€์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.
์—ฐ์† ์ˆซ์ž ์œ ํ˜•์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ˜ผ๋ž€์Šค๋Ÿฌ์›Œ ๋ฌด์—‡์„ ์ œ๊ณตํ•ด์•ผํ•ฉ๋‹ˆ๊นŒ?
"label" ์ธ์ˆ˜์—์„œ. ์—ฌ๊ธฐ์—์„œ ๋„์™€์ฃผ์„ธ์š”.

๋ฌธ์•ˆ ์ธ์‚ฌ,
๋น„๋ฒก

โ€”
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ฑฐ๋‚˜ GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/dmlc/xgboost/issues/332#issuecomment -105253915.

์ง„์ •์œผ๋กœ,

์ฒœํ‹ฐ์—”์น˜
์ปดํ“จํ„ฐ ๊ณผํ•™ ๋ฐ ๊ณตํ•™, ์›Œ์‹ฑํ„ด ๋Œ€ํ•™๊ต

๋ชฉํ‘œ ๋ฌธ์„œ ์ฐธ์กฐ
https://github.com/dmlc/xgboost/blob/master/doc/parameter.md
๋‹ค๋ฅธ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ง€์ •ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์˜๋ฏธ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ํ˜„์žฌ ๋งค๊ฐœ๋ณ€์ˆ˜

ํ†ˆ์น˜

2015๋…„ 5์›” 25์ผ ์›”์š”์ผ ์˜ค์ „ 1์‹œ 47๋ถ„์— AliceS [email protected] ์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ผ์Šต๋‹ˆ๋‹ค.

์•ˆ๋…•,

๋‹ต๋ณ€ํ•ด์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค! ๋‚˜๋Š” ๋‹น์‹ ์ด ์‹ฑ๊ธ€์„ ๋˜์ฐพ๋Š” ๋ฐฉ๋ฒ•์„ ์ดํ•ดํ–ˆ์Šต๋‹ˆ๋‹ค
1์ด ์•„๋‹Œ ํฐ num_rounds ๋’ค์— ์˜ฌ๊ฐ€๋ฏธ.

์†์‹ค ํ•จ์ˆ˜์™€ ๊ด€๋ จํ•˜์—ฌ ์•„์ง ๋ช…ํ™•ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
์ตœ์†Œํ•œ ํšŒ๊ท€๋ฅผ ์œ„ํ•ด. ์ œ๊ณฑ ์†์‹ค, L1 ์†์‹ค ๋˜๋Š”
์˜ˆ๋ฅผ ๋“ค์–ด Huber ์†์‹ค(์ผ๋ฐ˜์ ์ธ ์˜ˆ๋Š” ์„น์…˜ 10.10.2์˜
ํ†ต๊ณ„ ํ•™์Šต์˜ ์š”์†Œ). ๋ถ„๋ฅ˜๋ฅผ ์œ„ํ•ด ๋‚˜๋Š” ๋‹น์‹ ์ด ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ ๊ฐ™์•„์š”
์ดํ•ญ/๋‹คํ•ญ ํŽธ์ฐจ(์ง€์ˆ˜ ์†์‹ค์ผ ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
ํด๋ž˜์‹ ๋ถ€์ŠคํŒ…์„ ๋‹ค์‹œ ์–ป๋Š” ๊ฒฝ์šฐ).

๋„์›€์„ ์ฃผ์…”์„œ ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์•จ๋ฆฌ์Šค

โ€”
์ด ์ด๋ฉ”์ผ์— ์ง์ ‘ ๋‹ต์žฅํ•˜๊ฑฐ๋‚˜ GitHub์—์„œ ํ™•์ธํ•˜์„ธ์š”.
https://github.com/dmlc/xgboost/issues/332#issuecomment -105170486.

์ง„์ •์œผ๋กœ,

์ฒœํ‹ฐ์—”์น˜
์ปดํ“จํ„ฐ ๊ณผํ•™ ๋ฐ ๊ณตํ•™, ์›Œ์‹ฑํ„ด ๋Œ€ํ•™๊ต

Tianqi๋‹˜, ๊ฐ์‚ฌํ•ฉ๋‹ˆ๋‹ค.
์•จ๋ฆฌ์Šค

์ข…์† ๋ณ€์ˆ˜์—๋Š” ์ˆซ์ž ๊ฐ’์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ์€ ํšŒ๊ท€ ๋Œ€์ƒ์˜ ์ฒ˜์Œ 6๊ฐœ ๊ด€์ฐฐ์ž…๋‹ˆ๋‹ค.

head(final_data[1:n.train,'์ข…์†'])
[1] 4996 3784 1504 4994 3687 3084

์ด์ œ ์ด ์ข…์† ๋ณ€์ˆ˜๋ฅผ ๋ ˆ์ด๋ธ”์— ๋„ฃ๊ณ  ์•„๋ž˜ ์ฝ”๋“œ๋ฅผ ์‹คํ–‰ํ•˜๋ฉด:

param <- list("๋ชฉํ‘œ" = "reg:linear",
"num_class" = 9,
"nthread" = 8,
"์—ํƒ€" = 0.08,
"ํ•˜์œ„ ์ƒ˜ํ”Œ"= 0.8,
"๊ฐ๋งˆ" = 1,
"min_child_weight" = 2,
"์ตœ๋Œ€_๊นŠ์ด"= 12,
"colsample_bytree" = 1
)
model_xg <- xgboost(param=param,data = final_data[1:n.train,],label=final_data[1:n.train,'Dependent'],nrounds=250)

๊ทธ๋Ÿฐ ๋‹ค์Œ ๋‹ค์Œ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

xgb.get.DMatrix(data, label) ์˜ค๋ฅ˜: xgboost: ์ž˜๋ชป๋œ ๋ฐ์ดํ„ฐ ์ž…๋ ฅ
์ถ”๊ฐ€: ๊ฒฝ๊ณ  ๋ฉ”์‹œ์ง€:
xgb.get.DMatrix(data, label)์—์„œ : xgboost: label์€ ๋ฌด์‹œ๋ฉ๋‹ˆ๋‹ค.

๋‚ด๊ฐ€ ๋ญ˜ ์ž˜๋ชปํ•˜๊ณ  ์žˆ๋Š”์ง€ ์•Œ๋ ค์ฃผ์„ธ์š”.

@vivekag ์ด์— ๋Œ€ํ•œ ์ƒˆ ๋ฌธ์ œ๋ฅผ ์—ด์–ด์ฃผ์„ธ์š”. ๋ฌธ์ œ๋ฅผ ์žฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์‹คํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ฝ”๋“œ ์Šค๋‹ˆํŽซ(์ผ๋ถ€ ๋”๋ฏธ ๋ฐ์ดํ„ฐ ํฌํ•จ)์„ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ข‹์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

final_data์˜ ๋ฐ์ดํ„ฐ ์œ ํ˜•์ด xgboost๊ฐ€ ์˜ˆ์ƒํ•œ ๊ฒƒ๊ณผ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ธ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค(xgboost๋Š” ํ–‰๋ ฌ ๋˜๋Š” ํฌ์†Œ ํ–‰๋ ฌ์„ ์˜ˆ์ƒํ•จ) @hetong007

@tqchen gblinear๊ฐ€ ์‹ค์ œ๋กœ ํ•˜๋Š” ์ผ์— ๋Œ€ํ•ด ์ข€ ๋” ์ž์„ธํžˆ ์„ค๋ช…ํ•ด ์ฃผ์‹œ๊ฒ ์Šต๋‹ˆ๊นŒ? ๊ธฐ์‚ฌ/๊ณต์‹์— ๋Œ€ํ•œ ์ฐธ์กฐ๊ฐ€ ์ข‹์Šต๋‹ˆ๋‹ค.

ํŠนํžˆ, 1๋ผ์šด๋“œ ํ›ˆ๋ จ( nrounds=1 )์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค. ๋‹ค์Œ์€ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ์„ธํŠธ์ž…๋‹ˆ๋‹ค.

> train
        x      y
 1: 13.36  37.54
 2:  5.35  14.54
 3:  0.26  -0.72
 4: 84.16 261.19
 5: 24.67  76.90
 6: 22.26  67.15
 7: 18.02  53.89
 8: 14.29  43.48
 9: 61.66 182.60
10: 57.26 179.44

{ booster="gblinear" , objective="reg:linear" , eta=1 , subsample=1 , lambda=0 , lambda_bias=0 ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์žˆ๋Š” ์„ ํ˜• ํšŒ๊ท€ ๋ชจ๋ธ๊ณผ xgboost ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚จ ํ›„ alpha=0 } ๋‹ค์Œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค

> test
        x      y Pred.linreg Pred.xgb
 1: 47.75 153.23      146.25    155.7
 2: 12.13  40.05       35.78    107.9
 3: 89.05 274.37      274.34    211.1
 4: 38.87 116.51      118.71    143.8
 5: 27.30  80.61       82.83    128.2
 6: 87.66 267.95      270.02    209.3
 7: 39.33 114.97      120.14    144.4
 8: 64.32 191.73      197.64    177.9
 9: 13.18  48.28       39.04    109.3
10:  8.89  23.30       25.73    103.5

์—ฌ๊ธฐ์—์„œ ์‹ค์ œ๋กœ ๋ฌด์Šจ ์ผ์ด ์ผ์–ด๋‚˜๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ? ๊ฐ์‚ฌ ํ•ด์š”!

xg ํšŒ๊ท€์™€ ๋‹ค๋ฅธ ์ผ๋ฐ˜ ํšŒ๊ท€์˜ ์ฐจ์ด์ ์€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?
xgboost์—๋Š” ๋‹ค๋ฅธ ํŠธ๋ฆฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋‹ค๋ฅธ ํŠธ๋ฆฌ ๋ฒ„์ „์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
์†Œ์Šค๋ฅผ ํ•ดํ‚นํ•ด์•ผ ํ•  ๊ฒƒ ๊ฐ™์•„์š”.

xgboost์—์„œ gblinear๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ๋ชจ๋“  ์ž…๋ ฅ ๊ธฐ๋Šฅ์˜ ์ตœ์ข… ๊ฐ€์ค‘์น˜๋ฅผ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ? ๊ฐ€์ค‘์น˜๋ฅผ ์ถ”์ถœํ•˜๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ํŽ˜์ด์ง€๊ฐ€ ๋„์›€์ด ๋˜์—ˆ๋‚˜์š”?
0 / 5 - 0 ๋“ฑ๊ธ‰