์ ๋ python AutoML ํจํค์ง ์์ ์์ ์ค์ด๋ฉฐ ์ฌ์ฉ์ ์ค ํ ๋ช ์ด xgboost ๋ฅผ ์ฌ์ฉํ๋ ๋์ ๋งค์ฐ ๋์ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ๋ณด๊ณ ํ์ต๋๋ค.
xgboost์ ์ํ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ๋ณด์ฌ์ฃผ๊ธฐ ์ํด ์กฐ์ฌ๋ฅผ ํ์ต๋๋ค. ์ฌ๊ธฐ ์์ ๋ ธํธ๋ถ์ ์ฐพ์ ์ ์์ต๋๋ค. ์ฝ๋์์ ๋ชจ๋ธ์ด 7GB ์ด์์ RAM ๋ฉ๋ชจ๋ฆฌ๋ฅผ ํ ๋นํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ๋ชจ๋ธ์ ํ๋ ๋์คํฌ(5kB !)์ ์ ์ฅํ ๋ค์ ๋ค์ ๋ก๋ํ๋ฉด ์์ฒญ๋ ์์ RAM์ ์ ์ฝํ ์ ์์ต๋๋ค.
๋์๊ฒ xgboost๊ฐ ๊ตฌ์กฐ์ ๋ฐ์ดํฐ ์ฌ๋ณธ์ ์ ์ฅํ๋ ๊ฒ์ฒ๋ผ ๋ณด์ ๋๊น? ๋ด ๋ง์ด ๋ง์?
xgboost๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๋ฐฉ๋ฒ์ด ์์ต๋๊น? ๋ชจ๋ธ์ ํ๋ ๋๋ผ์ด๋ธ์ ์ ์ฅํ ๋ค์ ๋ค์ ๋ก๋ํ๋ ๊ฒ์ด ์ด ๋ฌธ์ ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํ์ญ๋๊น?
@pplonski ํ์คํ ๊ทธ๋จ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๋ณต์ฌ๋ฅผ ์ ๊ฑฐํ๋ ค๊ณ ํฉ๋๋ค. ์งํ์ค์ธ ์์ ์ ๋๋ค. GPU์ ๊ฒฝ์ฐ ๋๋ถ๋ถ ์๋ฃ๋ฉ๋๋ค. https://github.com/dmlc/xgboost/pull/5420 https://github.com/dmlc/xgboost/pull/5465
CPU๋ ์์ง ํ ์ผ์ด ๋ ์์ต๋๋ค.
@pplonski , ์ฐ๋ฆฌ๋ ์ด PR https://github.com/dmlc/xgboost/pull/5334 ์์๋ CPU์ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ์ค์ด๋ ๊ฒ์ ๊ตฌํํ์ง๋ง 'hist' ๋ฐฉ๋ฒ์๋ง ํด๋นํฉ๋๋ค. ์ง๊ธ์ ๋ง์คํฐ์ ํฌํจ๋์ด ์์ง๋ง ํฅํ ๋ฆด๋ฆฌ์ค์ ์ผ๋ถ๊ฐ ๋๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
๋ฉ๋ชจ๋ฆฌ, Kb | ํญ๊ณต์ฌ | ํ์ค1m |
-- | -- | -- |
์ด์ | 28311860 | 1907812 |
https://github.com/dmlc/xgboost/pull/5334 | 16218404 | 1155156 |
๊ฐ์: | 1.75 | 1.65 |
@trivialfis ์ ๋์ํ์ญ์์ค. ์ด ์ง์ญ์๋ ํ ์ผ์ด ๋ง์ต๋๋ค.
์๋ ํ์ธ์, ์ ๋ ์ต๊ทผ์ xgboost์ ์ ์ฌํ ๋์ ๋ฉ๋ชจ๋ฆฌ ๋ฌธ์ ์ ์ง๋ฉดํ์ต๋๋ค. ๋๋ ํ๋ จ์ ์ํด 'gpu_hist'๋ฅผ ์ฌ์ฉํ๊ณ ์์ต๋๋ค.
train()
๋ฉ์๋๊ฐ ์คํ๋ ๋ ํฐ ์์คํ
๋ฉ๋ชจ๋ฆฌ ์คํ์ดํฌ๊ฐ ๋ฐ์ํ์ฌ jupyter ์ปค๋์ด ์ถฉ๋ํ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
@pplonski , ์ฐ๋ฆฌ๋ ์ด PR https://github.com/dmlc/xgboost/pull/5334 ์์๋ CPU์ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ์ค์ด๋ ๊ฒ์ ๊ตฌํํ์ง๋ง 'hist' ๋ฐฉ๋ฒ์๋ง ํด๋นํฉ๋๋ค. ์ง๊ธ์ ๋ง์คํฐ์ ํฌํจ๋์ด ์์ง๋ง ํฅํ ๋ฆด๋ฆฌ์ค์ ์ผ๋ถ๊ฐ ๋๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
๋ฉ๋ชจ๋ฆฌ, Kb | ํญ๊ณต์ฌ | ํ์ค1m |
-- | -- | -- |
์ด์ | 28311860 | 1907812 |
https://github.com/dmlc/xgboost/pull/5334 | 16218404 | 1155156 |
๊ฐ์: | 1.75 | 1.65 |
@trivialfis ์ ๋์ํ์ญ์์ค. ์ด ์ง์ญ์๋ ํ ์ผ์ด ๋ง์ต๋๋ค.