Scikit-learn: μ„ ν˜• λΆ„μœ„μˆ˜ νšŒκ·€ μΆ”κ°€

에 λ§Œλ“  2014λ…„ 05μ›” 13일  Β·  17μ½”λ©˜νŠΈ  Β·  좜처: scikit-learn/scikit-learn

λΆ„μœ„μˆ˜ νšŒκ·€κ°€ μžˆλŠ” νŒŒμ΄μ¬μ—λŠ” νŒ¨ν‚€μ§€κ°€ λ§Žμ§€ μ•Šμ€ 것 κ°™μŠ΅λ‹ˆλ‹€...

κ°€μž₯ μœ μš©ν•œ λŒ“κΈ€

μ—¬λŸ¬λΆ„, μ•ˆλ…•ν•˜μ„Έμš”! μ‹œκ°„μ΄ λ˜μ‹œλ©΄ 제 PR을 κ²€ν† ν•΄ μ£Όμ‹­μ‹œμ˜€.

λͺ¨λ“  17 λŒ“κΈ€

quantileμ΄μžˆλŠ” νŒŒμ΄μ¬μ—λŠ” νŒ¨ν‚€μ§€κ°€λ³„λ‘œμ—†λŠ” 것 κ°™μŠ΅λ‹ˆλ‹€.
νšŒκ·€...

μ™œ scikit-learn에 λ“€μ–΄κ°€μ•Ό ν•˜λ‚˜μš”?

κ°€λŠ₯ν•˜λ‹€λ©΄ κ·Έ μ΄μœ λŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ?

이미 μœ μ§€ 관리해야 ν•  μ½”λ“œκ°€ 많고 인기 μžˆλŠ” ML μ•Œκ³ λ¦¬μ¦˜λ§Œ ν¬ν•¨ν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 이거 유λͺ…ν•΄? λ‹€λ₯Έ μ ‘κ·Ό 방식에 λΉ„ν•΄ λ¨Έμ‹  λŸ¬λ‹ μž‘μ—…μ— λŒ€ν•œ λΆ„λͺ…ν•œ 이점이 μžˆμŠ΅λ‹ˆκΉŒ?

(Btw. VWλŠ” 손싀 β„“(p,y) = Ο„(p - y)[[y ≀ p]] + (1 - Ο„)(y - p)[[y β‰₯ p]]λ₯Ό κ°–λŠ” λΆ„μœ„μˆ˜ νšŒκ·€ λ₯Ό 가지고 μžˆμŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ„œ [ [β‹…]]λŠ” Iverson λŒ€κ΄„ν˜Έμž…λ‹ˆλ‹€.)

GradientBoostingRegressor λŠ” λΆ„μœ„μˆ˜ νšŒκ·€λ₯Ό μ§€μ›ν•©λ‹ˆλ‹€( loss=quantile 및 alpha λ§€κ°œλ³€μˆ˜ μ‚¬μš©). μ˜ˆμ œλŠ” http://scikit-learn.org/dev/auto_examples/ensemble/plot_gradient_boosting_quantile.html#example -ensemble-plot-gradient-boosting-quantile-pyλ₯Ό μ°Έμ‘°ν•˜μ‹­μ‹œμ˜€.

λ‚˜λŠ” 그것을 ν™•μΈν–ˆμ–΄μ•Ό ν–ˆλ‹€. 이 문제λ₯Ό λ‹«μŠ΅λ‹ˆλ‹€.

Python의 Quantile Regression용 νŒ¨ν‚€μ§€κ°€ λ§Žμ§€ μ•Šλ‹€λŠ” 데 λ™μ˜ν•˜μ§€λŠ” μ•Šμ§€λ§Œ sci-kitμ—μ„œ μˆœμˆ˜ν•œ Quantile Regression(Ensemble λ©”μ„œλ“œ λ‚΄λΆ€κ°€ μ•„λ‹˜)을 ν•™μŠ΅ν•˜λŠ” 데 이것이 μ€‘μš”ν•˜λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€.

λΆ„μœ„μˆ˜ νšŒκ·€λŠ” y의 νŠΉμ • λΆ„μœ„μˆ˜λ₯Ό λŒ€μƒμœΌλ‘œ ν•˜λŠ” 이점이 μžˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό 톡해 y_pred와 y의 μ€‘μ•™κ°’μ˜ 차이λ₯Ό 쀄일 수 μžˆμŠ΅λ‹ˆλ‹€. 이 경우 μ ˆλŒ€ 였차λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” 것과 μœ μ‚¬ν•˜μ§€λ§Œ 훨씬 더 일반적이고 λ‹€λ₯Έ λΆ„μœ„μˆ˜μ— μ μš©λ©λ‹ˆλ‹€.

은행은 μ‹ μš© 점수 및 기타 λͺ¨λΈμ„ λ‹€λ£° λ•Œ 이것을 많이 μ‚¬μš©ν•˜λ―€λ‘œ μ‹€μ œ μ‘μš© ν”„λ‘œκ·Έλž¨κ³Ό μ „νˆ¬ ν…ŒμŠ€νŠΈλ₯Ό 거친 λͺ¨λΈμž…λ‹ˆλ‹€. Rκ³Ό SASλŠ” 이 λͺ¨λΈμ„ κ΅¬ν˜„ν–ˆμŠ΅λ‹ˆλ‹€.

@prcastro μ„ ν˜• λͺ¨λΈμ„ μ˜λ―Έν•©λ‹ˆκΉŒ?

μ •ν™•νžˆ. μ˜€λŠ˜λ‚  sklearn은 앙상블 λ°©λ²•μ—μ„œ λΆ„μœ„μˆ˜ νšŒκ·€λ₯Ό κ΅¬ν˜„ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 일반적으둜 일반 μ„ ν˜• λͺ¨λΈλ‘œ μ‚¬μš©λ©λ‹ˆλ‹€.

λ‚˜λŠ” 그것을 μΆ”κ°€ν•˜λŠ” 데 μ—΄λ € μžˆμŠ΅λ‹ˆλ‹€. @jnothman @GaelVaroquaux?

참으둜 κ³΅ν‰ν•œ 것 κ°™λ‹€.

λ‚˜λŠ” 그것을 μΆ”κ°€ν•˜λŠ” 데 μ—΄λ € μžˆμŠ΅λ‹ˆλ‹€. @jnothman @GaelVaroquaux?

λ°˜λŒ€κ°€ μ—†μŠ΅λ‹ˆλ‹€. μš°λ¦¬λŠ” 단지 쒋은 PRκ³Ό 그것을 κ²€ν† ν•  μ‹œκ°„μ΄ ν•„μš”ν•©λ‹ˆλ‹€.

보닀 일반적인 λΆ„μœ„μˆ˜μ™€ 달리 쀑앙값(μ ˆλŒ€ 손싀)에 λŒ€ν•œ λΆ„μœ„μˆ˜ νšŒκ·€μ˜ νŠΉμ • κ²½μš°μ™€ κ΄€λ ¨ν•˜μ—¬ http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.HuberRegressor.html 이 ν—ˆμš©ν•˜λŠ” κ²ƒμœΌλ‘œ λ³΄μž…λ‹ˆλ‹€. μš°λ¦¬κ°€ μ—‘μ‹€λ‘ =0.0을 전달할 수만 μžˆλ‹€λ©΄ 말이닀. HuberRegressor에 epsilon : float, greater than 1.0 κ°€ ν•„μš”ν•œ μ΄μœ λŠ” λ¬΄μ—‡μž…λ‹ˆκΉŒ? ( The Huber Regressor optimizes the squared loss for the samples where |(y - X'w) / sigma| < epsilon and the absolute loss for the samples where |(y - X'w) / sigma| > epsilon. )

μ—‘μ‹€λ‘ =0인 후버 손싀은 λ§€λ„λŸ½μ§€ μ•Šμ€ μ΅œμ ν™” λ¬Έμ œμž…λ‹ˆλ‹€.
λ™μΌν•œ 클래슀의 솔버λ₯Ό μ‚¬μš©ν•  수 μ—†μŠ΅λ‹ˆλ‹€.

μœ„μ˜ pull μš”μ²­μ— 고전적인 λΆ„μœ„μˆ˜ μ„ ν˜• νšŒκ·€λ₯Ό μΆ”κ°€ν–ˆμŠ΅λ‹ˆλ‹€. κ²€ν† ν•΄ μ£Όμ„Έμš”!

μ—¬λŸ¬λΆ„, μ•ˆλ…•ν•˜μ„Έμš”! μ‹œκ°„μ΄ λ˜μ‹œλ©΄ 제 PR을 κ²€ν† ν•΄ μ£Όμ‹­μ‹œμ˜€.

ν•‘

λΆ„μœ„μˆ˜ νšŒκ·€κ°€ μžˆλŠ” νŒŒμ΄μ¬μ—λŠ” νŒ¨ν‚€μ§€κ°€ λ§Žμ§€ μ•Šμ€ 것 κ°™μŠ΅λ‹ˆλ‹€...

그듀은 2020년을 듣지 μ•Šμ„ 것이며 μ—¬μ „νžˆ μ μ ˆν•œ 4λΆ„μœ„ νšŒκ·€ νŒ¨ν‚€μ§€κ°€ μ—†μŠ΅λ‹ˆλ‹€.

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰