Evalml: 기본적으둜 이진 λΆ„λ₯˜ μž„κ³„κ°’ μ‘°μ • λ‹€μ‹œ ν™œμ„±ν™”

에 λ§Œλ“  2020λ…„ 04μ›” 15일  Β·  17μ½”λ©˜νŠΈ  Β·  좜처: alteryx/evalml

이 κΈ°λŠ₯을 #346 κΈ°λŠ₯ 뢄기에 μΆ”κ°€ν•œ λ‹€μŒ #606μ—μ„œ predict λ‹€μ‹œ κ³„μ‚°ν•˜κ³  automl 속도λ₯Ό λŠ¦μΆ”κΈ° λ•Œλ¬Έμ— 이 κΈ°λŠ₯을 μ·¨μ†Œν–ˆμŠ΅λ‹ˆλ‹€.

기본적으둜 λ‹€μ‹œ ν™œμ„±ν™”ν•΄μ•Ό ν•©λ‹ˆλ‹€. κ·Έλ ‡κ²Œ ν•˜λ €λ©΄ ν˜„μž¬ 점수둜 κ³„μ‚°λ˜λŠ” 예츑 좜λ ₯을 μΊμ‹œν•΄μ•Ό ν•©λ‹ˆλ‹€. μž₯기적인 해결책은 μ˜ˆμΈ‘μ„ μΊμ‹œ(#466)둜 λ©”λͺ¨ν•˜λŠ” κ²ƒμ΄μ§€λ§Œ λ‹¨κΈ°μ μœΌλ‘œλŠ” 무언가λ₯Ό ν•  수 μžˆμ–΄μ•Ό ν•©λ‹ˆλ‹€.

이것은 νŒŒμ΄ν”„λΌμΈ 클래슀의 score λ©”μ„œλ“œ κ°„μ˜ 쀑볡 μ½”λ“œ 정리λ₯Ό μΆ”μ ν•˜λŠ” #579와도 관련이 μžˆμŠ΅λ‹ˆλ‹€.

enhancement

λͺ¨λ“  17 λŒ“κΈ€

λ‹€μŒ 주에 이것에 λŒ€ν•΄ 균열을 λ‚΄κ³  μ‹ΆμŠ΅λ‹ˆλ‹€. μ €λŠ” 캐싱을 μˆ˜ν–‰ν•˜λŠ” λͺ‡ 가지 λ‹€λ₯Έ 방법을 연ꡬ해 μ™”μœΌλ©° 일뢀 ν•­λͺ©μ„ λ‘œμ»¬μ—μ„œ ν…ŒμŠ€νŠΈν–ˆμŠ΅λ‹ˆλ‹€.

μ„±λŠ₯ ν…ŒμŠ€νŠΈ MVPκ°€ μžˆμ„ λ•ŒκΉŒμ§€ 이 μž‘μ—…μ„ μˆ˜ν–‰ν•΄μ„œλŠ” μ•ˆ λ©λ‹ˆλ‹€.

μ„±λŠ₯ ν…ŒμŠ€νŠΈ MVPκ°€ μžˆμœΌλ―€λ‘œ 이제 이 μž‘μ—…μ„ μˆ˜ν–‰ν•΄μ•Ό ν•©λ‹ˆλ‹€! 이것은 #1024의 μΌλΆ€λ‘œ λ“±μž₯ν–ˆμŠ΅λ‹ˆλ‹€.

@angela97lin κ°μ‚¬ν•©λ‹ˆλ‹€! 예, ν™•μ‹€νžˆ.

λ‹€μŒ λ‹¨κ³„λŠ” 일뢀 이진 λΆ„λ₯˜ λ¬Έμ œμ— λŒ€ν•œ μ„±λŠ₯ 비ꡐ μ „ν›„λ₯Ό μƒμ„±ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€.

μΆ”κ°€ κ³ λ € 사항

  • 둜그 손싀(bin ν΄λž˜μŠ€μ— λŒ€ν•œ κΈ°λ³Έ λͺ©ν‘œ) 및 AUCλŠ” μž„κ³„κ°’μ— ꡬ애받지 μ•ŠκΈ° λ•Œλ¬Έμ— 이에 μ˜ν•΄ μ „ν˜€ λ³€κ²½λ˜μ–΄μ„œλŠ” μ•ˆ λ©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ F1κ³Ό 같은 λ‹€λ₯Έ λ©”νŠΈλ¦­μ€ ν™•μ‹€νžˆ κ°œμ„ λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. λͺ‡ 개 μ‚΄νŽ΄λ³΄μ‹œλ©΄ 쒋을 것 κ°™μŠ΅λ‹ˆλ‹€.
  • 적합 μ‹œκ°„μ΄ 걸릴 κ²ƒμž…λ‹ˆλ‹€. λ¬Έμ œλŠ” μ•ˆνƒ€κ°€ μ–Όλ§ˆλ‚˜ λ‚˜μœκ°€ μž…λ‹ˆλ‹€. 10~20% 이상 μ¦κ°€ν•˜μ§€ μ•Šμ„ κ²ƒμœΌλ‘œ μ˜ˆμƒν•©λ‹ˆλ‹€.
  • μž„κ³„κ°’ 선택 λΆ„ν• μ˜ 크기λ₯Ό μŠ€μœ„ν•‘ν•˜λŠ” μ‹€ν—˜μ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŠ” 과적합/κ³Όμ†Œμ ν•©μ„ λ°©μ§€ν•˜μ—¬ ν™€λ“œμ•„μ›ƒ 정확도λ₯Ό ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€. μž„κ³„κ°’ μ‘°μ • λΆ„ν•  크기λ₯Ό 늘리면 ν›ˆλ ¨ λΆ„ν•  크기도 쀄어듀어 적합 μ‹œκ°„μ΄ λΉ¨λΌμ§‘λ‹ˆλ‹€.

미래 μž‘μ—…

  • ν˜„μž¬ 데이터 크기에 λŒ€ν•œ 보호 μž₯μΉ˜κ°€ μ—†μŠ΅λ‹ˆλ‹€. 이것은 일반적으둜 ν›ˆλ ¨ μ„ΈνŠΈμ— μ μš©λ˜λ―€λ‘œ λ³„λ„μ˜ 문제λ₯Ό μ œμΆœν•΄μ•Ό ν•©λ‹ˆλ‹€.

4μ›”μ˜ μ›λž˜ κΈ€μ—μ„œ λ‚˜λŠ” λ§ν–ˆλ‹€.

ν˜„μž¬ 점수둜 κ³„μ‚°λ˜λŠ” 예츑 좜λ ₯을 μΊμ‹œν•΄μ•Ό ν•©λ‹ˆλ‹€.

λ‚˜λŠ” 그것이 더 이상 μ μš©λ˜μ§€ μ•ŠλŠ”λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€. λ¬΄μ‹œν•  수 μžˆμŠ΅λ‹ˆλ‹€. score λ¦¬νŒ©ν† λ§ν•˜κΈ° 전에 κ·Έ 주석이 λ‚¨μ•˜μŠ΅λ‹ˆλ‹€. λ˜ν•œ λ³„λ„μ˜ λΆ„ν• μ—μ„œ μž„κ³„κ°’ μ΅œμ ν™”λ₯Ό μˆ˜ν–‰ν•˜λ―€λ‘œ μΊμ‹œν•  ν•­λͺ©μ΄ μ—†μŠ΅λ‹ˆλ‹€. @freddyaboulton 참고둜

@dsherry @angela97lin 뢄석 λ¬Έμ„œμ˜ 처음 λͺ‡ 뢀뢄을 μ—¬κΈ° 에 λͺ¨μ•˜

@freddyaboulton 방금 λͺ‡ 가지 μ˜κ²¬μ„ λ‚¨κ²ΌμŠ΅λ‹ˆλ‹€. 적어도 첫 번째 λ°°μΉ˜μ—μ„œλŠ” λ³€κ²½ 사항이 μ—†μŒμ„ 보여야 ν•˜λŠ” 둜그 손싀을 ν™•μ‹€νžˆ μ‚΄νŽ΄λ΄μ•Ό ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ F1 λ˜λŠ” μž„κ³„κ°’μ— λ―Όκ°ν•œ λ‹€λ₯Έ 것에 λŒ€ν•΄ μ΅œμ ν™”λ₯Ό μ‹œλ„ν•˜μ—¬ νŠœλ‹μ„ ν™œμ„±ν™”ν•˜λŠ” 효과λ₯Ό λ³Ό 수 μžˆμ–΄μ•Ό ν•œλ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€.

@freddyaboulton μ£„μ†‘ν•©λ‹ˆλ‹€ ν…œν”Œλ¦Ώμ—μ„œ 남겨진 ν”Œλ‘― λ•Œλ¬Έμ— ν˜Όλž€μŠ€λŸ¬μ›Œμ„œ 첫 번째 λΆ€λΆ„λ§Œ μ½λŠ” 것에 λŒ€ν•œ κ·€ν•˜μ˜ μ˜κ²¬μ„ 보지 λͺ»ν–ˆμŠ΅λ‹ˆλ‹€ πŸ€¦β€β™‚οΈ 가지고 μžˆλŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€

@freddyaboulton 참고둜 λ¬Έμ„œλ₯Ό κ²Œμ‹œν•œ μ΄ν›„λ‘œ 이 문제λ₯Ό 진행

@dsherry @angela97lin " 뢄석 을 λ§ˆμ³€μŠ΅λ‹ˆλ‹€.

κ°„λ‹¨νžˆ λ§ν•΄μ„œ μž„κ³„κ°’μ„ μ‘°μ •ν•œ ν›„ μ„±λŠ₯이 μ‹€μ œλ‘œ κ°μ†Œ ν–ˆμŠ΅λ‹ˆλ‹€. μž„κ³„κ°’μ„ μ‘°μ •ν•˜κΈ° μœ„ν•΄ κ³„μΈ΅ν™”λœ 뢄할을 μ‚¬μš©ν•˜μ§€ μ•ŠκΈ° λ•Œλ¬ΈμΌ 수 μžˆμŠ΅λ‹ˆκΉŒ?

@freddyaboulton 였, λ„€, 그럴 수 μžˆμŠ΅λ‹ˆλ‹€.

λ‚˜λŠ” λ‹Ήμ‹ μ˜ λ¬Έμ„œλ₯Ό κ²€ν† ν•˜κ³  μ˜κ²¬μ„ λ‚¨κ²ΌμŠ΅λ‹ˆλ‹€. μƒˆλ‘œμš΄ μ°¨νŠΈμ™€ 톡계가 λ§ˆμŒμ— λ“­λ‹ˆλ‹€. 그것듀을 λ‹€μ‹œ looking_glass/analysis/ 에 μΆ”κ°€ν•˜μ—¬ μž¬μ‚¬μš©ν•  수 μžˆλŠ” 방법을 μ°Ύμ•„μ•Ό ν•©λ‹ˆλ‹€. κ·Έλž˜λ„ λˆ„λ₯΄μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

μƒλ‹¨μ—μ„œ λ§ˆμŒμ— μ˜€λŠ” λͺ‡ 가지 μ˜΅μ…˜:

  • μž„κ³„κ°’ μ΅œμ ν™” 뢄할에 계측 λΆ„ν•  μ‚¬μš©
  • μž„κ³„κ°’ μ΅œμ ν™” 뢄할에 λŒ€ν•΄ μ΅œμ†Œ ν–‰ 수λ₯Ό μ μš©ν•©λ‹ˆλ‹€. 이것이 도달할 수 μ—†λŠ” 경우 κ²½κ³ ν•˜κ³  μž„κ³„κ°’μ„ μ„€μ •ν•˜μ§€ μ•Šκ±°λ‚˜ 였λ₯˜κ°€ λ°œμƒν•  수 μžˆμŠ΅λ‹ˆλ‹€.
  • 더 μž‘μ€ 데이터 μ„ΈνŠΈμ˜ 경우 전체 ꡐ윑 데이터λ₯Ό μž„κ³„κ°’ μ΅œμ ν™” λΆ„ν• λ‘œ μ‚¬μš©ν•˜κ³  κ³Όμ ν•©μ˜ μœ„ν—˜μ΄ μžˆμŠ΅λ‹ˆλ‹€.

λ¨Όμ € κ³„μΈ΅ν™”λœ μƒ˜ν”Œλ§μœΌλ‘œ μ „ν™˜ν•˜κ³  그것이 무엇을 ν•˜λŠ”μ§€ 확인해야 ν•œλ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€.

또 λ‹€λ₯Έ μ‹œλ„λŠ” λΆ„ν•  크기λ₯Ό 80% ꡐ윑 20% μž„κ³„κ°’ μ΅œμ ν™”μ—μ„œ 50% ꡐ윑 50% μž„κ³„κ°’ μ΅œμ ν™”λ‘œ μ „ν™˜ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. λ‚˜λŠ” 이것이 잘 될 것이라고 μ˜μ‹¬ν•˜μ§€λ§Œ μ‹œλ„ν•˜κΈ° 쉽고 λ³΄λŠ” 것이 ν₯미둜울 κ²ƒμž…λ‹ˆλ‹€.

@jeremyliweishih κ°€ #1049 , @freddyaboulton 을(λ₯Ό) μ„ νƒν•˜κ³  μžˆμœΌλ―€λ‘œ 이λ₯Ό κ·Έμ—κ²Œ μ „λ‹¬ν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. λ‘λΆ„μ΄μ„œ μ•Œμ•„λ³΄λ„λ‘ ν• κ²Œμš” :)

@freddyaboulton 이 μž‘μ—…μ„ ν•˜κ³  μžˆμ§€ μ•ŠμŠ΅λ‹ˆκΉŒ? @jeremyliweishihκ°€ 받아도 λ κΉŒμš”?

@jeremyliweishih @dsherry λ°›μ•„ μ£Όμ„Έμš”! 초기 뢄석에 λ”°λ₯΄λ©΄ λ‹¨μˆœνžˆ νŠœλ‹μ„ ν™œμ„±ν™”ν•˜λŠ” κ²ƒλ§ŒμœΌλ‘œλŠ” μ μˆ˜κ°€ ν–₯μƒλ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. λ‹€λ₯Έ 데이터 λΆ„ν•  μ „λž΅μ„ μ‚¬μš©ν•˜λ©΄ 도움이 될 수 μžˆμŠ΅λ‹ˆλ‹€!

Dev Backlog둜 λŒμ•„κ°€μ„œ 더 λ§Žμ€ 데이터 λΆ„ν•  μž‘μ—…μ„ μˆ˜ν–‰ν•œ ν›„ 이λ₯Ό 계속할 κ²ƒμž…λ‹ˆλ‹€.

@bchen1116 κ³Ό λ‚˜λŠ” λ…Όμ˜ν–ˆκ³  이것이 #973에 ν•„μš”ν•˜λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€.

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰