Evalml: Woodwork 데이터 ꡬ쑰λ₯Ό λ°˜ν™˜ν•˜λ„λ‘ νŒŒμ΄ν”„λΌμΈ 및 ꡬ성 μš”μ†Œ μ—…λ°μ΄νŠΈ

에 λ§Œλ“  2020λ…„ 11μ›” 04일  Β·  5μ½”λ©˜νŠΈ  Β·  좜처: alteryx/evalml

1393은 Woodwork 데이터 ꡬ쑰λ₯Ό ν—ˆμš©ν•˜λ„λ‘ νŒŒμ΄ν”„λΌμΈμ„ μ—…λ°μ΄νŠΈν–ˆμœΌλ©° #1288은 Woodwork 데이터 ꡬ쑰λ₯Ό μž…λ ₯으둜 ν—ˆμš©ν•˜λ„λ‘ νŒŒμ΄ν”„λΌμΈ 및 ꡬ성 μš”μ†Œλ₯Ό μ—…λ°μ΄νŠΈν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•©λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ transform 및 predict $와 같은 λ©”μ„œλ“œμ— λŒ€ν•œ 좜λ ₯은 μ—¬μ „νžˆ β€‹β€‹νŒ¬λ” DataFrames이며 μ΄μƒν•©λ‹ˆλ‹€. 이 λ¬Έμ œλŠ” Woodwork 데이터 ꡬ쑰λ₯Ό λ°˜ν™˜ν•˜λŠ” λ©”μ„œλ“œ μ—…λ°μ΄νŠΈλ₯Ό μΆ”μ ν•©λ‹ˆλ‹€.

κ°€μž₯ μœ μš©ν•œ λŒ“κΈ€

μ„Έ 번째 μ˜΅μ…˜μ΄ κ°€μž₯ κΉ¨λ—ν•˜κ³  κ°€μž₯ 쒋은 μ˜΅μ…˜μΈ 것 κ°™μŠ΅λ‹ˆλ‹€. λ°”λΌκ±΄λŒ€ μ„±λŠ₯은 영ν–₯을 받지 μ•Šμ§€λ§Œ κ°œλ…μ μœΌλ‘œλŠ” 건전해 λ³΄μž…λ‹ˆλ‹€. 관심을 κ°€μ Έμ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€...λͺ¨λ“  일에 λŒ€ν•΄ 머리λ₯Ό 싸맀고 μžˆμŠ΅λ‹ˆλ‹€.

λͺ¨λ“  5 λŒ“κΈ€

Woodworkκ°€ λŒ€κ·œλͺ¨ μ—…λ°μ΄νŠΈμ— λŒ€ν•œ κ³„νšμ„ 마무리 짓고 μžˆλ‹€λŠ” 점을 κ°μ•ˆν•  λ•Œ ν˜„μž¬λ‘œμ„œλŠ” 이것을 νŽ€νŠΈν•©λ‹ˆλ‹€. λͺ©κ³΅μ΄ νŒλ‹€μ˜ ν™•μž₯이 λœλ‹€λ©΄ μš°λ¦¬λŠ” 이것을 μ›ν•˜μ§€ μ•Šκ±°λ‚˜ ν•  ν•„μš”κ°€ 없을 κ²ƒμž…λ‹ˆλ‹€.

@angela97lin κ³Ό μ €λŠ” μ²΄ν¬μΈν•˜κ³  λͺ‡ 가지 κ΅¬ν˜„ μ˜΅μ…˜μ— λŒ€ν•΄ λ…Όμ˜ν–ˆμŠ΅λ‹ˆλ‹€.

  1. ꡬ성 μš”μ†Œ κ·Έλž˜ν”„ 평가가 νŒ¬λ”λ₯Ό 각 ꡬ성 μš”μ†Œμ— μ „λ‹¬ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. ꡬ성 μš”μ†Œμ— ww μœ ν˜•μ„ ν‘œμ‹œν•˜λ €λ©΄ fit 등에 μƒˆ ν•„λ“œλ₯Ό μΆ”κ°€ν•˜κ±°λ‚˜ μ΄ˆκΈ°ν™” λ§€κ°œλ³€μˆ˜λ₯Ό μ‚¬μš©ν•˜μ—¬ κ΄€λ ¨ 열을 ν‘œμ‹œν•˜λŠ” ν…μŠ€νŠΈ κΈ°λŠ₯ν™” νŒ¨ν„΄μ„ κ³ μˆ˜ν•˜μ‹­μ‹œμ˜€. 단점: API κ΄€μ μ—μ„œ 보기에 보기 ν‰ν•˜κΈ° λ•Œλ¬Έμ— μ²˜μŒμ— λͺ©κ³΅μ„ λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.
  2. ꡬ성 μš”μ†Œ κ·Έλž˜ν”„ 평가 쀑 λͺ©κ³΅μ„ 각 ꡬ성 μš”μ†Œμ— μ „λ‹¬ν•©λ‹ˆλ‹€. 각 ꡬ성 μš”μ†Œκ°€ νŒ¬λ”λ₯Ό λ°˜ν™˜ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 단점: 잠재적인 μ œν•œ 사항은 pandas dtype을 λ³€κ²½ν•˜λŠ” 경우λ₯Ό μ œμ™Έν•˜κ³  ꡬ성 μš”μ†Œκ°€ μž…λ ₯ 피쳐 λ˜λŠ” μƒˆλ‘œ μƒμ„±λœ ν”Όμ³μ˜ λͺ©κ³΅ μœ ν˜•μ„ λ³€κ²½ν•  수 μ—†λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이것에 μ˜μ‘΄ν•˜λŠ” ꡬ성 μš”μ†Œκ°€ μ—†μŠ΅λ‹ˆλ‹€.
  3. ꡬ성 μš”μ†Œ κ·Έλž˜ν”„ 평가 쀑 λͺ©κ³΅μ„ 각 ꡬ성 μš”μ†Œμ— μ „λ‹¬ν•©λ‹ˆλ‹€. 각 ꡬ성 μš”μ†Œκ°€ λͺ©κ³΅ν’ˆμ„ λ°˜ν™˜ν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 과제: κΈ°λŠ₯ μΆ”κ°€, κΈ°λŠ₯ μ‚­μ œ λ˜λŠ” κΈ°λŠ₯ μˆ˜μ •κ³Ό 같은 λ³€ν™˜μ„ μˆ˜ν–‰ν•˜λ €λ©΄ λŒ€λΆ€λΆ„μ˜ ꡬ성 μš”μ†Œκ°€ λ‚΄λΆ€μ μœΌλ‘œ νŒ¬λ”λ‘œ λ³€ν™˜λ˜μ–΄μ•Ό ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ λ³€ν™˜ 후에 μ›λž˜ λͺ©κ³΅ μœ ν˜•μ΄ λ°˜ν™˜λœ μƒˆ λͺ©κ³΅ 데이터 ν…Œμ΄λΈ”μ— 듀어가도둝 ν•΄μ•Ό ν•©λ‹ˆλ‹€. 그렇지 μ•ŠμœΌλ©΄ μ‚¬μš©μžκ°€ μž¬μ •μ˜ν•œ 섀정이 μ˜€λŠ˜λ‚ κ³Ό 같이 μ†μ‹€λ©λ‹ˆλ‹€.

μƒνƒœ: @angela97lin 은 ν˜„μž¬ #1668μ—μ„œ μ˜΅μ…˜ 3을 μΆ”κ΅¬ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

κ³„νš: μ—¬λŸ¬ ww 데이터 ν…Œμ΄λΈ” μΈμŠ€ν„΄μŠ€ν™”λ‘œ μΈν•œ λŸ°νƒ€μž„ κ°μ†Œλ₯Ό μ£Όμ‹œν•˜λ©΄μ„œ ν•΄λ‹Ή μ „λž΅μ„ 계속할 κ²ƒμž…λ‹ˆλ‹€. 그리고 이λ₯Ό μ‰½κ²Œ ν•˜κΈ° μœ„ν•΄ λͺ©κ³΅μ— λŒ€ν•œ κΈ°λŠ₯ μš”μ²­μ΄ μžˆλŠ”μ§€ κ³ λ €ν•  κ²ƒμž…λ‹ˆλ‹€. μš°λ¦¬λŠ” λ˜ν•œ μ§€κΈˆκΉŒμ§€ 놓쳀을 수 μžˆλŠ” 맀λ ₯적인 μ˜΅μ…˜μ„ μ£Όμ‹œν•  κ²ƒμž…λ‹ˆλ‹€.

@chukarsten @gsheni

μ„Έ 번째 μ˜΅μ…˜μ΄ κ°€μž₯ κΉ¨λ—ν•˜κ³  κ°€μž₯ 쒋은 μ˜΅μ…˜μΈ 것 κ°™μŠ΅λ‹ˆλ‹€. λ°”λΌκ±΄λŒ€ μ„±λŠ₯은 영ν–₯을 받지 μ•Šμ§€λ§Œ κ°œλ…μ μœΌλ‘œλŠ” 건전해 λ³΄μž…λ‹ˆλ‹€. 관심을 κ°€μ Έμ£Όμ…”μ„œ κ°μ‚¬ν•©λ‹ˆλ‹€...λͺ¨λ“  일에 λŒ€ν•΄ 머리λ₯Ό 싸맀고 μžˆμŠ΅λ‹ˆλ‹€.

이것을 ν•΄ν‚Ήν•˜κ³  μ’€ 더 μƒκ°ν•˜μ‹­μ‹œμ˜€ :

μ΅œμ’… λͺ©ν‘œλŠ” μ‚¬μš©μžκ°€ μ›ν•˜λŠ” μ›λž˜ 논리 μœ ν˜•μ„ 좔적할 방법이 ν•„μš”ν•˜λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. 이것은 ꡬ성 μš”μ†Œ κ·Έλž˜ν”„μ— μ˜ν•΄ λ³΄μœ λ˜κ±°λ‚˜ 일뢀 데이터λ₯Ό λ³€ν™˜ν•œ ν›„ ν•΄λ‹Ή μœ ν˜•μ„ λ‹€μ‹œ μ„€μ •ν•˜λŠ” μ±…μž„μ΄ μžˆλŠ” 각 ꡬ성 μš”μ†Œμ— μ „λ‹¬λ˜λŠ” 정보일 수 μžˆμŠ΅λ‹ˆλ‹€. ν˜„μž¬ 3을 μΆ”κ΅¬ν•˜κ³  ν…ŒμŠ€νŠΈν•˜κΈ° κ°€μž₯ 쉽기 λ•Œλ¬Έμ— (λͺ¨λ“  ꡬ성 μš”μ†Œλ₯Ό μ—…λ°μ΄νŠΈν•˜λŠ” 것보닀) ꡬ성 μš”μ†Œ κ·Έλž˜ν”„μ— 정보λ₯Ό μΆ”κ°€ν•˜μ§€λ§Œ ꡬ성 μš”μ†Œ μˆ˜μ€€μ—μ„œλŠ” μ˜λ―Έκ°€ μ—†μŠ΅λ‹ˆλ‹€.

μ‚¬μš©μžκ°€ Woodwork DataTable을 μ§€μ •ν•˜κ³  λ²”μ£Όν˜• 열을 μžμ—°μ–΄λ‘œ λͺ…μ‹œμ μœΌλ‘œ λ³€ν™˜ν•œλ‹€κ³  κ°€μ •ν•΄ λ³΄κ² μŠ΅λ‹ˆλ‹€. μ‚¬μš©μžλŠ” 이λ₯Ό ꡬ성 μš”μ†Œμ— μ „λ‹¬ν•©λ‹ˆλ‹€. μ™ΈλΆ€ λΌμ΄λΈŒλŸ¬λ¦¬μ— μ „λ‹¬ν•˜λ €λ©΄ νŒ¬λ”λ‘œ λ³€ν™˜ν•΄μ•Ό ν•˜λ©° Woodwork 개체λ₯Ό λ°˜ν™˜ν•˜κ³  μ‹ΆμŠ΅λ‹ˆλ‹€. λ‹¨μˆœνžˆ Woodwork μƒμ„±μžλ₯Ό ν˜ΈμΆœν•˜λ©΄ μœ μΆ”λœ μœ ν˜•(λ²”μ£Όν˜•)만 μ·¨ν•˜κ²Œ λ˜λŠ”λ°, 이것이 μ΄μƒν•œκ°€μš”? λ”°λΌμ„œ μš°λ¦¬λŠ” μ›λž˜ μ§€μ •λœ μžμ—°μ–΄ μœ ν˜•μ„ μΆ”μ ν•˜κ³  μ‚¬μš©μžμ—κ²Œ λ‹€μ‹œ μ „λ‹¬ν•˜κΈ° 전에 λ³€ν™˜ν•΄μ•Ό ν•©λ‹ˆλ‹€.

ν₯미둜운 점은 ν‘œμ€€ μŠ€μΌ€μΌλŸ¬μž…λ‹ˆλ‹€. int 열을 가져와 float둜 λ³€ν™˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 그런 λ‹€μŒ col을 μ›λž˜ μœ ν˜•(int)으둜 λ‹€μ‹œ μ„€μ •ν•˜λ €κ³  ν•˜λ©΄ μ•ˆμ „ν•˜μ§€ μ•Šμ„ λ•Œ floatλ₯Ό int둜 λ³€ν™˜ν•˜λ €κ³  μ‹œλ„ν•˜λŠ” 것에 λŒ€ν•΄ μ†Œλ¦¬λ₯Ό 지λ₯΄κ²Œ λ©λ‹ˆλ‹€. 😬

μ—…λ°μ΄νŠΈ: @dsherry 및 @chukarstenκ³Ό ​​빠λ₯Έ 토둠을 ν–ˆμŠ΅λ‹ˆλ‹€. ν˜„μž¬ #3을 κ΅¬ν˜„ν•˜κ³  μžˆμ§€λ§Œ ꡬ성 μš”μ†Œ κ·Έλž˜ν”„ 핸듀이 μ›λž˜ μ‚¬μš©μž μœ ν˜•μ„ μΆ”μ ν•˜κ³  ꡬ성 μš”μ†Œμ—μ„œ ꡬ성 μš”μ†Œλ‘œ 전달될 λ•Œ ν•΄λ‹Ή 정보λ₯Ό μ—…λ°μ΄νŠΈν•˜λ„λ‘ ν•©λ‹ˆλ‹€. 이것은 μ •μƒμ μœΌλ‘œ μž‘λ™ν•˜κ³  AutoML/νŒŒμ΄ν”„λΌμΈμ΄ μž‘λ™ν•˜λŠ” μœ„μΉ˜λ‘œ μ΄λ™ν•˜μ§€λ§Œ #1668이 λ³‘ν•©λœ ν›„μ—λŠ” ꡬ성 μš”μ†Œ μˆ˜μ€€μ—μ„œ 이λ₯Ό μ²˜λ¦¬ν•˜κ³  ꡬ성 μš”μ†Œ κ·Έλž˜ν”„μ—μ„œ 이 μ½”λ“œλ₯Ό μ œκ±°ν•΄μ•Ό ν•©λ‹ˆλ‹€.

λ‹€μŒ ν•  일: λ©”μΈμ—μ„œ λΆ„κΈ° μ—…λ°μ΄νŠΈμ˜ 인덱슀 ν…ŒμŠ€νŠΈ μˆ˜μ •, 이 PR(일반 정리 μ½”λ“œ)κ³Ό κ΄€λ ¨ 없이 ν•΄κ²°ν•  수 μžˆλŠ” 주석 및 파일 문제 정리. μ½”λ“œκ°€ 더 깨끗해지면 쀑볡과 ν”„λ‘œν•„μ„ μ°Ύμ•„ 이 μ—„μ²­λ‚œ μ‹œκ°„ 차이가 μ–΄λ””μ—μ„œ μ˜€λŠ”μ§€/이에 λŒ€ν•΄ 무엇을 ν•  수 μžˆλŠ”μ§€ ν™•μΈν•˜μ‹­μ‹œμ˜€.

이 νŽ˜μ΄μ§€κ°€ 도움이 λ˜μ—ˆλ‚˜μš”?
0 / 5 - 0 λ“±κΈ‰