Scikit-learn: CategoricalEncoder API рдкрд░ рдлрд┐рд░ рд╕реЗ рд╡рд┐рдЪрд╛рд░ рдХрд░рдирд╛?

рдХреЛ рдирд┐рд░реНрдорд┐рдд 23 рдЬрдире░ 2018  ┬╖  63рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ  ┬╖  рд╕реНрд░реЛрдд: scikit-learn/scikit-learn

рд╣рдорд╛рд░реЗ рдпрд╣рд╛рдВ рд╣реЛ рд░рд╣реА рдХреБрдЫ рдЪрд░реНрдЪрд╛рдУрдВ рдФрд░ рдЦреБрд▓реЗ рдореБрджреНрджреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░, рд╣рдореЗрдВ рдХреБрдЫ рд╕рдВрджреЗрд╣ рд╣реЛ рд░рд╣рд╛ рд╣реИ рдХрд┐ CategoricalEncoder (https://github.com/scikit-learn/scikit-learn/pull/9151) рдЕрдЪреНрдЫрд╛ рдерд╛ рдирд╛рдо рдХрд╛ рдЪреБрдирд╛рд╡ (рдФрд░ рдЪреВрдВрдХрд┐ рдЗрд╕реЗ рдЬрд╛рд░реА рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рдлрд┐рд░ рднреА рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдмрджрд▓рд╛рд╡ рдХреЗ рд▓рд┐рдП рдХреБрдЫ рдЬрдЧрд╣ рд╣реИ)ред

рддреЛ рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ рдпрд╣ рдЕрдм рдХреИрд╕рд╛ рд╣реИ:

  • рд╡рд░реНрдЧ рдирд╛рдо CategoricalEncoder рдХрд╣рддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдХрд┐рд╕ рдкреНрд░рдХрд╛рд░ рдХрд╛ рдбреЗрдЯрд╛ рд╕реНрд╡реАрдХрд╛рд░ рдХрд░рддрд╛ рд╣реИ (рд╢реНрд░реЗрдгреАрдмрджреНрдз рдбреЗрдЯрд╛)
  • рдХреАрд╡рд░реНрдб рддрд░реНрдХ encoding рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдХрд░рддрд╛ рд╣реИ рдХрд┐ рдЙрди рдбреЗрдЯрд╛ рдХреЛ

рд╡рд░реНрддрдорд╛рди рдореЗрдВ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА encoding='onehot'|'onehot-dense'|'ordinal' ред

рд▓реЗрдХрд┐рди рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдХреНрдпрд╛ рдХрд░реЗрдВ:

  • рд╣рдо рдФрд░ рдЕрдзрд┐рдХ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рд╡рд┐рдХрд▓реНрдк рдЬреЛрдбрд╝рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ (рдЬреИрд╕реЗ рдмрд╛рдЗрдирд░реА рдПрдиреНрдХреЛрдбрд┐рдВрдЧ, рдорд╛рдзреНрдп рд▓рдХреНрд╖реНрдп рдПрдиреНрдХреЛрдбрд┐рдВрдЧ, рдпреВрдирд░реА рдПрдиреНрдХреЛрдбрд┐рдВрдЧ, ...)ред рдХреНрдпрд╛ рд╣рдо рдЙрдиреНрд╣реЗрдВ рдПрдХ рдмрдбрд╝реЗ CategoricalEncoder рд╡рд░реНрдЧ рдореЗрдВ encoding kwarg рдХреЗ рд▓рд┐рдП рдирдП рдорд╛рдиреЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рдЬреЛрдбрд╝рддреЗ рд░рд╣рддреЗ рд╣реИрдВ?
  • рд╣рдо рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдореЗрдВ рд╕реЗ рдХрд┐рд╕реА рдПрдХ рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢рд┐рд╖реНрдЯ рд╡рд┐рдХрд▓реНрдк рдЬреЛрдбрд╝рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ (рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП 'рд╡рдирд╣реЙрдЯ' рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдкрд╣рд▓реЗ (рдЕрдирд╛рд╡рд╢реНрдпрдХ) рдХреЙрд▓рдо рдХреЛ рдЫреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП, рдпрд╛ 'рдСрд░реНрдбрд┐рдирд▓' рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдмреЗрд╕ рдХреЗ рд▓рд┐рдП рдЖрд╡реГрддреНрддрд┐ рдкрд░ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХрд╛ рдХреНрд░рдо, ...) рдпрд╣рд╛рдВ рд╕рдорд╕реНрдпрд╛ рдпрд╣ рд╣реИ рдХрд┐ рд╣рдореЗрдВ CategoricalEncoder рдЕрддрд┐рд░рд┐рдХреНрдд рдХреАрд╡рд░реНрдб рддрд░реНрдХ рдЬреЛрдбрд╝рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ рдЬреЛ рдХрд┐ encoding kwarg рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЗ рджреНрд╡рд╛рд░рд╛ рдкрд╛рд░рд┐рдд рдХрд┐рдП рдЧрдП рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рд╕рдХреНрд░рд┐рдп рд╣реИрдВ рдпрд╛ рдирд╣реАрдВ, рдЬреЛ рдХрд┐ рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ API рдбрд┐рдЬрд╝рд╛рдЗрди рдирд╣реАрдВ рд╣реИред

рдЙрд╕ рдЖрдЦрд┐рд░реА рд╕рдорд╕реНрдпрд╛ рдХреЗ рд▓рд┐рдП, рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдпрд╣ sparse=True/False рд╡рд┐рдХрд▓реНрдк рдХреЗ рд╕рд╛рде рдерд╛, рдЬреЛ рдХреЗрд╡рд▓ 'рд╡рдирд╣реЙрдЯ' рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рдерд╛, рди рдХрд┐ 'рдСрд░реНрдбрд┐рдирд▓' рдХреЗ рд▓рд┐рдП, рдФрд░ рдЬрд┐рд╕реЗ рд╣рдордиреЗ 'рд╡рдирд╣реЙрдЯ' рдФрд░ 'рд╡рдирд╣реЙрдЯ-рдбреЗрдВрд╕' рджреЛрдиреЛрдВ рдХреЗ рд╕рд╛рде рд╣рд▓ рдХрд┐рдпрд╛ рдерд╛ред рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рд╡рд┐рдХрд▓реНрдк рдФрд░ sparse рдХреАрд╡рд░реНрдб рдирд╣реАрдВред рд▓реЗрдХрд┐рди рдРрд╕рд╛ рджреГрд╖реНрдЯрд┐рдХреЛрдг рднреА рдкреИрдорд╛рдирд╛ рдирд╣реАрдВ рд╣реИред

рдЗрд╕рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд, UnaryEncoder (https://github.com/scikit-learn/scikit-learn/pull/8652) рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдкреАрдЖрд░ рд╣реИред рдЙрд╕ рдкреАрдЖрд░ рдореЗрдВ рдирд╛рдордХрд░рдг рдкрд░ рдПрдХ рд╕рдВрдмрдВрдзрд┐рдд рдЪрд░реНрдЪрд╛ рдереА, рдЬреИрд╕рд╛ рдХрд┐ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдирд╛рдо рдХрд╣рддрд╛ рд╣реИ рдХрд┐ рдпрд╣


рдЖрдЧреЗ рдХреНрдпрд╛ рд╡рд┐рдХрд▓реНрдк рд╣реИрдВ:

1) рдЪреАрдЬреЛрдВ рдХреЛ рд╡реИрд╕реЗ рд╣реА рд░рдЦреЗрдВ рдЬреИрд╕рд╛ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдЕрднреА рд╣реИ, рдФрд░ рдПрдХрд▓ рд╡рд░реНрдЧ рдореЗрдВ рдХреБрдЫ рдирдП рд╡рд┐рдХрд▓реНрдк рдЬреЛрдбрд╝рдиреЗ рдХреЗ рд╕рд╛рде рдареАрдХ рд░рд╣реЗрдВ (рдПрдХ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдкреНрд░рд╢реНрди рдЬрд┐рд╕рдХрд╛ рдЙрддреНрддрд░ рджреЗрдирд╛ рдЕрднреА рдХрдард┐рди рд╣реИ, рдпрд╣ рд╣реИ рдХрд┐ рд╣рдо рднрд╡рд┐рд╖реНрдп рдореЗрдВ рдХрд┐рддрдиреА рдирдИ рд╕реБрд╡рд┐рдзрд╛рдПрдБ рдЬреЛрдбрд╝рдирд╛ рдЪрд╛рд╣реЗрдВрдЧреЗ) .
2) рдирд╛рдордХрд░рдг рдпреЛрдЬрдирд╛ рд╕реНрд╡рд┐рдЪ рдХрд░реЗрдВ рдФрд░ 'рд╢реНрд░реЗрдгреАрдмрджреНрдз рдПрдиреНрдХреЛрдбрд░реНрд╕' рдХрд╛ рдПрдХ рдЧреБрдЪреНрдЫрд╛ рд░рдЦреЗрдВ рдЬрд╣рд╛рдВ рдирд╛рдо рдХрд╣рддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рдХреИрд╕реЗ рдПрдиреНрдХреЛрдб рдХрд░рддрд╛ рд╣реИ (рд╡рдирд╣реЙрдЯ рдПрдиреНрдХреЛрдбрд░, рдСрд░реНрдбрд┐рдирд▓ рдПрдиреНрдХреЛрдбрд░, рдФрд░ рдмрд╛рдж рдореЗрдВ рд╢рд╛рдпрдж рдмрд╛рдЗрдирд░реАрдПрдирдХреЛрдбрд░, рдпреВрдирд░реА рдПрдиреНрдХреЛрдбрд░, ...)

рддреЛ рдпрд╣ рдПрдХ рд╡рд░реНрдЧ рдореЗрдВ рдХреАрд╡рд░реНрдб рддрд░реНрдХреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдмрдирд╛рдо рдХрдХреНрд╖рд╛рдУрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдХреЗ рд╕рдВрднрд╛рд╡рд┐рдд рдирд┐рд░реНрдорд╛рдг рдХрд╛ рдереЛрдбрд╝рд╛ рд╕рд╛ рд╡реНрдпрд╛рдкрд╛рд░ рд╣реИред


рджреВрд╕рд░реЗ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдХреЗ рд╕рд╛рде рдПрдХ рд╕рдорд╕реНрдпрд╛ (рдФрд░ рдХрдИ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдХреЛ рдЬреЛрдбрд╝рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рд╣реА рд╣рдо CategoricalEncoder рд╕рд╛рде рдЧрдП, рдЗрд╕рдХрд╛ рдПрдХ рдХрд╛рд░рдг рдпрд╣ рд╣реИ рдХрд┐ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдХ OnehotEncoder , рдЬреЛ CategoricalEncoder рд╕реЗ рднрд┐рдиреНрди API рд╣реИред рдФрд░, рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдПрдХ рдЕрдЪреНрдЫрд╛ рдЕрдиреНрдп рдирд╛рдо рдирд╣реАрдВ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдо рдПрдиреНрдХреЛрдбрд░ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рдПрдХ-рд╣реЙрдЯ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХрд░рддрд╛ рд╣реИред
рд╣рд╛рд▓рд╛рдВрдХрд┐, рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐, рдХреБрдЫ рдЕрд╕реНрдерд╛рдпреА рдмрджрд╕реВрд░рдд рд╣реИрдХреНрд╕ рдХреЗ рд╕рд╛рде, рд╣рдо рдирд╛рдо рдХрд╛ рдкреБрди: рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рдЕрдЧрд░ рд╣рдо рд╡рд░реНрддрдорд╛рди рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдмрд╣рд┐рд╖реНрдХреГрдд рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВ (рдФрд░ рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рд╣рдо рд╕рд╣рдордд рд╣реИрдВ рдХрд┐ рдпрд╣ рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЧреБрдг рдирд╣реАрдВ рд╣реИрдВ)ред рд╡рд┐рдЪрд╛рд░ рдпрд╣ рд╣реЛрдЧрд╛ рдХрд┐ рдпрджрд┐ рдЖрдк рд╕реНрдЯреНрд░рд┐рдВрдЧ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдХрдХреНрд╖рд╛ рдореЗрдВ рдлрд┐рдЯ рд╣реЛрддреЗ рд╣реИрдВ, рддреЛ рдЖрдкрдХреЛ рдирдпрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдорд┐рд▓рддрд╛ рд╣реИ, рдФрд░ рдпрджрд┐ рдЖрдк рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде рдХрдХреНрд╖рд╛ рдореЗрдВ рдлрд┐рдЯ рд╣реЛрддреЗ рд╣реИрдВ, рддреЛ рдЖрдкрдХреЛ рдПрдХ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдорд┐рд▓рддреА рд╣реИ рдЬреЛ рдЗрдВрдЧрд┐рдд рдХрд░рддреА рд╣реИ рдХрд┐ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд╡реНрдпрд╡рд╣рд╛рд░ рдмрджрд▓ рдЬрд╛рдПрдЧрд╛ (рдФрд░ рдпрд╣ рджрд░реНрд╢рд╛рддрд╛ рд╣реИ рдХрд┐ рдХреМрди рд╕рд╛ рдХреАрд╡рд░реНрдб рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдХрд░рдирд╛ рд╣реИ) рдЪреЗрддрд╛рд╡рдиреА рд╕реЗ рдЫреБрдЯрдХрд╛рд░рд╛)ред

cc @jnothman @amueller @GaelVaroquaux @rth

рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЯрд┐рдкреНрдкрдгреА

CategoricalEncoder рдХреЛ рд╡рд╛рдкрд╕ рд▓рд╛рдиреЗ рдХрд╛ рд╡рд┐рдЪрд╛рд░ рдореБрдЭреЗ рдХрд╛рдлреА рджреБрдЦреА рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ
рдЖрдк рд╕рд╣реА рдХрд╣ рд░рд╣реЗ рд╣реИрдВ рдХрд┐ рднрд╡рд┐рд╖реНрдп рдХреЗ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рд╡рд┐рдХрд▓реНрдк 2 рд╕реЗ рдХрдо рднреНрд░рдорд┐рдд рд╣реЛрдВрдЧреЗред рдореЗрд░рд╛ рдореБрдЦреНрдп
рдЪрд┐рдВрддрд╛ рдХреА рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╣рдордиреЗ рдЗрд╕реЗ рдУрдПрдЪрдИ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрди рдХреЗ рд░реВрдк рдореЗрдВ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд┐рдпрд╛ рд╣реИ
рд▓рдВрдмреЗ рд╕рдордп рддрдХ рдФрд░ рдЗрд╕рдиреЗ рдХрднреА рдЙрдбрд╝рд╛рди рдирд╣реАрдВ рднрд░реАред рд╢рд╛рдпрдж рдпрд╣ рдкреНрд░рдпрд╛рд╕ рдХрд░рдирд╛ рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛
рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХреЗ рдЕрдиреБрд╕рд╛рд░ OneHotEncoder docstring рдореЗрдВ рд╕рдВрд╢реЛрдзрди
рдмрджрд▓реЗрдВ, рддреЛ рд╣рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдХреНрдпрд╛ рдпрд╣ рд╕рдордЭрджрд╛рд░ рджрд┐рдЦрддрд╛ рд╣реИред

рд╕рднреА 63 рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

рд╕рд╛рд░рд╛рдВрд╢ @jorisvandenbossche рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореИрдВ рд╡рд┐рдХрд▓реНрдк 2 рдХреЗ рдкрдХреНрд╖ рдореЗрдВ рд╣реВрдВ: OneHotEncoder рд╡рд░реНрдЧ рдХрд╛ рдкреБрди: рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ, рдЕрдЬреАрдм рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рд╣рдЯрд╛ рджреЗрдВ рдФрд░ рднрд╡рд┐рд╖реНрдп рдХреА рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рд╕рд╛рде рд╡реНрдпрд╡рд╣рд╛рд░ рдХрд╛ рдЪрдпрди рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХрдиреНрд╕реНрдЯреНрд░рдХреНрдЯрд░ рдкреИрд░рд╛рдореАрдЯрд░ рдЬреЛрдбрд╝реЗрдВ рдЬреЛ рдХрд╣рддрд╛ рд╣реИ рдХрд┐ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд╡реНрдпрд╡рд╣рд╛рд░ рдмрджрд▓ рдЬрд╛рдПрдЧрд╛ рд▓реЗрдХрд┐рди рдЪреБрдк рд░рд╣рдирд╛ рдЖрд╕рд╛рди рдмрдирд╛рддрд╛ рд╣реИ рдЙрд╕ рд╡рд┐рдХрд▓реНрдк рдХреЗ рд▓рд┐рдП рдХреЗрд╡рд▓ рдПрдХ рдорд╛рди рдкрд╛рд╕ рдХрд░рдХреЗ рд╡рд╣ рдЪреЗрддрд╛рд╡рдиреАред

CategoricalEncoder рдХреЛ рд╡рд╛рдкрд╕ рд▓рд╛рдиреЗ рдХрд╛ рд╡рд┐рдЪрд╛рд░ рдореБрдЭреЗ рдХрд╛рдлреА рджреБрдЦреА рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ
рдЖрдк рд╕рд╣реА рдХрд╣ рд░рд╣реЗ рд╣реИрдВ рдХрд┐ рднрд╡рд┐рд╖реНрдп рдХреЗ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рд╡рд┐рдХрд▓реНрдк 2 рд╕реЗ рдХрдо рднреНрд░рдорд┐рдд рд╣реЛрдВрдЧреЗред рдореЗрд░рд╛ рдореБрдЦреНрдп
рдЪрд┐рдВрддрд╛ рдХреА рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╣рдордиреЗ рдЗрд╕реЗ рдУрдПрдЪрдИ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрди рдХреЗ рд░реВрдк рдореЗрдВ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд┐рдпрд╛ рд╣реИ
рд▓рдВрдмреЗ рд╕рдордп рддрдХ рдФрд░ рдЗрд╕рдиреЗ рдХрднреА рдЙрдбрд╝рд╛рди рдирд╣реАрдВ рднрд░реАред рд╢рд╛рдпрдж рдпрд╣ рдкреНрд░рдпрд╛рд╕ рдХрд░рдирд╛ рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛
рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХреЗ рдЕрдиреБрд╕рд╛рд░ OneHotEncoder docstring рдореЗрдВ рд╕рдВрд╢реЛрдзрди
рдмрджрд▓реЗрдВ, рддреЛ рд╣рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдХреНрдпрд╛ рдпрд╣ рд╕рдордЭрджрд╛рд░ рджрд┐рдЦрддрд╛ рд╣реИред

рдЬреЛрдПрд▓ рдиреЗ рдЬреЛ рдХрд╣рд╛ рдЙрд╕рдХреЗ рд▓рд┐рдП +1

рдореЗрд░реЗ рдлреЛрди рд╕реЗ рднреЗрдЬрд╛ рдЧрдпрд╛ред рдХреГрдкрдпрд╛ рдЯрд╛рдЗрдкреЛ рдФрд░ рд╕рдВрдХреНрд╖рд┐рдкреНрддрддрд╛ рдХреНрд╖рдорд╛ рдХрд░реЗрдВредтАЛ

23 рдЬрдирд╡рд░реА 2018 рдХреЛ, 12:28, 12:28 рдмрдЬреЗ, рдЬреЛрдПрд▓ рдиреЛрдердореИрди рдиреЛрдЯрд┐рдлрд┐рдХреЗрд╢рди @github.com рдиреЗ рд▓рд┐рдЦрд╛:

CategoricalEncoder рдХреЛ рд╡рд╛рдкрд╕ рд▓рд╛рдиреЗ рдХрд╛ рд╡рд┐рдЪрд╛рд░ рдореБрдЭреЗ рдХрд╛рдлреА рджреБрдЦреА рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди I
рд╕реЛрдЪ
рдЖрдк рд╕рд╣реА рдХрд╣ рд░рд╣реЗ рд╣реИрдВ рдХрд┐ рднрд╡рд┐рд╖реНрдп рдХреЗ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рд╡рд┐рдХрд▓реНрдк 2 рд╕реЗ рдХрдо рднреНрд░рдорд┐рдд рд╣реЛрдВрдЧреЗред My
рдореБрдЦреНрдп
рдЪрд┐рдВрддрд╛ рдХреА рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╣рдордиреЗ рдЗрд╕реЗ OHE рдореЗрдВ рдмрджрд▓рд╛рд╡ рдХреЗ рд░реВрдк рдореЗрдВ рд▓рд╛рдЧреВ рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд┐рдпрд╛ рд╣реИ
рдП
рд▓рдВрдмреЗ рд╕рдордп рддрдХ рдФрд░ рдЗрд╕рдиреЗ рдХрднреА рдЙрдбрд╝рд╛рди рдирд╣реАрдВ рднрд░реАред рд╢рд╛рдпрдж рдпрд╣ рдкреНрд░рдпрд╛рд╕ рдХрд░рдирд╛ рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛
рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдХреЗ рдЕрдиреБрд╕рд╛рд░ OneHotEncoder docstring рдореЗрдВ рд╕рдВрд╢реЛрдзрди
рдмрджрд▓реЗрдВ, рддреЛ рд╣рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдХреНрдпрд╛ рдпрд╣ рд╕рдордЭрджрд╛рд░ рджрд┐рдЦрддрд╛ рд╣реИред

--
рдЖрдк рдЗрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рдЖрдкрдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЗрд╕ рдИрдореЗрд▓ рдХрд╛ рд╕реАрдзреЗ рдЙрддреНрддрд░ рджреЗрдВ рдпрд╛ рдЗрд╕реЗ GitHub рдкрд░ рджреЗрдЦреЗрдВ:
https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment -359761818

CategoricalEncoder рдХреЛ рд╡рд╛рдкрд╕ рд▓рд╛рдиреЗ рдХрд╛ рд╡рд┐рдЪрд╛рд░ рдореБрдЭреЗ рдмрд╣реБрдд рджреБрдЦреА рдХрд░рддрд╛ рд╣реИ

рд╕реНрдкрд╖реНрдЯ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП, рдпрд╣ рдПрдХ рдкреВрд░реНрд╡рд╡рдд рдирд╣реАрдВ рд╣реЛрдЧрд╛, рдпрд╣ рдПрдХ рд░рд┐рдлреИрдХреНрдЯрд░/рдирд╛рдо рдмрджрд▓реЗрдВ рдЬреЛ рд╕рднреА рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рд░рдЦрддрд╛ рд╣реИ!
рд▓реЗрдХрд┐рди рдореБрдЭреЗ "CategoricalEncoder" рдирд╛рдо рднреА рдкрд╕рдВрдж рд╣реИ, рдЬреЛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рджреБрдЦрдж рд╣реЛрдЧрд╛ред

рдЙрд╕ рдиреЗ рдХрд╣рд╛, рдореИрдВ рдпрд╣ рдЬрд╛рдирдиреЗ рдХреЗ рд▓рд┐рдП рдЬрд▓реНрджреА рд╕реЗ рдкрд░рд┐рд╡рд░реНрддрди рдХрд░рдиреЗ рдХрд╛ рдкреНрд░рдпрд╛рд╕ рдХрд░реВрдВрдЧрд╛ рдХрд┐ рдЗрд╕реЗ OnehotEncoder рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рдирд╛ рдХрд┐рддрдирд╛ рд╕рдВрднрд╡ рд╣реИред

рдареАрдХ рд╣реИ, рдореИрдВрдиреЗ рдЕрд╡рдзрд╛рд░рдгрд╛ рдХреЗ рдкреНрд░рдорд╛рдг рдХреЗ рд╕рд╛рде рдПрдХ рдкреАрдЖрд░ рдЦреЛрд▓рд╛: https://github.com/scikit-learn/scikit-learn/pull/10523ред
рдпрд╣ рдЕрднреА рддрдХ рдкреВрд░рд╛ рдирд╣реАрдВ рд╣реБрдЖ рд╣реИ (рдкреБрд░рд╛рдиреЗ рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдЕрднреА рддрдХ рдХреЛрдИ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдФрд░ рдирдИ рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреА рдЧрдгрдирд╛ рдирд╣реАрдВ рдХреА рдЧрдИ рд╣реИ)ред

рдореБрдЦреНрдп рдПрдкреАрдЖрдИ рдкреНрд░рд╢реНрди рдЗрдирдкреБрдЯ рдбреЗрдЯрд╛ рдХреЗ рдкреНрд░рд╛рд░реВрдк рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рд╣реИред
рдЗрд╕рд▓рд┐рдП рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ, рджреЛ рдЕрд▓рдЧ-рдЕрд▓рдЧ рддрд░реАрдХреЗ рд╣реИрдВ рдЬрд┐рдирд╕реЗ рд╣рдо рд╡рд░реНрддрдорд╛рди рдореЗрдВ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдбреЗрдЯрд╛ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рддреЗ рд╣реИрдВ :

1) рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдХреЗ рд░реВрдк рдореЗрдВ, рдЕрднреА рддрдХ рдПрдиреНрдХреЛрдб рдирд╣реАрдВ рдХрд┐рдпрд╛ рдЧрдпрд╛ (рдкреВрд░реНрдгрд╛рдВрдХ рдпрд╛ рд╕реНрдЯреНрд░рд┐рдВрдЧ), рд╢реНрд░реЗрдгреАрдмрджреНрдз рдбреЗрдЯрд╛ (рдпрд╣ рдХреИрд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ CategoricalEncoder ) -> рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдореЗрдВ рдЕрджреНрд╡рд┐рддреАрдп рдореВрд▓реНрдпреЛрдВ рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдПрдВ
2) рдкреВрд░реНрдгрд╛рдВрдХ рдХреЗ рд░реВрдк рдореЗрдВ, рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдПрдиреНрдХреЛрдбреЗрдб рдбреЗрдЯрд╛ (рдпрд╣ рд╡рд░реНрддрдорд╛рди OneHotEncoder рдореЗрдВ рдХреИрд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ) -> рдкреНрд░рд╢рд┐рдХреНрд╖рдг рдбреЗрдЯрд╛ рдореЗрдВ рдЕрдзрд┐рдХрддрдо рдореВрд▓реНрдп рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдПрдВ

рд╕рд╡рд╛рд▓ рдпрд╣ рд╣реИ рдХрд┐ рдХреНрдпрд╛ рд╣рдо рджреЛрдиреЛрдВ рдорд╛рдорд▓реЛрдВ рдХреЛ рд╕рдорд░реНрдерди рдХреЗ рд▓рд╛рдпрдХ рдкрд╛рддреЗ рд╣реИрдВ? рдЗрд╕ рдкреНрд░рдХрд╛рд░, рд╕рдВрднрд╛рд╡рд┐рдд рд░реВрдк рд╕реЗ рдорд░реНрдЬ рдХрд┐рдП рдЧрдП OneHotEncoder рдореЗрдВ, рдХреНрдпрд╛ рд╣рдо рджреЛрдиреЛрдВ рдХреЛ рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рд░рдЦрддреЗ рд╣реИрдВ, рдпрд╛ рдХреНрдпрд╛ рд╣рдо рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдкрджрд╛рд╡рдирдд рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдлрд┐рд░ рдХреНрд░рдорд┐рдХ рдЗрдирдкреБрдЯ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдХреЛ рд╣рдЯрд╛ рджреЗрддреЗ рд╣реИрдВ?

рдпрджрд┐ рджреЛрдиреЛрдВ рдХреЛ рд╕рдВрд╕рд╛рдзрд┐рдд рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ рд╣рдо рдЗрдирдкреБрдЯ рдбреЗрдЯрд╛ рдкреНрд░рдХрд╛рд░ рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдмреВрд▓рд┐рдпрди рдХреАрд╡рд░реНрдб рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ (рдЕрднреА рдХреЗ рд▓рд┐рдП рдореИрдВ encoded_input=False/True рдЙрдкрдпреЛрдЧ рдХрд░рддрд╛ рд╣реВрдВ, рд▓реЗрдХрд┐рди рдЕрдиреНрдп рд╡рд┐рдЪрд╛рд░ ordinal_input , ...)

рдмрд╣рд┐рд╖реНрдХрд░рдг рдЕрд╡рдзрд┐ рдХреЗ рд▓рд┐рдП, рд╣рдореЗрдВ рд╡реИрд╕реЗ рднреА рджреЛрдиреЛрдВ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рдирд╛ рд╣реЛрдЧрд╛, рдФрд░ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдЪреБрдирдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХреАрд╡рд░реНрдб рднреА рдкреЗрд╢ рдХрд░рдирд╛ рд╣реЛрдЧрд╛ (рдЪреЗрддрд╛рд╡рдиреА рдХреЛ рд╢рд╛рдВрдд рдХрд░рдиреЗ рдФрд░ рдирдП рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдЪреБрдирдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП)ред
рддреЛ рд╕рд┐рджреНрдзрд╛рдВрдд рд░реВрдк рдореЗрдВ рд╣рдо рдХреАрд╡рд░реНрдб рдХреЛ рдмрд╛рдж рдореЗрдВ рд╣реА рд░рдЦ рд╕рдХрддреЗ рд╣реИрдВред

рдпрд╣ рджреЗрдЦрддреЗ рд╣реБрдП рдХрд┐ рд╣рдо рджреЛрдиреЛрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдПрдХ рд╕рд┐рдВрд╣рд╛рд╡рд▓реЛрдХрди рдХрд┐ OneHotEncoder рдХреИрд╕реЗ рдХрд╛рдо рдХрд░реЗрдЧрд╛:

  • рдЕрднреА рдХреЗ рд▓рд┐рдП encoded_input=None , рдФрд░ рд╣рдо рдбреЗрдЯрд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рддреЗ рд╣реИрдВ
  • рдпрджрд┐ int-like рдбреЗрдЯрд╛ (OneHotEncoder рджреНрд╡рд╛рд░рд╛ рдкрд╣рд▓реЗ рд╕рдВрднрд╛рд▓рд╛ рдЬрд╛рддрд╛ рд╣реИ) encoded_input рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ True рдкрд░ рд╕реЗрдЯ рд╣реИ рдФрд░ рдПрдХ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдЙрдард╛рдИ рдЬрд╛рддреА рд╣реИред рдпрджрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рд╡рд░реНрддрдорд╛рди рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдмрдирд╛рдП рд░рдЦрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИ, рддреЛ рд╡рд╣ рдЗрд╕реЗ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ OneHotEncoder(encoded_input=True) рд░реВрдк рдореЗрдВ рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдХрд░ рд╕рдХрддрд╛ рд╣реИ рддрд╛рдХрд┐ рдЪреЗрддрд╛рд╡рдиреА рдХреЛ рд╢рд╛рдВрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗред
  • рдпрджрд┐ рдЗрдирдкреБрдЯ рдЗрдВрдЯ-рд▓рд╛рдЗрдХ рдирд╣реАрдВ рд╣реИ, рддреЛ рд╣рдо encoded_input рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ False рдкрд░ рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдмрд┐рдирд╛ рдХрд┐рд╕реА рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рдирдП рд╡реНрдпрд╡рд╣рд╛рд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ (= рд╡рд░реНрддрдорд╛рди CategoricalEncoder рд╡реНрдпрд╡рд╣рд╛рд░)
  • рднрд╡рд┐рд╖реНрдп рдореЗрдВ рд╣рдо encoded_input рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдХреЛ рдХреЛрдИ рдирд╣реАрдВ рд╕реЗ рдЧрд▓рдд рдореЗрдВ рдмрджрд▓рддреЗ рд╣реИрдВ (рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд░реВрдк рд╕реЗ рдирдпрд╛ рд╡реНрдпрд╡рд╣рд╛рд░, рдЗрдВрдЯ-рд▓рд╛рдЗрдХ рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рднреА)

рдореБрдЭреЗ рдЕрднреА рднреА рдпрдХреАрди рдирд╣реАрдВ рд╣реИ рдХрд┐ рдЖрдк рдЬреЛ рд╕реБрдЭрд╛рд╡ рджреЗ рд░рд╣реЗ рд╣реИрдВ рд╡рд╣ рдЕрдзрд┐рдХрддрдо рдореВрд▓реНрдп рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХрд╛ рдЕрдиреБрдорд╛рди рд▓рдЧрд╛рдиреЗ рдХреЗ рдХрд╛рд░рдг рд╡реНрдпрд╛рд╡рд╣рд╛рд░рд┐рдХ рдЕрдВрддрд░ рд╣реИред

@jnothman рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЖрдк рд╕реНрд╡реАрдХрд╛рд░ рдХрд░рддреЗ рд╣реИрдВ рдХрд┐ рдЕрднреНрдпрд╛рд╕ рдореЗрдВ рдЕрдВрддрд░ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ? (рдЖрдкрдХреЗ рдкрд╛рд╕ рдореМрдЬреВрдж рдбреЗрдЯрд╛ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЖрдкрдХреЛ рдЬреЛ рдЖрдЙрдЯрдкреБрдЯ рдорд┐рд▓рддрд╛ рд╣реИ)

рд▓реЗрдХрд┐рди рдХреНрдпрд╛ рдпрд╣ рдЕрдВрддрд░ рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИ, рдореБрдЭреЗ рдирд╣реАрдВ рдкрддрд╛ред рд╡рд╣реАрдВ рдореИрдВ рдлреАрдбрдмреИрдХ рджреЗрдЦрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВред рдХреНрдпрд╛ рдХреЛрдИ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдпрд╣ "рдЕрдзрд┐рдХрддрдо рдореВрд▓реНрдп"-рдЖрдзрд╛рд░рд┐рдд рд╡рд┐рдзрд┐ рдЪрд╛рд╣рддрд╛ рд╣реИ , рдпрд╛ рдХреНрдпрд╛ рд╣рдо (рднрд╡рд┐рд╖реНрдп рдореЗрдВ, рдмрд╣рд┐рд╖реНрдХрд░рдг рдХреЗ рдмрд╛рдж) рдХреЗрд╡рд▓ "рдЕрджреНрд╡рд┐рддреАрдп рдорд╛рди"-рдЖрдзрд╛рд░рд┐рдд рдкрджреНрдзрддрд┐ рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВред

рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореБрдЭреЗ рд╡реНрдпрдХреНрддрд┐рдЧрдд рд░реВрдк рд╕реЗ рдЗрд╕ рдЕрдзрд┐рдХрддрдо-рдореВрд▓реНрдп рдЖрдзрд╛рд░рд┐рдд рдкрджреНрдзрддрд┐ рдХреА рдХрднреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реЛрдЧреА, рд▓реЗрдХрд┐рди OneHotEncoder рдХрдИ рд╡рд░реНрд╖реЛрдВ рд╕реЗ рдРрд╕рд╛ рд╣реА рд╣реИ (рдЕрдЪреНрдЫреЗ рдХрд╛рд░рдг рдХреЗ рд▓рд┐рдП рдпрд╛ рдирд╣реАрдВ?)

рдЕрд╕рд▓ рдореЗрдВ рдЕрдзрд┐рдХрддрдо-рдореВрд▓реНрдп рдЖрдзрд╛рд░рд┐рдд рд╡рд░реНрдЧреАрдХрд░рдг рдХреЛ рдмрд╣рд┐рд╖реНрдХреГрдд рдХрд░рдирд╛ рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди (рдмрд╣рд┐рд╖реНрдХрд░рдг рдХреЗ рдмрд╛рдж) рдХреЛ рдЖрд╕рд╛рди рдмрдирд╛ рджреЗрдЧрд╛ред
рдФрд░ рдпрджрд┐ рд╣рдо рдЙрд╕ рдорд╛рд░реНрдЧ рдХреЗ рд▓рд┐рдП рдЪреБрдирддреЗ рд╣реИрдВ, рддреЛ рдореИрдВ рдорд╛рдирддрд╛ рд╣реВрдБ рд╡рд┐рдХрд▓реНрдк рдирд╣реАрдВ рдмрд▓реНрдХрд┐ рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдП legacy_mode=True/False рдмрдЬрд╛рдп encoded_input / ordinal_input

рдореБрдЭреЗ рдпрд╛рдж рджрд┐рд▓рд╛рдПрдВ рдХрд┐ рдЖрдЙрдЯрдкреБрдЯ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдЕрдВрддрд░ рдХреНрдпрд╛ рд╣реИ, рдЬрдм n_values='auto',
рдХреГрдкрдпрд╛? рдореИрдВрдиреЗ рд╕реЛрдЪрд╛ рдерд╛ рдХрд┐ active_features_ рдЪреАрдЬрд╝ рдиреЗ рдЙрдиреНрд╣реЗрдВ рдореВрд▓ рд░реВрдк рд╕реЗ рдмрдирд╛рдпрд╛ рд╣реИ
рд╕рдорд╛рди, рд▓реЗрдХрд┐рди рдореИрдВ рд╢рд╛рдпрдж рдХреБрдЫ рднреВрд▓ рд░рд╣рд╛ рд╣реВрдБред

рдЖрд╣, рдпрд╣ рд╣рдорд╛рд░реА рдЧрд▓рддрдлрд╣рдореА рдХреЛ рд╕реНрдкрд╖реНрдЯ рдХрд░рддрд╛ рд╣реИ :-)
рдореИрдВрдиреЗ рдЧрд▓рдд рд╕рдордЭрд╛ рдХрд┐ рд╡рд░реНрддрдорд╛рди OneHotEncoder рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдХреИрд╕реЗ рдХрд╛рдо рдХрд░ рд░рд╣рд╛ рд╣реИред рдорд╛рди рд▓реАрдЬрд┐рдП рдХрд┐ рдЖрдкрдХреЗ рдкрд╛рд╕ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд╕рд╛рде рдПрдХ рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИ [2, 3, 5, 2]ред рдореИрдВрдиреЗ рд╕реЛрдЪрд╛ рдерд╛ рдХрд┐ рд╡рд░реНрддрдорд╛рди OneHotEncoder рдореЗрдВ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ [0, 1, 2, 3, 4, 5] рд╣реЛрдВрдЧреА (рдЬрдмрдХрд┐ рд╡рд░реНрддрдорд╛рди CategoricalEncoder рдореЗрдВ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ [2, 3, 5] рд╣реЛрдВрдЧреА)ред рд▓реЗрдХрд┐рди рдЖрдк рд╕рд╣реА рд╣реИрдВ рдХрд┐ active_features_ рднреА рдХреЗрд╡рд▓ [2, 3, 5] рд╣реИ, рдЕрдирд┐рд╡рд╛рд░реНрдп рд░реВрдк рд╕реЗ рдЙрдиреНрд╣реЗрдВ n_values='auto' рдХреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдорд╛рди рдХреЗ рд╕рд╛рде рд╕рдорд╛рди рдмрдирд╛ рд░рд╣рд╛ рд╣реИред

рддреЛ рдпрд╣ рдХреЗрд╡рд▓ рд╡рд╣ рдорд╛рдорд▓рд╛ рд╣реИ рдЬрд╣рд╛рдВ рдЖрдк рдирд┐рд░реНрджрд┐рд╖реНрдЯ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП n_values (рдЬреИрд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд▓рд┐рдП n_values=6 = [0, 1, 2, 3, 4, 5] рдХреЗ рд▓рд┐рдП рдПрдХ рдкреВрд░реНрдгрд╛рдВрдХ рдкрд╛рд╕ рдХрд░рддреЗ рд╣реИрдВ) рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреА рд╕рдВрдЦреНрдпрд╛ рдЬреЛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдПрдХ рдПрдкреАрдЖрдИ рдкрд░рд┐рд╡рд░реНрддрди рд╣реЛрдЧреА (рдмрд╣рд┐рд╖реНрдХреГрдд / рд╣рдЯрд╛ рджреА рдЧрдИ)ред
рдФрд░ рд╡рд╣ categories=range(6) . рдХреЗ рд╕рд╛рде рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рдЖрд╕рд╛рдиреА рд╕реЗ рдмрджрд▓рд╛ рдЬрд╛ рд╕рдХреЗрдЧрд╛

рдЧрд▓рддрдлрд╣рдореА рдХреЗ рд▓рд┐рдП рдЦреЗрдж рд╣реИред
рдЙрд╕ рдкреНрд░рдХрд╛рд╢ рдореЗрдВ, рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рд╣рдореЗрдВ legacy_mode рд╡рд┐рдХрд▓реНрдк рдХреА рднреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИред рд╣рдо рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ n_values=6 рд╕реЗ categories=range(6) рдЕрдиреБрд╡рд╛рдж рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдФрд░ рдЗрд╕рдХреЗ рд▓рд┐рдП рдЪреЗрддрд╛рд╡рдиреА рджреЗ рд╕рдХрддреЗ рд╣реИрдВ (рд▓реЗрдХрд┐рди рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкрд░реАрдХреНрд╖рдгреЛрдВ рдХреЗ рд╕рд╛рде рдЗрд╕реЗ рдЬрд╛рдВрдЪрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ)ред

рдЕрдиреНрдп рдЕрдВрддрд░ рдЕрдирджреЗрдЦреА рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреА рд╣реИрдВрдбрд▓рд┐рдВрдЧ рд╣реИред OneHotEncoder рдХреЗ рд╡рд░реНрддрдорд╛рди рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рд╕рд╛рде, рдпрджрд┐ рдЕрдирджреЗрдЦреА рдорд╛рди рд╕реАрдорд╛ (0, рдЕрдзрд┐рдХрддрдо) рдХреЗ рднреАрддрд░ рд╣реИрдВ, рддреЛ рдпрд╣ handle_unknow='error' (рдбрд┐рдлрд╝реЙрд▓реНрдЯ) рд╣реЛрдиреЗ рдкрд░ рднреА рдХреЛрдИ рддреНрд░реБрдЯрд┐ рдирд╣реАрдВ рдЙрдард╛рдПрдЧрд╛ред рд▓реЗрдХрд┐рди рдпрд╣ рднреА рдЕрд▓рдЧ рд╕реЗ рд╣рд▓ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдРрд╕реЗ рдорд╛рдорд▓реЗ рдореЗрдВ рдПрдХ рдЪреЗрддрд╛рд╡рдиреА рдЙрдард╛рдХрд░ рдХрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЛ рдореМрдЬреВрджрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ handle_unknown='ignore' рд╕реЗрдЯ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдПред

рдПрдХрдорд╛рддреНрд░ рд╡рд┐рд╢реЗрд╖рддрд╛ рдЬреЛ рд╣рдо рдЦреЛ рджреЗрдВрдЧреЗ рд╡рд╣ рдЕрдЬреНрдЮрд╛рдд рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рдмреАрдЪ рдХрд╛ рдЕрдВрддрд░ рд╣реИ рдЬреЛ рд╕реАрдорд╛ (0, рдЕрдзрд┐рдХрддрдо) рдХреЗ рднреАрддрд░ рд╣реИрдВ (рд╡рд░реНрддрдорд╛рди OneHotEncoder рджреНрд╡рд╛рд░рд╛ 'рдЕрдЬреНрдЮрд╛рдд' рдирд╣реАрдВ рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ) рдФрд░ рдЬреЛ рдЗрд╕рд╕реЗ рдмрдбрд╝реЗ рд╣реИрдВ (> рдЕрдзрд┐рдХрддрдо, рдЬрд┐рдиреНрд╣реЗрдВ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдорд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ OneHotEncoder рджреНрд╡рд╛рд░рд╛ рдЕрдЬреНрдЮрд╛рдд рдХреЗ рд░реВрдк рдореЗрдВ)ред

рдирд╣реАрдВ, рдпрд╣ рдЙрд╕ рддрд░рд╣ рдХреА рдЪреАрдЬ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдордиреЗ рдкрд╣рд▓реЗ рднреА рдЖрдЬрдорд╛рдпрд╛ рд╣реИ рдФрд░ рдпрд╣ рднреА рд╣реИ
рдмрд╛рд░реАрдХред рдЬрдм рддрдХ рд╡рд░реНрддрдорд╛рди рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдХрд╛ рдХреЛрдИ рдЕрдЪреНрдЫрд╛ рдХрд╛рд░рдг рди рд╣реЛ, рд╣рдо
рд╣рдореЗрдВ рднрд╡рд┐рд╖реНрдп рдореЗрдВ рдзреАрд░реЗ-рдзреАрд░реЗ рд▓рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╕ рдПрдХ рд╡рд┐рд░рд╛рд╕рдд_рдореЛрдб рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред

рдирд╣реАрдВ, рдпрд╣ рдЗрд╕ рддрд░рд╣ рдХреА рдЪреАрдЬ рд╣реИ рдЬрд┐рд╕реЗ рд╣рдордиреЗ рдкрд╣рд▓реЗ рднреА рдЖрдЬрдорд╛рдпрд╛ рд╣реИ рдФрд░ рдпрд╣ рдмрд╣реБрдд рдмрд╛рд░реАрдХ рд╣реИред

рдХреНрдпрд╛ рдЖрдк рд╕реНрдкрд╖реНрдЯ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ "рдирд╣реАрдВ" рдХрд┐рд╕ рдкрд╣рд▓реВ рдХреЛ рд╕рдВрджрд░реНрднрд┐рдд рдХрд░рддрд╛ рд╣реИ?
рдЗрд╕ рддрдереНрдп рдХреЗ рд▓рд┐рдП рдХрд┐ рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ legacy_mode рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ?

рд╣рд╛рдБ, рдЗрд╕ рд╡рд┐рдЪрд╛рд░ рдХреЗ рд▓рд┐рдП рдХрд┐ рдЖрдк рдХреБрдЫ рдРрд╕рд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рджреЛрдиреЛрдВ рдкреАрдЫреЗ рдХреА рдУрд░ рд╣реЛ
рд╕рдВрдЧрдд рдФрд░ рд╣рдо рдЖрдЧреЗ рдХреНрдпрд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ

рд╣рд╛рдВ, рдЗрд╕ рд╡рд┐рдЪрд╛рд░ рдХреЗ рд▓рд┐рдП рдХрд┐ рдЖрдк рдХреБрдЫ рдРрд╕рд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рдкреАрдЫреЗ рдХреА рдУрд░ рд╕рдВрдЧрдд рд╣реЛ рдФрд░ рдЬрд┐рд╕реЗ рд╣рдо рдЖрдЧреЗ рдмрдврд╝рд╛рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ

рдореИрдВрдиреЗ рдпрд╣реА рд╕реБрдЭрд╛рд╡ рджреЗрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдирд╣реАрдВ рдХреА рдереАред рдореИрдВ рдпрд╣ рд╕реНрдкрд╖реНрдЯ рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛ рдХрд┐ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ legacy_mode рдХреАрд╡рд░реНрдб рдирд╣реАрдВ рд╣реЛрдирд╛ рд╕рдВрднрд╡ рд╣реИ, рди рдХрд┐ рдпрд╣ рдЬрд╛рджреБрдИ рд░реВрдк рд╕реЗ рдкреАрдЫреЗ рдХреА рдУрд░ рдФрд░ рднрд╡рд┐рд╖реНрдп рдореЗрдВ рд╣рдо рдХреНрдпрд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдмрд▓реНрдХрд┐ рдореМрдЬреВрджрд╛ рдХреАрд╡рд░реНрдб рдХреЗ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рд╣рдЯрд╛рдХрд░ред

рддреЛ рдареЛрд╕ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП: n_values рдПрдХ рдЧреИрд░-рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдорд╛рди рдмрд╣рд┐рд╖реНрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдЗрд╕реЗ categories рд╡рд┐рдирд┐рд░реНрджреЗрд╢ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдПред handle_unknow рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдореМрдЬреВрджрд╛ рдорд┐рд╢реНрд░рдг рдХреЗ рдмрдЬрд╛рдп рдкреВрд░реНрдг рдЕрдирджреЗрдЦреА рдпрд╛ рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ рдЪреБрдирдиреЗ рдХреЗ рд▓рд┐рдП рд╕реЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП (рдФрд░ рдЕрдиреНрдпрдерд╛ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдЙрдард╛рдИ рдЬрд╛рддреА рд╣реИ)ред

рддреЛ рдЕрдЧрд░ рдореИрдВ .fit([[5]]).transform([[4]]) рдХрд░рддрд╛ рд╣реВрдВ, рдЬрд┐рд╕рдХреЗ рд▓рд┐рдП n_values тАЛтАЛрдХреЗ рдорд╛рди,
рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдФрд░ рд╣реИрдВрдбрд▓_рдордЬреНрдЮрд╛рдд рдХреНрдпрд╛ рдХреЛрдИ рддреНрд░реБрдЯрд┐ рдЙрддреНрдкрдиреНрди рдХрд░реЗрдЧрд╛?

25 рдЬрдирд╡рд░реА 2018 рдХреЛ рд╕реБрдмрд╣ 9:32 рдмрдЬреЗ, "рдЬреЛрд░рд┐рд╕ рд╡реИрди рдбреЗрди рдмреЛрд╕реНрдЪреЗ" рд╕реВрдЪрдирд╛рдПрдВ @github.com
рд▓рд┐рдЦрд╛ рдерд╛:

рд╣рд╛рдБ, рдЗрд╕ рд╡рд┐рдЪрд╛рд░ рдХреЗ рд▓рд┐рдП рдХрд┐ рдЖрдк рдХреБрдЫ рдРрд╕рд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рджреЛрдиреЛрдВ рдкреАрдЫреЗ рдХреА рдУрд░ рд╣реЛ
рд╕рдВрдЧрдд рдФрд░ рд╣рдо рдЖрдЧреЗ рдХреНрдпрд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ

рдореИрдВрдиреЗ рдпрд╣реА рд╕реБрдЭрд╛рд╡ рджреЗрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдирд╣реАрдВ рдХреА рдереАред рдореИрдВ рд╕реНрдкрд╖реНрдЯ рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛ рдХрд┐ рдпрд╣ рд╕реЛрдЪреЗрдВ
рдПрдХ рд╡рд┐рд░рд╛рд╕рдд_рдореЛрдб рдХреАрд╡рд░реНрдб рдирд╣реАрдВ рд╣реЛрдирд╛ рд╕рдВрднрд╡ рд╣реИ, рди рдХрд┐ рдЗрд╕реЗ рдЬрд╛рджреБрдИ рд░реВрдк рд╕реЗ рд░рдЦрдиреЗ рд╕реЗ
рджреЛрдиреЛрдВ рдкреАрдЫреЗ рдХреА рдУрд░ рд╕рдВрдЧрдд рдФрд░ рднрд╡рд┐рд╖реНрдп рдореЗрдВ рд╣рдо рдХреНрдпрд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдкрджрд╛рд╡рдирдд рдХрд░рдХреЗ
рдореМрдЬреВрджрд╛ рдЦреЛрдЬрд╢рдмреНрджреЛрдВ рдХрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ред

рддреЛ рдареЛрд╕ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП: n_values тАЛтАЛтАЛтАЛрдХрд╛ рдПрдХ рдЧреИрд░-рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдорд╛рди рдмрд╣рд┐рд╖реНрдХреГрдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рдФрд░
рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд╡рд┐рдирд┐рд░реНрджреЗрд╢ рджреНрд╡рд╛рд░рд╛ рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рд╣реИред рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд
рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдХреЛ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рджреНрд╡рд╛рд░рд╛ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рдкреВрд░реНрдг рдЪреБрдирдиреЗ рдХреЗ рд▓рд┐рдП рд╕реЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП
рд╡рд░реНрддрдорд╛рди рдорд┐рд╢реНрд░рдг рдХреЗ рдмрдЬрд╛рдп рдЕрдирджреЗрдЦреА рдпрд╛ рдкреВрд░реНрдг рддреНрд░реБрдЯрд┐ (рдФрд░ рдЕрдиреНрдпрдерд╛ рдмрд╣рд┐рд╖реНрдХрд░рдг
рдЪреЗрддрд╛рд╡рдиреА рдЙрдард╛рдИ рдЧрдИ рд╣реИ)ред

-
рдЖрдк рдЗрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рдЖрдкрдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЗрд╕ рдИрдореЗрд▓ рдХрд╛ рд╕реАрдзреЗ рдЙрддреНрддрд░ рджреЗрдВ, рдЗрд╕реЗ GitHub рдкрд░ рджреЗрдЦреЗрдВ
https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment-360296569 ,
рдпрд╛ рдереНрд░реЗрдб рдХреЛ рдореНрдпреВрдЯ рдХрд░реЗрдВ
https://github.com/notifications/unsubscribe-auth/AAEz6-DrQWep22_gs-hg9cC0u19B1_PSks5tN6-HgaJpZM4RpUE8
.

рдХреНрдпрд╛ рд╣рдо рдЗрд╕реЗ рд╕рд┐рд░реНрдл рдЗрддрдирд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдмрд╣рд┐рд╖реНрдХрд░рдг рдХреЗ рджреМрд░рд╛рди, рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХреА рдЬрд╛рдиреА рдЪрд╛рд╣рд┐рдП
рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ, рдФрд░ рдЪреЗрддрд╛рд╡рдирд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рд▓реАрдЧреЗрд╕реА рдореЛрдб рдЕрдиреНрдпрдерд╛ рдкреНрд░рднрд╛рд╡реА рд╣реИ? рдХреНрдпрд╛ рд╡рд╣
рдЖрдк рдХреНрдпрд╛ рд╕реБрдЭрд╛рд╡ рджреЗ рд░рд╣реЗ рд╣реИрдВ?

рдХреНрдпрд╛ рд╣рдо рдЗрд╕реЗ рд╕рд┐рд░реНрдл рдЗрддрдирд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдмрд╣рд┐рд╖реНрдХрд░рдг рдХреЗ рджреМрд░рд╛рди, рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЛ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╕реЗрдЯ рдХрд┐рдпрд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП, рдФрд░ рдЪреЗрддрд╛рд╡рдирд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рд╡рд┐рд░рд╛рд╕рдд рдореЛрдб рдЕрдиреНрдпрдерд╛ рдкреНрд░рднрд╛рд╡реА рд╣реИ? рдХреНрдпрд╛ рдЖрдк рдпрд╣реА рд╕реБрдЭрд╛рд╡ рджреЗ рд░рд╣реЗ рд╣реИрдВ?

рд╣рд╛рдВ, рдпрд╣ рдЕрднреА рднреА рдЧрд╛рдпрдм рдорд╛рдорд▓рд╛ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рд╕рдВрднрд╡ рд╣реИ (рдЕрдЧрд▓реЗ рд╕рдкреНрддрд╛рд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдХреЛрдбрд┐рдВрдЧ рджреНрд╡рд╛рд░рд╛ рдЬрд╛рдВрдЪ рдХрд░реЗрдЧрд╛)ред

рд╡рд┐рднрд┐рдиреНрди 'рд╡рд┐рд░рд╛рд╕рдд' рдорд╛рдорд▓реЗ:

  • n_values тАЛтАЛ= 'рдСрдЯреЛ' (рдбрд┐рдлрд╝реЙрд▓реНрдЯ)

    • рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд = 'рдЕрдирджреЗрдЦрд╛ рдХрд░реЗрдВ' -> рдареАрдХ рд╣реИ, рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рдирд╣реАрдВ

    • рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд = 'рддреНрд░реБрдЯрд┐' -> рд╕рдорд╕реНрдпрд╛, рд╢реНрд░реЗрдгреА рдореЗрдВ рдорд╛рдиреЛрдВ рдХреЛ рдЕрднреА рднреА рдЕрдирджреЗрдЦрд╛ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рд╕реАрдорд╛ рд╕реЗ рдКрдкрд░ рдХреЗ рдорд╛рди рддреНрд░реБрдЯрд┐



      • рд╕рдВрднрд╛рд╡рд┐рдд рд╕реНрдерд┐рддрд┐:





        • рдлрд┐рдЯ рдореЗрдВ, рдпрджрд┐ рд╕реАрдорд╛ рд▓рдЧрд╛рддрд╛рд░ => рдареАрдХ рд╣реИ, рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рдирд╣реАрдВ рд╣реИ (рдЙрди рд╕рднреА рд▓реЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рдЬреЛ рдЕрдм рдЗрд╕рдХреЗ рд╕рд╛рде рд▓реЗрдмрд▓рдПрдирдХреЛрдбрд░ рдХреЛ рдЬреЛрдбрд╝рддреЗ рд╣реИрдВ, рдЬреЛ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдЙрдкрдпреЛрдЧ рдорд╛рдорд▓рд╛ рд╣реИ рдЬреЛ рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ)



        • рдпрджрд┐ рдРрд╕рд╛ рдирд╣реАрдВ рд╣реИ: рдкрджрд╛рд╡рдирддрд┐ рдЪреЗрддрд╛рд╡рдиреА рдмрдврд╝рд╛рдПрдВ рдХрд┐ рдЙрдиреНрд╣реЗрдВ рдЗрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреА рд╣реЛрдВрдЧреА (рдФрд░ рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ рд╡рд┐рд░рд╛рд╕рдд рдореЛрдб рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ)






  • n_values=value

    • рдЗрд╕рдХрд╛ рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ = [рд╢реНрд░реЗрдгреА (рдорд╛рди)] рдореЗрдВ рдЕрдиреБрд╡рд╛рдж рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдФрд░ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдмрдврд╝рд╛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЛ рднрд╡рд┐рд╖реНрдп рдореЗрдВ рд╕реНрд╡рдпрдВ рдРрд╕рд╛ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдП

    • рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ handle_unknown='error' / 'ignore' рдЙрдореНрдореАрдж рдХреЗ

n_values='auto' рдорд╛рдорд▓реЗ рдореЗрдВ рдореВрд▓реНрдпрд╣реНрд░рд╛рд╕ рдЪреЗрддрд╛рд╡рдиреА рдХреЗрд╡рд▓ fit рдореЗрдВ рдмрдврд╝рд╛рдИ рдЬрд╛рдПрдЧреА рдФрд░ рдирд┐рд░реНрдорд╛рдг рдкрд░ рдирд╣реАрдВ (рдЬреЛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдЖрджрд░реНрд╢ рдирд╣реАрдВ рд╣реИ), рд▓реЗрдХрд┐рди рдпрд╣ рдХреЗрд╡рд▓ рдлрд┐рдЯ рд╣реИ рдХрд┐ рд╣рдо рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЗрд╕реЗ рдкрд╛рд╕ рдХрд░ рд░рд╣рд╛ рд╣реИ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рдФрд░ рд╕реНрдЯреНрд░рд┐рдВрдЧ рдбреЗрдЯрд╛ рдирд╣реАрдВред

рд╣рдо рдЖрдорддреМрд░ рдкрд░ рдХрд┐рд╕реА рднреА рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдлрд┐рдЯ рд╣реЛрдиреЗ рддрдХ рдЪреЗрддрд╛рд╡рдиреА рдирд╣реАрдВ рджреЗрддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рдЪрд┐рдВрддрд╛ рди рдХрд░реЗрдВ
рд╡рд╣ред

рд╡рд╣ рд░рдгрдиреАрддрд┐ рдЬреНрдпрд╛рджрд╛рддрд░ рдЕрдЪреНрдЫреА рд▓рдЧрддреА рд╣реИред

рдореБрдЭреЗ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдпрдХреАрди рдирд╣реАрдВ рд╣реИ рдХрд┐ рд╣рдореЗрдВ рдбреЗрдЯрд╛ рдореЗрдВ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдХреЗ рд▓рд┐рдП рд╕реВрдБрдШрдирд╛ рдЪрд╛рд╣рд┐рдП,
рд╣рд╛рд▓рд╛рдВрдХрд┐ред рдЖрдк рдореВрд▓ рд░реВрдк рд╕реЗ рдЗрд╕реЗ рдЪрд╛рд╣рддреЗ рд╣реИрдВ: рдпрджрд┐ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд╣реИрдВ рддреЛ рд▓реАрдЧреЗрд╕реА рдореЛрдб рд╕рдХреНрд░рд┐рдп рд╣реИ
рд╕реЗрдЯ рдирд╣реАрдВ рд╣реИ рдФрд░ рдпрджрд┐ рдбреЗрдЯрд╛ рд╕рднреА рдкреВрд░реНрдгрд╛рдВрдХ рд╣реИ?

рдПрдХ рдкреНрд░рд╢реНрди: рдпрджрд┐ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдФрд░ n_values тАЛтАЛрдкреИрд░рд╛рдореАрдЯрд░ рдЙрдирдХреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд╣реИрдВ, рддреЛ рдХрд░реЗрдВ
рд╣рдо рд╢реНрд░реЗрдгрд┐рдпрд╛рдБ_ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░рддреЗ рд╣реИрдВ? рдпрджрд┐ n_values тАЛтАЛрд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╕реЗрдЯ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рддреЛ рдХреНрдпрд╛ рд╣рдо рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░рддреЗ рд╣реИрдВ
рд╢реНрд░реЗрдгрд┐рдпрд╛рдБ_?

29 рдЬрдирд╡рд░реА 2018 рдХреЛ рд╕реБрдмрд╣ 10:00 рдмрдЬреЗ, "рдЬреЛрд░рд┐рд╕ рд╡реИрди рдбреЗрди рдмреЛрд╕реНрдЪреЗ" рдиреЛрдЯрд┐рдлрд┐рдХреЗрд╢рди @github.com
рд▓рд┐рдЦрд╛ рдерд╛:

рдХреНрдпрд╛ рд╣рдо рдЗрд╕реЗ рд╕рд┐рд░реНрдл рдЗрддрдирд╛ рдмрдирд╛ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдмрд╣рд┐рд╖реНрдХрд░рдг рдХреЗ рджреМрд░рд╛рди, рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХреА рдЬрд╛рдиреА рдЪрд╛рд╣рд┐рдП
рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ, рдФрд░ рдЪреЗрддрд╛рд╡рдирд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рд▓реАрдЧреЗрд╕реА рдореЛрдб рдЕрдиреНрдпрдерд╛ рдкреНрд░рднрд╛рд╡реА рд╣реИ? рдХреНрдпрд╛ рд╡рд╣
рдЖрдк рдХреНрдпрд╛ рд╕реБрдЭрд╛рд╡ рджреЗ рд░рд╣реЗ рд╣реИрдВ?

рд╣рд╛рдБ, рдпрд╣ рдЕрднреА рднреА рд▓рд╛рдкрддрд╛ рдорд╛рдорд▓рд╛ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рд╕рдВрднрд╡ рд╣реИ (рд╣реЛрдЧрд╛ .)
рдЗрд╕реЗ рдЕрдЧрд▓реЗ рд╕рдкреНрддрд╛рд╣ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдХреЛрдбрд┐рдВрдЧ рджреНрд╡рд╛рд░рд╛ рдЬрд╛рдВрдЪреЗрдВ)ред

рд╡рд┐рднрд┐рдиреНрди 'рд╡рд┐рд░рд╛рд╕рдд' рдорд╛рдорд▓реЗ:

  • n_values тАЛтАЛ= 'рдСрдЯреЛ' (рдбрд┐рдлрд╝реЙрд▓реНрдЯ)

    • рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд = 'рдЕрдирджреЗрдЦрд╛ рдХрд░реЗрдВ' -> рдареАрдХ рд╣реИ, рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рдирд╣реАрдВ

    • рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд = 'рддреНрд░реБрдЯрд┐' -> рд╕рдорд╕реНрдпрд╛, рд╕реАрдорд╛ рдореЗрдВ рдорд╛рди рдЕрднреА рднреА рд╣реИрдВ

      рдкрд░ рдзреНрдпрд╛рди рдирд╣реАрдВ рджрд┐рдпрд╛ рдЧрдпрд╛, рд╕реАрдорд╛ рд╕реЗ рдКрдкрд░ рдХреЗ рдорд╛рди рддреНрд░реБрдЯрд┐



      • рд╕рдВрднрд╛рд╡рд┐рдд рд╕реНрдерд┐рддрд┐:





        • рдлрд┐рдЯ рдореЗрдВ, рдпрджрд┐ рд╕реАрдорд╛ рд▓рдЧрд╛рддрд╛рд░ рд╣реИ => рдареАрдХ рд╣реИ, рдЗрд╕рдореЗрдВ рдХреЛрдИ рдмрджрд▓рд╛рд╡ рдирд╣реАрдВ рд╣реИ



          рд╡реНрдпрд╡рд╣рд╛рд░ (рдЙрди рд╕рднреА рд▓реЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рдЬреЛ рдЕрдм рдЗрд╕рдХреЗ рд╕рд╛рде LabelEncoder рдХреЛ рдорд┐рд▓рд╛рддреЗ рд╣реИрдВ, рдЬреЛ рд╣реИ



          рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдЙрдкрдпреЛрдЧ рдорд╛рдорд▓рд╛)



        • рдпрджрд┐ рдРрд╕рд╛ рдирд╣реАрдВ рд╣реИ: рдкрджрд╛рд╡рдирдд рдЪреЗрддрд╛рд╡рдиреА рдмрдврд╝рд╛рдПрдБ рдХрд┐



          рдЙрдиреНрд╣реЗрдВ рдЗрд╕ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдмрдирд╛рдП рд░рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдирд┐рд░реНрдзрд╛рд░рд┐рдд рдХрд░рдиреА рд╣реЛрдВрдЧреА (рдФрд░



          рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ рд▓реАрдЧреЗрд╕реА рдореЛрдб рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ)





      • n_values=value



    • рдЗрд╕рдХрд╛ рдЖрдВрддрд░рд┐рдХ рд░реВрдк рд╕реЗ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ = [рд╢реНрд░реЗрдгреА (рдорд╛рди)] рдореЗрдВ рдЕрдиреБрд╡рд╛рдж рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ,

      рдФрд░ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдмрдврд╝рд╛рдПрдВ рдХрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЛ рд╕реНрд╡рдпрдВ рдРрд╕рд╛ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдП

      рднрд╡рд┐рд╖реНрдп

    • рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд = 'рддреНрд░реБрдЯрд┐' / 'рдЕрдирджреЗрдЦрд╛' рдЕрдкреЗрдХреНрд╖рд╛ рдХреЗ рдЕрдиреБрд░реВрдк рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ

n_values='auto' рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рдореВрд▓реНрдпрд╣реНрд░рд╛рд╕ рдЪреЗрддрд╛рд╡рдиреА рдХреЗрд╡рд▓ рдореЗрдВ рдмрдврд╝рд╛рдИ рдЬрд╛рдПрдЧреА
рдлрд┐рдЯ рдФрд░ рдирд┐рд░реНрдорд╛рдг рдкрд░ рдирд╣реАрдВ (рдЬреЛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдЖрджрд░реНрд╢ рдирд╣реАрдВ рд╣реИ), рд▓реЗрдХрд┐рди рдпрд╣ рдХреЗрд╡рд▓ рд╣реИ
рдлрд┐рдЯ рдореЗрдВ рд╣рдо рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЗрд╕реЗ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдбреЗрдЯрд╛ рдкрд╛рд╕ рдХрд░ рд░рд╣рд╛ рд╣реИ, рди рдХрд┐ рд╕реНрдЯреНрд░рд┐рдВрдЧ
рдЖрдВрдХрдбрд╝реЗред

-
рдЖрдк рдЗрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рдЖрдкрдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЗрд╕ рдИрдореЗрд▓ рдХрд╛ рд╕реАрдзреЗ рдЙрддреНрддрд░ рджреЗрдВ, рдЗрд╕реЗ GitHub рдкрд░ рджреЗрдЦреЗрдВ
https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment-361104495 ,
рдпрд╛ рдереНрд░реЗрдб рдХреЛ рдореНрдпреВрдЯ рдХрд░реЗрдВ
https://github.com/notifications/unsubscribe-auth/AAEz6x8xnyZXBLij-DCC45JyYNf8pA5kks5tPPwXgaJpZM4RpUE8
.

рдЖрдк рдореВрд▓ рд░реВрдк рд╕реЗ рдЗрд╕реЗ рдЪрд╛рд╣рддреЗ рд╣реИрдВ: рдпрджрд┐ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд╕реЗрдЯ рдирд╣реАрдВ рд╣реИрдВ рдФрд░ рдбреЗрдЯрд╛ рд╕рднреА рдкреВрд░реНрдгрд╛рдВрдХ рд╣реИрдВ рддреЛ рд╡рд┐рд░рд╛рд╕рдд рдореЛрдб рд╕рдХреНрд░рд┐рдп рд╣реИ?

рд╣рд╛рдБ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ (рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдпрд╣ рдХрдореЛрдмреЗрд╢ рд╡рд╣реА рд╣реЛрдЧрд╛)

рдПрдХ рдкреНрд░рд╢реНрди: рдпрджрд┐ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдФрд░ n_values тАЛтАЛтАЛтАЛрдкреИрд░рд╛рдореАрдЯрд░ рдЙрдирдХреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рд╣реИрдВ, рддреЛ рдХреНрдпрд╛ рд╣рдо рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ_ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░рддреЗ рд╣реИрдВ? рдпрджрд┐ n_values тАЛтАЛрд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╕реЗрдЯ рд╣реИ, рддреЛ рдХреНрдпрд╛ рд╣рдо рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ_ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХрд░рддреЗ рд╣реИрдВ?

рдореИрдВ рд╡реНрдпрдХреНрддрд┐рдЧрдд рд░реВрдк рд╕реЗ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдпрдерд╛рд╕рдВрднрд╡ рдирдП рдЗрдВрдЯрд░рдлрд╝реЗрд╕ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдПрдБ рдкреНрд░рджрд╛рди рдХрд░реВрдБрдЧрд╛, рдпрд╣рд╛рдБ рддрдХ рдХрд┐ рд▓реАрдЧреЗрд╕реА рдореЛрдб рдореЗрдВ рднреАред рддреЛ рджреЛрдиреЛрдВ рд╣реА рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдореИрдВ categories_ рдЧрдгрдирд╛ рдХрд░реВрдВрдЧрд╛ (рднрд▓реЗ рд╣реА рдпрд╣ рдереЛрдбрд╝рд╛ рдФрд░ рдХрд╛рдо рд╣реЛ)


рдЗрд╕рд▓рд┐рдП рдореИрдВрдиреЗ рдЙрдкрд░реЛрдХреНрдд рддрд░реНрдХ рдХреЛ рдХреЛрдб рдореЗрдВ рдбрд╛рд▓рдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХреА (рдкреАрдЖрд░ рдореЗрдВ рдХреБрдЫ рдЕрдкрдбреЗрдЯ рдХреЛ рдЖрдЧреЗ рдмрдврд╝рд╛рдпрд╛ рдЬрд╛рдПрдЧрд╛), рдФрд░ рдореЗрд░реЗ рдкрд╛рд╕ рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдХреЗ рдорд╛рдорд▓реЗ рдореЗрдВ рдПрдХ рдФрд░ рд╕рд╡рд╛рд▓ рд╣реИ рдЬрдм n_values рдпрд╛ categories рд╕реЗрдЯ рдирд╣реАрдВ рд╣реИ ( 'legacy_mode' рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢рд┐рд╖реНрдЯ рдорд╛рдорд▓рд╛)ред рд╕рдорд╕реНрдпрд╛ рдЗрд╕ рддрдереНрдп рдореЗрдВ рдирд┐рд╣рд┐рдд рд╣реИ рдХрд┐ рдпрджрд┐ рдЕрдиреБрдорд╛рдирд┐рдд рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рдХреЗрд╡рд▓ рдПрдХ рд▓рдЧрд╛рддрд╛рд░ рд╢реНрд░реЗрдгреА (0, 1, 2, 3, ... рдЕрдзрд┐рдХрддрдо) рд╣реИрдВ, рддреЛ рдирдП рдФрд░ рдкреБрд░рд╛рдиреЗ (рд╡рд┐рд░рд╛рд╕рдд) рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рдмреАрдЪ рдХреЛрдИ рдЕрдВрддрд░ рдирд╣реАрдВ рд╣реИ, рдФрд░ рд╣рдо рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВ рдЖрд╡рд╢реНрдпрдХ рд░реВрдк рд╕реЗ рдПрдХ рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдмрдврд╝рд╛рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред
рдЗрд╕ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдорд╛рдорд▓реЗ рдореЗрдВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдХреБрдЫ рд╕рдВрднрд╛рд╡рдирд╛рдПрдВ:

1) рдЗрд╕ рдорд╛рдорд▓реЗ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдПрдВ (рдХрд┐ рдЕрдиреБрдорд╛рдирд┐рдд рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд▓рдЧрд╛рддрд╛рд░ рд╢реНрд░реЗрдгреА рд╣реИрдВ), рдФрд░ рдЙрд╕ рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдХреЛрдИ рдЪреЗрддрд╛рд╡рдиреА рди рджреЗрдВред
- рдпрд╣ рдкрддрд╛ рд▓рдЧрд╛рдирд╛ рд╕рдВрднрд╡ рд╣реИ (рдереЛрдбрд╝реА рдЕрддрд┐рд░рд┐рдХреНрдд рдХреЛрдб рдЬрдЯрд┐рд▓рддрд╛ рдХреЗ рд╕рд╛рде) рдХреНрдпреЛрдВрдХрд┐ рд╣рдо рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдХрд┐рд╕реА рднреА рддрд░рд╣ рдлрд┐рдЯ рд╣реИрдВ
- рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдХреЗ рд╕рд╛рде OneHotEncoder рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╕рдордп рдпрд╣ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдорд╛рдорд▓рд╛ рд╣реЛрдЧрд╛, рдФрд░ рдПрдХ рдРрд╕рд╛ рдорд╛рдорд▓рд╛ рдЬрд╣рд╛рдВ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдХреЛ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рд╣рдорд╛рд░реЗ рд░рд┐рдлреИрдХреНрдЯрд░рд┐рдВрдЧ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЪрд┐рдВрддрд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдЙрд╕реЗ рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рд╕рд╛рде рдкрд░реЗрд╢рд╛рди рди рдХрд░рдирд╛ рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛
2) рд╣рдореЗрд╢рд╛ рдПрдХ рдЪреЗрддрд╛рд╡рдиреА рджреЗрдВ, рдФрд░ рдЪреЗрддрд╛рд╡рдиреА рд╕рдВрджреЗрд╢ рдореЗрдВ рдЗрдВрдЧрд┐рдд рдХрд░реЗрдВ рдХрд┐ рдпрджрд┐ рдЖрдк рдРрд╕реЗ рдорд╛рдорд▓реЗ рдореЗрдВ рд╣реИрдВ рддреЛ рдХреНрдпрд╛ рдХрд░рдирд╛ рд╣реИ (рдПрдХ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдпрджрд┐ рдЖрдкрдХреЗ рдкрд╛рд╕ рд▓рдЧрд╛рддрд╛рд░ рд╕реАрдорд╛ рдирд╣реАрдВ рд╣реИ рддреЛ рдХреНрдпрд╛ рдХрд░реЗрдВ):
- рдЕрдЧрд░ рд╡реЗ рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдЙрдирдХреЗ рдкрд╛рд╕ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рдХреЗрд╡рд▓ рд▓рдЧрд╛рддрд╛рд░ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд╣реИрдВ, рддреЛ рд╡реЗ рдЪреЗрддрд╛рд╡рдиреА рдХреЛ рдЕрдирджреЗрдЦрд╛ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рд╣рдо рдЪреЗрддрд╛рд╡рдиреА рд╕рдВрджреЗрд╢ рдореЗрдВ рдПрдХ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпрд╣ рдХреИрд╕реЗ рдХрд░рдирд╛ рд╣реИ (рдлрд╝рд┐рд▓реНрдЯрд░ рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рд╕рд╛рде рдПрдХ рдХреЛрдб рдирдореВрдирд╛ рдЬреЛрдбрд╝реЗрдВ рдЬрд┐рд╕реЗ рд╡реЗ рдкреЗрд╕реНрдЯ рдХреЙрдкреА рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ)
- рдЗрд╕рдХрд╛ рдПрдХ рд╕рдВрднрд╛рд╡рд┐рдд рд▓рд╛рдн рдпрд╣ рд╣реИ рдХрд┐ рд╣рдо рдЪреЗрддрд╛рд╡рдиреА рд╕рдВрджреЗрд╢ рдореЗрдВ рдпрд╣ рднреА рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпрджрд┐ рдЙрдиреНрд╣реЛрдВрдиреЗ рдкреВрд░реНрдгрд╛рдВрдХ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рд▓реЗрдмрд▓рдПрдирдХреЛрдбрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рд╣реИ, рддреЛ рд╡реЗ рдЕрдм рд╕реАрдзреЗ OneHotEncoder рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ (рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдпрд╣ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЙрдкрдпреЛрдЧ рдкреИрдЯрд░реНрди рд╣реИ)ред рдЗрд╕ рддрд░рд╣, рдЪреЗрддрд╛рд╡рдиреА рднреА рдЪрд▓реА рдЬрд╛рдПрдЧреА
3) рд╣рдореЗрд╢рд╛ рдПрдХ рдЪреЗрддрд╛рд╡рдиреА рджреЗрдВ рд▓реЗрдХрд┐рди рдЙрд╕реЗ рд╢рд╛рдВрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХреАрд╡рд░реНрдб рдкреНрд░рджрд╛рди рдХрд░реЗрдВ (рдЬреИрд╕реЗ legacy_mode=False )
- рдЕрдЧрд░ рд╣рдореЗрдВ filterwarnings рд╕реНрдЯреЗрдЯрдореЗрдВрдЯ (рдКрдкрд░ рдмрд┐рдВрджреБ 2 рджреЗрдЦреЗрдВ) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рд╕рд▓рд╛рд╣ рдмрд╣реБрдд рдмреЛрдЭрд┐рд▓ рд▓рдЧрддреА рд╣реИ, рддреЛ рд╣рдо рд╡рд╣реА рдкрд░рд┐рдгрд╛рдо рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдПрдХ рдХреАрд╡рд░реНрдб рднреА рдЬреЛрдбрд╝ рд╕рдХрддреЗ рд╣реИрдВ
- рдЗрд╕рдХрд╛ рдиреБрдХрд╕рд╛рди рдПрдХ рдРрд╕реЗ рдХреАрд╡рд░реНрдб рдХреЛ рдкреЗрд╢ рдХрд░ рд░рд╣рд╛ рд╣реИ рдЬрд┐рд╕рдХреА рдЕрдм рдХреБрдЫ рд░рд┐рд▓реАрдЬ рдореЗрдВ рдЬрд░реВрд░рдд рдирд╣реАрдВ рд╣реЛрдЧреА рдЬрдм рдмрд╣рд┐рд╖реНрдХрд░рдг рд╕рд╛рдл рд╣реЛ рдЬрд╛рдПрдВрдЧреЗред

рдореИрдВ рд╡реНрдпрдХреНрддрд┐рдЧрдд рд░реВрдк рд╕реЗ рд╡рд┐рдХрд▓реНрдк 1 рдпрд╛ 2 рдХреЗ рдкрдХреНрд╖ рдореЗрдВ рд╣реВрдВред OneHotEncoder рд╕реЗ рдкрд╣рд▓реЗ рд▓реЗрдмрд▓рдПрдирдХреЛрдбрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдкреИрдЯрд░реНрди (рддреНрд╡рд░рд┐рдд рдЬреАрдердм рдЦреЛрдЬ рд╕реЗ) рдкреНрд░рддреАрдд рд╣реЛрддрд╛ рд╣реИ, рдФрд░ рдЙрди рдорд╛рдорд▓реЛрдВ рдореЗрдВ рдЖрдкрдХреЗ рдкрд╛рд╕ рд╣рдореЗрд╢рд╛ рд▓рдЧрд╛рддрд╛рд░ рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд╣реЛрддреА рд╣реИрдВ, рдФрд░ рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдХрднреА рднреА рдмрджрд▓рд╛рд╡ рдирд╣реАрдВ рд╣реЛрдЧрд╛ рдирдпрд╛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди, рдЗрд╕рд▓рд┐рдП рд╣рдореЗрдВ рдЗрд╕рдХреЗ рд▓рд┐рдП рдЪреЗрддрд╛рд╡рдиреА рдирд╣реАрдВ рджреЗрдиреА рдЪрд╛рд╣рд┐рдПред рджреВрд╕рд░реА рдУрд░, рдпрджрд┐ рд╣рдо рдЪреЗрддрд╛рд╡рдиреА рджреЗрддреЗ рд╣реИрдВ рддреЛ рд╣рдо рдЙрдиреНрд╣реЗрдВ рдЗрд╕ рддрдереНрдп рдХреА рдУрд░ рд╕рдВрдХреЗрдд рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдХрд┐ рдпрджрд┐ рд╡реЗ рд▓реЗрдмрд▓рдПрдирдХреЛрдбрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдЙрдиреНрд╣реЗрдВ рдЕрдм рдРрд╕рд╛ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рдирд╣реАрдВ рд╣реИред рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдпрд╣ рд╕рд▓рд╛рд╣ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рджреЗрдирд╛ рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛ред
рд╕рд╡рд╛рд▓ рдпрд╣ рд╣реИ рдХрд┐ рдкрд┐рдЫрд▓реЗ рдЪрд░рдг рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрдмрд▓рдПрдирдХреЛрдбрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдП рдмрд┐рдирд╛ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЗ рдкрд╛рд╕ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд░реВрдк рдореЗрдВ рдРрд╕реЗ рд▓рдЧрд╛рддрд╛рд░ рдкреВрд░реНрдгрд╛рдВрдХ рдХрд┐рддрдиреА рдмрд╛рд░ рд╣реЛрддреЗ рд╣реИрдВ ..

рд╣рдореНрдо, рдПрдХ рдорд╛рдорд▓рд╛ рдореИрдВ рднреВрд▓ рдЧрдпрд╛ рдЬрдм рдЖрдкрдХреЗ рдкрд╛рд╕ рдкреВрд░реНрдгрд╛рдВрдХ рдЕрдиреБрдорд╛рдирд┐рдд рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ рд╣реИрдВ рдЬреЛ рд▓рдЧрд╛рддрд╛рд░ рдирд╣реАрдВ рд╣реИрдВ (рдорд╛рди рд▓реЗрдВ [1,3,5]), рд▓реЗрдХрд┐рди рдЖрдк рдирдпрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдЪрд╛рд╣рддреЗ рд╣реИрдВ рди рдХрд┐ рд╡рд┐рд░рд╛рд╕рдд рд╡реНрдпрд╡рд╣рд╛рд░ (рдЗрд╕рд▓рд┐рдП рдЙрд╕ рд╕реНрдерд┐рддрд┐ рдореЗрдВ рдЖрдк рдХреЗрд╡рд▓ рдЪреЗрддрд╛рд╡рдиреА рдХреЛ рдЕрдирджреЗрдЦрд╛ рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ) , рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рдкрд░рд┐рд╡рд░реНрддрди рдЪрд░рдг рдореЗрдВ рдЕрджреГрд╢реНрдп рдорд╛рдиреЛрдВ рдХреЛ рдЕрд▓рдЧ рддрд░рд╣ рд╕реЗ рд╕рдВрднрд╛рд▓реЗрдЧрд╛, рдЕрд░реНрдерд╛рдд рд╕реАрдорд╛ рдХреЗ рдмреАрдЪ рдХреЗ рдорд╛рди (рдЬреИрд╕реЗ 2) рдХреЛрдИ рддреНрд░реБрдЯрд┐ рдирд╣реАрдВ рдкреИрджрд╛ рдХрд░реЗрдВрдЧреЗ)ред
рдпрджрд┐ рд╣рдо legacy_mode=False рдХреАрд╡рд░реНрдб рдкреНрд░рджрд╛рди рдирд╣реАрдВ рдХрд░рддреЗ рд╣реИрдВ, рддреЛ рдирдпрд╛ рд╡реНрдпрд╡рд╣рд╛рд░ рдкреНрд░рд╛рдкреНрдд рдХрд░рдиреЗ рдХрд╛ рдПрдХрдорд╛рддреНрд░ рддрд░реАрдХрд╛ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ categories=[1,3,5] , рдЬреЛ рдереЛрдбрд╝реА рдЕрд╕реБрд╡рд┐рдзрд╛ рд╣реЛ рд╕рдХрддреА рд╣реИред рдпрд╣ рд╡рд┐рдХрд▓реНрдк 3 рдХрд╛ рдкрдХреНрд╖ рд▓реЗрдиреЗ рдХрд╛ рдПрдХ рдХрд╛рд░рдг рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдФрд░ рдЕрд╕реНрдерд╛рдпреА рдХреАрд╡рд░реНрдб legacy_mode=False рдХреЛ рдкреЗрд╢ рдХрд░рдиреЗ рдкрд░ рдореЗрд░реА рдЖрдкрддреНрддрд┐ рдХреЛ рдЫреЛрдбрд╝ рд╕рдХрддрд╛ рд╣реИ (рд▓реЗрдХрд┐рди рдпрд╣ рднреА рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдирд╣реАрдВ рд╣реИ рдХрд┐ рдпрд╣ рдЗрд╕рдХреЗ рд▓рд╛рдпрдХ рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ рдпрд╣ рдПрдХрдорд╛рддреНрд░ рдорд╛рдорд▓рд╛ рд╣реЛрдЧрд╛ * рдЬрд╣рд╛рдВ рдРрд╕рд╛ рдХреАрд╡рд░реНрдб рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рд╣реИ рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ)

* рдпрд╣ рдПрдХрдорд╛рддреНрд░ рдорд╛рдорд▓рд╛ = рдЕрдиреБрдорд╛рдирд┐рдд рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рд╕рд╛рде рдкреВрд░реНрдгрд╛рдВрдХ рдбреЗрдЯрд╛ рдЬреЛ рд▓рдЧрд╛рддрд╛рд░ рд╕реАрдорд╛ рдирд╣реАрдВ рд╣реИрдВ, рдФрд░ рдЬрд╣рд╛рдВ рдЖрдк рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЛ рдореИрдиреНрдпреБрдЕрд▓ рд░реВрдк рд╕реЗ рд╕реЗрдЯ рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ рдпрд╛ рдЕрдирджреЗрдЦрд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рд╣реИрдВрдбрд▓_рдЕрдЬреНрдЮрд╛рдд рд╕реЗрдЯ рдирд╣реАрдВ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВред

рд╕рднреА рд▓рдВрдмреЗ рдкрд╛рда рдХреЗ рд▓рд┐рдП рдЦреЗрдж рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рдХрд╛рдлреА рдЬрдЯрд┐рд▓ рд╣реИ :)

рд╣рдо рдХреЗрд╡рд▓ рдЙрд╕ рдорд╛рдорд▓реЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдЬрд╣рд╛рдВ n_values тАЛтАЛрд╕реЗрдЯ рдирд╣реАрдВ рд╣реИ, рд╣реИ рдирд╛?

рдореИрдВ 1 рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реВрдВ, рдФрд░ рдпрд╣ рдФрд░ рдЕрдзрд┐рдХ рдорд╣рдВрдЧрд╛ рдирд╣реАрдВ рд╣реЛрдЧрд╛, рдХреНрдпреЛрдВрдХрд┐ рдСрдЯреЛ
рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рд▓реЗрдмрд▓ рдХреЗ рд╕реЗрдЯ рдХреА рдЬрд╛рдВрдЪ рдХрд░рдиреЗ рдХреА рдЬрд░реВрд░рдд рд╣реИред рдореИрдВ рднреА рд╕реНрд╡реАрдХрд╛рд░ рдХрд░ рд╕рдХрддрд╛ рдерд╛, рдХреНрдпреЛрдВрдХрд┐
рд╕рд░рд▓рддрд╛, 3 рдХрд╛ рдПрдХ рдкреНрд░рдХрд╛рд░ рдЬреЛ рдХреЗрд╡рд▓ "рд╡рдирд╣реЙрдЯрдПрдирдХреЛрдбрд░ рд╡рд┐рд░рд╛рд╕рдд рдореЗрдВ рдЪрд▓ рд░рд╣рд╛ рдерд╛
рддрд░реАрдХрд╛ред рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЛ рд╕реЗрдЯ рдХрд░реЗрдВ = 'рдСрдЯреЛ' рдереЛрдбрд╝рд╛ рдЕрд▓рдЧ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рд▓рд┐рдП рдмрд┐рдирд╛ a
рдЪреЗрддрд╛рд╡рдиреАред"

рд╣рдо рдХреЗрд╡рд▓ рдЙрд╕ рдорд╛рдорд▓реЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╛рдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдЬрд╣рд╛рдВ n_values тАЛтАЛрд╕реЗрдЯ рдирд╣реАрдВ рд╣реИ, рд╣реИ рдирд╛?

рд╣рд╛рдВ (рджреВрд╕рд░реЗ рдорд╛рдорд▓реЗ рдХрд╛ рдЖрд╕рд╛рдиреА рд╕реЗ рдЗрд╕рдХреЗ рд╕рдордХрдХреНрд╖ categories рдореВрд▓реНрдп рдореЗрдВ рдЕрдиреБрд╡рд╛рдж рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рдПрдХ рдЕрдЪреНрдЫреА рдмрд╣рд┐рд╖реНрдХрд░рдг рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рд╕рд╛рде, рдФрд░ рдирдП рдФрд░ рд╡рд┐рд░рд╛рд╕рдд рд╡реНрдпрд╡рд╣рд╛рд░ рдореЗрдВ рдЕрд▓рдЧ рдХреЗ рдмрд┐рдирд╛)

3 рдХрд╛ рдПрдХ рдкреНрд░рдХрд╛рд░, рд╡рд╣ рдерд╛ "рд╡рдирд╣реЙрдЯрдПрдирдХреЛрдбрд░ рд▓реАрдЧреЗрд╕реА рдореЛрдб рдореЗрдВ рдЪрд▓ рд░рд╣рд╛ рд╣реИред рдмрд┐рдирд╛ рдХрд┐рд╕реА рдЪреЗрддрд╛рд╡рдиреА рдХреЗ рдереЛрдбрд╝рд╛ рдЕрд▓рдЧ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЗ рд▓рд┐рдП рд╢реНрд░реЗрдгрд┐рдпрд╛рдВ = 'рдСрдЯреЛ' рд╕реЗрдЯ рдХрд░реЗрдВред"

рдЖрд╣, рдпрд╣ рдПрдХ рдЕрдЪреНрдЫрд╛ рд╡рд┐рдЪрд╛рд░ рд▓рдЧрддрд╛ рд╣реИ! (рдЪрд╛рд╣реЗ рд▓рдЧрд╛рддрд╛рд░ рд╢реНрд░реЗрдгрд┐рдпреЛрдВ рдХреЗ рдорд╛рдорд▓реЗ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛ рдЬрд╛рдП рдпрд╛ рдирд╣реАрдВ)ред рдЗрд╕рд▓рд┐рдП рд╣рдо рдХреЛрдб рдореЗрдВ categories рдХреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдХреЛ рдХреЛрдИ рдирд╣реАрдВ (рдЗрд╕рдХреЗ рдбрд┐рдлрд╝реЙрд▓реНрдЯ рдХреЗ рд╢рдмреНрджрд╛рд░реНрде рдХреЛ рдмрджрд▓реЗ рдмрд┐рдирд╛) рд╕реЗрдЯ рдХрд░рддреЗ рд╣реИрдВ, рдЗрд╕рд▓рд┐рдП рд╣рдо рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рдХреНрдпрд╛ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛ рдЗрд╕реЗ рд╕реНрдкрд╖реНрдЯ рд░реВрдк рд╕реЗ рд╕реЗрдЯ рдХрд░рддрд╛ рд╣реИ, рдФрд░ рдЗрд╕ рддрд░рд╣ рдпрд╣ legacy_mode=False рдЗрдВрдЧрд┐рдд рдХрд░рдиреЗ рдХрд╛ рдПрдХ рдЕрдЪреНрдЫрд╛ рддрд░реАрдХрд╛ рд╣реИ

рд╣рд╛рдВ, рд▓реЗрдХрд┐рди рдХреЗрд╡рд▓ рддрднреА рдЬрдм рд╣рдо рд╣рд░ рдмрд╛рд░ рдХрд┐рд╕реА рдХреЗ рдкрд╛рд╕ рдЬрд╛рдиреЗ рдХреЗ рдмрд┐рдирд╛ рдЗрд╕рдХрд╛ рдЗрд╕реНрддреЗрдорд╛рд▓ рдХрд░рдиреЗ рдкрд░ рдЪреЗрддрд╛рд╡рдиреА рджреЗрдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ
рд╢реНрд░реЗрдгрд┐рдпрд╛рдБред рдпрд╣ рд╕рд╕реНрддрд╛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рджреГрд╖реНрдЯрд┐рдХреЛрдг рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рд╣реЛ рд╕рдХрддрд╛ рд╣реИ
рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЗ рд▓рд┐рдП рдЕрдирд╛рд╡рд╢реНрдпрдХ рд░реВрдк рд╕реЗ рд╡рд░реНрдмреЛрдЬрд╝, рдпрд╣реА рдХрд╛рд░рдг рд╣реИ рдХрд┐ рдореИрдВ 1 рдкрд╕рдВрдж рдХрд░реВрдВрдЧрд╛ рдпрджрд┐ рдпрд╣
рд╕рд░рд▓рддрд╛ рд╕реЗ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИред

рдпрд╣ рдХрд┐рд╕рдиреЗ рдЧрдиреНрджрд╛ рдХрд┐рдпрд╛ рд╣реИ :-/

рдпрд╛ рд╣рдо рдирдП рдХреЛ DummyEncoder рдирд╛рдо рджреЗ рд╕рдХрддреЗ рд╣реИрдВ;) (рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рдбрдореА рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдХреЗ рд╕рд╛рде рдереЛрдбрд╝рд╛ рд╡рд┐рд░реЛрдзрд╛рднрд╛рд╕реА рд╣реИ)

@amueller рдЙрдкрд░реЛрдХреНрдд рд╕рднреА рдХреЛ рди рдкрдврд╝реЗрдВ!
рдореИрдВ рдЗрд╕ рдореБрджреНрджреЗ рдХреЗ рдирдП рдкрд╛рдардХреЛрдВ рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрдЪреНрдЫрд╛ рд╕рд╛рд░рд╛рдВрд╢ рдмрдирд╛рдиреЗ рдХреА рдпреЛрдЬрдирд╛ рдмрдирд╛ рд░рд╣рд╛ рдерд╛ред рдЙрдкрд░реЛрдХреНрдд рдЪрд░реНрдЪрд╛ рдЕрддреНрдпрдзрд┐рдХ рдЬрдЯрд┐рд▓ рд╣реИ (рдХреНрдпреЛрдВрдХрд┐ рдореИрдВ рдЕрднреА рднреА OneHotEncoder рдХреЗ рд╡рд░реНрддрдорд╛рди рдЬрдЯрд┐рд▓ рд╡реНрдпрд╡рд╣рд╛рд░ рдХреЛ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╕рдордЭ рдирд╣реАрдВ рдкрд╛ рд░рд╣рд╛ рдерд╛ ... :-))

рдпрд╛ рд╣рдо рдирдП рдХрд╛ рдирд╛рдо рдбрдореАрдПрдирдХреЛрдбрд░ рд░рдЦ рд╕рдХрддреЗ рд╣реИрдВ;)

рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ @GaelVaroquaux рдЗрд╕рдХреЗ рдЦрд┐рд▓рд╛рдл рдерд╛ рдХреНрдпреЛрдВрдХрд┐ "рд╡рди-рд╣реЙрдЯ" рдЗрд╕реЗ рдФрд░ рдЕрдзрд┐рдХ рдХреНрд╖реЗрддреНрд░реЛрдВ рдореЗрдВ рдЬрд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИ (рдФрд░ рд╣рдо рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рд╡рд┐рдЬреНрдЮрд╛рди-рд╕реАрдЦрдиреЗ рдореЗрдВ рдЕрдиреНрдп рдЪреАрдЬреЛрдВ рдХреЗ рд▓рд┐рдП 'рдбрдореА' рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ ...)

рдирд╛рдордХрд░рдг рдореЗрдВ рдирд┐рд░рдВрддрд░рддрд╛ рдХреЗ рд▓рд┐рдП рдЗрд╕реЗ рдлрд┐рд░ рд╕реЗ рдХрд░рдирд╛ рдЗрд╕рдХреЗ рд▓рд╛рдпрдХ рдирд╣реАрдВ рд╣реИред рд╣рдо рдХрд╣реАрдВ рднреА рдирд╛рдордХрд░рдг рдореЗрдВ рд╕реБрд╕рдВрдЧрдд рдирд╣реАрдВ рд╣реИрдВред рдХреНрдпрд╛ рдЖрдк рдЙрди рдЪрд░реНрдЪрд╛рдУрдВ рдХреЛ рд╕рдВрдХреНрд╖реЗрдк рдореЗрдВ рдмрддрд╛ рд╕рдХрддреЗ рд╣реИрдВ рдЬреЛ рдЗрд╕реЗ рдЖрдЧреЗ рд▓реЗ рдЬрд╛рддреА рд╣реИрдВ?

рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ "рдбрдореА" рд╕рд╛рдВрдЦреНрдпрд┐рдХреАрд╡рд┐рдж рдХреНрдпрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ рдФрд░ рдкрд╛рдВрдбрд╛ рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВред

рд╢реАрд░реНрд╖ рдкреЛрд╕реНрдЯ рдЕрднреА рднреА рд╕рдЯреАрдХ рдФрд░ рдкрдврд╝рдиреЗ рд▓рд╛рдпрдХ рд╣реИ, рдФрд░ рдпрд╣ CategoricalEncoder рдирд╣реАрдВ рд░рдЦрдиреЗ рдХреЗ рддрд░реНрдХ рдХреЛ рд╕рд╛рд░рд╛рдВрд╢рд┐рдд рдХрд░рддрд╛ рд╣реИ (рдЬрд┐рд╕рдХрд╛ рдЕрд░реНрде рдпрд╣ рдирд╣реАрдВ рд╣реИ рдХрд┐ рд╣рдореЗрдВ DummyEncoder рдХреЗ рдмрдЬрд╛рдп OneHotEncoder рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ, рдпрд╣ рдПрдХ рдЕрд▓рдЧ рдкреНрд░рд╢реНрди рд╣реИ)

рдореИрдВрдиреЗ рд╢реАрд░реНрд╖ рдкреЛрд╕реНрдЯ рдкрдврд╝рд╛ред рдЬрдм рдореИрдВрдиреЗ рдХрд╣рд╛ рдерд╛ рдХрд┐ "рд╕реНрдерд┐рд░рддрд╛ рдХреЗ рд▓рд┐рдП рдЗрд╕реЗ рдлрд┐рд░ рд╕реЗ рдХрд░рдирд╛ рдЗрд╕рдХреЗ рд▓рд╛рдпрдХ рдирд╣реАрдВ рд╣реИ" рддреЛ рдореИрдВрдиреЗ рдпрд╣реА рдХрд╣рд╛ред

рдЦреЛрд▓реЗ рдЧрдП рдореБрджреНрджреЗ

рдХреНрдпрд╛ рдЖрдк рдЗрд╕реЗ рд╕рдордЭрд╛ рд╕рдХрддреЗ рд╣реИрдВ?

"рд╕реНрдерд┐рд░рддрд╛ рдХреЗ рд▓рд┐рдП рдЗрд╕реЗ рдлрд┐рд░ рд╕реЗ рдХрд░рдирд╛ рдЗрд╕рдХреЗ рд▓рд╛рдпрдХ рдирд╣реАрдВ рд╣реИ"

рдирд┐рд░рдВрддрд░рддрд╛ рдХреЗ рд╕рд╛рде, рдХреНрдпрд╛ рдЖрдк "рдпрд╣ рдХреНрдпрд╛ рд╕реНрд╡реАрдХрд╛рд░ рдХрд░рддрд╛ рд╣реИ" рдмрдирд╛рдо "рдпрд╣ рдХреНрдпрд╛ рдХрд░рддрд╛ рд╣реИ" рдХреА рдирд╛рдордХрд░рдг рдпреЛрдЬрдирд╛ рдХреА рдУрд░ рдЗрд╢рд╛рд░рд╛ рдХрд░ рд░рд╣реЗ рд╣реИрдВ? рдпрджрд┐ рд╣рд╛рдВ, рддреЛ рд╡рд╣ рдХреЗрд╡рд▓ рдПрдХ рдорд╛рдореВрд▓реА рдХрд╛рд░рдг рдерд╛ред рдореЗрд░реЗ рд▓рд┐рдП рдпрд╣ рдореБрдЦреНрдп рд░реВрдк рд╕реЗ рдПрдХ рд╡рд░реНрдЧ рдореЗрдВ рдФрд░ рдЕрдзрд┐рдХ рд╕реБрд╡рд┐рдзрд╛рдУрдВ рдХреЛ рдЬреЛрдбрд╝рдиреЗ рдореЗрдВ рдорд╛рдкрдиреАрдпрддрд╛ рдХрд╛ рдкреНрд░рд╢реНрди рд╣реИред

рдЦреЛрд▓реЗ рдЧрдП рдореБрджреНрджреЗ

рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рд▓рд╛рдкрддрд╛ рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдХреЗ рддрд░реАрдХреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдореБрджреНрджрд╛ рдерд╛ (https://github.com/scikit-learn/scikit-learn/issues/10465), рдФрд░ рдЗрд╕рдХреЗ рд▓рд┐рдП рдЖрдк рдХреНрд░рдорд┐рдХ рдФрд░ рдПрдХ-рд╣реЙрдЯ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдЕрд▓рдЧ рд╡реНрдпрд╡рд╣рд╛рд░ рдЪрд╛рд╣рддреЗ рд╣реИрдВ (рдпрд╛ рдирд╣реАрдВ рд╕рднреА рд╡рд┐рдХрд▓реНрдк рджреЛрдиреЛрдВ рдХреЗ рд▓рд┐рдП рдорд╛рдиреНрдп рд╣реИрдВ, ..) рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдореМрдЬреВрджрд╛ handle_unknown рдЬреЛ рдХреЗрд╡рд▓ рдПрдХ-рд╣реЙрдЯ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рд╣реИ рдФрд░ рд╕рд╛рдорд╛рдиреНрдп рдХреЗ рд▓рд┐рдП рдирд╣реАрдВред рдФрд░ рд╡рдирд╣реЙрдЯ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдлреАрдЪрд░ рд╡реЗрдЯрд┐рдВрдЧ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ https://github.com/scikit-learn/scikit-learn/issues/10518 рдерд╛, рд▓реЗрдХрд┐рди рдСрд░реНрдбрд┐рдирд▓ рдХреЗ рд▓рд┐рдП рднреА рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рдирд╣реАрдВ рдерд╛ (рдЕрдВрдд рдореЗрдВ рдпрд╣ рд╕рдорд╕реНрдпрд╛ рдХреЛрдИ рд╕рдорд╕реНрдпрд╛ рдирд╣реАрдВ рдереА, рдЬреИрд╕рд╛ рдХрд┐ рдЖрдк рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ) рдХреЙрд▓рдордЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░_рд╡реЗрдЯ рддрд░реНрдХ рдХреЗ рд╕рд╛рде рднрд╛рд░)ред рдФрд░ рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдПрдХ-рд╣реЙрдЯ рдХреЗ рд▓рд┐рдП drop_first рдЬреИрд╕рд╛ рдХреБрдЫ рдЬреЛрдбрд╝рдиреЗ рдХрд╛ рдлреАрдЪрд░ рдЕрдиреБрд░реЛрдз рднреА рд╣реИ, рдЬреЛ рдлрд┐рд░ рд╕реЗ рдХреНрд░рдорд┐рдХ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХ рдирд╣реАрдВ рд╣реИред

рдореИрдВ рдирд╣реАрдВ рджреЗрдЦрддрд╛ рдХрд┐ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдкрд░рд┐рд╡рд░реНрддрди рд▓рд╛рдкрддрд╛ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд╕рд╛рде рдХрд┐рддрдирд╛ рдорджрдж рдХрд░реЗрдЧрд╛ред рдФрд░ рдЕрд╕рдВрдЧрдд рд╡рд┐рдХрд▓реНрдк рд╣реЛрдирд╛ рдПрдХ рдРрд╕реА рдЪреАрдЬ рд╣реИ рдЬреЛ рдЕрдХреНрд╕рд░ рд╕реНрдХрд┐рдХрд┐рдЯ-рд▓рд░реНрди рдореЗрдВ рд╣реЛрддреА рд╣реИред рдЖрджрд░реНрд╢ рдирд╣реАрдВ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рднреА рдХреЛрдИ рдмрдбрд╝реА рдмрд╛рдд рдирд╣реАрдВ рд╣реИред

рдореИрдВ рдирд╣реАрдВ рджреЗрдЦрддрд╛ рдХрд┐ рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рдкрд░рд┐рд╡рд░реНрддрди рд▓рд╛рдкрддрд╛ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд╕рд╛рде рдХрд┐рддрдирд╛ рдорджрдж рдХрд░реЗрдЧрд╛ред

рдпрд╣ рдЗрд╕ рддрд░рд╣ рд╕реЗ рдорджрдж рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рд╡рд┐рд╢рд┐рд╖реНрдЯ рд╡рд┐рдХрд▓реНрдкреЛрдВ рдХреЛ рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рд╡рд┐рднрд┐рдиреНрди рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдкреНрд░рдХрд╛рд░реЛрдВ рдХреЗ рдЕрдиреБрд░реВрдк рдмрдирд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрдо рдЬрдЯрд┐рд▓ рдмрдирд╛рддрд╛ рд╣реИред

рдФрд░ рдЕрд╕рдВрдЧрдд рд╡рд┐рдХрд▓реНрдк рд╣реЛрдирд╛ рдПрдХ рдРрд╕реА рдЪреАрдЬ рд╣реИ рдЬреЛ рдЕрдХреНрд╕рд░ рд╕реНрдХрд┐рдХрд┐рдЯ-рд▓рд░реНрди рдореЗрдВ рд╣реЛрддреА рд╣реИред рдЖрджрд░реНрд╢ рдирд╣реАрдВ рд╣реИ, рд▓реЗрдХрд┐рди рдпрд╣ рднреА рдХреЛрдИ рдмрдбрд╝реА рдмрд╛рдд рдирд╣реАрдВ рд╣реИред

рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдпрд╣ рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдЕрднреА рднреА рдареАрдХ рд╣реИ, рдмрд╣реБрдд рд╕рд╛рд░реЗ рдЕрд╕рдВрдЧрдд рд╡рд┐рдХрд▓реНрдк рдирд╣реАрдВ рд╣реИрдВ (рд▓реЗрдХрд┐рди рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ рдЗрд╕рд▓рд┐рдП рднреА рдХреНрдпреЛрдВрдХрд┐ рдореИрдВрдиреЗ sparse=True/False рдХреЛ encoding рд╡рд┐рдХрд▓реНрдк рдореЗрдВ рд╕реНрдерд╛рдирд╛рдВрддрд░рд┐рдд рдХрд░ рджрд┐рдпрд╛ рд╣реИ)ред рд▓реЗрдХрд┐рди рд╕рд╡рд╛рд▓ рдпрд╣ рд╣реИ рдХрд┐ рд╣рдо рднрд╡рд┐рд╖реНрдп рдореЗрдВ рд╕реНрдХрд┐рдХрд┐рдЯ-рд▓рд░реНрди рдореЗрдВ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХрд╛рд░реНрдпрдХреНрд╖рдорддрд╛ рдХреЛ рдХрд┐рд╕ рд╣рдж рддрдХ рд╡рд┐рд╕реНрддрд╛рд░рд┐рдд рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВред рдЬрд┐рд╕рдХрд╛ рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рдЕрдм рдЙрддреНрддрд░ рджреЗрдирд╛ рдПрдХ рдХрдард┐рди рдкреНрд░рд╢реНрди рд╣реИред
рд╣рдорд╛рд░реЗ рдкрд╛рд╕ рдкрд╣рд▓реЗ рд╕реЗ рд╣реА 'рдпреВрдирд░реА рдПрдиреНрдХреЛрдбрд┐рдВрдЧ' рдХреЗ рд▓рд┐рдП рдПрдХ рдкреАрдЖрд░ рд╣реИред рдХреНрдпрд╛ рдЗрд╕реЗ рдПрдХ рдирдпрд╛ рд╡рд░реНрдЧ UnaryEncoder рдЬреЛрдбрд╝рдиреЗ рдХреЗ рдмрдЬрд╛рдп CategoricalEncoder рдореЗрдВ рдирд╣реАрдВ рдЬреЛрдбрд╝рд╛ рдЬрд╛рдирд╛ рдЪрд╛рд╣рд┐рдП? рдФрд░ рдХреНрдпрд╛ рд╣реЛрдЧрд╛ рдпрджрд┐ рдХреЛрдИ 'рдмрд╛рдЗрдирд░реА рдПрдиреНрдХреЛрдбрд┐рдВрдЧ' рдЬреЛрдбрд╝рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реИ? рдпрд╛ рдПрдХ '(рдорд╛рдзреНрдп) рд▓рдХреНрд╖реНрдп рдПрдиреНрдХреЛрдбрд░'?

"рдорд╛рдзреНрдп рд▓рдХреНрд╖реНрдп рдПрдиреНрдХреЛрдбрд░" CountTransformer , рдЗрд╕рдХреЗ рд▓рд┐рдП рдПрдХ рдкреАрдЖрд░ рд╣реИ;)

рдХреНрдпрд╛ рдЖрдкрдХреЗ рдкрд╛рд╕ рдЗрд╕рдХреЗ рд▓рд┐рдП рдПрдХ рд▓рд┐рдВрдХ рд╣реИ? "рдХрд╛рдЙрдВрдЯрдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдорд░" рдХреА рдЦреЛрдЬ рдХрд░рдиреЗ рд╕реЗ рдХреЛрдИ рдкрд░рд┐рдгрд╛рдо рдирд╣реАрдВ рдорд┐рд▓рддрд╛ рд╣реИ

рдХреНрд╖рдорд╛ рдХрд░реЗрдВ, рдХрд╛рдЙрдВрдЯрдлрд╝реАрдЪрд░рд╛рдЗрдЬрд╝рд░ #9614

рдпрд╣ рдирд┐рд╢реНрдЪрд┐рдд рд░реВрдк рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╣реИ, рд▓реЗрдХрд┐рди рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдПрдХ рдФрд╕рдд рд▓рдХреНрд╖реНрдп рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдирд╣реАрдВ рд╣реИред рд╕рд╛рде рд╣реА, рдпрд╣ рдХреЙрд▓рдо рдЬреЛрдбрд╝рддрд╛ рд╣реИ, рдкреНрд░рддрд┐рд╕реНрдерд╛рдкрд┐рдд рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИ, рдЗрд╕рд▓рд┐рдП рд╕реНрдЯреНрд░рд┐рдВрдЧ рд╢реНрд░реЗрдгреАрдмрджреНрдз рдбреЗрдЯрд╛ рдХреЗ рд▓рд┐рдП рдЕрднреА рддрдХ рдмреЙрдХреНрд╕ рд╕реЗ рдмрд╛рд╣рд░ рдХрд╛рдо рдирд╣реАрдВ рдХрд░реЗрдЧрд╛ (рд▓реЗрдХрд┐рди рдпрд╣ рдЙрд╕ рдкреАрдЖрд░ рдкрд░ рдЕрдзрд┐рдХ рдкреНрд░рддрд┐рдХреНрд░рд┐рдпрд╛ рд╣реИ, рдпрд╣рд╛рдВ рдЪрд░реНрдЪрд╛ рдирд╣реАрдВ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП)ред

рдЗрд╕рдХрд╛ рдорддрд▓рдм рд▓рдХреНрд╖реНрдп рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреНрдпреЛрдВ рдирд╣реАрдВ рд╣реИ? рд▓реЗрдХрд┐рди рд╣рд╛рдБ рдпрд╣рд╛рдБ рдмрд╣реБрдд рдЬреНрдпрд╛рджрд╛ рдбрд╛рдпрд╡рд░реНрдЯ рди рдХрд░реЗрдВ;)

рддреЛ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рд╕рд╛рд░рд╛рдВрд╢ рдХреЗ рд░реВрдк рдореЗрдВ рд╣рдореЗрдВ рдЙрддреНрддрд░ рджреЗрдиреЗ рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИ (рдЗрд╕ рдХреНрд░рдо рдореЗрдВ!):

  1. рдХреНрдпрд╛ рд╣рдо рд╡рд░реНрддрдорд╛рди CategoricalEncoder ? рдпрджрд┐ рдирд╣реАрдВ, рддреЛ рд╡рд┐рдЪрд╛рд░ рдпрд╣ рд╣реИ рдХрд┐ рдЗрд╕реЗ рд╡рд┐рднрд┐рдиреНрди рд╡рд░реНрдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛рдП, рдкреНрд░рддреНрдпреЗрдХ рдкреНрд░рдХрд╛рд░ рдХреЗ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдПрдХ рд╡рд░реНрдЧ (рд╡рд░реНрддрдорд╛рди рдореЗрдВ 'рд╡рдирд╣реЙрдЯ' рдФрд░ 'рдСрд░реНрдбрд┐рдирд▓' рдПрдиреНрдХреЛрдбрд┐рдВрдЧ)ред

  2. рдпрджрд┐ рд╣рдо рдХрдИ рд╡рд░реНрдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рд╣реЛрддреЗ рд╣реИрдВ, рддреЛ рд╣рдо (рдЖрджрд░реНрд╢ рд░реВрдк рд╕реЗ?) 'рд╡рдирд╣реЙрдЯ' рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП OneHotEncoder рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ, рд▓реЗрдХрд┐рди рдпрд╣ рд╡рд░реНрдЧ рдкрд╣рд▓реЗ рд╕реЗ рдореМрдЬреВрдж рд╣реИред рддреЛ, рдХреНрдпрд╛ рд╣рдо рдореМрдЬреВрджрд╛ OneHotEncoder рд╡рд░реНрдЧ рдореЗрдВ рдирдП 'рд╡рдирд╣реЙрдЯ' рдПрдиреНрдХреЛрдбрд┐рдВрдЧ (рдЬреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдХрд╛ рд╕рдорд░реНрдерди рдХрд░рддрд╛ рд╣реИ рдФрд░ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдкреИрд░рд╛рдореАрдЯрд░ рд╣реИрдВ) рдХреЛ рдПрдХреАрдХреГрдд рдХрд░рддрд╛ рд╣реИ? рдпрд╛ рд╣рдо рдХреЛрдИ рджреВрд╕рд░рд╛ рдирд╛рдо рдЪреБрдирддреЗ рд╣реИрдВ? (рдЬреИрд╕реЗ рдбрдореА рдПрдирдХреЛрдбрд░)

  3. рдпрджрд┐ рд╣рдо рдореМрдЬреВрджрд╛ OneHotEncoder рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рдирд╛ рдЪреБрдирддреЗ рд╣реИрдВ, рддреЛ рдХреНрдпрд╛ рд╣рдо рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдкрд░рд┐рдгрд╛рдореЛрдВ рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВ: рд╣рдо OneHotEncoder рдХреЗ рдХреАрд╡рд░реНрдб/рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЗ рдПрдХ рд╕рдореВрд╣ рдХреЛ рд╣рдЯрд╛ рджреЗрддреЗ рд╣реИрдВ, рдФрд░ рдПрдХ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЙрдкрдпреЛрдЧрдХреЗрд╕ (рджреЗрдЦреЗ рдЧрдП рдорд╛рдиреЛрдВ рдХреА рд╕реАрдорд╛ рдХреЗ рднреАрддрд░ рдЕрдирджреЗрдЦреА рдорд╛рдиреЛрдВ рдХреЛ рд╕реНрд╡рдЪрд╛рд▓рд┐рдд рд░реВрдк рд╕реЗ рдЕрдирджреЗрдЦрд╛ рдХрд░рдирд╛) рд╕рдВрднрд╡ рдирд╣реАрдВ рд╣реЛрдЧрд╛ред рдЕрдм рдореВрд▓реНрдпрд╣реНрд░рд╛рд╕ рдЕрд╡рдзрд┐ рдХреЗ рдмрд╛рджред

рдКрдкрд░ рджреА рдЧрдИ рдЕрдзрд┐рдХрд╛рдВрд╢ рдЪрд░реНрдЪрд╛ рдкреНрд░рд╢реНрди 3 рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдереА (CategoricalEncoder(encoding='onehot') рдХреЛ OneHotEncoder рдореЗрдВ рдПрдХреАрдХреГрдд рдХрд░рдиреЗ рдХрд╛ рдЬрдЯрд┐рд▓ рд╡рд┐рд╡рд░рдг)ред рд▓реЗрдХрд┐рди рдЖрдЗрдП рдкрд╣рд▓реЗ рдкрд╣рд▓реЗ 2 рдкреНрд░рд╢реНрдиреЛрдВ рдХреЗ рдирд┐рд░реНрдгрдп рдкрд░ рд╕рд╣рдордд рд╣реЛрдВред

рдореЗрд░реЗ рд▓рд┐рдП рджреВрд╕рд░рд╛ рдХрд╛рд░рдХ рдпрд╣ рд╣реИ рдХрд┐ рд╣рд░ рдХреЛрдИ рд╡рд░реНрддрдорд╛рди рдСрдЯреЛ рдореЛрдб рдореЗрдВ рд╕реЛрдЪрддрд╛ рд╣реИ
OneHotEncoder рдЕрдЬреАрдм рд╣реИред рдЗрд╕рдХрд╛ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рд╕реАрдУрдУ рдХреЛ рд╕реАрдПрд╕рдЖрд░ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░рдирд╛ рднреА рд╣реИ
рдЕрдЬреАрдмред рдпрд╣ рдПрдХ рдирдпрд╛ рд╕реНрд╡рд░реВрдк рджреЗрдиреЗ рдпреЛрдЧреНрдп рд╣реИред рдФрд░ рд▓реЛрдЧреЛрдВ рдХреЛ рдмрддрд╛ рд░рд╣реЗ рд╣реИрдВ "рдпрджрд┐ рдЖрдк рдПрдХ рд╣реЙрдЯ рдЪрд╛рд╣рддреЗ рд╣реИрдВ"
рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдХреЛ рдПрдиреНрдХреЛрдб рдХрд░реЗрдВ, рдЗрд╕рдХреЗ рдмрдЬрд╛рдп CategoricalEncoder рдкрд░ рдЬрд╛рдПрдВ" рдЕрдЬреАрдм рд╣реИ, рдХреНрдпреЛрдВрдХрд┐ OHE
рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рд╢реНрд░реЗрдгреАрдмрджреНрдзреЛрдВ рдХреЗ рд▓рд┐рдП рдЕрднрд┐рдкреНрд░реЗрдд рд╣реИ ...

рдШрдВрдЯрд╛ рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рд╣рдордиреЗ OneHotEncoder рд░рдЦрд╛ рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рдЬрдм рдЗрд╕рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ рддреЛ рдпрд╣ рдЕрдзрд┐рдХ рдХреБрд╢рд▓ рд╣реЛрддрд╛ рд╣реИ.... рдЖрджрд░реНрд╢ рд░реВрдк рд╕реЗ рд╣рдо рд╕рднреА рдЕрдЬреАрдм рд╡реНрдпрд╡рд╣рд╛рд░реЛрдВ рд╕реЗ рдЫреБрдЯрдХрд╛рд░рд╛ рдкрд╛ рд▓реЗрдВрдЧреЗред рдореИрдВ рдереЛрдбрд╝реЗ рдЗрд╕реЗ рдкрджрд╛рд╡рдирдд рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рд▓реЗрдХрд┐рди рддрдм рд╣рдордиреЗ рдРрд╕рд╛ рдирд╣реАрдВ рдХрд┐рдпрд╛ ...

рдореИрдВ рдереЛрдбрд╝реЗ рдЗрд╕реЗ рдкрджрд╛рд╡рдирдд рдХрд░рдирд╛ рдЪрд╛рд╣рддрд╛ рдерд╛, рд▓реЗрдХрд┐рди рддрдм рд╣рдордиреЗ рдРрд╕рд╛ рдирд╣реАрдВ рдХрд┐рдпрд╛ ...

рдореЗрд░реЗ POC PR (https://github.com/scikit-learn/scikit-learn/pull/10523) рдореЗрдВ, рдореИрдВрдиреЗ OneHotEncoder рдХреА рд▓рдЧрднрдЧ рд╣рд░ рдЪреАрдЬрд╝ рдХреЛ рд╣рдЯрд╛ рджрд┐рдпрд╛, рд╕рд┐рд╡рд╛рдп рдЗрд╕рдХреЗ рдирд╛рдо рдХреЗ ...

рдпрд╣ рдмрд╣реБрдд рдЕрдзрд┐рдХ рдХреБрд╢рд▓ рдирд╣реАрдВ рд╣реИред рдФрд░ рдЕрдЧрд░ рд▓реЗрдмрд▓рдПрдиреНрдХреЛрдбрд░ рдХреЗ рдкрд╛рд╕ рдЗрдирдЯреНрд╕ рдХреЗ рд▓рд┐рдП рддреЗрдЬрд╝ рд░рд╛рд╕реНрддреЗ рдереЗ
рд╕реАрдорд╛ рдореЗрдВ [0, n_values-1], рдпрджрд┐ рдЙрдЪрд┐рдд рд╣реЛ, рддреЛ рдпрд╣ рдХрд╛рдлреА рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛ред

@amueller , рдХреНрдпрд╛ рдЖрдк рдЗрд╕ рдореБрджреНрджреЗ рд╕реЗ рд╕рд╣рдордд рд╣реИрдВ рдХрд┐ рд╣рдо рдЕрдВрддрддрдГ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдЕрд▓рдЧ-рдЕрд▓рдЧ рдЕрддрд┐рд░рд┐рдХреНрдд рдкреИрд░рд╛рдореАрдЯрд░ (рдЬреИрд╕реЗ рдбреНрд░реЙрдк_рдлрд░реНрд╕реНрдЯ, рдиреИрди рд╣реИрдВрдбрд▓рд┐рдВрдЧ) рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рдФрд░ рдпрд╣ рдкреНрд░рддреНрдпреЗрдХ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдкреНрд░рд╛рд░реВрдк рдХреЗ рд▓рд┐рдП рдПрдХ рдЕрд▓рдЧ рдЕрд╕рддрдд рдПрдиреНрдХреЛрдбрд░ рд╣реЛрдиреЗ рдХрд╛ рдФрдЪрд┐рддреНрдп рд╕рд╛рдмрд┐рдд рдХрд░рддрд╛ рд╣реИ?

рдореИрдВ рдЗрд╕реЗ рджреЛ рд╕рдкреНрддрд╛рд╣ рдореЗрдВ рд╕реНрдкреНрд░рд┐рдВрдЧ рдмреНрд░реЗрдХ рдореЗрдВ рджреЗрдЦрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реВрдБрдЧрд╛, рдареАрдХ рд╣реИ? рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдирд╣реАрдВ рд╣реИ рдХрд┐ рдореЗрд░реЗ рдкрд╛рд╕ рдЗрд╕рд╕реЗ рдкрд╣рд▓реЗ рд╕рдордп рд╣реЛрдЧрд╛: - /

рдореБрдЭреЗ рдЖрд╢рд╛ рд╣реИ рдХрд┐ рдпрд╣ рдкреВрдЫрдиреЗ рдХреЗ рд▓рд┐рдП рдЧрд▓рдд рдЬрдЧрд╣ рдирд╣реАрдВ рд╣реИ, рд▓реЗрдХрд┐рди рд╡рд░реНрддрдорд╛рди рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдЙрди рддрд╛рд▓рд┐рдХрд╛рдУрдВ рдХреЗ рд╕рд╛рде рдХреНрдпрд╛ рдХрд░рддрд╛ рд╣реИ рдЬреЛ рдПрдХ рдХреЙрд▓рдо рдХреЗ рднреАрддрд░ рдорд┐рд╢реНрд░рд┐рдд рд╢реНрд░реЗрдгреАрдмрджреНрдз рдФрд░ рдЧреИрд░-рд╢реНрд░реЗрдгреАрдмрджреНрдз рд╣реИрдВ? https://github.com/pandas-dev/pandas/issues/17418 рд╕реЗ рдЙрджрд╛рд╣рд░рдг рд▓реЗрддреЗ рд╣реБрдП

рдбреЗрдЯрд╛рдлреНрд░реЗрдо df = pd.DataFrame([{'apple': 1, 'pear':'a', 'carrot': 1}, {'apple':'a', 'pear':2, 'carrot':3}, {'apple': 2, 'pear':3, 'carrot':1}, {'apple': 3, 'pear':'b', 'carrot': 1}, {'apple': 4, 'pear':4, 'carrot': 1}]) рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд░реЗрдВ рдЬреЛ рдмрд░рд╛рдмрд░ рд╣реИ:

  apple  carrot pear
0     1       1    a
1     a       3    2
2     2       1    3
3     3       1    b
4     4       1    4

DictVectorizer рдареАрдХ рд╡рд╣реА рджреЗрддрд╛ рд╣реИ рдЬреЛ рдореБрдЭреЗ рдЗрд╕ рдорд╛рдорд▓реЗ рдореЗрдВ рдЪрд╛рд╣рд┐рдПред

    from sklearn.feature_extraction import DictVectorizer
    enc = DictVectorizer(sparse = False)
    enc.fit_transform(df.to_dict(orient='r'))

рдпрд╣ рджреЗрддрд╛ рд╣реИ:

array([[ 1.,  0.,  1.,  0.,  1.,  0.],
       [ 0.,  1.,  3.,  2.,  0.,  0.],
       [ 2.,  0.,  1.,  3.,  0.,  0.],
       [ 3.,  0.,  1.,  0.,  0.,  1.],
       [ 4.,  0.,  1.,  4.,  0.,  0.]])

рд╣рдо рдХреЙрд▓рдо рдХреЗ рдлреАрдЪрд░ рдирд╛рдо рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ:

    enc.feature_names_
    ['apple', 'apple=a', 'carrot', 'pear', 'pear=a', 'pear=b']

рдпрд╣ рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛ рдпрджрд┐ рдирдП CategoricalEncoder рдХреЗ рдкрд╛рд╕ рдРрд╕рд╛ рдХрд░рдиреЗ рдХрд╛ рд╡рд┐рдХрд▓реНрдк рд╣реЛред

рдореБрдЭреЗ рдирд╣реАрдВ рд▓рдЧрддрд╛ рдХрд┐ рд╣рдо рдЙрд╕ рддрд░рд╣ рдХреЗ рдорд┐рд╢реНрд░рд┐рдд рдорд╛рдорд▓реЗ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдХрд╛ рдЗрд░рд╛рджрд╛ рд░рдЦрддреЗ рд╣реИрдВ

рдХрд┐ рдПрдХ рд╢рд░реНрдо рдХреА рдмрд╛рдд рд╣реИред рдПрдХ рд╕рд╛рдзрд╛рд░рдг рдЙрдк-рдорд╛рдорд▓рд╛ рд╡рд╣ рд╣реИ рдЬрд╣рд╛рдВ рдПрдХ рдХреЙрд▓рдо рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╣реЛрддрд╛ рд╣реИ рд▓реЗрдХрд┐рди рдЗрд╕рдореЗрдВ рдХреБрдЫ рд▓рд╛рдкрддрд╛ рдорд╛рди рд╣реЛрддреЗ рд╣реИрдВред рдПрдХ рд╕рд░рд▓ рдЙрдкрд╛рдп рдпрд╣ рд╣реИ рдХрд┐ NaNs рдХреЛ рдЦрд╛рд▓реА рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдореЗрдВ рдмрджрд▓ рджрд┐рдпрд╛ рдЬрд╛рдП рдФрд░ рдлрд┐рд░ рдКрдкрд░ рджрд┐рдП рдЧрдП рдореЗрд░реЗ рдЙрджрд╛рд╣рд░рдг рдХреЗ рдЕрдиреБрд╕рд╛рд░ DictVectorizer рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд┐рдпрд╛ рдЬрд╛рдПред рдпрд╣ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рдПрдХ рдирдИ рд╕реБрд╡рд┐рдзрд╛ рдмрдирд╛рддрд╛ рд╣реИ рдЬрдм рдорд╛рди рдЧрд╛рдпрдм рд╣реЛрддрд╛ рд╣реИ рд▓реЗрдХрд┐рди рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдорд╛рдиреЛрдВ рдХреЛ рдЕрдиреНрдпрдерд╛ рдЕрдкрд░рд┐рд╡рд░реНрддрд┐рдд рдЫреЛрдбрд╝ рджреЗрддрд╛ рд╣реИред рдореБрдЭреЗ рдпрд╣ рдмрд╣реБрдд рдЙрдкрдпреЛрдЧреА рддрдХрдиреАрдХ рд▓рдЧреА рд╣реИред

рдХреНрдпрд╛ рдирдпрд╛ CategoricalEncoder рдХреБрдЫ рдРрд╕рд╛ рд╣реА рдХрд░ рдкрд╛рдПрдЧрд╛?

рд╣рдордиреЗ рдЙрдкрдпреЛрдЧрдХрд░реНрддрд╛рдУрдВ рдХреЛ NaN рдХреЛ рдПрдХ рдЕрд▓рдЧ рд╢реНрд░реЗрдгреА рдХреЗ рд░реВрдк рдореЗрдВ рдорд╛рдирдиреЗ рдХреА рдЕрдиреБрдорддрд┐ рджреЗрдиреЗ рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд┐рдпрд╛ рд╣реИ
рдпрд╛ рдЗрд╕реА рдХреЗ рд╕рдорд╛рдиред рд▓реЗрдХрд┐рди рдпрд╣ рдордирдорд╛рдирд╛ рд╕рд╛рдВрдЦреНрдпрд┐рдХ рдорд╛рдиреЛрдВ рдХреЛ рд╕рдВрднрд╛рд▓рдиреЗ рдЬреИрд╕рд╛ рдирд╣реАрдВ рд╣реИ
рддрд╛рд░ рд╕реЗ рднрд┐рдиреНрдиред

рдпрд╣ рдЕрдЪреНрдЫрд╛ рд░рд╣реЗрдЧрд╛ред

рдЖрдк рд╕рд╣реА рд╣реИрдВ рджреЛ рдЙрдкрдпреЛрдЧ рдХреЗ рдорд╛рдорд▓реЗ рд╣реИрдВред рдореБрдЭреЗ рдПрдХ рд╡рд┐рд╢реЗрд╖ рдЙрджрд╛рд╣рд░рдг рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрддрд╛рдПрдВ рдЬрд╣рд╛рдВ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдорд╛рдиреЛрдВ рдХреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рд╕реЗ рдЕрд▓рдЧ рдорд╛рдирдирд╛ тАЛтАЛрдореЗрд░реЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧреА рд░рд╣рд╛ рд╣реИред рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ рдмреЗрд╣рддрд░ рдЙрдкрд╛рдп рд╣реЛред

рдорд╛рди рд▓реЗрдВ рдХрд┐ рдЖрдкрдХреЗ рдкрд╛рд╕ рдПрдХ рдкреВрд░реНрдгрд╛рдВрдХ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИ рдЬреЛ рдореВрд▓реНрдпреЛрдВ рдХреА рдПрдХ рдмрдбрд╝реА рд╢реНрд░реГрдВрдЦрд▓рд╛ рд▓реЗрддреА рд╣реИред рд╣рд╛рд▓рд╛рдБрдХрд┐ рдЖрдкрдХреЛ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ рдХреБрдЫ рдЫреЛрдЯреЗ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП, рд╕рдЯреАрдХ рдорд╛рди рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдмрдбрд╝реЗ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ рдпрд╣ рдорд╛рдорд▓рд╛ рдирд╣реАрдВ рд╣реИред рдПрдХ рд╕рд╛рдзрд╛рд░рдг рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╕рднреА рдЫреЛрдЯреЗ рдорд╛рдиреЛрдВ рдХреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдореЗрдВ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд░реЗрдВ, рдКрдкрд░ рдХреЗ рд░реВрдк рдореЗрдВ DictVectorizer рдЪрд▓рд╛рдПрдВ рдФрд░ рдлрд┐рд░ рдлреАрдЪрд░ рдЪрдпрди рдХрд░реЗрдВ рдпрд╛ рд╕реАрдзреЗ рдЕрдкрдиреЗ рдкрд╕рдВрджреАрджрд╛ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВред

рддреЛ рдЖрдк рдЗрд╕реЗ рдЧреИрд░-рд░реИрдЦрд┐рдХ рд╡рд┐рд╡реЗрдХ рдХреЗ рд▓рд┐рдП рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣реЗ рд╣реИрдВ? рдЕрдЧрд▓реА рд░рд┐рд▓реАрдЬ рд╣реИ
рдПрдХ рдирд┐рд╢реНрдЪрд┐рдд-рдЪреМрдбрд╝рд╛рдИ рд╡рд╛рд▓реЗ рдбрд┐рд╕реНрдХреНрд░реАрдЯрд╛рдЗрдЬрд╝рд░ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рдиреЗ рдХреА рд╕рдВрднрд╛рд╡рдирд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдПрдХ рд▓реЙрдЧ рд╕реЗ рдЕрдиреБрд╕рд░рдг рдХрд░рдирд╛
рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдо рдпрд╛ рдХреНрд╡рд╛рдВрдЯрд╛рдЗрд▓ рдЯреНрд░рд╛рдВрд╕рдлреЙрд░реНрдо рдЗрд╕реЗ рдЖрдкрдХреЗ рдЬреИрд╕рд╛ рд╣реА рдХрд╛рд░реНрдп рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдП
рдЪрд╛рд╣рддреЗ рд╣реИрдВ... рд▓реЗрдХрд┐рди рдЖрдкрдХреА рд╕реЗрдЯрд┐рдВрдЧ рдореЗрдВ рд▓реЙрдЧ рдЯреНрд░рд╛рдВрд╕рдлрд╝реЙрд░реНрдо рдЕрдХреЗрд▓реЗ рд╣реА рдкрд░реНрдпрд╛рдкреНрдд рд╣реЛ рд╕рдХрддрд╛ рд╣реИред

рдкрд░ 25 рдлрд░рд╡рд░реА 2018 18:10 рдореЗрдВ, lesshaste [email protected] рд▓рд┐рдЦрд╛ рд╣реИ:

рдпрд╣ рдЕрдЪреНрдЫрд╛ рд░рд╣реЗрдЧрд╛ред

рдЖрдк рд╕рд╣реА рд╣реИрдВ рджреЛ рдЙрдкрдпреЛрдЧ рдХреЗ рдорд╛рдорд▓реЗ рд╣реИрдВред рдореИрдВ рдПрдХ рд╡рд┐рд╢реЗрд╖ рдЙрджрд╛рд╣рд░рдг рд╕рдордЭрд╛рддрд╛ рд╣реВрдБ
рдЬрд╣рд╛рдВ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдорд╛рдиреЛрдВ рдХреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рд╕реЗ рднрд┐рдиреНрди рдорд╛рдирдирд╛ тАЛтАЛрдЙрдкрдпреЛрдЧреА рд░рд╣рд╛ рд╣реИ
рдореЗрд░реЗ рд▓рд┐рдПред рд╣реЛ рд╕рдХрддрд╛ рд╣реИ рдХрд┐ рдХреЛрдИ рдмреЗрд╣рддрд░ рдЙрдкрд╛рдп рд╣реЛред

рдорд╛рди рд▓реЗрдВ рдХрд┐ рдЖрдкрдХреЗ рдкрд╛рд╕ рдПрдХ рдкреВрд░реНрдгрд╛рдВрдХ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рд╡рд┐рд╢реЗрд╖рддрд╛ рд╣реИ рдЬреЛ рдмрдбрд╝реА рд░реЗрдВрдЬ рд▓реЗрддреА рд╣реИ
рдореВрд▓реНрдпред рд╣рд╛рд▓рд╛рдБрдХрд┐ рдЖрдкрдХреЛ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ рдХреБрдЫ рдЫреЛрдЯреЗ рдорд╛рдиреЛрдВ рдХреЗ рд▓рд┐рдП, рд╕рдЯреАрдХ рдорд╛рди
рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдмрдбрд╝реЗ рдореВрд▓реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЖрдкрдХреЛ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ рдпрд╣ рдорд╛рдорд▓рд╛ рдирд╣реАрдВ рд╣реИред рдПрдХ рд╕рд░рд▓
рдХрд░рдиреЗ рд╡рд╛рд▓реА рдмрд╛рдд рдпрд╣ рд╣реИ рдХрд┐ рд╕рднреА рдЫреЛрдЯреЗ рдорд╛рдиреЛрдВ рдХреЛ рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдореЗрдВ рдмрджрд▓рдирд╛ рд╣реИ, DictVectorizer рдЪрд▓рд╛рдПрдВ
рдКрдкрд░ рдХреЗ рд░реВрдк рдореЗрдВ рдФрд░ рдлрд┐рд░ рдлреАрдЪрд░ рдЪрдпрди рдХрд░реЗрдВ рдпрд╛ рдмрд╕ рдЕрдкрдиреЗ рдкрд╕рдВрджреАрджрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░реЗрдВ
рд╕реАрдзреЗ рдХреНрд▓рд╛рд╕рд┐рдлрд╛рдпрд░рд┐рдпрд░ред

-
рдЖрдк рдЗрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рдЖрдкрдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЗрд╕ рдИрдореЗрд▓ рдХрд╛ рд╕реАрдзреЗ рдЙрддреНрддрд░ рджреЗрдВ, рдЗрд╕реЗ GitHub рдкрд░ рджреЗрдЦреЗрдВ
https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment-368288727 ,
рдпрд╛ рдереНрд░реЗрдб рдХреЛ рдореНрдпреВрдЯ рдХрд░реЗрдВ
https://github.com/notifications/unsubscribe-auth/AAEz60cmjwlDVKGyXc6oPyIC9oLbptSgks5tYQdvgaJpZM4RpUE8
.

@jnothman рд╣рд╛рдБ рдПрдХ рдЕрд░реНрде рдореЗрдВ рдПрдХ рдореЛрдбрд╝ рдХреЗ рдЕрд▓рд╛рд╡рд╛ред рдорд╛рди рд▓реЗрдВ рдХрд┐ рдореБрдЭреЗ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ 1...1024 рд╕реЗ рдХреБрдЫ рдорд╛рди рд╕рд╛рд░реНрдердХ рд╣реИрдВред рд╡рд╣ 22 рд╣реИ рдЬреЛ рдХреБрдЫ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬреЛ 21 рдпрд╛ 23 рд╕реЗ рдХрд╛рдлреА рдЕрд▓рдЧ рд╣реИред рд▓реЙрдЧ рд▓реЗрдиреЗ рд╕реЗ рдпрд╣рд╛рдВ рдорджрдж рдирд╣реАрдВ рдорд┐рд▓реЗрдЧреАред рд▓реЗрдХрд┐рди рдореИрдВ 1024 рд╕реЗ рдЕрдзрд┐рдХ рдХреЗ рд╕рднреА рдорд╛рдиреЛрдВ рдХреЛ рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдХреЗ рд░реВрдк рдореЗрдВ рдЫреЛрдбрд╝рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ рдХреНрдпреЛрдВрдХрд┐ рдореБрдЭреЗ рдирд╣реАрдВ рд▓рдЧрддрд╛ рдХрд┐ рдЙрди рд╡рд┐рд╢рд┐рд╖реНрдЯ рдореВрд▓реНрдпреЛрдВ рдХрд╛ рдЕрдзрд┐рдХ рдЕрд░реНрде рд╣реИред

рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЖрдк рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдХреЗ рд▓рд┐рдП рдЕрдкрдиреЗ рдЪрд░ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдмрд╣реБрдд рдХреБрдЫ рдЬрд╛рдирддреЗ рд╣реИрдВ
рдЖрдкрдХреЛ рдЬрд┐рд╕ рдЪреАрдЬ рдХреА рдЬрд░реВрд░рдд рд╣реИ, рдЙрд╕реЗ рд░реВрдкрд╛рдВрддрд░рд┐рдд рдХрд░реЗрдВред

рдкрд░ 25 рдлрд░рд╡рд░реА 2018 20:37 рдкрд░, lesshaste [email protected] рд▓рд┐рдЦрд╛ рд╣реИ:

@jnothman https://github.com/jnothman рд╣рд╛рдБ рдПрдХ рдЕрд░реНрде рдореЗрдВ a . рдХреЛ рдЫреЛрдбрд╝рдХрд░
рдореЛрдбрд╝ рдорд╛рди рд▓реЗрдВ рдХрд┐ рдореБрдЭреЗ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ 1...1024 рд╕реЗ рдХреБрдЫ рдорд╛рди рд╕рд╛рд░реНрдердХ рд╣реИрдВред
рдпрд╛рдиреА 22 рдХреБрдЫ рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЗрдВрдЧрд┐рдд рдХрд░рддрд╛ рд╣реИ рдЬреЛ 21 рдпрд╛ . рд╕реЗ рдХрд╛рдлреА рдЕрд▓рдЧ рд╣реИ

  1. рд▓реЙрдЧ рд▓реЗрдиреЗ рд╕реЗ рдпрд╣рд╛рдБ рдорджрдж рдирд╣реАрдВ рдорд┐рд▓реЗрдЧреАред рд▓реЗрдХрд┐рди рдореИрдВ рд╕рднреА рдореВрд▓реНрдпреЛрдВ рдХреЛ рдЫреЛрдбрд╝рдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ
    1024 рд╕рдВрдЦреНрдпрд╛рддреНрдордХ рдХреЗ рд░реВрдк рдореЗрдВ рдореБрдЭреЗ рдирд╣реАрдВ рд▓рдЧрддрд╛ рдХрд┐ рдЙрди рд╡рд┐рд╢рд┐рд╖реНрдЯ рдореВрд▓реНрдпреЛрдВ рдХрд╛ рдорддрд▓рдм рдЬреНрдпрд╛рджрд╛ рд╣реИред

-
рдЖрдк рдЗрд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХрд░ рд░рд╣реЗ рд╣реИрдВ рдХреНрдпреЛрдВрдХрд┐ рдЖрдкрдХрд╛ рдЙрд▓реНрд▓реЗрдЦ рдХрд┐рдпрд╛ рдЧрдпрд╛ рдерд╛ред
рдЗрд╕ рдИрдореЗрд▓ рдХрд╛ рд╕реАрдзреЗ рдЙрддреНрддрд░ рджреЗрдВ, рдЗрд╕реЗ GitHub рдкрд░ рджреЗрдЦреЗрдВ
https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment-368295895 ,
рдпрд╛ рдереНрд░реЗрдб рдХреЛ рдореНрдпреВрдЯ рдХрд░реЗрдВ
https://github.com/notifications/unsubscribe-auth/AAEz65bOdVB6k7rCAcgLBYz_NslxXWV0ks5tYSnggaJpZM4RpUE8
.

@jnothman рдереЛрдбрд╝рд╛ рд╕реНрдкрд╖реНрдЯ рд╣реЛрдиреЗ рдХреЗ рд▓рд┐рдП, рдореБрдЭреЗ рдирд╣реАрдВ рдкрддрд╛ рдХрд┐ 22 рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдореБрдЭреЗ рдмрд╕ рд╕рдВрджреЗрд╣ рд╣реИ рдХрд┐ рдХреБрдЫ рдореВрд▓реНрдп рд╣реИрдВ рд▓реЗрдХрд┐рди рдореБрдЭреЗ рдирд╣реАрдВ рдкрддрд╛ рдХрд┐ рдХреМрди рд╕реЗ рдпрд╛ рдХрд┐рддрдиреЗ рд╣реИрдВред рдореИрдВрдиреЗ "рдПрдХ рд╕реНрдЯреНрд░рд┐рдВрдЧ рдореЗрдВ рдХрдирд╡рд░реНрдЯ рдХрд░реЗрдВ" рдФрд░ рдлрд┐рд░ DictVectorizer рд╡рд┐рдзрд┐ рдХреЛ рдпрд╣ рдЦреЛрдЬрдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд рдЙрдкрдпреЛрдЧреА рдкрд╛рдпрд╛ рд╣реИ рдХрд┐ рдпреЗ рдХреМрди рд╕реЗ рд╣реИрдВред

@lesshaste рдЕрд▓рдЧ рд╢реНрд░реЗрдгреА рдХреЗ рд░реВрдк рдореЗрдВ NaN рдХреЗ рдореБрджреНрджреЗ рдХреЗ рд▓рд┐рдП, рджреЗрдЦреЗрдВ https://github.com/scikit-learn/scikit-learn/issues/10465
рдпрджрд┐ рдЖрдк рд╡рд┐рд╢рд┐рд╖реНрдЯ рдЧреИрд░-рд░реЗрдЦреАрдп рд╡рд┐рд╡реЗрдХреАрдХрд░рдг рдпрд╛ рдорд┐рд╢реНрд░рд┐рдд рд╕рдВрдЦреНрдпрд╛рддреНрдордХ/рд╕реНрдЯреНрд░рд┐рдВрдЧ рдПрдиреНрдХреЛрдбрд┐рдВрдЧ рдкрд░ рдЖрдЧреЗ рдЪрд░реНрдЪрд╛ рдХрд░рдирд╛ рдЪрд╛рд╣рддреЗ рд╣реИрдВ, рддреЛ рдПрдХ рдирдпрд╛ рдореБрджреНрджрд╛ рдЦреЛрд▓рдиреЗ рдХреЗ рд▓рд┐рдП рд╕реНрд╡рддрдВрддреНрд░ рдорд╣рд╕реВрд╕ рдХрд░реЗрдВред рд▓реЗрдХрд┐рди рдореИрдВ рдЗрд╕реЗ рдореВрд▓ рдореБрджреНрджреЗ рдкрд░ рдХреЗрдВрджреНрд░рд┐рдд рд░рдЦрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ, рдпрд╛рдиреА CategoricalEncoder/OneHotEncoder рдХреЗ рд╡рд┐рднрд┐рдиреНрди рд╡рд░реНрдЧреЛрдВ рдореЗрдВ рдирд╛рдордХрд░рдг рдФрд░ рд╕рдВрдЧрдардиред

рдореИрдВ рдЗрд╕реЗ рджреЛ рд╕рдкреНрддрд╛рд╣ рдореЗрдВ рд╕реНрдкреНрд░рд┐рдВрдЧ рдмреНрд░реЗрдХ рдореЗрдВ рджреЗрдЦрдиреЗ рдХреА рдХреЛрд╢рд┐рд╢ рдХрд░реВрдБрдЧрд╛, рдареАрдХ рд╣реИ? рд╕реБрдирд┐рд╢реНрдЪрд┐рдд рдирд╣реАрдВ рд╣реИ рдХрд┐ рдореЗрд░реЗ рдкрд╛рд╕ рдЗрд╕рд╕реЗ рдкрд╣рд▓реЗ рд╕рдордп рд╣реЛрдЧрд╛: - /

@amueller рдпрд╣ рдареАрдХ рд╣реИред рдореЗрд░реЗ рдкрд╛рд╕ рдкреАрдЖрд░ рдкрд░ рдХрд╛рдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЖрдиреЗ рд╡рд╛рд▓реЗ рджреЛ рд╕рдкреНрддрд╛рд╣ рдХрд╛ рд╕рдордп рдирд╣реАрдВ рд╣реЛрдЧрд╛ рдЬреЛ рд╡реИрд╕реЗ рднреА рдЗрд╕рд╕реЗ рдЕрд╡рд░реБрджреНрдз рд╣реИред рдЙрд╕рдХреЗ рдмрд╛рдж рдореЗрд░реЗ рдкрд╛рд╕ рдлрд┐рд░ рд╕реЗ рдЗрд╕ рдкрд░ рдХрд╛рдо рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рднреА рд╕рдордп рд╣реЛрдирд╛ рдЪрд╛рд╣рд┐рдПред

@amueller рдХреНрдпрд╛ рдЖрдкрдХреЗ рдкрд╛рд╕ рдЗрд╕реЗ рджреЗрдЦрдиреЗ рдХрд╛ рд╕рдордп рдерд╛?

@amueller рдХреНрдпрд╛ рдЖрдк рдЗрд╕рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВ рдХрд┐ рдореИрдВ рдкреАрдЖрд░ рдкрд░ рдХрд╛рдо рдХрд░ рд░рд╣рд╛ рд╣реВрдВ рддрд╛рдХрд┐ рдСрд░реНрдбрд┐рдирд▓рдПрдиреНрдХреЛрдбрд░ рдФрд░ рд╡рдирд╣реЙрдЯрдПрдиреНрдХреЛрдбрд░ (рдФрд░ OneHotEncoder рдХреЗ рдореМрдЬреВрджрд╛ рддрд░реНрдХреЛрдВ рдХреЛ рдмрд╣рд┐рд╖реНрдХреГрдд рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде) рдореЗрдВ CategoricalEncoder рдХреЛ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХреЗ?

рдЕрдиреБрдкрд╕реНрдерд┐рдд рд░рд╣рдиреЗ рдХреЗ рд▓рд┐рдП рдЦреЗрдж рд╣реИред рдареАрдХ рд▓рдЧрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдХреНрдпрд╛ рдЖрдк рдореБрдЭреЗ рджреЛ рд╕рдкреНрддрд╛рд╣ рдХрд╛ рд╕рдордп рджреЗ рд╕рдХрддреЗ рд╣реИрдВ рддрд╛рдХрд┐ рдореИрдВ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рд╕рдореАрдХреНрд╖рд╛ рдХрд░ рд╕рдХреВрдВ? рдзрдиреНрдпрд╡рд╛рдж!

@amueller рдХреЛрдИ рд╕рдорд╕реНрдпрд╛ рдирд╣реАрдВ, рдореЗрд░реЗ рд▓рд┐рдП рд╡рд╣реА :-)
рд▓реЗрдХрд┐рди, рдЕрдм рдореИрдВ рдЗрд╕реЗ рдлрд┐рд░ рд╕реЗ рджреЗрдЦрдиреЗ рдХреА рдпреЛрдЬрдирд╛ рдмрдирд╛ рд░рд╣рд╛ рд╣реВрдВред рддреЛ рдЕрдЧрд░ рдЖрдк рдЗрд╕реЗ рдПрдХ рдирдЬрд╝рд░ рджреЗ рд╕рдХрддреЗ рд╣реИрдВ рддреЛ рдЖрдкрдХрд╛ рд╕реНрд╡рд╛рдЧрдд рд╣реЛрдЧрд╛ред рдореБрдЭреЗ рдкреАрдЖрд░ рдкрд░ рдХреБрдЫ рдХрд╛рдо рдХрд░рдирд╛ рд╣реИ (https://github.com/scikit-learn/scikit-learn/pull/10523), рдЗрд╕рд▓рд┐рдП рдЗрд╕рдХреА рдЕрднреА рддрдХ рд╡рд┐рд╕реНрддрд╛рд░ рд╕реЗ рд╕рдореАрдХреНрд╖рд╛ рди рдХрд░реЗрдВ (рдЖрдк рдПрдХ рд╡рд┐рдЪрд╛рд░ рд░рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рдЗрд╕реЗ рджреЗрдЦ рд╕рдХрддреЗ рд╣реИрдВ) рд╣рд╛рд▓рд╛рдВрдХрд┐ рд╣рдо рдЬреЛ рдкреНрд░рд╕реНрддрд╛рд╡ рджреЗрддреЗ рд╣реИрдВ)ред
рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореИрдВ рдЗрд╕рдореЗрдВ рдмрд╣реБрдд рд╕рдордп рд▓рдЧрд╛рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рдореБрдЦреНрдп рдкреНрд░рд╢реНрди рдХрд╛ рдЙрддреНрддрд░ рджреЗрдЦрдирд╛ рдЪрд╛рд╣рддрд╛ рд╣реВрдВ, рдпрджрд┐ рдЖрдк CategoricalEncoder рдХреЛ рдХрдИ рд╡рд░реНрдЧреЛрдВ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВ, рдФрд░ рдЙрд╕ рд╕реНрдерд┐рддрд┐ рдореЗрдВ, рдпрджрд┐ рдЖрдк OneHotEncoder рдХрд╛ рдкреБрди: рдЙрдкрдпреЛрдЧ рдХрд░рдиреЗ рдХреЗ рд╕рд╛рде рдареАрдХ рд╣реИрдВ (рдЬрд┐рд╕рдХрд╛ рдЕрд░реНрде рд╣реИ рдЗрд╕рдХреА рдХреБрдЫ рд╡рд░реНрддрдорд╛рди (рдЕрдЬреАрдм) рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рдХреЛ рдЪрд┐рддреНрд░рд┐рдд рдХрд░рдирд╛)ред рдЙрди рд╕рд╡рд╛рд▓реЛрдВ рдХрд╛ рд╕рд╛рд░рд╛рдВрд╢ https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment -363851328 рдФрд░ https://github.com/scikit-learn/scikit-learn/issues/10521#issuecomment рдореЗрдВ рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред -364802471ред

(рдФрд░ рдПрдХ рдмрд╛рд░ рдЬрдм рд╣рдо рдЙрд╕ рд╣рд┐рд╕реНрд╕реЗ рдкрд░ рд╕рд╣рдордд рд╣реЛ рдЬрд╛рддреЗ рд╣реИрдВ, рддреЛ рдкреАрдЖрд░ рдореЗрдВ рд╡рд╛рд╕реНрддрд╡рд┐рдХ рдХрд╛рд░реНрдпрд╛рдиреНрд╡рдпрди рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдЪрд░реНрдЪрд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдЕрднреА рднреА рдмрд╣реБрдд рдХреБрдЫ рд╣реИ :))

рдореИрдВрдиреЗ рдкреАрдЖрд░ рдЕрдкрдбреЗрдЯ рдХрд┐рдпрд╛ https://github.com/scikit-learn/scikit-learn/pull/10523 , рд╕рдореАрдХреНрд╖рд╛ рдХреЗ рд▓рд┐рдП рддреИрдпрд╛рд░

рдореИрдВ рд╕рд╛рд╡рдзрд╛рдиреА рд╕реЗ рдХрд╣реВрдВрдЧрд╛ рдХрд┐ рдореИрдВ рд╡рд╛рдкрд╕ рдЖ рдЧрдпрд╛ рд╣реВрдВ;)

рдЖрдИрдПрдордПрдЪрдУ рд╕рдмрд╕реЗ рдорд╣рддреНрд╡рдкреВрд░реНрдг рдЪреАрдЬ рдПрдХ рд╕рд╛рд░реНрд╡рднреМрдорд┐рдХ рдПрдкреАрдЖрдИ рд╣реИ (рдпрд╛рдиреА рдкреИрд░рд╛рдореАрдЯрд░ рдФрд░ рдмреАрдмреАрд╣реЗрд╡рд┐рдпрд░ рдкреИрдЯрд░реНрди) рд╣рдо рдЬрд┐рди рд╕рднреА рдПрдиреНрдХреЛрдбрд░реНрд╕ рдкрд░ рдЪрд░реНрдЪрд╛ рдХрд░рддреЗ рд╣реИрдВ рдЙрдирдХреЗ рд▓рд┐рдП

рдкреАрдПрд╕ https://github.com/scikit-learn-contrib/categorical-encoding ?

category_encoders рдкреИрдХреЗрдЬ рдореЗрдВ, рд╕рднреА рдПрдиреНрдХреЛрдбрд░реНрд╕ рдХреЗ рдкрд╛рд╕ cols рддрд░реНрдХ рд╣реИ, рдЬреЛ рдкреБрд░рд╛рдиреЗ OneHotEncoder рдореЗрдВ categorical_features рд╕рдорд╛рди рд╣реИ (рд╣рд╛рд▓рд╛рдВрдХрд┐ рдпрд╣ рдмрд┐рд▓реНрдХреБрд▓ рдЙрд╕реА рддрд░рд╣ рдХреЗ рдореВрд▓реНрдпреЛрдВ рдХреЛ рд╕реНрд╡реАрдХрд╛рд░ рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИ)ред рдЙрджрд╛рд╣рд░рдг рджреЗрдЦреЗрдВ http://contrib.scikit-learn.org/categorical-encoding/onehot.html
рддреЛ рдпрд╣ рдЙрд╕ рд╡рд░реНрддрдорд╛рди рдЪрд░реНрдЪрд╛ рд╕реЗ рд╕рдВрдмрдВрдзрд┐рдд рд╣реИ рдЬреЛ рд╣рдо https://github.com/scikit-learn/scikit-learn/pull/10523 рдореЗрдВ categorical_features рдкрджрд╛рд╡рдирдд рдХрд░рдиреЗ рдпрд╛ рди рдХрд░рдиреЗ рдХреЗ рдмрд╛рд░реЗ рдореЗрдВ рдХрд░ рд░рд╣реЗ рд╣реИрдВред

рдмрд╛рдХреА рдХреЗ рд▓рд┐рдП рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рдкрд░рд╕реНрдкрд░ рд╡рд┐рд░реЛрдзреА рдХреАрд╡рд░реНрдб рдирд╣реАрдВ рд╣реИрдВ (рдЙрдирдХреЗ рдкрд╛рд╕ рдбреЗрдЯрд╛рдлрд╝реНрд░реЗрдо рдХреЗ рд▓рд┐рдП рд╡рд┐рд╢рд┐рд╖реНрдЯ рдХреБрдЫ рдЕрдиреНрдп рд╣реИрдВ рдЬрд┐рдиреНрд╣реЗрдВ рд╣рдо рдЗрд╕ рдмрд┐рдВрджреБ рдкрд░ рд╕реНрдХреЗрд▓реЗрд░ рдореЗрдВ рдирд╣реАрдВ рдЬреЛрдбрд╝реЗрдВрдЧреЗ)ред OneHotEncoder рдФрд░ OrdinalEncoder рдХрд╛ рдирд╛рдордХрд░рдг рдХрдо рд╕реЗ рдХрдо category_encoders рдкреИрдХреЗрдЬ рдХреЗ рдЕрдиреБрд░реВрдк рд╣реИред

рдХреНрдпрд╛ рдпрд╣ рдкреГрд╖реНрда рдЙрдкрдпреЛрдЧреА рдерд╛?
0 / 5 - 0 рд░реЗрдЯрд┐рдВрдЧреНрд╕

рд╕рдВрдмрдВрдзрд┐рдд рдореБрджреНрджреЛрдВ

vitorcoliveira picture vitorcoliveira  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

yandrieiev picture yandrieiev  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

dfee picture dfee  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

tluocs picture tluocs  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

ArtyomKaltovich picture ArtyomKaltovich  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ