Evalml: One Hot Encoder: 두 개의 범주가 있는 기능에 대해 기본적으로 하나의 중복 기능을 삭제합니다.

에 만든 2021년 03월 05일 · 14코멘트 · 출처: alteryx/evalml

하나의 핫 인코더는 원래 범주형 기능의 모든 수준에 대한 기능을 생성합니다.

from evalml.pipelines import OneHotEncoder
import pandas as pd
df = pd.DataFrame({"category": ["a", "b"], "number": [4,5 ]})
OneHotEncoder().fit_transform(df).to_dataframe()

category_a 및 category_b 열은 완전히 동일선상에 있으므로 하나가 중복됩니다. 이는 추정기 피팅에 부정적인 영향을 미칠 수 있습니다. 기본적으로 하나를 삭제해야 한다고 생각합니다.

참고로 @rpeck

enhancement

출처

freddyaboulton

가장 유용한 댓글

코드의 제3법칙: Thou Shalt Not Make == 부동 소수점 비교

rpeck 에 2021년 03월 05일

😄3

모든 14 댓글

💯 % 부정적인 경우 열을 삭제해야 합니다.

우리가 먼저 OHE를 수행하면 sklearn이 이를 확장하지 않기를 바랍니다. Freddy가 말했듯이 완벽한 공선성을 갖는 두 개의 열을 생성하는 것으로 생각할 수 있습니다.

바이너리를 하나가 아닌 두 개의 열로 확장하는 데 두 가지 문제가 있습니다.

다른 형태의 특징 공선성과 마찬가지로 하나의 원본 소스 열의 효과가 두 개의 OHE 열로 나누어지기 때문에 해석 가능성에서 많은 것을 엉망으로 만듭니다. Freddy의 새로운 SHAP 롤업은 분명히 이 문제를 해결하지만 기능 중요도 및 부분 종속성 플롯과 같은 항목에는 여전히 문제가 있습니다.
Random Forest 및 GBM과 같은 트리 모델은 입력 기능을 무작위로 샘플링합니다. 이 경우 소스 열은 실제보다 2배 더 자주 무작위로 샘플링되므로 모델에 큰 영향을 미칠 수 있습니다.

rpeck 에 2021년 03월 05일

👍1

@freddyaboulton Q: OHE 열에 대한 위의 데이터 프레임은 열을 부동 소수점으로 표시합니다. 이게 정말 사실인가요?

rpeck 에 2021년 03월 05일

@rpeck 네!

freddyaboulton 에 2021년 03월 05일

😕1

@freddyaboulton 뭔데? 이상 하네. 나는 진정한 부울 또는 0/1 정수 외에는 본 적이 없습니다. 트리 모델이 실제로 이것을 어떻게 처리하는지 궁금합니다. 그것은 나에게 나쁜 냄새가 있습니다.

rpeck 에 2021년 03월 05일

코드의 제3법칙: Thou Shalt Not Make == 부동 소수점 비교

rpeck 에 2021년 03월 05일

😄3

(OK, Math.NaN 아닌 한)

rpeck 에 2021년 03월 05일

흠, 나는 우리가 이것을하고 있다고 생각했습니다!

동의합니다. 기본 impl에 설정해야 하는 플래그일 뿐이라고 생각했습니다.

dsherry 에 2021년 03월 09일

@dsherry @freddyaboulton drop 매개변수를 통해 지원하는 것처럼 보이지만 사용자 입력만 고려하고 impl에서 사용하지 않으므로 이 문제는 drop 대한 기본값 설정을 추적합니다. 없음 이외의 다른 것으로?

https://github.com/alteryx/evalml/blob/91775ffc26c47205adc0fb255832d828ead6e7c9/evalml/pipelines/components/transformers/encoders/onehot_encoder.py#L28

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html

우리는 first 또는 if_binary 로 갈 수 있으며, 올바른 호출이 무엇인지 확신할 수 없습니다.

angela97lin 에 2021년 03월 11일

🎉1

@angela97lin 기본값을 변경하는 것으로 충분하다는 것이 맞습니다! first 는 범주 수가 > 2인 경우에도 완벽하게 공선 특성을 피해야 하기 때문에 가야 할 길이라고 생각합니다. @rpeck 은 무엇이라고 생각

freddyaboulton 에 2021년 03월 11일

👀1

이것을 조금 읽고 이 링크를 찾았습니다: https://inmachineswetrust.com/posts/drop-first-columns/

주요 내용:

열 삭제는 정규화 없이 OLS 모델을 생성할 때만 필요합니다(선형 회귀가 이 범주에 속한다고 생각합니다: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html, https:// scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares)
원-핫 인코딩 열을 삭제하면 선형 회귀 모델의 매개변수와 예측이 변경되어 반환된 모델에 영향을 줍니다. 그러나 이것이 더 나은지 아닌지 판단하기는 어렵습니다.

RE @rpeck 의 첫 번째 의견: "다른 형태의 기능 공선

이것은 이진 사례에 적합하지만 여러 범주가 있는 경우 하나의 열을 삭제해도 이 문제가 계속 발생합니다.

아마도 기본적으로 이 작업을 수행해서는 안 되지만 추정기가 선형 회귀인 경우 매개변수로 first 를 사용하여 OHE를 생성하도록 make_pipeline 를 업데이트해야 합니까?

아아, 저는 판단을 내리기 위한 기본 수학을 잘 이해하지 못하므로 여러분의 생각을 듣고 싶습니다. @freddyaboulton @rpeck @dsherry

angela97lin 에 2021년 03월 15일

@freddyaboulton @rpeck @dsherry @chukarsten @jeremyliweishih 와의 토론 후

바이너리 경우에만 이 작업을 수행합니다.
"있으면 좋은 것"은 이진법의 경우 소수 클래스를 사용하는 것입니다. 그렇지 않으면 두 범주 중 하나를 선택하는 것으로 충분합니다.

angela97lin 에 2021년 03월 16일

🚀2

@angela97lin은 좋은 RE 기본 동작으로 들립니다. 또 다른 좋은 점: 구성 요소 매개변수를 통해 기본 동작을 재정의하는 기능

dsherry 에 2021년 03월 16일

@dsherry 내가 올바르게 이해하고 있다면 drop (매개변수)의 기본값을 업데이트하고 있으므로 사용자는 구성요소 매개변수를 수동으로 설정하여 이를 무시할 수 있습니까?

angela97lin 에 2021년 03월 16일

이것을 구현하는 데 필요한 것이 무엇인지 알아보기 위해 주변을 파헤쳤습니다. 특히 바이너리의 경우 항상 소수 클래스를 제거하는 것이 얼마나 어려운지 궁금했습니다.

파헤친 결과는 다음과 같습니다.

scikit-learn을 사용하면 제거할 범주를 선택하기가 매우 어렵습니다. 문서에서 이것은 drop 매개변수에 대한 배열 옵션을 통해 실현 가능한 것으로 보입니다(https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html). 그러나 시도한 후에는 모든 열에 대해 인덱스 값을 지정해야 합니다. 따라서 다음은 열 0에 대해 인덱스 0에 지정된 범주를 제거하고 열 1 및 2에 대해 다른 값이 없는 오류를 제거하려고 합니다.

import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder

X = pd.DataFrame({'col_1': ["a", "b", "b", "a", "b"],
                      'col_2': ["a", "b", "a", "c", "b"],
                      'col_3': ["a", "a", "a", "a", "a"]})

indices_to_drop = np.array([0, None, None])

ohe = OneHotEncoder(drop=indices_to_drop)
ohe.fit(X)

ValueError                                Traceback (most recent call last)
<ipython-input-4-a099fa2fc4a7> in <module>
----> 1 ohe.fit(X)

~/Desktop/venv/lib/python3.7/site-packages/sklearn/preprocessing/_encoders.py in fit(self, X, y)
    417         self._fit(X, handle_unknown=self.handle_unknown,
    418                   force_all_finite='allow-nan')
--> 419         self.drop_idx_ = self._compute_drop_idx()
    420         return self
    421 

~/Desktop/venv/lib/python3.7/site-packages/sklearn/preprocessing/_encoders.py in _compute_drop_idx(self)
    394                                 ["Category: {}, Feature: {}".format(c, v)
    395                                     for c, v in missing_drops])))
--> 396                 raise ValueError(msg)
    397             return np.array(drop_indices, dtype=object)
    398 

ValueError: The following categories were supposed to be dropped, but were not found in the training data.
Category: 0, Feature: 0
Category: 1, Feature: None
Category: 2, Feature: None

나는 이것이 또한 이 문제가 지적하는 것의 절반이라고 생각합니다: https://github.com/scikit-learn/scikit-learn/issues/16511

이를 지원하기 위해 우리가 할 수 있는 대안은 피팅 중에 삭제하려는 열과 값을 수동으로 추적하는 것입니다. scikit-learn에 데이터를 전달합니다. 그런 다음 저장하고 삭제하려는 열을 제거합니다. 그러나 이것은 변환된 열 이름에서 원래(기능, 값)를 결정하기 위해 약간의 논리 처리가 필요합니다. ( get_feature_names 에 이 논리가 있지만 삭제하지 않아야 한다고 가정하고 열 이름을 연결하는 데 도움이 됩니다...)

이 모든 것이 지금은 기본 scikit-learn if_binary 을 사용하는 것으로 충분할 수 있으며 항상 소수 클래스를 사용하도록 별도의 문제를 제출할 수 있다는 것입니다. 솔직히 말해서 우리가 해결해야 하는 일을 감안할 때 scikit-learn의 OHE 구현에서 멀어지는 것에 찬성합니다.

유용한 리소스:
OHE 문서: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
유연성을 유발하는 scikit-learn의 코드: https://github.com/scikit-learn/scikit-learn/blob/95119c13af77c76e150b753485c662b7c52a41a2/sklearn/preprocessing/_encoders.py#L338
관련 문제: https://github.com/scikit-learn/scikit-learn/issues/16511

if_binary : scikit-learn은 handle_unknown 가 error 이어야 합니다. 이것은 top_n 매개변수와 잘 어울리지 않습니다. 이 매개변수는 상위 N개 범주를 제외한 모든 항목을 삭제합니다. 변환할 데이터가 새 범주로 무엇을 할지 모르기 때문입니다. Becca가 https://github.com/alteryx/evalml/pull/830 에서 언급했듯이 이 매개변수가 작동하려면 top_n 를 None으로 설정해야 합니다.

이를 염두에 두고 우리만의 임플을 굴리는 것이 가장 좋습니다 🤔

angela97lin 에 2021년 03월 17일

👍1

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급