Evalml: 기준선이 0인 일부 목표의 경우 "기준선보다 나은 비율"은 nan입니다.

에 만든 2020년 11월 20일 · 9코멘트 · 출처: alteryx/evalml

{'F1': nan,
 'MCC Binary': nan,
 'Log Loss Binary': 93.29789549298991,
 'AUC': 58.36492736629537,
 'Precision': nan,
 'Balanced Accuracy Binary': 63.46659876071641,
 'Accuracy Binary': 12.876088314169193}

evalml 에서 이 문제를 재현하는 Jupyter 노트북을 만들고 Slack의 스레드에 관련 데이터 파일과 함께 첨부했습니다.

enhancement

출처

rpeck

가장 유용한 댓글

좋다. :-)

rpeck 에 2021년 02월 08일

🎉3

모든 9 댓글

재생기

import evalml
import pandas as pd
X = pd.read_csv('~/Downloads/fraud_500_data.csv').drop(['id', 'expiration_date'], axis=1)
y = X.pop('fraud')
automl = evalml.automl.AutoMLSearch(problem_type="binary", objective="f1")
automl.search(X, y)
# note that all percent_better_than_baseline values are nan in the rankings table
print(automl.rankings)
# can also check the scores of any pipeline other than the baseline pipeline, which should have id 0
print(automl.results['pipeline_results'][1]['percent_better_than_baseline_all_objectives'])

데이터세트는 여기

dsherry 에 2020년 11월 20일

@dsherry @rpeck 베이스라인 파이프라인이 NaN( F1 , MCCBinary , Precision )을 사용하여 목표에서 0점을 받기 때문에 이는 예상된 동작입니다. 이 방법에서 0으로 나누기를 무한대 또는 없음으로 설정하는 것에 대한 논의가 있었지만 기준선이 모든 목표에서 가능한 최악의 점수를 기록하면 "퍼센트 더 좋음"을 비교하기 때문에 NaN보다 더 낫다고 결정한 적이 없습니다. 목적은 그다지 좋지 않으며 None, NaN 또는 무한대로 전달할 수 있습니다.

즉, NaN보다 이러한 옵션 중 하나를 선택해야 하는 다른 이유가 있을 수 있습니다!

freddyaboulton 에 2020년 11월 20일

🚀1

@freddyaboulton 아, 말이 되네요! 기준이 0인 목표를 건너뛰도록 테스트를 변경하겠습니다. 감사합니다!

rpeck 에 2020년 11월 20일

👍1

@freddyaboulton 감사합니다! @rpeck 어제 당신이 나에게 그것에 대해 물었을 때 내가 이것을 잡지 못해서 죄송합니다.

이 문제를 토론할 수 있도록 열어 둡니다. 이 경우 동작을 변경해야 합니까?

@freddyaboulton 따라서 F1, MCCBinary 및 Precision은 모두 크면 클수록 좋으며 [-1, 1](corr) 또는 [0, 1] 범위로 제한됩니다. pct 개선 impl을 변경하여 0과의 절대 차이를 계산하고 이를 pct 개선으로 사용할 수 있습니까? 그리고 그것이 현재 우리가 하고 있는 일이라면 기준선이 0인 경우 해당 지표에 대해 nan pct 개선이 발생하지 않을 것입니다.

dsherry 에 2020년 11월 20일

@dsherry 우리는 설계 단계에서 [0, 1] 경계의 목표에 대한 절대차 계산을 제안했지만 두 가지 다른 계산이 혼란스러울 것이라고 결정했습니다. 즉, 베이스라인 파이프라인이 해당 목표에서 거의 0점을 받도록 설계되었다는 점을 감안할 때 재고해야 할 수도 있습니다. 우리가 처음 그 결정을 내렸을 때 우리는 1차 목표(회귀를 제외하고 이러한 제한된 목표 중 하나가 아님)에 대해 더 나은 백분율을 계산하고 있었다는 점에 주목할 가치가 있습니다.

절대 차이를 계산하는 경우에도 Nan/None/inf 나누기 동작을 변경하는 것을 고려할 수 있습니다. 한 가지 흥미로운 사례는 R2 입니다. 대부분의 경우 [0, 1]이지만 기술적으로는 (-inf, 1]이기 때문입니다. 따라서 절대 차이를 계산하는 것은 수학적으로 건전하지 않을 수 있지만 회귀의 기본 목표이기 때문에 , 우리는 많은 기준선이 0점을 받을 것으로 예상해야 합니다.

freddyaboulton 에 2020년 11월 20일

👍1

요약하자면, 우리가 만들 수 있는 두 가지 독립적인 변경 사항이 있어 네 가지 가능한 결과를 얻을 수 있습니다.

[0, 1]에 경계를 둔 목표에 대한 절대 차이를 계산하지 마십시오. 0으로 나누면 Nan입니다. 현재 행동.
[0, 1]에 경계를 둔 목표에 대한 절대 차이를 계산하지 마십시오. 0으로 나누는 것은 inf입니다.
[0, 1]에 경계를 둔 목표에 대한 절대 차이를 계산합니다. 0으로 나누는 것은 Nan입니다.
[0, 1]에 경계를 둔 목표에 대한 절대 차이를 계산합니다. 0으로 나누는 것은 inf입니다.

0으로 나눌 때 NaN을 반환하는 것을 선호하지만 NaN을 볼 때 사용자의 직감 반응은 automl에서 무언가가 고장난 것으로 가정하는 것이었습니다. inf를 반환하면 아무 것도 손상되지 않았으며 파이프라인이 실제로 기준선보다 낫다는 것을 더 명확하게 알 수 있다고 생각합니다.

그러면 옵션 2와 4가 남습니다.

"퍼센트 향상"에 대해 두 가지 다른 계산을 사용하면 각 파이프라인에 대해 실제로 계산되는 내용을 사용자에게 전달하기가 더 어려워질 것이라고 생각합니다. 즉, 우리의 베이스라인 파이프라인은 특히 불균형 문제(모드를 예측함)에서 많은 목표(R2, F1, MCC)에 대해 0점을 얻도록 설계되었습니다. 모든 파이프라인이 기준선보다 "무한" 더 나을 것이기 때문에 "퍼센트 향상" 기능이 가장 현실적인 문제에 그다지 유용하지 않게 만듭니다.

나는 옵션 4에 대해 55%, 옵션 2에 대해 45%를 기대하고 있다고 생각하지만 변경하기 전에 다른 관점을 듣고 싶습니다!

freddyaboulton 에 2021년 02월 01일

👍1

오늘 스탠드업에서 우리는 "기준보다 나은 pct" 동작을 업데이트할 시간을 결정했습니다. 위의 옵션 2와 4를 사용합니다.

경계가 없는 목표(MSE, 로그 손실 등)에 상대적 차이 사용
경계가 [0, 1]인 대물렌즈(AUC, R2 등)에 절대차 사용
피어슨 상관 관계([-1, 1])와 같은 극단적인 경우를 처리해야 합니다.
0으로 나누기 오류가 있는 경우 nan inf 를 반환합니다.

@freddyaboulton 이것이 우리가 논의한 것과 일치합니까?

dsherry 에 2021년 02월 04일

👍1

좋다. :-)

rpeck 에 2021년 02월 08일

🎉3

추가: 나는 그 결정에 동의합니다. IMO, 메트릭이 [보통, 적어도] 0..1이면 0에서 0.2로 이동하면 수학적으로는 그렇지 않더라도 20% 개선처럼 느껴집니다. 어떤 면에서 이것은 수량의 log 를 취하지만 0의 log 를 취하지 않도록 먼저 1을 추가하는 모든 공식을 생각나게 합니다. :slightly_smiling_face:

rpeck 에 2021년 02월 08일

👍2

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Evalml: 기준선이 0인 일부 목표의 경우 "기준선보다 나은 비율"은 nan입니다.

가장 유용한 댓글

모든 9 댓글

관련 문제