Evalml: 다이아몬드 데이터 세트의 성능 저하

에 만든 2020년 10월 05일 · 3코멘트 · 출처: alteryx/evalml

문제
Automl은 R2가 음수 인 모델을 생성합니다.

재현
여기에 데이터 세트가

import evalml
import pandas as pd
import numpy as np
df = pd.read_csv('stones_encoded_small.csv')
y = df.pop('total_sales_price')
automl = evalml.automl.AutoMLSearch(problem_type='regression')
automl.search(df, y)

null / 단일 값 열로 인해 데이터 검사가 실패합니다. data_checks='disabled' 비활성화 할 수 있습니다. 또는 문제를 해결하고 계속하려면 :

cols_to_drop = ['culet_condition', 'fancy_color_dominant_color', 'fancy_color_intensity', 'fancy_color_overtone', 'fancy_color_secondary_color', 'fluor_color', 'image_file_url', 'diamond_id', 'currency_code', 'currency_symbol', 'fancy_color_dominant_color', 'fancy_color_intensity', 'fancy_color_overtone', 'fancy_color_secondary_color', 'has_sarineloupe']
df.drop(columns=cols_to_drop, inplace=True)
automl = evalml.automl.AutoMLSearch(problem_type='regression')
automl.search(df, y)

결과는 어느 쪽이든 매우 유사합니다. 모든 모델에 대해 음의 R2 값, 즉 모델이 의미있는 결과를 생성 할 수 없습니다.

메트릭을 MSE 및 MAE로 전환하면 비슷하게 불량 모델이 생성됩니다.

토론
내 첫 번째 의심은 기능이 올바른 유형을 얻지 못하고 있다는 것입니다. pandas가 추론 한 dtypes를 보면 많은 것이 float64 로 설정되어 있지만 고유 한 값이 몇 개만 있습니다. 즉, 범주 형으로 설정해야합니다. 나는 그것을 시도했지만 모델 결과를 변경하지 않는 것 같으므로 이야기에 더 많은 것이 있습니다.

bug

출처

dsherry

모든 3 댓글

안녕하세요 팀,

나는 이것이 대상 변수로 정렬 된 입력 데이터 세트와 3 중 교차 검증에 사용되는 샘플링 방법과 관련이 있다고 생각합니다. 이 데이터 세트는 최저 가격에서 최고 가격 순으로 정렬됩니다. 교차 유효성 검사가 레코드를 순서대로 분할하고 있다고 생각하므로 분할이 대상 변수에 연결되어 있습니다. 즉, R2 값이 훈련 데이터에 포함되지 않은 대상 변수 값에 대해 테스트되고 있기 때문에 실제로 낮습니다. 이 동작은 전체 데이터 세트를 검색에 제공하기 전에 셔플을 수행하여 해결됩니다.

SydneyAyx 에 2020년 10월 05일

👀2 🚀1

@SydneyAyx가 언급했듯이 데이터 세트를

import evalml
import pandas as pd
import numpy as np
from evalml.data_checks import EmptyDataChecks

df = pd.read_csv('stones_encoded_small.csv')

# shuffles data
df = df.sample(frac=1)

y = df.pop('total_sales_price')
automl = evalml.automl.AutoMLSearch(problem_type='regression')
automl.search(df, y, data_checks=EmptyDataChecks()))

gsheni 에 2020년 10월 05일

👀1

@SydneyAyx @gsheni 감사합니다! 훌륭한 탐정 작업, 천재 :)

네, 확인했습니다. automl의 기본 데이터 분할기가 현재 shuffle=True 설정되지 않은 것으로 보입니다.

@SydneyAyx @gsheni 한 가지 해결 방법은 @gsheni 가 위에 표시된대로

import evalml
import pandas as pd
import numpy as np
import sklearn.model_selection
df = pd.read_csv('stones_encoded_small.csv')
y = df.pop('total_sales_price')

data_splitter = sklearn.model_selection.KFold(n_splits=3, random_state=0, shuffle=True)
automl = evalml.automl.AutoMLSearch(problem_type='regression', data_split=data_splitter)
automl.search(df, y, data_checks='disabled')

evalml 수정으로 PR을 얻을 것입니다.

dsherry 에 2020년 10월 06일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Evalml: 다이아몬드 데이터 세트의 성능 저하

모든 3 댓글

관련 문제