Evalml: 실적이 저조한 스택 앙상블

에 만든 2021년 04월 06일 · 11코멘트 · 출처: alteryx/evalml

재현 단계:

evalml에 행복 데이터 세트 로드
앙상블을 포함할 만큼 충분히 오래 실행
기준 회귀분석은 누적 회귀분석보다 순위가 높은 것으로 표시됩니다.
행복 데이터 Full Set.csv.zip

bug performance

출처

dancuarini

👀1

모든 11 댓글

@dancuarini 나는 이것을 로컬에서 재현하려고했지만 할 수 없었습니다. AutoMLSearch를 실행하기 전에 추가 단계(예: 데이터 분할 크기, 열 삭제) 때문일 수 있습니다. 문제 구성에 대해 이야기합시다!

로컬에서 실행하려고 시도한 내용은 다음과 같습니다.

from evalml.automl import AutoMLSearch
import pandas as pd
import woodwork as ww
from evalml.automl.callbacks import raise_error_callback

happiness_data_set = pd.read_csv("Happiness Data Full Set.csv")
y = happiness_data_set['Happiness']
X = happiness_data_set.drop(['Happiness'], axis=1)
# display(X.head())

X = ww.DataTable(X)
X_train, X_holdout, y_train, y_holdout = evalml.preprocessing.split_data(X, y, problem_type='regression', test_size=0.2, random_seed=0)
# print(X.types)

automl = AutoMLSearch(X, y, problem_type="regression", objective="MAE", error_callback=raise_error_callback, max_batches=20, ensembling=True)
automl.search()

그 결과 다음과 같은 순위가 나타납니다.

angela97lin 에 2021년 04월 12일

현재 진행 상황: @dancuarini 와 로컬에서 문제 에 대해 논의했으며 @Cmancuso 와 계속 연락할 것입니다.

angela97lin 에 2021년 04월 13일

@angela97lin 잠깐만,

재생산 공유해주셔서 감사합니다 :)

dsherry 에 2021년 04월 13일

@dsherry 스택형 앙상블러가 맨 위에 있지 않다는 것이 약간 의심

angela97lin 에 2021년 04월 13일

👍1

@angela97lin 아 네 이해했습니다! 내가 당신에게 몇 가지 메모를 보냈습니다.

나는 우리의 앙상블이 항상 정상에 가깝지 않다는 증거가 문제라고 생각합니다.

dsherry 에 2021년 04월 14일

이것을 조금 더 파십시오. 앙상블러가 이 데이터 세트에서 제대로 작동하지 않는 데에는 몇 가지 잠재적인 이유가 있다고 생각합니다.

데이터 세트는 정말 작으며 현재 데이터 분할 전략은 앙상블러에 매우 작은 데이터 하위 집합이 제공되고 검증됨을 의미합니다. 지금 당장 스택형 앙상블러를 훈련시키려면 앙상블러가 훈련할 데이터( ensembling_indices 식별)를 분할합니다. 이것은 입력 파이프라인이 이미 훈련된 것과 동일한 데이터에 대한 금속 학습기를 훈련하여 앙상블러를 과적합하는 것을 방지하기 위한 것입니다. 그런 다음 하나의 CV 분할을 수행하여 ensembling_indices 에서 데이터를 추가로 분할합니다. 128개 행의 이 데이터 세트에 대해 각각 17개 및 8개 행에 대해 학습하고 유효성을 검사합니다. 이 추가 CV 분할을 수행할지 여부를 논의하기 위해 #2144를 제출했습니다.
우리의 앙상블은 현재 발견된 각 모델 패밀리의 최상의 파이프라인을 선택하고 이를 스택형 앙상블의 입력 파이프라인으로 사용하여 구성됩니다. 그러나 일부 입력 파이프라인의 성능이 매우 저조하면 스택 앙상블러가 고성능 개별 파이프라인만큼 성능을 발휘하지 못할 수 있습니다.

예를 들어 다음은 최종 순위 테이블입니다.

우리는 stacked ensemble이 중간에 올바른 smack을 수행한다는 것을 알아차렸습니다. 우리가 단순화하고 stacked ensemble이 입력 파이프라인의 예측을 평균화한다고 말하면 이것은 의미가 있습니다. 내 가설을 테스트하기 위해 모든 모델 패밀리가 아니라 스택형 앙상블보다 성능이 더 좋은 모델 패밀리만 사용하기로 결정했고 결과 점수가 개별 파이프라인보다 훨씬 더 나은 성능을 발휘한다는 것을 알았습니다. 이것은 저로 하여금 성능이 좋지 않은 개별 파이프라인이 스택 앙상블러의 성능을 악화시켰다고 믿게 만듭니다.

이에 대한 재현 코드는 다음과 같습니다.

위에서:

import pandas as pd
import woodwork as ww
happiness_data_set = pd.read_csv("Happiness Data Full Set.csv")
y = happiness_data_set['Happiness']
X = happiness_data_set.drop(['Happiness'], axis=1)

X = ww.DataTable(X)
X_train, X_holdout, y_train, y_holdout = evalml.preprocessing.split_data(X, y, problem_type='regression', test_size=0.25, random_seed=0)

automl = AutoMLSearch(X, y, problem_type="regression", objective="MAE", error_callback=raise_error_callback, max_batches=10, ensembling=True)
automl.search()


import woodwork as ww
from evalml.automl.engine import train_and_score_pipeline
from evalml.automl.engine.engine_base import JobLogger

# Get the pipelines fed into the ensemble but only use the ones better than the stacked ensemble
input_pipelines = []
input_info = automl._automl_algorithm._best_pipeline_info
from evalml.model_family import ModelFamily

trimmed = dict()
trimmed.update({ModelFamily.RANDOM_FOREST: input_info[ModelFamily.RANDOM_FOREST]})
trimmed.update({ModelFamily.XGBOOST: input_info[ModelFamily.XGBOOST]})
trimmed.update({ModelFamily.DECISION_TREE: input_info[ModelFamily.EXTRA_TREES]})

for pipeline_dict in trimmed.values():
    pipeline_class = pipeline_dict['pipeline_class']
    pipeline_params = pipeline_dict['parameters']
    input_pipelines.append(pipeline_class(parameters=automl._automl_algorithm._transform_parameters(pipeline_class, pipeline_params),
                                                      random_seed=automl._automl_algorithm.random_seed))
ensemble_pipeline = _make_stacked_ensemble_pipeline(input_pipelines, "regression")
X_train = X.iloc[automl.ensembling_indices]
y_train = ww.DataColumn(y.iloc[automl.ensembling_indices])
train_and_score_pipeline(ensemble_pipeline, automl.automl_config, X_train, y_train, JobLogger())

이 세 가지 모델 제품군을 사용하면 ~0.22의 MAE 점수를 얻을 수 있으며 이는 개별 파이프라인보다 훨씬 우수합니다.

#output of train_and_score_pipeline(ensemble_pipeline, automl.automl_config, X_train, y_train, JobLogger())
{'scores': {'cv_data': [{'all_objective_scores': OrderedDict([('MAE',
                  0.22281276417465426),
                 ('ExpVariance', 0.9578811127332543),
                 ('MaxError', 0.3858477236606914),
                 ('MedianAE', 0.2790362808260225),
                 ('MSE', 0.0642654425375983),
                 ('R2', 0.9152119239698017),
                 ('Root Mean Squared Error', 0.2535062968401343),
                 ('# Training', 17),
                 ('# Validation', 9)]),
    'mean_cv_score': 0.22281276417465426,
    'binary_classification_threshold': None}],
  'training_time': 9.944366216659546,
  'cv_scores': 0    0.222813
  dtype: float64,
  'cv_score_mean': 0.22281276417465426},
 'pipeline': TemplatedPipeline(parameters={'Stacked Ensemble Regressor':{'input_pipelines': [GeneratedPipeline(parameters={'Imputer':{'categorical_impute_strategy': 'most_frequent', 'numeric_impute_strategy': 'most_frequent', 'categorical_fill_value': None, 'numeric_fill_value': None}, 'One Hot Encoder':{'top_n': 10, 'features_to_encode': None, 'categories': None, 'drop': 'if_binary', 'handle_unknown': 'ignore', 'handle_missing': 'error'}, 'Random Forest Regressor':{'n_estimators': 184, 'max_depth': 25, 'n_jobs': -1},}), GeneratedPipeline(parameters={'Imputer':{'categorical_impute_strategy': 'most_frequent', 'numeric_impute_strategy': 'mean', 'categorical_fill_value': None, 'numeric_fill_value': None}, 'One Hot Encoder':{'top_n': 10, 'features_to_encode': None, 'categories': None, 'drop': 'if_binary', 'handle_unknown': 'ignore', 'handle_missing': 'error'}, 'XGBoost Regressor':{'eta': 0.1, 'max_depth': 6, 'min_child_weight': 1, 'n_estimators': 100},}), GeneratedPipeline(parameters={'Imputer':{'categorical_impute_strategy': 'most_frequent', 'numeric_impute_strategy': 'mean', 'categorical_fill_value': None, 'numeric_fill_value': None}, 'One Hot Encoder':{'top_n': 10, 'features_to_encode': None, 'categories': None, 'drop': 'if_binary', 'handle_unknown': 'ignore', 'handle_missing': 'error'}, 'Extra Trees Regressor':{'n_estimators': 100, 'max_features': 'auto', 'max_depth': 6, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'n_jobs': -1},})], 'final_estimator': None, 'cv': None, 'n_jobs': -1},}),

이것은 스택형 앙상블러에 어떤 입력 파이프라인을 공급해야 하는지 다시 생각해야 하는지 궁금합니다.

우리가 사용하는 metalearner(LinearRegressor)는 최고가 아닙니다. 기본 metalearner를 RidgeCV(scikit-learn 기본값이지만 EvalML에는 없음)로 업데이트한 곳에서 생성한 stacking_test 분기를 통해 테스트했으며 앙상블러가 훨씬 더 잘 수행됩니다.

angela97lin 에 2021년 04월 16일

@dsherry와의 논의 후 다음 단계:

다른 데이터 세트에서 #1 및 #3(Elastic Net 사용)을 시도하고 성능 테스트를 실행하여 전반적으로 더 나은 성능을 얻을 수 있는지 확인하십시오.

angela97lin 에 2021년 04월 16일

@angela97lin 작은 데이터 세트에 대한 분할에 대한 귀하의 요점은 목표에 맞습니다. 결국 우리는 작은 데이터셋을 더 큰 데이터셋과 정말 다르게 처리해야 합니다. 예를 들어 LOOCV를 포함한 전체 데이터셋에 폴드 수가 많은 xval만 사용하고 앙상블 금속 학습기 훈련을 위해 폴드를 다르게 구성해야 합니다.

나는 또한 metalearner가 강력한 정규화를 사용해야 한다는 데 동의합니다. 저는 H2O-3 StackedEnsemble에서 Elastic Net을 사용했는데 앙상블이 리더보드에서 2위를 한 기억이 딱 한 번 있습니다. 매번 테스트할 때마다 1위였습니다. 정규화는 열악한 모델이 앙상블의 성능을 떨어뜨리는 것을 허용해서는 안 됩니다.

그리고 이것은 심지어 50개 모델의 전체 순위표를 metalearner에 공급하고 있었습니다. :-)

rpeck 에 2021년 04월 26일

👍1

이것에 대한 몇 가지 추가 업데이트를 게시하십시오.

모든 회귀 데이터 세트를 사용하여 로컬에서 테스트했습니다. 결과를 찾을 수 있습니다 여기 하거나 차트 여기 .

이것으로부터:

@rpeck에 동의했습니다! 강력한 정규화를 사용하도록 metalearner를 업데이트해야 합니다. ElasticNetCV는 많은 데이터 세트에서 LinearRegressor보다 더 나은 성능을 보였습니다. 이 문제는 https://github.com/alteryx/evalml/issues/1739를 추적합니다.
@dsherry 와 저는 데이터 분할 전략에 대해 다시 논의했습니다. 바로 지금, 우리는 앙상블을 위해 데이터를 분할합니다. 그러나 이것은 우리가 이 앙상블 인덱스에 대해 metalearner 가 훈련되기를 원한다는 가정 하에 있습니다. scikit-learn 구현을 사용하면 이 앙상블 인덱스 분할에 대해 StackedEnsembler 를 훈련할 때 이 작은 데이터 세트에 대해 입력 파이프라인과 metalearner를 훈련하게 됩니다. 이것이 우리가 잘 수행하지 못하는 이유일 수 있습니다. 입력 파이프라인의 매개변수는 다른 데이터를 사용하여 튜닝한 것이지만 이러한 파이프라인은 적합하지 않습니다. 장기적으로 자체 구현을 롤링하면 훈련된 파이프라인을 앙상블러에 전달할 수 있으며, 이 경우 원하는 동작을 갖게 됩니다. 현재로서는 그렇지 않습니다.

다음 단계: 앙상블러를 사용하여 수동으로 이 가설을 테스트합니다. 데이터의 80%에 대해 입력 파이프라인을 수동으로 훈련하고, 앙상블을 위해 따로 설정한 데이터에 대해 교차 검증된 예측을 생성하고, 예측을 초과하는 금속 학습기를 훈련시키십시오.

angela97lin 에 2021년 04월 28일

실험 결과가 좋아 보입니다: https://alteryx.quip.com/4hEyAaTBZDap/Ensembling-Performance-Using-More-Data

다음 단계:

홀드아웃 세트 및 검증 점수로 재확인
https://github.com/alteryx/evalml/issues/1930에 대한 디자인 문서

angela97lin 에 2021년 04월 30일

조사한 결과 문제는 앙상블의 성능이 아니라 앙상블의 성능을 보고하는 방법에 있다고 생각합니다. 현재 데이터의 20%에 해당하는 별도의 앙상블 분할을 수행한 다음 다른 train-validation 분할을 수행하고 앙상블의 점수를 validation 데이터로 보고합니다. 이것은 어떤 경우에는 앙상블 점수가 매우 적은 수의 행을 사용하여 계산된다는 것을 의미합니다(위의 행복 데이터 세트와 같이).

앙상블 인덱스 분할을 제거하고 앙상블에 대한 cv 학습 점수를 계산하는 이전 방법을 사용하여(모든 데이터 제공, 학습 및 유효성 검사를 한 겹으로 수행), 앙상블이 거의 모든 경우에서 더 높은 순위에 있음을 알 수 있습니다. 더 많은 경우에 1위입니다. 한편, 검증 점수는 동일하거나 약간 더 좋습니다.

하이퍼파라미터 튜닝을 하지 않기 때문에 입력 파이프라인은 훈련되지 않고 앙상블은 입력 파이프라인의 예측값만 입력으로 가져오기 때문에 과적합은 문제가 되지 않습니다. 자체 앙상블 구현을 다시 방문하고 분할 전략을 업데이트할 수 있지만 지금은 데이터 분할 전략과 scikit-learn의 구현을 변경하여 개선 사항을 볼 수 있습니다.

이것은 앙상블이 활성화된 경우 적합 시간을 증가시킵니다. 모든 파이프라인은 더 많은 데이터를 보고(예약된 앙상블 인덱스 없음) 앙상블은 더 많은 데이터에 대해 훈련됩니다. 나는 이것이 괜찮다고 생각한다.

결과 표: https://alteryx.quip.com/jI2mArnWZfTU/Ensembling-vs-Best-Pipeline-Validation-Scores#MKWACADlCDt

angela97lin 에 2021년 05월 12일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Evalml: 실적이 저조한 스택 앙상블

모든 11 댓글

관련 문제