Xgboost: XGBoost는 다중 클래스 분류 문제에서 클래스 확률을 어떻게 생성합니까?

에 만든 2016년 11월 08일 · 15코멘트 · 출처: dmlc/xgboost

훈련된 XGBoost 트리를 덤프하려고 하면 다음 형식으로 표시됩니다.

0:[f37<39811] 
    1:[f52<199.5] 
        3:leaf=-0.021461
        4:[f2<0.00617284] 
            9:leaf=-0.0118755
            10:[f35<-83.548] 
                19:[f13<0.693844] 
                    23:[f37<1831]
                        29:leaf=-0
                        30:leaf=0.123949
                    24:leaf=0.0108628
                20:[f35<-74.6198] 
                    25:leaf=-0.0175897
                    26:leaf=0.051898
    2:leaf=-0.0239901

트리 구조가 무엇인지는 분명하지만 리프 값을 해석하는 방법은 명확하지 않습니다. _ 이진 _ 분류 문제 및 로그 손실 비용 함수의 경우 로지스틱 함수를 사용하여 리프 값을 클래스 확률로 변환할 수 있습니다: 1/(1+exp(value)). 그러나 _multiclass_ 분류 문제의 경우 해당 값이 속한 클래스에 대한 정보가 없으며 해당 정보가 없으면 클래스 확률을 계산하는 방법이 명확하지 않습니다.

어떤 아이디어? 아니면 훈련된 트리에서 해당 정보를 가져오는 다른 기능이 있습니까?

출처

sosata

👍3

가장 유용한 댓글

그것은 내가 전에 눈치채지 못했던 아주 좋은 관찰입니다. 사실, 모델의 트리 수는 n_estimator x n_class 입니다. 그러나 나무의 순서를 파악하기 위해 다음과 같은 장난감 예를 사용했습니다.

x = np.concatenate([np.ones([10,1])*np.array([1,0,0]),np.ones([10,1])*np.array([0,1,0]),np.ones([10,1])*np.array([0,0,1])], axis=0)
y = np.array([['a']*10+['c']*10+['b']*10]).reshape([30,1])
model = xgb.XGBClassifier(n_estimators=2, objective='mlogloss').fit(x, y)
model.booster().dump_model('trees.txt')

기본적으로 [1,0,0]이 'a'에 매핑되고, [0,1,0]이 'c'에 매핑되고, [0,0,1]이 'b'에 매핑되는 훈련 데이터 세트를 생성합니다. 나는 의도적으로 'b'와 'c'의 순서를 바꿔 xgboost가 나무를 덤핑하기 전에 레이블을 기반으로 클래스를 정렬하는지 확인했습니다.

다음은 덤프된 모델입니다.

booster[0]:
0:[f0<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[1]:
0:[f2<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[2]:
0:[f1<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[3]:
0:[f0<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941
booster[4]:
0:[f2<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941
booster[5]:
0:[f1<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941

결론은 다음과 같습니다.

언급했듯이 n_estimators = 2이지만 트리 수는 2x3=6입니다.
트리가 사용하는 기능의 순서를 보면 첫 번째 트리는 첫 번째 클래스에 속하고 두 번째 트리는 두 번째 클래스에 속하는 식으로 마지막 클래스까지 이어집니다. 그런 다음 모든 추정기가 포함될 때까지 동일한 패턴이 반복됩니다.
클래스의 순서는 numpy.unique() 반환하는 것과 일치하는 것 같습니다. 여기에서는 알파벳순이므로 첫 번째 트리는 f0 을 사용하고 두 번째 트리는 f2 를 사용하는 이유입니다.

이러한 정보가 xgboost 문서에 추가되면 좋을 것입니다.

sosata 에 2016년 12월 15일

👍13

모든 15 댓글

저도 같은 질문이 있습니다. 내가 알아차린 것은 20개의 클래스가 있고 추정기의 수를 100으로 설정하면 모델에 20*100=2000개의 나무가 인쇄된다는 것입니다. 이제 내 추측으로는 처음 100명의 추정자가 일등과 다른 사람을 분류한다는 것입니다. 다음 100개의 추정기는 두 번째 클래스와 다른 클래스를 분류합니다.

확인할 수는 없지만 아마도 이와 같을 수 있습니까?

ghost 에 2016년 12월 15일

👎1 👍1

x = np.concatenate([np.ones([10,1])*np.array([1,0,0]),np.ones([10,1])*np.array([0,1,0]),np.ones([10,1])*np.array([0,0,1])], axis=0)
y = np.array([['a']*10+['c']*10+['b']*10]).reshape([30,1])
model = xgb.XGBClassifier(n_estimators=2, objective='mlogloss').fit(x, y)
model.booster().dump_model('trees.txt')

다음은 덤프된 모델입니다.

booster[0]:
0:[f0<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[1]:
0:[f2<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[2]:
0:[f1<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0674157
    2:leaf=0.122449
booster[3]:
0:[f0<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941
booster[4]:
0:[f2<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941
booster[5]:
0:[f1<0.5] yes=1,no=2,missing=1
    1:leaf=-0.0650523
    2:leaf=0.10941

결론은 다음과 같습니다.

언급했듯이 n_estimators = 2이지만 트리 수는 2x3=6입니다.
트리가 사용하는 기능의 순서를 보면 첫 번째 트리는 첫 번째 클래스에 속하고 두 번째 트리는 두 번째 클래스에 속하는 식으로 마지막 클래스까지 이어집니다. 그런 다음 모든 추정기가 포함될 때까지 동일한 패턴이 반복됩니다.
클래스의 순서는 numpy.unique() 반환하는 것과 일치하는 것 같습니다. 여기에서는 알파벳순이므로 첫 번째 트리는 f0 을 사용하고 두 번째 트리는 f2 를 사용하는 이유입니다.

이러한 정보가 xgboost 문서에 추가되면 좋을 것입니다.

sosata 에 2016년 12월 15일

👍13

지금 이 문제를 닫고 있습니다.

sosata 에 2017년 01월 24일

여기에 아직 의견이 있습니다. 다중 클래스의 경우 트리가 구조화되는 방식에 동의합니다. 그러나 리프 값은 어떻게 확률로 변환됩니까?

바이너리 케이스의 경우 1/(1+exp(value))를 적용해야 하는 반면, 다중 클래스 케이스의 경우 1/(1+exp(-value))를 적용해야 하는 것처럼 보입니다.

GillesVandewiele 에 2017년 03월 29일

사례를 보면 맞는 것 같습니다. 팁 고마워!

그러나 이것이 바이너리 및 다중 클래스 사례에 대해 다르게 정의되는 이유를 이해하지 못합니다.

sosata 에 2017년 03월 29일

네, 참으로 말해서 매우 이상하고 혼란스럽습니다.

나는 UCI Car Dataset(자동차를 허용 불가, 허용 가능, 양호 또는 매우 우수로 분류하는 곳)에서 테스트하여 그 결론에 도달했습니다.

트리를 sklearn 트리 또는 이와 유사한 것으로 변환할 수 있는 추가 기능이 있으면 좋을 것입니다. 후자, sklearn 나무 중에서 나는 이것이 올바르게 변환되었다고 적어도 100% 확신합니다. xGB 트리의 경우 의심이 남아 있습니다.

GillesVandewiele 에 2017년 03월 29일

훌륭한 기능이 될 것이라는 데 동의합니다.

sosata 에 2017년 03월 31일

@GillesVandewiele @sosata : 그래서 그 로지스틱에서 (클래스 i ) [ 1/(1+exp(-value)) ] , value 는 해당 특정 클래스의 트리 관련 항목에 해당하는 모든 리프 점수의 합계입니다. 샘플로?

mandarup 에 2017년 04월 20일

내 초기 의견의 예에서 [1 0 0]에 대한 클래스 확률을 예측하려고 하면:

print(model.predict_proba(np.array([[1,0,0]])))

다음 결과를 생성합니다.

[[ 0.41852772  0.29073614  0.29073614]]

1/(1+exp(-value)) 가 이것을 생성할 방법이 없습니다. 유일한 방법은 이러한 확률이 클래스 전체에서 합산된 값의 _softmax_ 함수에 의해 생성된다는 것입니다.

p[i] = exp(val[i])/(exp(val[1])+exp(val[2])+...+exp(val[N]))

여기서 i는 대상 클래스(N 클래스 중)이고 val[i]는 해당 클래스에 속한 트리에서 생성된 모든 값의 합입니다.
우리의 예에서:

print(np.exp(+0.122449+0.10941)/(np.exp(+0.122449+0.10941)+np.exp(-0.0674157-0.0650523)+np.exp(-0.0674157-0.0650523)))
print(np.exp(-0.0674157-0.0650523)/(np.exp(+0.122449+0.10941)+np.exp(-0.0674157-0.0650523)+np.exp(-0.0674157-0.0650523)))
print(np.exp(-0.0674157-0.0650523)/(np.exp(+0.122449+0.10941)+np.exp(-0.0674157-0.0650523)+np.exp(-0.0674157-0.0650523)))

다음을 생성합니다:

0.418527719063
0.290736140469
0.290736140469

이것이 바로 predict_proba() 함수가 제공한 것입니다.

sosata 에 2017년 04월 21일

👍9

맞는 것 같습니다 @sosata

제 경우에는 각 나무를 개별적으로 변환하고 싶었습니다(따라서 다른 나무의 잎 값을 사용하지 않음). 거기에서 시그모이드 함수가 그 일을 하는 것처럼 보였습니다.

GillesVandewiele 에 2017년 04월 21일

@sosata 어쨌든 클래스별로 기능 중요도를 얻을 수 있습니까? 현재 구현은 모든 클래스에 대한 모든 기여를 합산할 것이라고 생각합니다. 그러나 R API에는 이에 대한 매개변수가 있는 것 같습니다(https://github.com/CodingCat/xgboost/commit/e9405236a01715be1550a7e3809f36fc69ad4e8a 참조).

mlxai 에 2017년 11월 16일

@mlxai 또한 Python API만 시도했는데 클래스별로 얻을 수 있었던 기억이 없습니다.

그러나 제 생각에는 XGBoost의 기능 중요도를 해당 기능에 대한 총 분할 수로 정의하는 것은 다소 단순합니다. 개인적으로 저는 기능 세트에서 해당 기능을 제거하고 해당 기능 없이 모델을 훈련하고 테스트할 때 정확도의 결과 감소(또는 증가)를 계산하여 기능 중요도를 계산합니다. 저는 모든 기능에 대해 이 작업을 수행하고 "기능 중요도"를 정확도의 감소(또는 마이너스 증가)의 양으로 정의합니다. 각 기능 제거에 대해 다른 학습/테스트 하위 집합을 사용하여 교육 및 테스트를 여러 번 수행할 수 있으므로 기능 중요도의 신뢰 구간도 추정할 수 있습니다. 또한 클래스별로 중요도를 별도로 계산하여 클래스별 기능 중요도를 얻습니다. 이것은 분할 수를 계산하는 것보다 내 프로젝트에서 더 의미 있는 결과를 생성했습니다.

sosata 에 2017년 11월 18일

👍3

@sosata 귀하의 예는 매우 직관적이지만 각 클래스의 점수를 어떻게 산출하는지 아직 잘 모르겠습니다. 조금 설명

chrisplyn 에 2018년 01월 24일

@chrisplyn 특정 클래스에 속하는 앙상블의 모든 결정 트리를 평가하고 결과 점수를 합산합니다.

앞에서 @sosata 가 올바르게 언급했듯이 앙상블의 나무 수는 n_esimators * n_classes

GillesVandewiele 에 2018년 01월 24일

@sosata 귀하의 예는 매우 명확합니다. 매우 감사합니다!

@chrisplyn 예측 인스턴스 [1,0,0]은 부스터[0~5]로 분류되고 각각 리프 값 [0.122449, -0.0674157, -0.0674157, 0.10941, -0.0650523, -0.0650523]을 얻습니다.
부스터[0, 3]은 클래스 0에 속하고, 부스터[1, 4]는 클래스 1에 속하고, 부스터[2, 5]는 클래스 2에 속하므로 val[0] =(0.122449 + 0.10941), val[1 ] = (-0.0674157 + -0.0650523), val[2] = (-0.0674157 + -0.0650523).
더 명확합니까?

csgwma 에 2018년 03월 07일

👍1

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Xgboost: XGBoost는 다중 클래스 분류 문제에서 클래스 확률을 어떻게 생성합니까?

가장 유용한 댓글

모든 15 댓글

관련 문제