Xgboost: [R] 모델이 디스크에 저장될 때 조기 중지에서 가장 좋은 반복 인덱스가 삭제됩니다.

에 만든 2020년 01월 15일 · 33코멘트 · 출처: dmlc/xgboost

다음 값은 xgboost::xgb.train 다음에 예측됩니다.
247367.2 258693.3 149572.2 201675.8 250493.9 292349.2 414828.0 296503.2 260851.9 190413.3

이 값은 이전 모델의 xgboost::xgb.save 및 xgboost::xgb.load 다음에 예측됩니다.
247508.8 258658.2 149252.1 201692.6 250458.1 292313.4 414787.2 296462.5 260879.0 190430.1

그들은 가깝지만 동일하지는 않습니다. 이 두 예측의 차이는 25,000개 샘플 세트에서 -1317.094 에서 1088.859 입니다. 실제 레이블과 비교할 때 이 두 예측의 MAE/RMSE는 크게 다르지 않습니다.

따라서 MAE/RMSE가 크게 다르지 않기 때문에 로드/저장 중 반올림 오류와 관련이 있다고 생각합니다. 그래도 모델을 저장하는 바이너리가 반올림 오류를 발생시키지 않아야 하기 때문에 이것이 이상하다고 생각합니까?

누군가 단서?

PS 여기에서는 교육 과정을 업로드하고 문서화하는 것이 중요하지 않은 것 같습니다. 필요한 경우 세부 정보를 제공하거나 요점을 증명하기 위해 더미 데이터로 시뮬레이션을 만들 수 있습니다.

Blocking bug

출처

DavorJ

가장 유용한 댓글

수수께끼가 풀렸습니다. 진짜 원인을 알아냈습니다. 모델이 디스크에 저장되면 조기 중지에 대한 정보가 삭제됩니다. 예제에서 XGBoost는 6381개의 부스팅 라운드를 실행하고 6378개의 라운드에서 최상의 모델을 찾습니다. 메모리의 모델 개체에는 제거된 트리가 없기 때문에 6378개의 트리가 아니라 6381개의 트리가 있습니다. 어떤 반복이 가장 좋았는지 기억하는 추가 필드 best_iteration 가 있습니다.

> fit$best_iteration
[1] 6378

이 추가 필드는 모델을 디스크에 저장할 때 자동으로 삭제됩니다. 그래서 predict() 원래 모델은 반면, 6378 그루의 나무를 사용하여 predict() (가) 모델이 6,381 그루의 나무를 사용하여 복구와 함께.

> x <- predict(fit, newdata = dtrain2, predleaf = TRUE)
> x2 <- predict(fit.loaded, newdata = dtrain2, predleaf = TRUE)
> dim(x)
[1] 5000 6378
> dim(x2)
[1] 5000 6381

hcho3 에 2020년 04월 20일

🎉1 👍1

모든 33 댓글

바이너리 또는 json 모두에 대해 반올림 오류가 없어야 합니다. 다트를 사용하고 있습니까?

trivialfis 에 2020년 01월 16일

아니 나는 아냐:

params <- list(objective = 'reg:squarederror',
               max_depth = 10, eta = 0.02, subsammple = 0.5,
               base_score = median(xgboost::getinfo(xgb.train, 'label'))
)

xgboost::xgb.train(
  params = params, data = xgb.train,
  watchlist = list('train' = xgb.train, 'test' = xgb.test),
  nrounds = 10000, verbose = TRUE, print_every_n = 25,
  eval_metric = 'mae',
  early_stopping_rounds = 3, maximize = FALSE)

DavorJ 에 2020년 01월 16일

이 현상이 발생하는 더미 데이터를 제공할 수 있습니까?

hcho3 에 2020년 01월 16일

여기 있습니다(Quick & Dirty):

N <- 100000
set.seed(2020)
X <- data.frame('X1' = rnorm(N), 'X2' = runif(N), 'X3' = rpois(N, lambda = 1))
Y <- with(X, X1 + X2 - X3 + X1*X2^2 - ifelse(X1 > 0, 2, X3))

params <- list(objective = 'reg:squarederror',
               max_depth = 5, eta = 0.02, subsammple = 0.5,
               base_score = median(Y)
)

dtrain <- xgboost::xgb.DMatrix(data = data.matrix(X), label = Y)

fit <- xgboost::xgb.train(
  params = params, data = dtrain,
  watchlist = list('train' = dtrain),
  nrounds = 10000, verbose = TRUE, print_every_n = 25,
  eval_metric = 'mae',
  early_stopping_rounds = 3, maximize = FALSE
)

pred <- stats::predict(fit, newdata = dtrain)

xgboost::xgb.save(fit, 'booster.raw')
fit.loaded <- xgboost::xgb.load('booster.raw')

pred.loaded <- stats::predict(fit.loaded, newdata = dtrain)

identical(pred, pred.loaded)
pred[1:10]
pred.loaded[1:10]

sqrt(mean((Y - pred)^2))
sqrt(mean((Y - pred.loaded)^2))

내 컴퓨터에서 identical(pred, pred.loaded) 는 FALSE입니다(즉, TRUE여야 함). 다음은 마지막 명령의 출력입니다.

> identical(pred, pred.loaded)
[1] FALSE
> pred[1:10]
 [1] -4.7971768 -2.5070562 -0.8889422 -4.9199696 -4.4374819 -0.2739395 -0.9825708  0.4579227  1.3667605 -4.3333349
> pred.loaded[1:10]
 [1] -4.7971768 -2.5070562 -0.8889424 -4.9199696 -4.4373770 -0.2739397 -0.9825710  0.4579227  1.3667605 -4.3333349
> 
> sqrt(mean((Y - pred)^2))
[1] 0.02890702
> sqrt(mean((Y - pred.loaded)^2))
[1] 0.02890565

예측이 때때로 약간 다르다는 것을 알 수 있습니다. 컴퓨터에서 예제 코드를 다시 실행하고 동일한 문제가 있는지 확인할 수 있습니까?

R 및 xgboost에 대한 추가 정보:

> sessionInfo()
R version 3.6.1 (2019-07-05)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)

Matrix products: default

locale:
[1] LC_COLLATE=English_United States.1252  LC_CTYPE=English_United States.1252    LC_MONETARY=English_United States.1252 LC_NUMERIC=C                          
[5] LC_TIME=English_United States.1252    

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

loaded via a namespace (and not attached):
 [1] compiler_3.6.1    magrittr_1.5      Matrix_1.2-17     tools_3.6.1       yaml_2.2.0        xgboost_0.90.0.2  stringi_1.4.3     grid_3.6.1       
 [9] data.table_1.12.4 lattice_0.20-38

또한 다음 사항에 유의하십시오.

> identical(fit$raw, fit.loaded$raw)
[1] TRUE

DavorJ 에 2020년 01월 16일

스크립트 주셔서 감사합니다. 그냥 업데이트, 나는 다음을 사용하여 json과 바이너리 파일에 저장하여 실행했습니다.

xgboost::xgb.save(fit, 'booster.json')
fit.loaded <- xgboost::xgb.load('booster.json')

xgboost::xgb.save(fit.loaded, 'booster-1.json')

booster.json 및 booster-1.json 의 해시 값 (via sha256sum ./booster.json )은 정확히 동일하므로 부동 소수점 연산으로 인해 어딘가에 불일치가 있는 것으로 추측됩니다.

trivialfis 에 2020년 01월 16일

원인을 모른 채 이슈를 종료하는 이유는 무엇입니까?

DavorJ 에 2020년 02월 05일

@trivialfis identical(pred, pred.loaded) 대해 True를 얻었 습니까? OP는 두 모델이 동일한 이진 서명을 가지고 있음에도 불구하고 예측이 일치하지 않는 이유를 묻습니다.

hcho3 에 2020년 02월 05일

직접 재현해 보겠습니다.

hcho3 에 2020년 02월 05일

죄송합니다. 내가 찾은 원인은 예측 캐시입니다. 모델을 로드한 후 예측 값은 캐시된 값 대신 실제 예측에서 가져옵니다.

그래서 내 추측은 부동 소수점 산술로 인한 불일치가 어딘가에 있다는 것입니다.

trivialfis 에 2020년 02월 05일

그렇다면 예측 캐시는 파괴적인 방식으로 부동 소수점 산술과 상호 작용합니까?

hcho3 에 2020년 02월 05일

@hcho3 새로운 산세공법을 구현하면서 발견한 문제입니다. 여기서 중요한 역할을 한다고 생각합니다. 따라서 먼저 나무의 수를 1000으로 줄이십시오(이는 여전히 꽤 크고 데모용으로 충분해야 함).

캐시를 방해하지 않도록 예측하기 전에 DMatrix를 다시 구성합니다.

dtrain_2 <- xgboost::xgb.DMatrix(data = data.matrix(X), label = Y)

pred <- stats::predict(fit, newdata = dtrain_2)

identical 테스트를 통과합니다. 그렇지 않으면 실패합니다.

더 많은 나무에 들어가는 동일한 테스트에는 여전히 작은 차이가 있습니다(2000그루의 나무에 대해 1e-7). 하지만 멀티 쓰레드 환경에서도 비트 단위로 동일한 결과를 생성해야 합니까?

trivialfis 에 2020년 02월 05일

부동 소수점 합계는 연관되지 않으므로 원하는 경우 계산 순서를 강력하게 보장하기 위해 할 일 항목으로 만들 수 있습니다.

trivialfis 에 2020년 02월 05일

실제로 주문을 강력하게 보장하는 것은 효과가 없을 것입니다(많은 도움이 될 것이지만 여전히 불일치가 있을 것입니다). CPU FPU 레지스터의 부동 소수점은 더 높은 정밀도를 가질 수 있으며 메모리에 다시 저장될 수 있습니다. (하드웨어 구현은 중간 값에 더 높은 정밀도를 사용할 수 있습니다. https://en.wikipedia.org/wiki/Extended_precision). 내 요점은 1000개의 트리에 대한 결과가 32비트 부동 소수점 내에서 정확히 재현될 때 프로그래밍 버그가 아닐 가능성이 있다는 것입니다.

trivialfis 에 2020년 02월 05일

부동 소수점 합계가 연관되지 않는다는 데 동의합니다. 스크립트를 직접 실행하고 그 차이가 부동 소수점 산술에 기인할 만큼 충분히 작은지 확인합니다.

일반적으로 두 개의 float 배열이 서로 거의 같은지 테스트하기 위해 일반적으로 np.testing.assert_almost_equal 를 decimal=5 와 함께 사용합니다.

hcho3 에 2020년 02월 05일

예. 자세한 설명 없이 종료된 점 사과드립니다.

trivialfis 에 2020년 02월 05일

👍1

@hcho3 업데이트가 있습니까?

trivialfis 에 2020년 04월 15일

아직 해결하지 못했습니다. 이번 주에 살펴보겠습니다.

hcho3 에 2020년 04월 15일

@trivialfis 버그를 재현할 수 있었습니다. 제공된 스크립트를 실행하고 FALSE 대해 identical(pred, pred.loaded) FALSE 를) 받았습니다. 나는 당신이 제안한대로 새로운 DMatrix dtrain_2 를 만들려고 시도했지만 여전히 테스트를 위해 FALSE 를 얻었습니다.

@DavorJ 스크립트의 출력:

[1] FALSE     # identical(pred, pred.loaded)
 [1] -4.7760534 -2.5083885 -0.8860036 -4.9163256 -4.4455137 -0.2548684
 [7] -0.9745615  0.4646015  1.3602829 -4.3288369     # pred[1:10]
 [1] -4.7760534 -2.5083888 -0.8860038 -4.9163256 -4.4454765 -0.2548686
 [7] -0.9745617  0.4646015  1.3602829 -4.3288369     # pred.loaded[1:10]
[1] 0.02456085   # MSE on pred
[1] 0.02455945   # MSE on pred.loaded

dtrain_2 <- xgboost::xgb.DMatrix(data = data.matrix(X), label = Y) 하여 수정된 스크립트의 출력:

[1] FALSE     # identical(pred, pred.loaded)
 [1] -4.7760534 -2.5083885 -0.8860036 -4.9163256 -4.4455137 -0.2548684
 [7] -0.9745615  0.4646015  1.3602829 -4.3288369     # pred[1:10]
 [1] -4.7760534 -2.5083888 -0.8860038 -4.9163256 -4.4454765 -0.2548686
 [7] -0.9745617  0.4646015  1.3602829 -4.3288369     # pred.loaded[1:10]
[1] 0.02456085   # MSE on pred
[1] 0.02455945   # MSE on pred.loaded

따라서 다른 일이 진행되고 있어야 합니다.

또한 왕복 테스트를 실행해 보았습니다.

xgboost::xgb.save(fit, 'booster.raw')
fit.loaded <- xgboost::xgb.load('booster.raw')
xgboost::xgb.save(fit.loaded, 'booster.raw.roundtrip')

두 바이너리 파일 booster.raw 및 booster.raw.roundtrip 는 동일했습니다.

hcho3 에 2020년 04월 20일

pred 와 pred.loaded 사이의 최대 차이는 0.0008370876입니다.

hcho3 에 2020년 04월 20일

더 빠르게 실행되는 더 작은 예:

library(xgboost)

N <- 5000
set.seed(2020)
X <- data.frame('X1' = rnorm(N), 'X2' = runif(N), 'X3' = rpois(N, lambda = 1))
Y <- with(X, X1 + X2 - X3 + X1*X2^2 - ifelse(X1 > 0, 2, X3))

params <- list(objective = 'reg:squarederror',
               max_depth = 5, eta = 0.02, subsammple = 0.5,
               base_score = median(Y)
)

dtrain <- xgboost::xgb.DMatrix(data = data.matrix(X), label = Y)

fit <- xgboost::xgb.train(
  params = params, data = dtrain,
  watchlist = list('train' = dtrain),
  nrounds = 10000, verbose = TRUE, print_every_n = 25,
  eval_metric = 'mae',
  early_stopping_rounds = 3, maximize = FALSE
)

pred <- stats::predict(fit, newdata = dtrain)

invisible(xgboost::xgb.save(fit, 'booster.raw'))
fit.loaded <- xgboost::xgb.load('booster.raw')
invisible(xgboost::xgb.save(fit.loaded, 'booster.raw.roundtrip'))

pred.loaded <- stats::predict(fit.loaded, newdata = dtrain)

identical(pred, pred.loaded)
pred[1:10]
pred.loaded[1:10]
max(abs(pred - pred.loaded))

sqrt(mean((Y - pred)^2))
sqrt(mean((Y - pred.loaded)^2))

산출:

[1] FALSE
 [1] -2.4875379 -0.9452241 -6.9658904 -2.9985323 -4.2192593 -0.8505422
 [7] -0.3928839 -1.6886091 -1.3611379 -3.1278882
 [1] -2.4875379 -0.9452239 -6.9658904 -2.9985323 -4.2192593 -0.8505420
 [7] -0.3928837 -1.6886090 -1.3611377 -3.1278882
[1] 0.0001592636
[1] 0.01370754
[1] 0.01370706

hcho3 에 2020년 04월 20일

한 번의 추가 왕복을 시도했는데 이제 예측이 더 이상 변경되지 않습니다.

library(xgboost)

N <- 5000
set.seed(2020)
X <- data.frame('X1' = rnorm(N), 'X2' = runif(N), 'X3' = rpois(N, lambda = 1))
Y <- with(X, X1 + X2 - X3 + X1*X2^2 - ifelse(X1 > 0, 2, X3))

params <- list(objective = 'reg:squarederror',
               max_depth = 5, eta = 0.02, subsammple = 0.5,
               base_score = median(Y)
)

dtrain <- xgboost::xgb.DMatrix(data = data.matrix(X), label = Y)

fit <- xgboost::xgb.train(
  params = params, data = dtrain,
  watchlist = list('train' = dtrain),
  nrounds = 10000, verbose = TRUE, print_every_n = 25,
  eval_metric = 'mae',
  early_stopping_rounds = 3, maximize = FALSE
)

pred <- stats::predict(fit, newdata = dtrain)

invisible(xgboost::xgb.save(fit, 'booster.raw'))
fit.loaded <- xgboost::xgb.load('booster.raw')
invisible(xgboost::xgb.save(fit.loaded, 'booster.raw.roundtrip'))
fit.loaded2 <- xgboost::xgb.load('booster.raw.roundtrip')

pred.loaded <- stats::predict(fit.loaded, newdata = dtrain)
pred.loaded2 <- stats::predict(fit.loaded2, newdata = dtrain)

identical(pred, pred.loaded)
identical(pred.loaded, pred.loaded2)
pred[1:10]
pred.loaded[1:10]
pred.loaded2[1:10]
max(abs(pred - pred.loaded))
max(abs(pred.loaded - pred.loaded2))

sqrt(mean((Y - pred)^2))
sqrt(mean((Y - pred.loaded)^2))
sqrt(mean((Y - pred.loaded2)^2))

결과:

[1] FALSE
[1] TRUE
 [1] -2.4875379 -0.9452241 -6.9658904 -2.9985323 -4.2192593 -0.8505422
 [7] -0.3928839 -1.6886091 -1.3611379 -3.1278882
 [1] -2.4875379 -0.9452239 -6.9658904 -2.9985323 -4.2192593 -0.8505420
 [7] -0.3928837 -1.6886090 -1.3611377 -3.1278882
 [1] -2.4875379 -0.9452239 -6.9658904 -2.9985323 -4.2192593 -0.8505420
 [7] -0.3928837 -1.6886090 -1.3611377 -3.1278882
[1] 0.0001592636
[1] 0
[1] 0.01370754
[1] 0.01370706
[1] 0.01370706

따라서 예측 캐시가 실제로 문제일 수 있습니다.

hcho3 에 2020년 04월 20일

예측 캐싱을 비활성화한 상태에서 스크립트를 다시 실행했습니다.

diff --git a/src/predictor/cpu_predictor.cc b/src/predictor/cpu_predictor.cc
index ebc15128..c40309bc 100644
--- a/src/predictor/cpu_predictor.cc
+++ b/src/predictor/cpu_predictor.cc
@@ -259,7 +259,7 @@ class CPUPredictor : public Predictor {
     // delta means {size of forest} * {number of newly accumulated layers}
     uint32_t delta = end_version - beg_version;
     CHECK_LE(delta, model.trees.size());
-    predts->Update(delta);
+    //predts->Update(delta);

     CHECK(out_preds->Size() == output_groups * dmat->Info().num_row_ ||
           out_preds->Size() == dmat->Info().num_row_);

(예측 캐싱을 비활성화하면 훈련 속도가 매우 느려집니다.)

산출:

[1] FALSE
[1] TRUE
 [1] -2.4908853 -0.9507379 -6.9615889 -2.9935317 -4.2165089 -0.8543566
 [7] -0.3940181 -1.6930715 -1.3572118 -3.1403396
 [1] -2.4908853 -0.9507380 -6.9615889 -2.9935317 -4.2165089 -0.8543567
 [7] -0.3940183 -1.6930716 -1.3572119 -3.1403399
 [1] -2.4908853 -0.9507380 -6.9615889 -2.9935317 -4.2165089 -0.8543567
 [7] -0.3940183 -1.6930716 -1.3572119 -3.1403399
[1] 0.0001471043
[1] 0
[1] 0.01284297
[1] 0.01284252
[1] 0.01284252

따라서 예측 캐시는 확실히 이 버그의 원인이 아닙니다 .

hcho3 에 2020년 04월 20일

리프 예측도 다양합니다.

invisible(xgboost::xgb.save(fit, 'booster.raw'))
fit.loaded <- xgboost::xgb.load('booster.raw')
invisible(xgboost::xgb.save(fit.loaded, 'booster.raw.roundtrip'))
fit.loaded2 <- xgboost::xgb.load('booster.raw.roundtrip')

x <- predict(fit, newdata = dtrain2, predleaf = TRUE)
x2 <- predict(fit.loaded, newdata = dtrain2, predleaf = TRUE)
x3 <- predict(fit.loaded2, newdata = dtrain2, predleaf = TRUE)

identical(x, x2)
identical(x2, x3)

산출:

[1] FALSE
[1] TRUE

hcho3 에 2020년 04월 20일

> fit$best_iteration
[1] 6378

> x <- predict(fit, newdata = dtrain2, predleaf = TRUE)
> x2 <- predict(fit.loaded, newdata = dtrain2, predleaf = TRUE)
> dim(x)
[1] 5000 6378
> dim(x2)
[1] 5000 6381

hcho3 에 2020년 04월 20일

🎉1 👍1

@trivialfis 나는 물리적으로 나무를 제거하는 경향이 있습니다. 훈련이 6381 라운드에서 중지되고 최상의 반복이 6378 라운드에서 중단된 경우 사용자는 최종 모델에 6378 트리가 있을 것으로 예상할 것입니다.

hcho3 에 2020년 04월 20일

@ hcho3 https://github.com/dmlc/xgboost/issues/4052 에서 비슷한 문제라고 생각합니다.

bset_iteration 는 xgboost::xgb.attr 통해 액세스할 수 있는 Learner::attributes_ 저장해야 합니다.

trivialfis 에 2020년 04월 20일

@hcho3 , 좋은 발견!

xgboost:::predict.xgb.Booster() 문서도 참고하십시오.

내가 올바르게 이해했다면 문서가 완전히 정확하지 않습니까? 문서를 기반으로 예측이 이미 모든 트리를 사용했다고 예상했습니다. 불행히도 나는 이것을 확인하지 못했습니다.

DavorJ 에 2020년 04월 20일

@DavorJ 조기 정지가 활성화되면 predict() 는 best_iteration 필드를 사용하여 예측을 얻습니다.

hcho3 에 2020년 04월 20일

👍1

@trivialfis 상황은 Python 측에서 더 나쁩니다. xgb.predict() 는 조기 중지의 정보를 전혀 사용하지 않기 때문입니다.

import xgboost as xgb
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split

X, y = load_boston(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

params = {'objective': 'reg:squarederror'}

bst = xgb.train(params, dtrain, 100, [(dtrain, 'train'), (dtest, 'test')],
                early_stopping_rounds=5)

x = bst.predict(dtrain, pred_leaf=True)
x2 = bst.predict(dtrain, pred_leaf=True, ntree_limit=bst.best_iteration)
print(x.shape)
print(x2.shape)

pred = bst.predict(dtrain)
pred2 = bst.predict(dtrain, ntree_limit=bst.best_iteration)

print(np.max(np.abs(pred - pred2)))

산출:

Will train until test-rmse hasn't improved in 5 rounds.
[1]     train-rmse:12.50316     test-rmse:11.92709
...
[25]    train-rmse:0.56720      test-rmse:2.56874
[26]    train-rmse:0.54151      test-rmse:2.56722
[27]    train-rmse:0.51842      test-rmse:2.56124
[28]    train-rmse:0.47489      test-rmse:2.56640
[29]    train-rmse:0.45489      test-rmse:2.58780
[30]    train-rmse:0.43093      test-rmse:2.59385
[31]    train-rmse:0.41865      test-rmse:2.59364
[32]    train-rmse:0.40823      test-rmse:2.59465
Stopping. Best iteration:
[27]    train-rmse:0.51842      test-rmse:2.56124
(404, 33)
(404, 27)
0.81269073

사용자는 predict() 호출할 때 bst.best_iteration 를 가져와 ntree_limit 인수로 전달해야 합니다. 이것은 오류가 발생하기 쉽고 불쾌한 놀라움을 줍니다.

수정을 위한 두 가지 옵션이 있습니다.

best_iteration 지난 나무를 물리적으로 삭제합니다.
모델을 직렬화할 때 best_iteration 정보를 유지하고 predict() 함수에서 사용하도록 합니다.

hcho3 에 2020년 04월 20일

@hcho3 process_type = update 옵션 및 포리스트와 관련하여 이에 대해 반쯤 구운 아이디어가 있습니다.

배경

문제의 짧은 요점을 되풀이 위해 우리와 함께이 update 경우, num_boost_round 사용 update 이미 존재하는 나무의 수보다 적은이다, 업데이트되지 않습니다 그 나무가 제거됩니다 .

포리스트 관련 문제에 대한 간략한 소개를 위해 predict 함수는 반복 대신 특정 수의 트리가 필요하므로 best_iteration 는 포리스트에 적용되지 않습니다. 따라서 Python에는 best_ntree_limit 라는 것이 있습니다. , 그것은 나에게 매우 혼란 스럽습니다. 나는 명시 적으로 대체 ntree_limit 에 inplace_predict 와 iteration_range 이 속성을 피하기 위해.

아이디어

slice 및 concat 메서드를 booster 에 추가하고 싶습니다. 이 메서드는 나무를 2개의 모델로 추출하고 2개의 모델에서 1개의 나무를 연결합니다. 이 두 가지 방법이 있다면 :

base_margin_ 는 더 이상 필요하지 않으며 다른 사용자에게 더 직관적이라고 생각합니다.
예측에서 ntree_limit 는 더 이상 필요하지 않습니다. 모델을 슬라이스하고 슬라이스에서 예측을 실행하기만 하면 됩니다.
update 프로세스는 독립적이며 num_boost_rounds 없이 한 번에 조각으로 트리를 업데이트합니다.

더 나아가

또한 이것이 어떻게 든 다중 대상 나무와 연결되어 있다고 생각합니다. 미래에 다중 클래스 다중 대상 트리를 지원할 수 있는 것처럼 각 클래스 또는 각 대상에 대해 output_groups 를 사용하여 숲 및 벡터 잎과 쌍을 이루는 등 트리를 정렬하는 여러 방법이 있을 것입니다. ntree_limit 로는 충분하지 않습니다.

또한 #5531 .

trivialfis 에 2020년 04월 20일

그러나 아이디어는 매우 초기에 있어서 공유할 자신이 없었습니다. 이제 우리는 이 문제에 대해 이야기하고 있습니다. 아마도 이에 대한 정보를 얻을 수 있을 것입니다.

trivialfis 에 2020년 04월 20일

1.1 타임라인이 주어지면 사용자가 예측에서 이 최상의 반복을 수동으로 캡처하고 사용해야 하는 방법을 명확히 하기 위해 문서를 확장할 수 있습니까?
릴리스 정보의 알려진 문제에 추가하시겠습니까?

JohnZed 에 2020년 04월 21일

@trivialfis 는 이렇게 하여 구성 문제를 더 이상 복잡하게 만들지 않는 한 흥미롭게 들립니다.

@hcho3 이 제안한 대로 모델에서 추가 트리를 삭제하는 것은 실제 모델 길이와 이론적인 모델 길이를 동시에 가질 때 불일치를 처리할 필요가 없기 때문에 매력적입니다.

RAMitchell 에 2020년 04월 21일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급