Xgboost: Нужна ли нормализация?

Созданный на 17 июн. 2015 · 3Комментарии · Источник: dmlc/xgboost

Я не совсем уверен, как работает xgboost в теории. Но поскольку xgboost - древовидный классификатор, можно ли предполагать, что нормализация функций не требуется?

Источник

frankzhangrui

Самый полезный комментарий

нет, вам не нужно нормализовать функции

tqchen 17 июн. 2015

👍5

Все 3 Комментарий

нет, вам не нужно нормализовать функции

tqchen 17 июн. 2015

👍5

Думаю, я понимаю, что в принципе нет необходимости в нормализации при бусте деревьев.

Тем не менее, можно увидеть некоторое влияние при масштабировании целевого значения y, особенно с « reg: gamma », но также (в меньшей степени) для « reg: linear » (по умолчанию). Что является причиной этого?

Пример для набора данных Boston Housing:

import numpy as np
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.datasets import load_boston

boston = load_boston()
y = boston['target']
X = boston['data']

for scale in np.logspace(-6, 6, 7):
    xgb_model = xgb.XGBRegressor().fit(X, y / scale)
    predictions = xgb_model.predict(X) * scale
    print('{} (scale={})'.format(mean_squared_error(y, predictions), scale))

2.3432734454908335 (масштаб = 1e-06)
2,343273977065266 (масштаб = 0,0001)
2,3432793874455315 (масштаб = 0,01)
2,290595204136888 (масштаб = 1,0)
2,528513393507719 (масштаб = 100,0)
7,228978353091473 (масштаб = 10000,0)
272,29640759874474 (масштаб = 1000000,0)

Влияние масштабирования y действительно велико при использовании reg: gamma :

for scale in np.logspace(-6, 6, 7):
    xgb_model = xgb.XGBRegressor(objective='reg:gamma').fit(X, y / scale)
    predictions = xgb_model.predict(X) * scale
    print('{} (scale={})'.format(mean_squared_error(y, predictions), scale))

591,6509503519147 (масштаб = 1e-06)
545,8298971540023 (масштаб = 0,0001)
37,68688286293508 (масштаб = 0,01)
4,039819858716935 (масштаб = 1,0)
2,505477263590776 (масштаб = 100,0)
198.94093800190453 (масштаб = 10000,0)
592,1469169959003 (масштаб = 1000000,0)

kdebrab 31 авг. 2018

@tqchen Читая ваше замечательное Введение в Boosted Trees, мне непонятно, почему масштабирование функций не обязательно с математической точки зрения.