Xgboost: Python에서 희소 행렬을 사용하는 동안 feature_names 불일치

에 만든 2016년 05월 31일 · 51코멘트 · 출처: dmlc/xgboost

파이썬에서 희소 행렬로 xgboost를 훈련하는 동안 ValueError: feature_names mismatch가 발생합니다.
xgboost 버전은 git의 최신 버전입니다. 이전 버전에서는 이 오류가 발생하지 않습니다. 예측 시간 동안 오류가 반환됩니다.

암호

from scipy import sparse
import xgboost as xgb
from random import *
randBinList = lambda n: [randint(0,1) for b in range(1,n+1)]

train = sparse.rand(100,500)
test = sparse.rand(10, 500)
y = randBinList(100)
clf = xgb.XGBClassifier()
clf.fit(train,y)
preds = clf.predict_proba(test)

전체 역추적:

ValueError                                Traceback (most recent call last)
<ipython-input-15-e03f10289bf1> in <module>()
----> 1 preds = clf.predict_proba(test)

/usr/local/lib/python2.7/dist-packages/xgboost-0.4-py2.7.egg/xgboost/sklearn.pyc in predict_proba(self, data, output_margin, ntree_limit)
    471         class_probs = self.booster().predict(test_dmatrix,
    472                                              output_margin=output_margin,
--> 473                                              ntree_limit=ntree_limit)
    474         if self.objective == "multi:softprob":
    475             return class_probs

/usr/local/lib/python2.7/dist-packages/xgboost-0.4-py2.7.egg/xgboost/core.pyc in predict(self, data, output_margin, ntree_limit, pred_leaf)
    937             option_mask |= 0x02
    938 
--> 939         self._validate_features(data)
    940 
    941         length = ctypes.c_ulong()

/usr/local/lib/python2.7/dist-packages/xgboost-0.4-py2.7.egg/xgboost/core.pyc in _validate_features(self, data)
   1177 
   1178                 raise ValueError(msg.format(self.feature_names,
-> 1179                                             data.feature_names))
   1180 
   1181     def get_split_value_histogram(self, feature, fmap='', bins=None, as_pandas=True):

ValueError: feature_names mismatch: ['f0', 'f1', 'f2', 'f3', 'f4', 'f5', 'f6', 'f7', 'f8', 'f9', 'f10', 'f11', 'f12', 'f13', 'f14', 'f15', 'f16', 'f17', 'f18', 'f19', 'f20', 'f21', 'f22', 'f23', 'f24', 'f25', 'f26', 'f27', 'f28', 'f29', 'f30', 'f31', 'f32', 'f33', 'f34', 'f35', 'f36', 'f37', 'f38', 'f39', 'f40', 'f41', 'f42', 'f43', 'f44', 'f45', 'f46', 'f47', 'f48', 'f49', 'f50', 'f51', 'f52', 'f53', 'f54', 'f55', 'f56', 'f57', 'f58', 'f59', 'f60', 'f61', 'f62', 'f63', 'f64', 'f65', 'f66', 'f67', 'f68', 'f69', 'f70', 'f71', 'f72', 'f73', 'f74', 'f75', 'f76', 'f77', 'f78', 'f79', 'f80', 'f81', 'f82', 'f83', 'f84', 'f85', 'f86', 'f87', 'f88', 'f89', 'f90', 'f91', 'f92', 'f93', 'f94', 'f95', 'f96', 'f97', 'f98', 'f99', 'f100', 'f101', 'f102', 'f103', 'f104', 'f105', 'f106', 'f107', 'f108', 'f109', 'f110', 'f111', 'f112', 'f113', 'f114', 'f115', 'f116', 'f117', 'f118', 'f119', 'f120', 'f121', 'f122', 'f123', 'f124', 'f125', 'f126', 'f127', 'f128', 'f129', 'f130', 'f131', 'f132', 'f133', 'f134', 'f135', 'f136', 'f137', 'f138', 'f139', 'f140', 'f141', 'f142', 'f143', 'f144', 'f145', 'f146', 'f147', 'f148', 'f149', 'f150', 'f151', 'f152', 'f153', 'f154', 'f155', 'f156', 'f157', 'f158', 'f159', 'f160', 'f161', 'f162', 'f163', 'f164', 'f165', 'f166', 'f167', 'f168', 'f169', 'f170', 'f171', 'f172', 'f173', 'f174', 'f175', 'f176', 'f177', 'f178', 'f179', 'f180', 'f181', 'f182', 'f183', 'f184', 'f185', 'f186', 'f187', 'f188', 'f189', 'f190', 'f191', 'f192', 'f193', 'f194', 'f195', 'f196', 'f197', 'f198', 'f199', 'f200', 'f201', 'f202', 'f203', 'f204', 'f205', 'f206', 'f207', 'f208', 'f209', 'f210', 'f211', 'f212', 'f213', 'f214', 'f215', 'f216', 'f217', 'f218', 'f219', 'f220', 'f221', 'f222', 'f223', 'f224', 'f225', 'f226', 'f227', 'f228', 'f229', 'f230', 'f231', 'f232', 'f233', 'f234', 'f235', 'f236', 'f237', 'f238', 'f239', 'f240', 'f241', 'f242', 'f243', 'f244', 'f245', 'f246', 'f247', 'f248', 'f249', 'f250', 'f251', 'f252', 'f253', 'f254', 'f255', 'f256', 'f257', 'f258', 'f259', 'f260', 'f261', 'f262', 'f263', 'f264', 'f265', 'f266', 'f267', 'f268', 'f269', 'f270', 'f271', 'f272', 'f273', 'f274', 'f275', 'f276', 'f277', 'f278', 'f279', 'f280', 'f281', 'f282', 'f283', 'f284', 'f285', 'f286', 'f287', 'f288', 'f289', 'f290', 'f291', 'f292', 'f293', 'f294', 'f295', 'f296', 'f297', 'f298', 'f299', 'f300', 'f301', 'f302', 'f303', 'f304', 'f305', 'f306', 'f307', 'f308', 'f309', 'f310', 'f311', 'f312', 'f313', 'f314', 'f315', 'f316', 'f317', 'f318', 'f319', 'f320', 'f321', 'f322', 'f323', 'f324', 'f325', 'f326', 'f327', 'f328', 'f329', 'f330', 'f331', 'f332', 'f333', 'f334', 'f335', 'f336', 'f337', 'f338', 'f339', 'f340', 'f341', 'f342', 'f343', 'f344', 'f345', 'f346', 'f347', 'f348', 'f349', 'f350', 'f351', 'f352', 'f353', 'f354', 'f355', 'f356', 'f357', 'f358', 'f359', 'f360', 'f361', 'f362', 'f363', 'f364', 'f365', 'f366', 'f367', 'f368', 'f369', 'f370', 'f371', 'f372', 'f373', 'f374', 'f375', 'f376', 'f377', 'f378', 'f379', 'f380', 'f381', 'f382', 'f383', 'f384', 'f385', 'f386', 'f387', 'f388', 'f389', 'f390', 'f391', 'f392', 'f393', 'f394', 'f395', 'f396', 'f397', 'f398', 'f399', 'f400', 'f401', 'f402', 'f403', 'f404', 'f405', 'f406', 'f407', 'f408', 'f409', 'f410', 'f411', 'f412', 'f413', 'f414', 'f415', 'f416', 'f417', 'f418', 'f419', 'f420', 'f421', 'f422', 'f423', 'f424', 'f425', 'f426', 'f427', 'f428', 'f429', 'f430', 'f431', 'f432', 'f433', 'f434', 'f435', 'f436', 'f437', 'f438', 'f439', 'f440', 'f441', 'f442', 'f443', 'f444', 'f445', 'f446', 'f447', 'f448', 'f449', 'f450', 'f451', 'f452', 'f453', 'f454', 'f455', 'f456', 'f457', 'f458', 'f459', 'f460', 'f461', 'f462', 'f463', 'f464', 'f465', 'f466', 'f467', 'f468', 'f469', 'f470', 'f471', 'f472', 'f473', 'f474', 'f475', 'f476', 'f477', 'f478', 'f479', 'f480', 'f481', 'f482', 'f483', 'f484', 'f485', 'f486', 'f487', 'f488', 'f489', 'f490', 'f491', 'f492', 'f493', 'f494', 'f495', 'f496', 'f497', 'f498'] ['f0', 'f1', 'f2', 'f3', 'f4', 'f5', 'f6', 'f7', 'f8', 'f9', 'f10', 'f11', 'f12', 'f13', 'f14', 'f15', 'f16', 'f17', 'f18', 'f19', 'f20', 'f21', 'f22', 'f23', 'f24', 'f25', 'f26', 'f27', 'f28', 'f29', 'f30', 'f31', 'f32', 'f33', 'f34', 'f35', 'f36', 'f37', 'f38', 'f39', 'f40', 'f41', 'f42', 'f43', 'f44', 'f45', 'f46', 'f47', 'f48', 'f49', 'f50', 'f51', 'f52', 'f53', 'f54', 'f55', 'f56', 'f57', 'f58', 'f59', 'f60', 'f61', 'f62', 'f63', 'f64', 'f65', 'f66', 'f67', 'f68', 'f69', 'f70', 'f71', 'f72', 'f73', 'f74', 'f75', 'f76', 'f77', 'f78', 'f79', 'f80', 'f81', 'f82', 'f83', 'f84', 'f85', 'f86', 'f87', 'f88', 'f89', 'f90', 'f91', 'f92', 'f93', 'f94', 'f95', 'f96', 'f97', 'f98', 'f99', 'f100', 'f101', 'f102', 'f103', 'f104', 'f105', 'f106', 'f107', 'f108', 'f109', 'f110', 'f111', 'f112', 'f113', 'f114', 'f115', 'f116', 'f117', 'f118', 'f119', 'f120', 'f121', 'f122', 'f123', 'f124', 'f125', 'f126', 'f127', 'f128', 'f129', 'f130', 'f131', 'f132', 'f133', 'f134', 'f135', 'f136', 'f137', 'f138', 'f139', 'f140', 'f141', 'f142', 'f143', 'f144', 'f145', 'f146', 'f147', 'f148', 'f149', 'f150', 'f151', 'f152', 'f153', 'f154', 'f155', 'f156', 'f157', 'f158', 'f159', 'f160', 'f161', 'f162', 'f163', 'f164', 'f165', 'f166', 'f167', 'f168', 'f169', 'f170', 'f171', 'f172', 'f173', 'f174', 'f175', 'f176', 'f177', 'f178', 'f179', 'f180', 'f181', 'f182', 'f183', 'f184', 'f185', 'f186', 'f187', 'f188', 'f189', 'f190', 'f191', 'f192', 'f193', 'f194', 'f195', 'f196', 'f197', 'f198', 'f199', 'f200', 'f201', 'f202', 'f203', 'f204', 'f205', 'f206', 'f207', 'f208', 'f209', 'f210', 'f211', 'f212', 'f213', 'f214', 'f215', 'f216', 'f217', 'f218', 'f219', 'f220', 'f221', 'f222', 'f223', 'f224', 'f225', 'f226', 'f227', 'f228', 'f229', 'f230', 'f231', 'f232', 'f233', 'f234', 'f235', 'f236', 'f237', 'f238', 'f239', 'f240', 'f241', 'f242', 'f243', 'f244', 'f245', 'f246', 'f247', 'f248', 'f249', 'f250', 'f251', 'f252', 'f253', 'f254', 'f255', 'f256', 'f257', 'f258', 'f259', 'f260', 'f261', 'f262', 'f263', 'f264', 'f265', 'f266', 'f267', 'f268', 'f269', 'f270', 'f271', 'f272', 'f273', 'f274', 'f275', 'f276', 'f277', 'f278', 'f279', 'f280', 'f281', 'f282', 'f283', 'f284', 'f285', 'f286', 'f287', 'f288', 'f289', 'f290', 'f291', 'f292', 'f293', 'f294', 'f295', 'f296', 'f297', 'f298', 'f299', 'f300', 'f301', 'f302', 'f303', 'f304', 'f305', 'f306', 'f307', 'f308', 'f309', 'f310', 'f311', 'f312', 'f313', 'f314', 'f315', 'f316', 'f317', 'f318', 'f319', 'f320', 'f321', 'f322', 'f323', 'f324', 'f325', 'f326', 'f327', 'f328', 'f329', 'f330', 'f331', 'f332', 'f333', 'f334', 'f335', 'f336', 'f337', 'f338', 'f339', 'f340', 'f341', 'f342', 'f343', 'f344', 'f345', 'f346', 'f347', 'f348', 'f349', 'f350', 'f351', 'f352', 'f353', 'f354', 'f355', 'f356', 'f357', 'f358', 'f359', 'f360', 'f361', 'f362', 'f363', 'f364', 'f365', 'f366', 'f367', 'f368', 'f369', 'f370', 'f371', 'f372', 'f373', 'f374', 'f375', 'f376', 'f377', 'f378', 'f379', 'f380', 'f381', 'f382', 'f383', 'f384', 'f385', 'f386', 'f387', 'f388', 'f389', 'f390', 'f391', 'f392', 'f393', 'f394', 'f395', 'f396', 'f397', 'f398', 'f399', 'f400', 'f401', 'f402', 'f403', 'f404', 'f405', 'f406', 'f407', 'f408', 'f409', 'f410', 'f411', 'f412', 'f413', 'f414', 'f415', 'f416', 'f417', 'f418', 'f419', 'f420', 'f421', 'f422', 'f423', 'f424', 'f425', 'f426', 'f427', 'f428', 'f429', 'f430', 'f431', 'f432', 'f433', 'f434', 'f435', 'f436', 'f437', 'f438', 'f439', 'f440', 'f441', 'f442', 'f443', 'f444', 'f445', 'f446', 'f447', 'f448', 'f449', 'f450', 'f451', 'f452', 'f453', 'f454', 'f455', 'f456', 'f457', 'f458', 'f459', 'f460', 'f461', 'f462', 'f463', 'f464', 'f465', 'f466', 'f467', 'f468', 'f469', 'f470', 'f471', 'f472', 'f473', 'f474', 'f475', 'f476', 'f477', 'f478', 'f479', 'f480', 'f481', 'f482', 'f483', 'f484', 'f485', 'f486', 'f487', 'f488', 'f489', 'f490', 'f491', 'f492', 'f493', 'f494', 'f495', 'f496', 'f497', 'f498', 'f499']
training data did not have the following fields: f499

출처

abhishekkrthakur

👍13

가장 유용한 댓글

희소 행렬에서 0이 아닌 열의 양만 반환하는 DMatrix..num_col() 때문에 문제가 발생합니다. 따라서 훈련 데이터와 테스트 데이터에 동일한 양의 0이 아닌 열이 있으면 모든 것이 제대로 작동합니다.
그렇지 않으면 유효성 검사 함수가 다음을 호출하기 때문에 다른 기능 이름 목록으로 끝납니다.

    <strong i="7">@property</strong>
    def feature_names(self):
        """Get feature names (column labels).

        Returns
        -------
        feature_names : list or None
        """
        if self._feature_names is None:
            return ['f{0}'.format(i) for i in range(self.num_col())]
        else:
            return self._feature_names

self._feature_names 는 희소 행렬의 경우 None이고, self.num_col()은 0이 아닌 열의 양만 반환하기 때문에 "to-be- 예측된" 데이터는 훈련 데이터의 0이 아닌 열의 양과 다릅니다.

가장 좋은 지점은 아직 그것을 수정하는 것입니다.

Far0n 에 2016년 09월 02일

👍24

모든 51 댓글

이것은 희소 행렬이 CSC인 경우에만 작동하는 것 같습니다. 이전 버전과 같은 CSR 또는 COO 매트릭스에서는 작동하지 않습니다.

abhishekkrthakur 에 2016년 05월 31일

👍6

맨 오른쪽 열이 모두 0 또는 1일 때 무작위 문제가 발생하지 않습니까? #1091 및 #1221과 같을 수 있습니다.

sinhrks 에 2016년 06월 18일

@sinhrks : 나에게 그것은 "무작위"가 아닙니다. 나는 매우 희소한 데이터에 대해 XGBoost를 자주 훈련시킵니다.

그런 다음 프로덕션 환경에서 훈련된 모델을 실행하게 되면 당연히 들어오는 데이터의 새로운 부분에 대해 예측을 하고 싶습니다. 물론 해당 데이터는 희소 가능성이 높고 마지막 열이 되는 열에 대한 값이 없습니다. 그래서 XGBoost는 이제 자주 중단되고, 희소 데이터를 더 잘 지원하기 때문에 다른(덜 정확함) 모델로 전환하는 것을 발견했습니다.

ClimbsRocks 에 2016년 08월 23일

👍12

이 오류가 발생하는 이유와 해결 방법을 정확히 아는 사람이 있습니까? 기존 스크립트가 실패하기 때문에 이것은 저에게 고통스러운 점입니다.

bryan-woods 에 2016년 08월 24일

sklearn 파이프라인의 일부로 xgboost를 시도하고 동일한 문제가 발생했습니다. 해결될 때까지 해결 방법이 있습니까?

EntilZha 에 2016년 08월 27일

👍2

예, predict를 호출할 때 희소 배열의 toarray() 함수를 사용합니다. 메모리에서는 매우 비효율적이지만 작은 조각으로 작업할 수 있습니다.

내 iPhone에서 보낸

2016년 8월 26일 오후 10시 44분에 Pedro Rodriguez [email protected]이 다음과 같이 썼습니다.
sklearn 파이프라인의 일부로 xgboost를 시도하고 동일한 문제가 발생했습니다. 해결될 때까지 해결 방법이 있습니까?
—
당신이 댓글을 달았기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하거나 GitHub에서 보거나 스레드를 음소거하세요.

bryan-woods 에 2016년 08월 27일

어떤 이유로 훈련된 모델을 저장하고 로드하면 오류가 발생하지 않습니다.

    bst = xgb.train(param, dtrain, num_round)

    # predict is not working without this code
    bst.save_model(model_file_name)
    bst = xgb.Booster(param)
    bst.load_model(model_file_name)

    preds = bst.predict(dtest)

warpuv 에 2016년 08월 31일

👍14 ❤3

@bryan-woods tocsc 로 더 나은 방법을 찾을 수 있었습니다. 약간의 성능 저하가 있을 수 있지만 조밀한 행렬로 만드는 것만큼 나쁘지는 않습니다.

xgboost가 작동하기 직전에 내 sklearn 파이프라인에 이것을 포함

class CSCTransformer(TransformerMixin):
    def transform(self, X, y=None, **fit_params):
        return X.tocsc()

    def fit_transform(self, X, y=None, **fit_params):
        self.fit(X, y, **fit_params)
        return self.transform(X)

    def fit(self, X, y=None, **fit_params):
        return self

    def get_params(self, deep=True):
        return {}

EntilZha 에 2016년 08월 31일

👍8

CSC 형식이나 마지막 열에 0이 아닌 항목을 추가해도 최신 버전의 xgboost에서 문제가 해결되지 않습니다. 버전 0.4a30으로 되돌리는 것이 작동하게 할 수 있는 유일한 방법입니다. 원래 예제에서 다음 조정(재현 가능한 시드 포함)을 고려하십시오.

>>> import xgboost as xgb
>>> import numpy as np
>>> from scipy import sparse
>>> 
>>> np.random.seed(10)
>>> X = sparse.rand(100,10).tocsr()
>>> test = sparse.rand(10, 500).tocsr()
>>> y = np.random.randint(2,size=100)
>>> 
>>> clf = xgb.XGBClassifier()
>>> clf.fit(X,y)
XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1,
       gamma=0, learning_rate=0.1, max_delta_step=0, max_depth=3,
       min_child_weight=1, missing=None, n_estimators=100, nthread=-1,
       objective='binary:logistic', reg_alpha=0, reg_lambda=1,
       scale_pos_weight=1, seed=0, silent=True, subsample=1)
>>> 
>>> try:
...     pred = clf.predict_proba(test)
...     print "Works when csr with version %s" %xgb.__version__
... except ValueError:
...     "Broken when csr with version %s" %xgb.__version__
... 
'Broken when csr with version 0.6'
>>> try:
...     pred = clf.predict_proba(test.tocsc())
...     print "Works when csc with version %s" %xgb.__version__
... except ValueError:
...     "Still broken when csc with version %s" %xgb.__version__
... 
'Still broken when csc with version 0.6'
>>> try:
...     test[0,(test.shape[1]-1)] = 1.0
...     pred = clf.predict_proba(test)
...     print "Works when adding non-zero entries to last column with version %s" %xgb.__version__
... except ValueError:
...     "Still broken when adding non-zero entries to last column with version %s" %xgb.__version__
... 
/home/david.mcgarry/.conda/envs/ml/lib/python2.7/site-packages/scipy/sparse/compressed.py:730: SparseEfficiencyWarning: Changing the sparsity structure of a csr_matrix is expensive. lil_matrix is more efficient.
  SparseEfficiencyWarning)
'Still broken when adding non-zero entries to last column with version 0.6'

>>> import xgboost as xgb
>>> import numpy as np
>>> from scipy import sparse
>>> 
>>> np.random.seed(10)
>>> X = sparse.rand(100,10).tocsr()
>>> test = sparse.rand(10, 500).tocsr()
>>> y = np.random.randint(2,size=100)
>>> 
>>> clf = xgb.XGBClassifier()
>>> clf.fit(X,y)
XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1,
       gamma=0, learning_rate=0.1, max_delta_step=0, max_depth=3,
       min_child_weight=1, missing=None, n_estimators=100, nthread=-1,
       objective='binary:logistic', reg_alpha=0, reg_lambda=1,
       scale_pos_weight=1, seed=0, silent=True, subsample=1)
>>> 
>>> try:
...     pred = clf.predict_proba(test)
...     print "Works when csr with version %s" %xgb.__version__
... except ValueError:
...     "Broken when csr with version %s" %xgb.__version__
... 
Works when csr with version 0.4
>>> try:
...     pred = clf.predict_proba(test.tocsc())
...     print "Works when csc with version %s" %xgb.__version__
... except ValueError:
...     "Still broken when csc with version %s" %xgb.__version__
... 
Works when csc with version 0.4
>>> try:
...     test[0,(test.shape[1]-1)] = 1.0
...     pred = clf.predict_proba(test)
...     print "Works when adding non-zero entries to last column with version %s" %xgb.__version__
... except ValueError:
...     "Still broken when adding non-zero entries to last column with version %s" %xgb.__version__
... 
/Users/david.mcgarry/anaconda/envs/ml/lib/python2.7/site-packages/scipy/sparse/compressed.py:739: SparseEfficiencyWarning: Changing the sparsity structure of a csr_matrix is expensive. lil_matrix is more efficient.
  SparseEfficiencyWarning)
Works when adding non-zero entries to last column with version 0.4

dmcgarry 에 2016년 09월 01일

👍7 🎉2

동일한 문제가 있습니다. 마지막 릴리스에서 확실히 문제가 발생했습니다. 이전에는 동일한 데이터 세트 및 처리에서 이 문제가 발생하지 않았습니다. 내가 틀릴 수도 있지만 현재 sklearn API를 사용하여 Python에서 희소 csr 배열을 사용한 단위 테스트가 없는 것 같습니다. 위의 @dmcgarry 예제를 tests/python/tests_with_sklearn.py 있습니까?

rth 에 2016년 09월 01일

👍4

CSR 스파스 배열과 함께 .toarray()를 사용하여 이 문제를 해결하려고 시도했지만 심각한 문제가 발생했습니다. 저장된 모델을 로드하고 이를 사용하여 .toarray()로 예측을 시도하면 오류 메시지가 표시되지 않지만 결과가 올바르지 않습니다. 0.4a30으로 롤백했는데 제대로 작동합니다. 근본 원인을 추적할 시간이 없었지만 좋지 않습니다.

bryan-woods 에 2016년 09월 01일

👍1

    <strong i="7">@property</strong>
    def feature_names(self):
        """Get feature names (column labels).

        Returns
        -------
        feature_names : list or None
        """
        if self._feature_names is None:
            return ['f{0}'.format(i) for i in range(self.num_col())]
        else:
            return self._feature_names

가장 좋은 지점은 아직 그것을 수정하는 것입니다.

Far0n 에 2016년 09월 02일

👍24

또한 @bryan-woods가 보고한 내용으로 인해 희소 행렬 처리에 근본적인 문제가 있다는 것이 두렵습니다. "feature_names(self)"가 두 세트에 대해 동일한 기능 목록을 반환하기 때문에 오류가 발생하지 않습니다. 그러나 기차와 테스트 간에 0이 아닌 열 인덱스가 일치하지 않기 때문에 예측이 잘못되었습니다.

Far0n 에 2016년 09월 02일

👍2

이 문제에 대해 작업한 사람이 있습니까? 개발에 사용할 수 있는 단위 테스트를 최소한 개발한 사람이 있습니까?

bryan-woods 에 2016년 09월 16일

👍1

나는 그것에 대해 일하지 않았지만 위의 @dmcgarry 의 예는 단위 테스트의 시작으로 사용될 수 있다고 생각합니다.

import xgboost as xgb
import numpy as np
import scipy.sparse


def test_xgbclassifier_sklearn_sparse():
    np.random.seed(10)
    X = scipy.sparse.rand(100,10).tocsr()
    test = scipy.sparse.rand(10, 500).tocsr()
    y = np.random.randint(2,size=100)

    clf = xgb.XGBClassifier()
    clf.fit(X,y)
    pred = clf.predict_proba(test)

rth 에 2016년 09월 16일

저장소의 포크에서 몇 가지 새로운 희소 배열 테스트를 만들었습니다. 관심 있는 분들을 위해:
https://github.com/bryan-woods/xgboost/blob/sparse_test/tests/python/test_scipy_sparse.py

체크아웃의 루트 디렉토리에서 테스트를 실행하려면:
파이썬 -m 코 테스트/python/test_scipy_sparse.py

두 테스트 모두 실패했음을 알 수 있습니다. 이것은 최소한 개발할 테스트를 제공할 것입니다.

bryan-woods 에 2016년 09월 16일

👍3

저도 이 문제를 겪고 있지만 lib에서 최종적으로 해결될 때까지 해결하는 가장 좋은 방법을 알 수 없습니다.

vallettea 에 2016년 09월 17일

https://github.com/dmlc/xgboost/issues/1583으로 이동

tqchen 에 2016년 09월 17일

maxid:0 과 같은 최대 기능 인덱스를 사용하여 기능 목록에 기능을 추가할 수 있습니다

bihujrj 에 2016년 11월 08일

👍1

데이터 프레임을 전달하면 문제가 해결되었습니다.

nazirmubbashir 에 2016년 11월 23일

어떻게 버전 0.4로 되돌릴 수 있습니까?

dfernandez22 에 2016년 11월 24일

핍 설치 --업그레이드 xgboost==0.4a30

dmcgarry 에 2016년 11월 24일

👍7

모든 유형의 희소 행렬이 작동하지 않았습니다(저는 tf-idf 데이터로 작업 중입니다). 이전 버전으로 되돌려야 했습니다. 팁 고마워!

ad-owens 에 2016년 11월 27일

👍2

여전히 문제가 있는 모든 사용자: 사용 중인 코드에 #1606의 수정 사항이 포함되어 있습니까?

khotilov 에 2016년 11월 29일

예, 마지막 버전의 xgboost를 설치했는데 여전히 이 문제가 있습니다.

ivihrov 에 2016년 11월 30일

이것은 여전히 존재하며 쉽게 재현할 수 있습니다. 충분히 큰 데이터 세트를 사용하는 경우 이것은 발생할 가능성이 적지만, 이를 그리드 검색 객체로 래핑하는 경우 train/cv 테스트 세트에서 사용 가능한 기능이 다른 cv 분할 내에서 거의 확실하게 발생합니다.

솔직히 말해서 DMatrix가 scipy 희소 행렬에서 제공하는 모양 힌트를 무시하는 이유를 잘 모르겠습니다. 크기를 계산하는 대신 정보를 기반으로 설정해야 합니다.

l3link 에 2016년 12월 01일

Xgboost Python 기본 API(0.6)를 사용 중이며 LIBSVM [sparse] 형식 파일에서 DMatrix를 로드할 때 동일한 오류가 발생합니다. 포함된 행에 마지막 열이 정의되어 있는 경우입니다. 내 해결 방법은 첫 번째 행에 더미 열을 정의하는 것입니다.

train_fv_file = 'train_fv_eval.svm'
dtrain = xgb.DMatrix(train_fv_file, feature_names=feature_vector_labels, feature_types=feature_vector_types)

gabrielspmoreira 에 2016년 12월 02일

재현하기가 너무 쉽다면 재현 가능한 예를 제공하는 데 관심이 있는 사람이 있습니까? 바람직하게는 sklearn 레이어 없이(가능한 원인을 분리하기 위해).

@gabrielspmoreira : 마지막 몇 개의 열이 완전히 희박한 LIBSVM 파일에서 로드하는 것에 대한 귀하의 요점을 알 수 있습니다... 해당 DMatrix 구성 방법은 num_col 힌트도 있으면 도움이 됩니다.

khotilov 에 2016년 12월 06일

In [42]: matrix = xgboost.DMatrix(scipy.sparse.csr_matrix([[0, 2, 3, 0], [0, 2, 2, 0], [1, 0, 5, 0], [0, 1, 0, 0]], shape=(4,4)))
In [43]: matrix.num_col()
Out[43]: 3L

행/열의 하위 샘플에 새 DMatrix가 생성될 때마다 이러한 일이 발생할 가능성이 있습니다(DMatrix에 열이 몇 개인지 명시적으로 알려줬음에도 불구하고 열 수는 줄어듭니다). 이는 하위 집합이 모두 0일 가능성이 더 높기 때문에 더 작은 데이터 세트 또는 매우 희소한 열에 대해 자주 발생합니다.

이것이 훈련/테스트 세트 사이에 발생하면 모델은 다른 수의 기능을 기대하고 ValueError를 내뿜기 때문에 테스트 세트를 평가할 수 없습니다.

무슨 일이 일어나고 있는지 확신할 때 xgboost 코어와 sklearn-wrapper 내에서 이것이 작동/작동하지 않는 테스트를 찾으려고 노력하고 있지만 어디에서 일어나고 있는지 모르겠습니다.

l3link 에 2016년 12월 07일

@l3link : 귀하의 코드가 오래된 것 같습니다. 내가 얻는 것은 다음과 같습니다.

In [2]: import scipy
   ...: import xgboost
   ...: matrix = xgboost.DMatrix(scipy.sparse.csr_matrix([[0, 2, 3, 0], [0, 2, 2, 0], [1, 0, 5, 0], [0, 1, 0, 0]], shape=(4,4)))
   ...: matrix.num_col()
   ...:
Out[2]: 4L

In [3]: matrix._init_from_csr??
Signature: matrix._init_from_csr(csr)
Source:
    def _init_from_csr(self, csr):
        """
        Initialize data from a CSR matrix.
        """
        if len(csr.indices) != len(csr.data):
            raise ValueError('length mismatch: {} vs {}'.format(len(csr.indices), len(csr.data)))
        self.handle = ctypes.c_void_p()
        _check_call(_LIB.XGDMatrixCreateFromCSREx(c_array(ctypes.c_size_t, csr.indptr),
                                                  c_array(ctypes.c_uint, csr.indices),
                                                  c_array(ctypes.c_float, csr.data),
                                                  len(csr.indptr), len(csr.data),
                                                  csr.shape[1],
                                                  ctypes.byref(self.handle)))
File:      c:\anaconda2\lib\site-packages\xgboost-0.6-py2.7.egg\xgboost\core.py
Type:      instancemethod

khotilov 에 2016년 12월 07일

뭐,

In [64]: xgboost.__version__ Out[64]: '0.6'

Signature: matrix._init_from_csr(csr) Source: def _init_from_csr(self, csr): """ Initialize data from a CSR matrix. """ if len(csr.indices) != len(csr.data): raise ValueError('length mismatch: {} vs {}'.format(len(csr.indices), len(csr.data))) self.handle = ctypes.c_void_p() _check_call(_LIB.XGDMatrixCreateFromCSR(c_array(ctypes.c_ulong, csr.indptr), c_array(ctypes.c_uint, csr.indices), c_array(ctypes.c_float, csr.data), len(csr.indptr), len(csr.data), ctypes.byref(self.handle))) File: ~/anaconda/lib/python2.7/site-packages/xgboost/core.py Type: instancemethod

내 .6 버전에 모양을 취하지 않는 XGDMatrixCreateFromCSREx 명령 대신 XGDMatrixCreateFromCSR이 있다는 것이 이상하게 보입니다.
osx 배포가 다를 수 있습니까?

l3link 에 2016년 12월 08일

또한 @bryan-woods가 보고한 내용으로 인해 희소 행렬 처리에 근본적인 문제가 있다는 것이 두렵습니다. "feature_names(self)"가 두 세트에 대해 동일한 기능 목록을 반환하기 때문에 오류가 발생하지 않습니다. 그러나 기차와 테스트 간에 0이 아닌 열 인덱스가 일치하지 않기 때문에 예측이 잘못되었습니다.

누군가 이 질문에 대답해 주시겠습니까? 0.4 버전으로 되돌렸고 이제 작동하는 것 같지만 여전히 희소 행렬을 사용하고 있기 때문에 제대로 작동하는지 걱정됩니다.

ghost 에 2016년 12월 12일

@l3link 이상 하지 않습니다. 버전 번호(또는 pypi 패키지)는 때때로 오랫동안 업데이트되지 않습니다. 예를 들어 오늘 현재 https://github.com/dmlc/xgboost/blob/master/python-package/xgboost/VERSION 파일은 7월 29일에 마지막으로 변경되었으며 마지막 pypi 패키지는 https://pypi.python입니다. org/pypi/xgboost/의 날짜는 8월 9일입니다. 수정 사항이 9월 23일 #1606에 제출된 동안. github에서 최신 코드를 확인하세요.

khotilov 에 2017년 01월 02일

팬더 DataFrame (비희소 표현)를 사용할 때 이 문제가 발생했습니다.
numpy ndarray 를 통해 df.as_matrix() 로 변환했고 오류를 제거했습니다.

oleksandrasaskia 에 2017년 01월 28일

👍5 🎉2 ❤1

데이터 프레임을 배열로 변환한 후 이 오류도 제거했습니다.

pnandhini11 에 2017년 03월 23일

👍1

테스트 세트의 열을 기차 세트와 같은 순서로 재정렬하면 이 문제가 해결되었습니다.
Pandas 데이터 프레임을 사용했습니다. 이것이 없으면 .as_matrix() 를 사용하면 동일한 문제가 발생합니다.

나는 했다:

test = test[train.columns]

fx86 에 2017년 06월 25일

👍6 🎉2

@warpuv 솔루션을 시도

nguyentp 에 2017년 10월 20일

기차/테스트 csr 행렬을 csc로 변환하는 것이 효과적이었습니다.

Xtrain = scipy.sparse.csc_matrix(Xtrain)

bdod6 에 2017년 11월 02일

👍5

csc_matrix 변환하는 작업은 0.6a2 에서 테스트되었습니다.

    X_train = scipy.sparse.csc_matrix(X_train)
    X_test = scipy.sparse.csc_matrix(X_test)

    xgb_train = xgb.DMatrix(X_train, label=y_train)
    xgb_test = xgb.DMatrix(X_test, label=y_test)

type(X_train) <class 'scipy.sparse.csr.csr_matrix'>
type(X_test) <class 'scipy.sparse.csr.csr_matrix'>
type(X_train) <class 'scipy.sparse.csc.csc_matrix'>
type(X_test) <class 'scipy.sparse.csc.csc_matrix'>
type(xgb_train) <class 'xgboost.core.DMatrix'>
type(xgb_test) <class 'xgboost.core.DMatrix'>

내 원래 희소 행렬은 csr_matrix 형식의 sklearn tf-idf 벡터라이저의 출력입니다.

mrgloom 에 2017년 12월 15일

👍1

아직 수정 사항이 있습니까?

pallavbakshi 에 2018년 01월 21일

방금 python3에서 최신 버전(0.7.post3)을 빌드했으며 이 문제가 여전히 존재함을 확인할 수 있습니다. 위의 @dmcgarry 예제를 적용한 csr_matrix 및 csc_matrix 모두에 여전히 문제가 있습니다.

import xgboost as xgb
import numpy as np
from scipy import sparse

np.random.seed(10)

X_csr = sparse.rand(100, 10).tocsr()
test_csr = sparse.rand(10, 500).tocsr()

X_csc = sparse.rand(100, 10).tocsc()
test_csc = sparse.rand(10, 500).tocsc()

y = np.random.randint(2, size=100)

clf_csr = xgb.XGBClassifier()
clf_csr.fit(X_csr, y)

clf_csc = xgb.XGBClassifier()
clf_csc.fit(X_csc, y)

# Try with csr
try:
    pred = clf_csr.predict_proba(test_csr)
    print("Works when csr with version %s" %xgb.__version__)
except ValueError:
    print("Broken when csr with version %s" %xgb.__version__)

try:
    test_csr[0,(test_csr.shape[1]-1)] = 1.0
    pred = clf_csr.predict_proba(test_csr)
    print("Works when adding non-zero entries to last column with version %s" %xgb.__version__)
except:
    print("Still broken when adding non-zero entries to last column with version %s" %xgb.__version__)

# Try with csc
try:
    pred = clf_csc.predict_proba(test_csc)
    print("Works when csc with version %s" %xgb.__version__)
except ValueError:
    print("Broken when csc with version %s" %xgb.__version__)

try:
    test_csc[0,(test_csc.shape[1]-1)] = 1.0
    pred = clf_csc.predict_proba(test_csc)
    print("Works when adding non-zero entries to last column with version %s" %xgb.__version__)
except:
    print("Still broken when adding non-zero entries to last column with version %s" %xgb.__version__)

위 코드의 결과는 다음과 같습니다.

Broken when csr with version 0.7
Still broken when adding non-zero entries to last column with version 0.7
Broken when csc with version 0.7
Still broken when adding non-zero entries to last column with version 0.7

ewellinger 에 2018년 01월 24일

도와주세요

hhristov94 에 2018년 01월 27일

이 문제가 종료된 이유는 무엇입니까?

ewellinger 에 2018년 02월 28일

나는 최근에 두 번이 문제를 겪었습니다. 한 가지 경우에는 입력 데이터 프레임을 배열로 변경하기만 하면 작동합니다. 두 번째 경우 test_df = test_df[train_df.columns]를 사용하여 테스트 데이터 프레임의 열 이름을 재정렬해야 합니다. 두 경우 모두 train_df 및 test_df는 정확히 동일한 열 이름을 갖습니다.

CathyQian 에 2018년 03월 01일

@CathyQian 귀하의 의견을 이해하지 못하는 것 같습니다. train_df / test_df 희소합니까? 또한 이러한 문제가 발생했을 때 어떤 버전의 xgboost를 실행하고 있었습니까?

ewellinger 에 2018년 03월 01일

@CathyQian xgboost는 열의 _order_에 의존하며 이는 이 문제와 관련이 없습니다.

@ewellinger WRT 예: 10개 기능이 있는 데이터에 대해 훈련된 모델은 예측을 위해 500개 기능이 있는 데이터를 허용하지 않아야 하므로 오류가 발생합니다. 또한 모든 행렬에서 DMatrices를 만들고 num_col 및 num_row를 검사하면 예상한 결과가 생성됩니다.

"희소성 문제"의 현재 상태는 다음과 같습니다.

CSR에서 DMatrix 생성 및 모델에서의 사용이 올바르게 작동해야 합니다. 이 문제의 주제였기 때문에 문제가 종료되었습니다.
CSC에서 DMatrix 생성은 올바른 차원의 객체를 생성하지만 마지막 행이 완전히 희소인 경우 훈련 또는 예측 중에 잘못된 결과를 제공할 수 있습니다 #2630. 아직 그 부분을 제대로 고칠 시간이 없었다.
libsvm 데이터를 DMatrix에 로드할 때 미리 정의된 열 수를 지정하는 매개변수는 아직 구현되지 않았습니다. 기여할 자원봉사자를 환영합니다.

khotilov 에 2018년 03월 02일

@warpuv 그것은 저에게 효과적입니다. 감사합니다.

rainness 에 2018년 03월 20일

조밀한 행렬에서 동일한 오류가 발생했습니다. ( 최신 아나콘다의 xgboost v.0.6.)
훈련 샘플의 다른 기능 하위 집합에 대해 여러 회귀를 실행할 때 오류가 발생했습니다.
다음 회귀를 맞추기 전에 매번 새 모델 인스턴스를 생성하면 문제가 해결되었습니다.

ag95v2 에 2018년 06월 01일

libsvm 데이터를 DMatrix에 로드할 때 미리 정의된 열 수를 지정하는 매개변수는 아직 구현되지 않았습니다. 기여할 자원봉사자를 환영합니다.

0.8부터 이거 아직 없잖아요?

JulianKlug 에 2018년 10월 04일

CSC에서 DMatrix 생성은 올바른 차원의 객체를 생성하지만 마지막 행이 완전히 희소인 경우 훈련 또는 예측 중에 잘못된 결과를 제공할 수 있습니다 #2630. 아직 그 부분을 제대로 고칠 시간이 없었다.

@khotilov #3553이 이 문제를 해결했습니다.

libsvm 데이터를 DMatrix에 로드할 때 미리 정의된 열 수를 지정하는 매개변수는 아직 구현되지 않았습니다. 기여할 자원봉사자를 환영합니다.

@MonsieurWave 이 기능의 경우 dmlc-core에 대한 작은 pull 요청이 트릭을 수행해야 합니다. 내가 그것을 보자.

hcho3 에 2018년 10월 04일

👍1

@hcho3 감사합니다.

지금은 libsvm의 첫 번째 줄을 너무 희박하지 않게 하여 이 문제를 우회합니다. 즉, 값이 0인 열도 저장합니다.

JulianKlug 에 2018년 10월 04일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Xgboost: Python에서 희소 행렬을 사용하는 동안 feature_names 불일치

암호

전체 역추적:

가장 유용한 댓글

모든 51 댓글

관련 문제