Xgboost: [토론] PySpark와 통합

에 만든 2016년 10월 25일 · 53코멘트 · 출처: dmlc/xgboost

방금 PySpark http://dmlc.ml/2016/03/14/xgboost4j-portable-distributed-xgboost-in-spark-flink-and-dataflow.html 통합에 대한 몇 가지 요청이 있음을 알았습니다.

나는 또한 같은 주제에 대해 토론하는 사용자로부터 몇 가지 이메일을 받았습니다.

이 작업을 언제 시작할지 여부에 대한 논의를 여기서 시작하고 싶습니다.

@tqchen @terrytangyuan

python

출처

CodingCat

👍8

가장 유용한 댓글

@CodingCat @tqchen 데이터 과학 커뮤니티는 다음과 같은 이유로 PySpark에서 구현된 XGboost의 이점을 확실히 누릴 것입니다.

일반적으로 Python은 2017년 3월 기준 10.2%의 인기로 #3 언어입니다(스칼라의 경우 1.8%).
http://redmonk.com/sogrady/2017/03/17/language-rankings-1-17/
https://jobsquery.it/stats/language/group;
PySpark 대 Scala의 성능 측면에서 보면 Spark의 후드 아래 거의 모든 Scala가 있기 때문에 그다지 중요하지 않다고 가정합니다. 맞습니까?
나는 적어도 생산을 위해 PySpark를 사용하는 3개의 AI 신생 기업을 알고 있으며, 더 일반적으로 Python은 데이터 과학자와 취업 시장에서 훨씬 더 인기가 있습니다.
http://r4stats.com/articles/popularity/)
내 결론: PySpark에서 구현된 XGboost는 다른 모든 구현 중에서 DataScience에 가장 큰 영향을 미칠 것입니다.
(PS가 일단 안정되면 Cloudera에서 구현하는지 확인)

zherebetskyy 에 2017년 05월 04일

👍20

모든 53 댓글

@CodingCat PySpark 커뮤니티가 얼마나 큰지 아십니까? 대부분의 사람들은 Scala API만 사용합니다. 많은 것들이 파이썬에서 다시 구현되어야 하는 것 같습니다 - 만약 제가 틀렸다면 저를 고쳐주세요.

terrytangyuan 에 2016년 10월 25일

👎25

나는 PySpark가 데이터 과학자 커뮤니티에서 꽤 널리 퍼져 있다고 생각합니다. 즉, 빠른 프로토타이핑 시나리오 등을 의미합니다. 데이터 과학자가 pySpark를 사용하여 대용량 데이터를 분석하는 많은 사례에 대해 들었습니다.

반면에 대부분의 프로덕션 수준 시나리오는 Scala API를 기반으로 합니다(사람들이 대규모 프로덕션에서 PySpark를 사용하는 경우는 하나만 알고 있습니다).

CodingCat 에 2016년 10월 25일

👍19

예, 현재 Python API가 대부분의 프로토타이핑 요구 사항을 처리할 수 있어야 한다고 생각합니다. 더 많은 프로덕션 준비가 된 것을 원할 때 나는 개인적으로 Spark에 더 관심이 있습니다. 아마도 우리는 사람들이 그들의 필요에 대해 논의할 수 있도록 여기에 토론을 남겨야 할 것입니다. 그동안 통합을 위한 접근 방식/추정/단계에 대한 세부 정보를 제공해 주시면 감사하겠습니다.

terrytangyuan 에 2016년 10월 25일

커뮤니티에서 일부 토론을 발견했습니다.

http://apache-spark-developers-list.1001551.n3.nabble.com/Blocked-PySpark-changes-td19712.html

PySpark의 개발이 뒤처져 있는 것 같습니다...다운스트림 라이브러리로서 저는 PySpark 통합에 전념하기 위해 hold on 에 투표합니다.....

CodingCat 에 2016년 11월 03일

네, 발생한 문제를 디버깅하는 것도 어렵습니다(적어도 작년에 시도했을 때)...

terrytangyuan 에 2016년 11월 03일

로드맵(#873)에는 분산 파이썬이 구현되었다고 나와 있습니다. xgboost가 파이썬으로 hadoop 클러스터에서 실행할 수 있음을 의미합니까? (나는 pyspark를 의미하지 않습니다)

ckljohn 에 2017년 02월 06일

예, 링크에 게시된 예를 참조하십시오.

tqchen 에 2017년 02월 06일

python으로 hadoop 클러스터에서 xgboost를 실행하는 것과 scala api로 hadoop 클러스터에서 xgboost를 실행하는 것의 차이점은 무엇입니까? 주요 성능 차이가 있습니까?
프로덕션 모델로도 pyspark를 사용하는 사람들이 아직 많이 있는 것 같아요.

yiming-chen 에 2017년 02월 10일

@yiming-chen xgboost4j-spark의 목표는 동일한 파이프라인에서 ETL과 모델 교육을 통합하는 것입니다.

질문은 사용자가 ETL을 수행할 때 어떤 언어를 사용하는지에 대한 것입니다. 내 관찰과 경험에 따르면 95%의 사용자가 scala로 ETL 시스템을 구축하고 있습니다.

CodingCat 에 2017년 02월 10일

👎18

@CodingCat 95% 통계를 어디서 얻었는지 모르겠지만 PySpark는 확실히 제 경험에 널리 사용됩니다. 예를 들어 우리는 Airflow를 통합하여 파이프라인에 대한 작업을 예약하려고 하고 Python이 이 상황에 적합할 것입니다.

berch 에 2017년 03월 28일

👍8

@berch PySpark는 귀하가 널리 사용하고 있으며 기류와 통합할 예정입니다... 제가 말한 것과 관련이 있습니까?

CodingCat 에 2017년 03월 28일

👎7 👍1

@CodingCat @tqchen 데이터 과학 커뮤니티는 다음과 같은 이유로 PySpark에서 구현된 XGboost의 이점을 확실히 누릴 것입니다.

일반적으로 Python은 2017년 3월 기준 10.2%의 인기로 #3 언어입니다(스칼라의 경우 1.8%).
http://redmonk.com/sogrady/2017/03/17/language-rankings-1-17/
https://jobsquery.it/stats/language/group;
PySpark 대 Scala의 성능 측면에서 보면 Spark의 후드 아래 거의 모든 Scala가 있기 때문에 그다지 중요하지 않다고 가정합니다. 맞습니까?
나는 적어도 생산을 위해 PySpark를 사용하는 3개의 AI 신생 기업을 알고 있으며, 더 일반적으로 Python은 데이터 과학자와 취업 시장에서 훨씬 더 인기가 있습니다.
http://r4stats.com/articles/popularity/)
내 결론: PySpark에서 구현된 XGboost는 다른 모든 구현 중에서 DataScience에 가장 큰 영향을 미칠 것입니다.
(PS가 일단 안정되면 Cloudera에서 구현하는지 확인)

zherebetskyy 에 2017년 05월 04일

👍20

PR을 보내주십시오. 비용을 찾을 수 있습니다.

CodingCat 에 2017년 05월 04일

다시 스레드로 돌아가지 않도록 다음과 같은 결론으로 토론을 마무리하겠습니다.

나는 개인적으로 PySpark를 통합하기 위한 이 노력을 계속하기 위해 투표하지 않을 것입니다(현재로서는)
다른 사람이 이에 기여하는 것을 환영합니다. 그러나 우리는 최소한 다음 사항을 고려해야 합니다.
- 다른 파이썬 패키지를 소개하지 마십시오
- 통합을 구현할 때 현재 Python API에 대한 이전 버전과의 호환성
- pyspark ML의 뒤쳐진 기능 처리

CodingCat 에 2017년 05월 04일

그렇다면 pyspark를 사용하여 XGBoost-spark 모델을 로드할 수 없습니까? @코딩캣

haiy 에 2018년 01월 11일

따라서 실제로 scala XGBoost 는 PySpark JavaEstimator API에서 덜 고통스럽게 래핑될 수 있습니다. 나는 조금 놀았고 다음과 같은 프로토타입을 가지고 있습니다.

from pyspark.ml.wrapper import JavaEstimator, JavaModel
from pyspark.ml.param.shared import *
from pyspark.ml.util import *
from pyspark.context import SparkContext

class XGBoost(JavaEstimator, JavaMLWritable, JavaMLReadable, HasRegParam, HasElasticNetParam):

    def __init__(self, paramMap = {}):
        super(XGBoost, self).__init__()
        scalaMap = SparkContext._active_spark_context._jvm.PythonUtils.toScalaMap(paramMap)
        self._java_obj = self._new_java_obj(
            "ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
        self._defaultParamMap = paramMap
        self._paramMap = paramMap

    def setParams(self, paramMap = {}):
        return self._set(paramMap)

    def _create_model(self, javaTrainingData):
        return JavaModel(javaTrainingData)

아직 작업이 필요하다고 생각하지만 PySpark에서 Xgboost 를 실행할 수 있었습니다.

wpopielarski 에 2018년 04월 12일

👍9

Wieslaw는 XGBoost PySpark 래퍼에 대한 코드 조각을 공유해 주셔서 감사합니다. 적절한 매개변수를 사용하여 XGBoost 클래스를 호출하는 코드를 공유할 수 있습니까?

감사 해요

sratakon 에 2018년 04월 14일

@wpopielarski 당신이 한 멋진 일입니다. 필요한 매개변수와 함께 XGBoost를 호출하는 코드를 공유할 수 있습니까? 큰 도움이 될 것입니다!

AakashBasuRZT 에 2018년 05월 16일

이것은 다음과 같습니다.

        from app.xgboost import XGBoost
        xgboost_params = {
            "eta"  : 0.023,
            "max_depth" : 10,
            "min_child_weight" : 0.3,
            "subsample" : 0.7,
            "colsample_bytree" : 0.82,
            "colsample_bylevel" : 0.9,
            "base_score" : base_score,
            "eval_metric" : "auc",
            "seed" : 49,
            "silent" : 1,
            "objective" : "binary:logistic",
            "round" : 10,
            "nWorkers" : 2,
            "useExternalMemory" : True
        }
        xgboost_estimator = XGBoost.XGBoost(xgboost_params)
...
        model = xgboost_estimator.fit(data)

wpopielarski 에 2018년 05월 23일

👍2

적절한 PySpark 지원으로 PR을 하는 데 가까워지고 있습니다.

thesuperzapper 에 2018년 05월 25일

👍2 🎉1

@thesuperzapper , 훌륭합니다!

포장하는데 얼마나 걸릴 것 같나요? 진행하는 동안 통찰력을 공유하십시오.

감사 해요!

AakashBasuRZT 에 2018년 05월 25일

👍1

안녕하세요, 관심 있는 사람이 있으면 쉽게 사용자 지정할 수 있도록 ParamGridBuilder 로 간단한 버전을 작성합니다.

1 유효한 PYTHONPATH 디렉토리에 mkdir -p ml/dmlc/xgboost4j/scala 패키지 디렉토리를 만듭니다.
ml/dmlc/xgboost4j/scala/spark.py 아래 2개의 복사 코드

from pyspark.ml.classification import JavaClassificationModel, JavaMLWritable, JavaMLReadable, TypeConverters, Param, \
    Params, HasFeaturesCol, HasLabelCol, HasPredictionCol, HasRawPredictionCol, SparkContext
from pyspark.ml.wrapper import JavaModel, JavaWrapper, JavaEstimator


class XGBParams(Params):
    '''

    '''
    eta = Param(Params._dummy(), "eta",
                "step size shrinkage used in update to prevents overfitting. After each boosting step, we can directly get the weights of new features. and eta actually shrinks the feature weights to make the boosting process more conservative",
                typeConverter=TypeConverters.toFloat)
    max_depth = Param(Params._dummy(), "max_depth",
                      "maximum depth of a tree, increase this value will make the model more complex / likely to be overfitting. 0 indicates no limit, limit is required for depth-wise grow policy.range: [0,∞]",
                      typeConverter=TypeConverters.toInt)
    min_child_weight = Param(Params._dummy(), "min_child_weight",
                             "minimum sum of instance weight (hessian) needed in a child. If the tree partition step results in a leaf node with the sum of instance weight less than min_child_weight, then the building process will give up further partitioning. In linear regression mode, this simply corresponds to minimum number of instances needed to be in each node. The larger, the more conservative the algorithm will berange: [0,∞]",
                             typeConverter=TypeConverters.toFloat)
    max_delta_step = Param(Params._dummy(), "max_delta_step",
                           "Maximum delta step we allow each tree’s weight estimation to be. If the value is set to 0, it means there is no constraint. If it is set to a positive value, it can help making the update step more conservative. Usually this parameter is not needed, but it might help in logistic regression when class is extremely imbalanced. Set it to value of 1-10 might help control the update.",
                           typeConverter=TypeConverters.toInt)
    subsample = Param(Params._dummy(), "subsample",
                      "subsample ratio of the training instance. Setting it to 0.5 means that XGBoost randomly collected half of the data instances to grow trees and this will prevent overfitting.",
                      typeConverter=TypeConverters.toFloat)
    colsample_bytree = Param(Params._dummy(), "colsample_bytree",
                             "subsample ratio of columns when constructing each tree",
                             typeConverter=TypeConverters.toFloat)
    colsample_bylevel = Param(Params._dummy(), "colsample_bylevel",
                              "subsample ratio of columns for each split, in each level.",
                              typeConverter=TypeConverters.toFloat)
    max_leaves = Param(Params._dummy(), "max_leaves",
                       "Maximum number of nodes to be added. Only relevant for the ‘lossguide’ grow policy.",
                       typeConverter=TypeConverters.toInt)

    def __init__(self):
        super(XGBParams, self).__init__()

class XGBoostClassifier(JavaEstimator, JavaMLWritable, JavaMLReadable, XGBParams,
                        HasFeaturesCol, HasLabelCol, HasPredictionCol, HasRawPredictionCol):
    def __init__(self, paramMap={}):
        super(XGBoostClassifier, self).__init__()
        scalaMap = SparkContext._active_spark_context._jvm.PythonUtils.toScalaMap(paramMap)
        self._java_obj = self._new_java_obj("ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
        self._defaultParamMap = paramMap
        self._paramMap = paramMap

    def setParams(self, paramMap={}):
        return self._set(paramMap)

    def _create_model(self, java_model):
        return XGBoostClassificationModel(java_model)


class XGBoostClassificationModel(JavaModel, JavaClassificationModel, JavaMLWritable, JavaMLReadable):

    def getBooster(self):
        return self._call_java("booster")

    def saveBooster(self, save_path):
        jxgb = JavaWrapper(self.getBooster())
        jxgb._call_java("saveModel", save_path)

3 일반 pyspark 모델로 플레이하십시오!

haiy 에 2018년 06월 11일

@AakashBasuRZT @haiy , 우리는 현재 문제 #3370에서 이에 대해 제대로 작업하고 있으며 PR #3376이 초기 지원을 제공하고 있습니다.

thesuperzapper 에 2018년 06월 11일

@haiy 일부 임의 데이터 세트의 분류기에 맞는 코드 스니펫을 보여 주시겠습니까? 나는 당신이 요약 한 1과 2를 따랐지만 세 번째 요점을 이해할 수 없습니다.

sagnik-rzt 에 2018년 06월 18일

@sagnik-rzt 이 샘플을 확인

haiy 에 2018년 06월 19일

@haiy 나는 이것을 실행하려고합니다 :

import pyspark
import pandas as pd
from dmlc.xgboost4j.scala.spark import XGBoostClassifier
from sklearn.utils import shuffle

sc = pyspark.SparkContext('local[2]')
spark = pyspark.sql.SparkSession(sc)
df = pd.DataFrame({'x1': range(10), 'x2': [10] * 10, 'y': shuffle([0 for i in range(5)] + [1 for i in range(5)])})
sdf = spark.createDataFrame(df)
X = sdf.select(['x1', 'x2'])
Y = sdf.select(['y'])
print(X.show(5))

params = {'objective' :'binary:logistic', 'n_estimators' : 10, 'max_depth' : 3, 'learning_rate' : 0.033}
xgb_model = XGBoostClassifier(params)

이 예외가 발생합니다.

Traceback (most recent call last):
  File "/home/sagnikb/PycharmProjects/auto_ML/pyspark_xgboost.py", line 20, in <module>
    xgb_model = XGBoostClassifier(params)
  File "/usr/lib/ml/dmlc/xgboost4j/scala/spark.py", line 47, in __init__
    self._java_obj = self._new_java_obj("ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
  File "/usr/local/lib/python3.6/dist-packages/pyspark/ml/wrapper.py", line 63, in _new_java_obj
    return java_obj(*java_args)
TypeError: 'JavaPackage' object is not callable

Error in sys.excepthook:
Traceback (most recent call last):
  File "/home/sagnikb/PycharmProjects/auto_ML/pyspark_xgboost.py", line 20, in <module>
    xgb_model = XGBoostClassifier(params)
  File "/usr/lib/ml/dmlc/xgboost4j/scala/spark.py", line 47, in __init__
    self._java_obj = self._new_java_obj("ml.dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
  File "/usr/local/lib/python3.6/dist-packages/pyspark/ml/wrapper.py", line 63, in _new_java_obj
    return java_obj(*java_args)
TypeError: 'JavaPackage' object is not callable
Exception ignored in: <bound method JavaParams.__del__ of XGBoostClassifier_4f9eb5d1388e9e1424a4>
Traceback (most recent call last):
  File "/usr/local/lib/python3.6/dist-packages/pyspark/ml/wrapper.py", line 105, in __del__
    SparkContext._active_spark_context._gateway.detach(self._java_obj)
  File "/usr/local/lib/python3.6/dist-packages/py4j/java_gateway.py", line 1897, in detach
    java_object._detach()
AttributeError: 'NoneType' object has no attribute '_detach'

환경:
파이썬 3.6
스파크 2.3
스칼라 2.11

sagnik-rzt 에 2018년 06월 19일

@sagnik-rzt
확실하지 않지만 스파크 클래스 경로에 deps와 함께 xgboost-spark.jar을 추가합니까?

wpopielarski 에 2018년 06월 19일

@wpopielarski 안녕하세요, 저는 그렇게 하지 않았습니다. 그 jar 파일을 어디에서 찾을 수 있는지 알 수 있습니까?

sagnik-rzt 에 2018년 06월 19일

@sagnik-rzt 안녕하세요, ~~여기 에서 항아리를 다운로드~~ . 죄송합니다. 방금 내 항아리가 mac을 기반으로 구축 되었음을 발견했습니다. 구축해 보세요. 그리고 $SPARK_HOME/jars 와 같이 spark deps dir에 넣으십시오.

haiy 에 2018년 06월 19일

jvm-packages/xgboost-spark/target 정도에 뚱뚱한 항아리를 만드는 maven 및 assembly 프로필을 사용하여 직접 빌드해야 합니다.

wpopielarski 에 2018년 06월 19일

@sagnik-rzt 무엇을 하려는지 확실하지 않지만 OS용 뚱뚱한 항아리를 만들려면 dmlc xgboost github 프로젝트를 복제하고 cd를 jvm-packages로 복제하고 assemby 프로필로 mvn을 실행하십시오. Gradle 빌드 파일을 작성하는 방법에 대해 잘 모릅니다.

wpopielarski 에 2018년 06월 20일

자, 종속성이 있는 뚱뚱한 항아리를 만든 다음 $SPARK_HOME/jars에 복사하여 붙여넣었습니다.
그러나 동일한 예외가 계속 적용됩니다.

Traceback (most recent call last):
  File "/home/sagnikb/PycharmProjects/xgboost/test_import.py", line 21, in <module>
    clf = xgb(params)
  File "/usr/lib/ml/dmlc/xgboost4j/scala/spark.py", line 48, in __init__
    self._java_obj = self._new_java_obj("dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
  File "/usr/local/lib/python3.6/dist-packages/pyspark/ml/wrapper.py", line 63, in _new_java_obj
    return java_obj(*java_args)
TypeError: 'JavaPackage' object is not callable

sagnik-rzt 에 2018년 06월 29일

죄송하지만 일부 IDE 프로젝트에서 로컬로 클러스터에서 실행합니까? 당신이있는 경우
spark-submit을 사용하여 --jars 스위치에 deps를 추가하는 것이 좋습니다.

2018-06-29 14:30 GMT+02:00 sagnik-rzt [email protected] :

좋아, 의존성이 있는 뚱뚱한 항아리를 만든 다음 복사하여 붙여넣었습니다.
$SPARK_HOME/jars에.
그러나 동일한 예외가 계속 적용됩니다.
역추적(가장 최근 호출 마지막):
파일 "/home/sagnikb/PycharmProjects/xgboost/test_import.py", 21행,
clf = xgb(매개변수)
파일 "/usr/lib/ml/dmlc/xgboost4j/scala/spark.py", 48행, __init__
self._java_obj = self._new_java_obj("dmlc.xgboost4j.scala.spark.XGBoostEstimator", self.uid, scalaMap)
파일 "/usr/local/lib/python3.6/dist-packages/pyspark/ml/wrapper.py", 63행, _new_java_obj
반환 java_obj(*java_args)
TypeError: 'JavaPackage' 개체를 호출할 수 없습니다.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/dmlc/xgboost/issues/1698#issuecomment-401339910 또는 음소거
스레드
https://github.com/notifications/unsubscribe-auth/ALEzS3JmKjO0AZ6JMzcixwCce0_3zRM0ks5uBh3ogaJpZM4KgAY_
.

wpopielarski 에 2018년 06월 30일

저는 현재 #3376을 새로운 spark 브랜치로 리베이스하는 작업을 하고 있습니다. 그동안 몇몇 사람들이 XGBoost-0.72에서 현재 코드를 사용하는 방법에 대해 질문했습니다.

다음은 XGBoost-0.72용 pyspark 코드가 포함된 zip 파일입니다.
다운로드: sparkxgb.zip

다음 작업만 하면 됩니다.

일반 Scala XGBoost jar 및 종속성을 작업에 추가합니다. (예: --jars 또는 spark.jars 구성 사용).
작업이 시작되면 Python에서 다음을 실행하십시오. (또는 모든 실행자가 볼 수 있는 로컬 위치)

sc.addPyFile("hdfs:///XXXX/XXXX/XXXX/sparkxgb.zip")

다음 코드로 테스트하십시오. ( sample_binary_classification_data.txt 을 도달 가능한 위치로 이동했다고 가정하면 일반적으로 $SPARK_HOME/data/mllib/sample_binary_classification_data.txt )

from sparkxgb import XGBoostEstimator

# Load Data
dataPath = "sample_binary_classification_data.txt"
dataDF = spark.read.format("libsvm").load(dataPath)

# Split into Train/Test
trainDF, testDF = dataDF.randomSplit([0.8, 0.2], seed=1000)

# Define and train model
xgboost = XGBoostEstimator(
    # General Params
    nworkers=1, nthread=1, checkpointInterval=-1, checkpoint_path="",
    use_external_memory=False, silent=0, missing=float("nan"),

    # Column Params
    featuresCol="features", labelCol="label", predictionCol="prediction", 
    weightCol="weight", baseMarginCol="baseMargin", 

    # Booster Params
    booster="gbtree", base_score=0.5, objective="binary:logistic", eval_metric="error", 
    num_class=2, num_round=2, seed=None,

    # Tree Booster Params
    eta=0.3, gamma=0.0, max_depth=6, min_child_weight=1.0, max_delta_step=0.0, subsample=1.0,
    colsample_bytree=1.0, colsample_bylevel=1.0, reg_lambda=0.0, alpha=0.0, tree_method="auto",
    sketch_eps=0.03, scale_pos_weight=1.0, grow_policy='depthwise', max_bin=256,

    # Dart Booster Params
    sample_type="uniform", normalize_type="tree", rate_drop=0.0, skip_drop=0.0,

    # Linear Booster Params
    lambda_bias=0.0
)
xgboost_model = xgboost.fit(trainDF)

# Transform test set
xgboost_model.transform(testDF).show()

# Write model/classifier
xgboost.write().overwrite().save("xgboost_class_test")
xgboost_model.write().overwrite().save("xgboost_class_test.model")

메모:

이것은 Spark 2.2 이상에서만 작동합니다.
Pipelines 및 ParamGridBuilder는 일종의 지원이며 일반 개체와 마찬가지로 from sparkxgb.pipeline import XGBoostPipeline,XGBoostPipelineModel 와 함께 수정된 파이프라인 개체를 사용합니다.
XGboost-0.72의 오류로 인해 null 값을 올바르게 처리하려면 float("nan")보다 누락된 값에 float("+inf")를 사용해야 합니다.
훈련되지 않은 모델 객체는 다시 로드할 수 없습니다(#3035 참조).
이 API는 pyspark 지원의 전체 릴리스로 변경됩니다.

thesuperzapper 에 2018년 07월 04일

👍3

@thesuperzapper jupyter 노트북에서 pyspark로 이것을 테스트하려고 합니다.

내 시스템:
파이썬 3.6.1
xg부스트 0.72
스파크 2.2.0
자바 1.8
스칼라 2.12

XGBoostEstimator를 로드하려고 할 때 다음과 같은 결과가 나타납니다.

Exception in thread "Thread-19" java.lang.NoClassDefFoundError: ml/dmlc/xgboost4j/scala/EvalTrait
    at java.lang.Class.getDeclaredMethods0(Native Method)
    at java.lang.Class.privateGetDeclaredMethods(Class.java:2701)
    at java.lang.Class.privateGetPublicMethods(Class.java:2902)
    at java.lang.Class.getMethods(Class.java:1615)
    at py4j.reflection.ReflectionEngine.getMethodsByNameAndLength(ReflectionEngine.java:345)
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:305)
    at py4j.reflection.ReflectionEngine.getMethod(ReflectionEngine.java:326)
    at py4j.Gateway.invoke(Gateway.java:272)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.ClassNotFoundException: ml.dmlc.xgboost4j.scala.EvalTrait
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 12 more

이것은 버그입니까 아니면 몇 가지 요구 사항을 놓치고 있습니까?

BogdanCojocar 에 2018년 07월 08일

@BogdanCojocar xgboost 라이브러리가 누락된 것 같습니다.

xgboost가 제대로 작동하려면 다음 두 병이 모두 필요합니다.

해당 maven 링크에서 필요한 jar를 다운로드할 수 있습니다.

thesuperzapper 에 2018년 07월 08일

👍2 ❤1 🎉1

@superzapper님 감사합니다. 잘 작동합니다. pyspark에 대한 이 통합이 훌륭합니다!

BogdanCojocar 에 2018년 07월 08일

Python 모듈에 로드하기 위해 훈련된 모델을 부스터에 저장하는 방법에 대한 제안이 있습니까?

ericwang915 에 2018년 07월 11일

@ericwang915 일반적으로 다른 XGBoost 라이브러리와 상호 운용되는 모델을 얻으려면 모델 개체에 .booster.saveModel("XXX/XXX") 메서드를 사용합니다. 여기서 XXX는 Spark 드라이버의 로컬(비 HDFS) 경로입니다. 다른 저장 방법을 사용하면 오류가 발생합니다(참조: #2480).

그러나 해당 버전의 래퍼에서 저장 기능을 호출하는 메서드를 추가하는 것을 잊었습니다. 시간이 되면 내일 추가하겠습니다. (저는 뉴질랜드에 살고 있습니다... 그래서 시간대)

thesuperzapper 에 2018년 07월 11일

👍2

감사합니다. 그건 그렇고, 훈련 과정에서 무음이 1로 설정되어 있어도 평가 지표와 부스팅 라운드를 보여주는 로그가 없습니다.

ericwang915 에 2018년 07월 11일

@superzapper 지시에 감사드립니다. pyspark에서 xgboost 모델을 훈련/저장하라는 지시를 따를 수 있었습니다. (scala)getFeatureScore()와 같은 다른 xgboost 모델 함수에 액세스하는 방법에 대한 아이디어가 있습니까?

ccdtzccdtz 에 2018년 08월 17일

@ccdtzccdtz 현재 0.8에서 Spark API가 크게 변경되었기 때문에 pyspark 래퍼를 다시 배선하고 있습니다. 완료되면 Spark Scala API와 기능 패리티를 갖는 것이 목표입니다.

초기 pyspark 래퍼에서 기본 부스터 메서드를 노출하지 않았지만 Spark Scala API를 사용하면 xgboost_model_object.nativeBooster.getFeatureScore( 호출하여 평소처럼 사용할 수 있습니다.

thesuperzapper 에 2018년 08월 20일

2번 이상 실행하면 pyspark의 XGBoost가 지속적으로 실패하는 것을 보았습니다. 동일한 코드로 동일한 데이터 세트에서 실행 중입니다. 처음에는 성공하지만 두 번째에는 실패합니다. Spark 2.3에서 XGBoost 0.72를 사용하고 있습니다. 작업을 다시 성공적으로 실행하려면 pyspark 셸을 다시 시작해야 합니다.

교육 목적으로 xgboost.trainWithDataFrame을 사용합니다.

이 문제를 본 사람이 있습니까?

nitinkak001 에 2018년 08월 29일

안녕하세요 @thesuperzapper
당신이 처방한 것은 단일 작업자 노드에서 작동합니다.
그러나 둘 이상의 작업자(이 경우 3개)를 사용하여 pyspark xgboost를 실행하려고 하면 실행기가 유휴 상태가 되고 잠시 후 종료됩니다.
이것은 Titanic 데이터 세트(작은 데이터 세트)에서 실행하려고 하는 코드입니다.

from pyspark.sql.session import SparkSession
from pyspark.sql.types import *
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import Pipeline
from pyspark.sql.functions import col

spark = SparkSession\
        .builder\
        .appName("PySpark XGBOOST Titanic")\
        .getOrCreate()

#spark.sparkContext.addPyFile("../sparkxgb.zip")

from automl.sparkxgb import XGBoostEstimator

schema = StructType(
  [StructField("PassengerId", DoubleType()),
    StructField("Survival", DoubleType()),
    StructField("Pclass", DoubleType()),
    StructField("Name", StringType()),
    StructField("Sex", StringType()),
    StructField("Age", DoubleType()),
    StructField("SibSp", DoubleType()),
    StructField("Parch", DoubleType()),
    StructField("Ticket", StringType()),
    StructField("Fare", DoubleType()),
    StructField("Cabin", StringType()),
    StructField("Embarked", StringType())
  ])

df_raw = spark\
  .read\
  .option("header", "true")\
  .schema(schema)\
  .csv("titanic.csv")


df = df_raw.na.fill(0)

sexIndexer = StringIndexer() \
    .setInputCol("Sex") \
    .setOutputCol("SexIndex") \
    .setHandleInvalid("keep")

cabinIndexer = StringIndexer() \
    .setInputCol("Cabin") \
    .setOutputCol("CabinIndex") \
    .setHandleInvalid("keep")

embarkedIndexer = StringIndexer() \
    .setInputCol("Embarked") \
    .setOutputCol("EmbarkedIndex") \
    .setHandleInvalid("keep")

vectorAssembler  = VectorAssembler()\
  .setInputCols(["Pclass", "SexIndex", "Age", "SibSp", "Parch", "Fare", "CabinIndex", "EmbarkedIndex"])\
  .setOutputCol("features")

xgboost = XGBoostEstimator(nworkers=2,
    featuresCol="features",
    labelCol="Survival",
    predictionCol="prediction"
)

pipeline = Pipeline().setStages([sexIndexer, cabinIndexer, embarkedIndexer, vectorAssembler, xgboost])
trainDF, testDF = df.randomSplit([0.8, 0.2], seed=24)

model  =pipeline.fit(trainDF)
print(trainDF.schema)

다음은 스택 추적입니다.
Tracker started, with env={DMLC_NUM_SERVER=0, DMLC_TRACKER_URI=172.16.1.5, DMLC_TRACKER_PORT=9093, DMLC_NUM_WORKER=3}2018-09-04 08:52:55 ERROR TaskSchedulerImpl:70 - Lost executor 0 on 192.168.49.43: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.2018-09-04 08:52:55 ERROR AsyncEventQueue:91 - Interrupted while posting to TaskFailedListener. Removing that listener.java.lang.InterruptedException: ExecutorLost during XGBoost Training: ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages. at org.apache.spark.TaskFailedListener.onTaskEnd(SparkParallelismTracker.scala:116) at org.apache.spark.scheduler.SparkListenerBus$class.doPostEvent(SparkListenerBus.scala:45) at org.apache.spark.scheduler.AsyncEventQueue.doPostEvent(AsyncEventQueue.scala:37) at org.apache.spark.scheduler.AsyncEventQueue.doPostEvent(AsyncEventQueue.scala:37) at org.apache.spark.util.ListenerBus$class.postToAll(ListenerBus.scala:91)

실행기가 다음에서 멈췄습니다.
org.apache.spark.RDD.foreachPartition(RDD.scala:927) ml.dmlc.xgboost4j.scala.spark.XGBoost$$anonfun$trainDistributed$4$$anon$1.run(XGBoost.scala:348)

환경: Python 3.5.4, Spark 버전 2.3.1, Xgboost 0.72

sagnik-rzt 에 2018년 09월 04일

xgboost 및 spark 구성을 공유할 수 있습니까? 얼마나
작업자(xgboost 작업자), 스파크 실행기, 코어 등

-니틴

2018년 9월 4일 화요일 오전 5:03 sagnik-rzt [email protected]에서 다음과 같이 썼습니다.

안녕하세요 @thesuperzapper https://github.com/thesuperzapper
당신이 처방한 것은 단일 작업자 노드에서 작동합니다.
그러나 둘 이상을 사용하여 pyspark xgboost를 실행하려고 할 때
작업자, 실행자는 유휴 상태가 되고 잠시 후 종료됩니다.
다음은 스택 추적입니다.
'''
추적기가 시작됨, env={DMLC_NUM_SERVER=0, DMLC_TRACKER_URI=172.16.1.5,
DMLC_TRACKER_PORT=9093, DMLC_NUM_WORKER=3}2018-09-04 08:52:55 오류
TaskSche dulerImpl:70 - 192.168.49.43에서 실행기 0 손실: 원격 RPC
클라이언트가 연결 해제되었습니다. 임계값을 초과하는 컨테이너로 인한 것일 수 있습니다.
네트워크 문제. WARN 메시지에 대한 드라이버 로그를 확인하십시오.2018-09-04 08:52:55
오류 AsyncE ventQueue:91 - TaskFailedListener에 게시하는 동안 중단되었습니다.
해당 listener.java.lang.InterruptedException 제거: ExecutorLost 중
XGBoost 교육: ExecutorLostFailure(다음 중 하나로 인해 실행기 0이 종료되었습니다.
실행 중인 작업) 이유: 원격 RPC 클라이언트 연결이 해제되었습니다. 아마도 다음으로 인해
임계값을 초과하는 컨테이너 또는 네트워크 문제. 드라이버 로그 확인
경고 메시지. ~에
org.apache.spark.TaskFailedListener.onTaskEnd(SparkParallelismTracker.scala:116)
~에
org.apache.spark.scheduler.SparkListenerBus$class.doPostEvent(SparkListenerBus.scala:45)
~에
org.apache.spark.scheduler.AsyncEventQueue.doPostEvent(AsyncEventQueue.scala:37)
~에
org.apache.spark.scheduler.AsyncEventQueue.doPostEvent(AsyncEventQueue.scala:37)
org.apache.spark.util.ListenerBus$class.postToAll(ListenerBus.scala:91)
'''
—
당신이 댓글을 달았기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/dmlc/xgboost/issues/1698#issuecomment-418341557 또는 음소거
스레드
https://github.com/notifications/unsubscribe-auth/AJY-XklxsZB_FE7ZoAarV_fqw8D3JqxWks5uXmwqgaJpZM4KgAY_
.

nitinkak001 에 2018년 09월 04일

@sagnik-rzt pyspark 래퍼가 XGboost 0.72만 지원하기 때문에 전혀 작동하지 않는다는 사실에 놀랐습니다. 우리는 여전히 0.8에서 작업하고 있습니다.

thesuperzapper 에 2018년 09월 05일

@thesuperzapper , 귀하가 제공한 버전을 기반으로 xgboost 0.80을 지원하도록 일부 부분을 다시 수정했습니다.
그러나 py4j.protocol.Py4JError: ml.dmlc.xgboost4j.scala.spark.XGBoostClassifier does not exist in the JVM 오류가 발생합니다. 여기에 전체 설명을 제공했습니다. 좀 봐주시겠어요?

모든 코드는 여기 에 배치

vectosaurus 에 2018년 09월 06일

0.8에서 작동하도록 만든 것보다 훨씬 더 많은 변경 사항이 필요합니다.

내가 0.8 버전을 내놓지 않은 주된 이유는 0.72에서와 같이 xgboost 특정 파이프라인 개체를 만들고 싶지 않기 때문입니다. 기본 파이프라인 지속성을 사용합니다.

thesuperzapper 에 2018년 09월 06일

@thesuperzapper , 0.72 에 대한 코드를 사용하면서 XGBoostPipeline 개체를 사용하지 않고 XGBoostEstimator 개체를 직접 사용했습니다. 그리고 그렇게 하는 동안 훈련/피팅이 클러스터의 작업자에게 분산되지 않는다는 것을 알았습니다. 작업자 전체에 배포하려면 XGBoostPipeline 를 사용해야 합니까?

그렇지 않은 경우 교육이 직원들에게 분산되지 않는 이유를 알고 있습니까?

업데이트
XGBoostPipeline 에서 XGBoostEstimator 를 스테이지로 설정하여 교육을 시도했지만 문제가 지속됩니다. 다른 pyspark 지원 모델에 대해 수행하는 동안 클러스터에서 실행할 때 교육이 작업자 간에 분산되지 않습니다.

이 행동을 관찰하셨습니까? 어떻게 해결합니까?

vectosaurus 에 2018년 09월 07일

나는 대부분 XGBoost 0.8용 래퍼를 다시 코딩했지만 내 작업 클러스터가 여전히 2.2에 있기 때문에 내 Dockerized Spark 2.3 클러스터가 셔플 위치 누락 문제 없이 Scala XGBoost 분산 모델을 훈련할 수도 없기 때문에 분산 모드에서 쉽게 테스트할 수 없습니다. .

@sagnik-rzt 및 기타 사용자가 겪고 있는 문제는 클러스터 구성 또는 Spark-Scala XGBoost의 더 깊은 문제와 관련이 있다고 생각합니다.

Spark-Scala XGBoost에서 모델을 훈련할 수 있습니까?

thesuperzapper 에 2018년 09월 10일

@thesuperzapper 덕분에 셔플 위치가 내부적으로 처리된다고 생각했습니다. 즉, 클러스터 구성과 독립적으로 처리될 것입니다. 그러나 이 stackoverflow 게시물을 찾았으므로 이러한 제안을 구현할 것입니다.

또한 준비가 되었으면 0.8 버전을 공유할 수 있습니까? 내 클러스터에서 배포를 테스트할 수 있습니다. 스파크 2.3.1과 파이썬 3.5가 있습니다.

vectosaurus 에 2018년 09월 10일

모델을 저장하고 로드한 후 다음 오류가 발생합니다.

IllegalArgumentException: u'requirement 실패: 메타데이터 로드 오류: 클래스 이름 org.apache.spark.ml.Pipeline이 필요하지만 클래스 이름 org.apache.spark.ml.PipelineModel을 찾았습니다.

이것 좀 도와주세요. 감사

import pyspark
from pyspark.sql.session import SparkSession
from pyspark.sql.types import *
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import Pipeline
from pyspark.sql.functions import col

spark.sparkContext.addPyFile("sparkxgb.zip")
from sparkxgb import XGBoostEstimator
schema = StructType(
  [StructField("PassengerId", DoubleType()),
    StructField("Survival", DoubleType()),
    StructField("Pclass", DoubleType()),
    StructField("Name", StringType()),
    StructField("Sex", StringType()),
    StructField("Age", DoubleType()),
    StructField("SibSp", DoubleType()),
    StructField("Parch", DoubleType()),
    StructField("Ticket", StringType()),
    StructField("Fare", DoubleType()),
    StructField("Cabin", StringType()),
    StructField("Embarked", StringType())
  ])

df_raw = spark\
  .read\
  .option("header", "true")\
  .schema(schema)\
  .csv("train.csv")

 df = df_raw.na.fill(0)

 sexIndexer = StringIndexer()\
  .setInputCol("Sex")\
  .setOutputCol("SexIndex")\
  .setHandleInvalid("keep")

cabinIndexer = StringIndexer()\
  .setInputCol("Cabin")\
  .setOutputCol("CabinIndex")\
  .setHandleInvalid("keep")

embarkedIndexer = StringIndexer()\
  .setInputCol("Embarked")\
  .setOutputCol("EmbarkedIndex")\
  .setHandleInvalid("keep")

vectorAssembler = VectorAssembler()\
  .setInputCols(["Pclass", "SexIndex", "Age", "SibSp", "Parch", "Fare", "CabinIndex", "EmbarkedIndex"])\
  .setOutputCol("features")
xgboost = XGBoostEstimator(
    featuresCol="features", 
    labelCol="Survival", 
    predictionCol="prediction"
)

pipeline = Pipeline().setStages([sexIndexer, cabinIndexer, embarkedIndexer, vectorAssembler, xgboost])
model = pipeline.fit(df)
model.transform(df).select(col("PassengerId"), col("prediction")).show()

model.save("model_xgboost")
loadedModel = Pipeline.load("model_xgboost")


IllegalArgumentException: u'requirement failed: Error loading metadata: Expected class name org.apache.spark.ml.Pipeline but found class name org.apache.spark.ml.PipelineModel'


#predict2 = loadedModel.transform(df)

다음 옵션을 시도했습니다.

from pyspark.ml import PipelineModel
#model.save("model_xgboost")
loadedModel = PipelineModel.load("model_xgboost")

다음 오류 발생

ml.dmlc.xgboost4j.scala.spark라는 모듈이 없습니다.

anaveenan 에 2018년 09월 12일

개발자 다운로드 링크: sparkxgb.zip

이 버전은 XGBoost-0.8에서 작동하지만 테스트나 이 스레드에 기여하는 것 외에는 사용하지 마십시오. 변경될 것입니다.
(또한 참고: Spark 2.2의 모든 백포트를 제거했으므로 Spark 2.3만 지원합니다.)

해당 버전에서 내가 알고 있는 주요 문제는 분류 모델이 저장된 후 다시 로드되지 않아 TypeError: 'JavaPackage' object is not callable 오류가 발생한다는 것입니다. 그러나 이상하게도 XGBoostPipelineModel은 XGBoost 분류 단계에서 잘 작동합니다. 이것은 내 문제라고 생각하게 합니다. 누군가 분류 모델을 읽는 것이 효과가 있는지 확인할 수 있습니까?

그럼에도 불구하고, 저는 DefaultParamsWritable 을 올바르게 구현하려고 시도 XGBoostPipeline 대한 필요성을 제거할 것입니다. 이는 장기적으로 유지 관리하기가 훨씬 쉬우므로 읽기/쓰기 문제는 어쨌든 관련이 없어야 합니다. (이렇게 하면 CrossValidator에서 지속성이 작동할 수도 있습니다.)

thesuperzapper 에 2018년 09월 12일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Xgboost: [토론] PySpark와 통합

가장 유용한 댓글

모든 53 댓글

관련 문제