Scikit-learn: ColumnTransformer 이후에 기능 이름을 가져올 수 없습니다.

에 만든 2018년 11월 06일 · 13코멘트 · 출처: scikit-learn/scikit-learn

ColumnTransformer를 사용하여 파이프라인으로 다른 열(숫자, 범주, 텍스트 포함)을 전처리할 때 최종 변환된 데이터의 기능 이름을 가져올 수 없으므로 디버깅이 어렵습니다.

코드는 다음과 같습니다.

titanic_url = ('https://raw.githubusercontent.com/amueller/'
               'scipy-2017-sklearn/091d371/notebooks/datasets/titanic3.csv')

data = pd.read_csv(titanic_url)

target = data.pop('survived')

numeric_columns = ['age','sibsp','parch']
category_columns = ['pclass','sex','embarked']
text_columns = ['name','home.dest']

numeric_transformer = Pipeline(steps=[
    ('impute',SimpleImputer(strategy='median')),
    ('scaler',StandardScaler()
    )
])
category_transformer = Pipeline(steps=[
    ('impute',SimpleImputer(strategy='constant',fill_value='missing')),
    ('ohe',OneHotEncoder(handle_unknown='ignore'))
])
text_transformer = Pipeline(steps=[
    ('cntvec',CountVectorizer())
])

preprocesser = ColumnTransformer(transformers=[
    ('numeric',numeric_transformer,numeric_columns),
    ('category',category_transformer,category_columns),
    ('text',text_transformer,text_columns[0])
])

preprocesser.fit_transform(data)

preprocesser.get_feature_names() 오류가 발생합니다.
AttributeError: Transformer numeric (type Pipeline) does not provide get_feature_names.
ColumnTransformer 에서 text_transformer 는 문자열(예: 'Sex')만 처리할 수 있지만 text_columns 와 같은 문자열 목록은 처리할 수 없습니다.

출처

pjgao

👍9 👀1

가장 유용한 댓글

이것은 ColumnTransformer에 대한 문제가 아닙니다.
파이프라인에 관한 것입니다. eli5 는 파이프라인을 지원할 수 있는 기능 이름 기능을 구현합니다.
Re 2. 아마도 각 열에 텍스트 벡터라이저를 적용하는 깔끔한 방법이 없다는 것이 비우호적이라는 말이 맞을 것입니다. 단순히 CountVectorizer 등에서 여러 입력 열을 지원하기 시작하지 않는 한 이것이 어떻게 깔끔하게 달성될 수 있는지 잘 모르겠습니다.

친절한 답변 감사합니다!
내가 아는 바와 같이 OneHotEncoder , CountVectorizer 와 같이 하나의 열을 다중 열로 변경할 수 있는 메서드를 사용하여 열을 사전 처리할 때 파이프라인 마지막 단계의 변환기에서 새 데이터 열 이름을 가져올 수 있습니다. get_feature_names 함수는 새 열을 생성하지 않는 메서드를 사용할 때 원시 열 이름만 설정할 수 있습니다.

def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []
    for transformer_in_columns in column_transformer.transformers_[:-1]:#the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names()
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)
    return col_name

위의 코드를 사용하여 preprocesser 의 열 이름을 얻을 수 있습니다.
이 코드가 이 질문을 해결합니까?
eli5 현재 해당 기능을 찾을 수 없습니다. eli5의 명시적 예제 또는 API에 대한 링크를 제공할 수 있습니까?

pjgao 에 2018년 11월 06일

👍19 😄2

모든 13 댓글

이것은 ColumnTransformer에 대한 문제가 아닙니다.

파이프라인에 관한 것입니다. eli5 는 파이프라인을 지원할 수 있는 기능 이름 기능을 구현합니다.

Re 2. 아마도 각 열에 텍스트 벡터라이저를 적용하는 깔끔한 방법이 없다는 것이 비우호적이라는 말이 맞을 것입니다. 단순히 CountVectorizer 등에서 여러 입력 열을 지원하기 시작하지 않는 한 이것이 어떻게 깔끔하게 달성될 수 있는지 잘 모르겠습니다.

jnothman 에 2018년 11월 06일

👍1

이것은 ColumnTransformer에 대한 문제가 아닙니다.
파이프라인에 관한 것입니다. eli5 는 파이프라인을 지원할 수 있는 기능 이름 기능을 구현합니다.
Re 2. 아마도 각 열에 텍스트 벡터라이저를 적용하는 깔끔한 방법이 없다는 것이 비우호적이라는 말이 맞을 것입니다. 단순히 CountVectorizer 등에서 여러 입력 열을 지원하기 시작하지 않는 한 이것이 어떻게 깔끔하게 달성될 수 있는지 잘 모르겠습니다.

def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []
    for transformer_in_columns in column_transformer.transformers_[:-1]:#the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names()
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)
    return col_name

pjgao 에 2018년 11월 06일

👍19 😄2

eli5와 관련하여 transform_feature_names(explain_weights에서 사용)를 참조하십시오.

jnothman 에 2018년 11월 06일

1은 #6425의 복제품이죠? 나는 그것에 잠을 쓰고 싶다.
ColumnTransformer 사용하면 여러 텍스트 열을 지원하는 것이 매우 쉽다고 생각합니다. 가장 예쁜 코드는 아니지만 각 텍스트 열에 대해 CountVectorizer를 추가할 수 있습니다.

그리고 get_feature_names 가 없다고 해서 열 이름만 사용할 수 있다는 의미는 아니기 때문에 스니펫은 실제로 문제를 해결하지 못합니다.

amueller 에 2018년 11월 07일

1은 #6425의 복제품이죠? 나는 그것에 잠을 쓰고 싶다.
ColumnTransformer 사용하면 여러 텍스트 열을 지원하는 것이 매우 쉽다고 생각합니다. 가장 예쁜 코드는 아니지만 각 텍스트 열에 대해 CountVectorizer를 추가할 수 있습니다.
그리고 get_feature_names 가 없다고 해서 열 이름만 사용할 수 있다는 의미는 아니기 때문에 스니펫은 실제로 문제를 해결하지 못합니다.

예, 전처리 파이프라인에서 pandas DataFrame 피드 후 생성된 데이터에서 정확히 무슨 일이 일어났는지 알 수 있도록 기능 이름을 얻는 것이 좋습니다.

pjgao 에 2018년 11월 07일

👍1

알겠습니다. 중복으로 닫습니다.

amueller 에 2018년 11월 07일

이것은 ColumnTransformer에 대한 문제가 아닙니다.
파이프라인에 관한 것입니다. eli5 는 파이프라인을 지원할 수 있는 기능 이름 기능을 구현합니다.
Re 2. 아마도 각 열에 텍스트 벡터라이저를 적용하는 깔끔한 방법이 없다는 것이 비우호적이라는 말이 맞을 것입니다. 단순히 CountVectorizer 등에서 여러 입력 열을 지원하기 시작하지 않는 한 이것이 어떻게 깔끔하게 달성될 수 있는지 잘 모르겠습니다.
친절한 답변 감사합니다!
내가 아는 바와 같이 OneHotEncoder , CountVectorizer 와 같이 하나의 열을 다중 열로 변경할 수 있는 메서드를 사용하여 열을 사전 처리할 때 파이프라인 마지막 단계의 변환기에서 새 데이터 열 이름을 가져올 수 있습니다. get_feature_names 함수는 새 열을 생성하지 않는 메서드를 사용할 때 원시 열 이름만 설정할 수 있습니다.
def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []
    for transformer_in_columns in column_transformer.transformers_[:-1]:#the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names()
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)
    return col_name
위의 코드를 사용하여 preprocesser 의 열 이름을 얻을 수 있습니다.
이 코드가 이 질문을 해결합니까?
eli5 현재 해당 기능을 찾을 수 없습니다. eli5의 명시적 예제 또는 API에 대한 링크를 제공할 수 있습니까?

onehot 형식에 대해 rawname_value와 같은 이름을 되돌리기 위해 약간의 개선을 했습니다.

def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []
    for transformer_in_columns in column_transformer.transformers_[:-1]:#the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        raw_col_name_reverse = raw_col_name[::-1]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names()
            exchange_name = [(_.split("_")) for _ in preprocessor.transformers_[:-1][0][1].steps[-1][1].get_feature_names()]
            last_pre_name = ""
            last_raw_name = ""
            for pre_name,value in exchange_name:
                if pre_name==last_pre_name:
                    col_name.append(last_raw_name+"_"+value)
                if pre_name!=last_pre_name:
                    last_pre_name=pre_name
                    last_raw_name=raw_col_name_reverse.pop()
                    col_name.append(last_raw_name+"_"+value)
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)
    return col_name

miemiekurisu 에 2020년 05월 21일

이것은 ColumnTransformer에 대한 문제가 아닙니다.
파이프라인에 관한 것입니다. eli5 는 파이프라인을 지원할 수 있는 기능 이름 기능을 구현합니다.
Re 2. 아마도 각 열에 텍스트 벡터라이저를 적용하는 깔끔한 방법이 없다는 것이 비우호적이라는 말이 맞을 것입니다. 단순히 CountVectorizer 등에서 여러 입력 열을 지원하기 시작하지 않는 한 이것이 어떻게 깔끔하게 달성될 수 있는지 잘 모르겠습니다.
친절한 답변 감사합니다!
내가 아는 바와 같이 OneHotEncoder , CountVectorizer 와 같이 하나의 열을 다중 열로 변경할 수 있는 메서드를 사용하여 열을 사전 처리할 때 파이프라인 마지막 단계의 변환기에서 새 데이터 열 이름을 가져올 수 있습니다. get_feature_names 함수는 새 열을 생성하지 않는 메서드를 사용할 때 원시 열 이름만 설정할 수 있습니다.
def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []
    for transformer_in_columns in column_transformer.transformers_[:-1]:#the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names()
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)
    return col_name
위의 코드를 사용하여 preprocesser 의 열 이름을 얻을 수 있습니다.
이 코드가 이 질문을 해결합니까?
eli5 현재 해당 기능을 찾을 수 없습니다. eli5의 명시적 예제 또는 API에 대한 링크를 제공할 수 있습니까?

파이프라인에서 add_indicator와 함께 simpleimputer를 적용하면 어떻게 될까요? 이 방법은 작동하지 않습니다.

nickcorona 에 2020년 05월 31일

파이프라인에서 add_indicator와 함께 simpleimputer를 적용하면 어떻게 될까요? 이 방법은 작동하지 않습니다.

이 구성에 대해 get_feature_names 메서드가 있으면 좋을 것입니다.

kylegilde 에 2020년 06월 01일

파이프라인에서 add_indicator와 함께 simpleimputer를 적용하면 어떻게 될까요? 이 방법은 작동하지 않습니다.

다음은 단기 솔루션에 대한 저의 기여입니다. 다른 모든 배열 유형을 목록으로 강제 변환하고 SimpleImputer(add_indicate=True)의 경우를 처리합니다. 또한 조금 더 장황합니다.

def get_column_names_from_ColumnTransformer(column_transformer):    
    col_name = []

    for transformer_in_columns in column_transformer.transformers_[:-1]: #the last transformer is ColumnTransformer's 'remainder'
        print('\n\ntransformer: ', transformer_in_columns[0])

        raw_col_name = list(transformer_in_columns[2])

        if isinstance(transformer_in_columns[1], Pipeline): 
            # if pipeline, get the last transformer
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]

        try:
          if isinstance(transformer, OneHotEncoder):
            names = list(transformer.get_feature_names(raw_col_name))

          elif isinstance(transformer, SimpleImputer) and transformer.add_indicator:
            missing_indicator_indices = transformer.indicator_.features_
            missing_indicators = [raw_col_name[idx] + '_missing_flag' for idx in missing_indicator_indices]

            names = raw_col_name + missing_indicators

          else:
            names = list(transformer.get_feature_names())

        except AttributeError as error:
          names = raw_col_name

        print(names)    

        col_name.extend(names)

    return col_name

kylegilde 에 2020년 06월 08일

👍4

참고로 저는 복잡한 Pipelines 및 ColumnTransformers에서 기능 이름을 추출하는 방법에 대한 몇 가지 코드와 블로그를 작성했습니다. 코드는 이전 게시물보다 개선된 것입니다. https://towardsdatascience.com/extracting-plotting-feature-names-importance-from-scikit-learn-pipelines-eb5bfa6a31f4

kylegilde 에 2020년 09월 10일

👍4

@kylegilde 훌륭한 기사와 코드 감사합니다. 매력처럼 작동합니다. 글로벌 설명을 위해 몇 시간 동안 KernelSHAP 및 알리바이 와 씨름했지만 handle_unkown='ignore' 없이는 onehot 변환기가 작동하지 않았습니다.

jobvisser03 에 2020년 09월 21일

👍1

다음은 알림의 열을 포함하는 @pjgao 의 스니펫의 다른 버전입니다.

def get_columns_from_transformer(column_transformer, input_colums):    
    col_name = []

    for transformer_in_columns in column_transformer.transformers_[:-1]: #the last transformer is ColumnTransformer's 'remainder'
        raw_col_name = transformer_in_columns[2]
        if isinstance(transformer_in_columns[1],Pipeline): 
            transformer = transformer_in_columns[1].steps[-1][1]
        else:
            transformer = transformer_in_columns[1]
        try:
            names = transformer.get_feature_names(raw_col_name)
        except AttributeError: # if no 'get_feature_names' function, use raw column name
            names = raw_col_name
        if isinstance(names,np.ndarray): # eg.
            col_name += names.tolist()
        elif isinstance(names,list):
            col_name += names    
        elif isinstance(names,str):
            col_name.append(names)

    [_, _, reminder_columns] = column_transformer.transformers_[-1]

    for col_idx in reminder_columns:
        col_name.append(input_colums[col_idx])

    return col_name

핵심 코드베이스에 유사한 기능을 추가하는 것에 대해 어떻게 생각하십니까?

roma-glushko 에 2020년 12월 14일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Scikit-learn: ColumnTransformer 이후에 기능 이름을 가져올 수 없습니다.

가장 유용한 댓글

모든 13 댓글

관련 문제