Scikit-learn은 매우 일반적인 입력 형식으로 작동하도록 설계되었습니다. 아마도 scikit-learn을 둘러싼 세상은 Pandas 통합을 더 중요하게 만드는 방식으로 많이 바뀌었을 것입니다. 여전히 대부분 타사 래퍼에서 제공할 수 있습니다.

그러나 더 광범위한 질문과는 별도로, 표준 추정기의 Pandas 친화적인 출력이 어떻게 달라지고 사용성에 차이를 만드는지에 대한 예를 들어야 한다고 생각합니다. 내가 생각할 수 있는 예:

모든 메서드는 입력에서 인덱스를 복사할 수 있습니다.
변환기는 적절한 이름의 열을 출력해야 합니다.
다중 클래스 predict_proba는 클래스 이름으로 열에 레이블을 지정할 수 있습니다.

jnothman 에 2015년 10월 22일

👍1

그래, 내 머리 꼭대기에서 :

인덱스는 예를 들어 시차 지연 변수를 생성하는 데 정말 유용할 수 있습니다(예: 1일 지연, 일부 누락된 날짜가 있는 일일 데이터)
sklearn 회귀자는 범주형 데이터와 투명하게 사용될 수 있습니다(혼합 데이터 프레임 전달, LabelBinarizer로 범주형 열 변환, 역변환).
sklearn-pandas는 이미 데이터 프레임을 전달하고 데이터의 하위 집합만 사용하고 개별 열을 임의로 변환할 수 있는 멋진 인터페이스를 제공합니다.

이것이 모두 변환에 있는 경우 기본적으로 sklearn이 작동하는 방식에 실제로 영향을 미치지 않습니다.

naught101 에 2015년 10월 22일

👍2

나는 그것이 변압기로 멋지게 구현 될 수 있다고 생각하지 않습니다. 그것은
하나 이상의 metaestimators 또는 mixin. 나는 그들이 처음에 있어야한다고 생각합니다
외부에서 구현되고 유용한 것으로 입증됨

2015년 10월 22일 17:40에 naught101 [email protected]이 다음과 같이 썼습니다.

그래, 내 머리 꼭대기에서 :
인덱스는 예를 들어 시간 지연을 생성하는 데 정말 유용할 수 있습니다.
변수(예: 1일 지연, 일부 누락된 날짜가 있는 일일 데이터)
sklearn 회귀자는 범주형 데이터와 함께 투명하게 사용될 수 있습니다.
(혼합 데이터 프레임 전달, LabelBinarizer로 범주형 열 변환,
inverse_transform 그것을 다시).
sklearn-pandas는 이미 다음을 수행할 수 있는 멋진 인터페이스를 제공합니다.
데이터 프레임을 전달하고 데이터의 하위 집합만 사용하고 임의로
개별 열을 변환합니다.
이것이 모두 변환에 있다면 sklearn 방법에 실제로 영향을 미치지 않습니다.
기본적으로 작동합니다.
—
이 이메일에 직접 답장하거나 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -150123228
.

jnothman 에 2015년 10월 22일

"pandas in"을 더 좋게 만드는 것은 일종의 컬럼 트랜스포머 PR #3886의 아이디어였습니다. 아마도 sklearn-pandas가 이미 하고 있는 일을 더 자세히 살펴봤어야 했을 것입니다. 앞으로 나아갈 수 있는 최선의 방법이 무엇인지 완전히 확신할 수 없습니다.

다른 좋은 점은 변환에서 열 이름을 유지하거나 기능 선택을 수행할 때 선택하는 것입니다. 나는 우리가 지금 이것을 논의한 문제를 찾지 못했습니다. @jnothman이 기억할 수도 있습니다. 열 이름을 보존하기 위해 입력 유효성 검사와 함께 큰 수술이 필요하지만 정말 원합니다.

5172

jnothman 에 2015년 10월 24일

참고: 사용자에게 이 기능을 제공하기 위해 가장 바깥쪽 추정기를 앙상블로만 래핑하고 싶은지 궁금했습니다. 내 생각에 대답은: 아니요, 파이프라인 내에서 데이터 프레임 인식 변환기를 허용하기 위해 원자 변환기도 래핑하고 싶어합니다(왜 안되나요?). 이것을 믹스인으로 구현하지 않으면 불필요한 매개변수 접두사 또는 복제 문제(#5080에서와 같이) 문제가 발생할 것이라고 생각합니다.

jnothman 에 2015년 11월 02일

:+1:

languitar 에 2015년 11월 27일

내가 사용하는 솔루션을 버리고 싶었습니다.

def check_output(X, ensure_index=None, ensure_columns=None):
    """
    Joins X with ensure_index's index or ensure_columns's columns when avaialble
    """
    if ensure_index is not None:
        if ensure_columns is not None:
            if type(ensure_index) is pd.DataFrame and type(ensure_columns) is pd.DataFrame:
                X = pd.DataFrame(X, index=ensure_index.index, columns=ensure_columns.columns)
        else:
            if type(ensure_index) is pd.DataFrame:
                X = pd.DataFrame(X, index=ensure_index.index)
    return X

그런 다음 변환 출력에서 이 함수를 호출하는 sklearn의 추정기 주위에 래퍼를 만듭니다.

from sklearn.preprocessing import StandardScaler as _StandardScaler 
class StandardScaler(_StandardScaler):
    def transform(self, X):
        Xt = super(StandardScaler, self).transform(X)
        return check_output(Xt, ensure_index=X, ensure_columns=X)

입력 데이터 프레임 X의 인덱스를 사용해야 하는 분류기는 해당 인덱스를 사용할 수 있습니다(지시된 대로 시계열에 유용함).

이 접근 방식은 기존 sklearn 디자인과 완벽하게 호환되는 동시에 계산 속도를 유지하는 이점이 있습니다(데이터 프레임에 대한 수학 연산 및 인덱싱은 numpy 배열보다 최대 10배 느립니다. http://penandpants.com/2014/09/05 /performance-of-pandas-series-vs-numpy-arrays/). 불행히도, 그것을 활용할 수 있는 각 추정기에 추가하는 것은 많은 지루한 작업입니다.

dwyatte 에 2016년 01월 14일

👍4

아마도 이 마법으로 파이프라인 변형을 만드는 것이 필요할 것입니다...

2016년 1월 15일 02:30에 Dean Wyatte [email protected]이 다음과 같이 썼습니다.

내가 사용하는 솔루션을 버리고 싶었습니다.
def check_output(X,sure_index=없음,sure_columns=없음):
""
가능한 경우 X를sure_index의 인덱스 또는sure_columns의 열과 조인합니다.
""
sure_index가 None이 아닌 경우:
sure_columns가 None이 아닌 경우:
type(ensure_index)이 pd.DataFrame이고 type(ensure_columns)가 pd.DataFrame인 경우:
X = pd.DataFrame(X, index=ensure_index.index, columns=ensure_columns.columns)
또 다른:
유형(ensure_index)이 pd.DataFrame인 경우:
X = pd.DataFrame(X, index=ensure_index.index)
X를 반환
그런 다음 이 함수를 호출하는 sklearn의 추정기 주위에 래퍼를 만듭니다.
변환의 출력 예를 들어,
sklearn.preprocessing에서 StandardScaler를 _StandardScaler로 가져옵니다.
클래스 MinMaxScaler(_MinMaxScaler):
def 변환(자체, X):
Xt = super(MinMaxScaler, self).transform(X)
return check_output(Xt,sure_index=X,sure_columns=X)
입력 데이터 프레임 X의 인덱스를 사용해야 하는 분류기는
인덱스를 사용하십시오(지시된 시계열에 유용함).
이 접근 방식은 다음과 완전히 호환된다는 이점이 있습니다.
계산 속도를 유지하면서 기존 sklearn 설계
(데이터 프레임에 대한 수학 연산 및 인덱싱은 numpy보다 최대 10배 느립니다.
배열). 불행히도, 각 추정기에 추가하는 것은 많은 지루한 작업입니다
활용할 수 있는 것입니다.
—
이 이메일에 직접 답장하거나 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -171674105
.

jnothman 에 2016년 01월 14일

아니면 파이프라인/추정기를 래핑하는 것입니까?

나는 그것이 단지 검사하는 것보다 훨씬 더 많은 일을 할 때 "check_*"와 같은 함수를 호출하는 이유를 정말로 이해하지 못합니다.

2016년 1월 14일 오전 10:45:44 CST, Joel Nothman [email protected] 은 다음과 같이 썼습니다.

아마도 이 마법으로 파이프라인 변형을 만드는 것이 필요할 것입니다...
2016년 1월 15일 02:30, Dean Wyatte [email protected]
썼다:
내가 사용하는 솔루션을 버리고 싶었습니다.
def check_output(X,sure_index=없음,sure_columns=없음):
""
sure_index의 인덱스 또는sure_columns의 열과 X를 조인
사용 가능한 경우
""
sure_index가 None이 아닌 경우:
sure_columns가 None이 아닌 경우:
type(ensure_index)이 pd.DataFrame이고
유형(ensure_columns)은 pd.DataFrame입니다.
X = pd.DataFrame(X, index=ensure_index.index,
열=ensure_columns.columns)
또 다른:
유형(ensure_index)이 pd.DataFrame인 경우:
X = pd.DataFrame(X, index=ensure_index.index)
X를 반환
그런 다음 이것을 호출하는 sklearn의 추정기 주위에 래퍼를 만듭니다.
기능
변환의 출력 예를 들어,
sklearn.preprocessing에서 StandardScaler를 _StandardScaler로 가져옵니다.
클래스 MinMaxScaler(_MinMaxScaler):
def 변환(자체, X):
Xt = super(MinMaxScaler, self).transform(X)
return check_output(Xt,sure_index=X,sure_columns=X)
입력 데이터 프레임 X의 인덱스를 사용해야 하는 분류기는 다음을 수행할 수 있습니다.
단지
인덱스를 사용하십시오(지시된 시계열에 유용함).
이 접근 방식은 다음과 완전히 호환된다는 이점이 있습니다.
속도를 유지하면서 기존 sklearn 디자인
계산
(데이터 프레임에 대한 수학 연산 및 인덱싱은 다음보다 최대 10배 느립니다.
numpy
배열). 불행히도, 각각에 추가하는 것은 많은 지루한 작업입니다
평가자
활용할 수 있는 것입니다.
—
이 이메일에 직접 답장하거나 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -171674105
.
이 이메일에 직접 답장하거나 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -171697542

K-9 Mail을 사용하여 Android 기기에서 보냈습니다. 제 간략함을 용서해 주십시오.

naught101 에 2016년 01월 14일

모든 열 이름 상속이 추정기에 따라 다르기 때문에 Pipeline이 시작하기에 올바른 위치인지 확실하지 않습니다. 예를 들어 스케일러는 입력 데이터 프레임의 열 이름을 상속해야 하지만 PCA와 같은 모델은 상속해서는 안 됩니다. 기능 선택 추정기는 특정 열 이름을 상속해야 하지만 이는 #2007과 더 관련이 있는 또 다른 문제입니다.

변환하는 동안 모든 배열의 n_rows가 항상 유지되는 경우입니까? 그렇다면 입력의 인덱스를 상속하는 것(존재하는 경우)이 안전한 것처럼 보이지만 기본 열 이름(예: [0, 1, 2, 3, ...])이 있는 데이터 프레임을 가져오는 것이 확실하지 않습니다. 최종 사용자 관점에서 현재 동작보다 낫지만 명시적 래퍼/메타 추정기가 사용되면 최소한 사용자는 무엇을 기대해야 하는지 알 수 있습니다.

또한 check_*가 좋지 않은 이름이라는 데 동의했습니다. 저는 제 기능에서 훨씬 더 많은 유효성 검사를 수행하고 있었고 여기에 게시할 데이터 프레임 논리를 제거했습니다.

dwyatte 에 2016년 01월 15일

열 이름을 적절하게 매핑하는 모든 추정기에 무언가를 추가해야 하지만 파이프라인이 시작할 장소가 될 것이라고 생각합니다.

amueller 에 2016년 01월 15일

변환기는 적절한 이름의 열 @naught101을 출력해야 합니다.
열 이름을 유지하려면 입력 유효성 검사와 함께 큰 수술이 필요하지만 :-/ @amueller
입력 유효성 검사뿐만 아니라 모든 변환은 입력 열에 대해 수행하는 작업을 설명해야 합니다. @GaelVaroquaux

트랜스포머에서 트랜스포머로 이름을 전달하는 방법과 출처를 추적하는 방법에 대해 생각해 본 사람이 있습니까? 이것을 어디에 저장할까요?

내 친구 @cbrummitt도 비슷한 문제가 있는데, 그의 설계 행렬의 각 열은 함수형(예: x^2, x^3, x_1^3x_2^2, sympy 식으로 표시됨)이고 그는 변환기를 가지고 있습니다. 기능적 형태를 취하고 이를 기반으로 더 많은 것을 생성할 수 있는 PolynomialFeatures와 유사하게 작동합니다. 그러나 그는 sympy를 사용하여 이전 표현식을 가져 와서 새 표현식을 생성하고 표현식을 문자열 레이블로 저장하면 잘리지 않으며 함수 변환을 계층화 할 때 복잡해집니다. 그는 이 모든 작업을 파이프라인 외부에서 수행할 수 있지만 GridSearch 등의 이점을 얻지 못합니다.

우리 질문의 더 일반적인 버전은 데이터 자체가 아닌 변환기에서 변환기로 전달될 일부 정보를 어떻게 가지고 있습니까? 파이프라인 전역 상태를 가지지 않거나 각 변환기/추정자가 이전 항목에 대해 알게 하거나 각 단계에서 여러 항목 또는 무언가를 반환하지 않고는 좋은 방법을 생각해낼 수 없습니다.

그런 다음 우리는 이를 추적하기 위해 파이프라인을 수정하는 아이디어도 생각해 냈습니다. _fit() 및 _transform() 및 기타 몇 가지를 변경해야 합니다. 그것이 우리의 최선의 선택인 것 같습니다.

이것은 미친 소리처럼 들리지만 실제로 우리의 데이터 매트릭스가 sympy 표현식이 되기를 원하고 각 변환이 새로운 표현식을 생성하기를 원한다는 느낌이 듭니다. 이것은 끔찍합니다. check_array()는 이를 방지하고 파이프라인의 다른 단계를 화나게 만듭니다.

makmanalp 에 2016년 10월 07일

현재 아이디어는 #6425를 참조하십시오.

amueller 에 2016년 10월 07일

원하는 것은 각 변환기(파이프라인 포함)에 대한 매핑입니다.
변환기), 입력 기능 이름에서 출력 기능 이름(또는 일부
내가 생각하는 변형의 구조화된 표현
우리가 얻을 것보다 엔지니어링). 그것이 #6425가 제공하는 것입니다.

2016년 10월 8일 03:42 Andreas Mueller 알림 @github.com
썼다:

자세한 내용은 #6425 https://github.com/scikit-learn/scikit-learn/issues/6425 를 참조
현재 아이디어.
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -252301608,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AAEz65fBsMwqmkDq3DEjMSUC-W-nfn9zks5qxnZxgaJpZM4GThGc
.

jnothman 에 2016년 10월 08일

우리는 이것을 조사할 것입니다, 감사합니다!

makmanalp 에 2016년 10월 11일

누군가 이 문제에 대한 세계 현황에 대한 일반적인 업데이트를 제공할 수 있습니까?

팬더 DataFrame 지원은 항상 YMMV인가요?
무엇에 대한 지침은가 / 팬더와 함께 사용하기 위해 안전 간주되지 않습니다 DataFrame 대신 그냥이 ndarray 도움이 될 것입니다. 아마도 다음과 같은 내용일 것입니다(MADE UP EXAMPLE TABLE).

지금 당장은 "그냥 시도하고 예외가 발생하는지 확인하십시오" 이외의 접근 방식은 확실하지 않습니다.

우리는 pandas DataFrame을 수락하는 것이 잘 작동하는 것처럼 보이는 손으로 코딩한 몇 가지 예제를 테스트했지만, 우리가 겉보기에 사소해 보이는 파이프라인 구성 요소 교체가 필요하다고 결정할 때 이것이 불가피하게 올바르게 작동하지 않을 것이라고 생각하지 않을 수 없습니다... 그 시점에서 모든 것이 비밀 스택 추적의 카드 집처럼 무너집니다.

내 초기 생각 프로세스는 입력/출력 DataFrame 개체를 numpy ndarray 로 변환하기 위해 표준 scikit-learn 구성 요소에 대한 래퍼를 자동 생성하는 pandas DataFrame 를 사용할 수 있는 대체 파이프라인 개체를 만드는 것이었습니다. 필요에 따라 ndarray 개체. 그렇게 하면 팬더 DataFrame 프리미티브를 사용할 수 있도록 나만의 사용자 지정 선택기/변환기를 작성할 수 있지만 손이 많이 가는 것 같습니다. 특히 우리가 그들에 대한 "공식적인" 지원을 받기 직전이라면 더욱 그렇습니다.

나는 몇 가지 다른 PR을 따르고 있지만 어느 것이 포기되고 현재 생각을 반영하는지 이해하기 어렵습니다.
예시:

6425(이 스레드의 위 2016년 10월 참조)

9012(sklearn-pandas와 분명히 겹치지만 실험용으로 주석이 달렸습니까?)

3886(#9012 ?로 대체됨)

jimmywan 에 2017년 06월 21일

이것은 "팬더 DataFrame을 안전하게 사용할 수 있음"이 의미하는 바에 따라 크게 달라집니다. 부동 소수점 숫자만 포함하는 DataFrame을 의미하는 경우 모든 것이 작동함을 보장합니다. 아무데나 문자열이 하나라도 있으면 아무 것도 작동하지 않습니다.

사소하지 않은(또는 사소한) 작업에 대해 데이터 프레임을 반환하는 scikit-learn estimator는 결코 일어나지 않을 수도 있는 일이라고 생각합니다(원하지만).

amueller 에 2017년 06월 21일

9012가 발생하고 안정될 것입니다. PR은 첫 번째 반복입니다(또는 병합되지 않은 반복을 계산하는 경우 10번째 반복 ;).

6425가 발생할 가능성이 높지만 팬더와 완전히 관련이 있는 것은 아닙니다.

3886은 실제로 #9012로 대체됩니다.

amueller 에 2017년 06월 21일

기능 #6425는 현재 구현되어 있습니다(일부 변압기 및
다른 사람에게 확장 가능) 단일 디스패치를 통해
그 가치에 대해서는 https://codecov.io/gh/TeamHG-Memex/eli5 를

2017년 6월 21일 13시 25분에 Andreas Mueller [email protected] 은 다음과 같이 썼습니다.

9012 https://github.com/scikit-learn/scikit-learn/pull/9012
발생하고 안정화될 것이며 PR은 첫 번째 반복입니다.
6425 https://github.com/scikit-learn/scikit-learn/issues/6425 는
팬더와 완전히 관련이 있는 것은 아니지만 일어날 가능성이 있습니다.
3886 https://github.com/scikit-learn/scikit-learn/pull/3886 은 실제로
#9012로 대체됨
https://github.com/scikit-learn/scikit-learn/pull/9012
—
당신이 언급되었기 때문에 이것을 받는 것입니다.
이 이메일에 직접 답장하고 GitHub에서 확인하세요.
https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment-309952467 ,
또는 스레드 음소거
https://github.com/notifications/unsubscribe-auth/AAEz61lgGBW1AoukPm_87elBjF2NGOUwks5sGI0-gaJpZM4GThGc
.

jnothman 에 2017년 06월 21일

아 그리고 내가 "당신이 부동 소수점 숫자만을 포함하는 DataFrame을 의미한다면, 우리는 모든 것이 작동할 것이라고 보장합니다."라고 말할 때. 위치 기반 열 인덱싱을 의미합니다. 훈련 및 테스트 세트 열은 위치별로 동일한 것으로 가정합니다.

amueller 에 2017년 06월 21일

이것은 "팬더 DataFrame을 안전하게 사용할 수 있음"이 의미하는 바에 따라 크게 달라집니다. 부동 소수점 숫자만 포함하는 DataFrame을 의미하는 경우 모든 것이 작동함을 보장합니다. 아무데나 문자열이 하나라도 있으면 아무 것도 작동하지 않습니다.

나는 그것이 우리에게 충분하다고 생각합니다.

우리는 선택기 또는 모델과 같은 scikit-learn 구성 요소에 도달하기 전에 인코딩/스케일링을 통해 혼합 유형(문자열, 부동 소수점 및 정수)을 부동 소수점으로 변환하기 위해 사용자 지정 구성 요소의 파이프라인(파이프라인 친화적이지 않은 기존 도구 주위의 얇은 래퍼)을 사용하고 있습니다.

jimmywan 에 2017년 06월 21일

내 모든 변환기는 DataFrame s가 주어지면 DataFrame DataFrame s를 반환합니다.
언제 입력 300 열 DataFrame 에 Pipeline 받을 500 열 ndarray , I 효과적으로, 예를 들어,에 의해, 그것에서 많이 배울 수 feature_selection , 더 이상 열 이름이 없기 때문입니다. 예를 들어 mutual_info_classif 30열과 75열만 중요하다고 말하면 프로덕션을 위해 원래 Pipeline 를 단순화하는 방법을 알 수 없습니다.
따라서 내 데이터를 DataFrame 에 보관하는 것이 내 사용 사례에서 중요합니다.
감사합니다.

sam-s 에 2018년 08월 07일

👍8

@sam- 전적으로 동의합니다. "단기"에서는 https://github.com/scikit-learn/scikit-learn/pull/13307 및 https://github.com/scikit-learn/enhancement_proposals/pull/18 에서 이 문제를 해결할 것입니다.

pandas 데이터 프레임을 얻지는 못하지만 하나를 생성하기 위해 열 이름을 얻게 됩니다.

그런데 좀 더 구체적인 예를 들어 주시겠습니까? 모든 변환기가 DataFrames를 반환하면 모든 것이 작동해야 하기 때문입니다(또는 위의 제안보다 더 쉽게 작동하도록 만들어야 함).

amueller 에 2019년 06월 26일

https://github.com/pandas-dev/pandas/issues/27211을 통한 약간의 업데이트
내 희망을 방해합니다. 우리가 거기에서 제로 카피 왕복을 신뢰할 수 없는 것처럼 보이므로 판다로 래핑하고 언래핑하는 것은 상당한 비용을 초래할 것입니다.

amueller 에 2019년 07월 03일

pandas-dev/pandas#27211을 통한 약간의 업데이트는 내 희망에 제동을 걸었습니다. 우리가 거기에서 제로 카피 왕복을 신뢰할 수 없는 것처럼 보이므로 판다로 래핑하고 언래핑하는 것은 상당한 비용을 초래할 것입니다.

예, 하지만 일단 기능과 샘플 소품(행 이름과 "인덱스"는 일종의 샘플 소품임)을 다루면 이제 팬더가 필요한 대부분의 관련 사용 사례가 다루어질 것 같죠?

adrinjalali 에 2019년 07월 05일

@adrinjalali "팬더가 필요한 대부분의 관련 사용 사례"가 무엇을 의미하는지 잘 모르겠습니다. 나는 이 문제가 주로 scikit-learn 내에서 기능을 구현하기 위해 pandas를 지원하는 것이 아니라 scikit-learn이 pandas 기반 워크플로에서 더 쉽게 통합되도록 하는 것으로 보았습니다.

amueller 에 2019년 07월 05일

👍3

단지 호기심에서, 개선된 Pandas 호환성이 착륙할 것으로 예상되는 기간이 있습니까? 저는 특히 Pandas in -> Pandas out for StandardScaler 있습니다.

janosh 에 2019년 07월 12일

Pipeline 각 단계를 통해 보존된 팬더 데이터 프레임이 필요한 사용 사례가 있습니다. 예를 들어 1) 데이터를 기반으로 기능을 필터링하는 기능 선택 단계, 2) 데이터 변환 단계, 3) 특정 기능 열 이름 또는 원래 인덱스를 필터링하기 위한 또 다른 기능 선택 단계, 4) 표준화, 5) 분류가 있는 파이프라인.

3단계) 1)에서 기능 선택 단계가 있었기 때문에 데이터가 3)에 도달하면 원래 기능 인덱스가 의미가 없기 때문에 numpy 배열 입력을 사용하더라도 sklearn에서는 현재 불가능하다고 생각합니다. pandas 데이터 프레임이 파이프라인에서 유지되고 있다면 3)에서 열 이름으로 필터링할 수 있기 때문에 작동할 것입니다.

numpy 배열 입력으로도 현재이 작업을 수행 할 방법이 없다고 생각하는 것이 잘못된 것입니까?

hermidalc 에 2019년 10월 24일

지원되지 않는 것이 옳고 지원하는 것이 쉽지 않을 것입니다. 귀하의 사용 사례와 관련하여 우리는 파이프라인을 따라 기능 이름을 전달하기 위해 노력하고 있습니다(위의 링크된 PR 및 제안에서 볼 수 있듯이). 일단 완료되면 귀하의 사례에 도움이 될 것입니다. 도움이 되는지 잘 모르겠지만 https://github.com/scikit-learn-contrib/sklearn-pandas 를

adrinjalali 에 2019년 10월 24일

지원되지 않는 것이 옳고 지원하는 것이 쉽지 않을 것입니다. 귀하의 사용 사례와 관련하여 우리는 파이프라인을 따라 기능 이름을 전달하기 위해 노력하고 있습니다(위의 링크된 PR 및 제안에서 볼 수 있듯이). 일단 완료되면 귀하의 사례에 도움이 될 것입니다.

확인해주셔서 감사합니다. 예, 기능 이름(또는 기타 기능 속성)을 전달하여 메서드에 맞도록 하고 각 기능 선택 단계에서 적절하게 슬라이스할 수 있으면 이 사용 사례에 적합합니다.

도움이 되는지 잘 모르겠지만 https://github.com/scikit-learn-contrib/sklearn-pandas 를

이전에 나는 그들의 문서를 읽었고 아마도 그것을 보지 못했을 것입니다. 그러나 그들의 기능의 대부분(또는 전부)은 sklearn.compose.ColumnTransformer 와 함께 scikit-learn 0.21에서 이제 더 이상 사용되지 않습니다. 또한 변환 후 numpy 배열처럼 보이는 팬더를 지원하지 않는 것 같습니다.

hermidalc 에 2019년 10월 24일

👍1

(기능 선택에서 Pandas를 지원하는 것이 중단되는지 궁금합니다.
많이...)

jnothman 에 2019년 10월 24일

코드를 간단히 확인하면 https://github.com/scikit-learn/scikit-learn/blob/939fa3cccefe708db7a81c5248db32a1d600bf8d/sklearn/utils/validation.py를 사용하여 여러 곳에서 임의로 발생하는 모든 종류의 검사가

또한 많은 작업에서 pandas 데이터 프레임에서 허용되지 않는 numpy 방식으로 인덱싱을 사용합니다.

팬더를 안팎으로 유지하는 것은 일상적인 데이터 과학 IMO의 필수 사항이지만 scikit-learn은 구현하기 어렵게 만드는 방식으로 설계된 것 같습니다.

GuillaumeDesforges 에 2019년 10월 24일

👍1

팬더를 안/밖으로 유지하는 것은 일상적인 데이터 과학 IMO의 필수 사항이지만
scikit-learn은
구현.

좋은 숫자는 pandas 데이터 프레임에서 구현하기 어렵습니다. 그들은 단지
특히 다변수 연산(숫자
열에 걸친 작업).

기계 학습은 대부분 다변수 숫자입니다.

GaelVaroquaux 에 2019년 10월 24일

좋은 숫자는 pandas 데이터 프레임에서 구현하기 어렵습니다. 특히 다변수 연산(열에 대한 수치 연산)을 위한 것은 아닙니다. 기계 학습은 대부분 다변수 숫자입니다.

그 결정은 사용자에게 맡겨야 합니까? 지난 2년 동안 scikit-learn을 광범위하게 사용한 경험에 따르면 많은 ML 사용 사례에서 누락되어 있어야 하는 두 가지 핵심적이고 중요한 기능은 샘플 및 기능 메타데이터 전달에 대한 지원입니다. 완전한 pandas 데이터 프레임 지원은 이 중 일부를 처리하는 자연스럽고 우아한 방법입니다.

이러한 종류의 핵심 기능은 사용자 기반을 유지하고 새로운 사용자를 확보하는 데 매우 중요합니다. 그렇지 않으면 예를 들어 mlr3과 같은 라이브러리가 데이터 프레임과 메타데이터를 완전히 지원한다는 것을 알고 있기 때문에 사용자를 sklearn에서 멀어지게 하고 끌어들이는 것을 봅니다.

hermidalc 에 2019년 10월 24일

그 결정은 사용자에게 맡겨야 합니까?

글쎄, 사용자는 알고리즘을 구현하지 않습니다.

그렇지 않으면 mlr3과 같은 라이브러리가 결국 성숙하고
사용자가 sklearn을 사용하지 않도록 유도합니다.
데이터 프레임과 메타데이터를 완벽하게 지원합니다.

mlr3은 R에 있으며 데이터 프레임은 팬더 데이터 프레임과 상당히 다릅니다.
어쩌면 이렇게 하면 구현이 더 쉬워질 수도 있습니다.

기능 이름 및 이기종 데이터에 대한 더 나은 지원에 동의합니다.
유형이 중요합니다. 우리는 좋은 기술 솔루션을 찾기 위해 노력하고 있습니다
성능 손실과 지나치게 복잡한 코드로 이어지지 않습니다.

GaelVaroquaux 에 2019년 10월 24일

그 결정은 사용자에게 맡겨야 합니까?
글쎄, 사용자는 알고리즘을 구현하지 않습니다.
그렇지 않으면 예를 들어 mlr3과 같은 라이브러리가 데이터 프레임과 메타데이터를 완전히 지원한다는 것을 알고 있기 때문에 사용자를 sklearn에서 멀어지게 하고 끌어들이는 것을 봅니다.
mlr3은 R에 있으며 데이터 프레임은 팬더 데이터 프레임과 상당히 다릅니다. 어쩌면 이렇게 하면 구현이 더 쉬워질 수도 있습니다. 기능 이름과 이기종 데이터 유형에 대한 더 나은 지원이 중요하다는 데 동의합니다. 우리는 성능 저하와 지나치게 복잡한 코드로 이어지지 않는 우수한 기술 솔루션을 찾기 위해 노력하고 있습니다.

numpy 배열을 고수하고 최소한 전달 기능 이름 또는 더 나은 다중 기능 메타데이터를 지원하는 접근 방식이 많은 사용 사례에서 작동할 것이라고 생각합니다. 교육 샘플 메타데이터를 전달하기 위해 이미 **fit_params 에서 지원하고 있으며 디자인을 개선하기 위한 노력이 있다는 것을 알고 있습니다. 하지만 https://github.com/scikit-learn/enhancement_proposals/pull/16 에서 테스트 샘플 메타데이터를 transform 메서드로 전달해야 하는 사용 사례가 있으며 현재 지원되지 않는다고 언급했습니다. .

hermidalc 에 2019년 10월 24일

mlr3은 R에 있으며 데이터 프레임은 팬더 데이터 프레임과 상당히 다릅니다.

생명 과학 연구의 전산 과학자는 일반적으로 파이썬과 R 모두에 매우 익숙하며 둘 다 함께 사용합니다(저도 포함). 나는 scikit-learn 사용자 기반의 상당 부분이 생명 과학 연구원이라고 확신합니다.

현재 R IMHO에서 사용 가능한 성숙한 ML 라이브러리는 잘 설계된 API를 제공하고 ML의 실용적인 부분(파이프라인, 하이퍼파라미터 검색, 스코어링 등)을 매우 간단하게 만드는 측면에서 scikit-learn에 가깝지 않은 반면 R에서는 이 라이브러리를 사용하면 거의 직접 코딩해야 합니다. 그러나 mlr3는 처음부터 올바른 방식으로 설계하기 때문에 scikit-learn에 대한 미래의 큰 경쟁으로 보고 있습니다.

hermidalc 에 2019년 10월 24일

좋은 숫자는 pandas 데이터 프레임에서 구현하기 어렵습니다. 그들은 단지
특히 다변수 연산(숫자
열에 걸친 작업).

어쩌면 내가 뭔가를 놓치고 있을지 모르지만 DataFrame ( df.values )을 풀고 계산을 수행 한 다음 새 DataFrame으로 다시 랩핑하는 것이 가능하지 않을까요?

그것은 기본적으로 단계 사이에 수동으로 수행하는 것이며 Pipeline 사용을 방지하는 유일한 것입니다.

GuillaumeDesforges 에 2019년 10월 24일

👍1

내가 뭔가를 놓치고 있을지도 모르지만 포장을 풀 수는 없을까요?
DataFrame(df.values 사용), 계산을 수행한 다음 새
데이터프레임?

일반적으로 아니오: 작동하지 않을 수 있으며(이기종 열)
많은 메모리 복사본으로 이어집니다.

GaelVaroquaux 에 2019년 10월 24일

일반적으로 아니오: 작동하지 않을 수 있습니다(이기종 열).

Column Transformers 등이 개별적으로 처리할 수 있다고 생각합니다.

그것은 많은 메모리 복사본으로 이어질 것입니다.

어려운 설계 및 구현 선택이 있다는 것을 이해하며 이는 타당한 주장입니다.

그러나 sklearn이 열 메타 데이터를 지원하는 방식을 개선하는 것이 좋지 않다고 주장하는 이유를 이해하지 못합니다.

예를 들어 기능이 있는 df를 수집하고, 예측자 덕분에 열을 추가하고, 더 많은 데이터 조작을 수행하고, 다른 예측을 수행하는 등 파이프라인에서 이 모든 것을 허용하는 것은 (예를 들어) 하이퍼 매개변수 최적화를 허용하기 때문에 유용할 것입니다. 훨씬 더 통합되고 우아한 방식으로.

pandas를 사용하거나 사용하지 않고 수행하는 것은 데이터를 조작하는 가장 일반적이고 쉽고 인기 있는 방법이고 내가 한 것보다 다시 작성하는 이점이 없기 때문에 제안일 뿐입니다.

성능을 최적화할 때 이 워크플로를 사용하지 않을 것인지 결정하는 것은 사용자의 몫입니다.

GuillaumeDesforges 에 2019년 10월 24일

사용자의 판단에 맡기고 명확하게 설명해야 함
사용자에게 선택. 대부분의 사용자는 다음과 같은 문서를 읽지 않습니다.
그러한 선택을 설명하십시오. 많은 사람들이 효과가 있다고 생각하는 것을 시도한 다음
그것이 자신의 선택이라는 것을 깨닫지 못하고 느리다고 생각하면 포기하십시오.
그렇게 만든 다라프레임.

그래서 우리는 여기에서 약간의 주의를 기울여야 합니다. 하지만 우리는 계속 해결해야 합니다
이것은 높은 우선 순위로.

jnothman 에 2019년 10월 24일

👍1

가장 좋은 솔루션은 샘플 및 기능 속성에 대해 팬더 데이터 프레임을 안팎으로 지원하고 적절하게 전달하고 훈련 및 테스트 적합/변환으로 슬라이싱하는 것이라고 생각합니다. 그러면 데이터 행렬 X의 속도를 numpy 배열로 유지하면서 대부분의 사용 사례를 해결할 수 있습니다.

hermidalc 에 2019년 10월 25일

이 인수에서 누락된 한 가지 중요한 점은 pandas가 np.array(pd.DataFrame(numpy_data)) 두 개의 _보증된_ 메모리 복사본이 있는 방식으로 데이터의 열 형식 표현으로 이동하고 있다는 것입니다. 그렇기 때문에 데이터 프레임을 유지하고 속도가 필요할 때마다 values 사용하는 것만큼 쉽지 않습니다.

adrinjalali 에 2019년 10월 25일

이 인수에서 누락된 한 가지 중요한 점은 pandas가 np.array(pd.DataFrame(numpy_data)) 두 개의 _보증된_ 메모리 복사본이 있는 방식으로 데이터의 열 형식 표현으로 이동하고 있다는 것입니다. 그렇기 때문에 데이터 프레임을 유지하고 속도가 필요할 때마다 values 사용하는 것만큼 쉽지 않습니다.

이전 게시물에서 내가 명확했기를 바랍니다. 나는 scikit-learn이 현재 X 데이터에 대한 pandas 데이터 프레임을 지원할 필요가 없다고 생각하며, 빠른 numpy 배열로 유지합니다. 그러나 많은 사용 사례를 해결할 수 있는 것은 메타데이터(예: 샘플 속성 및 기능 속성)용 팬더 데이터 프레임 프레임워크를 통한 완전한 지원입니다. 이 두 데이터 구조는 X에 비해 작기 때문에 메모리 복사본의 경우에도 성능 부담이 되어서는 안 되며 실제로 이들에 대한 부분 집합만 수행됩니다.

hermidalc 에 2019년 10월 25일

예, 이러한 변경 사항은 많은 사용 사례에서 도움이 되며 현재 작업 중입니다. 그러나 이 문제는 그 이상입니다. https://github.com/scikit-learn/scikit-learn/issues/5523#issuecomment -508807755

adrinjalali 에 2019년 10월 25일

👍1

@hermidalc X 가 numpy 배열이 되도록 하고 다른 데이터 프레임 개체에 메타 데이터를 할당하도록 제안하고 있습니까?

NicolasHug 에 2019년 10월 25일

@hermidalc X 가 numpy 배열이 되도록 하고 다른 데이터 프레임 개체에 메타 데이터를 할당하도록 제안하고 있습니까?

예, 샘플 속성 및 기능 속성을 팬더 데이터 프레임으로 완벽하게 지원합니다. 다른 PR 및 문제의 샘플 속성 및 기능 이름에 대한 논의가 이미 진행 중입니다(예: #9566 및 #14315).

hermidalc 에 2019년 10월 25일

이 문제에 대해 읽었으며 여기에 두 가지 주요 차단기가 있는 것 같습니다.

https://github.com/pandas-dev/pandas/issues/27211
그 팬더는 ND 배열을 처리하지 않습니다.

대신 xarray에 대한 지원을 추가하는 것을 고려했습니까? 판다의 한계는 없습니다.

X = np.arange(10).reshape(5, 2)
assert np.asarray(xr.DataArray(X)) is X
assert np.asarray(xr.Dataset({"data": (("samples", "features"), X)}).data).base is X.base

sklearn-xarray 라는 패키지가 있습니다. https://phausamann.github.io/sklearn-xarray/content/wrappers.html xarray를 입력 및 출력으로 처리하기 위해 scikit 추정기를 래핑하지만 유지 관리되지 않은 것 같습니다. 연령. 그러나 래퍼가 여기에 가는 방법인지 궁금합니다.

183amir 에 2020년 04월 28일

xarray는 적극적으로 고려되고 있습니다. https://github.com/scikit-learn/scikit-learn/pull/16772 에서 프로토타입을 만들고 작업 중입니다. PR에서 API가 어떻게 보이는지에 대한 사용 노트북이 있습니다.

(0.23 릴리스가 끝나면 다시 돌아오겠습니다)

thomasjpfan 에 2020년 04월 28일

👍4 ❤1

저도 이 기능에 관심이 많습니다.
그것은 무한한 문제를 해결할 것입니다. 현재 이것이 내가 사용하는 솔루션입니다.
sklearn.preprocessing 모듈 주위에 래퍼를 작성했으며 sklearn_wrapper

따라서 sklearn.preprocessing 에서 가져오는 대신 sklearn_wrapper 에서 가져옵니다.
예를 들어:

# this
from sklearn.preprocessing import StandardScaler 
# becomes 
from sklearn_wrapper import StandardScaler

이 모듈의 구현 아래에 있습니다. 그것을 시도하고 여러분의 생각을 알려주세요

from functools import wraps
from itertools import chain

import pandas as pd
from sklearn import preprocessing, compose, feature_selection, decomposition
from sklearn.compose._column_transformer import _get_transformer_list

modules = (preprocessing, feature_selection, decomposition)


def base_wrapper(Parent):
    class Wrapper(Parent):

        def transform(self, X, **kwargs):
            result = super().transform(X, **kwargs)
            check = self.check_out(X, result)
            return check if check is not None else result

        def fit_transform(self, X, y=None, **kwargs):
            result = super().fit_transform(X, y, **kwargs)
            check = self.check_out(X, result)
            return check if check is not None else result

        def check_out(self, X, result):
            if isinstance(X, pd.DataFrame):
                result = pd.DataFrame(result, index=X.index, columns=X.columns)
                result = result.astype(X.dtypes.to_dict())
            return result

        def __repr__(self):
            name = Parent.__name__
            tmp = super().__repr__().split('(')[1]
            return f'{name}({tmp}'

    Wrapper.__name__ = Parent.__name__
    Wrapper.__qualname__ = Parent.__name__

    return Wrapper


def base_pca_wrapper(Parent):
    Parent = base_wrapper(Parent)

    class Wrapper(Parent):
        @wraps(Parent)
        def __init__(self, *args, **kwargs):
            self._prefix_ = kwargs.pop('prefix', 'PCA')
            super().__init__(*args, **kwargs)

        def check_out(self, X, result):
            if isinstance(X, pd.DataFrame):
                columns = [f'{self._prefix_}_{i}' for i in range(1, (self.n_components or X.shape[1]) + 1)]
                result = pd.DataFrame(result, index=X.index, columns=columns)
            return result

    return Wrapper


class ColumnTransformer(base_wrapper(compose.ColumnTransformer)):

    def check_out(self, X, result):
        if isinstance(X, pd.DataFrame):
            return pd.DataFrame(result, index=X.index, columns=self._columns[0]) if self._remainder[1] == 'drop' \
                else pd.DataFrame(result, index=X.index, columns=X.columns). \
                astype(self.dtypes.iloc[self._remainder[-1]].to_dict())


class SelectKBest(base_wrapper(feature_selection.SelectKBest)):

    def check_out(self, X, result):
        if isinstance(X, pd.DataFrame):
            return pd.DataFrame(result, index=X.index, columns=X.columns[self.get_support()]). \
                astype(X.dtypes[self.get_support()].to_dict())


def make_column_transformer(*transformers, **kwargs):
    n_jobs = kwargs.pop('n_jobs', None)
    remainder = kwargs.pop('remainder', 'drop')
    sparse_threshold = kwargs.pop('sparse_threshold', 0.3)
    verbose = kwargs.pop('verbose', False)
    if kwargs:
        raise TypeError('Unknown keyword arguments: "{}"'
                        .format(list(kwargs.keys())[0]))
    transformer_list = _get_transformer_list(transformers)
    return ColumnTransformer(transformer_list, n_jobs=n_jobs,
                             remainder=remainder,
                             sparse_threshold=sparse_threshold,
                             verbose=verbose)


def __getattr__(name):
    if name not in __all__:
        return

    for module in modules:
        Parent = getattr(module, name, None)
        if Parent is not None:
            break

    if Parent is None:
        return

    if module is decomposition:
        Wrapper = base_pca_wrapper(Parent)
    else:
        Wrapper = base_wrapper(Parent)

    return Wrapper


__all__ = [*[c for c in preprocessing.__all__ if c[0].istitle()],
           *[c for c in decomposition.__all__ if c[0].istitle()],
           'SelectKBest']


def __dir__():
    tmp = dir()
    tmp.extend(__all__)
    return tmp

gioxc88 에 2020년 06월 12일

https://github.com/koaning/scikit-lego/issues/304 sklearn.pipeline.FeatureUnion 핫픽스로 또 다른 솔루션 제공

samosun 에 2020년 12월 09일

Scikit-learn: 팬더 인, 팬더 아웃?

가장 유용한 댓글

모든 59 댓글

5172

K-9 Mail을 사용하여 Android 기기에서 보냈습니다. 제 간략함을 용서해 주십시오.

6425(이 스레드의 위 2016년 10월 참조)

9012(sklearn-pandas와 분명히 겹치지만 실험용으로 주석이 달렸습니까?)

3886(#9012 ?로 대체됨)

9012가 발생하고 안정될 것입니다. PR은 첫 번째 반복입니다(또는 병합되지 않은 반복을 계산하는 경우 10번째 반복 ;).

6425가 발생할 가능성이 높지만 팬더와 완전히 관련이 있는 것은 아닙니다.

3886은 실제로 #9012로 대체됩니다.

9012 https://github.com/scikit-learn/scikit-learn/pull/9012

6425 https://github.com/scikit-learn/scikit-learn/issues/6425 는

3886 https://github.com/scikit-learn/scikit-learn/pull/3886 은 실제로

관련 문제