Scikit-learn: 제안: 벌점 없는 로지스틱 회귀에 대한 지원 추가

에 만든 2016년 04월 30일 · 34코멘트 · 출처: scikit-learn/scikit-learn

LinearRegression 는 벌점 없는 OLS를 제공하고 SGDClassifier 를 지원하는 loss="log" 는 penalty="none" 도 지원합니다. 당신이 평범한 구식 unpenalized 로지스틱 회귀를 원하는 경우, 당신은 설정하여 가짜로이 C 에서 LogisticRegression 많은 수의, 또는 사용 Logit 에서 statsmodels 대신에.

Documentation Easy

출처

Kodiologist

👍10

가장 유용한 댓글

정규화 없이 로지스틱 회귀를 수행하려는 이유를 묻고 있습니까? (1) 때때로 표본은 정규화로 아무것도 살 수 없는 기능의 수에 비례하여 충분히 크고 (2) 예측 정확도를 최대화하는 것과는 대조적으로 가장 적합한 계수가 관심이 있는 경우가 있기 때문입니다.

Kodiologist 에 2016년 10월 11일

👍28

모든 34 댓글

LogisticRegression의 C를 큰 숫자로 설정하여 가짜로 만들어야 합니다.

그 접근 방식의 문제점은 무엇입니까?

mblondel 에 2016년 05월 02일

벌점 없는 로지스틱 회귀를 직접 구현하는 것보다 정확하지 않고 느리다고 가정했습니다. 내가 잘못?

다음과 같이 C 너무 높게 설정하면 LogisticRegression.fit 가 중단됩니다. 그러나 이것이 버그인지 64비트 컴퓨터에서 알고리즘과 구현의 고유한 속성인지 모르겠습니다.

import numpy as np
from sklearn.linear_model import LogisticRegression

x = np.matrix([0, 0, 0, 0,  1, 1, 1, 1]).T
y =           [1, 0, 0, 0,  1, 1, 1, 0]

m = LogisticRegression(C = 1e200)
m.fit(x, y)
print m.intercept_, m.coef_

Kodiologist 에 2016년 05월 02일

다음과 같이 C를 너무 높게 설정하면 LogisticRegression.fit이 중단됩니다.

예, 이것은 C가 클 때 문제가 잘못 제기되기 때문에 예상되는 것입니다. 반복적인 솔버는 잘못된 문제로 인해 느립니다.

귀하의 예에서 알고리즘은 원하는 허용 오차에 도달하는 데 영원히 걸립니다. tol 를 늘리거나 max_iter 하드코드해야 합니다.

mblondel 에 2016년 05월 02일

@mblondel "반복 솔버"에 대한 대안이 있습니까?
정규화되지 않은 옵션을 정확히 얻지 못할 것입니다. 그렇죠?

@Kodiologist 왜 이것을 원하십니까?

amueller 에 2016년 10월 11일

Kodiologist 에 2016년 10월 11일

👍28

네, 그게 제 질문이었습니다.

(1) 사실이 아니다. 그것은 항상 당신에게 더 빠른 해결사를 살 것입니다.

(2) 실제로 scikit-learn의 초점이 아닌 통계 분석의 영역에 더 가깝습니다. 이것을 추가할 수 있을 것 같지만 어떤 솔버를 사용할지 모르겠습니다. 비통계학자로서, 약간의 정규화로 변화하는 계수가 얼마나 좋은지 궁금합니다.

amueller 에 2016년 10월 11일

계산이 제 장점이 아니기 때문에 (1)에 대해 많이 말할 수 없습니다. (2)의 경우 통계에 대한 배경 지식을 갖춘 데이터 분석가입니다. scikit-learn이 전통적인 머신 러닝에 초점을 맞춘다는 것을 알고 있지만, 제 생각에는 현재로서는 데이터 분석을 위한 최고의 Python 패키지이며 자체적으로 _너무_ 제한하지 않는 것이 도움이 될 것이라고 생각합니다. (나는 또한 Larry Wasserman과 Andrew Gelman을 따라 통계와 기계 학습이 더 많이 섞이면 상호 이익이 될 것이라고 생각하지만, 그것은 자체적인 벌레 캔이라고 생각합니다.) 모든 계수는 정규화와 함께 변경됩니다. 그것이 바로 정규화가 하는 일입니다.

Kodiologist 에 2016년 10월 11일

👍15 ❤6

저는 정규화 없이 솔버를 추가하는 것에 반대하지 않습니다. 무엇이 좋은지 확인할 수 있습니까? 아니면 그냥 보석금을 내고 l-bfgs를 사용하고 상태가 좋지 않은지 미리 확인할 수 있습니까?

예, 모든 계수는 정규화에 따라 변경됩니다. 나중에 그들과 함께 무엇을 하고 싶은지 솔직히 궁금합니다.

amueller 에 2016년 10월 13일

이봐,
이 주제에 대한 상태는 무엇입니까? 나는 벌점 없는 로지스틱 회귀에 정말로 관심이 있습니다. 이런 식으로 p-값은 통계적으로 의미하는 바가 됩니다. 그렇지 않으면 그러한 사용 사례에 대해 R 😢를 계속 사용해야 합니다...
감사 해요,
알렉스

alexcombessie 에 2018년 02월 09일

👍3

아니면 국가 모델?

jnothman 에 2018년 02월 10일

👍2

구현하기 위해 어떤 솔버를 제안합니까? 그것은 우리가 이미 C -> infty로 가지고 있는 솔버와 어떻게 다릅니까?

mblondel 에 2018년 02월 12일

구현하기 위해 어떤 솔버를 제안합니까? 그것은 우리가 이미 C -> infty로 가지고 있는 솔버와 어떻게 다릅니까?

아이디어를 얻으려면 R 또는 statsmodels를 살펴보십시오. 나는 그들의 방법에 익숙하지 않지만 합리적으로 빠르며 정규화를 전혀 사용하지 않습니다.

Kodiologist 에 2018년 02월 13일

👍1

예, 행렬 반전에 QR 알고리즘을 사용하는 경우 statsmodels도 작업을 수행합니다. 내 사용 사례는 모델 해석 가능성에 관한 것입니다. 성능을 위해 나는 확실히 정규화를 사용할 것입니다.

alexcombessie 에 2018년 02월 13일

새로운 솔버를 추가할 필요가 없다고 생각합니다... 로지스틱 회귀는 닫힌 형식 솔루션을 즐기지 않습니다. 즉, statsmodel도 일종의 반복 솔버를 사용해야 합니다(내 추측은 반복적으로 재가중된 최소 제곱이지만, 확인하지 않았습니다). C=np.inf (또는 동등하게 alpha=0 ) 설정은 원칙적으로 현재 솔버에서 작동해야 합니다. 이 설정에서는 liblinear가 실제로 매우 느릴 수 있으므로 L-BFGS 또는 Newton-CG 솔버로 전환하는 것이 좋습니다. solver="auto" 옵션을 추가하고 C=np.inf 또는 이에 상응하는 penalty="none" 경우 자동으로 이들 중 하나로 전환할 수 있습니다.

mblondel 에 2018년 02월 14일

#10001 fwiw에서 기본 솔버를 lbfgs로 변경합니다.

jnothman 에 2018년 02월 14일

저처럼 비정규 로지스틱 회귀를 원하는 사람들을 위해. 나는 statsmodels를 사용하고 SKLearn API를 모방하는 래퍼 클래스를 만드는 것으로 정착해야 했습니다.

arose13 에 2018년 04월 20일

👍6 ❤1

이에 대한 업데이트가 있습니까? 이것은 사람들에게 scikit-learn을 기꺼이 추천하는 데 큰 방해 요소입니다. 또한 scikit-learn이 기본적으로 정규화를 수행하고 비활성화할 방법이 없다는 사실이 다른 라이브러리에서 온 사람들에게 전혀 분명 하지 않습니다.

shermstats 에 2018년 11월 12일

👍5

@shermstats 는 이에 대한 문서를 개선하는 방법을 제안합니까? 매우 명확하지 않을 수 있다는 데 동의합니다.
l-bfgs는 C=np.inf 합니까?

amueller 에 2018년 11월 12일

C=np.inf 지정할 수 있지만 C=large value 와 동일한 결과를 얻을 수 있습니다. 내가 시도한 예에서는 statsmodel보다 더 잘 맞았고 statsmodel은 대부분의 다른 임의 시드와 수렴하지 못했습니다.

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
import statsmodels.api as sm

X, y = make_classification(random_state=2)
lr = LogisticRegression(C=np.inf, solver='lbfgs').fit(X, y)


logit = sm.Logit(y, X)
res = logit.fit()

Optimization terminated successfully.
         Current function value: 0.167162
         Iterations 10

from sklearn.metrics import log_loss
log_loss(y, lr.predict_proba(X))
log_loss(y, res.predict(X))

0.16197793224715606
0.16716164149746823

따라서 C를 크게 설정하거나 np.inf로 설정하여 벌점 없는 모델을 얻을 수 있음을 문서화해야 한다고 주장합니다.

amueller 에 2018년 11월 12일

docstring 및 사용자 가이드에 추가하는 것이 좋습니다.
"LogisticRegression 모델은 기본적으로 패널티가 적용됩니다. C=np.inf 및 solver='lbfgs'를 설정하여 패널티 없는 모델을 얻을 수 있습니다."

amueller 에 2018년 11월 12일

statsmodel보다 더 잘 맞았고 statsmodel은 대부분의 다른 임의 시드와 수렴하지 못했습니다.

R의 glm 는 더 성숙하고 더 나은 비교를 위해 만들 수 있습니다.

docstring 및 사용자 가이드에 추가하는 것이 좋습니다.
"LogisticRegression 모델은 기본적으로 패널티가 적용됩니다. C=np.inf 및 solver='lbfgs'를 설정하여 패널티 없는 모델을 얻을 수 있습니다."

penalty = "none" a la SGDClassifier 허용을 추가하지 않으시겠습니까?

Kodiologist 에 2018년 11월 12일

@Kodiologist 저는 penalty="none" 를 추가하는 것에 반대하지 않지만 중복 옵션을 추가하면 어떤 이점이 있는지 잘 모르겠습니다.
그리고 나는 우리가 glm과의 비교를 환영한다고 생각합니다. 나는 glm에 대해 잘 알지 못하므로 아마도 비교를 수행하기에 좋은 사람이 아닐 것입니다. 그러나 우리는 로그 손실을 최적화하고 있으므로 실제로 차이가 없어야 합니다. 어쩌면 그들은 다른 솔버를 구현하므로 벤치마크가 있으면 좋을 것입니다.

amueller 에 2018년 11월 12일

penalty="none" 추가에 반대하지 않지만 중복 옵션을 추가할 때의 이점이 무엇인지 잘 모르겠습니다.

벌점 없는 모델을 얻는 방법이 더 명확해집니다.
벌점 없는 모델을 사용하는 코드가 무엇을 하려고 하는지 독자에게 더 명확해집니다.
이를 통해 sklearn은 향후 사람들의 코드를 손상시키지 않고 비정규화된 모델의 구현을 변경할 수 있습니다.

Kodiologist 에 2018년 11월 12일

👍11

그것이 발견 가능성에 추가된다고 생각되면 추가할 수 있으며 3은 유효한 포인트입니다(비록 사용하지 않고 실제로 변경할 수는 없지만 솔버의 현재 변경 사항을 참조하십시오).
PR을 보내시겠습니까?

amueller 에 2018년 11월 12일

나는 그것을 위한 둥근 tuits가 없습니다; 죄송 해요.

Kodiologist 에 2018년 11월 12일

@Kodiologist 적어도 당신은 나에게 내가 몰랐던 관용구를 가르쳐주었습니다 ;)

amueller 에 2018년 11월 13일

따라서 기고자에게 열려 있습니다. penalty='none' 를 옵션으로 추가하십시오. 또한 가능한 솔버가 이것을 지원하는지 확인하고(liblinear는 그렇지 않을 수 있음) 해당 솔버로 제한합니다.

amueller 에 2018년 11월 13일

docstring 및 사용자 가이드에 추가하는 것이 좋습니다.
"LogisticRegression 모델은 기본적으로 패널티가 적용됩니다. C=np.inf 및 solver='lbfgs'를 설정하여 패널티 없는 모델을 얻을 수 있습니다."

이것은 나에게 합리적으로 들린다. 또한 다른 기계 학습 또는 데이터 분석 환경에서 온 사람들에게 합법적으로 놀라운 것이기 때문에 첫 번째 문장을 굵게 표시하는 것이 좋습니다.

shermstats 에 2018년 11월 13일

@shermstats 그래서 @Kodiologist은 추가 제안 penalty="none" 단지에 대한 별칭이 될 것이다, 좀 더 명시 적으로 만들 C=np.inf . 이런 식으로 이것을 더 명확히 하는 것이 나에게는 의미가 있습니다. 그것에 대한 생각이 있습니까?
그러면 문서에 있는 내용일 것입니다. 그리고 나는 대담한 것이 좋은 생각일 수 있다는 데 동의합니다.
ML 배경 지식이 있는 사람에게는 이것이 (아마도?) 예상되는 일이라고 생각합니다. 통계 배경 지식이 있는 사람에게는 이것이 매우 놀라운 일입니다.

amueller 에 2018년 11월 13일

👍2

정확히! 저는 통계에 대한 배경 지식이 있고 R 또는 심지어 포인트 앤 클릭 인터페이스에서 온 많은 통계 전문가들과 함께 일했는데 이 행동은 우리에게 매우 놀라운 일입니다. 지금은 penalty=None ( "none" 대 None 에 대해 확실하지 않음)이 좋은 솔루션이라고 생각합니다. 미래에는 @mblondel이 설명한 문제를 방지하기 위해 벌점 없는 로지스틱 회귀에 대해 자동으로 호출되는 별도의 솔버가 있어야 합니다.

shermstats 에 2018년 11월 13일

죄송합니다. 어떤 문제를 말씀하시는 건가요? 우리는 기본적으로 l-bfgs로 전환하고 있으며 누군가 penalty='none' 지정하면 솔버를 l-bfgs로 자동으로 전환할 수도 있습니다(종종 None은 더 이상 사용되지 않는 매개변수에 사용하는 특수 토큰이지만 중지했습니다. 여전히 'none'은 나머지 라이브러리와 더 일관성이 있습니다).
어쨌든 solver="auto" 가 필요하므로 패널티를 기반으로 솔버를 변경하는 것은 문제가 되지 않습니다.

amueller 에 2018년 11월 13일

이 문제 는 대규모 C에 대해 반복 알고리즘이 매우 느려지는 것을 나타냅니다. 저는 수치 분석 전문가는 아니지만 l-bfgs가 속도가 느려지는 것을 방지한다면 올바른 솔루션처럼 들립니다. penalty='none' 도 이것을 처리하는 올바른 방법처럼 들립니다.

shermstats 에 2018년 11월 14일

@shermstats 예, l-bfgs를 사용하면 문제가 되지 않는 것 같습니다. 그러나 광범위한 벤치마크를 실행하지 않았으며 시간이 없을 것입니다. 벤치마크를 실행하려는 사람이 있다면 큰 도움이 될 것입니다.

amueller 에 2018년 11월 14일

Penalty='none'이 포함되어야 한다면 OLS(특히 원-핫 인코딩 기능의 경우)에서와 동일한 동일 선형 X에 대한 경고를 사용자 가이드에 추가하는 것이 좋습니다.

lorentzenchr 에 2019년 01월 02일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Scikit-learn: 제안: 벌점 없는 로지스틱 회귀에 대한 지원 추가

가장 유용한 댓글

모든 34 댓글

관련 문제