Scikit-learn: MSE는 cross_val_score에서 반환 될 때 음수입니다.

에 만든 2013년 09월 12일 · 58코멘트 · 출처: scikit-learn/scikit-learn

sklearn.cross_validation.cross_val_score에서 반환 된 평균 제곱 오차는 항상 음수입니다. 일부 하이퍼 파라미터가 주어지면이 함수의 출력을 최대화에 사용할 수 있도록 설계된 결정이지만 cross_val_score를 직접 사용할 때는 매우 혼란 스럽습니다. 적어도 나는 제곱의 평균이 어떻게 음수가 될 수 있는지 스스로에게 물었고 cross_val_score가 올바르게 작동하지 않거나 제공된 메트릭을 사용하지 않는다고 생각했습니다. sklearn 소스 코드를 파헤친 후에야 표지판이 뒤집힌 것을 깨달았습니다.

이 동작은 scorer.py의 make_scorer에 언급되어 있지만 cross_val_score에는 언급되어 있지 않으며 그렇게되어야한다고 생각합니다.

API Bug Documentation

출처

tdomhan

👍55 ❤9

가장 유용한 댓글

아마도 negmse가 문제를 해결할 것입니다.

amueller 에 2015년 05월 20일

👍2

모든 58 댓글

당신은

greater_is_better : boolean, default=True

Whether score_func is a score function (default), meaning high is good, 
or a loss function, meaning low is good. In the latter case, the scorer 
object will sign-flip the outcome of the score_func.

http://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html에서
? (참고로)

cross_val_score 문서에서 더 명확해질 수 있다는 데 동의합니다.

신고 해 주셔서 감사합니다

jaquesgrobler 에 2013년 09월 12일

👍1

사실 우리는 Scorer 리팩토링을 할 때 그 문제를 간과했습니다. 다음은 매우 반 직관적입니다.

>>> import numpy as np
>>> from sklearn.datasets import load_boston
>>> from sklearn.linear_model import RidgeCV
>>> from sklearn.cross_validation import cross_val_score

>>> boston = load_boston()
>>> np.mean(cross_val_score(RidgeCV(), boston.data, boston.target, scoring='mean_squared_error'))
-154.53681864311497

/ cc @larsmans

ogrisel 에 2013년 09월 12일

BTW 문서 문제라는 데 동의하지 않습니다. cross_val_score 는 점수 이름과 일치하는 부호가있는 값을 반환해야합니다. 이상적으로는 GridSearchCV(*params).fit(X, y).best_score_ 도 일관성이 있어야합니다. 그렇지 않으면 API가 매우 혼란 스럽습니다.

ogrisel 에 2013년 09월 12일

나는 또한 부호를 바꾸지 않고 실제 MSE를 반환하는 변경이 더 나은 옵션이 될 것이라는 데 동의합니다.

득점자 객체는 greater_is_better 플래그를 저장할 수 있으며 득점자가 사용될 때마다 필요한 경우를 대비하여 부호를 뒤집을 수 있습니다 (예 : GridSearchCV .

tdomhan 에 2013년 09월 12일

여기에 사용성 문제가 있다는 데 동의하지만 @ogrisel 의 솔루션에 완전히 동의하지는 않습니다.

점수 이름과 일치하는 부호가있는 값을 반환합니다.

장기적으로 보면 신뢰할 수없는 해킹이기 때문입니다. 누군가 mse 와 같은 이름으로 사용자 지정 채점자를 정의하면 어떻게됩니까? 이름 지정 패턴을 따르지만 이름을 변경하는 데코레이터로 득점자를 감싼다면 어떻게 될까요?

득점자 객체는 greater_is_better 플래그를 저장할 수 있으며 득점자가 사용될 때마다 필요한 경우에 표시를 뒤집을 수 있습니다 (예 : GridSearchCV).

이것은 득점자가 0.13과 0.14 릴리스 사이의 개발 과정에서 원래 한 일이며 정의를 훨씬 더 어렵게 만들었습니다. 또한 스코어러 코드에서 greater_is_better 속성이 사라지고 그리드 검색 코드 중간에 다시 나타나는 것처럼 보이기 때문에 코드를 따르기 어렵게 만들었습니다. 이상적으로는 간단한 함수로 할 수있는 일을하기 위해서는 특별한 Scorer 클래스가 필요했습니다.

점수를 최적화하려면 _ 최대화 _해야한다고 생각합니다. 사용자 편의를 위해 점수의 _display_ 만 변경하고 기본 제공 이름을 기반으로 휴리스틱을 사용할 수있는 매개 변수 score_is_loss ∈ ["auto", True, False] 를 도입 할 수 있다고 생각합니다.

larsmans 에 2013년 09월 13일

기차에서 내려야했기 때문에 서둘러 응답했습니다. "디스플레이"가 의미하는 것은 실제로 cross_val_score 의 반환 값입니다. 득점자는 단순하고 균일해야하며 알고리즘은 항상 최대화되어야한다고 생각합니다.

이로 인해 기본 제공 및 사용자 지정 채점자간에 비대칭이 발생합니다.

핑 @GaelVaroquaux.

larsmans 에 2013년 09월 13일

나는 score_is_loss 솔루션이나 그 효과를 좋아합니다. 점수 이름과 일치하는 부호 변경은 유지하기 어려운 것 같습니다 @larsmans가 언급했듯이 문제를 일으킬 수 있습니다.

jaquesgrobler 에 2013년 09월 13일

결론은 무엇이며 어떤 해결책을 찾아야합니까? :)

tdomhan 에 2013년 09월 28일

@tdomhan @jaquesgrobler @larsmans 이것이 r2 에도 적용되는지 알고 있습니까? 나는 것으로 나타 납니까 r2 점수에 의해 반환 GridSearchCV 도에 대한 대부분 부정적인 ElasticNet , Lasso 및 Ridge .

amelio-vazquez-reina 에 2013년 10월 24일

R²는 양수 또는 음수 일 수 있으며 음수는 모델의 성능이 매우 낮음을 의미합니다.

larsmans 에 2013년 10월 24일

IIRC, @GaelVaroquaux 는 greater_is_better=False 때 음수를 반환하는 지지자였습니다.

jnothman 에 2014년 01월 17일

r2 는 점수 함수 (크면 클수록 좋음)이므로 모델이 좋으면 양수 여야하지만 실제로 음수 일 수있는 몇 안되는 성능 측정 항목 중 하나이며 이는 0보다 더 나쁩니다.

larsmans 에 2014년 01월 17일

이 문제에 대한 합의는 무엇입니까? 제 생각에는 cross_val_score 는 모델 선택 도구가 아니라 평가 도구입니다. 따라서 원래 값을 반환해야합니다.

PR # 2759에서 수정할 수 있습니다. 변경 사항으로 인해 쉽게 수정할 수 있기 때문입니다. 트릭은 사인을 뒤집지 않고 대신 그리드 검색을 수행 할 때 득점자의 greater_is_better 속성에 액세스하는 것입니다.

mblondel 에 2014년 02월 04일

이 문제에 대한 합의는 무엇입니까? 제 생각에는 cross_val_score는
모델 선택 도구가 아닌 평가 도구입니다. 따라서 반환되어야합니다.
원래 값.

특별한 경우는 다양한 동작이 소프트웨어 문제의 원인입니다.

목록에서 "mse"의 이름을 "negated_mse"로 변경해야한다고 생각합니다.
허용 가능한 점수 문자열.

GaelVaroquaux 에 2014년 02월 04일

누군가 mse와 같은 이름으로 사용자 지정 채점자를 정의하면 어떻게됩니까? 이름 지정 패턴을 따르지만 이름을 변경하는 데코레이터로 득점자를 감싼다면 어떻게 될까요?

@ogrisel 이 원래 메트릭과 일치하기 위해 이름 일치를 사용하도록 제안했다고 생각하지 않습니다. @ogrisel이 잘못되면 저를 수정하십시오.

mblondel 에 2014년 02월 04일

허용되는 점수 문자열 목록에서 "mse"의 이름을 "negated_mse"로 변경해야한다고 생각합니다.

scikit-learn의 내부를 모른다면 완전히 직관적이지 않습니다. 이렇게 시스템을 구부려 야한다면 디자인 문제가 있다는 신호라고 생각합니다.

mblondel 에 2014년 02월 04일

scikit-learn의 내부를 모른다면 완전히 직관적이지 않습니다.
이렇게 시스템을 구부려 야한다면
디자인 문제.

동의하지 않습니다. 인간은 많은 사전 지식과
문맥. 그것들은 모두 체계적입니다. 이것을 소프트웨어에 포함 시키려고
특별한 경우와 같은 쇼핑 목록을 제공합니다. 뿐만 아니라
유지하기 어려운 소프트웨어이지만
이러한 예외는 놀라운 동작을 일으키고 버그를 작성합니다.
라이브러리를 사용하는 코드.

GaelVaroquaux 에 2014년 02월 04일

어떤 특별한 경우를 염두에두고 있습니까?

명확하게 말하면 GridSearchCV 객체에 저장된 교차 검증 점수가 _also_ 원래 값이어야한다고 생각합니다 (부호 반전이 아님).

AFAIK, 그리드 검색 구현을 좀 더 간단하게 만들기 위해 기호 뒤집기가 도입되었지만 사용성에 영향을 미치지는 않았습니다.

mblondel 에 2014년 02월 04일

어떤 특별한 경우를 염두에두고 있습니까?

글쎄요, 일부 메트릭의 경우 더 큰 것이 더 좋은 반면 다른 메트릭의 경우
그 반대입니다.

AFAIK, 그리드 검색을 위해 사인 뒤집기 도입
구현이 조금 더 간단하지만 영향을주지 않아야합니다.
유용성.

그리드 검색이 아니라 관심사 구분 : 점수
그들에 대해 아무것도 모르고 사용할 수 있어야합니다. 그렇지 않으면
그들의 특이성을 다루는 것은 전체 코드베이스로 퍼질 것입니다. 있다
이미 많은 점수 코드.

GaelVaroquaux 에 2014년 02월 04일

그러나 그것은 사용자 코드에 대한 문제를 다소 미루고 있습니다. 아무도 "부정 된 MSE"를 그리는 것을 원하지 않으므로 사용자는 코드에서 기호를 다시 뒤집어 야합니다. 특히 다중 메트릭 교차 검증 보고서 (PR # 2759)의 경우 각 메트릭을 개별적으로 처리해야하므로 이는 불편합니다. 일반적인 코드와 직관적 인 결과라는 두 가지 장점을 모두 얻을 수 있는지 궁금합니다.

mblondel 에 2014년 02월 04일

그러나 그것은 사용자 코드에 대한 문제를 다소 미루고 있습니다. 아무도 원하지 않는다
"부정 된 MSE"를 플로팅하여 사용자가 자신의
암호.

확실히 세상의 끝은 아닙니다. 논문을 읽을 때 또는
프레젠테이션을 보면 같은 문제가 있습니다. 그래프가
잘 했어, 나는 시간과 정신적 대역폭을
더 큰 것이 더 좋은지 아닌지 그림.

특히 다중 메트릭 교차 검증의 경우 불편합니다.
보고서 (PR # 2759), 각 측정 항목을 개별적으로 처리해야합니다.

왜. 항상 큰 것이 더 좋다는 것을 받아들이면
결과 해석을 포함하여 모든 것이 더 쉽습니다.

우리가 두 가지 장점을 모두 가질 수 있을지 궁금합니다. 일반 코드와
직관적 인 결과.

위험은 유지 관리 속도를 늦추는 매우 복잡한 코드를 갖는 것입니다.
및 개발. Scikit-learn은 무게를 늘리고 있습니다.

GaelVaroquaux 에 2014년 02월 04일

항상 더 큰 것이 더 좋다는 것을 받아들이면

그것이 그녀가 말한 것입니다 :)

더 진지하게, 이것이 사람들을 혼란스럽게하는 한 가지 이유는 cross_val_score 의 출력이 메트릭과 일치하지 않기 때문이라고 생각합니다. 귀하의 논리를 따르는 경우 sklearn.metrics의 모든 메트릭은 "큰 것이 더 좋음"을 따라야합니다.

mblondel 에 2014년 02월 04일

그것이 그녀가 말한 것입니다 :)

잘 했어!

더 진지하게, 이것이 사람들을 혼란스럽게하는 한 가지 이유는
cross_val_score의 출력이 메트릭과 일치하지 않습니다. 우리가
논리를 따르고 sklearn.metrics의 모든 메트릭은 "더 큰
더 나은".

동의합니다. 그래서 이름을 바꾸는 것이 마음에 듭니다.
사람들의 눈에.

GaelVaroquaux 에 2014년 02월 04일

더 진지하게, 이것이 사람들을 혼란스럽게하는 한 가지 이유는 cross_val_score의 출력이 메트릭과 일치하지 않기 때문이라고 생각합니다.

그리고 이것은 차례로 scoring 실제보다 더 신비스럽게 보이게합니다.

jnothman 에 2014년 02월 04일

선형 회귀를 시도 할 때 오늘 0.16.1에서 이것에 물 렸습니다. 점수의 부호는 분류 자에 대해 더 이상 반전되지 않지만 선형 회귀에서는 여전히 반전됩니다. 혼란을 더하기 위해 LinearRegression.score ()는 반전되지 않은 점수 버전을 반환합니다.

나는 그것을 모두 일관되게 만들고 선형 모델에 대해서도 부호 반전되지 않은 점수를 반환하는 것이 좋습니다.

예:

from sklearn import linear_model
from sklearn.naive_bayes import GaussianNB
from sklearn import cross_validation
from sklearn import datasets
iris = datasets.load_iris()
nb = GaussianNB()
scores = cross_validation.cross_val_score(nb, iris.data, iris.target)
print("NB score:\t  %0.3f" % scores.mean() )

iris_reg_data = iris.data[:,:3]
iris_reg_target = iris.data[:,3]
lr = linear_model.LinearRegression()
scores = cross_validation.cross_val_score(lr, iris_reg_data, iris_reg_target)
print("LR score:\t %0.3f" % scores.mean() )

lrf = lr.fit(iris_reg_data, iris_reg_target)
score = lrf.score(iris_reg_data, iris_reg_target)
print("LR.score():\t  %0.3f" % score )

이것은 다음을 제공합니다.

NB score:     0.934    # sign is not flipped
LR score:    -0.755    # sign is flipped
LR.score():   0.938    # sign is not flipped

Huitzilo 에 2015년 05월 20일

교차 검증은 클수록 더 좋은 모델의 모든 신호를 뒤집습니다. 나는 여전히이 결정에 동의하지 않습니다. 나는 그것의 주된 지지자가 @GaelVaroquaux 이고 아마도 @mblondel이었다고 생각한다.

amueller 에 2015년 05월 20일

오 괜찮아요. 모든 논의는 위에 있습니다.
mse에서 기본적으로 기호를 뒤집는 느낌이 들었고 r2는 훨씬 덜 직관적입니다 :-/

amueller 에 2015년 05월 20일

@Huitzilo GaussianNB는 분류기이며 정확도를 기본 채점자로 사용합니다. LinearRegression은 회귀 자이며 r2 점수를 기본 채점자로 사용합니다. 두 번째 점수는 음수이지만 r2 점수는 음수 일 수 있습니다. 또한 iris는 다중 클래스 데이터 세트입니다. 따라서 대상은 범주 형입니다. 회귀자를 사용할 수 없습니다.

mblondel 에 2015년 05월 20일

맞아요, 나는 무슨 일이 일어나는지에 대해 약간 혼란 스러웠습니다. r2는 뒤집 히지 않습니다 ... mse 만 될 것입니다.

amueller 에 2015년 05월 20일

전체 문제에 대한 해결책은 negmse 이름을 바꾸는 것입니다.

larsmans 에 2015년 05월 20일

👍1

@mblondel 물론 당신이 옳습니다, 죄송합니다. 나는 회귀에 대한 예를 빠르게 함께 두드리고 있었고 홍채 데이터에 대한 과신으로 다른 것의 기능 # 4를 예측하는 것이 효과가 있다고 생각했습니다 (양수 R2 사용). 그러나 그것은 음의 R2가 아니 었습니다. 여기서 뒤집는 흔적이 없습니다. 확인. 내 잘못이야.

그래도 기호는 cross_val_score 에서 얻은 MSE에서 뒤집혀 있습니다.

나뿐 일 수도 있지만,이 불일치가 매우 혼란 스럽습니다. MSE는 왜 R2가 아닌 sign-flipped 여야합니까?

Huitzilo 에 2015년 05월 20일

나뿐 일 수도 있지만,이 불일치가 매우 혼란 스럽습니다. MSE는 왜 R2가 아닌 sign-flipped 여야합니까?

점수의 의미가 높을수록 좋습니다. 높은 MSE는 나쁘다.

agramfort 에 2015년 05월 20일

아마도 negmse가 문제를 해결할 것입니다.

amueller 에 2015년 05월 20일

👍2

@amueller 동의합니다. 점수 매개 변수의 이름에서 부호 반전을 명시 적으로 만들면 혼란을 피하는 데 확실히 도움이됩니다.

어쩌면 [1]의 문서는 어떤 점수에서 기호가 어떻게 뒤집히는 지에 대해 훨씬 더 분명 할 수 있습니다. 제 경우에는 정보가 빨리 필요했고 3.1.1.1 아래의 표만 보았지만 텍스트는 읽지 않았습니다 ( "크면 클수록 좋다"라는 원칙을 설명합니다). IMHO는 3.1.1.1의 표에 mse, median 및 mean absolute error에 대한 주석을 추가하여 부정을 나타내는 것으로 실제 코드를 변경하지 않고도 이미 많은 도움이 될 것입니다.

[1] http://scikit-learn.org/stable/modules/model_evaluation.html#scoring -parameter

Huitzilo 에 2015년 05월 20일

매우 흥미로운 사례를 발견했습니다.

from sklearn.cross_validation import cross_val_score
model = LinearRegression()
scores = cross_val_score(model, X, target, cv=2, scoring='r2')
scores

결과

array([-0.17026282, -2.21315179])

동일한 데이터 세트에 대해 다음 코드

model = LinearRegression()
model.fit(X, target)
prediction = model.predict(X)
print r2_score(target, prediction)

합리적인 가치를 제공합니다

0.353035789318

선형 회귀 모델 (절편 포함)에 대한 AFAIK는 R ^ 2> 1 또는 R ^ 2 <0을 얻을 수 없습니다.

따라서 cv 결과는 부호가 반전 된 R ^ 2처럼 보이지 않습니다. 어느 시점에서 내가 틀렸습니까?

lesn-v 에 2015년 06월 02일

r2는 음수 일 수 있습니다 (잘못된 모델의 경우). 1보다 클 수 없습니다.

아마도 과적 합 상태 일 것입니다. 시험:

from sklearn.cross_validation import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, target, test_size=0.2, random_state=0)
model = LinearRegression()
model.fit(X_train, y_train)
pred_train = model.predict(X_train)
print("train r2: %f" % r2_score(y_train, pred_train))

pred_test = model.predict(X_test)
print("test r2: %f" % r2_score(y_test, pred_test))

임의 분할을 제어하는 random_state 정수 시드에 대해 다른 값을 사용해보십시오.

ogrisel 에 2015년 06월 03일

👍1

아마도 negmse가 문제를 해결할 것입니다.

'neg_mse'의 경우 +1 (밑줄이 더 읽기 쉽게 만든다고 생각합니다).

GaelVaroquaux 에 2015년 06월 03일

모든 문제가 해결됩니까? 다른 점수가 높을수록 좋지 않습니까?

amueller 에 2015년 06월 03일

다음이 있습니다.

log_loss
mean_absolute_error
median_absolute_error

doc/modules/model_evaluation.rst 따르면 그게 전부입니다.

larsmans 에 2015년 06월 04일

그리고 hinge_loss 내 생각 엔?

mblondel 에 2015년 06월 04일

모든 손실에 neg_ 접두사를 추가하는 것은 어색합니다.

아이디어는 원래 점수를 반환하는 것입니다 (부호 뒤집기없이) 그러나 ndarray를 반환하는 대신 best() , arg_best() , best_sorted() 같은 메서드로 ndarray를 확장하는 클래스를 반환합니다

mblondel 에 2015년 06월 04일

경첩 손실에 대한 채점자는 없습니다 (평가에 사용되는 것을 본 적이 없습니다).

larsmans 에 2015년 06월 04일

득점자는 numpy 배열을 반환하지 않고 float를 반환합니다.
사용자 정의 ">"가 있지만 부동처럼 보이는 점수 개체를 반환 할 수 있습니다.
이전 솔루션보다 더 인위적인 느낌이 들었습니다. 이전 솔루션은 GridSearchCV에서 사용 된 bool "lower_is_better"로 득점자에 태그를 지정했습니다.

amueller 에 2015년 06월 04일

cross_val_score 는 배열을 반환합니다.

mblondel 에 2015년 06월 05일

실제로 cross_val_score 반환 된 점수는 일반적으로 정렬 할 필요가 없으며 평균 만 계산됩니다.

또 다른 아이디어는 sorted 메서드를 _BaseScorer 입니다.

my_scorer = make_scorer(my_metric, greater_is_better=False)
scores = my_scorer.sorted(scores)  # takes into account my_scorer._sign
best = scores[0]

mblondel 에 2015년 06월 05일

cross_val_score 는 배열을 반환하지만 득점자는 부동 소수점을 반환합니다. GridSearchCV와 다른 모든 CV 개체에서 동일한 동작을 원하기 때문에 cross_val_score 에 특정 논리를 갖는 것이 이상하다고 생각합니다.

GridSearchCV에서 최고의 점수와 최고의 인덱스를 원하기 때문에 argsort 메서드가 필요합니다.

amueller 에 2015년 06월 05일

scikit-learn에 의해 "통제 질문에서 작업자 오류의 평균과 분산을 추정 한 다음 예측에 대한 추정 편향을 제거한 후 가중 평균을 계산"하는 방법은 무엇입니까?

jenifferYingyiWu 에 2016년 03월 15일

IIRC는 스프린트 (지난 여름?!)에서이 문제를 논의했고 neg_mse (또는 neg-mse 였음)를 사용하기로 결정하고 현재 마이너스 부호가있는 모든 득점자 / 문자열을 폐기했습니다.
이것이 여전히 합의입니까? 0.18 이전에해야합니다.
핑 @GaelVaroquaux @agramfort @jnothman @ogrisel @raghavrv

amueller 에 2016년 08월 02일

네, 우리는 neg_mse AFAIK에 동의했습니다

agramfort 에 2016년 08월 02일

neg_mse

raghavrv 에 2016년 08월 02일

또한 다음이 필요합니다.

neg_log_loss
neg_mean_absolute_error
neg_median_absolute_error

ogrisel 에 2016년 08월 27일

모델 = Sequential ()
keras.layers.Flatten ()
model.add (Dense (11, input_dim = 3, kernel_initializer = keras.initializers.he_normal (seed = 2),
kernel_regularizer = regularizers.l2 (2)))
keras.layers.LeakyReLU (알파 = 0.1)
model.add (Dense (8, kernel_initializer = keras.initializers.he_normal (seed = 2)))
keras.layers.LeakyReLU (알파 = 0.1)
model.add (Dense (4, kernel_initializer = keras.initializers.he_normal (seed = 2)))
keras.layers.LeakyReLU (알파 = 0.1)
model.add (Dense (1, kernel_initializer = keras.initializers.he_normal (seed = 2)))
keras.layers.LeakyReLU (알파 = 0.2)
adag = RMSprop (lr = 0.0002)
model.compile (loss = losses.mean_squared_error,
Optimizer = adag
)
history = model.fit (X_train, Y_train, epochs = 2000,
batch_size = 20, shuffle = True)

위 코드를 교차 검증하는 방법은 무엇입니까? 나는 이것에 사용되는 교차 검증 방법을 남겨두고 싶습니다.

shreyassks 에 2018년 10월 29일

@shreyassks 이것은 귀하의 질문에 대한 올바른 장소는 아니지만 https://keras.io/scikit-learn-api를 확인합니다. 네트워크를 scikit-learn 추정기로 래핑 한 다음 model_selection.cross_val_score

jolespin 에 2019년 05월 14일

예. 전적으로 동의합니다! 이것은 Brier_score_loss에서도 발생했으며 Brier_score_loss를 사용하여 완벽하게 작동하지만 GridSearchCV에서 올 때 혼란스러워지고 부정적인 Brier_score_loss가 반환됩니다. 적어도 Brier_score_loss가 손실이기 때문에 (낮을수록 더 좋음), 여기서 점수 매기기 기능은 부호를 뒤집어 음수로 만듭니다.

TomMeowMeow 에 2019년 06월 03일

아이디어는 cross_val_score가 결과의 절대 값에 전적으로 초점을 맞춰야한다는 것입니다. 내 지식으로는 cross_val_score에서 MSE (평균 제곱 오차)에 대해 얻은 음수 부호 (-)의 중요성이 미리 정의되어 있지 않습니다. 이 문제가 해결되는 sklearn의 업데이트 된 버전을 기다리겠습니다.

Nishaodd25 에 2019년 10월 06일

회귀 사용 사례의 경우 :
model_score = cross_val_score (model, df_input, df_target, scoring = 'neg_mean_squared_error', cv = 3)
다음과 같이 값을 얻고 있습니다.

SVR :
[-6.20938025 -1.397376 -1.94519]
-3.183982080147279

선형 회귀:
[-5.94898085 -9.30931808 -1.15760676]
-5.4719685646934275

올가미:
[-7.22363814 -10.47734135 -2.20807684]
-6.6363521107522345

산등성이:
[-5.95990385 -4.17946756 -1.36885809]
-3.8360764993832004

그래서 어느 것이 가장 좋습니까?
SVR?

pritishban 에 2019년 12월 17일

회귀 사용 사례의 경우 :
사용할 때 다른 결과가 나타납니다.
(1) 점수가 'neg_mean_squared_error'인 "cross_val_score"
과
(2) "GridSearchCV"를 사용하고 'best_score_'를 확인할 때 동일한 입력에 대해

회귀 모델의 경우 어느 것이 더 낫습니까?

scoring = 'neg_mean_squared_error'인 "cross_val_score"
(또는)
"GridSearchCV"를 사용하고 'best_score_'를 확인하십시오.

pritishban 에 2019년 12월 17일

뿡 빵뀨
사용법에 대한 질문을하고 있습니다. 이슈 트래커는 주로 버그와 새로운 기능을위한 것입니다. 사용법 질문의 경우 Stack Overflow 또는 메일 링리스트 를 사용해 보는 것이 좋습니다.

amueller 에 2019년 12월 17일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Scikit-learn: MSE는 cross_val_score에서 반환 될 때 음수입니다.

가장 유용한 댓글

모든 58 댓글

관련 문제