Scikit-learn: GMM의 EM 알고리즘은 0.16.1을 사용하는 1차원 데이터 세트에 대해 실패합니다(하지만 0.15.2에서는 문제 없음).

에 만든 2015년 05월 13일 · 4코멘트 · 출처: scikit-learn/scikit-learn

GMM.fit()을 사용하여 1차원 가우스 분포를 피팅하면 scikit-learn 버전 0.16.1을 사용하여 런타임 오류가 생성되지만 0.15.2를 사용하여 적절한 매개변수가 생성됩니다.

문제를 보여주는 짧은 예:

import sklearn
from sklearn import mixture
import numpy as np
from scipy import stats
import sys

# the version info 
print("Python version: %s.%s" %(sys.version_info.major, sys.version_info.minor))
print("scikit-learn version: %s" %(sklearn.__version__))

# some pretend data
np.random.seed(seed=0)
data = stats.norm.rvs(loc=100, scale=1, size=1000)
print("Data mean = %s, Data std dev = %s" %(np.mean(data), np.std(data)))

# Fitting using a GMM with a single component
clf = mixture.GMM(n_components=1)
clf.fit(data)
print(clf.means_, clf.weights_, clf.covars_)

scikit-learn 0.15.2로 이 예제 코드를 실행하면 올바른 출력이 생성됩니다.

Python version: 3.4
scikit-learn version: 0.15.2
Data mean = 99.9547432925, Data std dev = 0.987033158669
[[ 99.95474329]] [ 1.] [[ 0.97523446]]

그러나 scikit-learn 0.16.1을 사용하는 정확히 동일한 코드는 다음과 같은 역추적을 제공합니다.

Python version: 3.4
scikit-learn version: 0.16.1
Data mean = 99.9547432925, Data std dev = 0.987033158669
/home/rebecca/anaconda/envs/new_sklearn/lib/python3.4/site-packages/numpy/lib/function_base.py:1890: RuntimeWarning: Degrees of freedom <= 0 for slice
  warnings.warn("Degrees of freedom <= 0 for slice", RuntimeWarning)
/home/rebecca/anaconda/envs/new_sklearn/lib/python3.4/site-packages/numpy/lib/function_base.py:1901: RuntimeWarning: invalid value encountered in true_divide
  return (dot(X, X.T.conj()) / fact).squeeze()
Traceback (most recent call last):
  File "test_sklearn.py", line 18, in <module>
    clf.fit(data)
  File "/home/rebecca/anaconda/envs/new_sklearn/lib/python3.4/site-packages/sklearn/mixture/gmm.py", line 498, in fit
    "(or increasing n_init) or check for degenerate data.")
RuntimeError: EM algorithm was never able to compute a valid likelihood given initial parameters. Try different init parameters (or increasing n_init) or check for degenerate data.

n_init, n_iter 및 covariance_type 매개변수의 다양한 값을 시도했습니다. 또한 다양한 데이터 세트를 시도했습니다. 이러한 모든 결과는 0.16.1을 사용하여 이 오류 또는 이와 유사한 결과를 가져오지만 0.15.2를 사용하는 데는 전혀 문제가 없습니다. 문제는 기대 최대화에 사용된 초기 매개변수와 관련된 것으로 보이므로 이것이 이 문제와 관련이 있을 수 있습니다. #4429

이것이 유용한 정보인 경우 scikit-learn을 새로 설치한 아나콘다 가상 환경을 다음과 같이 설정했습니다(버전 0.16.1용).

conda create -n new_sklearn python=3.4
source activate new_sklearn
conda install sklearn

Bug

출처

rebeccaroisin

가장 유용한 댓글

이는 데이터 형태에 문제가 있을 수 있습니다.
X 1ndim입니까 아니면 2ndim입니까?
0.15와 0.16 사이에 의도하지 않은 동작 변경이 있을 수 있지만 앞으로 1ndim 입력을 지원하지 않기로 결정했기 때문에 입력 모양은 X.shape = (n_samples, 1) 이어야 합니다.
넌 할 수있어

X = X.reshape(-1, 1)

그렇지 않으면 하나의 샘플 또는 하나의 기능을 의미하는 경우 다소 모호합니다.

amueller 에 2015년 05월 13일

👍2

모든 4 댓글

X = X.reshape(-1, 1)

그렇지 않으면 하나의 샘플 또는 하나의 기능을 의미하는 경우 다소 모호합니다.

amueller 에 2015년 05월 13일

👍2

예, 입력 데이터의 형태를 변경하면 제대로 작동합니다. 감사합니다!

rebeccaroisin 에 2015년 05월 14일

안녕하세요, 위의 코드는 오류를 수정하지만 내 생각에는 동작이 다릅니다. 이 튜토리얼 코드를 실행

동일한 결과를 얻을 수 있도록 변경할 수 있는 항목(매개변수, 아마도)이 있습니까? 감사!

ghost 에 2016년 04월 15일

@imadie

튜토리얼에서 다음 라인을 다음으로 변경 참조:

clf = GMM(4, n_iter=500, random_state=3)
x.shape = (x.shape[0],1)
clf = clf.fit(x)

xpdf = np.linspace(-10, 20, 1000)
xpdf.shape = (xpdf.shape[0],1)
밀도 = np.exp(clf.score(xpdf))

KelseyJustis 에 2016년 05월 31일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Scikit-learn: GMM의 EM 알고리즘은 0.16.1을 사용하는 1차원 데이터 세트에 대해 실패합니다(하지만 0.15.2에서는 문제 없음).

가장 유용한 댓글

모든 4 댓글

관련 문제