Nltk: NgramModel 백오프 평활화 계산에 오류가 있습니까?

에 만든 2013년 03월 07일 · 18코멘트 · 출처: nltk/nltk

NgramModel에서 백오프 평활을 계산하는 방법에 오류가 있다고 생각합니다.

"단어"의 시퀀스를 고려하십시오. aaaababaaccbacb 단어와 ['a','b','c']
바이그램 모델을 구축합니다(n=2). 단순화를 위해 LidstoneProbDist 스무딩을 사용하십시오.
특히, 이 시퀀스에는 'b' 또는 'c' 접두사가 붙은 모든 bigram이 포함되어 있지 않습니다. 따라서 빅그램 'bb', 'bc' 및 'ca'의 확률을 얻으려면 백오프가 필요합니다.
context = ['a']의 경우 model.prob(w,context)는 모든 단어에 적합하며 합계는 1입니다.
context = ['b']의 경우 model.prob(w,context)가 올바르게 보이지 않으며 합계는 > 1입니다.

백오프 계산은 컨텍스트 'b'에 대해 다음을 수행해야 한다고 생각했습니다.

bigram 수준에서 'b' 컨텍스트(예: bb 및 bc)에서 보이지 않는 값에 대한 총 "누락" 확률을 계산하고 이를 Beta2라고 합니다.
이러한 보이지 않는 값(예: 'b' 및 'c')에 대한 총 유니그램 확률을 계산하고 이를 Beta1이라고 합니다.
반환(베타2 / 베타1) * backoff.prob()

이것은 본질적으로 빅그램 컨텍스트에서 관찰되지 않은 단어에 대한 유니그램 확률을 적절하게 조정하여 누락된 확률 질량을 채웁니다.

내가 뭔가를 놓치고 있습니까? NgramModel의 코드는 보기에 다소 다른 작업을 수행하며 이해할 수 없었습니다.

language-model

출처

bcroy

가장 유용한 댓글

2016년에 들어서면서 'ngram 모델' 문제는 별 진전이 없었다.

dryleaf 에 2016년 01월 02일

😕4 👍4

모든 18 댓글

나는 이것이 실제로 버그라고 당신이 옳다고 믿습니다.

이 설정을 가정하면:

from nltk.model import NgramModel
from nltk.probability import LidstoneProbDist

word_seq = list('aaaababaaccbacb')
words = ['a', 'b', 'c', '']

est = lambda freqdist, bins: LidstoneProbDist(freqdist, 0.2, bins=bins)
model = NgramModel(2, word_seq, True, True, est, 4)

우리는 매우 빠르게 불일치를 볼 수 있습니다.

sum(model.prob(w, ['b']) for w in words)
Out[150]: 2.4583333333333335
sum(model.prob(w, ['a']) for w in words)
Out[151]: 1.0

[(w, model.prob(w, ['b'])) for w in words]
Out[152]: 
[('a', 0.6666666666666667),
 ('b', 0.875),
 ('c', 0.6666666666666667),
 ('', 0.25)]

[(w, model.prob(w, ['a'])) for w in words]
Out[153]: 
[('a', 0.47727272727272724),
 ('b', 0.25),
 ('c', 0.25),
 ('', 0.022727272727272728)]

얼마 전에 NgramModel을 작업할 때 백오프가 구현되는 방식이 약간 혼란스러웠던 기억이 있습니다. 오랫동안 그것을 보지 않았기 때문에 어떻게 작동하는지 직관적으로 이해하지 못했습니다. 우리가 Katz Back-off를 구현하고 있다고 주장하지만 계산은 Wikipedia 의 계산과 약간 다릅니다.

NgramModel._beta 에서 호출되는 LidstoneProbDist.discount 함수가 이미 합산을 고려하고 있기 때문이라고 생각하지만 더 살펴봐야 합니다.

def _alpha(self, tokens):
    return self._beta(tokens) / self._backoff._beta(tokens[1:])

def _beta(self, tokens):
    return (self[tokens].discount() if tokens in self else 1)

내가 보기에 베타 계산은 일이 잘못되고 있는 것 같습니다. 왜냐하면 바이그램 수준의 베타가 유니그램 수준의 베타보다 훨씬 커서 비율 알파를 양수로 만들기 때문입니다.

model._beta(('b',))
Out[154]: 0.16666666666666669
model._backoff._beta(())
Out[155]: 0.05063291139240506
model._alpha(('b',))
Out[155]: 3.291666666666667

나는 또한 문제가 있는 실제 LidstoneProbDist 자체임을 배제했습니다.

[(w, model._model[('b',)].prob(w)) for w in words]
Out[159]: 
[('a', 0.6666666666666667),
 ('b', 0.04166666666666667),
 ('c', 0.04166666666666667),
 ('', 0.25)]

sum([model._model[('b',)].prob(w) for w in words])
Out[161]: 1.0

이 모든 부분이 어떻게 다시 연결되는지 알아내고 이 문제를 해결할 수 있는지 확인하려고 합니다. 다른 사람이 @desilinguist와 같이 뛰어들고 싶어하더라도 이에 대한 다른 시각을 주시면 감사하겠습니다.

dan-blanchard 에 2013년 03월 08일

안녕하세요. 확인해 주셔서 감사합니다. 몇 가지만 더 생각하면 다음과 같습니다.

첫째, 혼란스러운 한 가지는 "할인"의 다른 개념입니다. 다양한 평활화 방법에 의해 달성되는 할인이 있습니다. 예를 들어, 단순 Laplacian(1 추가) 평활화는 관찰된 단어의 확률을 할인하고 해당 질량을 관찰되지 않은 단어로 이동합니다. _beta 함수에서 호출되는 discount() 함수는 ProbDist에 의해 수행되는 평활화를 위한 것이며 백오프 평활화와 관련이 없다고 생각합니다. 할인에 대한 백오프 개념은 고차 모델의 다른 컨텍스트에 대해 "누락"(관찰되지 않음)된 단어 하위 집합의 확률과 관련이 있다고 생각합니다.

그래서 저는 제 목적에 맞게 코드를 수정하여 제가 옳다고 생각하는 작업을 수행했으며 아래에서 일부 스니펫을 공유했습니다. 기본적으로 주어진 컨텍스트에 대한 모델에서 누락된 단어의 하위 집합을 식별하고 해당 하위 집합에 대해 이러한 "누락된" 단어의 총 확률과 백오프 모델의 해당 수량을 계산합니다. 비율은 "알파"이며 이것은 컨텍스트의 함수입니다. 나는 이 구현이 당신이 제공한 Wikipedia 링크에 있는 것과 일치한다고 생각합니다. 또한 제 경우에는 _beta 함수를 더 이상 사용하지 않습니다.

이것이 토론에 유용하기를 바랍니다. 다시 한번 감사합니다.

    # (Code fragment for calculating backoff)

    # Now, for Katz backoff smoothing we need to calculate the alphas
    if self._backoff is not None:
        self._backoff_alphas = dict()

        # For each condition (or context)
        for ctxt in self._cfd.conditions():
            pd = self._model[ctxt] # prob dist for this context

            backoff_ctxt = ctxt[1:]
            backoff_total_pr = 0
            total_observed_pr = 0
            for word in self._cfd[ctxt].keys(): # this is the subset of words that we OBSERVED
                backoff_total_pr += self._backoff.prob(word,backoff_ctxt) 
                total_observed_pr += pd.prob(word)

            assert total_observed_pr <= 1 and total_observed_pr > 0
            assert backoff_total_pr <= 1 and backoff_total_pr > 0

            alpha_ctxt = (1.0-total_observed_pr) / (1.0-backoff_total_pr)

            self._backoff_alphas[ctxt] = alpha_ctxt

# Updated _alpha function, discarded the _beta function
def _alpha(self, tokens):
    """Get the backoff alpha value for the given context
    """
    if tokens in self._backoff_alphas:
        return self._backoff_alphas[tokens]
    else:
        return 1

bcroy 에 2013년 03월 08일

안녕하세요 여러분, 저는 이 토론에 참여하고 싶었고, 문제가 단순히 1.0이 되지 않을 확률을 갖는 것보다 훨씬 더 나쁘다는 점을 지적하고 싶었습니다.

다음 트라이그램 예를 고려하십시오.

#!/usr/bin/python
from nltk.model import NgramModel
from nltk.probability import LidstoneProbDist

word_seq = ['foo', 'foo', 'foo', 'foo', 'bar', 'baz']

# Set up a trigram model, nothing special  
est = lambda freqdist, bins: LidstoneProbDist(freqdist, 0.2, bins)
model = NgramModel(3, word_seq, True, True, est, 3)

# Consider the ngram ['bar', 'baz', 'foo']
# We've never seen this before, so the trigram model will fall back
context = ('bar', 'baz',)
word = 'foo'
print "P(foo | bar, baz) = " + str(model.prob(word,context))

# Result:
# P(foo | bar, baz) = 2.625

예 -- 이 조건부 확률은 > 1.0입니다.

불쾌한 부분은 모델이 뒤로 물러날수록 확률이 더 부풀려진다는 것입니다.

더 많은 훈련 예제를 추가할수록 문제는 더욱 악화됩니다!

word_seq = ['foo' for i in range(0,10000)]
word_seq.append('bar')
word_seq.append('baz')

est = lambda freqdist, bins: LidstoneProbDist(freqdist, 0.2, bins)
model = NgramModel(3, word_seq, True, True, est, 3)

# Consider the ngram ['bar', 'baz', 'foo']
# We've never seen this before, so the trigram model will fall back
context = ('bar', 'baz',)
word = 'foo'
print "P(foo | bar, baz) = " + str(model.prob(word,context))

# Result:
P(foo | bar, baz) = 6250.125

현재 상태로 NgramModel은 신뢰할 수 없습니다.

afourney 에 2013년 03월 31일

@afourney : 이것이 의도된 것이라고 생각합니다(LidstoneProbDist에는 SUM_TO_ONE = False 속성이 있습니다)

kmike 에 2013년 03월 31일

@afourney 이 문제가 해결될 때까지 NgramModel을 실제로 사용할 수 없다는 데 동의합니다. 불행히도, 나는 최근에 이것을 찔러볼 시간이 없었습니다.

@kmike SUM_TO_ONE은 LidstoneProbDist에 대해 False입니다. 초기 배포에 없는 이벤트가 발생하고 bins 값을 가능한 이벤트 수로 설정하지 않은 경우 합이 1이 되지 않기 때문입니다. 그러나 적절하게 사용하면 실제로 합이 하나로 됩니다. 여기서 문제는 LidstoneProbDist 자체가 아니라 NgramModel의 베타 계산입니다.

dan-blanchard 에 2013년 03월 31일

@kmike : 예, SUM_TO_ONE이 거짓임을 알아차렸습니다. 내 우려는 모델이 합계에 통합하기 전에 이미 1보다 큰 개별 조건부 확률(단일 이벤트의 경우)을 반환한다는 것입니다.

afourney 에 2013년 03월 31일

@bcroy 귀하의 솔루션이 올바른 접근 방식이라고 생각합니다. 간단히 말해서 _alpha는 두 가지 중요한 작업을 수행합니다.

현재 고차 모델에 의해 이미 설명된 단어를 제외하기 위해 주어진 컨텍스트에 대한 백오프 모델을 재정규화합니다.
재정규화된 백오프 모델을 현재 _model의 "누락"/할인된 확률에 "적합"하도록 조정합니다.

즉, NgramModel이 백오프 전략의 대안으로 보간 전략도 제공하면 좋을 것입니다. 이것은 Jelinek-Mercer 또는 Witten-Bell 평활화에 대한 지원을 가능하게 합니다. 후자는 간단하고 매우 잘 작동합니다. 참조: http://nlp.stanford.edu/~wcmac/papers/20050421-smoothing-tutorial.pdf

afourney 에 2013년 04월 01일

누군가 이것이 여전히 공개 버그인지 확인할 수 있습니까?

hale 에 2013년 11월 16일

예, 여전히 P(foo | bar, baz) = 2.625를 얻고 있습니다.

stevenbird 에 2013년 11월 17일

안녕하세요 여러분,

이 문제에 진전이 있습니까? 아직 오픈 버그인가요? 나는 P(foo | bar, baz) = 2.625를 얻고 있으므로 문제가 계속됩니다.

NLP의 거의 모든 애플리케이션에 언어 모델이 사용되기 때문에 이것이 중요한 문제이고 수정되어야 한다고 생각합니다.

osmanbaskaya 에 2014년 08월 25일

불행히도 저는 NgramModel 의 수많은 문제를 살펴볼 시간이 없었고 조만간 그렇게 할 수 있을 것이라고 생각하지 않습니다. 누군가 이 버그를 다룰 때까지 NgramModel 는 nltk에서 제거되었습니다.

dan-blanchard 에 2014년 08월 25일

댄, 답변 감사합니다.

osmanbaskaya 에 2014년 08월 26일

업데이트를 확인하는 중입니다. 일부 문제가 종료된 것을 볼 수 있지만 아직 사용할 수 없는지 확인하고 싶습니까?

ZeerakW 에 2015년 11월 10일

@ZeerakW 불행히도 ngram 모델에는 거의 진전이 없었고 아무도 아직 이를 해결하기로 약속하지 않았습니다.

hoontw 에 2015년 11월 11일

👍2 😕1

2016년에 들어서면서 'ngram 모델' 문제는 별 진전이 없었다.

dryleaf 에 2016년 01월 02일

😕4 👍4

여러분, 우리는 마침내 이것을 닫을 수 있습니다 :)

iliakur 에 2018년 08월 25일

🎉2

업데이트 2018. 이미 졸업하고 작업을 시작했지만 여전히 Ngram 문제가 존재합니다.

dryleaf 에 2018년 08월 25일

👀2 😄1

여름!

stevenbird 에 2018년 08월 25일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Nltk: NgramModel 백오프 평활화 계산에 오류가 있습니까?

가장 유용한 댓글

모든 18 댓글

관련 문제