Nltk: nltk.tag.init.pos_tag_sents()에서 언어 매개변수가 전달되지 않음

에 만든 2018년 11월 20일 · 5코멘트 · 출처: nltk/nltk

nltk/tag/__init__.py에 있는 pos_tag_sents()의 lang 매개변수가 전달되지 않습니다.

커밋 69583ceaaaff7e51dd9f07f4f226d3a2b75bea69(nltk/tag/__init__.py의 110-116행)의 예외 순서 변경과 결합되어 이제 "NotImplementedError('Currently, NLTK=' eng' 또는 lang='rus')'" 문장을 태그할 때.

출처

edjzhang

가장 유용한 댓글

마지막 릴리스는 17 번째이지만 나중에 병합되었습니다.

AllanWang 에 2019년 02월 14일

👍3

모든 5 댓글

풀 리퀘스트: https://github.com/nltk/nltk/pull/2186

AndrewOwenMartin 에 2018년 11월 20일

@ezhangsfl 감사

stevenbird 에 2018년 11월 21일

최신 파일로 업데이트하고 lang='eng' 매개변수를 수동으로 추가하려고 시도했지만 이 오류가 계속 표시되지만 작동하지 않습니다. @ezhangsflll @stevenbird

carnesca 에 2019년 02월 07일

마지막 릴리스는 17 번째이지만 나중에 병합되었습니다.

AllanWang 에 2019년 02월 14일

👍3

최신 파일로 업데이트하고 lang='eng' 매개변수를 수동으로 추가하려고 시도했지만 이 오류가 계속 표시되지만 작동하지 않습니다. @ezhangsflll @stevenbird

(__init__.py) 파일의 내용을 다음으로 바꿉니다.

- - 코딩: utf-8 - -

자연어 도구 키트: 태거

Copyright (C) 2001-2019 NLTK 프로젝트

저자: 에드워드 로퍼 [email protected]

Steven Bird [email protected] (사소한 추가 사항)

URL: http://nltk.org/

라이선스 정보는 LICENSE.TXT를 참조하세요.

""
NLTK 태거

이 패키지에는 품사에 대한 클래스와 인터페이스가 포함되어 있습니다.
태깅, 또는 단순히 "태깅".

"태그"는 토큰의 일부 속성을 지정하는 대소문자를 구분하는 문자열입니다.
그것의 품사와 같은. 태그가 지정된 토큰은 튜플로 인코딩됩니다.
(tag, token) . 예를 들어 다음 태그가 지정된 토큰은
명사 품사 태그가 있는 'fly' 단어( 'NN' ):

>>> tagged_tok = ('fly', 'NN')

기성품 태거는 영어로 사용할 수 있습니다. Penn Treebank 태그 세트를 사용합니다.

>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]

lang="rus"를 지정하면 러시아어 태거도 사용할 수 있습니다. 그것은 사용
러시아 국립 코퍼스 태그 세트:

>>> pos_tag(word_tokenize("Илья оторопел и дважды перечитал бумажку."), lang='rus')    # doctest: +SKIP
[('Илья', 'S'), ('оторопел', 'V'), ('и', 'CONJ'), ('дважды', 'ADV'), ('перечитал', 'V'),
('бумажку', 'S'), ('.', 'NONLEX')]

이 패키지는 토큰 목록을 가져오는 여러 태거를 정의합니다.
각각에 태그를 할당하고 태그가 지정된 토큰의 결과 목록을 반환합니다.
대부분의 태거는 훈련 코퍼스를 기반으로 자동으로 구축됩니다.
예를 들어, unigram 태거는 다음을 확인하여 각 단어 w 에 태그를 지정합니다.
w 에 대한 가장 빈번한 태그는 훈련 말뭉치에 있었습니다.

>>> from nltk.corpus import brown
>>> from nltk.tag import UnigramTagger
>>> tagger = UnigramTagger(brown.tagged_sents(categories='news')[:500])
>>> sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']
>>> for word, tag in tagger.tag(sent):
...     print(word, '->', tag)
Mitchell -> NP
decried -> None
the -> AT
high -> JJ
rate -> NN
of -> IN
unemployment -> None

학습 중에 태그가 표시되지 않은 단어는 태그를 받습니다.
None .

훈련 중에 볼 수 없었던 데이터에 대한 태거를 평가합니다.

>>> tagger.evaluate(brown.tagged_sents(categories='news')[500:600])
0.73...

자세한 내용은 NLTK 책의 5장을 참조하십시오.
""
__future__에서 print_function 가져오기

nltk.tag.api에서 가져오기 TaggerI
nltk.tag.util에서 가져오기 str2tuple, tuple2str, 태그 해제
nltk.tag.sequential에서 가져오기(
순차 백오프 태거,
컨텍스트 태거,
기본 태거,
엔그램태거,
유니그램 태거,
빅그램 태거,
트라이그램 태거,
접미사 태거,
정규식 태거,
분류기 기반 태거,
분류자 기반POSTagger,
)
nltk.tag.brill에서 BrillTagger 가져오기
nltk.tag.brill_trainer에서 BrillTaggerTrainer 가져오기
nltk.tag.tnt에서 가져오기 TnT
nltk.tag.hunpos에서 가져오기 HunposTagger
nltk.tag.stanford에서 가져오기 StanfordTagger, StanfordPOSTagger, StanfordNERTagger
nltk.tag.hmm에서 HiddenMarkovModelTagger, HiddenMarkovModelTrainer 가져오기
nltk.tag.senna에서 SennaTagger, SennaChunkTagger, SennaNERTagger 가져오기
nltk.tag.mapping에서 import tagset_mapping, map_tag
nltk.tag.crf에서 CRFTagger 가져오기
nltk.tag.perceptron에서 PerceptronTagger 가져오기

nltk.data 가져오기 로드에서 찾기

RUS_PICKLE = (
'taggers/averaged_perceptron_tagger_ru/averaged_perceptron_tagger_ru.pickle'
)

def _get_tagger(lang=없음):
lang == 'rus'인 경우:
tagger = PerceptronTagger(거짓)
ap_russian_model_loc = '파일:' + str(찾기(RUS_PICKLE))
tagger.load(ap_russian_model_loc)
또 다른:
태거 = PerceptronTagger()
리턴 태거

def _pos_tag(토큰, tagset=없음, tagger=없음, lang=없음):
# 현재 영어와 러시아어만 지원합니다.
lang이 ['eng', 'rus']에 없는 경우:
NotImplementedError(
"현재 NLTK pos_tag는 영어와 러시아어만 지원합니다."
"(예: lang='eng' 또는 lang='rus')"
)
또 다른:
tags_tokens = tagger.tag(토큰)
if tagset: # 지정된 tagset에 매핑합니다.
lang == 'eng'인 경우:
taged_tokens = [
(토큰, map_tag('en-ptb', tagset, tag))
tags_tokens의 (토큰, 태그)
]
elif lang == '루스':
# 모델의 새로운 Russion pos 태그에는 접미사가 포함되어 있습니다.
# https://github.com/nltk/nltk/issues/2151#issuecomment -430709018 참조
taged_tokens = [
(토큰, map_tag('ru-rnc-new', tagset, tag.partition('=')[0]))
tags_tokens의 (토큰, 태그)
]
태그된_토큰 반환

def pos_tag(토큰, tagset=없음, lang='eng'):
""
NLTK에서 현재 권장하는 품사 태거를 사용하여
주어진 토큰 목록에 태그를 지정합니다.

    >>> from nltk.tag import pos_tag
    >>> from nltk.tokenize import word_tokenize
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
    [('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
    ("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."), tagset='universal')
    [('John', 'NOUN'), ("'s", 'PRT'), ('big', 'ADJ'), ('idea', 'NOUN'), ('is', 'VERB'),
    ("n't", 'ADV'), ('all', 'DET'), ('that', 'DET'), ('bad', 'ADJ'), ('.', '.')]

NB. Use `pos_tag_sents()` for efficient tagging of more than one sentence.

:param tokens: Sequence of tokens to be tagged
:type tokens: list(str)
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The tagged tokens
:rtype: list(tuple(str, str))
"""
tagger = _get_tagger(lang)
return _pos_tag(tokens, tagset, tagger, lang)

def pos_tag_sents(문장, tagset=없음, lang='eng'):
""
NLTK에서 현재 권장하는 품사 태거를 사용하여 태그를 지정합니다.
주어진 문장 목록, 각각은 토큰 목록으로 구성됩니다.

:param tokens: List of sentences to be tagged
:type tokens: list(list(str))
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The list of tagged sentences
:rtype: list(list(tuple(str, str)))
"""
tagger = _get_tagger(lang)
return [_pos_tag(sent, tagset, tagger, lang) for sent in sentences]

mohaddad 에 2019년 07월 09일

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Nltk: nltk.tag.__init__.pos_tag_sents()에서 언어 매개변수가 전달되지 않음