Nltk: Параметр языка не передается в nltk.tag . init . Pos_tag_sents ()

Созданный на 20 нояб. 2018 · 5Комментарии · Источник: nltk/nltk

Параметр lang функции pos_tag_sents () в nltk / tag / __ init__.py не передается.

В сочетании с изменением порядка исключений в фиксации 69583ceaaaff7e51dd9f07f4f226d3a2b75bea69 (строки 110-116 в nltk / tag / __ init__.py) это теперь приводит к ошибке NotImplementedError ('В настоящее время NLTK pos_tag поддерживает только английский и русский языки (т. eng 'или lang =' rus ')' "при пометке предложения.

Источник

edjzhang

Самый полезный комментарий

Последний выпуск - 17-й, после этого он был объединен.

AllanWang 14 февр. 2019

👍3

Все 5 Комментарий

Запрос на вытягивание: https://github.com/nltk/nltk/pull/2186

AndrewOwenMartin 20 нояб. 2018

Спасибо @ezhangsfl

stevenbird 21 нояб. 2018

Я все еще получаю эту ошибку, хотя я обновил файлы до последней версии и попытался вручную добавить параметр lang='eng' , но это тоже не сработало. @ezhangsfll @stevenbird

carnesca 7 февр. 2019

Последний выпуск - 17-й, после этого он был объединен.

AllanWang 14 февр. 2019

👍3

Я все еще получаю эту ошибку, хотя я обновил файлы до последней версии и попытался вручную добавить параметр lang='eng' , но это тоже не сработало. @ezhangsfll @stevenbird

Замените содержимое файла (__init__.py) следующим:

- - кодировка: utf-8 - -

Набор инструментов для естественного языка: тегеры

Copyright (C) 2001-2019 Проект НЛТК

Автор: Эдвард Лопер [email protected]

Стивен Берд [email protected] (незначительные дополнения)

URL: http://nltk.org/

Для получения информации о лицензии см. LICENSE.TXT.

"" "
НЛТК Тэггеры

Этот пакет содержит классы и интерфейсы для части речи
тегирование, или просто "тегирование".

«Тег» - это чувствительная к регистру строка, указывающая какое-либо свойство токена,
например, его часть речи. Маркированные токены кодируются как кортежи
(tag, token) . Например, следующий тегированный токен объединяет
слово 'fly' с существительной частью тега речи ( 'NN' ):

>>> tagged_tok = ('fly', 'NN')

Для английского языка доступен стандартный тэггер. Он использует набор тегов Penn Treebank:

>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]

Также доступен русский теггер, если вы укажете lang = "rus". Оно использует
набор тегов Национального корпуса русского языка:

>>> pos_tag(word_tokenize("Илья оторопел и дважды перечитал бумажку."), lang='rus')    # doctest: +SKIP
[('Илья', 'S'), ('оторопел', 'V'), ('и', 'CONJ'), ('дважды', 'ADV'), ('перечитал', 'V'),
('бумажку', 'S'), ('.', 'NONLEX')]

Этот пакет определяет несколько тегов, которые принимают список токенов,
назначьте тег каждому из них и верните результирующий список помеченных токенов.
Большинство тегеров строятся автоматически на основе обучающего корпуса.
Например, теггер unigram помечает каждое слово w , проверяя, что
наиболее частый тег для w был в обучающем корпусе:

>>> from nltk.corpus import brown
>>> from nltk.tag import UnigramTagger
>>> tagger = UnigramTagger(brown.tagged_sents(categories='news')[:500])
>>> sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']
>>> for word, tag in tagger.tag(sent):
...     print(word, '->', tag)
Mitchell -> NP
decried -> None
the -> AT
high -> JJ
rate -> NN
of -> IN
unemployment -> None

Обратите внимание, что слова, которые теггер не видел во время обучения, получают тег
из None .

Мы оцениваем теггер на данных, которые не были замечены во время обучения:

>>> tagger.evaluate(brown.tagged_sents(categories='news')[500:600])
0.73...

Для получения дополнительной информации, пожалуйста, обратитесь к главе 5 Книги НЛТК.
"" "
из __future__ import print_function

из nltk.tag.api импортировать TaggerI
из nltk.tag.util import str2tuple, tuple2str, untag
из nltk.tag.sequential import (
SequentialBackoffTagger,
ContextTagger,
DefaultTagger,
NgramTagger,
UnigramTagger,
BigramTagger,
TrigramTagger,
AffixTagger,
RegexpTagger,
ClassifierBasedTagger,
ClassifierBasedPOSTagger,
)
из nltk.tag.brill импортировать BrillTagger
из nltk.tag.brill_trainer импортировать BrillTaggerTrainer
из nltk.tag.tnt импортировать TnT
из nltk.tag.hunpos импортировать HunposTagger
из nltk.tag.stanford import StanfordTagger, StanfordPOSTagger, StanfordNERTagger
из nltk.tag.hmm импорт HiddenMarkovModelTagger, HiddenMarkovModelTrainer
из nltk.tag.senna import SennaTagger, SennaChunkTagger, SennaNERTagger
из nltk.tag.mapping import tagset_mapping, map_tag
из nltk.tag.crf импортировать CRFTagger
из nltk.tag.perceptron import PerceptronTagger

из загрузки импорта nltk.data, найти

RUS_PICKLE = (
'taggers / averaged_perceptron_tagger_ru / averaged_perceptron_tagger_ru.pickle'
)

def _get_tagger (lang = None):
если lang == 'rus':
tagger = PerceptronTagger (Ложь)
ap_russian_model_loc = 'file:' + str (найти (RUS_PICKLE))
tagger.load (ap_russian_model_loc)
еще:
tagger = PerceptronTagger ()
вернуть теггер

def _pos_tag (токены, tagset = None, tagger = None, lang = None):
# В настоящее время поддерживает только английский и русский языки.
если lang не в ['eng', 'rus']:
поднять NotImplementedError (
"В настоящее время NLTK pos_tag поддерживает только английский и русский языки"
"(т.е. lang = 'eng' или lang = 'rus')"
)
еще:
tagged_tokens = tagger.tag (токены)
if tagset: # Соответствует указанному набору тегов.
если lang == 'eng':
tagged_tokens = [
(токен, map_tag ('en-ptb', набор тегов, тег))
для (токена, тега) в tagged_tokens
]
elif lang == 'рус':
# Обратите внимание, что новые теги Russion pos из модели содержат суффиксы,
# см. https://github.com/nltk/nltk/issues/2151#issuecomment -430709018
tagged_tokens = [
(токен, map_tag ('ru-rnc-new', tagset, tag.partition ('=') [0]))
для (токена, тега) в tagged_tokens
]
вернуть tagged_tokens

def pos_tag (токены, tagset = None, lang = 'eng'):
"" "
Используйте рекомендуемую в настоящее время часть речевого теггера NLTK, чтобы
пометить данный список токенов.

    >>> from nltk.tag import pos_tag
    >>> from nltk.tokenize import word_tokenize
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
    [('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
    ("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."), tagset='universal')
    [('John', 'NOUN'), ("'s", 'PRT'), ('big', 'ADJ'), ('idea', 'NOUN'), ('is', 'VERB'),
    ("n't", 'ADV'), ('all', 'DET'), ('that', 'DET'), ('bad', 'ADJ'), ('.', '.')]

NB. Use `pos_tag_sents()` for efficient tagging of more than one sentence.

:param tokens: Sequence of tokens to be tagged
:type tokens: list(str)
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The tagged tokens
:rtype: list(tuple(str, str))
"""
tagger = _get_tagger(lang)
return _pos_tag(tokens, tagset, tagger, lang)

def pos_tag_sents (предложения, tagset = None, lang = 'eng'):
"" "
Используйте рекомендуемую в настоящее время часть речевого тега NLTK, чтобы пометить
данный список предложений, каждое из которых состоит из списка токенов.

:param tokens: List of sentences to be tagged
:type tokens: list(list(str))
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The list of tagged sentences
:rtype: list(list(tuple(str, str)))
"""
tagger = _get_tagger(lang)
return [_pos_tag(sent, tagset, tagger, lang) for sent in sentences]