Nltk: nltk.tag.init.pos_tag_sents() में भाषा पैरामीटर पास नहीं किया जा रहा है

को निर्मित 20 नव॰ 2018 · 5टिप्पणियाँ · स्रोत: nltk/nltk

nltk/tag/__init__.py में pos_tag_sents() का lang पैरामीटर पारित नहीं किया जा रहा है।

कमिट 69583ceaaaff7e51dd9f07f4f226d3a2b75bea69 (nltk/tag/__init__.py की 110-116 पंक्तियों) में अपवाद क्रम में परिवर्तन के साथ युग्मित, यह अब "NotImplementedError('वर्तमान में, NLTK pos_tag केवल अंग्रेज़ी और रूसी (यानी lang=' का समर्थन करता है) की त्रुटि का परिणाम है। eng' या lang='rus')'" वाक्य को टैग करते समय।

स्रोत

edjzhang

सबसे उपयोगी टिप्पणी

अंतिम रिलीज़ 17वीं है जबकि इसे बाद में मर्ज कर दिया गया था

AllanWang 14 फ़र॰ 2019

👍3

सभी 5 टिप्पणियाँ

पुल अनुरोध: https://github.com/nltk/nltk/pull/2186

AndrewOwenMartin 20 नव॰ 2018

धन्यवाद @ezhangsfl

stevenbird 21 नव॰ 2018

मुझे अभी भी यह त्रुटि प्राप्त हो रही है, भले ही मैंने नवीनतम फाइलों में अपडेट किया है और मैन्युअल रूप से lang='eng' पैरामीटर जोड़ने का भी प्रयास किया है, लेकिन यह भी काम नहीं किया। @ezhangsfll @stevenbird

carnesca 7 फ़र॰ 2019

अंतिम रिलीज़ 17वीं है जबकि इसे बाद में मर्ज कर दिया गया था

AllanWang 14 फ़र॰ 2019

👍3

मुझे अभी भी यह त्रुटि प्राप्त हो रही है, भले ही मैंने नवीनतम फाइलों में अपडेट किया है और मैन्युअल रूप से lang='eng' पैरामीटर जोड़ने का भी प्रयास किया है, लेकिन यह भी काम नहीं किया। @ezhangsfll @stevenbird

(__init__.py) फ़ाइल की सामग्री को निम्नलिखित से बदलें:

- - कोडिंग: utf-8 - -

प्राकृतिक भाषा टूलकिट: टैगर्स

कॉपीराइट (सी) २००१-२०१९ एनएलटीके परियोजना

लेखक: एडवर्ड लोपर [email protected]

स्टीवन बर्ड [email protected] (मामूली जोड़)

यूआरएल: http://nltk.org/

लाइसेंस की जानकारी के लिए, देखें LICENSE.TXT

"""
एनएलटीके टैगर्स

इस पैकेज में पार्ट-ऑफ-स्पीच के लिए कक्षाएं और इंटरफेस शामिल हैं
टैगिंग, या बस "टैगिंग"।

एक "टैग" एक केस-संवेदी स्ट्रिंग है जो टोकन की कुछ संपत्ति को निर्दिष्ट करता है,
जैसे कि इसके भाषण का हिस्सा। टैग किए गए टोकन टुपल्स के रूप में एन्कोड किए गए हैं
(tag, token) । उदाहरण के लिए, निम्नलिखित टैग किए गए टोकन संयोजित होते हैं
भाषण टैग के संज्ञा भाग के साथ 'fly' शब्द ( 'NN' ):

>>> tagged_tok = ('fly', 'NN')

अंग्रेज़ी के लिए एक ऑफ-द-शेल्फ टैगर उपलब्ध है। यह पेन ट्रीबैंक टैगसेट का उपयोग करता है:

>>> from nltk import pos_tag, word_tokenize
>>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
[('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]

यदि आप lang="rus" निर्दिष्ट करते हैं तो एक रूसी टैगर भी उपलब्ध है। यह उपयोगकर्ता है
रूसी राष्ट्रीय कोष टैगसेट:

>>> pos_tag(word_tokenize("Илья оторопел и дважды перечитал бумажку."), lang='rus')    # doctest: +SKIP
[('Илья', 'S'), ('оторопел', 'V'), ('и', 'CONJ'), ('дважды', 'ADV'), ('перечитал', 'V'),
('бумажку', 'S'), ('.', 'NONLEX')]

यह पैकेज कई टैगर्स को परिभाषित करता है, जो टोकन की एक सूची लेते हैं,
प्रत्येक को एक टैग असाइन करें, और टैग किए गए टोकन की परिणामी सूची लौटाएं।
अधिकांश टैगर्स एक प्रशिक्षण कोष के आधार पर स्वचालित रूप से बनाए जाते हैं।
उदाहरण के लिए, यूनिग्राम टैगर प्रत्येक शब्द को w की जाँच करके टैग करता है
डब्ल्यू के लिए सबसे लगातार टैग एक प्रशिक्षण कोष में था:

>>> from nltk.corpus import brown
>>> from nltk.tag import UnigramTagger
>>> tagger = UnigramTagger(brown.tagged_sents(categories='news')[:500])
>>> sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']
>>> for word, tag in tagger.tag(sent):
...     print(word, '->', tag)
Mitchell -> NP
decried -> None
the -> AT
high -> JJ
rate -> NN
of -> IN
unemployment -> None

ध्यान दें कि जिन शब्दों को टैगर ने प्रशिक्षण के दौरान नहीं देखा है उन्हें एक टैग प्राप्त होता है
None ।

हम डेटा पर एक टैगर का मूल्यांकन करते हैं जो प्रशिक्षण के दौरान नहीं देखा गया था:

>>> tagger.evaluate(brown.tagged_sents(categories='news')[500:600])
0.73...

अधिक जानकारी के लिए, कृपया एनएलटीके बुक के अध्याय 5 को देखें।
"""
__भविष्य__ से प्रिंट_फंक्शन आयात करें

nltk.tag.api से टैगर आयात करें
nltk.tag.util से आयात str2tuple, tuple2str, untag
nltk.tag.अनुक्रमिक आयात से (
अनुक्रमिक बैकऑफ टैगर,
प्रसंगटैगर,
डिफ़ॉल्टटैगर,
एनग्रामटैगर,
यूनिग्रामटैगर,
बिग्रामटैगर,
ट्रिग्रामटैगर,
एफ़िक्सटैगर,
रेगेक्सपटैगर,
क्लासिफायर आधारित टैगर,
क्लासिफायर आधारित पोस्टटैगर,
)
nltk.tag.brill से ब्रिलटैगर आयात करें
nltk.tag.brill_trainer से ब्रिलटैगरट्रेनर आयात करें
nltk.tag.tnt से आयात TnT
nltk.tag.hunpos से हनपोसटैगर आयात करें
nltk.tag.stanford से StanfordTagger, StanfordPOSTagger, StanfordNERTagger आयात करें
nltk.tag.hmm से हिडनमार्कोवमॉडलटैगर आयात करें, हिडनमार्कोवमॉडलट्रेनर
nltk.tag.senna से SennaTagger, SennaChunkTagger, SennaNERTagger आयात करें
nltk.tag.mapping से आयात tagset_mapping, map_tag
nltk.tag.crf से CRFTagger आयात करें
nltk.tag.perceptron से PerceptronTagger आयात करें

nltk.data आयात लोड से, खोजें

रस_पिकल = (
'टैगर्स/औसत_परसेप्ट्रोन_टैगर_रु/औसत_परसेप्ट्रॉन_टैगर_रु.अचार'
)

def _get_tagger (लैंग = कोई नहीं):
अगर लैंग == 'रस':
टैगर = परसेप्ट्रोनटैगर (गलत)
ap_russian_model_loc = 'फ़ाइल:' + str (ढूंढें (RUS_PICKLE))
टैगर.लोड (ap_russian_model_loc)
अन्यथा:
टैगर = परसेप्ट्रोनटैगर ()
वापसी टैगर

def _pos_tag (टोकन, टैगसेट = कोई नहीं, टैगर = कोई नहीं, लैंग = कोई नहीं):
# वर्तमान में केवल अंग्रेजी और रूसी का समर्थन करता है।
अगर लैंग ['eng', 'rus'] में नहीं है:
लागू नहीं की गई त्रुटि बढ़ाएं (
"वर्तमान में, NLTK pos_tag केवल अंग्रेज़ी और रूसी का समर्थन करता है"
"(यानी लैंग = 'इंग्लैंड' या लैंग = 'रस')"
)
अन्यथा:
tagged_tokens = tagger.tag (टोकन)
अगर टैगसेट: # निर्दिष्ट टैगसेट के लिए मानचित्र।
अगर लैंग == 'इंग्लैंड':
टैग किए गए_टोकन = [
(टोकन, मैप_टैग ('एन-पीटीबी', टैगसेट, टैग))
के लिए (टोकन, टैग) tagged_tokens . में
]
एलिफ लैंग == 'रस':
# ध्यान दें कि मॉडल के नए Russion पॉज़ टैग में प्रत्यय हैं,
# देखें https://github.com/nltk/nltk/issues/2151#issuecomment -430709018
टैग किए गए_टोकन = [
(टोकन, map_tag('ru-rnc-new', tagset, tag.partition('=')[0]))
के लिए (टोकन, टैग) tagged_tokens . में
]
टैग किए गए_टोकन लौटाएं

def pos_tag (टोकन, टैगसेट = कोई नहीं, लैंग = 'इंग्लैंड'):
"""
एनएलटीके के वर्तमान में स्पीच टैगर के अनुशंसित हिस्से का उपयोग करें
टोकन की दी गई सूची को टैग करें।

    >>> from nltk.tag import pos_tag
    >>> from nltk.tokenize import word_tokenize
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."))
    [('John', 'NNP'), ("'s", 'POS'), ('big', 'JJ'), ('idea', 'NN'), ('is', 'VBZ'),
    ("n't", 'RB'), ('all', 'PDT'), ('that', 'DT'), ('bad', 'JJ'), ('.', '.')]
    >>> pos_tag(word_tokenize("John's big idea isn't all that bad."), tagset='universal')
    [('John', 'NOUN'), ("'s", 'PRT'), ('big', 'ADJ'), ('idea', 'NOUN'), ('is', 'VERB'),
    ("n't", 'ADV'), ('all', 'DET'), ('that', 'DET'), ('bad', 'ADJ'), ('.', '.')]

NB. Use `pos_tag_sents()` for efficient tagging of more than one sentence.

:param tokens: Sequence of tokens to be tagged
:type tokens: list(str)
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The tagged tokens
:rtype: list(tuple(str, str))
"""
tagger = _get_tagger(lang)
return _pos_tag(tokens, tagset, tagger, lang)

def pos_tag_sents (वाक्य, टैगसेट = कोई नहीं, लैंग = 'इंग्लैंड'):
"""
टैग करने के लिए एनएलटीके के वर्तमान में स्पीच टैगर के अनुशंसित हिस्से का उपयोग करें
वाक्यों की दी गई सूची, प्रत्येक में टोकन की एक सूची शामिल है।

:param tokens: List of sentences to be tagged
:type tokens: list(list(str))
:param tagset: the tagset to be used, e.g. universal, wsj, brown
:type tagset: str
:param lang: the ISO 639 code of the language, e.g. 'eng' for English, 'rus' for Russian
:type lang: str
:return: The list of tagged sentences
:rtype: list(list(tuple(str, str)))
"""
tagger = _get_tagger(lang)
return [_pos_tag(sent, tagset, tagger, lang) for sent in sentences]

mohaddad 9 जुल॰ 2019

क्या यह पृष्ठ उपयोगी था?

0 / 5 - 0 रेटिंग्स

Nltk: nltk.tag.__init__.pos_tag_sents() में भाषा पैरामीटर पास नहीं किया जा रहा है