Nltk: рдЕрд░реЗрдмрд╕реНрдЯрд░рд╕реНрдЯреНрд░реАрдо рдПрдЯреНрд░реАрдмреНрдпреВрдЯ

рдХреЛ рдирд┐рд░реНрдорд┐рдд 11 рдЕрдХреНрддреВре░ 2017  ┬╖  7рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ  ┬╖  рд╕реНрд░реЛрдд: nltk/nltk

рдореИрдВ рд╕реНрдиреЛрдмреЙрд▓рд╕реНрдЯрдорд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рдХреБрдЫ рдЕрд░рдмреА рд╢рдмреНрджреЛрдВ рдХреЛ рд╕реНрдЯреЗрдо рдХрд░рдиреЗ рдореЗрдВ рд╡рд┐рдлрд▓ рд░рд╣рд╛ рд╣реВрдВред рдХрдИ рд╢рд░реНрддреЛрдВ рдХреЛ рд╕рдлрд▓рддрд╛рдкреВрд░реНрд╡рдХ рдкреВрд░рд╛ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдХреБрдЫ рд╢рд░реНрддреЛрдВ рдХреЗ рдХрд╛рд░рдг рдПрдЯреНрд░реАрдмреНрдпреВрдЯрд░ рдХреЛ рдЙрдард╛рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред рдХреГрдкрдпрд╛ рдПрдХ рдиреНрдпреВрдирддрдо рдЙрджрд╛рд╣рд░рдг рдХреЗ рд▓рд┐рдП рдиреАрдЪреЗ рджреЗрдЦреЗрдВ рдЬреЛ 'рд╕реЗ' рд╢рдмреНрдж рдкрд░ рд╡рд┐рдлрд▓ рд╣реЛрддрд╛ рд╣реИред

(anaconda2-4.4.0) richard-balmer-macbook:~ richardbalmer$ pip freeze | grep nltk
nltk==3.2.5
(anaconda2-4.4.0) richard-balmer-macbook:~ richardbalmer$ ipython
Python 2.7.13 |Anaconda custom (x86_64)| (default, Dec 20 2016, 23:05:08)
Type "copyright", "credits" or "license" for more information.

IPython 5.3.0 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: from nltk.stem.snowball import SnowballStemmer

In [2]: stemmer = SnowballStemmer('arabic')

In [3]: stemmer.stem(u'╪к╪│╪п╪п')
Out[3]: u'\u062a\u0633\u062f\u062f'

In [4]: stemmer.stem(u'┘Е┘Ж')
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-4-ffa733106049> in <module>()
----> 1 stemmer.stem(u'┘Е┘Ж')

/Users/richardbalmer/.pyenv/versions/anaconda2-4.4.0/lib/python2.7/site-packages/nltk/stem/snowball.pyc in stem(self, word)
    762                 modified_word = self.__Suffix_Verb_Step2b(modified_word)
    763                 if not self.suffix_verb_step2b_success:
--> 764                     modified_word = self.__Suffix_Verb_Step2a(modified_word)
    765         if self.is_noun:
    766             modified_word = self.__Suffix_Noun_Step2c2(modified_word)

/Users/richardbalmer/.pyenv/versions/anaconda2-4.4.0/lib/python2.7/site-packages/nltk/stem/snowball.pyc in __Suffix_Verb_Step2a(self, token)
    533                     break
    534
--> 535                 if suffix in self.__conjugation_suffix_verb_present and len(token) > 5:
    536                     token = token[:-2]  # present
    537                     self.suffix_verb_step2a_success = True

AttributeError: 'ArabicStemmer' object has no attribute '_ArabicStemmer__conjugation_suffix_verb_present'
bug pleaseverify resolved tests

рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЯрд┐рдкреНрдкрдгреА

@richbalmer рдореБрджреНрджреЗ рдХреА рд░рд┐рдкреЛрд░реНрдЯрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред

@LBenzahia рдЖрдк рдЗрд╕ рдкрд░ рдЧреМрд░ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реИ? рдЕрдЧреНрд░рд┐рдо рдореЗрдВ рдзрдиреНрдпрд╡рд╛рдж!

рд╕рднреА 7 рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

@richbalmer рдореБрджреНрджреЗ рдХреА рд░рд┐рдкреЛрд░реНрдЯрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред

@LBenzahia рдЖрдк рдЗрд╕ рдкрд░ рдЧреМрд░ рдХрд░рдиреЗ рдореЗрдВ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реИ? рдЕрдЧреНрд░рд┐рдо рдореЗрдВ рдзрдиреНрдпрд╡рд╛рдж!

рд╣рд╛рдп @richbalmer рд░рд┐рдкреЛрд░реНрдЯрд┐рдВрдЧ рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рдж, рдкрд╣рд▓рд╛ рд╢рдмреНрдж '╪к╪│╪п╪п' рд╕рдмрд╕реЗ рдЕрдЪреНрдЫрд╛ рд╕рдВрднрд╡ рд╕реНрдЯреЗрдо рд╣реИ рдХреНрдпреЛрдВрдХрд┐ рд╕реНрдиреЛрдмреЙрд▓ рдЕрд░рдмреА рд╕реНрдЯреЗрдорд░ рд▓рд╛рдЗрдЯ рдЙрдкрдорд╛ рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо рдкрд░ рдЖрдзрд╛рд░рд┐рдд рдЙрдкрд╕рд░реНрдЧреЛрдВ / рдкреНрд░рддреНрдпрдпреЛрдВ рдХреЗ рд╕рд╛рде рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ, рдпрджрд┐ рдЖрдк "╪к╪п╪п╪п" рдХреА рдЬрдбрд╝ рдХреА рддрд▓рд╛рд╢ рдореЗрдВ рд╣реИрдВ рддреЛ рдЖрдк ISRI (рд░реВрдЯ) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд╕рдХрддреЗ рд╣реИрдВ -рд╕реНрдЯреЗрдб рд╕реНрдЯреЗрдорд░ / рдбреАрдк рд╕реНрдЯреИрдорд┐рдВрдЧ), рджреВрд╕рд░рд╛ рд╢рдмреНрдж '┘Е┘Ж' рдПрдХ рд╕реНрдЯреЙрдк рд╡рд░реНрдб рд╣реИ, рдЖрдкрдХреЛ рд╕реНрдиреЛрдмреЙрд▓ рдЕрд░реЗрд╕реНрдЯрдореЗрдорд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рд╢реБрд░реВ рдХрд░рдиреЗ рд╕реЗ рдкрд╣рд▓реЗ рд╕реНрдЯреЙрдк рд╡рд░реНрдб рдлрд┐рд▓реНрдЯрд░ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдирд╛ рдЪрд╛рд╣рд┐рдП, рд╕рд╛рде рд╣реА рдпрд╣ рд╕реНрдЯреЗрдорд░ рдХреЗрд╕ рд╕реЗ рдирд┐рдкрдЯрддрд╛ рдирд╣реАрдВ рд╣реИ рдЬрдм рд╢рдмреНрдж рдореЗрдВ 2 рдЕрдХреНрд╖рд░ рд╣реЛрддреЗ рд╣реИрдВред
рд╡реИрд╕реЗ рднреА, рдореИрдВрдиреЗ рдЗрд╕ PR # 1856 рдореЗрдВ рд╕рдорд╕реНрдпрд╛ рдХреЛ рдареАрдХ рдХрд░ рджрд┐рдпрд╛ рд╣реИред
рдлрд┐рд░ рд╕реЗ рдзрдиреНрдпрд╡рд╛рдж !

@LBenzahia рдЗрддрдиреА рдЬрд▓реНрджреА рдЗрд╕реЗ

  File "/Users/richardbalmer/src/nltk/nltk/stem/util.py", line 24
    arabic_stopwords = ['╪е╪░',
                             ^
SyntaxError: Non-ASCII character '\xd8' in file /Users/richardbalmer/src/nltk/nltk/stem/util.py on line 24, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

рдЬреЛ рдЬреЗрдирдХрд┐рдВрд╕ (https://nltk.ci.cloudbees.com/job/pull_request_tests/454/TOXENV=py27-jenkins,jdk.jdkBatatestOnlineInstall/testReport/nose.failure/Failure/ рдкрд░ рдкрд░реАрдХреНрд╖рдг рд╡рд┐рдлрд▓ рд╣реЛрдиреЗ рдХрд╛ рдХрд╛рд░рдг рдмрдирддрд╛ рд╣реИред /) рд╣реИред рдореИрдВ рддреБрдо рд╕рдм рдХрд░рдиреЗ рдХреА рдЬрд░реВрд░рдд рд╣реИ рдбрд╛рд▓ рджрд┐рдпрд╛ рд╣реИ рд▓рдЧрддрд╛ рд╣реИ # -*- coding: utf-8 -*- рдХреЗ рд╢реАрд░реНрд╖ рдкрд░ stem/util.py ред

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдпрд╣ рддрдп рдХрд░рдиреЗ рдХреЗ рдмрд╛рдж рдХрд┐ рд╕реНрдерд╛рдиреАрдп рд░реВрдк рд╕реЗ рдореБрдЭреЗ рдПрдХ рдпреВрдирд┐рдХреЛрдбрд╡реЗрдпрд░рд┐рдВрдЧ рдорд┐рд▓рддреА рд╣реИ:

/Users/richardbalmer/src/nltk/nltk/stem/snowball.py:748: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
  if word in arabic_stopwords:

рдпрд╣ рдЙрди рд╕реНрдЯреЙрдкрд╡рд░реНрдбреНрд╕ рдпреВрдирд┐рдХреЛрдб рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд╛рдпрдХ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛ рдпрд╣ рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЖрдкрдХрд╛ рдлрд┐рдХреНрд╕ рдореЗрд░реЗ рд▓рд┐рдП рдЕрдЪреНрдЫреА рддрд░рд╣ рд╕реЗ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИ - рдлрд┐рд░ рд╕реЗ рдзрдиреНрдпрд╡рд╛рдж!

ps рдПрдХ рдЕрдиреНрдп рд╕реБрдЭрд╛рд╡: рдкрд░реАрдХреНрд╖рдг рд╕рдорд╛рд╡реЗрд╢ рдХреЛ рд╢рд╛рдорд┐рд▓ рдХрд░рдирд╛ рд╕реВрдЪреА рд╕рдорд╛рд╡реЗрд╢рди рдХреА рддреБрд▓рдирд╛ рдореЗрдВ рдХрд╛рдлреА рддреЗрдЬ рд╣реИ, рдЗрд╕рд▓рд┐рдП рдпрд╣ рд╕рдВрднрд╡ рд╣реИ рдХрд┐ рд╕реНрдЯреЙрдкрд╡рд╛рд░реНрдб рд╕реВрдЪреА рдХреЗ рдмрдЬрд╛рдп рдПрдХ рд╕реЗрдЯ рдмрдирд╛рдпрд╛ рдЬрд╛рдПред

@richbalmer рдЖрдк python2.7 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣реЗ рд╣реИрдВ? ,

рдпрд╣ рдЙрди рд╕реНрдЯреЙрдкрд╡рд░реНрдбреНрд╕ рдпреВрдирд┐рдХреЛрдб рд╕реНрдЯреНрд░рд┐рдВрдЧреНрд╕ рдмрдирд╛рдиреЗ рдХреЗ рд▓рд╛рдпрдХ рд╣реЛ рд╕рдХрддрд╛ рд╣реИред

python2.7 рдХреЗ рд▓рд┐рдП рдХрд┐рдпрд╛ рдЧрдпрд╛, рдЗрд╕реЗ рдлрд┐рд░ рд╕реЗ рдкрд░реАрдХреНрд╖рдг рдХрд░реЗрдВ рдФрд░ рдореБрдЭреЗ рдмрддрд╛рдПрдВ, рдпрд╣ рдореЗрд░реЗ рд▓рд┐рдП рдареАрдХ рдХрд╛рдо рдХрд░рддрд╛ рд╣реИред рдореИрдВрдиреЗ рдкреАрдЖрд░ рдЕрдкрдбреЗрдЯ рдХрд┐рдпрд╛ рд╣реИ

рд╣рд╛рдБ, рдореИрдВ 2.7 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣рд╛ рд╣реВрдБред рдЕрдЪреНрдЫреА рд▓рдЧ рд░рд╣реА @Lenzahia - рдлрд┐рд░ рд╕реЗ рдзрдиреНрдпрд╡рд╛рдж!

рдЕрднреА рднреА рддреНрд░реБрдЯрд┐ рд╣реЛ рд░рд╣реА рд╣реИ:
рд╡рд┐рд╢реЗрд╖рддрд╛

рдореИрдВ рдЕрдЬрдЧрд░ 3 рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣рд╛ рд╣реВрдВ

@NouraAls solved in PR

рдХреНрдпрд╛ рдпрд╣ рдкреГрд╖реНрда рдЙрдкрдпреЛрдЧреА рдерд╛?
0 / 5 - 0 рд░реЗрдЯрд┐рдВрдЧреНрд╕

рд╕рдВрдмрдВрдзрд┐рдд рдореБрджреНрджреЛрдВ

peterbe picture peterbe  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

mwess picture mwess  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

libingnan54321 picture libingnan54321  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

zdog234 picture zdog234  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

alvations picture alvations  ┬╖  3рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ