Nltk: ArabicStemmer AttributeError

Creado en 11 oct. 2017 · 7Comentarios · Fuente: nltk/nltk

No logro detener ciertos términos árabes con SnowballStemmer. Muchos términos se derivan correctamente, pero algunos términos hacen que se genere un AttributeError. Consulte a continuación un ejemplo mínimo que falla en el término "desde".

(anaconda2-4.4.0) richard-balmer-macbook:~ richardbalmer$ pip freeze | grep nltk
nltk==3.2.5
(anaconda2-4.4.0) richard-balmer-macbook:~ richardbalmer$ ipython
Python 2.7.13 |Anaconda custom (x86_64)| (default, Dec 20 2016, 23:05:08)
Type "copyright", "credits" or "license" for more information.

IPython 5.3.0 -- An enhanced Interactive Python.
?         -> Introduction and overview of IPython's features.
%quickref -> Quick reference.
help      -> Python's own help system.
object?   -> Details about 'object', use 'object??' for extra details.

In [1]: from nltk.stem.snowball import SnowballStemmer

In [2]: stemmer = SnowballStemmer('arabic')

In [3]: stemmer.stem(u'تسدد')
Out[3]: u'\u062a\u0633\u062f\u062f'

In [4]: stemmer.stem(u'من')
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-4-ffa733106049> in <module>()
----> 1 stemmer.stem(u'من')

/Users/richardbalmer/.pyenv/versions/anaconda2-4.4.0/lib/python2.7/site-packages/nltk/stem/snowball.pyc in stem(self, word)
    762                 modified_word = self.__Suffix_Verb_Step2b(modified_word)
    763                 if not self.suffix_verb_step2b_success:
--> 764                     modified_word = self.__Suffix_Verb_Step2a(modified_word)
    765         if self.is_noun:
    766             modified_word = self.__Suffix_Noun_Step2c2(modified_word)

/Users/richardbalmer/.pyenv/versions/anaconda2-4.4.0/lib/python2.7/site-packages/nltk/stem/snowball.pyc in __Suffix_Verb_Step2a(self, token)
    533                     break
    534
--> 535                 if suffix in self.__conjugation_suffix_verb_present and len(token) > 5:
    536                     token = token[:-2]  # present
    537                     self.suffix_verb_step2a_success = True

AttributeError: 'ArabicStemmer' object has no attribute '_ArabicStemmer__conjugation_suffix_verb_present'

bug pleaseverify resolved tests

Fuente

richbalmer

👍2

Comentario más útil

@richbalmer Gracias por informar del problema.

@LBenzahia ¿Podrías ayudarme a investigar esto? ¡Gracias por adelantado!

alvations en 13 oct. 2017

👍2

Todos 7 comentarios

@richbalmer Gracias por informar del problema.

@LBenzahia ¿Podrías ayudarme a investigar esto? ¡Gracias por adelantado!

alvations en 13 oct. 2017

👍2

Hola @richbalmer, gracias por informar. La primera palabra 'تسدد' es la mejor raíz posible porque la raíz árabe de Snowball basada en un algoritmo de derivación ligera se ocupa de prefijos / sufijos, si está buscando la raíz de "تسدد", puede usar ISRI (root -basado en lematización / lematización profunda), la segunda palabra 'من' es una palabra de parada, debe usar el filtro de palabra de parada antes de comenzar a usar Snowball ArabicStemmer.Además, esta lematización no se ocupa del caso cuando la palabra tiene 2 letras.
De todos modos, he solucionado el problema en este PR # 1856.
Gracias de nuevo !

LBenzahia en 13 oct. 2017

@LBenzahia, ¡ gracias por investigar esto tan rápido! Me estoy poniendo:

  File "/Users/richardbalmer/src/nltk/nltk/stem/util.py", line 24
    arabic_stopwords = ['إذ',
                             ^
SyntaxError: Non-ASCII character '\xd8' in file /Users/richardbalmer/src/nltk/nltk/stem/util.py on line 24, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

Lo que también parece estar causando que las pruebas fallen en Jenkins (https://nltk.ci.cloudbees.com/job/pull_request_tests/454/TOXENV=py27-jenkins,jdk=jdk8latestOnlineInstall/testReport/nose.failure/Failure/runTest /). Creo que todo lo que necesitas hacer es poner # -*- coding: utf-8 -*- en la parte superior de stem/util.py .

Además, después de arreglar eso localmente, obtengo un UnicodeWarning:

/Users/richardbalmer/src/nltk/nltk/stem/snowball.py:748: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
  if word in arabic_stopwords:

Podría valer la pena convertir esas palabras vacías en cadenas Unicode.

Aparte de eso, parece que su solución funciona muy bien para mí, ¡gracias de nuevo!

ps Otra sugerencia: probar la inclusión de conjuntos es bastante más rápido que la inclusión de listas, por lo que podría valer la pena convertir esa lista de palabras vacías en un conjunto.

richbalmer en 13 oct. 2017

👍1

@richbalmer ¿estás usando python2.7? ,