Nltk: Что-то не так с вашим https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

Созданный на 14 апр. 2017  ·  5Комментарии  ·  Источник: nltk/nltk

В онлайн-валидаторе xml скажите:

An error has been found! 
Click on  to jump to the error. In the document, you can point at  with your mouse to see the error message. 
Errors in file xml-schema: 
    23: 144 Attribute name "unzipped_size" associated with an element type "package" must be followed by the ' = ' character.

Когда я пытаюсь загрузить stopwords в python3

import nltk
nltk.download('stopwords')

Получил ошибку

>>> import nltk
>>> nltk.download('stopwords')

Traceback (most recent call last):
  File "/usr/lib/python3.5/code.py", line 91, in runcode
    exec(code, self.locals)
  File "<input>", line 1, in <module>
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 664, in download
    for msg in self.incr_download(info_or_id, download_dir, force):
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 534, in incr_download
    try: info = self._info_or_id(info_or_id)
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 508, in _info_or_id
    return self.info(info_or_id)
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 875, in info
    self._update_index()
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 825, in _update_index
    ElementTree.parse(compat.urlopen(self._url)).getroot())
  File "/usr/lib/python3.5/xml/etree/ElementTree.py", line 1184, in parse
    tree.parse(source, parser)
  File "/usr/lib/python3.5/xml/etree/ElementTree.py", line 596, in parse
    self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 23, column 143

В вашем xml
<package checksum="6f9c042774b96366c93fd0f9a9adb697" id="dolch" name="Dolch Word List" size="2116" subdir="corpora" unzip="1" unzipped_size"1917" url="https://en.wikipedia.org/wiki/Dolch_word_list" />

unzipd_size"1917" должен быть unzipped_size="1917"
ОТСУТСТВУЕТ ЗНАК РАВЕНСТВА

Самый полезный комментарий

Извините за то, что код был сломан на стороне nltk_data. nltk/nltk_data#70 исправил его.

Все 5 Комментарий

Та же ошибка. Можно ли скачать предыдущую версию?

@svfat Я ловлю эту ошибку на версии 3.2.1, обновляюсь до 3.2.2 и получаю ту же ошибку.

Извините за то, что код был сломан на стороне nltk_data. nltk/nltk_data#70 исправил его.

@alvations спасибо за быстрое исправление

@alvations tnx теперь работает.
Предстоящие праздники

Была ли эта страница полезной?
0 / 5 - 0 рейтинги

Смежные вопросы

zdog234 picture zdog234  ·  3Комментарии

Chris00 picture Chris00  ·  3Комментарии

chaseireland picture chaseireland  ·  3Комментарии

alvations picture alvations  ·  4Комментарии

mwess picture mwess  ·  5Комментарии