Nltk: https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xmlに問題があります

作成日 2017年04月14日  ·  5コメント  ·  ソース: nltk/nltk

xmlオンラインバリデーターで次のように伝えます。

An error has been found! 
Click on  to jump to the error. In the document, you can point at  with your mouse to see the error message. 
Errors in file xml-schema: 
    23: 144 Attribute name "unzipped_size" associated with an element type "package" must be followed by the ' = ' character.

python3でstopwordsをダウンロードしようとすると

import nltk
nltk.download('stopwords')

エラーが発生しました

>>> import nltk
>>> nltk.download('stopwords')

Traceback (most recent call last):
  File "/usr/lib/python3.5/code.py", line 91, in runcode
    exec(code, self.locals)
  File "<input>", line 1, in <module>
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 664, in download
    for msg in self.incr_download(info_or_id, download_dir, force):
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 534, in incr_download
    try: info = self._info_or_id(info_or_id)
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 508, in _info_or_id
    return self.info(info_or_id)
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 875, in info
    self._update_index()
  File "/usr/local/lib/python3.5/dist-packages/nltk/downloader.py", line 825, in _update_index
    ElementTree.parse(compat.urlopen(self._url)).getroot())
  File "/usr/lib/python3.5/xml/etree/ElementTree.py", line 1184, in parse
    tree.parse(source, parser)
  File "/usr/lib/python3.5/xml/etree/ElementTree.py", line 596, in parse
    self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 23, column 143

あなたのxml
<package checksum="6f9c042774b96366c93fd0f9a9adb697" id="dolch" name="Dolch Word List" size="2116" subdir="corpora" unzip="1" unzipped_size"1917" url="https://en.wikipedia.org/wiki/Dolch_word_list" />

unzipped_size "1917"はunzipped_size = "1917"である必要があります
等号がありません

最も参考になるコメント

申し訳ありませんが、コードはnltk_data側で壊れていました。 nltk / nltk_data#70にパッチを適用しました。

全てのコメント5件

同じエラー。 以前のバージョンをダウンロードすることはできますか?

@svfat 3.2.1 verでそのエラーをキャッチし、3.2.2にアップグレードして同じエラーが発生しました

申し訳ありませんが、コードはnltk_data側で壊れていました。 nltk / nltk_data#70にパッチを適用しました。

@alvations迅速な修正に感謝します

@alvationstnxが機能するようになりました。
今後の休日

このページは役に立ちましたか?
0 / 5 - 0 評価