Платформа: Python 3.5 в Mac OS X 10.11.2
Действия по воспроизведению:
Симптомы:
# Частичная запись в консоль:
[nltk_data] | Скачивание пакета panlex_lite в
[nltk_data] | / Пользователи / beng / nltk_data ...
[nltk_data] | Распаковка корпуса / panlex_lite.zip.
Отслеживание (последний вызов последний):
Файл "
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 664, загружается
для сообщения в self.incr_download (info_or_id, download_dir, force):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 543, в incr_download
для сообщения в self.incr_download (info.children, download_dir, force):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 529, в incr_download
для сообщения в self._download_list (info_or_id, download_dir, force):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 572, в _download_list
для сообщения в self.incr_download (item, download_dir, force):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 549, в incr_download
для сообщения в self._download_package (info, download_dir, force):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 638, в _download_package
для сообщения в _unzip_iter (путь к файлу, zipdir, verbose = False):
Файл "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", строка 2039, в _unzip_iter
Outfile.write (содержимое)
OSError: [Errno 22] Недействительный аргумент.
@grayben - не могли бы вы установить текущую версию NLTK и сообщить, если у вас все еще есть эта проблема?
@stevenbird, извините за задержку с ответом - вы знаете, какими могут быть задания в универе!
У меня возникла проблема с версией 3.2. Я только что обновился до версии 3.2.1, и у меня такая же проблема.
@grayben Как вы установили NLTK? У вас есть ошибка при загрузке одного корпуса, например nltk.download('brown')
? У вас есть ошибка при использовании Python2.7?
@alvations
Дополнительная информация: некоторые мои одноклассники сообщили о том, что похоже на ту же проблему, хотя я не могу комментировать их конфигурации или то, что именно они сделали, чтобы столкнуться с проблемой.
@grayben, не могли бы вы запустить следующие строки кода и посмотреть, получите ли вы тот же результат [0, 448887900, 85839474]
?
>>> import zipfile
>>> plzip = '/Users/beng/nltk_data/corpora/panlex_lite.zip'
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
[0, 448887900, 85839474]
В командной строке за пределами Python, каковы выходные данные для следующего ?:
$ ls -lah /Users/beng//nltk_data/corpora/
Ваш код -> мой вывод:
>>> import zipfile
>>> plzip = ' /Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/Cellar/python3/3.5.1/Frameworks/Python.framework/Versions/3.5/lib/python3.5/zipfile.py", line 1009, in __init__
self.fp = io.open(file, filemode)
FileNotFoundError: [Errno 2] No such file or directory: ' /Users/beng//nltk_data/corpora/panlex_lite.zip'
Затем я изменил ' /Users/beng//nltk_data/corpora/panlex_lite.zip'
на '/Users/beng//nltk_data/corpora/panlex_lite.zip'
(без пробела перед корнем):
>>> plzip = '/Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/Cellar/python3/3.5.1/Frameworks/Python.framework/Versions/3.5/lib/python3.5/zipfile.py", line 1026, in __init__
self._RealGetContents()
File "/usr/local/Cellar/python3/3.5.1/Frameworks/Python.framework/Versions/3.5/lib/python3.5/zipfile.py", line 1093, in _RealGetContents
raise BadZipFile("File is not a zip file")
zipfile.BadZipFile: File is not a zip file
Bens-MacBook-Pro:10K-Extractor beng$ ls -lah /Users/beng//nltk_data/corpora/
total 966608
drwxr-xr-x 152 beng staff 5.0K 19 Apr 16:26 .
drwxr-xr-x 11 beng staff 374B 3 Mar 14:41 ..
drwxr-xr-x 5 beng staff 170B 3 Mar 14:32 abc
-rw-r--r-- 1 beng staff 1.4M 3 Mar 14:32 abc.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:32 alpino
-rw-r--r-- 1 beng staff 2.7M 3 Mar 14:32 alpino.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:32 biocreative_ppi
-rw-r--r-- 1 beng staff 218K 3 Mar 14:32 biocreative_ppi.zip
drwxr-xr-x 505 beng staff 17K 3 Mar 14:32 brown
-rw-r--r-- 1 beng staff 3.2M 3 Mar 14:32 brown.zip
drwxr-xr-x 509 beng staff 17K 3 Mar 14:32 brown_tei
-rw-r--r-- 1 beng staff 8.3M 3 Mar 14:32 brown_tei.zip
drwxr-xr-x 1389 beng staff 46K 3 Mar 14:33 cess_cat
-rw-r--r-- 1 beng staff 5.1M 3 Mar 14:33 cess_cat.zip
drwxr-xr-x 612 beng staff 20K 3 Mar 14:33 cess_esp
-rw-r--r-- 1 beng staff 2.1M 3 Mar 14:33 cess_esp.zip
drwxr-xr-x 10 beng staff 340B 3 Mar 14:33 chat80
-rw-r--r-- 1 beng staff 19K 3 Mar 14:33 chat80.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:33 city_database
-rw-r--r-- 1 beng staff 1.7K 3 Mar 14:33 city_database.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:33 cmudict
-rw-r--r-- 1 beng staff 875K 3 Mar 14:33 cmudict.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:33 comparative_sentences
-rw-r--r-- 1 beng staff 273K 3 Mar 14:33 comparative_sentences.zip
-rw-r--r-- 1 beng staff 11M 3 Mar 14:33 comtrans.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:33 conll2000
-rw-r--r-- 1 beng staff 739K 3 Mar 14:33 conll2000.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:33 conll2002
-rw-r--r-- 1 beng staff 1.8M 3 Mar 14:33 conll2002.zip
-rw-r--r-- 1 beng staff 1.2M 3 Mar 14:33 conll2007.zip
drwxr-xr-x 453 beng staff 15K 3 Mar 14:33 crubadan
-rw-r--r-- 1 beng staff 5.0M 3 Mar 14:33 crubadan.zip
drwxr-xr-x 201 beng staff 6.7K 3 Mar 14:33 dependency_treebank
-rw-r--r-- 1 beng staff 447K 3 Mar 14:33 dependency_treebank.zip
drwxr-xr-x 14 beng staff 476B 3 Mar 14:33 europarl_raw
-rw-r--r-- 1 beng staff 12M 3 Mar 14:33 europarl_raw.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:33 floresta
-rw-r--r-- 1 beng staff 1.8M 3 Mar 14:33 floresta.zip
drwxr-xr-x 16 beng staff 544B 3 Mar 14:34 framenet_v15
-rw-r--r-- 1 beng staff 66M 3 Mar 14:33 framenet_v15.zip
drwxr-xr-x 11 beng staff 374B 3 Mar 14:34 gazetteers
-rw-r--r-- 1 beng staff 8.1K 3 Mar 14:34 gazetteers.zip
drwxr-xr-x 11 beng staff 374B 3 Mar 14:34 genesis
-rw-r--r-- 1 beng staff 462K 3 Mar 14:34 genesis.zip
drwxr-xr-x 21 beng staff 714B 3 Mar 14:34 gutenberg
-rw-r--r-- 1 beng staff 4.1M 3 Mar 14:34 gutenberg.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:34 ieer
-rw-r--r-- 1 beng staff 162K 3 Mar 14:34 ieer.zip
drwxr-xr-x 59 beng staff 2.0K 3 Mar 14:34 inaugural
-rw-r--r-- 1 beng staff 314K 3 Mar 14:34 inaugural.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:34 indian
-rw-r--r-- 1 beng staff 195K 3 Mar 14:34 indian.zip
-rw-r--r-- 1 beng staff 16M 3 Mar 14:34 jeita.zip
drwxr-xr-x 22 beng staff 748B 3 Mar 14:34 kimmo
-rw-r--r-- 1 beng staff 183K 3 Mar 14:34 kimmo.zip
-rw-r--r-- 1 beng staff 8.4M 3 Mar 14:34 knbc.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 lin_thesaurus
-rw-r--r-- 1 beng staff 85M 3 Mar 14:34 lin_thesaurus.zip
drwxr-xr-x 112 beng staff 3.7K 3 Mar 14:34 mac_morpho
-rw-r--r-- 1 beng staff 2.9M 3 Mar 14:34 mac_morpho.zip
-rw-r--r-- 1 beng staff 5.9M 3 Mar 14:34 machado.zip
-rw-r--r-- 1 beng staff 1.5M 3 Mar 14:34 masc_tagged.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 movie_reviews
-rw-r--r-- 1 beng staff 3.8M 3 Mar 14:34 movie_reviews.zip
drwxr-xr-x 56 beng staff 1.9K 3 Mar 14:38 mte_teip5
-rw-r--r-- 1 beng staff 14M 3 Mar 14:38 mte_teip5.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 names
-rw-r--r-- 1 beng staff 21K 3 Mar 14:34 names.zip
-rw-r--r-- 1 beng staff 6.4M 3 Mar 14:35 nombank.1.0.zip
drwxr-xr-x 19 beng staff 646B 3 Mar 14:35 nps_chat
-rw-r--r-- 1 beng staff 294K 3 Mar 14:35 nps_chat.zip
drwxr-xr-x 32 beng staff 1.1K 3 Mar 14:35 omw
-rw-r--r-- 1 beng staff 11M 3 Mar 14:35 omw.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 opinion_lexicon
-rw-r--r-- 1 beng staff 24K 3 Mar 14:35 opinion_lexicon.zip
drwxr-xr-x 4 beng staff 136B 21 Mar 17:54 panlex_lite
-rw-r--r-- 1 beng staff 58M 19 Apr 16:28 panlex_lite.zip
-rw-r--r-- 1 beng staff 2.6M 3 Mar 14:37 panlex_swadesh.zip
drwxr-xr-x 21 beng staff 714B 3 Mar 14:35 paradigms
-rw-r--r-- 1 beng staff 24K 3 Mar 14:35 paradigms.zip
drwxr-xr-x 475 beng staff 16K 3 Mar 14:35 pil
-rw-r--r-- 1 beng staff 1.4M 3 Mar 14:35 pil.zip
drwxr-xr-x 16 beng staff 544B 3 Mar 14:35 pl196x
-rw-r--r-- 1 beng staff 6.7M 3 Mar 14:35 pl196x.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:35 ppattach
-rw-r--r-- 1 beng staff 763K 3 Mar 14:35 ppattach.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 problem_reports
-rw-r--r-- 1 beng staff 1.0M 3 Mar 14:35 problem_reports.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 product_reviews_1
-rw-r--r-- 1 beng staff 138K 3 Mar 14:35 product_reviews_1.zip
drwxr-xr-x 12 beng staff 408B 3 Mar 14:35 product_reviews_2
-rw-r--r-- 1 beng staff 167K 3 Mar 14:35 product_reviews_2.zip
-rw-r--r-- 1 beng staff 5.1M 3 Mar 14:35 propbank.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 pros_cons
-rw-r--r-- 1 beng staff 729K 3 Mar 14:35 pros_cons.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:35 ptb
-rw-r--r-- 1 beng staff 6.1K 3 Mar 14:35 ptb.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 qc
-rw-r--r-- 1 beng staff 123K 3 Mar 14:35 qc.zip
-rw-r--r-- 1 beng staff 6.1M 3 Mar 14:35 reuters.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:35 rte
-rw-r--r-- 1 beng staff 377K 3 Mar 14:35 rte.zip
-rw-r--r-- 1 beng staff 4.2M 3 Mar 14:35 semcor.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:35 senseval
-rw-r--r-- 1 beng staff 2.1M 3 Mar 14:35 senseval.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 sentence_polarity
-rw-r--r-- 1 beng staff 479K 3 Mar 14:35 sentence_polarity.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:35 sentiwordnet
-rw-r--r-- 1 beng staff 4.5M 3 Mar 14:35 sentiwordnet.zip
drwxr-xr-x 13 beng staff 442B 3 Mar 14:35 shakespeare
-rw-r--r-- 1 beng staff 464K 3 Mar 14:35 shakespeare.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 sinica_treebank
-rw-r--r-- 1 beng staff 878K 3 Mar 14:35 sinica_treebank.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:35 smultron
-rw-r--r-- 1 beng staff 162K 3 Mar 14:35 smultron.zip
drwxr-xr-x 68 beng staff 2.3K 3 Mar 14:35 state_union
-rw-r--r-- 1 beng staff 790K 3 Mar 14:35 state_union.zip
drwxr-xr-x 17 beng staff 578B 3 Mar 14:35 stopwords
-rw-r--r-- 1 beng staff 8.9K 3 Mar 14:35 stopwords.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 subjectivity
-rw-r--r-- 1 beng staff 509K 3 Mar 14:35 subjectivity.zip
drwxr-xr-x 27 beng staff 918B 3 Mar 14:35 swadesh
-rw-r--r-- 1 beng staff 22K 3 Mar 14:35 swadesh.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 switchboard
-rw-r--r-- 1 beng staff 773K 3 Mar 14:35 switchboard.zip
drwxr-xr-x 39 beng staff 1.3K 3 Mar 14:35 timit
-rw-r--r-- 1 beng staff 21M 3 Mar 14:35 timit.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 toolbox
-rw-r--r-- 1 beng staff 245K 3 Mar 14:35 toolbox.zip
drwxr-xr-x 12 beng staff 408B 3 Mar 14:36 treebank
-rw-r--r-- 1 beng staff 1.6M 3 Mar 14:36 treebank.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:36 twitter_samples
-rw-r--r-- 1 beng staff 15M 3 Mar 14:36 twitter_samples.zip
drwxr-xr-x 337 beng staff 11K 3 Mar 14:36 udhr
-rw-r--r-- 1 beng staff 1.1M 3 Mar 14:36 udhr.zip
drwxr-xr-x 390 beng staff 13K 3 Mar 14:36 udhr2
-rw-r--r-- 1 beng staff 1.6M 3 Mar 14:36 udhr2.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:36 unicode_samples
-rw-r--r-- 1 beng staff 1.2K 3 Mar 14:36 unicode_samples.zip
-rw-r--r-- 1 beng staff 25M 3 Mar 14:36 universal_treebanks_v20.zip
drwxr-xr-x 242 beng staff 8.0K 3 Mar 14:36 verbnet
-rw-r--r-- 1 beng staff 316K 3 Mar 14:36 verbnet.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:36 webtext
-rw-r--r-- 1 beng staff 631K 3 Mar 14:36 webtext.zip
drwxr-xr-x 20 beng staff 680B 3 Mar 14:36 wordnet
-rw-r--r-- 1 beng staff 10M 3 Mar 14:36 wordnet.zip
drwxr-xr-x 30 beng staff 1.0K 3 Mar 14:36 wordnet_ic
-rw-r--r-- 1 beng staff 11M 3 Mar 14:36 wordnet_ic.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:36 words
-rw-r--r-- 1 beng staff 740K 3 Mar 14:36 words.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:36 ycoe
-rw-r--r-- 1 beng staff 477B 3 Mar 14:36 ycoe.zip
Это говорит о том, что при загрузке файл повреждается (возможно, из-за обрыва интернет-соединения):
>>> plzip = '/Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/Cellar/python3/3.5.1/Frameworks/Python.framework/Versions/3.5/lib/python3.5/zipfile.py", line 1026, in __init__
self._RealGetContents()
File "/usr/local/Cellar/python3/3.5.1/Frameworks/Python.framework/Versions/3.5/lib/python3.5/zipfile.py", line 1093, in _RealGetContents
raise BadZipFile("File is not a zip file")
zipfile.BadZipFile: File is not a zip file
Перейдите к '/Users/beng//nltk_data/corpora/
, удалите файл panlex_lite.zip
а затем повторно загрузите его. Обратите внимание, что загрузка этого zip-файла может занять до 2+ часов или больше, если сервер перегружен или у вас медленное интернет-соединение.
Я сделал следующее (трижды):
rm /Users/beng//nltk_data/corpora/panlex_lite.zip
python3
>>> import nltk
>>> nltk.download('panlex_lite')
[nltk_data] Downloading package panlex_lite to
[nltk_data] /Users/beng/nltk_data...
[nltk_data] Unzipping corpora/panlex_lite.zip.
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", line 664, in download
for msg in self.incr_download(info_or_id, download_dir, force):
File "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", line 549, in incr_download
for msg in self._download_package(info, download_dir, force):
File "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", line 638, in _download_package
for msg in _unzip_iter(filepath, zipdir, verbose=False):
File "/usr/local/lib/python3.5/site-packages/nltk/downloader.py", line 2039, in _unzip_iter
outfile.write(contents)
OSError: [Errno 22] Invalid argument
>>>
Однако обратите внимание на следующие команды ввода / вывода:
>>> plzip = '/Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> import zipfile
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
[0, 448887900, 85839474]
Можете ли вы также сделать rm -rf /Users/beng//nltk_data/corpora/panlex_lite
перед запуском python3
?
то есть:
$ rm /Users/beng//nltk_data/corpora/panlex_lite.zip
$ rm -rf /Users/beng//nltk_data/corpora/panlex_lite
$ python -m nltk.downloader panlex_lite
$ python3
>>> plzip = '/Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> import zipfile
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
[0, 448887900, 85839474]
Мне не удалось воспроизвести ваши OSError
на Ubuntu 14.04 Python 3.5.1:
alvas<strong i="13">@ubi</strong>:~/nltk_data/corpora$ ls panlex_
panlex_lite.zip panlex_swadesh.zip
alvas<strong i="14">@ubi</strong>:~/nltk_data/corpora$ cd
alvas<strong i="15">@ubi</strong>:~$ python
Python 2.7.11 (default, Dec 15 2015, 16:46:19)
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> nltk.download('panlex_lite')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
NameError: name 'nltk' is not defined
>>> import nltk
>>> nltk.download('panlex_lite')
[nltk_data] Downloading package panlex_lite to
[nltk_data] /home/alvas/nltk_data...
[nltk_data] Package panlex_lite is already up-to-date!
True
>>> exit()
alvas<strong i="16">@ubi</strong>:~$ python3
Python 3.5.1 (default, Dec 18 2015, 00:00:00)
[GCC 4.8.4] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('panlex_lite')
[nltk_data] Downloading package panlex_lite to
[nltk_data] /home/alvas/nltk_data...
[nltk_data] Package panlex_lite is already up-to-date!
True
Кстати, если вы не собираетесь использовать panlex
, остальные NLTK
будут работать нормально и без него =)
Bens-MacBook-Pro:work beng$ rm -rf /Users/beng//nltk_data/corpora/panlex_lite
Bens-MacBook-Pro:work beng$ ls -lah /Users/beng//nltk_data/corpora
total 4361152
drwxr-xr-x 151 beng staff 5.0K 20 Apr 13:12 .
drwxr-xr-x 11 beng staff 374B 3 Mar 14:41 ..
drwxr-xr-x 5 beng staff 170B 3 Mar 14:32 abc
-rw-r--r-- 1 beng staff 1.4M 3 Mar 14:32 abc.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:32 alpino
-rw-r--r-- 1 beng staff 2.7M 3 Mar 14:32 alpino.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:32 biocreative_ppi
-rw-r--r-- 1 beng staff 218K 3 Mar 14:32 biocreative_ppi.zip
drwxr-xr-x 505 beng staff 17K 3 Mar 14:32 brown
-rw-r--r-- 1 beng staff 3.2M 3 Mar 14:32 brown.zip
drwxr-xr-x 509 beng staff 17K 3 Mar 14:32 brown_tei
-rw-r--r-- 1 beng staff 8.3M 3 Mar 14:32 brown_tei.zip
drwxr-xr-x 1389 beng staff 46K 3 Mar 14:33 cess_cat
-rw-r--r-- 1 beng staff 5.1M 3 Mar 14:33 cess_cat.zip
drwxr-xr-x 612 beng staff 20K 3 Mar 14:33 cess_esp
-rw-r--r-- 1 beng staff 2.1M 3 Mar 14:33 cess_esp.zip
drwxr-xr-x 10 beng staff 340B 3 Mar 14:33 chat80
-rw-r--r-- 1 beng staff 19K 3 Mar 14:33 chat80.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:33 city_database
-rw-r--r-- 1 beng staff 1.7K 3 Mar 14:33 city_database.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:33 cmudict
-rw-r--r-- 1 beng staff 875K 3 Mar 14:33 cmudict.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:33 comparative_sentences
-rw-r--r-- 1 beng staff 273K 3 Mar 14:33 comparative_sentences.zip
-rw-r--r-- 1 beng staff 11M 3 Mar 14:33 comtrans.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:33 conll2000
-rw-r--r-- 1 beng staff 739K 3 Mar 14:33 conll2000.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:33 conll2002
-rw-r--r-- 1 beng staff 1.8M 3 Mar 14:33 conll2002.zip
-rw-r--r-- 1 beng staff 1.2M 3 Mar 14:33 conll2007.zip
drwxr-xr-x 453 beng staff 15K 3 Mar 14:33 crubadan
-rw-r--r-- 1 beng staff 5.0M 3 Mar 14:33 crubadan.zip
drwxr-xr-x 201 beng staff 6.7K 3 Mar 14:33 dependency_treebank
-rw-r--r-- 1 beng staff 447K 3 Mar 14:33 dependency_treebank.zip
drwxr-xr-x 14 beng staff 476B 3 Mar 14:33 europarl_raw
-rw-r--r-- 1 beng staff 12M 3 Mar 14:33 europarl_raw.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:33 floresta
-rw-r--r-- 1 beng staff 1.8M 3 Mar 14:33 floresta.zip
drwxr-xr-x 16 beng staff 544B 3 Mar 14:34 framenet_v15
-rw-r--r-- 1 beng staff 66M 3 Mar 14:33 framenet_v15.zip
drwxr-xr-x 11 beng staff 374B 3 Mar 14:34 gazetteers
-rw-r--r-- 1 beng staff 8.1K 3 Mar 14:34 gazetteers.zip
drwxr-xr-x 11 beng staff 374B 3 Mar 14:34 genesis
-rw-r--r-- 1 beng staff 462K 3 Mar 14:34 genesis.zip
drwxr-xr-x 21 beng staff 714B 3 Mar 14:34 gutenberg
-rw-r--r-- 1 beng staff 4.1M 3 Mar 14:34 gutenberg.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:34 ieer
-rw-r--r-- 1 beng staff 162K 3 Mar 14:34 ieer.zip
drwxr-xr-x 59 beng staff 2.0K 3 Mar 14:34 inaugural
-rw-r--r-- 1 beng staff 314K 3 Mar 14:34 inaugural.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:34 indian
-rw-r--r-- 1 beng staff 195K 3 Mar 14:34 indian.zip
-rw-r--r-- 1 beng staff 16M 3 Mar 14:34 jeita.zip
drwxr-xr-x 22 beng staff 748B 3 Mar 14:34 kimmo
-rw-r--r-- 1 beng staff 183K 3 Mar 14:34 kimmo.zip
-rw-r--r-- 1 beng staff 8.4M 3 Mar 14:34 knbc.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 lin_thesaurus
-rw-r--r-- 1 beng staff 85M 3 Mar 14:34 lin_thesaurus.zip
drwxr-xr-x 112 beng staff 3.7K 3 Mar 14:34 mac_morpho
-rw-r--r-- 1 beng staff 2.9M 3 Mar 14:34 mac_morpho.zip
-rw-r--r-- 1 beng staff 5.9M 3 Mar 14:34 machado.zip
-rw-r--r-- 1 beng staff 1.5M 3 Mar 14:34 masc_tagged.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 movie_reviews
-rw-r--r-- 1 beng staff 3.8M 3 Mar 14:34 movie_reviews.zip
drwxr-xr-x 56 beng staff 1.9K 3 Mar 14:38 mte_teip5
-rw-r--r-- 1 beng staff 14M 3 Mar 14:38 mte_teip5.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:34 names
-rw-r--r-- 1 beng staff 21K 3 Mar 14:34 names.zip
-rw-r--r-- 1 beng staff 6.4M 3 Mar 14:35 nombank.1.0.zip
drwxr-xr-x 19 beng staff 646B 3 Mar 14:35 nps_chat
-rw-r--r-- 1 beng staff 294K 3 Mar 14:35 nps_chat.zip
drwxr-xr-x 32 beng staff 1.1K 3 Mar 14:35 omw
-rw-r--r-- 1 beng staff 11M 3 Mar 14:35 omw.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 opinion_lexicon
-rw-r--r-- 1 beng staff 24K 3 Mar 14:35 opinion_lexicon.zip
-rw-r--r-- 1 beng staff 1.7G 20 Apr 12:46 panlex_lite.zip
-rw-r--r-- 1 beng staff 2.6M 3 Mar 14:37 panlex_swadesh.zip
drwxr-xr-x 21 beng staff 714B 3 Mar 14:35 paradigms
-rw-r--r-- 1 beng staff 24K 3 Mar 14:35 paradigms.zip
drwxr-xr-x 475 beng staff 16K 3 Mar 14:35 pil
-rw-r--r-- 1 beng staff 1.4M 3 Mar 14:35 pil.zip
drwxr-xr-x 16 beng staff 544B 3 Mar 14:35 pl196x
-rw-r--r-- 1 beng staff 6.7M 3 Mar 14:35 pl196x.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:35 ppattach
-rw-r--r-- 1 beng staff 763K 3 Mar 14:35 ppattach.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 problem_reports
-rw-r--r-- 1 beng staff 1.0M 3 Mar 14:35 problem_reports.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 product_reviews_1
-rw-r--r-- 1 beng staff 138K 3 Mar 14:35 product_reviews_1.zip
drwxr-xr-x 12 beng staff 408B 3 Mar 14:35 product_reviews_2
-rw-r--r-- 1 beng staff 167K 3 Mar 14:35 product_reviews_2.zip
-rw-r--r-- 1 beng staff 5.1M 3 Mar 14:35 propbank.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 pros_cons
-rw-r--r-- 1 beng staff 729K 3 Mar 14:35 pros_cons.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:35 ptb
-rw-r--r-- 1 beng staff 6.1K 3 Mar 14:35 ptb.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 qc
-rw-r--r-- 1 beng staff 123K 3 Mar 14:35 qc.zip
-rw-r--r-- 1 beng staff 6.1M 3 Mar 14:35 reuters.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:35 rte
-rw-r--r-- 1 beng staff 377K 3 Mar 14:35 rte.zip
-rw-r--r-- 1 beng staff 4.2M 3 Mar 14:35 semcor.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:35 senseval
-rw-r--r-- 1 beng staff 2.1M 3 Mar 14:35 senseval.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 sentence_polarity
-rw-r--r-- 1 beng staff 479K 3 Mar 14:35 sentence_polarity.zip
drwxr-xr-x 4 beng staff 136B 3 Mar 14:35 sentiwordnet
-rw-r--r-- 1 beng staff 4.5M 3 Mar 14:35 sentiwordnet.zip
drwxr-xr-x 13 beng staff 442B 3 Mar 14:35 shakespeare
-rw-r--r-- 1 beng staff 464K 3 Mar 14:35 shakespeare.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 sinica_treebank
-rw-r--r-- 1 beng staff 878K 3 Mar 14:35 sinica_treebank.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:35 smultron
-rw-r--r-- 1 beng staff 162K 3 Mar 14:35 smultron.zip
drwxr-xr-x 68 beng staff 2.3K 3 Mar 14:35 state_union
-rw-r--r-- 1 beng staff 790K 3 Mar 14:35 state_union.zip
drwxr-xr-x 17 beng staff 578B 3 Mar 14:35 stopwords
-rw-r--r-- 1 beng staff 8.9K 3 Mar 14:35 stopwords.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:35 subjectivity
-rw-r--r-- 1 beng staff 509K 3 Mar 14:35 subjectivity.zip
drwxr-xr-x 27 beng staff 918B 3 Mar 14:35 swadesh
-rw-r--r-- 1 beng staff 22K 3 Mar 14:35 swadesh.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 switchboard
-rw-r--r-- 1 beng staff 773K 3 Mar 14:35 switchboard.zip
drwxr-xr-x 39 beng staff 1.3K 3 Mar 14:35 timit
-rw-r--r-- 1 beng staff 21M 3 Mar 14:35 timit.zip
drwxr-xr-x 8 beng staff 272B 3 Mar 14:35 toolbox
-rw-r--r-- 1 beng staff 245K 3 Mar 14:35 toolbox.zip
drwxr-xr-x 12 beng staff 408B 3 Mar 14:36 treebank
-rw-r--r-- 1 beng staff 1.6M 3 Mar 14:36 treebank.zip
drwxr-xr-x 7 beng staff 238B 3 Mar 14:36 twitter_samples
-rw-r--r-- 1 beng staff 15M 3 Mar 14:36 twitter_samples.zip
drwxr-xr-x 337 beng staff 11K 3 Mar 14:36 udhr
-rw-r--r-- 1 beng staff 1.1M 3 Mar 14:36 udhr.zip
drwxr-xr-x 390 beng staff 13K 3 Mar 14:36 udhr2
-rw-r--r-- 1 beng staff 1.6M 3 Mar 14:36 udhr2.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:36 unicode_samples
-rw-r--r-- 1 beng staff 1.2K 3 Mar 14:36 unicode_samples.zip
-rw-r--r-- 1 beng staff 25M 3 Mar 14:36 universal_treebanks_v20.zip
drwxr-xr-x 242 beng staff 8.0K 3 Mar 14:36 verbnet
-rw-r--r-- 1 beng staff 316K 3 Mar 14:36 verbnet.zip
drwxr-xr-x 9 beng staff 306B 3 Mar 14:36 webtext
-rw-r--r-- 1 beng staff 631K 3 Mar 14:36 webtext.zip
drwxr-xr-x 20 beng staff 680B 3 Mar 14:36 wordnet
-rw-r--r-- 1 beng staff 10M 3 Mar 14:36 wordnet.zip
drwxr-xr-x 30 beng staff 1.0K 3 Mar 14:36 wordnet_ic
-rw-r--r-- 1 beng staff 11M 3 Mar 14:36 wordnet_ic.zip
drwxr-xr-x 5 beng staff 170B 3 Mar 14:36 words
-rw-r--r-- 1 beng staff 740K 3 Mar 14:36 words.zip
drwxr-xr-x 3 beng staff 102B 3 Mar 14:36 ycoe
-rw-r--r-- 1 beng staff 477B 3 Mar 14:36 ycoe.zip
Bens-MacBook-Pro:work beng$ python3
Python 3.5.1 (default, Mar 3 2016, 14:25:53)
[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import nltk
>>> nltk.download('panlex_lite')
[nltk_data] Downloading package panlex_lite to
[nltk_data] /Users/beng/nltk_data...
[nltk_data] Package panlex_lite is already up-to-date!
True
Кроме того, через графический интерфейс загрузчика загрузка "all" наконец-то завершается успешно, и все поля отмечены как "установленные".
Большой! Значит, сейчас нет OSError
? panlex_lite
каталог OSError
. Как только infolist
zip-файла верен, проблем быть не должно.
Наслаждайтесь игрой в NLTK! Посоветуйте своим друзьям / одноклассникам сделать то же самое:
$ rm /Users/beng//nltk_data/corpora/panlex_lite.zip
$ rm -rf /Users/beng//nltk_data/corpora/panlex_lite
$ python -m nltk.downloader panlex_lite
$ python3
>>> plzip = '/Users/beng//nltk_data/corpora/panlex_lite.zip'
>>> import zipfile
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
[0, 448887900, 85839474]
Спасибо!
У меня такая же проблема с последней версией NLTK 3.2.1 как на Ubuntu 16.04 (что приводит к сбою всей моей ОС), так и на OSX, я получаю те же ошибки, что и OP. Я удивлен, что это дело закрыли, как будто в нем не было ничего плохого.
При попытке обходного пути после этого шага он терпит неудачу, поскольку он пытался извлечь его автоматически сразу после загрузки: python -m nltk.downloader panlex_lite
[nltk_data] Downloading package panlex_lite to
[nltk_data] /Users/houmie/nltk_data...
[nltk_data] Unzipping corpora/panlex_lite.zip.
Traceback (most recent call last):
File "/Users/houmie/.pyenv/versions/3.5.1/lib/python3.5/runpy.py", line 170, in _run_module_as_main
"__main__", mod_spec)
File "/Users/houmie/.pyenv/versions/3.5.1/lib/python3.5/runpy.py", line 85, in _run_code
exec(code, run_globals)
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 2268, in <module>
halt_on_error=options.halt_on_error)
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 664, in download
for msg in self.incr_download(info_or_id, download_dir, force):
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 549, in incr_download
for msg in self._download_package(info, download_dir, force):
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 638, in _download_package
for msg in _unzip_iter(filepath, zipdir, verbose=False):
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 2039, in _unzip_iter
outfile.write(contents)
OSError: [Errno 22] Invalid argument
Спасибо
@houmie для чего
$ rm /Users/houmie//nltk_data/corpora/panlex_lite.zip
$ rm -rf /Users/houmie//nltk_data/corpora/panlex_lite
$ python -m nltk.downloader panlex_lite
$ python3
>>> plzip = '/Users/houmie//nltk_data/corpora/panlex_lite.zip'
>>> import zipfile
>>> [zifo.CRC for zifo in zipfile.ZipFile(plzip).infolist()]
[0, 448887900, 85839474]
Это не исправлено - это происходит для python 2.7, 3.4.3 и 3.5.1. Загрузка panlex_lite зависает на некоторое время, а затем разархивирование приводит к зависанию графического интерфейса пользователя и / или возникновению ошибки OSError.
Я столкнулся с той же проблемой на своем Macbook Pro с (OS X EI Capitain, Anaconda 1.4.0 + python 3.5.2), и я попробовал версию NLTK как на «conda install nltk» с 3.2.1, так и на «sudo python3 setup.py install. "с главной веткой github. Интересно то, что я никогда не получал CRC [0, 448887900, 85839474], но [0, 448887900, 84607019] всегда после того, как я пытался загрузить panlex_lite.zip более 5 раз. Любой намек или подсказка?
К сожалению, они отказываются, что проблема вообще существует. Я сообщил об этом в мае 2016 года, но до сих пор не признал наличие проблемы.
Я просто попробовал еще раз через загрузку графического интерфейса пользователя и все еще получаю это сообщение об ошибке, отображаемое в консоли:
showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 655, in download
self._interactive_download()
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 974, in _interactive_download
DownloaderGUI(self).mainloop()
File "/Users/houmie/.pyenv/versions/venv35/lib/python3.5/site-packages/nltk/downloader.py", line 1709, in mainloop
self.top.mainloop(*args, **kwargs)
File "/Users/houmie/.pyenv/versions/3.5.1/lib/python3.5/tkinter/__init__.py", line 1131, in mainloop
self.tk.mainloop(n)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 0: invalid continuation byte
>>> UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 0: invalid continuation byte
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 0: invalid continuation byte
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 0: invalid continuation byte
Для меня это огромная боль, поскольку мне нужно просмотреть код и удалить все ссылки на Pantex, чтобы пакеты работали.
Привет, здесь тоже самое, надеюсь, если об этом сообщит достаточно людей, то в какой-то момент это будет исправлено ...
хорошо, вот что я сделал
d = nltk.downloader.Downloader()
d._packages.pop('panlex_lite')
d.download()
# error message
d._packages.pop('panlex_lite')
/usr/local/lib/python3.5/site-packages/nltk/downloader.py in info(self, id)
876 if id in self._packages: return self._packages[id]
877 if id in self._collections: return self._collections[id]
--> 878 raise ValueError('Package %r not found in index' % id)
879
880 def xmlinfo(self, id):
Думаю, мы могли бы добавить в код что-то вроде if id != 'panlex_lite'
...
Но, как по мне, проще всего выглядит так:
panlex
python -m nltk.downloader -d /usr/local/share/nltk_data -u https://gist.githubusercontent.com/demidovakatya/61dab385d74065ae825c80496a197980/raw/c6ff7fbf44265c7f8c9e961e3e1158cd812d6af1/index.xml all
Ааааааи .... Done downloading collection all
! 🎉🎉🎉🎉
@demidovakatya
Я хотел бы понять, что вы упомянули это
это означает
<package author="David Kamholz" checksum="e13211688738201c0a5bd5b2f50e94ab" id="panlex_lite" license="CC0 1.0 Universal" name="PanLex Lite Corpus" size="2202492316" subdir="corpora" unzip="1" unzipped_size="5778483185" url="http://dev.panlex.org/db/panlex_lite.zip" webpage="http://panlex.org/" />
<package author="Jonathan Pool (editor)" checksum="59a08f6c19d1d6d72cc03189983c8045" id="panlex_swadesh" license="CC0 1.0 Universal" name="PanLex Swadesh Corpora" size="2699578" subdir="corpora" unzip="0" unzipped_size="4103346" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/panlex_swadesh.zip" webpage="http://panlex.org/" />
=>
<package author="David Kamholz" checksum="e13211688738201c0a5bd5b2f50e94ab" id="_lite" license="CC0 1.0 Universal" name="PanLex Lite Corpus" size="2202492316" subdir="corpora" unzip="1" unzipped_size="5778483185" url="http://dev.panlex.org/db/panlex_lite.zip" webpage="http://panlex.org/" />
<package author="Jonathan Pool (editor)" checksum="59a08f6c19d1d6d72cc03189983c8045" id="_swadesh" license="CC0 1.0 Universal" name="PanLex Swadesh Corpora" size="2699578" subdir="corpora" unzip="0" unzipped_size="4103346" url="https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/panlex_swadesh.zip" webpage="http://panlex.org/" />
@demidovakatya ,
Спасибо. Я встретил ту же проблему.
Скачивание panlex_lite теперь должно работать нормально
Опять не работает.
У меня нет пропускной способности, чтобы это проверить. Наша страница nltk_data указывает на версию от 1 апреля , которая не была затронута, когда недавно была добавлена версия от 1 мая.
@kamholz : не могли бы вы сделать следующее, чтобы проверить, все ли работает, пожалуйста? python -m nltk.downloader panlex_lite
Извините, это продолжается. Сложно отлаживать, потому что я часто не могу воспроизвести сообщения об ошибках. В этом случае, когда я запускаю python -m nltk.downloader panlex_lite
, он не сообщает об ошибках и распаковывает. Однако сумма MD5 в https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml
неверна. Не знаю, как это произошло, поскольку файл не изменился. Запись должна быть следующей:
<package author="David Kamholz" checksum="3156099b9acb623725d63c727fd8591d" id="panlex_lite" license="CC0 1.0 Universal" name="PanLex Lite Corpus" size="2357864277" subdir="corpora" unzip="1" unzipped_size="5993562112" url="https://db.panlex.org/panlex_lite-20170401.zip" webpage="http://panlex.org/" />
Я также обновил приведенный выше URL-адрес (но это не должно было повлиять на эту проблему, поскольку старый перенаправляет) и размеры.
Спасибо за это @kamholz . Я отправил исправленный индексный файл, используя эти контрольные суммы.
@clockwiser , пожалуйста, попробуйте еще раз и сообщите нам, как у вас дела?
Я попробовал: python -m nltk.downloader -u https://gist.githubusercontent.com/demidovakatya/61dab385d74065ae825c80496a197980/raw/c6ff7fbf44265c7f8c9e961e3e1158cd812d6afml, но все остальные ошибки запрещены, а все остальные URL запрещены. Любые предложения или новый URL-адрес, который будет работать?
@sokhnavor это вызвано # 1787
@alvations спасибо! Я понимаю:
PATH_TO_NLTK_DATA = / home / имя пользователя / nltk_data /
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
разархивировать gh-pages.zip
mv nltk_data-gh-pages / $ PATH_TO_NLTK_DATA
Я использовал командную строку Windows, и она не работает, ни один wget не распознается во внутренней или внешней команде. Я новичок в командной строке и вкусе окон. Есть ли обходной путь для этой командной строки, чтобы заставить это работать? Я был бы очень признателен.
Самый полезный комментарий
Привет, здесь тоже самое, надеюсь, если об этом сообщит достаточно людей, то в какой-то момент это будет исправлено ...