Nltk: как загрузить пакет corpus panlex_lite в nltk в python

Созданный на 17 янв. 2016  ·  30Комментарии  ·  Источник: nltk/nltk

Я могу скачать все пакеты, кроме panlex_lite, как это скачать?

Самый полезный комментарий

используйте этот URL [http://dev.panlex.org/db/panlex_lite.zip], чтобы загрузить его вручную.

Все 30 Комментарий

Попробуйте в Python:

>>> import nltk
>>> nltk.download('panlex_lite')

Или в командной строке:

$ python -m nltk.downloader panlex_lite

Примечание. Загрузка данных может занять некоторое время.

Обратите внимание, что для этого вам необходимо установить разрабатываемую версию NLTK .

используйте этот URL [http://dev.panlex.org/db/panlex_lite.zip], чтобы загрузить его вручную.

Дождитесь NLTK v3.2 и просмотрите подробное обсуждение на https://github.com/nltk/nltk/issues/1283

Привет, как только panlex_lite загружается вручную, куда я должен поместить его в nltk_data?
Спасибо

corpora , мой полный путь - /usr/local/share/nltk_data/corpora

------------------ Оригинал ------------------
От: "racekiller" [email protected];
Дата: 21 мая 2016 г. 20:53
Кому: «nltk / nltk» [email protected];
Копия: "肖宗阳" [email protected]; «Комментарий» [email protected];
Тема: Re: [nltk / nltk] как загрузить пакет corpus panlex_lite в nltk inpython (# 1253)

Привет, как только panlex_lite загружается вручную, куда я должен поместить его в nltk_data?
Спасибо

-
Вы получили это, потому что прокомментировали.
Ответьте на это письмо напрямую или просмотрите его на GitHub

Привет,
Кто-нибудь знает, почему его загрузка такая медленная? В конце концов, он показывает 20 часов. Остальные пакеты загружены.

@deepp Я загружаю этот zip-файл в облако baidu. Ниже приводится ссылка и пароль.
ссылка: https://pan.baidu.com/s/1kVavU7d пароль: 7b5n

@XiaoZYang Спасибо за ответ. Я загрузил файл вручную по вашей предыдущей ответной ссылке. Благодаря тонну

@deepp удовольствие. буду рад помочь тебе

Вы можете скачать panlex_lite.zip с https://dev.panlex.org/db/ и поместить его в "/ nltk_data / corpora /"

При загрузке Panlex с помощью загрузчика nltk вся моя система просто зависла - даже индикатор Caps Lock на моей клавиатуре больше не работал. Я перезапустил свой компьютер, попробовал еще раз, и произошло то же самое.
Есть ли где-нибудь файл журнала, чтобы предоставить вам дополнительную информацию по этому поводу?
К вашему сведению: я запускаю idle3 / nltk3 / python 3.5.2 на KDE Neon на машине AMD64.

Я просто скачаю zip-файл вручную.

что делать после загрузки zip файла panlex_lite, чтобы остальные пакеты загружались, когда задано nltk.download ('all')? так что пропускает загрузку panlex_lite? Я разархивировал zip-папку, но все же, когда я пытаюсь загрузить остальные пакеты, он показывает загрузку panlex_lite ... помогите, пожалуйста.

@eupherntech такая же проблема.

Я тоже столкнулся с той же проблемой.

Кстати, загрузил данные panlex_lite вручную.

@eupherntech @stevealbertwong Вы можете использовать nltk.download('all', halt_on_error=False) , чтобы после неудачной загрузки пакета вас спросили, хотите ли вы повторить попытку загрузки. Нажмите n и остальные пакеты должны быть загружены.

Здесь та же проблема, даже вручную на это уходит до 8 часов. Сделайте что-нибудь с этим, пожалуйста!

Судя по упомянутому выше файлу, похоже, что это файл размером 2,2 ГБ. Так что, возможно, вам просто нужно поторопиться и подождать!

Тем временем, чтобы получить дополнительную информацию, вы можете посмотреть размер файла и время последнего изменения файла panlex_lite.zip в nltk_data / corpora /, например:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

У меня такая же проблема. У меня panlex_lite успешно загружен (с http://dev.panlex.org/db/panlex_lite.zip) и находится в правильном каталоге, но когда вызывается nltk.download (), он пытается загрузить его снова. Есть ли какой-нибудь другой файл, который нужно обновить, чтобы показать, что корпус на месте?

Обратите внимание: я бы попробовал предложение @cimarie , но проблема в том, что я пытаюсь использовать tox для тестирования ветки перед отправкой запроса на перенос, а tox вызывает nltk.download внутри, поэтому я не думаю, что у меня есть возможность включать эти параметры.

Я обновил контрольные суммы, попробуйте еще раз

@stevenbird Какие контрольные суммы?

В любом случае, похоже, это не сработало. nltk.download ('all') все еще пытается загрузить panlex light, хотя я поместил файл, прикрепленный к указанной выше ссылке, в свою папку ~ / nltk_data / corpora.

Также следует отметить, что загрузчик пытается загрузить panlex_swadesh каждый раз (хотя это намного короче, чем загрузка panlex_lite). Я заметил, что panlex_swadesh.zip находится в папке корпуса, и попытка распаковать его вручную дает

Arthurs-MacBook- Pro: корпус aetilley $ unzip panlex_swadesh.zip
Архив: panlex_swadesh.zip
Подпись конца центрального каталога не найдена. Либо этого файла нет
zip-файл, или он составляет один диск многосоставного архива. в
В последнем случае центральный каталог и комментарий к zip-файлу будут найдены на
последний диск (ы) этого архива.
unzip: не удается найти каталог с zip-файлами в одном из panlex_swadesh.zip или
panlex_swadesh.zip.zip, и не удается найти panlex_swadesh.zip.ZIP, точка.

@aetilley - контрольные суммы публикуются на этой странице - возможно, потребуется «просмотреть исходный код».

Они взяты из этого файла: https://dev.panlex.org/db/panlex_lite-20170401.zip

К сожалению, у меня нет пропускной способности для его загрузки.

Вы можете попробовать две вещи. Возможно, вы уже сделали первое, и в этом случае стоит попробовать второе.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; разархивировать panlex_lite-20170401.zip

@stevenbird

Боюсь, что после запуска обоих (оба успешно) nltk.download ('all') по-прежнему не видит panlex_lite.

Опять же, основная проблема здесь в том, что это затрудняет использование tox.

Так я единственный, у кого есть эта проблема?

Является ли nltk.download('all') основной причиной этих проблем? Если это так, то я думаю, что следует рассмотреть nltk / nltk_data # 69.

В противном случае обходной путь выглядит примерно так:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

В частности, этот nltk.download ('all') правильно пропускает все остальные корпуса, которые у меня уже есть, но по какой-то причине каждый раз пытается получить panlex_lite.

Кроме того, tox вызывает nltk.download ('all'), поэтому локально перед выполнением запроса на перенос сложно протестировать.

Надеюсь, nltk / nltk_data # 75 решит некоторые проблемы. И после этого слияния пользователи должны иметь возможность выполнять nltk.download('all-nltk') вместо nltk.download('all') если они не хотят ждать, чтобы загрузить большой файл panlex_lite .

@alvations

А что будет называть токсиком?

Опять же, я счастлив один раз загрузить большой файл, но загрузчик, похоже, не видит, что он у меня уже есть, поэтому он пытается загрузить его каждый раз.

И снова, если я единственный человек, у которого есть эта проблема, то, возможно, это не проблема, но я сбит с толку.

@aetilley : это все еще происходит? Я думаю, это должно быть исправлено сейчас, когда мы удалили panlex-lite из коллекции корпуса NLTK.

@stevenbird , @alvations

Да, похоже, сейчас на меня работает tox. Извините, я не понял, что вы это исправили.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги