Nltk: cara mengunduh paket corpus panlex_lite di nltk dengan python

Dibuat pada 17 Jan 2016  ·  30Komentar  ·  Sumber: nltk/nltk

Saya dapat mengunduh semua paket kecuali panlex_lite bagaimana cara mengunduhnya?

Komentar yang paling membantu

gunakan url ini [http://dev.panlex.org/db/panlex_lite.zip] untuk mengunduhnya secara manual.

Semua 30 komentar

Coba di dalam python:

>>> import nltk
>>> nltk.download('panlex_lite')

Atau di baris perintah:

$ python -m nltk.downloader panlex_lite

Catatan: Mungkin perlu beberapa saat untuk mengunduh data.

Perhatikan bahwa Anda perlu menginstal versi pengembangan NLTK untuk melakukan ini.

gunakan url ini [http://dev.panlex.org/db/panlex_lite.zip] untuk mengunduhnya secara manual.

Tunggu NLTK v3.2 dan silakan lihat diskusi ekstensif di https://github.com/nltk/nltk/issues/1283

Hai setelah panlex_lite diunduh secara manual, di mana saya harus meletakkannya di dalam nltk_data?
Terima kasih

corpora , jalur lengkap saya adalah /usr/local/share/nltk_data/corpora

------------------ Asli ------------------
Dari: notifikasi "racekiller"@github.com
Tanggal: Sab, 21 Mei 2016 20:53
Kepada: "nltk/nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Komentar" [email protected];
Perihal: Re: [nltk/nltk] cara mendownload paket corpus panlex_lite di nltk inpython (#1253)

Hai setelah panlex_lite diunduh secara manual, di mana saya harus meletakkannya di dalam nltk_data?
Terima kasih


Anda menerima ini karena Anda berkomentar.
Balas email ini secara langsung atau lihat di GitHub

Hai,
Adakah yang tahu mengapa unduhannya sangat lambat? Pada akhirnya saya menunjukkan 20 jam. Paket lainnya telah diunduh.

@deepp Saya mengunggah file zip ini ke baidu cloud. Berikut link dan passwordnya
tautan: https://pan.baidu.com/s/1kVavU7d kata sandi: 7b5n

@XiaoZYang Terima kasih atas tanggapannya, saya mengunduh file secara manual dari tautan tanggapan Anda sebelumnya. Terima kasih banyak

@deepp senang. dengan senang hati membantu Anda

Anda dapat mengunduh panlex_lite.zip dari https://dev.panlex.org/db/ , dan memasukkannya ke dalam "/nltk_data/corpora/"

Saat mengunduh panlex dengan pengunduh nltk, seluruh sistem saya membeku - bahkan lampu indikator caps lock pada keyboard saya tidak berfungsi lagi. Saya telah me-restart komputer saya, mencoba lagi dan hal yang sama terjadi.
Apakah ada file log di mana saja untuk memberi Anda info lebih lanjut tentang ini?
FYI: Saya menjalankan idle3/nltk3/python 3.5.2 di KDE Neon pada mesin AMD64.

Saya hanya akan mengunduh file zip secara manual.

apa yang harus dilakukan setelah mengunduh zip panlex_lite sehingga paket lainnya diunduh ketika nltk.download('all') diberikan? sehingga melewatkan pengunduhan panlex_lite? saya membuka ritsleting folder zip tetapi masih ketika saya mencoba mengunduh paket lainnya, itu menunjukkan mengunduh panlex_lite ... tolong bantu.

@eupherntech masalah yang sama.

Saya juga menghadapi masalah yang sama.

BTW, data panlex_lite diunduh secara manual.

@eupherntech @stevealbertwong Anda dapat menggunakan nltk.download('all', halt_on_error=False) , sehingga setelah gagal mengunduh paket, Anda akan ditanya apakah Anda ingin mencoba mengunduhnya lagi. Tekan n dan paket lainnya harus diunduh.

Masalah yang sama di sini, bahkan secara manual membutuhkan waktu hingga 8 jam. Tolong lakukan sesuatu tentang itu!

Berdasarkan file yang disebutkan di atas, sepertinya ini adalah file 2,2 GB. Jadi, Anda mungkin hanya perlu bertahan dan menunggu!

Satu hal yang dapat Anda lakukan sementara itu untuk mendapatkan beberapa informasi lebih lanjut adalah dengan melihat ukuran file dan waktu modifikasi terakhir dari file panlex_lite.zip di nltk_data/corpora/ seperti:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

Saya mengalami masalah yang sama. Saya memiliki panlex_lite yang berhasil diunduh (dari http://dev.panlex.org/db/panlex_lite.zip) dan terletak di direktori yang benar, tetapi ketika nltk.download() dipanggil, ia mencoba mengunduhnya lagi. Apakah ada file lain yang perlu diperbarui untuk menunjukkan bahwa korpus sudah ada?

Harap Dicatat: Saya akan mencoba saran @cimarie , tetapi masalahnya adalah saya mencoba menggunakan tox untuk menguji cabang sebelum mengirimkan permintaan tarik, dan tox memanggil nltk.download secara internal, jadi saya rasa saya tidak punya kemampuan untuk memasukkan opsi tersebut.

Saya telah memperbarui checksum, jadi silakan coba lagi

@stevenbird Checksum yang mana?

Bagaimanapun, tampaknya tidak berhasil. nltk.download('all') masih mencoba untuk mendownload panlex light, meskipun saya telah meletakkan file yang dilampirkan pada link di atas di folder ~/nltk_data/corpora saya.

Perhatikan juga, pengunduh mencoba mengunduh panlex_swadesh setiap saat (walaupun ini adalah unduhan yang jauh lebih singkat daripada panlex_lite). Saya perhatikan panlex_swadesh.zip ada di folder corpora, dan mencoba unzip secara manual memberikan

Arthurs-MacBook- Pro: corpora aetilley$ unzip panlex_swadesh.zip
Arsip: panlex_swadesh.zip
Tanda tangan akhir direktori pusat tidak ditemukan. Entah file ini bukan
zipfile, atau merupakan satu disk dari arsip multi-bagian. Dalam
kasus terakhir direktori pusat dan komentar zipfile akan ditemukan di
disk terakhir dari arsip ini.
unzip: tidak dapat menemukan direktori zipfile di salah satu panlex_swadesh.zip atau
panlex_swadesh.zip.zip, dan tidak dapat menemukan panlex_swadesh.zip.ZIP, titik.

@aetilley – checksum dipublikasikan di halaman ini – mungkin perlu "melihat sumber".

Mereka berasal dari file ini: https://dev.panlex.org/db/panlex_lite-20170401.zip

Sayangnya saya tidak memiliki bandwidth untuk mengunduhnya.

Ada dua hal yang bisa Anda coba. Mungkin Anda baru saja melakukan yang pertama dalam hal ini yang kedua mungkin layak dicoba.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; unzip panlex_lite-20170401.zip

@stevenbird

Saya khawatir setelah menjalankan keduanya (keduanya berhasil), nltk.download('all') masih tidak dapat melihat panlex_lite.

Sekali lagi, masalah utama di sini adalah sulitnya menggunakan tox.

Jadi apakah saya satu-satunya yang mengalami masalah ini?

Apakah nltk.download('all') penyebab utama masalah ini? Jika demikian, maka saya pikir nltk/nltk_data#69 akan menjadi sesuatu yang perlu dipertimbangkan.

Jika tidak, solusinya adalah seperti:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

Lebih khusus lagi, nltk.download('all') dengan benar melompati semua corpora lain yang sudah saya miliki, tetapi untuk beberapa alasan mencoba mendapatkan panlex_lite setiap kali.

Tox juga memanggil nltk.download('all'), jadi sulit untuk menguji secara lokal sebelum membuat permintaan tarik.

Mudah-mudahan, nltk/nltk_data#75 akan menyelesaikan beberapa masalah. Dan setelah itu digabungkan, pengguna harus dapat melakukan nltk.download('all-nltk') daripada nltk.download('all') jika mereka tidak ingin menunggu untuk mengunduh file panlex_lite .

@alvations

Dan apa yang akan disebut tox?

Sekali lagi, saya senang mengunduh file besar sekali tetapi pengunduh sepertinya tidak melihat bahwa saya sudah memilikinya sehingga mencoba mengunduhnya setiap saat.

Dan lagi, jika saya satu-satunya orang yang mengalami masalah ini, mungkin itu bukan masalah, tapi saya bingung.

@aetilley : apakah ini masih terjadi? Saya pikir itu harus diperbaiki sekarang karena kami telah menghapus panlex-lite dari koleksi corpus NLTK.

@stevenbird , @alvations

Ya, tox tampaknya bekerja untuk saya sekarang. Maaf, saya tidak mengerti bahwa Anda telah memperbaikinya.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat