Nltk: So laden Sie das Corpus panlex_lite-Paket in nltk in Python herunter

Erstellt am 17. Jan. 2016  ·  30Kommentare  ·  Quelle: nltk/nltk

Ich kann alle Pakete mit Ausnahme des panlex_lite herunterladen. Wie kann ich es herunterladen?

Hilfreichster Kommentar

Verwenden Sie diese URL [http://dev.panlex.org/db/panlex_lite.zip], um es manuell herunterzuladen.

Alle 30 Kommentare

Versuchen Sie es in Python:

>>> import nltk
>>> nltk.download('panlex_lite')

Oder auf der Kommandozeile:

$ python -m nltk.downloader panlex_lite

Hinweis: Das Herunterladen der Daten kann einige Zeit dauern.

Beachten Sie, dass Sie dazu die Entwicklungsversion von NLTK installieren müssen.

Verwenden Sie diese URL [http://dev.panlex.org/db/panlex_lite.zip], um es manuell herunterzuladen.

Warten Sie auf NLTK v3.2 und lesen Sie die ausführliche Diskussion auf https://github.com/nltk/nltk/issues/1283

Hallo, sobald panlex_lite manuell heruntergeladen wird, wo soll ich es in nltk_data einfügen?
Vielen Dank

corpora , mein vollständiger Pfad ist /usr/local/share/nltk_data/corpora

------------------ Original ------------------
Von: "racekiller" [email protected];
Datum: Sa, 21. Mai 2016, 20:53 Uhr
An: "nltk/nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Kommentar" [email protected];
Betreff: Re: [nltk/nltk] wie man das Corpus panlex_lite-Paket in nltk inpython herunterlädt (#1253)

Hallo, sobald panlex_lite manuell heruntergeladen wird, wo soll ich es in nltk_data einfügen?
Vielen Dank


Sie erhalten dies, weil Sie einen Kommentar abgegeben haben.
Antworten Sie direkt auf diese E-Mail oder zeigen Sie sie auf GitHub an

Hi,
Hat jemand eine Idee, warum der Download so langsam ist? An meinem Ende zeigt es 20 Stunden. Die restlichen Pakete wurden heruntergeladen.

@deepp Ich
Link: https://pan.baidu.com/s/1kVavU7d Passwort: 7b5n

@XiaoZYang Danke für die Antwort Ich habe die Datei manuell von Ihrem vorherigen Antwortlink heruntergeladen. Danke vielmals

@deepp Vergnügen. helfe dir gerne

Sie können panlex_lite.zip von https://dev.panlex.org/db/ herunterladen und in "/nltk_data/corpora/" einfügen.

Beim Herunterladen von Panlex mit dem nltk-Downloader ist mein gesamtes System einfach eingefroren - sogar die Anzeigeleuchte für die Feststelltaste auf meiner Tastatur funktionierte nicht mehr. Ich habe meinen Computer neu gestartet, es erneut versucht und das gleiche ist passiert.
Gibt es irgendwo ein Logfile mit weiteren Informationen dazu?
Zu Ihrer Information: Ich verwende Idle3/nltk3/Python 3.5.2 auf KDE Neon auf einem AMD64-Rechner.

Ich lade die Zip-Datei einfach manuell herunter.

Was ist nach dem Herunterladen der ZIP-Datei von panlex_lite zu tun, damit Restpakete heruntergeladen werden, wenn nltk.download('all') angegeben ist? damit es das Herunterladen von panlex_lite überspringt? Ich habe den Zip-Ordner entpackt, aber wenn ich versuche, Restpakete herunterzuladen, wird angezeigt, dass panlex_lite heruntergeladen wird ... Hilfe bitte.

@euperntech gleiches Problem.

ich stehe auch vor dem gleichen Problem.

Übrigens, panlex_lite-Daten manuell heruntergeladen.

@eupherntech @stevealbertwong Sie könnten nltk.download('all', halt_on_error=False) , so dass Sie nach einem fehlgeschlagenen Download des Pakets gefragt werden, ob Sie den Download erneut versuchen möchten. Drücken Sie n und die restlichen Pakete sollten heruntergeladen werden.

Gleiches Problem hier, selbst manuell dauert es bis zu 8 Stunden. Bitte tun Sie etwas dagegen!

Basierend auf der oben genannten Datei sieht es so aus, als ob es sich um eine 2,2-GB-Datei handelt. Sie müssen also vielleicht nur festhalten und warten!

Eine Sache, die Sie in der Zwischenzeit tun können, um weitere Informationen zu erhalten, besteht darin, sich die Dateigröße und die letzte Änderung der Datei panlex_lite.zip in nltk_data/corpora/ wie folgt anzusehen:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

Ich habe das gleiche Problem. Ich habe panlex_lite erfolgreich heruntergeladen (von http://dev.panlex.org/db/panlex_lite.zip) und im richtigen Verzeichnis gefunden, aber wenn nltk.download() aufgerufen wird, versucht es erneut, es herunterzuladen. Gibt es eine andere Datei, die aktualisiert werden muss, um zu zeigen, dass der Korpus vorhanden ist?

Bitte beachten Sie: Ich würde den Vorschlag von @cimarie versuchen, aber das Problem ist, dass ich versuche, einen Zweig mit Tox zu testen, bevor ich einen Pull-Request einreiche, und Tox ruft nltk.download intern auf, also glaube ich nicht, dass ich das habe die Möglichkeit, diese Optionen einzubeziehen.

Ich habe die Prüfsummen aktualisiert, also versuche es bitte noch einmal

@stevenbird Welche Prüfsummen?

Jedenfalls scheint es nicht funktioniert zu haben. nltk.download('all') versucht immer noch, panlex light herunterzuladen, obwohl ich die an den obigen Link angehängte Datei in meinem Ordner ~/nltk_data/corpora abgelegt habe.

Bemerkenswert ist auch, dass der Downloader jedes Mal versucht, panlex_swadesh herunterzuladen (obwohl dies ein viel kürzerer Download als panlex_lite ist). Ich habe bemerkt, dass sich panlex_swadesh.zip im Ordner corpora befindet und der Versuch, es manuell zu entpacken, ergibt

Arthurs-MacBook- Pro:corpora aetilley$ entpacken panlex_swadesh.zip
Archiv: panlex_swadesh.zip
Signatur des Endes des zentralen Verzeichnisses nicht gefunden. Entweder ist diese Datei nicht
eine ZIP-Datei, oder es bildet eine Diskette eines mehrteiligen Archivs. In dem
Im letzteren Fall finden Sie das zentrale Verzeichnis und den Zipfile-Kommentar auf
die letzte(n) Diskette(n) dieses Archivs.
unzip: kann das Zipfile-Verzeichnis in einer von panlex_swadesh.zip oder . nicht finden
panlex_swadesh.zip.zip und kann panlex_swadesh.zip.ZIP nicht finden, Punkt.

@aetilley – die Prüfsummen sind auf dieser Seite veröffentlicht – müssen möglicherweise "Quelle anzeigen".

Sie stammen aus dieser Datei: https://dev.panlex.org/db/panlex_lite-20170401.zip

Leider habe ich nicht die Bandbreite, um es herunterzuladen.

Es gibt zwei Dinge, die Sie versuchen könnten. Vielleicht haben Sie gerade den ersten gemacht, in diesem Fall ist der zweite vielleicht einen Versuch wert.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; panlex_lite-20170401.zip entpacken

@stevenbird

Ich fürchte, dass nach dem Ausführen beider (beide erfolgreich) nltk.download('all') panlex_lite immer noch nicht sehen kann.

Auch hier besteht das Hauptproblem darin, dass es die Verwendung von Tox erschwert.

Bin ich also der einzige der dieses Problem hat?

Ist nltk.download('all') die Hauptursache für diese Probleme? Wenn ja, dann denke ich, dass nltk/nltk_data#69 etwas zu berücksichtigen wäre.

Andernfalls lautet die Problemumgehung etwa:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

Genauer gesagt, dass nltk.download('all') alle anderen Korpora, die ich bereits habe, korrekt überspringt, aber aus irgendeinem Grund versucht, jedes Mal panlex_lite abzurufen.

Außerdem ruft Tox nltk.download('all') auf, sodass es schwierig ist, lokal zu testen, bevor eine Pull-Anfrage gestellt wird.

Hoffentlich würde nltk/nltk_data#75 einige der Probleme lösen. Und nachdem das zusammengeführt wurde, sollten Benutzer nltk.download('all-nltk') anstelle von nltk.download('all') wenn sie nicht warten möchten, um die große panlex_lite Datei herunterzuladen.

@alvations

Und was wird Tox rufen?

Auch hier freue ich mich, eine große Datei einmal herunterzuladen, aber der Downloader scheint nicht zu sehen, dass ich ihn bereits habe, also versucht er jedes Mal, ihn herunterzuladen.

Und noch einmal, wenn ich die einzige Person bin, die dieses Problem hat, dann ist es vielleicht kein Problem, aber ich bin verblüfft.

@aetilley : passiert das noch? Ich denke, es sollte jetzt behoben sein, da wir panlex-lite aus der NLTK-Korpussammlung entfernt haben.

@stevenbird , @alvations

Ja, Tox scheint jetzt bei mir zu wirken. Entschuldigung, ich habe nicht mitbekommen, dass Sie das behoben haben.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen

Verwandte Themen

talbaumel picture talbaumel  ·  4Kommentare

alvations picture alvations  ·  4Kommentare

goodmami picture goodmami  ·  4Kommentare

Chris00 picture Chris00  ·  3Kommentare

jeryini picture jeryini  ·  5Kommentare