Nltk: cómo descargar el paquete corpus panlex_lite en nltk en python

Creado en 17 ene. 2016  ·  30Comentarios  ·  Fuente: nltk/nltk

Puedo descargar todos los paquetes excepto el panlex_lite ¿cómo descargarlo?

Comentario más útil

utilice esta URL [http://dev.panlex.org/db/panlex_lite.zip] para descargarlo manualmente.

Todos 30 comentarios

Prueba dentro de Python:

>>> import nltk
>>> nltk.download('panlex_lite')

O en la línea de comando:

$ python -m nltk.downloader panlex_lite

Nota: la descarga de los datos puede llevar algún tiempo.

Tenga en cuenta que necesita instalar la versión de desarrollo de NLTK para hacer esto.

utilice esta URL [http://dev.panlex.org/db/panlex_lite.zip] para descargarlo manualmente.

Espere NLTK v3.2 y consulte la discusión extensa en https://github.com/nltk/nltk/issues/1283

Hola, una vez que panlex_lite se descarga manualmente, ¿dónde debería ponerlo dentro de nltk_data?
Gracias

corpora , mi ruta completa es /usr/local/share/nltk_data/corpora

------------------ Original ------------------
De: "racekiller" [email protected];
Fecha: sábado 21 de mayo de 2016 08:53 p.m.
Para: "nltk / nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Comentario" [email protected];
Asunto: Re: [nltk / nltk] cómo descargar el paquete corpus panlex_lite en nltk inpython (# 1253)

Hola, una vez que panlex_lite se descarga manualmente, ¿dónde debería ponerlo dentro de nltk_data?
Gracias

-
Estás recibiendo esto porque hiciste un comentario.
Responda a este correo electrónico directamente o véalo en GitHub

Hola,
¿Alguien tiene idea de por qué la descarga es tan lenta? Al final está mostrando 20 horas. Se han descargado el resto de paquetes.

@deepp Subo este archivo zip a baidu cloud. A continuación se muestra el enlace y la contraseña
enlace: https://pan.baidu.com/s/1kVavU7d contraseña: 7b5n

@XiaoZYang Gracias por la respuesta. Descargué el archivo manualmente desde su enlace de respuesta anterior. Gracias una tonelada

@deepp placer. estar encantado de ayudarte

Puede descargar panlex_lite.zip desde https://dev.panlex.org/db/ y ponerlo en "/ nltk_data / corpora /"

Mientras descargaba panlex con nltk downloader, todo mi sistema simplemente se congeló, incluso la luz indicadora de bloqueo de mayúsculas en mi teclado ya no funcionaba. Reinicié mi computadora, lo intenté de nuevo y sucedió lo mismo.
¿Hay un archivo de registro en algún lugar que le proporcione más información sobre esto?
Para su información: estoy ejecutando idle3 / nltk3 / python 3.5.2 en KDE Neon en una máquina AMD64.

Solo descargaré el archivo zip manualmente.

¿Qué hacer después de descargar el zip de panlex_lite para que los paquetes de descanso se descarguen cuando se proporcione nltk.download ('all')? para que omita la descarga de panlex_lite? Descomprimí la carpeta zip pero aún así cuando intento descargar los paquetes de descanso, se muestra la descarga de panlex_lite ... ayuda por favor.

@eupherntech mismo problema.

También me enfrento al mismo problema.

Por cierto, descargó los datos de panlex_lite manualmente.

@eupherntech @stevealbertwong Puede usar nltk.download('all', halt_on_error=False) , de modo que después de no poder descargar el paquete, se le preguntará si desea volver a intentar descargarlo. Presione n y el resto de paquetes deberían descargarse.

El mismo problema aquí, incluso manualmente, lleva hasta 8 horas. ¡Haz algo al respecto, por favor!

Según el archivo mencionado anteriormente, parece que es un archivo de 2,2 GB. ¡Así que puede que tengas que esperar!

Una cosa que puede hacer mientras tanto para obtener más información es mirar la última hora de modificación del archivo panlex_lite.zip en nltk_data / corpora / like so:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

Tengo el mismo problema. He descargado panlex_lite con éxito (de http://dev.panlex.org/db/panlex_lite.zip) y ubicado en el directorio correcto, pero cuando se llama a nltk.download (), intenta descargarlo nuevamente. ¿Hay algún otro archivo que deba actualizarse para mostrar que el corpus está en su lugar?

Tenga en cuenta: probaría la sugerencia de

Actualicé las sumas de verificación, así que inténtelo de nuevo.

@stevenbird ¿Qué sumas de comprobación?

De todos modos, no parece haber funcionado. nltk.download ('all') todavía intenta descargar panlex light, aunque he puesto el archivo adjunto al enlace anterior en mi carpeta ~ / nltk_data / corpora.

También es de destacar que el descargador intenta descargar panlex_swadesh cada vez (aunque esta es una descarga mucho más corta que panlex_lite). Noté que panlex_swadesh.zip está en la carpeta corpora, y al intentar descomprimirlo manualmente da

Arthurs-MacBook- Pro: corpora aetilley $ unzip panlex_swadesh.zip
Archivo: panlex_swadesh.zip
No se encontró la firma de fin de directorio central. O este archivo no es
un archivo zip, o constituye un disco de un archivo de varias partes. En el
En último caso, el directorio central y el comentario del archivo zip se encontrarán en
los últimos discos de este archivo.
descomprimir: no se puede encontrar el directorio zipfile en uno de panlex_swadesh.zip o
panlex_swadesh.zip.zip y no puede encontrar panlex_swadesh.zip.ZIP, punto.

@aetilley - las sumas de comprobación se publican en esta página - puede necesitar "ver la fuente".

Son de este archivo: https://dev.panlex.org/db/panlex_lite-20170401.zip

Desafortunadamente, no tengo el ancho de banda para descargarlo.

Hay dos cosas que podrías intentar. Tal vez ya hayas hecho lo primero, en cuyo caso valdría la pena intentar lo segundo.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; descomprimir panlex_lite-20170401.zip

@stevenbird

Me temo que después de ejecutar ambos (ambos con éxito), nltk.download ('all') todavía no puede ver panlex_lite.

Nuevamente, el principal problema aquí es que dificulta el uso de toxinas.

Entonces, ¿soy el único que tiene este problema?

¿Es nltk.download('all') la principal causa de estos problemas? Si es así, creo que nltk / nltk_data # 69 sería algo a considerar.

De lo contrario, la solución alternativa es algo como:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

Más específicamente, ese nltk.download ('all') omite correctamente todos los demás corpus que ya tengo, pero por alguna razón intenta obtener panlex_lite cada vez.

Además, tox llama a nltk.download ('all'), por lo que es difícil probarlo localmente antes de realizar una solicitud de extracción.

Con suerte, nltk / nltk_data # 75 resolvería algunos de los problemas. Y después de la fusión, los usuarios deberían poder hacer nltk.download('all-nltk') lugar de nltk.download('all') si no quieren esperar para descargar el archivo grande panlex_lite .

@alvations

¿Y cómo llamará tox?

Nuevamente, estoy feliz de descargar un archivo grande una vez, pero el descargador no parece, así que veo que ya lo tengo, así que intenta descargarlo cada vez.

Y nuevamente, si soy la única persona que tiene este problema, entonces tal vez no sea un problema, pero estoy desconcertado.

@aetilley : ¿sigue sucediendo esto? Creo que debería solucionarse ahora que hemos eliminado panlex-lite de la colección de corpus NLTK.

@stevenbird , @alvations

Sí, la toxina parece estar funcionando para mí ahora. Lo siento, no me di cuenta de que lo habías arreglado.

¿Fue útil esta página
0 / 5 - 0 calificaciones

Temas relacionados

libingnan54321 picture libingnan54321  ·  3Comentarios

jeryini picture jeryini  ·  5Comentarios

mwess picture mwess  ·  5Comentarios

alvations picture alvations  ·  4Comentarios

chaseireland picture chaseireland  ·  3Comentarios