Puedo descargar todos los paquetes excepto el panlex_lite ¿cómo descargarlo?
Prueba dentro de Python:
>>> import nltk
>>> nltk.download('panlex_lite')
O en la línea de comando:
$ python -m nltk.downloader panlex_lite
Nota: la descarga de los datos puede llevar algún tiempo.
Tenga en cuenta que necesita instalar la versión de desarrollo de NLTK para hacer esto.
utilice esta URL [http://dev.panlex.org/db/panlex_lite.zip] para descargarlo manualmente.
Espere NLTK v3.2 y consulte la discusión extensa en https://github.com/nltk/nltk/issues/1283
Hola, una vez que panlex_lite se descarga manualmente, ¿dónde debería ponerlo dentro de nltk_data?
Gracias
Consulte http://www.nltk.org/data.html
corpora
, mi ruta completa es /usr/local/share/nltk_data/corpora
------------------ Original ------------------
De: "racekiller" [email protected];
Fecha: sábado 21 de mayo de 2016 08:53 p.m.
Para: "nltk / nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Comentario" [email protected];
Asunto: Re: [nltk / nltk] cómo descargar el paquete corpus panlex_lite en nltk inpython (# 1253)
Hola, una vez que panlex_lite se descarga manualmente, ¿dónde debería ponerlo dentro de nltk_data?
Gracias
-
Estás recibiendo esto porque hiciste un comentario.
Responda a este correo electrónico directamente o véalo en GitHub
Hola,
¿Alguien tiene idea de por qué la descarga es tan lenta? Al final está mostrando 20 horas. Se han descargado el resto de paquetes.
@deepp Subo este archivo zip a baidu cloud. A continuación se muestra el enlace y la contraseña
enlace: https://pan.baidu.com/s/1kVavU7d contraseña: 7b5n
@XiaoZYang Gracias por la respuesta. Descargué el archivo manualmente desde su enlace de respuesta anterior. Gracias una tonelada
@deepp placer. estar encantado de ayudarte
Puede descargar panlex_lite.zip desde https://dev.panlex.org/db/ y ponerlo en "/ nltk_data / corpora /"
Mientras descargaba panlex con nltk downloader, todo mi sistema simplemente se congeló, incluso la luz indicadora de bloqueo de mayúsculas en mi teclado ya no funcionaba. Reinicié mi computadora, lo intenté de nuevo y sucedió lo mismo.
¿Hay un archivo de registro en algún lugar que le proporcione más información sobre esto?
Para su información: estoy ejecutando idle3 / nltk3 / python 3.5.2 en KDE Neon en una máquina AMD64.
Solo descargaré el archivo zip manualmente.
¿Qué hacer después de descargar el zip de panlex_lite para que los paquetes de descanso se descarguen cuando se proporcione nltk.download ('all')? para que omita la descarga de panlex_lite? Descomprimí la carpeta zip pero aún así cuando intento descargar los paquetes de descanso, se muestra la descarga de panlex_lite ... ayuda por favor.
@eupherntech mismo problema.
También me enfrento al mismo problema.
Por cierto, descargó los datos de panlex_lite manualmente.
@eupherntech @stevealbertwong Puede usar nltk.download('all', halt_on_error=False)
, de modo que después de no poder descargar el paquete, se le preguntará si desea volver a intentar descargarlo. Presione n
y el resto de paquetes deberían descargarse.
El mismo problema aquí, incluso manualmente, lleva hasta 8 horas. ¡Haz algo al respecto, por favor!
Según el archivo mencionado anteriormente, parece que es un archivo de 2,2 GB. ¡Así que puede que tengas que esperar!
Una cosa que puede hacer mientras tanto para obtener más información es mirar la última hora de modificación del archivo panlex_lite.zip en nltk_data / corpora / like so:
$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r-- 1 username 1607558449 2.1G Mar 4 10:51 panlex_lite.zip
Tengo el mismo problema. He descargado panlex_lite con éxito (de http://dev.panlex.org/db/panlex_lite.zip) y ubicado en el directorio correcto, pero cuando se llama a nltk.download (), intenta descargarlo nuevamente. ¿Hay algún otro archivo que deba actualizarse para mostrar que el corpus está en su lugar?
Tenga en cuenta: probaría la sugerencia de
Actualicé las sumas de verificación, así que inténtelo de nuevo.
@stevenbird ¿Qué sumas de comprobación?
De todos modos, no parece haber funcionado. nltk.download ('all') todavía intenta descargar panlex light, aunque he puesto el archivo adjunto al enlace anterior en mi carpeta ~ / nltk_data / corpora.
También es de destacar que el descargador intenta descargar panlex_swadesh cada vez (aunque esta es una descarga mucho más corta que panlex_lite). Noté que panlex_swadesh.zip está en la carpeta corpora, y al intentar descomprimirlo manualmente da
Arthurs-MacBook- Pro: corpora aetilley $ unzip panlex_swadesh.zip
Archivo: panlex_swadesh.zip
No se encontró la firma de fin de directorio central. O este archivo no es
un archivo zip, o constituye un disco de un archivo de varias partes. En el
En último caso, el directorio central y el comentario del archivo zip se encontrarán en
los últimos discos de este archivo.
descomprimir: no se puede encontrar el directorio zipfile en uno de panlex_swadesh.zip o
panlex_swadesh.zip.zip y no puede encontrar panlex_swadesh.zip.ZIP, punto.
@aetilley - las sumas de comprobación se publican en esta página - puede necesitar "ver la fuente".
Son de este archivo: https://dev.panlex.org/db/panlex_lite-20170401.zip
Desafortunadamente, no tengo el ancho de banda para descargarlo.
Hay dos cosas que podrías intentar. Tal vez ya hayas hecho lo primero, en cuyo caso valdría la pena intentar lo segundo.
@stevenbird
Me temo que después de ejecutar ambos (ambos con éxito), nltk.download ('all') todavía no puede ver panlex_lite.
Nuevamente, el principal problema aquí es que dificulta el uso de toxinas.
Entonces, ¿soy el único que tiene este problema?
¿Es nltk.download('all')
la principal causa de estos problemas? Si es así, creo que nltk / nltk_data # 69 sería algo a considerar.
De lo contrario, la solución alternativa es algo como:
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')
@alvations
Más específicamente, ese nltk.download ('all') omite correctamente todos los demás corpus que ya tengo, pero por alguna razón intenta obtener panlex_lite cada vez.
Además, tox llama a nltk.download ('all'), por lo que es difícil probarlo localmente antes de realizar una solicitud de extracción.
Con suerte, nltk / nltk_data # 75 resolvería algunos de los problemas. Y después de la fusión, los usuarios deberían poder hacer nltk.download('all-nltk')
lugar de nltk.download('all')
si no quieren esperar para descargar el archivo grande panlex_lite
.
@alvations
¿Y cómo llamará tox?
Nuevamente, estoy feliz de descargar un archivo grande una vez, pero el descargador no parece, así que veo que ya lo tengo, así que intenta descargarlo cada vez.
Y nuevamente, si soy la única persona que tiene este problema, entonces tal vez no sea un problema, pero estoy desconcertado.
@aetilley : ¿sigue sucediendo esto? Creo que debería solucionarse ahora que hemos eliminado panlex-lite de la colección de corpus NLTK.
@stevenbird , @alvations
Sí, la toxina parece estar funcionando para mí ahora. Lo siento, no me di cuenta de que lo habías arreglado.
Comentario más útil
utilice esta URL [http://dev.panlex.org/db/panlex_lite.zip] para descargarlo manualmente.