Nltk: comment télécharger le paquet corpus panlex_lite dans nltk en python

Créé le 17 janv. 2016  ·  30Commentaires  ·  Source: nltk/nltk

Je peux télécharger tous les packages sauf le panlex_lite comment le télécharger ?

Commentaire le plus utile

utilisez cette URL [http://dev.panlex.org/db/panlex_lite.zip] pour le télécharger manuellement.

Tous les 30 commentaires

Essayez en python :

>>> import nltk
>>> nltk.download('panlex_lite')

Ou en ligne de commande :

$ python -m nltk.downloader panlex_lite

Remarque : le téléchargement des données peut prendre un certain temps.

Notez que vous devez installer la version de développement de NLTK pour ce faire.

utilisez cette URL [http://dev.panlex.org/db/panlex_lite.zip] pour le télécharger manuellement.

Attendez NLTK v3.2 et consultez une discussion approfondie sur https://github.com/nltk/nltk/issues/1283

Salut, une fois que panlex_lite est téléchargé manuellement, où dois-je le mettre dans nltk_data ?
Merci

Veuillez consulter http://www.nltk.org/data.html

corpora , mon chemin complet est /usr/local/share/nltk_data/corpora

------------------ Original ------------------
De : "racekiller" [email protected] ;
Date : sam. 21 mai 2016 20:53
À : "nltk/nltk" [email protected] ;
Cc : "肖宗阳" [email protected] ; « Commentaire » [email protected] ;
Objet : Re : [nltk/nltk] comment télécharger le package corpus panlex_lite dans nltk inpython (#1253)

Salut, une fois que panlex_lite est téléchargé manuellement, où dois-je le mettre dans nltk_data ?
Merci

-
Vous recevez ceci parce que vous avez commenté.
Répondez directement à cet e-mail ou consultez-le sur GitHub

Salut,
Est-ce que quelqu'un sait pourquoi son téléchargement est si lent ? De mon côté, il affiche 20 heures. Le reste des packages ont été téléchargés.

@deepp Je télécharge ce fichier zip sur le cloud baidu. Voici le lien et le mot de passe
lien : https://pan.baidu.com/s/1kVavU7d mot de passe : 7b5n

@XiaoZYang Merci pour la réponse J'ai téléchargé le fichier manuellement à partir de votre lien de réponse précédent. Merci beaucoup

@deepp plaisir. soyez heureux de vous aider

Vous pouvez télécharger le fichier panlex_lite.zip à partir de https://dev.panlex.org/db/ et le mettre dans "/nltk_data/corpora/"

Lors du téléchargement de panlex avec le téléchargeur nltk, tout mon système s'est bloqué - même le voyant de verrouillage des majuscules sur mon clavier ne fonctionnait plus. J'ai redémarré mon ordinateur, réessayé et la même chose s'est produite.
Existe-t-il un fichier journal quelque part pour vous fournir plus d'informations à ce sujet ?
Pour info : j'exécute idle3/nltk3/python 3.5.2 sur KDE Neon sur une machine AMD64.

Je vais juste télécharger le fichier zip manuellement.

que faire après avoir téléchargé le zip de panlex_lite pour que les packages de repos soient téléchargés lorsque nltk.download('all') est donné ? pour qu'il saute le téléchargement de panlex_lite ? J'ai décompressé le dossier zip, mais quand j'essaie de télécharger des packages de repos, il montre que le téléchargement de panlex_lite ... aide s'il vous plaît.

@eupherntech même problème.

Je suis également confronté au même problème.

BTW, les données panlex_lite téléchargées manuellement.

@eupherntech @stevealbertwong Vous pouvez utiliser nltk.download('all', halt_on_error=False) , de sorte qu'après avoir échoué à télécharger le package, il vous sera demandé si vous souhaitez réessayer de le télécharger. Appuyez sur n et le reste des packages devrait être téléchargé.

Même problème ici, même manuellement, cela prend jusqu'à 8 heures. Faites quelque chose s'il vous plaît !

D'après le fichier mentionné ci

Une chose que vous pouvez faire en attendant pour obtenir plus d'informations est de regarder la taille du fichier et l'heure de dernière modification du fichier panlex_lite.zip dans nltk_data/corpora/ comme ceci :

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

J'ai le même problème. J'ai téléchargé avec succès panlex_lite (à partir de http://dev.panlex.org/db/panlex_lite.zip) et situé dans le bon répertoire, mais lorsque nltk.download() est appelé, il essaie de le télécharger à nouveau. Y a-t-il un autre fichier qui doit être mis à jour pour montrer que le corpus est en place ?

Veuillez noter: j'essayerais la suggestion de

J'ai mis à jour les sommes de contrôle, veuillez donc réessayer

@stevenbird Quelles sommes de contrôle ?

Quoi qu'il en soit, cela ne semble pas avoir fonctionné. nltk.download('all') essaie toujours de télécharger panlex light, même si j'ai mis le fichier joint au lien ci-dessus dans mon dossier ~/nltk_data/corpora.

A noter également, le téléchargeur essaie de télécharger panlex_swadesh à chaque fois (bien que ce soit un téléchargement beaucoup plus court que panlex_lite). J'ai remarqué que panlex_swadesh.zip se trouve dans le dossier corpus, et essayer de le décompresser manuellement donne

Arthurs-MacBook- Pro:corpora aetilley$ unzip panlex_swadesh.zip
Archive : panlex_swadesh.zip
Signature de fin de répertoire central introuvable. Soit ce fichier n'est pas
un fichier zip, ou il constitue un disque d'une archive en plusieurs parties. Dans le
dans ce dernier cas, le répertoire central et le commentaire du fichier zip se trouvent sur
le(s) dernier(s) disque(s) de cette archive.
unzip : impossible de trouver le répertoire zipfile dans l'un des panlex_swadesh.zip ou
panlex_swadesh.zip.zip, et ne peut pas trouver panlex_swadesh.zip.ZIP, point final.

@aetley - les sommes de contrôle sont publiées sur cette page - il peut être nécessaire de "afficher la source".

Ils sont issus de ce fichier : https://dev.panlex.org/db/panlex_lite-20170401.zip

Malheureusement, je n'ai pas la bande passante pour le télécharger.

Il y a deux choses que vous pourriez essayer. Peut-être que vous venez de faire le premier, auquel cas le second pourrait valoir le coup.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA ; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; décompressez panlex_lite-20170401.zip

@stevenbird

Je crains qu'après avoir exécuté les deux (les deux avec succès), nltk.download('all') ne puisse toujours pas voir panlex_lite.

Encore une fois, le principal problème ici est qu'il est difficile d'utiliser des toxines.

Alors suis-je le seul à avoir ce problème ?

Est-ce que nltk.download('all') la principale cause de ces problèmes ? Si c'est le cas, alors je pense que nltk/nltk_data#69 serait quelque chose à considérer.

Sinon, la solution de contournement est quelque chose comme:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

Plus précisément, ce nltk.download('all') ignore correctement tous les autres corpus que j'ai déjà, mais pour une raison quelconque, il essaie d'obtenir panlex_lite à chaque fois.

De plus, ce tox appelle nltk.download('all'), il est donc difficile de tester localement avant de faire une pull request.

Espérons que nltk/nltk_data#75 résoudrait certains des problèmes. Et après la fusion, les utilisateurs devraient pouvoir faire nltk.download('all-nltk') au lieu de nltk.download('all') s'ils ne veulent pas attendre pour télécharger le gros fichier panlex_lite .

@alvations

Et qu'est-ce que la toxicomanie appellera?

Encore une fois, je suis heureux de télécharger un fichier volumineux une fois, mais le téléchargeur ne semble pas, alors voyez que je l'ai déjà, il essaie donc de le télécharger à chaque fois.

Et encore une fois, si je suis la seule personne à avoir ce problème, alors ce n'est peut-être pas un problème, mais je suis déconcerté.

@aetley : est-ce que ça se passe toujours ? Je pense que cela devrait être corrigé maintenant que nous avons supprimé panlex-lite de la collection de corpus NLTK.

@stevenbird , @alvations

Oui, les toxines semblent fonctionner pour moi maintenant. Désolé, je n'ai pas compris que vous aviez corrigé cela.

Cette page vous a été utile?
0 / 5 - 0 notes