Nltk: como baixar o pacote corpus panlex_lite em nltk em python

Criado em 17 jan. 2016  ·  30Comentários  ·  Fonte: nltk/nltk

Consigo baixar todos os pacotes exceto o panlex_lite. Como faço o download?

Comentários muito úteis

use este url [http://dev.panlex.org/db/panlex_lite.zip] para baixá-lo manualmente.

Todos 30 comentários

Experimente no python:

>>> import nltk
>>> nltk.download('panlex_lite')

Ou na linha de comando:

$ python -m nltk.downloader panlex_lite

Nota: pode demorar algum tempo para fazer o download dos dados.

Observe que você precisa instalar a versão de desenvolvimento do NLTK para fazer isso.

use este url [http://dev.panlex.org/db/panlex_lite.zip] para baixá-lo manualmente.

Aguarde o NLTK v3.2 e consulte a ampla discussão em https://github.com/nltk/nltk/issues/1283

Olá, uma vez que o panlex_lite é baixado manualmente, onde devo colocá-lo em nltk_data?
Obrigado

corpora , meu caminho completo é /usr/local/share/nltk_data/corpora

------------------ Original ------------------
De: "matador de corrida" notificaçõ[email protected];
Data: sábado, 21 de maio de 2016 às 20h53
Para: "nltk / nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Comentário" [email protected];
Assunto: Re: [nltk / nltk] como baixar o pacote corpus panlex_lite em nltk inpython (# 1253)

Olá, uma vez que o panlex_lite é baixado manualmente, onde devo colocá-lo em nltk_data?
Obrigado

-
Você está recebendo isso porque comentou.
Responda a este e-mail diretamente ou visualize-o no GitHub

Oi,
Alguém tem ideia de por que está baixando tão lento? No meu final está mostrando 20 horas. O resto dos pacotes foram baixados.

@deepp Eu
link: https://pan.baidu.com/s/1kVavU7d senha: 7b5n

@XiaoZYang Obrigado pela resposta Eu baixei o arquivo manualmente de seu link de resposta anterior. Muito obrigado

prazer @deepp . fique feliz em te ajudar

Você pode baixar o panlex_lite.zip em https://dev.panlex.org/db/ e colocá-lo em "/ nltk_data / corpora /"

Durante o download do Panlex com o nltk downloader, todo o meu sistema travou - até mesmo a luz indicadora de caps lock no meu teclado não estava mais funcionando. Reiniciei meu computador, tentei novamente e aconteceu a mesma coisa.
Existe um arquivo de registro em algum lugar para fornecer mais informações sobre isso?
Para sua informação: Estou executando idle3 / nltk3 / python 3.5.2 no KDE Neon em uma máquina AMD64.

Vou apenas baixar o arquivo zip manualmente.

o que fazer depois de baixar o zip do panlex_lite para que os pacotes restantes sejam baixados quando nltk.download ('all') for fornecido? para que ele ignore o download do panlex_lite? Eu descompactei a pasta zip, mas ainda quando tento baixar os pacotes restantes, ele mostra o download do panlex_lite ... ajuda por favor.

@eupherntech mesmo problema.

Eu também estou enfrentando o mesmo problema.

BTW, baixei os dados do panlex_lite manualmente.

@eupherntech @stevealbertwong Você pode usar nltk.download('all', halt_on_error=False) , de modo que, após falhar ao baixar o pacote, será perguntado se deseja tentar baixá-lo novamente. Pressione n e o resto dos pacotes deve ser baixado.

O mesmo problema aqui, mesmo manualmente, leva até 8 horas. Faça algo sobre isso, por favor!

Com base no arquivo mencionado acima, parece que é um arquivo de 2,2 GB. Portanto, você só precisa esperar e esperar!

Uma coisa que você pode fazer enquanto isso para obter mais informações é olhar o tamanho do arquivo e a hora da última modificação do arquivo panlex_lite.zip em nltk_data / corpora / assim:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

Estou tendo o mesmo problema. Eu baixei o panlex_lite com sucesso (de http://dev.panlex.org/db/panlex_lite.zip) e localizado no diretório correto, mas quando nltk.download () é chamado, ele tenta baixá-lo novamente. Existe algum outro arquivo que precisa ser atualizado para mostrar que o corpus está em vigor?

Observação: eu tentaria a sugestão de @cimarie , mas o problema é que estou tentando usar o tox para testar um branch antes de enviar uma solicitação de pull e o tox chama nltk.download internamente, então não acho que tenha a capacidade de incluir essas opções.

Eu atualizei as somas de verificação, então tente novamente

@stevenbird Quais somas de verificação?

De qualquer forma, não parece ter funcionado. nltk.download ('all') ainda tenta baixar o panlex light, embora eu tenha colocado o arquivo anexado ao link acima na minha pasta ~ / nltk_data / corpora.

Também digno de nota, o downloader tenta baixar panlex_swadesh todas as vezes (embora este seja um download muito mais curto do que panlex_lite). Percebi que panlex_swadesh.zip está na pasta corpora e tentar descompactá-lo manualmente resulta

Arthurs-MacBook- Pro: corpora aetilley $ unzip panlex_swadesh.zip
Arquivo: panlex_swadesh.zip
Assinatura de fim de diretório central não encontrada. Ou este arquivo não é
um arquivo zip ou constitui um disco de um arquivo de várias partes. No
último caso, o diretório central e o comentário do arquivo zip serão encontrados em
o (s) último (s) disco (s) deste arquivo.
descompactar: ​​não é possível encontrar o diretório zipfile em um dos panlex_swadesh.zip ou
panlex_swadesh.zip.zip, e não é possível encontrar panlex_swadesh.zip.ZIP, ponto final.

@aetilley - as somas de verificação são publicadas nesta página - pode precisar "visualizar o código-fonte".

Eles são deste arquivo: https://dev.panlex.org/db/panlex_lite-20170401.zip

Infelizmente não tenho largura de banda para baixá-lo.

Há duas coisas que você pode tentar. Talvez você já tenha feito o primeiro, caso em que o segundo pode valer a pena tentar.

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; descompacte panlex_lite-20170401.zip

@stevenbird

Receio que depois de executar ambos (ambos com sucesso), nltk.download ('all') ainda não pode ver panlex_lite.

Novamente, o principal problema aqui é que torna difícil o uso de tox.

Então, eu sou o único com esse problema?

nltk.download('all') a principal causa desses problemas? Nesse caso, acho que nltk / nltk_data # 69 seria algo a se considerar.

Caso contrário, a solução alternativa é algo como:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

Mais especificamente, aquele nltk.download ('all') pula corretamente todos os outros corpora que eu já tenho, mas por algum motivo tenta obter panlex_lite todas as vezes.

Além disso, o tox chama nltk.download ('all'), então é difícil testar localmente antes de fazer uma solicitação de pull.

Esperançosamente, nltk / nltk_data # 75 resolveria alguns dos problemas. E depois que isso for mesclado, os usuários devem ser capazes de fazer nltk.download('all-nltk') vez de nltk.download('all') se não quiserem esperar para baixar o arquivo panlex_lite .

@alvations

E como o tox vai chamar?

Mais uma vez, fico feliz em baixar um arquivo grande uma vez, mas o downloader não parece tão visível que eu já o tenho, então ele tenta baixá-lo todas as vezes.

E, novamente, se eu sou a única pessoa com esse problema, talvez não seja um problema, mas estou perplexo.

@aetilley : isso ainda está acontecendo? Acho que deve ser corrigido agora que retiramos o panlex-lite da coleção de corpus NLTK.

@stevenbird , @alvations

Sim, o tox parece estar funcionando para mim agora. Não entendi que você corrigiu isso.

Esta página foi útil?
0 / 5 - 0 avaliações

Questões relacionadas

mwess picture mwess  ·  5Comentários

stevenbird picture stevenbird  ·  3Comentários

stevenbird picture stevenbird  ·  4Comentários

alvations picture alvations  ·  4Comentários

vezeli picture vezeli  ·  3Comentários