Consigo baixar todos os pacotes exceto o panlex_lite. Como faço o download?
Experimente no python:
>>> import nltk
>>> nltk.download('panlex_lite')
Ou na linha de comando:
$ python -m nltk.downloader panlex_lite
Nota: pode demorar algum tempo para fazer o download dos dados.
Observe que você precisa instalar a versão de desenvolvimento do NLTK para fazer isso.
use este url [http://dev.panlex.org/db/panlex_lite.zip] para baixá-lo manualmente.
Aguarde o NLTK v3.2 e consulte a ampla discussão em https://github.com/nltk/nltk/issues/1283
Olá, uma vez que o panlex_lite é baixado manualmente, onde devo colocá-lo em nltk_data?
Obrigado
Consulte http://www.nltk.org/data.html
corpora
, meu caminho completo é /usr/local/share/nltk_data/corpora
------------------ Original ------------------
De: "matador de corrida" notificaçõ[email protected];
Data: sábado, 21 de maio de 2016 às 20h53
Para: "nltk / nltk" [email protected];
Cc: "肖宗阳" [email protected]; "Comentário" [email protected];
Assunto: Re: [nltk / nltk] como baixar o pacote corpus panlex_lite em nltk inpython (# 1253)
Olá, uma vez que o panlex_lite é baixado manualmente, onde devo colocá-lo em nltk_data?
Obrigado
-
Você está recebendo isso porque comentou.
Responda a este e-mail diretamente ou visualize-o no GitHub
Oi,
Alguém tem ideia de por que está baixando tão lento? No meu final está mostrando 20 horas. O resto dos pacotes foram baixados.
@deepp Eu
link: https://pan.baidu.com/s/1kVavU7d senha: 7b5n
@XiaoZYang Obrigado pela resposta Eu baixei o arquivo manualmente de seu link de resposta anterior. Muito obrigado
prazer @deepp . fique feliz em te ajudar
Você pode baixar o panlex_lite.zip em https://dev.panlex.org/db/ e colocá-lo em "/ nltk_data / corpora /"
Durante o download do Panlex com o nltk downloader, todo o meu sistema travou - até mesmo a luz indicadora de caps lock no meu teclado não estava mais funcionando. Reiniciei meu computador, tentei novamente e aconteceu a mesma coisa.
Existe um arquivo de registro em algum lugar para fornecer mais informações sobre isso?
Para sua informação: Estou executando idle3 / nltk3 / python 3.5.2 no KDE Neon em uma máquina AMD64.
Vou apenas baixar o arquivo zip manualmente.
o que fazer depois de baixar o zip do panlex_lite para que os pacotes restantes sejam baixados quando nltk.download ('all') for fornecido? para que ele ignore o download do panlex_lite? Eu descompactei a pasta zip, mas ainda quando tento baixar os pacotes restantes, ele mostra o download do panlex_lite ... ajuda por favor.
@eupherntech mesmo problema.
Eu também estou enfrentando o mesmo problema.
BTW, baixei os dados do panlex_lite manualmente.
@eupherntech @stevealbertwong Você pode usar nltk.download('all', halt_on_error=False)
, de modo que, após falhar ao baixar o pacote, será perguntado se deseja tentar baixá-lo novamente. Pressione n
e o resto dos pacotes deve ser baixado.
O mesmo problema aqui, mesmo manualmente, leva até 8 horas. Faça algo sobre isso, por favor!
Com base no arquivo mencionado acima, parece que é um arquivo de 2,2 GB. Portanto, você só precisa esperar e esperar!
Uma coisa que você pode fazer enquanto isso para obter mais informações é olhar o tamanho do arquivo e a hora da última modificação do arquivo panlex_lite.zip em nltk_data / corpora / assim:
$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r-- 1 username 1607558449 2.1G Mar 4 10:51 panlex_lite.zip
Estou tendo o mesmo problema. Eu baixei o panlex_lite com sucesso (de http://dev.panlex.org/db/panlex_lite.zip) e localizado no diretório correto, mas quando nltk.download () é chamado, ele tenta baixá-lo novamente. Existe algum outro arquivo que precisa ser atualizado para mostrar que o corpus está em vigor?
Observação: eu tentaria a sugestão de @cimarie , mas o problema é que estou tentando usar o tox para testar um branch antes de enviar uma solicitação de pull e o tox chama nltk.download internamente, então não acho que tenha a capacidade de incluir essas opções.
Eu atualizei as somas de verificação, então tente novamente
@stevenbird Quais somas de verificação?
De qualquer forma, não parece ter funcionado. nltk.download ('all') ainda tenta baixar o panlex light, embora eu tenha colocado o arquivo anexado ao link acima na minha pasta ~ / nltk_data / corpora.
Também digno de nota, o downloader tenta baixar panlex_swadesh todas as vezes (embora este seja um download muito mais curto do que panlex_lite). Percebi que panlex_swadesh.zip está na pasta corpora e tentar descompactá-lo manualmente resulta
Arthurs-MacBook- Pro: corpora aetilley $ unzip panlex_swadesh.zip
Arquivo: panlex_swadesh.zip
Assinatura de fim de diretório central não encontrada. Ou este arquivo não é
um arquivo zip ou constitui um disco de um arquivo de várias partes. No
último caso, o diretório central e o comentário do arquivo zip serão encontrados em
o (s) último (s) disco (s) deste arquivo.
descompactar: não é possível encontrar o diretório zipfile em um dos panlex_swadesh.zip ou
panlex_swadesh.zip.zip, e não é possível encontrar panlex_swadesh.zip.ZIP, ponto final.
@aetilley - as somas de verificação são publicadas nesta página - pode precisar "visualizar o código-fonte".
Eles são deste arquivo: https://dev.panlex.org/db/panlex_lite-20170401.zip
Infelizmente não tenho largura de banda para baixá-lo.
Há duas coisas que você pode tentar. Talvez você já tenha feito o primeiro, caso em que o segundo pode valer a pena tentar.
@stevenbird
Receio que depois de executar ambos (ambos com sucesso), nltk.download ('all') ainda não pode ver panlex_lite.
Novamente, o principal problema aqui é que torna difícil o uso de tox.
Então, eu sou o único com esse problema?
nltk.download('all')
a principal causa desses problemas? Nesse caso, acho que nltk / nltk_data # 69 seria algo a se considerar.
Caso contrário, a solução alternativa é algo como:
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')
@alvations
Mais especificamente, aquele nltk.download ('all') pula corretamente todos os outros corpora que eu já tenho, mas por algum motivo tenta obter panlex_lite todas as vezes.
Além disso, o tox chama nltk.download ('all'), então é difícil testar localmente antes de fazer uma solicitação de pull.
Esperançosamente, nltk / nltk_data # 75 resolveria alguns dos problemas. E depois que isso for mesclado, os usuários devem ser capazes de fazer nltk.download('all-nltk')
vez de nltk.download('all')
se não quiserem esperar para baixar o arquivo panlex_lite
.
@alvations
E como o tox vai chamar?
Mais uma vez, fico feliz em baixar um arquivo grande uma vez, mas o downloader não parece tão visível que eu já o tenho, então ele tenta baixá-lo todas as vezes.
E, novamente, se eu sou a única pessoa com esse problema, talvez não seja um problema, mas estou perplexo.
@aetilley : isso ainda está acontecendo? Acho que deve ser corrigido agora que retiramos o panlex-lite da coleção de corpus NLTK.
@stevenbird , @alvations
Sim, o tox parece estar funcionando para mim agora. Não entendi que você corrigiu isso.
Comentários muito úteis
use este url [http://dev.panlex.org/db/panlex_lite.zip] para baixá-lo manualmente.