我可以下载除 panlex_lite 之外的所有软件包如何下载?
在 python 中尝试:
>>> import nltk
>>> nltk.download('panlex_lite')
或者在命令行上:
$ python -m nltk.downloader panlex_lite
注意:下载数据可能需要一些时间。
请注意,您需要安装NLTK的
使用此网址 [http://dev.panlex.org/db/panlex_lite.zip] 手动下载。
等待 NLTK v3.2,请参阅https://github.com/nltk/nltk/issues/1283 上的广泛讨论
嗨,一旦 panlex_lite 被手动下载,我应该把它放在 nltk_data 中的什么位置?
谢谢
corpora
,我的完整路径是/usr/local/share/nltk_data/corpora
- - - - - - - - - 原来的 - - - - - - - - -
来自:“racekiller”通知@ github.com
日期:2016 年 5 月 21 日星期六 08:53
致:“nltk/nltk” [email protected];
抄送:“肖宗阳” [email protected]; “评论” [email protected];
主题: Re: [nltk/nltk] 如何在nltk inpython中下载corpus panlex_lite包(#1253)
嗨,一旦 panlex_lite 被手动下载,我应该把它放在 nltk_data 中的什么位置?
谢谢
—
您收到此消息是因为您发表了评论。
直接回复此邮件或在 GitHub 上查看
你好,
有谁知道为什么下载这么慢? 在我结束时,它显示了 20 个小时。 其余软件包已下载。
@deepp我将此 zip 文件上传到百度云。 以下是链接和密码
链接: https ://pan.baidu.com/s/1kVavU7d 密码:7b5n
@XiaoZYang感谢您的回复,我从您之前的回复链接手动下载了文件。 万分感谢
@deepp快乐。 很高兴帮助你
您可以从https://dev.panlex.org/db/下载 panlex_lite.zip,并将其放入“/nltk_data/corpora/”
使用 nltk 下载器下载 panlex 时,我的整个系统都死机了 - 甚至键盘上的大写锁定指示灯也不再工作了。 我重新启动了我的电脑,再试一次,同样的事情发生了。
是否有任何地方的日志文件可以为您提供有关此的更多信息?
仅供参考:我在 AMD64 机器上的 KDE Neon 上运行 idle3/nltk3/python 3.5.2。
我只会手动下载 zip 文件。
下载panlex_lite的zip后怎么做,以便在给出nltk.download('all')时下载其余包? 以便它跳过 panlex_lite 下载? 我解压了 zip 文件夹,但是当我尝试下载 rest 包时,它仍然显示正在下载 panlex_lite ......请帮助。
@eupherntech同样的问题。
我也面临同样的问题。
顺便说一句,手动下载了 panlex_lite 数据。
@eupherntech @stevealbertwong您可以使用nltk.download('all', halt_on_error=False)
,这样在下载包失败后,系统会询问您是否要重试下载。 按n
下载其余的软件包。
同样的问题在这里,即使手动也需要长达 8 小时。 请做点什么吧!
根据上面提到的文件,它看起来像是一个 2.2 GB 的文件。 所以你可能只需要坚持等待!
在此期间,您可以做的一件事是查看 nltk_data/corpora/ 中 panlex_lite.zip 文件的文件大小和上次修改时间,以获取更多信息,如下所示:
$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r-- 1 username 1607558449 2.1G Mar 4 10:51 panlex_lite.zip
我有同样的问题。 我已经成功下载了 panlex_lite(来自 http://dev.panlex.org/db/panlex_lite.zip)并位于正确的目录中,但是当 nltk.download() 被调用时,它会尝试再次下载它。 是否有其他文件需要更新以显示语料库已就位?
请注意:我会尝试@cimarie的建议,但问题是我在提交拉取请求之前尝试使用 tox 来测试分支,并且 tox 在内部调用 nltk.download,所以我认为我没有包含这些选项的能力。
我已更新校验和,请重试
@stevenbird哪个校验和?
无论如何,它似乎没有奏效。 nltk.download('all') 仍然尝试下载 panlex light,即使我已将附加到上述链接的文件放在我的 ~/nltk_data/corpora 文件夹中。
另外值得注意的是,下载器每次都尝试下载 panlex_swadesh(尽管这比 panlex_lite 下载时间短得多)。 我注意到 panlex_swadesh.zip 在语料库文件夹中,并尝试手动解压缩它
Arthurs-MacBook- Pro:corpora aetilley$ 解压 panlex_swadesh.zip
存档:panlex_swadesh.zip
未找到中央目录结尾签名。 要么这个文件不是
一个 zip 文件,或者它构成一个多部分存档的磁盘。 在里面
后一种情况,中央目录和 zipfile 注释将在
此存档的最后一个磁盘。
解压缩:在 panlex_swadesh.zip 或其中之一中找不到 zipfile 目录
panlex_swadesh.zip.zip,并且找不到 panlex_swadesh.zip.ZIP,句号。
@aetilley – 校验和发布在此页面上– 可能需要“查看源代码”。
它们来自这个文件: https :
不幸的是,我没有足够的带宽来下载它。
您可以尝试两件事。 也许你已经做了第一个,在这种情况下第二个可能值得一试。
@史蒂文鸟
恐怕这两个(都成功)运行后,nltk.download('all') 仍然看不到panlex_lite。
同样,这里的主要问题是它很难使用 tox。
那么我是唯一一个遇到这个问题的人吗?
nltk.download('all')
是这些问题的主要原因吗? 如果是这样,那么我认为 nltk/nltk_data#69 将是值得考虑的事情。
否则,解决方法类似于:
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')
@alvations
更具体地说, nltk.download('all') 正确地跳过了我已经拥有的所有其他语料库,但出于某种原因,每次都尝试获取 panlex_lite。
此外,tox 调用 nltk.download('all'),因此在发出拉取请求之前很难在本地进行测试。
希望 nltk/nltk_data#75 可以解决一些问题。 在合并之后,如果用户不想等待下载大的panlex_lite
文件,他们应该能够执行nltk.download('all-nltk')
而不是nltk.download('all')
。
@alvations
什么会叫毒药?
同样,我很高兴下载一次大文件,但下载器似乎没有看到我已经拥有它,因此它每次都尝试下载它。
再说一次,如果我是唯一遇到这个问题的人,那么也许这不是问题,但我很困惑。
@aetilley :这还在发生吗? 我认为现在我们已经从 NLTK 语料库集合中删除了 panlex-lite,它应该得到修复。
@stevenbird , @alvations
是的,tox 现在似乎对我有用。 抱歉,我没发现你已经解决了这个问题。
最有用的评论
使用此网址 [http://dev.panlex.org/db/panlex_lite.zip] 手动下载。