Nltk: 如何在python中的nltk中下载语料库panlex_lite包

创建于 2016-01-17  ·  30评论  ·  资料来源: nltk/nltk

我可以下载除 panlex_lite 之外的所有软件包如何下载?

最有用的评论

使用此网址 [http://dev.panlex.org/db/panlex_lite.zip] 手动下载。

所有30条评论

在 python 中尝试:

>>> import nltk
>>> nltk.download('panlex_lite')

或者在命令行上:

$ python -m nltk.downloader panlex_lite

注意:下载数据可能需要一些时间。

请注意,您需要安装NLTK

使用此网址 [http://dev.panlex.org/db/panlex_lite.zip] 手动下载。

等待 NLTK v3.2,请参阅https://github.com/nltk/nltk/issues/1283 上的广泛讨论

嗨,一旦 panlex_lite 被手动下载,我应该把它放在 nltk_data 中的什么位置?
谢谢

corpora ,我的完整路径是/usr/local/share/nltk_data/corpora

- - - - - - - - - 原来的 - - - - - - - - -
来自:“racekiller”通知@ github.com
日期:2016 年 5 月 21 日星期六 08:53
致:“nltk/nltk” [email protected]
抄送:“肖宗阳” [email protected] “评论” [email protected]
主题: Re: [nltk/nltk] 如何在nltk inpython中下载corpus panlex_lite包(#1253)

嗨,一旦 panlex_lite 被手动下载,我应该把它放在 nltk_data 中的什么位置?
谢谢


您收到此消息是因为您发表了评论。
直接回复此邮件或在 GitHub 上查看

你好,
有谁知道为什么下载这么慢? 在我结束时,它显示了 20 个小时。 其余软件包已下载。

@deepp我将此 zip 文件上传到百度云。 以下是链接和密码
链接: https ://pan.baidu.com/s/1kVavU7d 密码:7b5n

@XiaoZYang感谢您的回复,我从您之前的回复链接手动下载了文件。 万分感谢

@deepp快乐。 很高兴帮助你

您可以从https://dev.panlex.org/db/下载 panlex_lite.zip,并将其放入“/nltk_data/corpora/”

使用 nltk 下载器下载 panlex 时,我的整个系统都死机了 - 甚至键盘上的大写锁定指示灯也不再工作了。 我重新启动了我的电脑,再试一次,同样的事情发生了。
是否有任何地方的日志文件可以为您提供有关此的更多信息?
仅供参考:我在 AMD64 机器上的 KDE Neon 上运行 idle3/nltk3/python 3.5.2。

我只会手动下载 zip 文件。

下载panlex_lite的zip后怎么做,以便在给出nltk.download('all')时下载其余包? 以便它跳过 panlex_lite 下载? 我解压了 zip 文件夹,但是当我尝试下载 rest 包时,它仍然显示正在下载 panlex_lite ......请帮助。

@eupherntech同样的问题。

我也面临同样的问题。

顺便说一句,手动下载了 panlex_lite 数据。

@eupherntech @stevealbertwong您可以使用nltk.download('all', halt_on_error=False) ,这样在下载包失败后,系统会询问您是否要重试下载。 按n下载其余的软件包。

同样的问题在这里,即使手动也需要长达 8 小时。 请做点什么吧!

根据上面提到的文件,它看起来像是一个 2.2 GB 的文件。 所以你可能只需要坚持等待!

在此期间,您可以做的一件事是查看 nltk_data/corpora/ 中 panlex_lite.zip 文件的文件大小和上次修改时间,以获取更多信息,如下所示:

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

我有同样的问题。 我已经成功下载了 panlex_lite(来自 http://dev.panlex.org/db/panlex_lite.zip)并位于正确的目录中,但是当 nltk.download() 被调用时,它会尝试再次下载它。 是否有其他文件需要更新以显示语料库已就位?

请注意:我会尝试@cimarie的建议,但问题是我在提交拉取请求之前尝试使用 tox 来测试分支,并且 tox 在内部调用 nltk.download,所以我认为我没有包含这些选项的能力。

我已更新校验和,请重试

@stevenbird哪个校验和?

无论如何,它似乎没有奏效。 nltk.download('all') 仍然尝试下载 panlex light,即使我已将附加到上述链接的文件放在我的 ~/nltk_data/corpora 文件夹中。

另外值得注意的是,下载器每次都尝试下载 panlex_swadesh(尽管这比 panlex_lite 下载时间短得多)。 我注意到 panlex_swadesh.zip 在语料库文件夹中,并尝试手动解压缩它

Arthurs-MacBook- Pro:corpora aetilley$ 解压 panlex_swadesh.zip
存档:panlex_swadesh.zip
未找到中央目录结尾签名。 要么这个文件不是
一个 zip 文件,或者它构成一个多部分存档的磁盘。 在里面
后一种情况,中央目录和 zipfile 注释将在
此存档的最后一个磁盘。
解压缩:在 panlex_swadesh.zip 或其中之一中找不到 zipfile 目录
panlex_swadesh.zip.zip,并且找不到 panlex_swadesh.zip.ZIP,句号。

@aetilley – 校验和发布在此页面上– 可能需要“查看源代码”。

它们来自这个文件: https :

不幸的是,我没有足够的带宽来下载它。

您可以尝试两件事。 也许你已经做了第一个,在这种情况下第二个可能值得一试。

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; 解压 panlex_lite-20170401.zip

@史蒂文鸟

恐怕这两个(都成功)运行后,nltk.download('all') 仍然看不到panlex_lite。

同样,这里的主要问题是它很难使用 tox。

那么我是唯一一个遇到这个问题的人吗?

nltk.download('all')是这些问题的主要原因吗? 如果是这样,那么我认为 nltk/nltk_data#69 将是值得考虑的事情。

否则,解决方法类似于:

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

更具体地说, nltk.download('all') 正确地跳过了我已经拥有的所有其他语料库,但出于某种原因,每次都尝试获取 panlex_lite。

此外,tox 调用 nltk.download('all'),因此在发出拉取请求之前很难在本地进行测试。

希望 nltk/nltk_data#75 可以解决一些问题。 在合并之后,如果用户不想等待下载大的panlex_lite文件,他们应该能够执行nltk.download('all-nltk')而不是nltk.download('all')

@alvations

什么会叫毒药?

同样,我很高兴下载一次大文件但下载器似乎没有看到我已经拥有它,因此它每次都尝试下载它。

再说一次,如果我是唯一遇到这个问题的人,那么也许这不是问题,但我很困惑。

@aetilley :这还在发生吗? 我认为现在我们已经从 NLTK 语料库集合中删除了 panlex-lite,它应该得到修复。

@stevenbird , @alvations

是的,tox 现在似乎对我有用。 抱歉,我没发现你已经解决了这个问题。

此页面是否有帮助?
0 / 5 - 0 等级