Nltk: Pythonのnltkでコーパスpanlex_liteパッケージをダウンロードする方法

作成日 2016年01月17日  ·  30コメント  ·  ソース: nltk/nltk

panlex_liteを除くすべてのパッケージをダウンロードできますか?

最も参考になるコメント

このURL [http://dev.panlex.org/db/panlex_lite.zip]を使用して、手動でダウンロードしてください。

全てのコメント30件

Python内で試してください:

>>> import nltk
>>> nltk.download('panlex_lite')

またはコマンドラインで:

$ python -m nltk.downloader panlex_lite

注:データのダウンロードには時間がかかる場合があります。

これを行うには、NLTK

このURL [http://dev.panlex.org/db/panlex_lite.zip]を使用して、手動でダウンロードしてください。

NLTK v3.2を待ち、 https://github.com/nltk/nltk/issues/1283で詳細なディスカッションを参照して

こんにちはpanlex_liteを手動でダウンロードしたら、nltk_data内のどこに配置すればよいですか?
ありがとう

corpora 、私の完全なパスは/usr/local/share/nltk_data/corpora

- - - - - - - - - オリジナル - - - - - - - - -
差出人:「racekiller」 [email protected];
日付:2016年5月21日土曜日午後8時53分
宛先: "nltk / nltk" [email protected];
Cc: "表宗阳" [email protected]; 「コメント」 [email protected];
件名:Re:[nltk / nltk] nltk inpythonでコーパスpanlex_liteパッケージをダウンロードする方法(#1253)

こんにちはpanlex_liteを手動でダウンロードしたら、nltk_data内のどこに配置すればよいですか?
ありがとう


あなたがコメントしたのであなたはこれを受け取っています。
このメールに直接返信するか、GitHubで表示してください

やあ、
ダウンロードがとても遅い理由を誰かが知っていますか? 私の終わりにそれは20時間を示しています。 残りのパッケージはダウンロードされています。

@deeppこのzipファイルをbaiduクラウドにアップロードします。 以下はリンクとパスワードです
リンク: https ://pan.baidu.com/s/1kVavU7dパスワード:7b5n

@XiaoZYang回答ありがとうございます以前の回答リンクから手動でファイルをダウンロードしました。 トンありがとう

@deepp喜び。 あなたを助けて喜んで

panlex_lite.zipはhttps://dev.panlex.org/db/からダウンロードして、「/ nltk_data / corpora /」に入れることができます。

nltkダウンローダーを使用してpanlexをダウンロードしているときに、システム全体がフリーズしました。キーボードのCapsLockインジケーターライトでさえ機能しなくなりました。 コンピューターを再起動して再試行したところ、同じことが起こりました。
これに関する詳細情報を提供するログファイルはどこかにありますか?
参考:AMD64マシンのKDENeonでidle3 / nltk3 / python3.5.2を実行しています。

zipファイルを手動でダウンロードします。

nltk.download( 'all')が指定されたときに残りのパッケージがダウンロードされるように、panlex_liteのzipをダウンロードした後にどうすればよいですか? panlex_liteのダウンロードをスキップするように? zipフォルダーを解凍しましたが、RESTパッケージをダウンロードしようとすると、panlex_liteのダウンロードが表示されます...助けてください。

@eupherntech同じ問題。

私も同じ問題に直面しています。

ところで、panlex_liteデータを手動でダウンロードしました。

@eupherntech @stevealbertwong nltk.download('all', halt_on_error=False)を使用すると、パッケージのダウンロードに失敗した後、ダウンロードを再試行するかどうかを尋ねられます。 nを押すと、残りのパッケージがダウンロードされます。

ここでも同じ問題がありますが、手動でも最大8時間かかります。 それについて何かしてください!

上記のファイルに基づくと、2.2GBのファイルのようです。 だからあなたはただしっかりとぶら下がって待つ必要があるかもしれません!

それまでの間、さらに情報を取得するためにできることの1つは、nltk_data / corpora /にあるpanlex_lite.zipファイルのファイルサイズと最終変更時刻を次のように確認することです。

$ ls -lh nltk_data/corpora/ | grep panlex_lite
-rw-r--r--     1 username  1607558449   2.1G Mar  4 10:51 panlex_lite.zip

私は同じ問題を抱えています。 panlex_liteが正常にダウンロードされ(http://dev.panlex.org/db/panlex_lite.zipから)、正しいディレクトリにありますが、nltk.download()が呼び出されると、再度ダウンロードしようとします。 コーパスが配置されていることを示すために更新する必要のある他のファイルはありますか?

注: @cimarieの提案を試してみ

チェックサムを更新しましたので、もう一度お試しください

@stevenbirdどのチェックサム?

とにかく、それはうまくいったようには見えません。 nltk.download( 'all')は、上記のリンクに添付されたファイルを〜/ nltk_data / corporaフォルダーに置いたにもかかわらず、引き続きpanlexlightをダウンロードしようとします。

また、ダウンローダーは毎回panlex_swadeshをダウンロードしようとします(ただし、これはpanlex_liteよりもはるかに短いダウンロードです)。 panlex_swadesh.zipがコーパスフォルダーにあることに気づきました。手動で解凍しようとすると、

Arthurs-MacBook- Pro:corpora aetilley $ unzip panlex_swadesh.zip
アーカイブ:panlex_swadesh.zip
中央ディレクトリの終わりの署名が見つかりません。 このファイルはそうではありません
zipファイル、またはマルチパートアーカイブの1つのディスクを構成します。 の中に
後者の場合、中央ディレクトリとzipfileコメントはにあります
このアーカイブの最後のディスク。
unzip:panlex_swadesh.zipまたはのいずれかでzipfileディレクトリが見つかりません
panlex_swadesh.zip.zipであり、panlex_swadesh.zip.ZIP、期間が見つかりません。

@aetilley –チェックサムはこのページで公開されます

それらはこのファイルからのものです: https

残念ながら、ダウンロードするための帯域幅がありません。

あなたが試みるかもしれない2つのことがあります。 たぶん、あなたはすでに最初のことをしただけで、その場合、2番目は一撃の価値があるかもしれません。

  1. sudo python -m nltk.downloader panlex_lite
  2. cd PATH_TO_NLTK_DATA; wget https://dev.panlex.org/db/panlex_lite-20170401.zip; panlex_lite-20170401.zipを解凍します

@stevenbird

これらの両方を(両方とも正常に)実行した後でも、nltk.download( 'all')はpanlex_liteを表示できません。

繰り返しますが、ここでの主な問題は、toxの使用が困難になることです。

それで、この問題を抱えているのは私だけですか?

nltk.download('all')がこれらの問題の主な原因ですか? もしそうなら、私はnltk / nltk_data#69が考慮すべきものになると思います。

それ以外の場合、回避策は次のようになります。

>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('all')

@alvations

より具体的には、そのnltk.download( 'all')は、私がすでに持っている他のすべてのコーパスを正しくスキップしますが、何らかの理由で毎回panlex_liteを取得しようとします。

また、そのtoxはnltk.download( 'all')を呼び出すため、プルリクエストを行う前にローカルでテストすることは困難です。

うまくいけば、nltk / nltk_data#75がいくつかの問題を解決するでしょう。 そして、それがマージされた後、ユーザーは大きなpanlex_liteファイルのダウンロードを待ちたくない場合、 nltk.download('all')代わりにnltk.download('all-nltk')を実行できるはずです。

@alvations

そして、toxは何を呼びますか?

繰り返しになりますが、大きなファイルを一度ダウンロードできてうれしいですが、ダウンローダーは私がすでに持っていることを確認していないようで、毎回ダウンロードしようとします。

繰り返しになりますが、この問題を抱えているのが私だけの場合は、問題ではないかもしれませんが、困惑しています。

@aetilley :これはまだ起こっていますか? NLTKコーパスコレクションからpanlex-liteを削除したので、修正する必要があると思います。

@ stevenbird@ alvations

はい、toxは今私のために働いているようです。 申し訳ありませんが、あなたがそれを修正したことを知りませんでした。

このページは役に立ちましたか?
0 / 5 - 0 評価