Nltk: NLTKデヌタのダりンロヌドに倱敗したしたHTTP ERROR 405/403

䜜成日 2017幎07月26日  Â·  47コメント  Â·  ゜ヌス: nltk/nltk

>>> nltk.download("all")
[nltk_data] Error loading all: HTTP Error 405: Not allowed.

>>> nltk.version_info
sys.version_info(major=3, minor=5, micro=2, releaselevel='final', serial=0)

たた、 https//raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/cmudict.zipにアクセスしおみたした。 同じHTTP405゚ラヌが発生したした。

stackoverflowで同じ問題を芋぀けたす //stackoverflow.com/questions/45318066/getting-405-while-trying-to-download-nltk-dta

コメントをいただければ幞いです。

admin bug corpus inactive

最も参考になるコメント

@plaihonen python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punktようなこずをするこずで、この代替むンデックスを䜿甚できるはずです。

党おのコメント47件

Githubがリポゞトリ䞊の生のコンテンツぞのアクセスをダりン/ブロックしおいるようです。

䞀方、䞀時的な解決策は次のようなものです。

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

珟圚、 gh-pages.zipをダりンロヌドし、 nltk_dataディレクトリを眮き換えるこずが、珟時点で機胜する゜リュヌションです。

nltk_dataを配垃する別のチャネルを芋぀ける前に、䞊蚘の゜リュヌションを䜿甚しおください。


〜䞍思議なこずに、それはnltkナヌザヌアカりントにのみ圱響するようです。 フォヌクでは正垞に機胜したす https 

〜これを行うこずも機胜したす〜

@alvationsどうもありがずうございたした

このようなコマンドラむンダりンロヌドの代替手段はありたすか
python -m nltk.downloader -d ./nltk_data punkt

@plaihonen python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj punktようなこずをするこずで、この代替むンデックスを䜿甚できるはずです。

@rvauseは完党に機胜したす。 ありがずうございたした

+1。 これは今朝数時間の驚きでした。 今のずころnltkダりンロヌドを完党にバむパスしお行きたした

「ナヌザヌがファむルを芁求する垯域幅を非垞に倧量に消費しおいる」ため、GitHubは珟圚アクセスをブロックしおいたす。 圌らはたた、S3などのデヌタパッケヌゞを配垃する別の方法を怜蚎する必芁があるこずを瀺唆しおいたす。

代替むンデックスを䜿甚しおも、䞀郚のパッケヌゞがただ機胜しないこずに気付いた人はいたすか

具䜓的には、私にずっお、stopwordsパッケヌゞは405を提䟛したすが、他のパッケヌゞbrown、wordnet、punktなどは提䟛したせん。

はい、nltkストップワヌドもダりンロヌドできたせん。 > python -m nltk.downloader -u http://nltk.github.com/nltk_data/を実行するず、405゚ラヌが発生したす。

ねえ、私はpython -m nltk.downloader stopwordsを実行しようずしおいたすが、405゚ラヌが発生したす。 誰かが私を正しい方向に向けるこずができたすか

@ dfridman1 @ prakruthi-karuna䞊蚘の問題を読んでください。 回避策は次のずおりです。

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj all

ciシステムでこれを䜿甚するプロゞェクトがいく぀かありたす。 それらすべおを-uパラメヌタヌで曎新するのではなく、そのデヌタを指定する別の方法がありたす。 倚分環境倉数たたは蚭定ファむル

@alvationsフォヌクされたバヌゞョンも犁止されおいるため、゜リュヌションが機胜しなくなったようです。 これに぀いお珟圚githubサポヌトに連絡しおいる人はいたすか

>>> import nltk
>>> dler = nltk.downloader.Downloader('https://pastebin.com/raw/D3TBY4Mj')
>>> dler.download('punkt')
[nltk_data] Downloading package punkt to /home/zeryx/nltk_data...
[nltk_data] Error downloading u'punkt' from
[nltk_data]     <https://raw.githubusercontent.com/alvations/nltk_data
[nltk_data]     /gh-pages/packages/tokenizers/punkt.zip>:   HTTP Error
[nltk_data]     403: Forbidden.
False

連絡先ペヌゞからチケットを開いたずころです。

GitHubはこの問題を認識しおおり、取り組んでいるようです。 これが圌らが私に蚀ったこずです

ご迷惑おかけしお申し蚳ありたせん。 過床の䜿甚がGitHubサヌビスで問題を匕き起こしおいたため、nltk / nltk_dataリポゞトリずそのフォヌクのraw.githubusercontent.comURLぞのリク゚ストをブロックする必芁がありたした。 珟圚、問題の解決に取り組んでいたすが、残念ながら珟時点ではこれらのリク゚ストを蚱可するこずはできたせん。

ええ、私もこれを受け取りたした

こんにちはリリング、
私はGitHubのサポヌトチヌムで働いおいたすが、alvations / nltk_dataリポゞトリのraw.githubusercontent.comURLsから提䟛されるファむルぞのアクセスを䞀時的にブロックする必芁があるこずをお知らせしたす。 珟圚、ナヌザヌはそのリポゞトリからファむルを芁求する非垞に倧量の垯域幅を消費しおおり、珟時点での唯䞀のオプションはすべおの芁求をブロックするこずです。 問題を軜枛する方法に積極的に取り組んでおり、曎新がありたしたらフォロヌアップしたす。ご䞍明な点がございたしたら、お気軜にお問い合わせください。
也杯、ショヌナ

@zxiirohttps  //stackoverflow.com/questions/3522372/how-to-config-nltk-data-directory-from-codeを参照しおください

@ ewan -klein nltk.downloader.py手盎しが必芁になりたす。

いく぀かの提案

どうやら、デヌタ配信チャネルを倉曎する以倖に遞択肢はありたせん。

こんにちはリリング、
いく぀かの远加情報でこれをフォロヌアップしたかった。 この問題に぀いおは瀟内で話し合っおおり、圓面の間、nltk / nltk_dataフォヌクネットワヌク内のリポゞトリぞのrawアクセスを埩元しない可胜性が高いです。 問題は、非垞に高い頻床でnltk.downloadを呌び出しおいるマシンが倚数あるこずです。 そのアクティビティが停止するたで、rawアクセスを埩元するこずはできたせん。このメッセヌゞをnltkコミュニティず自由に共有しおください。 これを行っおいる人は誰でも問題に぀いお譊告を受け、これを行っおいるプロセスをすべお停止するこずを望んでいたす。
也杯、ゞェむミヌ

それらのIPを具䜓的にブロックするだけでよいず思うでしょう。 しかし、倚分それ以䞊のものがありたす。

nltk_dataをダりンロヌドするDockerむメヌゞはありたすが、頻繁に再構築しおいたせんでした。 私はそれらのトラフィックの倚いナヌザヌの䞀人ではなかったず思いたす...

githubに䟝存しないむンストヌルプロセスはありたすか

誰かがAWSでスクリプトを間違っお蚭定した可胜性がありたす。 @everyoneは、デヌタ配信の代替手段を芋぀ける間、むンスタンスの確認にご協力ください

こんにちはリリング、
特定の番号を共有するこずはできたせんが、リク゚ストは倚数のAWSむンスタンスから送信されおいたす。 スクリプトたたはビルドプロセスがうたくいかなかった可胜性がありたす。 それ以䞊のこずはよくわかりたせん。
也杯、ゞェむミヌ

それは安心です。私はAWSを䜿甚しおいたせん。

安心

コヌド的には、同じパッケヌゞがnltkdownloader.pyから曎新される頻床も倉曎する必芁があるかもしれたせん。 そうしないず、どの配垃チャネルに移行しおも、同じサヌビスの䞭断が発生したす。

たぶん、急流ベヌスの䜕かがうたくいくでしょうか

ラむセンスがどのようなものかはわかりたせんが、s3で公開するこずができたす https 

@alvationsは、/home/username/nltk_data/フォルダヌの䞋に移動する必芁がありたした。

export PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages $PATH_TO_NLTK_DATA
# add below code
mv $PATH_TO_NLTK_DATA/nltk_data-gh-pages/packages/* $PATH_TO_NLTK_DATA/

䞀時的な回避策はもうありたすか

@ darshanlol @ alvationsは解決策に぀いお蚀及したした。 Dockerを構築しようずしおいる堎合は、次のこずがうたくいきたした。

ENV PATH_TO_NLTK_DATA $HOME/nltk_data/
RUN apt-get -qq update
RUN apt-get -qq -y install wget
RUN wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
RUN apt-get -y install unzip
RUN unzip gh-pages.zip -d $PATH_TO_NLTK_DATA
# add below code
RUN mv $PATH_TO_NLTK_DATA/nltk_data-gh-pages/packages/* $PATH_TO_NLTK_DATA/

'nltk.downloader.py'のデフォルトのURLを倉曎しようずしたしたが、ただ問題がありたす。

提案された回避策は機胜しなくなりたした。

python -m nltk.downloader -u https://pastebin.com/raw/D3TBY4Mj all

珟圚、これが唯䞀の有効な゜リュヌションです。

PATH_TO_NLTK_DATA=/home/username/nltk_data/
wget https://github.com/nltk/nltk_data/archive/gh-pages.zip
unzip gh-pages.zip
mv nltk_data-gh-pages/ $PATH_TO_NLTK_DATA

@alvationsが蚀ったように、これが唯䞀の実甚的な解決策です。

PATH_TO_NLTK_DATA = / home / username / nltk_data /wget https://github.com/nltk/nltk_data/archive/gh-pages.zipgh-pages.zipを解凍したすmv nltk_data-gh-pages / $ PATH_TO_NLTK_DATA

しかし、すべおのペヌゞをダりンロヌドした埌でも、NLTKダりンロヌダヌがダりンロヌドされたすべおのパッケヌゞを怜出できなかったため、問題が発生しおいたした。コマンドを䜿甚しおダりンロヌドディレクトリの倀を手動で倉曎する必芁がある堎合がありたす。

このペヌゞには、NLTKデヌタパッケヌゞを構成するために䜿甚した適切なコマンドがありたす

䞊蚘のリンクをクリックしお回答しおください。

読んで代替案を芋぀けた埌、この問題を解決するためのいく぀かの提案がありたす。

コヌパスをパむプ可胜にする

  • たず、すべおのnltk_dataがパむプ可胜になるように倉曎したす。 したがっお、すべおの新しい環境では新しいpipのむンストヌルが必芁になり、物理ディレクトリに䟝存しなくなりたす
  • ダりンロヌドでバヌゞョンをフェッチしお远跡するには、ある皮のむンデックスも远跡する必芁がありたす。
  • 次に、コヌド、downloader.py、および関連するすべおのコヌパスリヌダヌむンタヌフェむスを䜕らかの方法でオヌバヌホヌルする必芁がありたす。

  • おそらくpip制限PyPI偎からは、高頻床のリク゚ストで䞍正なナヌザヌ/マシンを阻止するこずができたす

S3 / Zenodoたたはいく぀かのプラむベヌトホストでデヌタをホストする

これには、index.xml内のリンクを適切なリンクに再リンクするだけで枈みたす。 Webホストで個々のファむルを蚭定した埌。

しかし、むンストヌル/自動化スクリプトが間違っおいるためにトラフィックが高いたたである堎合、あるサヌビスプロバむダヌを別のサヌビスプロバむダヌに盗聎するこずになりたす。


他に䜕か提案はありたすか
これを匕き受けたい勇敢な魂はいたすか

@ harigovind511 、ええ、ダりンロヌドしたnltk_dataフォルダヌを、nltkが怜玢できる暙準的な堎所のいずれかに配眮するか、 nltk.data.pathに远加しお怜玢堎所を指定する必芁がありたす。 自動ダりンロヌダヌは、暙準の堎所を探すだけです。

䞍正なマシンのレヌト制限/解決は、これが再び醜い頭をもたげないようにするためにおそらく必芁です。 ピップの倧きなパッケヌゞに問題たたはタブヌがない限り、私の投祚はピップになりたすか

pipを䜿甚するず、手動のnltk.downloadおよびコヌド内のパッケヌゞ管理も解決されたす。

ファむルがバックアップされおいるように芋えたすか しかし、代替の配垃メカニズムを暡玢し続けるのは賢明なようです。 私自身の組織では、瀟内でのホスティングに移行し、四半期ごずにチェックむンする予定ですが

$ PATH_TO_NLTK_DATAの機胜を理解したいず思いたす。 NLTKがデヌタを取埗する堎所の代替ロヌカルダりンロヌドURLを構成しおいたすか

NLTKデヌタのロヌカルキャッシュを蚭定したいので、これを蚭定するずNLTKがオフラむンで動䜜するようになるかどうか疑問に思いたした。

問題の根本は垯域幅の乱甚であるため、回避策ずしおnltk_data 。 リ゜ヌスIDがURL @alvations にどのようにマップされるかを瀺しお、punktバンドルだけをwgetできるの

長期的な解決策は、初心者ナヌザヌがデヌタバンドル党䜓をフェッチするのを簡単にするこずだず思いたすチェックしたずころ、638MB圧瞮されおいたす。 無意味なダりンロヌドに浪費するためにより倚くの垯域幅を配眮するそしお支払う代わりに、ダりンロヌドオプションずしお"all"を提䟛するのをやめたす。 代わりに、ドキュメントには、䞍泚意なスクリプタヌが必芁ずする特定のリ゜ヌスをダりンロヌドする方法が瀺されおいる必芁がありたす。 それたでの間、stackoverflow私はあなたを芋おいたす、@ alvationsずダりンロヌダヌのdocstringで、サンプルたたは掚奚される䜿甚法ずしおnltk.download("all") たたは同等のものを曞く習慣から抜け出しおください。 nltkを探玢する堎合、 nltk.dowload("book")ではなく"all"同様に䟿利で、はるかに小さくなりたす。

珟圚、どのリ゜ヌスをダりンロヌドする必芁があるかを刀断するのは困難です。 nltkをむンストヌルしおnltk.pos_tag(["hello", "friend"])を詊しおみるず、゚ラヌメッセヌゞをnltk.download(<resource id>)枡すこずができるリ゜ヌスIDにマップする方法がありたせん。 このような堎合、すべおをダりンロヌドするこずは明らかな回避策です。 このような堎合にnltk.data.load()たたはnltk.data.find()にパッチを適甚しおリ゜ヌスIDを怜玢できるずしたら、 nltk_data䜿甚量は長期的に倧幅に枛少するず思いたす。

@zxiiro $PATH_TO_NLTK_DATAはnltkにずっお意味がなく、サンプルスクリプトの単なる倉数です。 環境倉数$NLTK_DATAは特別な意味がありたす。 http://www.nltk.org/data.htmlを参照しお

@alexisdimiはnltk.download('all')同意したした。 申し蚳ありたせんが、それは私の初期の頃からのずおも叀い答えでした。 私はそれに反察するべきです。 代わりに、SOの回答をnltk.download('popular')に倉曎したした https 

パッケヌゞに盎接wgetを䜿甚する堎合の問題の1぀は、それがただgithubの生のコンテンツに䟝存しおいるこずです。 ダりンタむム䞭、 https//github.com/nltk/nltk_data/blob/gh-pages/packages/tokenizers/punkt.zipリンクも403/405゚ラヌを匕き起こしおいたした。

したがっお、回避策はgitツリヌ党䜓をダりンロヌドするこずでした。 振り返っおみるず、それは良い考えではないかもしれたせん。

ロックアりトが解陀されたようです、それは玠晎らしいこずです 今、私は将来同様の問題を防ぐために働くいく぀かのチケットがあるこずを願っおいたす倚分私が提案した線に沿っおいるかもしれたせんが、そうではないかもしれたせん。

ちなみに、ダりンロヌドが再び機胜するようになったので、この問題を「クロヌズ」ずマヌクする必芁がありたすか

@alexisdimiは、ナヌザヌに適切なモデルをダりンロヌドするように提案する譊告を衚瀺するこずをお勧めしたす。

CI環境でNLTKを実行しおいる堎合。 ダりンロヌド甚の代替URLを指定できるGH-1795を提案したいず思いたす。 ここでの考え方は、Webサヌバヌたたはpython -m http.serverにnltk_dataのロヌカルコピヌをセットアップし、ダりンロヌドURLをオヌバヌラむドできるグロヌバル倉数を持぀こずができるずいうものです。

これは、プロゞェクトのロヌカルコマンド呌び出しを倉曎せずにオヌバヌラむドしお、JenkinsなどのCIシステムからの-uを含めるこずができるようにするためです。

リリヌスずpipむンストヌルを䜿甚したpipデヌタ配垃に関するGithubぞの質問

ゞェむミヌ、サポヌトしおくれおありがずう

nltk_dataをホストするための代替手段を探しおいたす。その1぀は、SpaCyが行う方法ず同じようにリポゞトリリリヌスずしおホストするこずですhttps://github.com/explosion/spacy-models/releases

リポゞトリリリヌスに察しお同様の高頻床のリク゚ストが行われた堎合に同じブロックが実行されるかどうかを確認できたすか たたは、リポゞトリのリリヌスはGithubの生のコンテンツずは異なる方法で凊理されたすか

よろしく、
ラむリング

Github偎のいく぀かの曎新

こんにちはリリング、

リリヌスを䜿甚するず、リク゚ストがむンフラストラクチャの別の郚分に移動するだけです。 そのボリュヌムの垯域幅が再び起動した堎合、リリヌスに察するものであっおも、それらの芁求をブロックする必芁がありたす。

デヌタパッケヌゞをGitHubに残す方法をいく぀か考えようずしたしたが、正盎なずころ、良い解決策はありたせん。 倧量のCDNになるように蚭定されおいないだけです。

也杯、
ゞェむミヌ

@owaaa / @zxiiroCIの内郚ホスティングで+1。 珟圚これを行っおいたす。EC2/ S3ナヌザヌにずっおの利点は、マシンを構築する堎所の近くにデヌタたたは必芁なデヌタのサブセットを配眮できるこずです。 アベむラビリティヌゟヌンにたたがっおいる堎合は、必芁な堎所にバケットを耇補するだけで、AWSの倖郚で起こっおいるこずにさらに堅牢になりたす。

@alvations私はspaCyの_data / model as package_アむデアがずおも奜きですが、結果の1぀は、 virtualenvを䜿甚するず、パッケヌゞがそこにあるずきに環境ディレクトリのサむズが膚らむ可胜性があるこずです。 もちろん、これにより、完党に分離された監査可胜なデヌタ/モデルバヌゞョンが賌入されたす。これは、spaCyのようにモデルが頻繁に曎新されるプロゞェクトにずっおは䟡倀がありたすが、無料のランチではありたせん😕

このペヌゞは圹に立ちたしたか
0 / 5 - 0 評䟡

関連する問題

Chris00 picture Chris00  Â·  3コメント

goodmami picture goodmami  Â·  4コメント

stevenbird picture stevenbird  Â·  3コメント

DavidNemeskey picture DavidNemeskey  Â·  4コメント

alvations picture alvations  Â·  4コメント