Zenodo: ファイル検索での「HTTP / 1.1バイト範囲リクエスト」のサポート

作成日 2018年09月09日  ·  10コメント  ·  ソース: zenodo/zenodo

zenodoに1つの機能リクエストがあります-zenodoサーバーはHTTP / 1.1バイト範囲リクエストをサポートできます

Zenodoプラットフォームはすでに素晴らしいものであり、一部のアプリケーションは特に大きなファイルを処理するときにバイト範囲要求に依存しているため、バイト範囲要求をサポートすると、デポジットされたデータの価値がさらに高まります。

私の主張を明確にするために、バイト範囲要求がどのように機能するかの例を追加したいと思います。 たとえば、github(raw.githubusercontent.com)は、次のようにバイト範囲リクエストをサポートしています。

###
### The entire part of the README file is retrieved, and processed locally
###
$ curl  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst |head -5 | tail -1
    Zenodo is free software; you can redistribute it

###
### Only the specified bytes specified in the file is retrieved, which does not require local processing
###
$ curl -H "range: bytes=72-125"  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst 
    Zenodo is free software; you can redistribute it

ただし、zenodo.orgではバイト範囲リクエストは無視されます

###
### the entire part of the file is retrieved
###
$ curl   https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab. 

###
### Only small bytes are requested, but the entire part is retrieved
###
$ curl -H "range: bytes=6-7"  https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab.
Enhancement Needs investigation Accepted

最も参考になるコメント

範囲要求を有効にすると地理空間データ形式に非常に役立つことを示すために、:+ 1:を追加したかっただけです。 特にクラウドに最適化されたGeoTIFFは、

全てのコメント10件

これを2番目にします。 たとえば、ゲノミクスデータセットにtabixで直接アクセスすることは非常に便利です。 zenodoWebサーバー設定「max_ranges」の構成を正の数に変更する必要があるようです。

それをしない技術的な理由はありますか?

現在、ファイルストレージバックエンドはHTTP範囲リクエストを処理するように最適化されていません(つまり、この機能を有効にすると、ファイルのアップロード/ダウンロードAPIの速度が大幅に低下する可能性があります)。 もちろん、それを可能にするために取り組んでいる人々がいますが、正確なETAを与えることはできません...

範囲要求を有効にすると地理空間データ形式に非常に役立つことを示すために、:+ 1:を追加したかっただけです。 特にクラウドに最適化されたGeoTIFFは、

現在、ファイルストレージバックエンドはHTTP範囲リクエストを処理するように最適化されていません(つまり、この機能を有効にすると、ファイルのアップロード/ダウンロードAPIの速度が大幅に低下する可能性があります)。 もちろん、それを可能にするために取り組んでいる人々がいますが、正確なETAを与えることはできません...

多くの人は大きな遺伝子ファイル(数GB)をダウンロードできません。 例えば、
https://github.com/zenodo/zenodo/issues/460#issuecomment -546623751

何度も再試行しなければならないものもあり、それは実際には帯域幅を浪費しています...

私たちのプロジェクトでは、Zenodoから直接クラウド最適化GeoTIFF(https://zenodo.org/record/4483227などを参照)を使用できることも重要です。 Figshareは明らかにCOGで動作しますが、zenodoは動作しませんか? COGファイルを使用してデータの小さなチャンクを取得する方法をユーザー向けにチュートリアルを作成しました

これをサポートしていただけませんか?

大きな画像ファイル(Zarr形式)をチャンクで提供するために必要です。これにより、ブラウザーでファイルを即座に視覚化できます。 ブラウザがたとえば10GBのファイルをダウンロードして表示することはできません。

Zarrユースケースの値に注意してください。 Zenodoにご協力いただき、ありがとうございます。

Zarrの場合、変更なしで、仮想的にzenodoを今日動作させることができます。 Zenodoはディレクトリをサポートしていませんが、特殊文字を使用して、通常のzarrディレクトリストアをある種のフラットな階層にマップできれば、それを機能させることができます。 たとえば、特殊文字が__

.zgroup
foo__.zarray
foo__.zattrs
foo__0.0
foo__0.1

NS。

ここで問題を提起していただけますか(https://github.com/zarr-developers/zarr-specs/issues)?

@rabernat Zenodoでは最大100個のファイルしか許可されていないため、拡張できないのではないかと思います。

レコードあたりの合計ファイルサイズ制限は50GB(最大100ファイル)です。 1回限りの100GBクォータは、ケースバイケースでリクエストおよび付与できます。

ソース: https

このページは役に立ちましたか?
0 / 5 - 0 評価