Zenodo: 文件检索支持“HTTP/1.1 字节范围请求”

创建于 2018-09-09  ·  10评论  ·  资料来源: zenodo/zenodo

我在 zenodo 上有一个功能请求 - zenodo 服务器可以支持 HTTP/1.1 字节范围请求https://tools.ietf.org/html/rfc7233吗?

Zenodo 平台已经令人难以置信,您对字节范围请求的支持将进一步增加存储数据的价值,因为某些应用程序依赖于字节范围请求,尤其是在处理大文件时。

我想添加一个关于字节范围请求如何工作的示例,以明确我的观点。 例如,github (raw.githubusercontent.com) 支持字节范围请求如下:

###
### The entire part of the README file is retrieved, and processed locally
###
$ curl  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst |head -5 | tail -1
    Zenodo is free software; you can redistribute it

###
### Only the specified bytes specified in the file is retrieved, which does not require local processing
###
$ curl -H "range: bytes=72-125"  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst 
    Zenodo is free software; you can redistribute it

然而,字节范围请求在 zenodo.org 中被忽略

###
### the entire part of the file is retrieved
###
$ curl   https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab. 

###
### Only small bytes are requested, but the entire part is retrieved
###
$ curl -H "range: bytes=6-7"  https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab.
Enhancement Needs investigation Accepted

最有用的评论

我只是想添加我的 :+1: 来说明启用范围请求对于地理空间数据格式非常有用。 Cloud Optimized GeoTIFF尤其会从中受益匪浅。 允许范围请求确实可以减少 zenodo 所需的带宽。

所有10条评论

我会支持这个。 这将非常有用,例如使用tabix直接访问基因组数据集。 似乎需要将 zenodo 网络服务器设置“max_ranges”中的配置更改为正数。

有什么技术原因不这样做吗?

目前,我们的文件存储后端并未针对 HTTP 范围请求进行优化(这意味着启用此功能可能会导致文件上传/下载 API 显着放缓)。 当然,有人正在努力使其成为可能,尽管我们无法给出准确的预计到达时间……

我只是想添加我的 :+1: 来说明启用范围请求对于地理空间数据格式非常有用。 Cloud Optimized GeoTIFF尤其会从中受益匪浅。 允许范围请求确实可以减少 zenodo 所需的带宽。

目前,我们的文件存储后端并未针对 HTTP 范围请求进行优化(这意味着启用此功能可能会导致文件上传/下载 API 显着放缓)。 当然,有人正在努力使其成为可能,尽管我们无法给出准确的预计到达时间……

许多人无法下载大型基因文件(几 GB)。 例如,
https://github.com/zenodo/zenodo/issues/460#issuecomment -546623751

有些必须重试多次,这实际上是在浪费您的带宽......

对于我们的项目,我们可以直接从 Zenodo 使用云优化 GeoTIFF(参见例如 https://zenodo.org/record/4483227)也很重要。 Figshare 显然适用于 COG,而 zenodo 不适用? 我们为用户编写了教程

你能支持这个吗?

我们需要它以块的形式提供大型图像文件(Zarr 格式),这使我们能够立即在浏览器中可视化文件。 浏览器将无法下载例如 10GB 的文件并显示。

只需注意 Zarr 用例的价值。 感谢大家为 Zenodo 所做的工作!

对于 Zarr,我们可以假设今天让 zenodo 正常工作,无需任何更改。 Zenodo 不支持目录,但如果我们可以通过特殊字符将常规 zarr 目录存储映射到某种平面层次结构,我们就可以使其工作。 例如,如果特殊字符是__

.zgroup
foo__.zarray
foo__.zattrs
foo__0.0
foo__0.1

等等。

你能在这里提出一个问题吗(https://github.com/zarr-developers/zarr-specs/issues)?

@rabernat我担心这不会扩展,因为 Zenodo 最多只允许 100 个文件。

每条记录的总文件大小限制为 50GB(最多 100 个文件)。 可以根据具体情况申请和授予一次性 100GB 配额。

来源: https :

此页面是否有帮助?
0 / 5 - 0 等级