我在 zenodo 上有一个功能请求 - zenodo 服务器可以支持 HTTP/1.1 字节范围请求https://tools.ietf.org/html/rfc7233吗?
Zenodo 平台已经令人难以置信,您对字节范围请求的支持将进一步增加存储数据的价值,因为某些应用程序依赖于字节范围请求,尤其是在处理大文件时。
我想添加一个关于字节范围请求如何工作的示例,以明确我的观点。 例如,github (raw.githubusercontent.com) 支持字节范围请求如下:
###
### The entire part of the README file is retrieved, and processed locally
###
$ curl https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst |head -5 | tail -1
Zenodo is free software; you can redistribute it
###
### Only the specified bytes specified in the file is retrieved, which does not require local processing
###
$ curl -H "range: bytes=72-125" https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst
Zenodo is free software; you can redistribute it
然而,字节范围请求在 zenodo.org 中被忽略
###
### the entire part of the file is retrieved
###
$ curl https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab.
###
### Only small bytes are requested, but the entire part is retrieved
###
$ curl -H "range: bytes=6-7" https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab.
我会支持这个。 这将非常有用,例如使用tabix直接访问基因组数据集。 似乎需要将 zenodo 网络服务器设置“max_ranges”中的配置更改为正数。
有什么技术原因不这样做吗?
目前,我们的文件存储后端并未针对 HTTP 范围请求进行优化(这意味着启用此功能可能会导致文件上传/下载 API 显着放缓)。 当然,有人正在努力使其成为可能,尽管我们无法给出准确的预计到达时间……
我只是想添加我的 :+1: 来说明启用范围请求对于地理空间数据格式非常有用。 Cloud Optimized GeoTIFF尤其会从中受益匪浅。 允许范围请求确实可以减少 zenodo 所需的带宽。
目前,我们的文件存储后端并未针对 HTTP 范围请求进行优化(这意味着启用此功能可能会导致文件上传/下载 API 显着放缓)。 当然,有人正在努力使其成为可能,尽管我们无法给出准确的预计到达时间……
许多人无法下载大型基因文件(几 GB)。 例如,
https://github.com/zenodo/zenodo/issues/460#issuecomment -546623751
有些必须重试多次,这实际上是在浪费您的带宽......
你能支持这个吗?
我们需要它以块的形式提供大型图像文件(Zarr 格式),这使我们能够立即在浏览器中可视化文件。 浏览器将无法下载例如 10GB 的文件并显示。
只需注意 Zarr 用例的价值。 感谢大家为 Zenodo 所做的工作!
对于 Zarr,我们可以假设今天让 zenodo 正常工作,无需任何更改。 Zenodo 不支持目录,但如果我们可以通过特殊字符将常规 zarr 目录存储映射到某种平面层次结构,我们就可以使其工作。 例如,如果特殊字符是__
.zgroup
foo__.zarray
foo__.zattrs
foo__0.0
foo__0.1
等等。
你能在这里提出一个问题吗(https://github.com/zarr-developers/zarr-specs/issues)?
@rabernat我担心这不会扩展,因为 Zenodo 最多只允许 100 个文件。
每条记录的总文件大小限制为 50GB(最多 100 个文件)。 可以根据具体情况申请和授予一次性 100GB 配额。
来源: https :
最有用的评论
我只是想添加我的 :+1: 来说明启用范围请求对于地理空间数据格式非常有用。 Cloud Optimized GeoTIFF尤其会从中受益匪浅。 允许范围请求确实可以减少 zenodo 所需的带宽。