Zenodo: Поддержка "запроса диапазона байтов HTTP / 1.1" при извлечении файлов

Созданный на 9 сент. 2018  ·  10Комментарии  ·  Источник: zenodo/zenodo

У меня есть один запрос функции на zenodo - может ли сервер zenodo поддерживать запрос диапазона байтов HTTP / 1.1 https://tools.ietf.org/html/rfc7233 ?

Платформа Zenodo уже невероятна, и ваша поддержка запроса диапазона байтов еще больше увеличит ценность депонированных данных, поскольку некоторые приложения полагаются на запрос диапазона байтов, в частности, при работе с большими файлами.

Я хотел бы добавить пример того, как работает запрос диапазона байтов, чтобы прояснить мою точку зрения. Например, github (raw.githubusercontent.com) поддерживает запрос диапазона байтов, как показано ниже:

###
### The entire part of the README file is retrieved, and processed locally
###
$ curl  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst |head -5 | tail -1
    Zenodo is free software; you can redistribute it

###
### Only the specified bytes specified in the file is retrieved, which does not require local processing
###
$ curl -H "range: bytes=72-125"  https://raw.githubusercontent.com/zenodo/zenodo/master/README.rst 
    Zenodo is free software; you can redistribute it

Однако запрос диапазона байтов игнорируется в zenodo.org.

###
### the entire part of the file is retrieved
###
$ curl   https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab. 

###
### Only small bytes are requested, but the entire part is retrieved
###
$ curl -H "range: bytes=6-7"  https://zenodo.org/record/1407145/files/DOI_Test.txt
This is a test of the Zenodo DOI functionality for GitLab.
Enhancement Needs investigation Accepted

Самый полезный комментарий

Я просто хотел добавить свой: +1:, чтобы указать, что включение запросов диапазона будет очень полезно для форматов геопространственных данных. Оптимизированный для облака GeoTIFF, в частности, выиграет от этого. Разрешение запросов диапазона действительно может уменьшить полосу пропускания, необходимую для zenodo.

Все 10 Комментарий

Я поддержу это. Было бы очень полезно, например, для доступа к наборам данных геномики напрямую с помощью tabix . Похоже, требуется изменить конфигурацию в настройке «max_ranges» веб-сервера

Есть какая-то техническая причина не делать этого?

Наша серверная часть хранилища файлов на данный момент не оптимизирована для обслуживания запросов диапазона HTTP (это означает, что включение этой функции потенциально может привести к значительному замедлению работы API загрузки / выгрузки файлов). Конечно, есть люди, которые работают над тем, чтобы сделать это возможным, но мы не можем дать точное время прибытия ...

Я просто хотел добавить свой: +1:, чтобы указать, что включение запросов диапазона будет очень полезно для форматов геопространственных данных. Оптимизированный для облака GeoTIFF, в частности, выиграет от этого. Разрешение запросов диапазона действительно может уменьшить полосу пропускания, необходимую для zenodo.

Наша серверная часть хранилища файлов на данный момент не оптимизирована для обслуживания запросов диапазона HTTP (это означает, что включение этой функции потенциально может привести к значительному замедлению работы API загрузки / выгрузки файлов). Конечно, есть люди, которые работают над тем, чтобы сделать это возможным, но мы не можем дать точное время прибытия ...

Многие люди не могут загрузить большие генетические файлы (несколько ГБ). например,
https://github.com/zenodo/zenodo/issues/460#issuecomment -546623751

Некоторым приходится повторять попытки много раз, и это фактически тратит вашу пропускную способность ...

Для нашего проекта также важно, что мы можем использовать оптимизированные для облака файлы GeoTIFF (см., Например, https://zenodo.org/record/4483227) непосредственно из Zenodo. Figshare явно работает с COG, а zenodo - нет? Мы написали руководство для пользователей, как получить небольшие порции данных с помощью файлов COG .

Не могли бы вы поддержать это?

Он нужен нам для обслуживания больших файлов изображений (в формате Zarr) по частям, что позволяет нам мгновенно визуализировать файлы в браузере. Браузер не сможет загрузить файл и отобразить, например, 10 ГБ.

Просто отмечу ценность варианта использования Zarr. Спасибо всем за вашу работу над Zenodo!

Для Zarr мы гипотетически могли бы заставить zenodo работать сегодня без каких-либо изменений. Zenodo не поддерживает каталоги, но если бы мы могли сопоставить обычное хранилище каталогов zarr с какой-то плоской иерархией с помощью специального символа, мы могли бы заставить его работать. Например, если специальный символ - __

.zgroup
foo__.zarray
foo__.zattrs
foo__0.0
foo__0.1

и т.п.

Не могли бы вы поднять здесь вопрос (https://github.com/zarr-developers/zarr-specs/issues)?

@rabernat Боюсь, что это не масштабируется, потому что Zenodo допускает максимум 100 файлов.

Максимальный размер файлов для каждой записи составляет 50 ГБ (максимум 100 файлов). Единовременная квота 100 ГБ может быть запрошена и предоставлена ​​в индивидуальном порядке.

источник: https://www.openaire.eu/technical-requirements

Была ли эта страница полезной?
0 / 5 - 0 рейтинги