Registry: Создать сетевой объект DiSSCo

Созданный на 18 янв. 2021  ·  17Комментарии  ·  Источник: gbif/registry

DiSSCo хотела бы иметь сетевой объект, содержащий наборы данных, поступающие от соответствующих учреждений.
Wouter A подготовил электронную таблицу с ключами GBIF.

  • Воутер просит заранее просмотреть его в UAT. Мы должны создать его, но, поскольку размер UAT недостаточен для сканирования всех данных, я не уверен в преимуществах. Создание повторяемого SQL-скрипта для использования в UAT и prod кажется разумным.
  • Я предлагаю также добавить идентификаторы ROR и GRID в качестве дополнительных идентификаторов к соответствующим записям в отдельном SQL-скрипте.

Самый полезный комментарий

Поскольку учреждения GrSciColl и организации GBIF на данный момент полностью разделены, насколько мне известно, в идеале вы должны делать это в обоих.

Все 17 Комментарий

Как бы вы добавили идентификаторы ROR и GRID в качестве «тегов» или в виде поля DwC (institutionID), как насчет имени учреждения (часто другого) в профиле EML и каков будет процесс регистрации в качестве части сети и регистрации. эти идентификаторы для новых наборов данных, добавленных партнерами DiSSCo, или новые партнеры, становящиеся поставщиками данных GBIF?

Как бы вы добавили идентификаторы ROR и GRID, как «теги» или как поле DwC (institutionID)

Теги были бы вариантом, но я бы предложил просто identifier для сущностей, где это имеет смысл. Мы поддерживаем несколько идентификаторов для всех экземпляров в реестре. Это не влияет на записи вхождений, а просто позволяет найти организацию в реестре по идентификатору.

как насчет (часто другого) названия учреждения в профиле EML

Это не будет затронуто в GBIF. Все, что он делает, это говорит «эта запись в реестре также известна как другой идентификатор» и не меняет имя, под которым организация была зарегистрирована в GBIF. Хотя при желании имя можно изменить в любой момент.

и каков будет процесс регистрации в качестве части сети и регистрации этих идентификаторов для новых наборов данных, добавленных партнерами DiSSCo, или новых партнеров, которые станут поставщиками данных GBIF?

Регистрация наборов данных и учреждений в GBIF будет работать так же, как и всегда. Разрешение на курирование членства для сетевых записей (т. е. добавление или удаление наборов данных GBIF к записи DiSSCo) может быть предоставлено одной или нескольким учетным записям по желанию. Со временем мы, вероятно, захотим как-то автоматизировать членство.

Относительно сети:

Для тестирования создал сеть в UAT: https://registry.gbif-uat.org/network/9400230d-de38-4e0e-b44d-fcdb661f0519
Я написал для этого скрипт, используя API, чтобы его можно было воспроизвести в prod.

Составляющими сети являются все наборы данных, опубликованные перечисленными в электронной таблице организациями GBIF, которые являются членами DiSSCo (disscoMember == "y").
NB: в UAT это включает все виды тестовых наборов данных (но не все наборы данных, доступные в prod).

Не намерен захватывать этот поток, но не имеет ли больше смысла связывать идентификаторы ROR и GRID с учреждениями GRSciColl, а не с организациями GBIF?

Не намерен захватывать этот поток, но не имеет ли больше смысла связывать идентификаторы ROR и GRID с учреждениями GRSciColl, а не с организациями GBIF?

Спасибо @rukayaj . Да, оба имеют смысл, поскольку GRSciColl всегда будет содержать только подмножество издательских организаций в GBIF.

Поскольку учреждения GrSciColl и организации GBIF на данный момент полностью разделены, насколько мне известно, в идеале вы должны делать это в обоих.

Хорошо, я забыл, что GRSciColl был для институтов с физическими коллекциями... Итак, я думаю, что вы говорите, что некоторые исследовательские институты не вписываются в GRSciColl (поскольку они не имеют физических коллекций), но эти институты будут иметь ROR и GRID идентификаторы? Тогда это имеет смысл, и в этом случае я думаю, что было бы лучше просто иметь GRID/ROR в одном месте.

@wouteraddink Они как бы связаны в пользовательском интерфейсе портала с нечетким соответствием, например, https://www.gbif.org/occurrence/2579432371?

Обсуждение GRID и ROR, связанное с этой другой проблемой: https://github.com/gbif/registry/issues/274

Мне бы хотелось, чтобы ROR/GRID/ISNI использовались для каждой записи вхождения с dwc:institutionID (чтобы переопределить идентификаторы организаций в EML, потому что, по-видимому, они могут быть разными даже в пределах одного и того же DarwinCore-Archive).

(запись возникновения относится к происшествию; в то время как запись GRSciColl относится к учреждению - свойствоstitutionID в записи возникновения будет связывать/соединять их)

Я думаю, что в принципе вы могли бы без проблем использовать ROR/GRID/ISNI в dwc:institutionID , но это противоречит текущей рекомендации в документации DwC. Я думаю, что нам как сообществу необходимо изменить эту рекомендацию.

Спасибо, Мари, теперь я вижу сеть в UAT, однако было бы неплохо, если бы она была отфильтрована по умолчанию только для выборочных наборов данных. Кроме того, https://www.gbif-uat.org/network/9400230d-de38-4e0e-b44d-fcdb661f0519 все еще пуст?

Кроме того, https://www.gbif-uat.org/network/9400230d-de38-4e0e-b44d-fcdb661f0519 все еще пуст?

Все наборы данных должны быть повторно обработаны, чтобы получить networkKey в индексе.

+ сводная страница должна быть отредактирована в другой системе (мы можем сделать это в продакшене).

Должен ли я включать наборы данных, в которых есть некоторые сохранившиеся экземпляры, или только сохранившиеся экземпляры?

Я бы также включил наборы данных, в которых есть несколько сохранившихся экземпляров. Не знаете, как это повлияет на подсчет на странице обзора, основаны ли они на записи или наборе данных?

Метрики генерируются на основе записей наборов данных, принадлежащих сети. Это означает, что если я отмечу набор данных, содержащий наблюдения, эти наблюдения будут включены в метрики.

@wouteraddink в GBIF Norway теперь мы переместили всех публикаторов данных GBIF университетских музеев (не подходящих для ROR и Grid) на университетский уровень (с ROR и Grid) и объединили (переместили соответствующие наборы данных) с возможными издателями данных GBIF, которые были создан для университетских кафедр биологии и геологии.

Мы стремимся следовать принципу, согласно которому норвежские издатели данных GBIF должны быть организациями, которые соответствуют критериям ROR и Grid ID. (И кратко начал предлагать издателям данных, имеющим право, но еще не имеющим ROR, зарегистрироваться для этого идентификатора).

Я обновил вашу электронную таблицу "Учреждения CETAF+DiSSCo", используя "комментарии" (где строки 121-122 будут объединены).

Спасибо за информацию @dagenresen. Я разговаривал как с GRID, так и с ROR, GRID ужесточает свою политику, больше не разрешая отдельные идентификаторы для учреждений, воплощенных в университетах. ROR по-прежнему синхронизируется 1:1 с GRID, но позже в этом году это может измениться, и у них, вероятно, будет более спокойная политика, также рабочая группа ROR работает над расширением для отделов, но это находится на ранних стадиях разработки, и это не еще не решили, будут ли они чеканиться через ROR напрямую или через wikidata или github. Для DiSSCo теперь мы можем работать с ROR, поскольку теперь у него есть полностью реализованная схема метаданных, включая отношения с родительской организацией, и если учреждения не могут получить ROR, мы можем использовать идентификаторы паспортов cetaf и при необходимости связать их с ROR своего университета. Orcid еще не внедрила ROR, но планирует это сделать.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги