Registry: Synchroniser avec Index Herbariorum

Créé le 11 déc. 2019  ·  9Commentaires  ·  Source: gbif/registry

Index Herbariorum est un catalogue faisant autorité qui devrait être la source principale des entités Herbaria. Les enregistrements d'herbiers dans le registre doivent être synchronisés avec les efforts d'édition en cours de l'IH.

Cette première itération de travail est délibérément conçue pour s'adapter aux fonctionnalités minimales nécessaires pour y parvenir. Une fois terminées, les demandes de fonctionnalités supplémentaires peuvent être ouvertes en tant que nouveaux problèmes.

Il est prévu que la synchronisation générale fonctionnera comme suit :

  • Récupérer tous les herbiers de l'IndexHerbariorum
  • Pour chaque entité, localisez l'institution ou la collection équivalente dans GRSciColl en utilisant l'IH IRN

    • Si l'entité existe et qu'elles diffèrent, mettre à jour GrSciColl

    • Si l'entité n'existe pas, insérez-la en tant qu'institution et avec un identifiant contenant l'IH IRN

    • S'il y a un conflit (par exemple, plusieurs options), informez les éditeurs pour qu'ils le résolvent

  • Créer, mettre à jour ou supprimer les membres du personnel associés pour les entités

Une future version pourra permettre l'édition des entités IH dans GRSciColl. Dans ce scénario, lorsque les entités diffèrent, une logique plus complexe est requise, nécessitant probablement une notification au personnel GRSciColl et IH pour résoudre les différences.

GRSciColl

Commentaire le plus utile

Je suggère que nous déplacions les idées liées à ORCID vers un nouveau numéro pour ne pas confondre les choses. Ce ticket est spécifiquement destiné à synchroniser GrSciColl et IH (l'ajout de liens vers les comptes ORCID est souhaitable mais pas nécessaire)

Le 8 janvier 2020, à 14h31, Kyle Copas [email protected] a écrit :

De plus, comme Morten l'a suggéré, nous pourrions utiliser les ORCiD lorsqu'ils sont disponibles, mais je doute que la plupart des gens en aient créé un.

En décembre 2017, 454 000 utilisateurs en sciences biologiques avaient créé des identifiants ORCID, l'un des trois taux d'adoption les plus élevés de toutes les disciplines. Tbh, nous devrions nous y engager, utiliser l'infrastructure existante (y compris devenir membre d'ORCID, imo) et encourager les membres de la communauté à s'inscrire, la promesse étant que nous pouvons fournir une valeur pour le service s'ils le font.

Notez que Bloodhound utilise déjà les ORCID pour extraire les affiliations institutionnelles passées et présentes, par exemple https://bloodhound-tracker.net/organization/Q1122595. Vous saurez tous mieux comment cela fonctionne, mais nous pourrions également considérer cela comme (faisant partie de ?) notre approche…


Vous recevez ceci parce que vous avez été mentionné.
Répondez directement à cet e-mail, consultez-le sur GitHub ou désabonnez-vous.

Tous les 9 commentaires

Les institutions de l'IH ont un champ contact qui n'a qu'un téléphone, un email et une webUrl (http://sweetgum.nybg.org/science/api/v1/institutions/UARK). Dans une institution/collection GrSciColl, nous avons un champ contacts mais ce sont en fait des entités de personne (http://api.gbif.org/v1/grscicoll/institution/f7068d69-cf88-42d8-a984-0c4de6ce8579 dont le contact est http://api.gbif.org/v1/grscicoll/person/118b48f0-9af9-45ac-8ea9-d8221d7fa2af ).

Que devons-nous faire avec le contact IH ? l'ignorer ? l'ajouter en tant que personne GrSciColl et le lier à l'institution/collection ? pour ce dernier le prénom est obligatoire, donc dans ce cas il faut en inventer un.

Je ne sais pas qui peut le mieux répondre @timrobertson100 @MortenHofft @ManonGros

Ces champs de contact ne sont pas destinés à une personne. Ils sont pour l'herbier en tant qu'entité. Il est donc important que les gens vont et viennent. Je suis tout à fait sûr que cela serait considéré comme essentiel du point de vue de l'IH et j'ai le sentiment que c'est également important. Je proposerais donc plutôt d'étendre notre modèle. Mais vaut mieux vérifier avec les autres aussi.

En ce qui concerne les personnes / le personnel. IH a également un point final pour ceux-ci. Ils ne sont - autant que je sache - liés que par des codes d'établissement. Avec le temps, nous devrions également les synchroniser. Mais nous voudrions peut-être discuter davantage de notre objectif de gestion des contacts de ce type (ORCiD, etc.). @ManonGros avez-vous une approche privilégiée pour cela ?

J'aime l'idée d'étendre notre modèle.

Pour les contacts de l'herbier, je suis d'accord avec vous @MortenHofft , nous devrions étendre notre modèle pour avoir quelque chose comme ce que nous avons pour les organisations d'édition GBIF (voir par exemple "email":["[email protected]"],"phone":["+47 99642071"] dans http://api.gbif.org/ v1/organisation/b670ea7c-48e7-45e4-ba66-5bf01ee4d398).

Pour les personnes/le personnel, je suis également d'accord, nous devrions également synchroniser/importer les personnes. Peut-être même avant de synchroniser les institutions ? (Je demande juste parce qu'il semblerait logique de mettre à jour les contacts lors de la synchronisation des institutions de l'IH mais cela nécessiterait d'avoir du personnel/des personnes à jour).

Autant que je sache, pour nous, le personnel / les personnes peuvent avoir une institution principale mais être affiliés à plusieurs collections et institutions. Alors que pour l'IH, une personne est associée à un code d'établissement. De plus, les informations sont un peu différentes (http://api.gbif.org/v1/grscicoll/person/118b48f0-9af9-45ac-8ea9-d8221d7fa2af et http://sweetgum.nybg.org/science/ih/person- détails/?irn=131429).

Pour la synchronisation personnes/personnel, doit-on procéder comme on le fait pour l'institution ? C'est-à-dire, vérifier d'abord la correspondance semi-automatiquement. Si oui, comment pourrions-nous les relier ? Il n'y a pas d'identifiant ou de machine tags pour les personnes. De plus, comme Morten l'a suggéré, nous pourrions utiliser les ORCiD lorsqu'ils sont disponibles, mais je doute que la plupart des gens en aient créé un. Et même pour ceux qui en ont un, nous devons d'abord les trouver.

Je ne sais pas si c'est possible du tout, mais idéalement j'imagine quelque chose comme ça :

  1. Trouver ORCiD potentiel pour tout le personnel/personnes GrSciColl (si nous avons la confirmation que l'ORCiD est correct pour une personne donnée, synchroniser avec cela en priorité)
  2. Faites correspondre et reliez la liste des personnes IH avec le personnel / les personnes de GrSciColl
  3. Mettre à jour les entrées du personnel GrSciColl si elles sont antérieures à IH
  4. Synchroniser les institutions GrSciColl avec IH (sur la base des identifiants que nous utilisons pour les relier après notre appariement/vérification, par exemple ce que nous avons fait dans UAT)

Je sais que ce n'est pas si simple, dites-moi ce que vous en pensez.

À propos du personnel est déjà dans la description de cette tâche, je prévoyais donc de les synchroniser dans ce processus. Je ne pense pas que nous ayons besoin de faire quelque chose manuellement.

EDIT : quand j'ai dit que je ne pense pas que nous devions faire quelque chose manuellement, je voulais dire que j'essaierai de les faire correspondre en utilisant le nom, l'e-mail ou tout autre champ représentatif (j'ai fait quelque chose de similaire lors de la dernière migration de la base de données, même si la correspondance n'est pas parfait car il y a beaucoup de personnel en double mais juste avec une adresse ou un téléphone différent) et si je ne peux pas correspondre à un existant, j'en créerai un nouveau. Pourtant, cette correspondance ne sera pas parfaite comme je l'ai mentionné précédemment, si nous voulons qu'elle soit plus précise, nous avons besoin d'une édition manuelle.

De plus, comme Morten l'a suggéré, nous pourrions utiliser les ORCiD lorsqu'ils sont disponibles, mais je doute que la plupart des gens en aient créé un.

En décembre 2017, 454 000 utilisateurs dans le domaine des sciences biologiques avaient créé des ID ORCID, l'un des trois taux d'adoption les plus élevés de toutes les disciplines (voir Study of ORCID Adoption Across Disciplines and Locations ). Tbh, nous devrions nous y engager, utiliser l'infrastructure existante (y compris devenir membre d'ORCID, imo) et encourager les membres de la communauté à s'inscrire, la promesse étant que nous pouvons fournir une valeur pour le service s'ils le font.

Notez que Bloodhound utilise déjà les ORCID pour extraire les affiliations institutionnelles passées et présentes, par exemple https://bloodhound-tracker.net/organization/Q1122595. Vous saurez tous mieux comment cela fonctionne, mais nous pourrions également considérer cela comme (faisant partie de ?) notre approche…

Je suggère que nous déplacions les idées liées à ORCID vers un nouveau numéro pour ne pas confondre les choses. Ce ticket est spécifiquement destiné à synchroniser GrSciColl et IH (l'ajout de liens vers les comptes ORCID est souhaitable mais pas nécessaire)

Le 8 janvier 2020, à 14h31, Kyle Copas [email protected] a écrit :

De plus, comme Morten l'a suggéré, nous pourrions utiliser les ORCiD lorsqu'ils sont disponibles, mais je doute que la plupart des gens en aient créé un.

En décembre 2017, 454 000 utilisateurs en sciences biologiques avaient créé des identifiants ORCID, l'un des trois taux d'adoption les plus élevés de toutes les disciplines. Tbh, nous devrions nous y engager, utiliser l'infrastructure existante (y compris devenir membre d'ORCID, imo) et encourager les membres de la communauté à s'inscrire, la promesse étant que nous pouvons fournir une valeur pour le service s'ils le font.

Notez que Bloodhound utilise déjà les ORCID pour extraire les affiliations institutionnelles passées et présentes, par exemple https://bloodhound-tracker.net/organization/Q1122595. Vous saurez tous mieux comment cela fonctionne, mais nous pourrions également considérer cela comme (faisant partie de ?) notre approche…


Vous recevez ceci parce que vous avez été mentionné.
Répondez directement à cet e-mail, consultez-le sur GitHub ou désabonnez-vous.

Autre chose à prendre en compte pour la synchronisation :
A terme, nous souhaitons que les notices IH soient éditées directement dans IH puis synchronisées avec GrSciColl.
Mais en ce moment, nous avons une poignée d'éditeurs qui ont déjà édité leurs enregistrements GrSciColl. Ce qui signifie que GrSciColl contient les informations les plus récentes sur une collection/institution non IH.
Voir cet exemple :

Ce ne sont que quelques cas, mais il serait bien de ne pas écraser ces entrées. Pour l'instant, nous devons vérifier les dates modifiées avant de synchroniser et informer IH si la version GrSciColl est plus à jour.

En production et programmé pour fonctionner chaque semaine.

Cette page vous a été utile?
0 / 5 - 0 notes