Registry: Ajouter une catégorie à l'ensemble de données

Créé le 3 nov. 2020  ·  20Commentaires  ·  Source: gbif/registry

Le Dataset actuel a un type et un sous-type qui est légèrement problématique. Type indique vraiment le format de ligne utilisé dans le DwC-A et pose des problèmes car une liste de contrôle peut avoir des occurrences, et un ensemble de données d'occurrence peut en fait être la sortie de données d'événement d'échantillonnage.

Une meilleure utilisation de SubType peut aider, mais je pense que cela pourrait ajouter à plus de confusion en raison du chevauchement (par exemple, un ensemble de données d'occurrence avec un événement d'échantillonnage de sous-type).

Étant donné que l'API est maintenant si bien utilisée et que changer cela est perturbateur, je propose d'introduire un nouveau champ à valeurs multiples nommé category pour catégoriser les ensembles de données. Avec le temps, nous pourrons déprécier le type et le sous-type.

Les catégories incluraient les goûts de (modifié pour inclure les suggestions provenant du chat ci-dessous):

  1. Données scientifiques citoyennes
  2. Données d'observation
  3. Collection d'histoire naturelle
    une. Envisagez de séparer les fossiles dans une catégorie distincte, pour éviter une mauvaise utilisation accidentelle
  4. Organisme unique séquencé (c'est-à-dire tissu d'un échantillon NHM)
    une. Envisagez également d'ajouter un échantillon de tissu (qui peut ou non être séquencé) pour faciliter la découverte de tissus préservés sans faire appel à d'autres termes ambigus
  5. ADN environnemental et/ou métagénomique (par exemple, échantillon de sol, eau, soupe d'insectes, etc.)
  6. Détection d'espèces ciblées (essais basés sur la PCR)
  7. Données de surveillance à long terme
  8. Événement d'échantillonnage (lorsqu'un protocole a été utilisé)
  9. Données de la liste de contrôle
  10. Citations matérielles (par exemple, traitements taxonomiques dans la littérature)
  11. données du secteur privé
    une. Envisagez de diviser cela en catégories plus fines (par exemple, les données du promoteur pour l'évaluation de l'impact environnemental avant le développement) par rapport à d'autres catégories (à définir)
  12. données de suivi (c.-à-d. recaptures ou suivi GPS d'organismes individuels)
  13. Observation par machine (p. ex. piège photographique)

Les multiples catégories seraient ajoutées à chaque enregistrement d'occurrence lors de l'indexation, ce qui permettrait d'ajouter un filtre intuitif dans GBIF.org afin que les utilisateurs puissent sélectionner ou désactiver les catégories d'ensemble de données qui les intéressent.

CC @aahhn-gbif @MortenHofft pour les commentaires en particulier

Tous les 20 commentaires

Merci!

~En supposant que cela prendra également en charge les métriques (et en comprenant que plusieurs valeurs signifient qu'un ensemble de données peut appartenir à plus d'une catégorie), j'aimerais ajouter~
~9. données du secteur privé~
~10. données de suivi (c.-à-d. recaptures ou suivi GPS d'organismes individuels)~

[Tim : Merci - Ajouté ci-dessus !]

Question : 4. métagénomique (eDNA) devrait-il être deux catégories distinctes ? Il y a une grande différence dans l'interprétation de ces données, même si elles sont toutes les deux "basées sur des séquences" @ManonGros , commenteriez-vous ?

[Tim Edited to add: Je les ai divisés ci-dessus maintenant, mais je changerai à nouveau en fonction de plus de commentaires]

L'observation de la machine semble être une sous-catégorie de l'événement d'échantillonnage.

L'observation de la machine semble être une sous-catégorie de l'événement d'échantillonnage.

C'est ok n'est-ce pas ? Comme il s'agit de plusieurs valeurs, un ensemble de données peut être marqué comme événement d'échantillonnage ou comme événement d'échantillonnage, ou peut-être existe-t-il des cas où une observation par machine serait appropriée lorsqu'aucun véritable protocole d'échantillonnage n'est utilisé.

Cette nouvelle catégorie serait du texte libre utilisant le serveur de vocabulaire ? Ou essayons-nous de définir toutes les catégories ?

Cette nouvelle catégorie serait du texte libre utilisant le serveur de vocabulaire ? Ou essayons-nous de définir toutes les catégories ?

~Indécis, mais à ce stade, nous proposons les catégories~

Révisé : Je suggérerais maintenant le serveur de vocabulaire, comme détaillé plus loin dans ce fil.

Génial! J'adore l'idée !

~Juste un commentaire :~
~> 4. Organisme métagénomique unique (c'est-à-dire tissu provenant d'un échantillon NHM) ~
~> 5. eDNA environnemental (par exemple, échantillon de sol, eau, soupe d'insectes, etc.) ~

~Le numéro 4 ne semble pas correct. Ce que je comprends en lisant "Métagénomique à organisme unique", c'est que quelqu'un a pris un échantillon d'intestin d'une vache (par exemple) et l'a séquencé, ce qui a entraîné un tas d'occurrences pour le microbiome intestinal. Je suppose que ce n'est pas l'idée, n'est-ce pas ? ~
~ Si vous voulez dire que les tissus d'un spécimen ont été séquencés, alors j'écrirais quelque chose de plus dans le sens de "Un seul organisme séquencé". Et en fait, nous pourrions regrouper la métagénomique avec l'eDNA (souvent l'eDNA est la métagénomique). Donc à la fin, je pense que nous pourrions faire quelque chose comme :~

~4. Organisme unique séquencé (c'est-à-dire tissu d'un échantillon NHM) ~
~5. ADNe environnemental et/ou métagénomique (par exemple, échantillon de sol, eau, soupe d'insectes, etc.) ~

[Tim : Édité avec les suggestions exprimées ici - merci, vous avez bien compris ce que je voulais !]

Peut-être que @thomasstjerne a des idées à ce sujet ?

Ajout de la détection d'espèces ciblées (essais basés sur la PCR)

Merci @timrobertson100 de m'avoir fait connaître le fil, très excitant. Jusqu'à présent, j'ai trouvé huit variables indépendantes susceptibles de déterminer le type de preuve/ensemble de données dans le GBIF. J'ai besoin de méditer un peu plus avant de présenter mon point de vue ici, et heureux de faire un peu de remue-méninges/tableau blanc si des personnes sont disponibles ?

Garder une trace de cela aussi

Bonjour à tous, j'aime l'idée de trier les ensembles de données et les types de preuves, mais je ne suis pas sûr qu'il soit plus attrayant pour les utilisateurs de le faire en utilisant un seul filtre/vocabulaire (mais j'ai compris la faisabilité telle que présentée par Tim). J'ai dessiné quelques cartes mentales mais je n'ai pas le temps d'ajouter des images ici, alors tapez simplement pour votre considération. J'ai commencé par penser pourquoi les utilisateurs auraient-ils besoin de trier les ensembles de données/types de preuves ? Il s'agit d'un moyen rapide d'intégrer/d'exclure des types de données importants pour vos cas en fonction de la manière dont les preuves ont été générées et de leurs propriétés. J'ai trouvé 8 variables indépendantes qui croisent la catégorisation suggérée de l'ensemble de données et le vocabulaire de base de l'enregistrement tel que nous l'avons aujourd'hui. Notez que je pense que le travail indépendant est important ici, bien que certaines des combinaisons de 1 à 8 ci-dessous soient impossibles dans la vraie vie.

J'utilise des mots vagues pour décrire ma pensée, ce n'est pas un vocabulaire que je suggère, et il y a des chevauchements non résolus :

  1. Statut de conservation des preuves : virtuelles uniquement ou physiques : fossiles, morts, vivants (zoos, cultures, jardins, aquariums). Notez que certaines pensées comme l'ambre ne sont pas faciles à placer, car on peut obtenir de l'ADN de l'ambre, il y a des sous-fossiles, etc.). _Question_ : Puis-je revoir le matériel physique ? C'est quoi et où ?
  2. Intégrité / Espèce N : unique et entière (par exemple, insecte, c'est-à-dire contient toute sa genette dans un individu), partielle (échantillon de tissu, feuille, fructification) ou spécimen mixte (commun dans la collecte de mousses et de lichens, lorsque la collecte d'espèces individuelles n'est pas possible : mais n'est pas un échantillonnage intentionnel, par exemple comme le plancton voir 6). _Question_ : Puis-je étudier la morphologie complète, ou seulement certains traits, ou seulement lier un spécimen de musée à une séquence d'ADN ?
  3. ADN : non exploré, séquence, PCR. Remarque : ceci se situe entre le virtuel et le physique, car les produits ADN ou PCR peuvent être stockés pendant longtemps (physique), mais la preuve ADN de la présence d'espèces, souvent une séquence, est une preuve virtuelle générée par une machine qui n'est pas très différente d'une image numérique ou un son. _Question_ : Est-ce que je peux revoir l'identification, faire de la phylogénie, ou tout ce que j'ai, c'est un nom d'étiquette ?
  4. Données dynamiques / statiques. Dynamique : suivi, séries temporelles, marquage-recapture. _Question_ : puis-je étudier uniquement les processus, ou uniquement les modèles ?
  5. La manière dont les preuves sont générées : traitement de la littérature, numérisation de la collection, observations personnelles, échantillonnage systématique. _Question_ : Puis-je trier les données par fiabilité de leur génération ?
  6. Pour l'échantillonnage des données d'événements, mais peut-être aussi des occurrences : présence uniquement (effort d'échantillonnage inconnu/non documenté), présence-absence, abondance (quantitatif). _Question_ : Quels types d'analyses statistiques sont possibles ?
  7. La façon dont les données sont compressées dans le GBIF : métadonnées uniquement, liste de contrôle, occurrences uniquement, événement d'échantillonnage. Peut inclure un filtre par extension utilisée, en particulier. si nous obtenons plus de ceux dans TDWG. _Question_ : Qu'est-ce que j'obtiens dans mon téléchargement GBIF, verbatim et GBIF interprété ?
  8. Communauté qui génère les données (c'est peut-être plus pertinent pour les éditeurs de marquage, mais il peut être nécessaire de filtrer les occurrences et les ensembles de données par) : (groupes d') individus, collections d'histoire naturelle, secteur privé, marine, science citoyenne, machine. Certains d'entre eux ne s'excluent pas mutuellement : il peut s'agir de "collection d'histoire naturelle" + "science citoyenne", ou "machine". _Question_ : Puis-je étudier les tendances des données dans un secteur démographique particulier ?

Encore une fois, ce n'est qu'une capture de pensées inachevées; ce serait bien de faire un remue-méninges / tableau blanc à quoi ressemblerait une bonne catégorisation. Je pensais le découper comme par exemple 1, 7 et 13 dans le message d'origine peuvent être simultanément vrais. S'il s'agit de balises et que le chevauchement n'est pas un problème, alors très bien. Mais s'il s'agit d'un filtre strict, nous aurons peut-être besoin de plus qu'un seul champ pour capturer les types de préservation par rapport à la communauté génératrice par rapport aux moyens de génération par rapport à la quantité, etc. N'hésitez pas à écarter si hors de portée. Je n'ai pas non plus trouvé la collection de discussions BoR, qui s'applique ici en partie.

Je suppose que les catégorisations viendraient de nous (du moins c'est comme ça pour le moment pour les ensembles de données de la science citoyenne) mais ce serait formidable si d'autres personnes pouvaient également aider à la conservation. Juste quelque chose à garder à l'esprit.

Par exemple, supposons que nous demandions aux gestionnaires de nœuds de vérifier les ensembles de données étiquetés "science citoyenne". Nous voulons:

  1. Un moyen simple pour eux de voir tous les ensembles de données de science citoyenne pour leur nœud.
  2. Si un gestionnaire de nœud a remarqué un ensemble de données marqué par erreur, nous voulons en garder une trace afin de ne pas le re-taguer la prochaine fois.

En regardant ce problème : https://github.com/gbif/portal-feedback/issues/3381 , il nous manquerait la catégorie data extracted from taxonomic literature (i.e., Plazi) . Tu as raison, j'ai raté ça !

Merci @ManonGros

En regardant ce problème : gbif/portal-feedback#3381, il nous manquerait les données extraites de la catégorie de la littérature taxonomique (c'est-à-dire Plazi).

C'est ce que cela devait être:

Citations matérielles (par exemple, traitements taxonomiques dans la littérature)

(En relation, Plazi vient de proposer Material citation un ajout au vocabulaire de baseOfRecord dans les numéros de Darwin Core pour les commentaires publics)

+1 @Dmitry pour un à plusieurs et en utilisant des balises de mots-clés (au lieu d'un enregistrement de base 1: 1 par catégorie)
+1 @Marie pour avoir pensé à permettre au personnel de Node de gérer des catégories --> et peut également ajouter une demande de fonctionnalité pour permettre à quiconque d'annoter un point de données/ensemble avec des informations de catégorie (avec la provenance intacte)

N'oubliez pas également qu'un "ensemble de données" (comme dans Darwin-Core-archive-dataset) peut être un mélange d'"enregistrements de preuves" (alias enregistrement de base, par exemple, alias occurrences) de différentes catégories - si une "étiquette" de catégorie est conçu pour s'appliquer à tous les enregistrements de base dans un DwC-A

Et que la dénormalisation des "enregistrements de preuves" (enregistrements de base) signifie que l'on ne peut pas être certain de la classe à laquelle une propriété donnée liée à un enregistrement de base est destinée à être liée

J'aime vraiment cette idée. L'ALA a certainement des utilisateurs qui veulent un moyen très simple de sélectionner des groupes d'enregistrements parmi les fournisseurs de données. Le groupe dont j'entends le plus cette demande est composé de conservateurs/chercheurs qui veulent "juste" des spécimens de musée ou d'herbier.

Quelques suggestions :

  1. Collection d'histoire naturelle - il pourrait toujours être utile d'avoir également une catégorie pour les spécimens fossiles afin que ceux-ci puissent être facilement séparés.
    La raison de la séparation des fossiles est que les sous-fossiles (ou toute espèce fossile encore existante) apparaissent souvent en dehors de la distribution existante et peuvent facilement être confondus avec des erreurs et signalés comme tels, lorsqu'ils sont parfaitement légitimes.
  1. Organisme unique séquencé (c'est-à-dire tissu d'un échantillon NHM)
    Avoir une catégorie supplémentaire pour l'échantillon de tissu serait très utile, que les séquences aient été dérivées ou non.
    Les utilisateurs de cette catégorie peuvent être des chercheurs à la recherche de tissus pour le prêt/l'échantillonnage destructif qui doivent actuellement rechercher BasisOfRecord = échantillon de matériau plus Préparations pot luck.

  2. Données du secteur privé - voulez-vous dire des données recueillies par des entreprises qui entreprennent des évaluations d'impact environnemental avant l'approbation de projets de développement/d'exploitation minière ? Si tel est le cas, en Australie, ces données seraient communément appelées « données du promoteur » (données provenant des promoteurs d'un développement). Si les données du secteur privé signifient autre chose, peut-être pourrait-il y avoir les deux ?

N'oubliez pas également qu'un "ensemble de données" (comme dans Darwin-Core-archive-dataset) peut être un mélange d'"enregistrements de preuves" (alias enregistrement de base, par exemple, alias occurrences) de différentes catégories - si une "étiquette" de catégorie est conçu pour s'appliquer à tous les enregistrements de base dans un DwC-A

Merci, @dagendresen. Ma pensée ici était d'essayer de dissocier cela des problèmes de classe/basisOfRecord dans Darwin Core pour pouvoir réagir rapidement aux besoins de reporting/utilisateur (par exemple, introduire une nouvelle balise pour les ensembles de données). Reconnaissant qu'il peut y avoir des ensembles de données "mixtes", mon intuition est que la plupart des utilisateurs apprécieraient un filtrage large pour, par exemple, "omettre les enregistrements provenant d'ensembles de données marqués comme eDNA" même s'il y avait quelques entrées qui pourraient être d'un certain intérêt, ou pour produire des rapports (par exemple des diagrammes de croissance) basés sur des données provenant par exemple d'ensembles de données étiquetés comme liés au secteur privé. Cela vous semble-t-il raisonnable, s'il vous plaît ?

aime vraiment cette idée

Merci, @elywallis - Je vais maintenant ajouter votre contribution à la liste en haut.

Données du secteur privé - voulez-vous dire des données recueillies par des entreprises qui entreprennent des évaluations d'impact environnemental avant l'approbation de projets de développement/d'exploitation minière ?

Je crois que c'était l'intention, oui. Je ne connais pas les détails, mais je sais que l'équipe de gestion des données produit de plus en plus de rapports sur les tendances en utilisant des catégories comme celle-ci. Je vais ajouter vos commentaires dans la liste du haut, sans proposer une décision finale.

Un peu hors sujet, mais peut-être utile :

Il n'est peut-être pas connu de beaucoup, mais GBIF déplace progressivement des vocabulaires comme celui-ci dans notre serveur de vocabulaire intégré. Cela permettra aux gestionnaires de données (par exemple, y compris les gestionnaires de nœuds @dagendresen ) d'être impliqués dans la définition des concepts. Les concepts peuvent être hiérarchiques (par exemple, des catégorisations plus fines de données privées) et une fois qu'une version de vocabulaire est publiée, elle est récupérée dans les pipelines de traitement des données. Cela évolue encore, mais LifeStage est actuellement en production.

Ce que cela signifie en ce qui concerne ce problème, c'est que lorsque nous trouvons de nouvelles exigences pour catégoriser les ensembles de données pour un nouveau rapport ou une nouvelle communauté que nous voyons émerger, nous aurons les outils en place pour répondre à cela sans avoir besoin de l'implication d'un développeur de logiciel (ne nécessite qu'un vocabulaire pour être modifié, puis procéder au balisage des ensembles de données).

ensembles de données "mélangés"

@ timrobertson100 Je serais (si demandé) entièrement d'accord que la meilleure pratique consiste à éviter les ensembles de données "mélangés" et qu'une "balise" pour activer le filtre pour un _"but de réutilisation"_ serait très utile et bienvenue ! Et je pense que nous pourrions bien vivre avec une telle fonctionnalité ne s'appliquant pas à 100 % aux ensembles de données "mixed bag" :-)

(à propos - GBIF Norvège "négocie" avec les éditeurs de données norvégiens pour "diviser" les ensembles de données "mélangés" en ensembles de données plus petits qui seraient plus homogènes)

@timrobertson100 a écrit :

Un peu hors sujet, mais peut-être utile :

Il n'est peut-être pas connu de beaucoup, mais GBIF déplace progressivement des vocabulaires comme celui-ci dans notre serveur de vocabulaire intégré. Cela permettra aux gestionnaires de données (par exemple, y compris les gestionnaires de nœuds @dagendresen ) d'être impliqués dans la définition des concepts. Les concepts peuvent être hiérarchiques (par exemple, des catégorisations plus fines de données privées) et une fois qu'une version de vocabulaire est publiée, elle est récupérée dans les pipelines de traitement des données. Cela évolue encore, mais LifeStage est actuellement en production.

Ce que cela signifie en ce qui concerne ce problème, c'est que lorsque nous trouvons de nouvelles exigences pour catégoriser les ensembles de données pour un nouveau rapport ou une nouvelle communauté que nous voyons émerger, nous aurons les outils en place pour répondre à cela sans avoir besoin de l'implication d'un développeur de logiciel (ne nécessite qu'un vocabulaire pour être modifié, puis procéder au balisage des ensembles de données).

Tim, peux-tu voir mon? À un moment donné, nous avons besoin de quelque chose, une conférence du GBIF, un webinaire du TDWG, à propos de cet effort. Je pense que la communauté au sens large trouvera très instructif comment nous pouvons utiliser les données dont nous disposons pour améliorer et comprendre les données.

Cette page vous a été utile?
0 / 5 - 0 notes