Le Dataset
actuel a un type et un sous-type qui est légèrement problématique. Type
indique vraiment le format de ligne utilisé dans le DwC-A et pose des problèmes car une liste de contrôle peut avoir des occurrences, et un ensemble de données d'occurrence peut en fait être la sortie de données d'événement d'échantillonnage.
Une meilleure utilisation de SubType
peut aider, mais je pense que cela pourrait ajouter à plus de confusion en raison du chevauchement (par exemple, un ensemble de données d'occurrence avec un événement d'échantillonnage de sous-type).
Étant donné que l'API est maintenant si bien utilisée et que changer cela est perturbateur, je propose d'introduire un nouveau champ à valeurs multiples nommé category
pour catégoriser les ensembles de données. Avec le temps, nous pourrons déprécier le type et le sous-type.
Les catégories incluraient les goûts de (modifié pour inclure les suggestions provenant du chat ci-dessous):
Les multiples catégories seraient ajoutées à chaque enregistrement d'occurrence lors de l'indexation, ce qui permettrait d'ajouter un filtre intuitif dans GBIF.org afin que les utilisateurs puissent sélectionner ou désactiver les catégories d'ensemble de données qui les intéressent.
CC @aahhn-gbif @MortenHofft pour les commentaires en particulier
Merci!
~En supposant que cela prendra également en charge les métriques (et en comprenant que plusieurs valeurs signifient qu'un ensemble de données peut appartenir à plus d'une catégorie), j'aimerais ajouter~
~9. données du secteur privé~
~10. données de suivi (c.-à-d. recaptures ou suivi GPS d'organismes individuels)~
[Tim : Merci - Ajouté ci-dessus !]
Question : 4. métagénomique (eDNA) devrait-il être deux catégories distinctes ? Il y a une grande différence dans l'interprétation de ces données, même si elles sont toutes les deux "basées sur des séquences" @ManonGros , commenteriez-vous ?
[Tim Edited to add: Je les ai divisés ci-dessus maintenant, mais je changerai à nouveau en fonction de plus de commentaires]
L'observation de la machine semble être une sous-catégorie de l'événement d'échantillonnage.
L'observation de la machine semble être une sous-catégorie de l'événement d'échantillonnage.
C'est ok n'est-ce pas ? Comme il s'agit de plusieurs valeurs, un ensemble de données peut être marqué comme événement d'échantillonnage ou comme événement d'échantillonnage, ou peut-être existe-t-il des cas où une observation par machine serait appropriée lorsqu'aucun véritable protocole d'échantillonnage n'est utilisé.
Cette nouvelle catégorie serait du texte libre utilisant le serveur de vocabulaire ? Ou essayons-nous de définir toutes les catégories ?
Cette nouvelle catégorie serait du texte libre utilisant le serveur de vocabulaire ? Ou essayons-nous de définir toutes les catégories ?
~Indécis, mais à ce stade, nous proposons les catégories~
Révisé : Je suggérerais maintenant le serveur de vocabulaire, comme détaillé plus loin dans ce fil.
Génial! J'adore l'idée !
~Juste un commentaire :~
~> 4. Organisme métagénomique unique (c'est-à-dire tissu provenant d'un échantillon NHM) ~
~> 5. eDNA environnemental (par exemple, échantillon de sol, eau, soupe d'insectes, etc.) ~
~Le numéro 4 ne semble pas correct. Ce que je comprends en lisant "Métagénomique à organisme unique", c'est que quelqu'un a pris un échantillon d'intestin d'une vache (par exemple) et l'a séquencé, ce qui a entraîné un tas d'occurrences pour le microbiome intestinal. Je suppose que ce n'est pas l'idée, n'est-ce pas ? ~
~ Si vous voulez dire que les tissus d'un spécimen ont été séquencés, alors j'écrirais quelque chose de plus dans le sens de "Un seul organisme séquencé". Et en fait, nous pourrions regrouper la métagénomique avec l'eDNA (souvent l'eDNA est la métagénomique). Donc à la fin, je pense que nous pourrions faire quelque chose comme :~
~4. Organisme unique séquencé (c'est-à-dire tissu d'un échantillon NHM) ~
~5. ADNe environnemental et/ou métagénomique (par exemple, échantillon de sol, eau, soupe d'insectes, etc.) ~
[Tim : Édité avec les suggestions exprimées ici - merci, vous avez bien compris ce que je voulais !]
Peut-être que @thomasstjerne a des idées à ce sujet ?
Ajout de la détection d'espèces ciblées (essais basés sur la PCR)
Merci @timrobertson100 de m'avoir fait connaître le fil, très excitant. Jusqu'à présent, j'ai trouvé huit variables indépendantes susceptibles de déterminer le type de preuve/ensemble de données dans le GBIF. J'ai besoin de méditer un peu plus avant de présenter mon point de vue ici, et heureux de faire un peu de remue-méninges/tableau blanc si des personnes sont disponibles ?
Garder une trace de cela aussi
Bonjour à tous, j'aime l'idée de trier les ensembles de données et les types de preuves, mais je ne suis pas sûr qu'il soit plus attrayant pour les utilisateurs de le faire en utilisant un seul filtre/vocabulaire (mais j'ai compris la faisabilité telle que présentée par Tim). J'ai dessiné quelques cartes mentales mais je n'ai pas le temps d'ajouter des images ici, alors tapez simplement pour votre considération. J'ai commencé par penser pourquoi les utilisateurs auraient-ils besoin de trier les ensembles de données/types de preuves ? Il s'agit d'un moyen rapide d'intégrer/d'exclure des types de données importants pour vos cas en fonction de la manière dont les preuves ont été générées et de leurs propriétés. J'ai trouvé 8 variables indépendantes qui croisent la catégorisation suggérée de l'ensemble de données et le vocabulaire de base de l'enregistrement tel que nous l'avons aujourd'hui. Notez que je pense que le travail indépendant est important ici, bien que certaines des combinaisons de 1 à 8 ci-dessous soient impossibles dans la vraie vie.
J'utilise des mots vagues pour décrire ma pensée, ce n'est pas un vocabulaire que je suggère, et il y a des chevauchements non résolus :
Encore une fois, ce n'est qu'une capture de pensées inachevées; ce serait bien de faire un remue-méninges / tableau blanc à quoi ressemblerait une bonne catégorisation. Je pensais le découper comme par exemple 1, 7 et 13 dans le message d'origine peuvent être simultanément vrais. S'il s'agit de balises et que le chevauchement n'est pas un problème, alors très bien. Mais s'il s'agit d'un filtre strict, nous aurons peut-être besoin de plus qu'un seul champ pour capturer les types de préservation par rapport à la communauté génératrice par rapport aux moyens de génération par rapport à la quantité, etc. N'hésitez pas à écarter si hors de portée. Je n'ai pas non plus trouvé la collection de discussions BoR, qui s'applique ici en partie.
Je suppose que les catégorisations viendraient de nous (du moins c'est comme ça pour le moment pour les ensembles de données de la science citoyenne) mais ce serait formidable si d'autres personnes pouvaient également aider à la conservation. Juste quelque chose à garder à l'esprit.
Par exemple, supposons que nous demandions aux gestionnaires de nœuds de vérifier les ensembles de données étiquetés "science citoyenne". Nous voulons:
En regardant ce problème : https://github.com/gbif/portal-feedback/issues/3381 , il nous manquerait la catégorie Tu as raison, j'ai raté ça !data extracted from taxonomic literature (i.e., Plazi)
.
Merci @ManonGros
En regardant ce problème : gbif/portal-feedback#3381, il nous manquerait les données extraites de la catégorie de la littérature taxonomique (c'est-à-dire Plazi).
C'est ce que cela devait être:
Citations matérielles (par exemple, traitements taxonomiques dans la littérature)
(En relation, Plazi vient de proposer Material citation
un ajout au vocabulaire de baseOfRecord dans les numéros de Darwin Core pour les commentaires publics)
+1 @Dmitry pour un à plusieurs et en utilisant des balises de mots-clés (au lieu d'un enregistrement de base 1: 1 par catégorie)
+1 @Marie pour avoir pensé à permettre au personnel de Node de gérer des catégories --> et peut également ajouter une demande de fonctionnalité pour permettre à quiconque d'annoter un point de données/ensemble avec des informations de catégorie (avec la provenance intacte)
N'oubliez pas également qu'un "ensemble de données" (comme dans Darwin-Core-archive-dataset) peut être un mélange d'"enregistrements de preuves" (alias enregistrement de base, par exemple, alias occurrences) de différentes catégories - si une "étiquette" de catégorie est conçu pour s'appliquer à tous les enregistrements de base dans un DwC-A
Et que la dénormalisation des "enregistrements de preuves" (enregistrements de base) signifie que l'on ne peut pas être certain de la classe à laquelle une propriété donnée liée à un enregistrement de base est destinée à être liée
J'aime vraiment cette idée. L'ALA a certainement des utilisateurs qui veulent un moyen très simple de sélectionner des groupes d'enregistrements parmi les fournisseurs de données. Le groupe dont j'entends le plus cette demande est composé de conservateurs/chercheurs qui veulent "juste" des spécimens de musée ou d'herbier.
Quelques suggestions :
Organisme unique séquencé (c'est-à-dire tissu d'un échantillon NHM)
Avoir une catégorie supplémentaire pour l'échantillon de tissu serait très utile, que les séquences aient été dérivées ou non.
Les utilisateurs de cette catégorie peuvent être des chercheurs à la recherche de tissus pour le prêt/l'échantillonnage destructif qui doivent actuellement rechercher BasisOfRecord = échantillon de matériau plus Préparations pot luck.
Données du secteur privé - voulez-vous dire des données recueillies par des entreprises qui entreprennent des évaluations d'impact environnemental avant l'approbation de projets de développement/d'exploitation minière ? Si tel est le cas, en Australie, ces données seraient communément appelées « données du promoteur » (données provenant des promoteurs d'un développement). Si les données du secteur privé signifient autre chose, peut-être pourrait-il y avoir les deux ?
N'oubliez pas également qu'un "ensemble de données" (comme dans Darwin-Core-archive-dataset) peut être un mélange d'"enregistrements de preuves" (alias enregistrement de base, par exemple, alias occurrences) de différentes catégories - si une "étiquette" de catégorie est conçu pour s'appliquer à tous les enregistrements de base dans un DwC-A
Merci, @dagendresen. Ma pensée ici était d'essayer de dissocier cela des problèmes de classe/basisOfRecord dans Darwin Core pour pouvoir réagir rapidement aux besoins de reporting/utilisateur (par exemple, introduire une nouvelle balise pour les ensembles de données). Reconnaissant qu'il peut y avoir des ensembles de données "mixtes", mon intuition est que la plupart des utilisateurs apprécieraient un filtrage large pour, par exemple, "omettre les enregistrements provenant d'ensembles de données marqués comme eDNA" même s'il y avait quelques entrées qui pourraient être d'un certain intérêt, ou pour produire des rapports (par exemple des diagrammes de croissance) basés sur des données provenant par exemple d'ensembles de données étiquetés comme liés au secteur privé. Cela vous semble-t-il raisonnable, s'il vous plaît ?
aime vraiment cette idée
Merci, @elywallis - Je vais maintenant ajouter votre contribution à la liste en haut.
Données du secteur privé - voulez-vous dire des données recueillies par des entreprises qui entreprennent des évaluations d'impact environnemental avant l'approbation de projets de développement/d'exploitation minière ?
Je crois que c'était l'intention, oui. Je ne connais pas les détails, mais je sais que l'équipe de gestion des données produit de plus en plus de rapports sur les tendances en utilisant des catégories comme celle-ci. Je vais ajouter vos commentaires dans la liste du haut, sans proposer une décision finale.
Un peu hors sujet, mais peut-être utile :
Il n'est peut-être pas connu de beaucoup, mais GBIF déplace progressivement des vocabulaires comme celui-ci dans notre serveur de vocabulaire intégré. Cela permettra aux gestionnaires de données (par exemple, y compris les gestionnaires de nœuds @dagendresen ) d'être impliqués dans la définition des concepts. Les concepts peuvent être hiérarchiques (par exemple, des catégorisations plus fines de données privées) et une fois qu'une version de vocabulaire est publiée, elle est récupérée dans les pipelines de traitement des données. Cela évolue encore, mais LifeStage est actuellement en production.
Ce que cela signifie en ce qui concerne ce problème, c'est que lorsque nous trouvons de nouvelles exigences pour catégoriser les ensembles de données pour un nouveau rapport ou une nouvelle communauté que nous voyons émerger, nous aurons les outils en place pour répondre à cela sans avoir besoin de l'implication d'un développeur de logiciel (ne nécessite qu'un vocabulaire pour être modifié, puis procéder au balisage des ensembles de données).
ensembles de données "mélangés"
@ timrobertson100 Je serais (si demandé) entièrement d'accord que la meilleure pratique consiste à éviter les ensembles de données "mélangés" et qu'une "balise" pour activer le filtre pour un _"but de réutilisation"_ serait très utile et bienvenue ! Et je pense que nous pourrions bien vivre avec une telle fonctionnalité ne s'appliquant pas à 100 % aux ensembles de données "mixed bag" :-)
(à propos - GBIF Norvège "négocie" avec les éditeurs de données norvégiens pour "diviser" les ensembles de données "mélangés" en ensembles de données plus petits qui seraient plus homogènes)
@timrobertson100 a écrit :
Un peu hors sujet, mais peut-être utile :
Il n'est peut-être pas connu de beaucoup, mais GBIF déplace progressivement des vocabulaires comme celui-ci dans notre serveur de vocabulaire intégré. Cela permettra aux gestionnaires de données (par exemple, y compris les gestionnaires de nœuds @dagendresen ) d'être impliqués dans la définition des concepts. Les concepts peuvent être hiérarchiques (par exemple, des catégorisations plus fines de données privées) et une fois qu'une version de vocabulaire est publiée, elle est récupérée dans les pipelines de traitement des données. Cela évolue encore, mais LifeStage est actuellement en production.
Ce que cela signifie en ce qui concerne ce problème, c'est que lorsque nous trouvons de nouvelles exigences pour catégoriser les ensembles de données pour un nouveau rapport ou une nouvelle communauté que nous voyons émerger, nous aurons les outils en place pour répondre à cela sans avoir besoin de l'implication d'un développeur de logiciel (ne nécessite qu'un vocabulaire pour être modifié, puis procéder au balisage des ensembles de données).
Tim, peux-tu voir mon