Registry: Kategorie zum Datensatz hinzufügen

Erstellt am 3. Nov. 2020  ·  20Kommentare  ·  Quelle: gbif/registry

Das aktuelle Dataset hat Typ und Untertyp, was etwas problematisch ist. Type gibt eigentlich das in DwC-A verwendete Zeilenformat an und verursacht Probleme, da eine Checkliste Vorkommen haben kann und ein Vorkommensdatensatz tatsächlich die Ausgabe von Stichprobenereignisdaten sein kann.

Eine bessere Verwendung von SubType kann hilfreich sein, aber ich denke, dass dies aufgrund der Überschneidung zu mehr Verwirrung führen könnte (z. B. ein Vorkommensdatensatz mit einem Untertyp-Stichprobenereignis).

Da die API mittlerweile so gut genutzt wird und eine Änderung störend ist, schlage ich vor, ein neues Feld mit mehreren Werten namens category einzuführen, um Datensätze zu kategorisieren. Mit der Zeit können wir Typ und Subtyp verwerfen.

Die Kategorien würden solche beinhalten (bearbeitet, um Vorschläge aufzunehmen, die aus dem Chat unten kamen):

  1. Citizen-Science-Daten
  2. Beobachtungsdaten
  3. Naturkundliche Sammlung
    A. Erwägen Sie, Fossilien als separate Kategorie auszusondern, um versehentlichen Missbrauch zu vermeiden
  4. Einzelorganismus sequenziert (d. h. Gewebe aus einer NHM-Probe)
    A. Erwägen Sie auch das Hinzufügen einer Gewebeprobe (die sequenziert sein kann oder nicht), um die Entdeckung von konserviertem Gewebe zu erleichtern, ohne auf mehrdeutige andere Begriffe zurückzugreifen
  5. Umwelt-DNA und/oder Metagenomik (z. B. Bodenprobe, Wasser, Insektensuppe etc.)
  6. Gezielter Artennachweis (PCR-basierte Assays)
  7. Langzeitüberwachungsdaten
  8. Sampling-Ereignis (bei dem ein Protokoll verwendet wurde)
  9. Checklistendaten
  10. Materialzitate (z. B. taxonomische Behandlungen in der Literatur)
  11. Daten des Privatsektors
    A. Erwägen Sie eine Aufteilung in feinere Kategorien (z. B. Befürworterdaten für die Umweltverträglichkeitsprüfung vor der Entwicklung) gegenüber anderen Kategorien (zu definieren).
  12. Trackingdaten (z. B. Wiedereinfänge oder GPS-Tracking einzelner Organismen)
  13. Maschinenbeobachtung (z. B. Kamerafalle)

Die mehreren Kategorien würden bei der Indexierung zu jedem Vorkommensdatensatz hinzugefügt, sodass ein intuitiver Filter in GBIF.org hinzugefügt werden kann, sodass Benutzer die Datensatzkategorien, die sie interessieren, ein- oder ausschalten können.

CC @ahahn-gbif @MortenHofft insbesondere für Kommentare

Alle 20 Kommentare

Danke!

~Angenommen, dies wird auch Metriken unterstützen (und verstehen, dass Multivalue bedeutet, dass ein Datensatz zu mehr als einer Kategorie gehören kann), möchte ich hinzufügen~
~9. Daten des Privatsektors~
~10. Tracking-Daten (dh Wiedereinfänge oder GPS-Tracking einzelner Organismen)~

[Tim: Danke – oben hinzugefügt!]

Frage: Sollten 4. Metagenomik (eDNA) zwei getrennte Kategorien sein? Es gibt einen ziemlichen Unterschied in der Interpretation dieser Daten, obwohl sie beide "sequenzbasiert" sind @ManonGros , würden Sie das kommentieren?

[Tim Bearbeitet, um hinzuzufügen: Ich habe sie jetzt oben aufgeteilt, werde sie aber aufgrund weiterer Kommentare wieder ändern]

Maschinenbeobachtung scheint eine Unterkategorie von Sampling Event zu sein.

Maschinenbeobachtung scheint eine Unterkategorie von Sampling Event zu sein.

Das ist ok, oder? Da es sich um einen mehrwertigen Datensatz handelt, kann er als beides oder nur als Stichprobenereignis markiert werden, oder vielleicht gibt es Fälle, in denen eine maschinelle Beobachtung angebracht wäre, wenn kein echtes Stichprobenprotokoll verwendet wird.

Diese neue Kategorie wäre Freitext unter Verwendung des Vokabelservers? Oder versuchen wir, alle Kategorien zu definieren?

Diese neue Kategorie wäre Freitext unter Verwendung des Vokabelservers? Oder versuchen wir, alle Kategorien zu definieren?

~Unentschlossen, aber an dieser Stelle schlagen wir die Kategorien vor~

Überarbeitet: Ich würde jetzt den Vokabelserver vorschlagen, wie später in diesem Thread beschrieben.

Toll! Ich liebe die Idee!

~Nur ein Kommentar:~
~> 4. Metagenomischer Einzelorganismus (dh Gewebe aus einer NHM-Probe)~
~> 5. Umwelt-eDNA (zB Bodenprobe, Wasser, Insektensuppe etc)~

~ Nummer 4 scheint nicht richtig zu sein. Was ich verstehe, wenn ich „Single organism metagenomic“ lese, ist, dass jemand eine Darmprobe einer Kuh (zum Beispiel) genommen und sequenziert hat, was zu einer Reihe von Vorkommen für das Darmmikrobiom führte. Ich schätze, das ist nicht die Idee, oder?~
~Wenn Sie meinen, dass Gewebe aus einer Probe sequenziert wurden, dann würde ich etwas mehr in die Richtung von "Einzelner Organismus sequenziert" schreiben. Und eigentlich könnten wir Metagenomik mit eDNA gruppieren (oft ist eDNA Metagenomik). Am Ende denke ich, dass wir so etwas machen könnten:~

~4. Einzelner Organismus sequenziert (dh Gewebe aus einer NHM-Probe)~
~5. Umwelt-eDNA und/oder Metagenomik (z. B. Bodenprobe, Wasser, Insektensuppe usw.)~

[Tim: Bearbeitet mit hier geäußerten Vorschlägen - danke, du hast tatsächlich verstanden, was ich beabsichtigt habe!]

Vielleicht hat @thomasstjerne ein paar Gedanken dazu?

Zielspezies-Nachweis (PCR-basierte Assays) hinzugefügt

Danke @timrobertson100 , dass du mich auf den Thread aufmerksam gemacht hast, sehr spannend. Bisher habe ich acht wahrscheinliche unabhängige Variablen gefunden, die den Evidenz-/Datensatztyp in GBIF bestimmen können. Ich muss ein bisschen mehr meditieren, bevor ich meine Ansichten hier präsentiere, und gerne ein bisschen Brainstorming / Whiteboard machen, wenn Leute verfügbar sind?

Behalten Sie auch dies im Auge

Hallo zusammen, ich mag die Idee, Datensätze und Arten von Beweisen zu sortieren, aber ich bin mir nicht sicher, ob es für Benutzer am attraktivsten ist, dies mit einem einzigen Filter / Vokabular zu tun (aber ich habe die Machbarkeit wie von Tim angegeben). Ich habe einige Mind Maps gezeichnet, aber ich habe keine Zeit, hier Bilder hinzuzufügen, also tippen Sie einfach für Ihre Überlegung. Ich begann mit dem Gedanken, warum Benutzer Datensätze / Arten von Beweisen sortieren müssen? Auf diese Weise können Sie Datentypen, die für Ihre Fälle von Bedeutung sind, basierend auf der Art und Weise, wie die Beweise generiert wurden, und ihren Eigenschaften schnell ein- oder ausschließen. Ich habe 8 unabhängige Variablen entwickelt, die sich mit der vorgeschlagenen Kategorisierung des Datensatzes und dem basisOfRecord-Vokabular, wie wir es heute haben, überschneiden. Beachten Sie, dass ich denke, dass die unabhängige Arbeit hier wichtig ist, obwohl einige der Kombinationen von 1-8 unten im wirklichen Leben unmöglich sind.

Ich verwende lose Worte, um mein Denken zu beschreiben, dies ist kein Vokabular, das ich vorschlage, und es gibt einige ungelöste Überschneidungen:

  1. Erhaltungszustand der Beweise: nur virtuell oder physisch: fossil, tot, lebend (Zoos, Kulturen, Gärten, Aquarien). Beachten Sie, dass einige Dinge wie Bernstein nicht leicht zu platzieren sind, da man DNA aus Bernstein gewinnen kann, es Subfossilien gibt usw.). _Frage_: Kann ich das physische Material erneut untersuchen? Was und wo ist es?
  2. Integrität / N Arten: Einzelnes & ganzes (z. B. Insekt, dh enthält alle seine Gene in einem Individuum), partielles (Gewebeprobe, Blatt, Fruchtkörper) oder gemischtes Exemplar (häufig beim Sammeln von Moosen und Flechten, wenn das Sammeln einzelner Arten nicht möglich ist). : ist aber keine absichtliche Probenahme, zB wie bei Plankton siehe 6). _Frage_: Kann ich die vollständige Morphologie untersuchen oder nur einige Merkmale oder nur Museumsproben mit der DNA-Sequenz verknüpfen?
  3. DNA: nicht untersucht, Sequenz, PCR. Hinweis: Dies liegt zwischen virtuell und physisch, da DNA- oder PCR-Produkte für lange Zeit (physisch) gespeichert werden können, aber DNA-Beweise für das Vorhandensein von Arten, oft eine Sequenz, sind ein maschinell erzeugter virtueller Beweis, der sich nicht wesentlich von einem digitalen Bild unterscheidet oder ein Ton. _Frage_: Kann ich die Identifizierung noch einmal überprüfen, die Phylogenie durchführen oder alles, was ich habe, ist ein Markenname?
  4. Dynamische / Statische Daten. Dynamisch: Tracking, Zeitreihen, Markenwiedereroberung. _Frage_: Kann ich nur Prozesse oder nur Muster studieren?
  5. Die Art und Weise der Evidenzgenerierung: Literaturbearbeitung, Sammlungsdigitalisierung, persönliche Beobachtungen, systematisches Sampling. _Frage_: Kann ich die Daten nach Zuverlässigkeit ihrer Erzeugung sortieren?
  6. Für die Erfassung von Ereignisdaten, aber möglicherweise auch Vorkommnissen: Präsenz-only (Probenahmeaufwand unbekannt / undokumentiert), Präsenz-Abwesenheit, Abundanz (quantitativ). _Frage_: Welche statistischen Auswertungen sind möglich?
  7. Die Art und Weise, wie Daten in GBIF gepackt werden: nur Metadaten, Checkliste, nur Ereignisse, Stichprobenereignis. Kann Filter nach verwendeter Erweiterung enthalten, insb. wenn wir mehr davon in TDWG bekommen. _Frage_: Was bekomme ich in meinem GBIF-Download, wörtlich und GBIF interpretiert?
  8. Gemeinschaft, die die Daten generiert (vielleicht ist dies relevanter für das Taggen von Verlagen, aber man muss eventuell Vorkommnisse und Datensätze filtern nach): (Gruppen von) Einzelpersonen, naturhistorischen Sammlungen, Privatsektor, Marine, Citizen Science, Maschine. Einige davon schließen sich nicht gegenseitig aus: Sie können „Naturhistorische Sammlung“ + „Citizen Science“ oder „Maschine“ sein. _Frage_: Kann ich Datentrends in einem bestimmten demografischen Sektor untersuchen?

Noch einmal, dies ist nur eine Erfassung unvollendeter Gedanken; Es wäre schön, ein Brainstorming / Whiteboard zu machen, wie eine gute Kategorisierung aussehen würde. Ich dachte daran, es herauszuschneiden, da zB 1, 7 und 13 im ursprünglichen Beitrag gleichzeitig wahr sein können. Wenn es sich um Tags handelt und Überlappungen kein Problem darstellen, dann ist das in Ordnung. Aber wenn dies ein strenger Filter ist, benötigen wir möglicherweise mehr als nur ein Feld, um Arten der Erhaltung vs. Generierung von Gemeinschaft vs. Arten der Generierung vs. Quantität usw. zu erfassen. Sie können es gerne verwerfen, wenn es außerhalb des Geltungsbereichs liegt. Auch die Sammlung von BoR-Diskussionen, die hier teilweise anwendbar ist, habe ich nicht gefunden.

Ich nehme an, die Kategorisierungen würden von uns kommen (zumindest ist das im Moment bei Citizen-Science-Datensätzen so), aber es wäre toll, wenn andere Leute auch bei der Kuration helfen könnten. Nur etwas zu beachten.

Nehmen wir zum Beispiel an, dass wir Node-Manager bitten, die Datensätze mit dem Tag „Citizen Science“ zu überprüfen. Wir wollen:

  1. Eine einfache Möglichkeit für sie, alle Citizen Science-Datensätze für ihren Knoten anzuzeigen.
  2. Wenn ein Node-Manager einen falsch getaggten Datensatz bemerkt, möchten wir dies nachverfolgen, damit wir ihn beim nächsten Mal nicht erneut mit Tags versehen.

Wenn wir uns dieses Problem ansehen: https://github.com/gbif/portal-feedback/issues/3381 , würde uns die Kategorie data extracted from taxonomic literature (i.e., Plazi) fehlen. Du hast Recht, ich habe es übersehen!

Danke @ManonGros

Betrachtet man diese Ausgabe: gbif/portal-feedback#3381, würden uns die Daten fehlen, die aus der Kategorie der taxonomischen Literatur (dh Plazi) extrahiert wurden.

Das war beabsichtigt:

Materialzitate (z. B. taxonomische Behandlungen in der Literatur)

(Im Zusammenhang damit steht, dass Plazi gerade Material citation als Ergänzung zum basisOfRecord-Vokabular in den Darwin Core-Ausgaben für öffentliche Kommentare vorgeschlagen hat.)

+1 @Dmitry für einen zu vielen und die Verwendung von Schlüsselwort-Tags (anstelle eines 1:1-Kerndatensatzes zur Kategorie)
+1 @Marie für die Überlegung, Node-Mitarbeitern das Kuratieren von Kategorien zu ermöglichen --> und kann auch eine Feature-Anfrage hinzufügen, um es jedem zu ermöglichen, einen Datenpunkt / Satz mit Kategorieinformationen (mit intakter Herkunft) zu kommentieren.

Denken Sie auch daran, dass ein "Datensatz" (wie in Darwin-Core-Archive-Dataset) eine gemischte Tüte von "Beweisaufzeichnungen" (auch bekannt als Kerndatensatz, z. B. aka Ereignisse) verschiedener Kategorien sein kann - wenn eine Kategorie "Tag" ist entworfen, um auf alle Kernaufzeichnungen in einem DwC-A anzuwenden

Und dass die Denormalisierung der "Beweisdatensätze" (Kerndatensätze) bedeutet, dass man nicht sicher sein kann, mit welcher Klasse eine bestimmte Eigenschaft, die mit einem Kerndatensatz verknüpft ist, verknüpft werden soll

Ich mag diese Idee wirklich. Sicherlich hat die ALA Benutzer, die eine sehr einfache Möglichkeit suchen, Gruppierungen von Datensätzen über Datenanbieter hinweg auszuwählen. Die Gruppe, von der ich diese Anfrage meistens höre, sind Kuratoren/Forscher, die „nur“ Museums- oder Herbarexemplare haben wollen.

Ein paar Vorschläge:

  1. Naturkundliche Sammlung - könnte dennoch nützlich sein, auch eine Kategorie für Fossilien zu haben, damit diese leicht getrennt werden können.
    Der Grund für die Aussonderung von Fossilien ist, dass Subfossilien (oder alle noch vorhandenen fossilen Arten) oft außerhalb der vorhandenen Verbreitung auftauchen und leicht mit Fehlern verwechselt und als solche gekennzeichnet werden können, wenn sie absolut legitim sind.
  1. Einzelorganismus sequenziert (d. h. Gewebe aus einer NHM-Probe)
    Es wäre sehr nützlich, eine zusätzliche Kategorie für Gewebeproben zu haben, unabhängig davon, ob Sequenzen abgeleitet wurden oder nicht.
    Nutzer dieser Kategorie können Forscher sein, die Gewebe zur Leihe/zerstörende Probenahme suchen, die derzeit BasisOfRecord = Materialprobe plus Präparate-Potenzial suchen müssen.

  2. Daten des Privatsektors – meinen Sie Daten, die von Unternehmen gesammelt wurden, die vor der Genehmigung von Entwicklungs-/Bergbauprojekten Umweltverträglichkeitsprüfungen durchführen? Wenn dies der Fall ist, würde dies in Australien allgemein als „Befürworterdaten“ bezeichnet (d. h. Daten von Befürwortern einer Entwicklung). Wenn Daten des Privatsektors etwas anderes bedeuten, könnten Sie vielleicht beides haben?

Denken Sie auch daran, dass ein "Datensatz" (wie in Darwin-Core-Archive-Dataset) eine gemischte Tüte von "Beweisaufzeichnungen" (auch bekannt als Kerndatensatz, z. B. aka Ereignisse) verschiedener Kategorien sein kann - wenn eine Kategorie "Tag" ist entworfen, um auf alle Kernaufzeichnungen in einem DwC-A anzuwenden

Danke, @dagendresen. Mein Gedanke war hier, zu versuchen, dies von den Class/basisOfRecord-Problemen in Darwin Core zu entkoppeln, um in der Lage zu sein, schnell auf Berichterstellungs-/Benutzeranforderungen zu reagieren (z. B. ein neues Tag für Datensätze einzuführen). In Anbetracht dessen, dass es "gemischte" Datensätze geben kann, bin ich der Meinung, dass die meisten Benutzer eine breite Filterung begrüßen würden, um z. oder um Berichte (z. B. Wachstumsdiagramme) zu erstellen, die z. B. auf Daten basieren, die aus Datensätzen stammen, die als privatsektorbezogen gekennzeichnet sind. Scheint das vernünftig zu sein, bitte?

mag diese Idee wirklich

Danke, @elywallis – ich füge deinen Beitrag jetzt der Liste ganz oben hinzu.

Daten des Privatsektors – meinen Sie Daten, die von Unternehmen gesammelt wurden, die vor der Genehmigung von Entwicklungs-/Bergbauprojekten Umweltverträglichkeitsprüfungen durchführen?

Ich glaube, das war Absicht, ja. Ich kenne die Details nicht, aber ich bin mir bewusst, dass das Datenverwaltungsteam zunehmend Berichte über Trends erstellt, die Kategorien wie diese verwenden. Ich werde Ihre Kommentare in die Top-Liste aufnehmen, ohne eine endgültige Entscheidung vorzuschlagen.

Etwas off-topic, aber vielleicht hilfreich:

Es mag vielen nicht bekannt sein, aber GBIF verschiebt Vokabeln wie diese nach und nach in unseren integrierten Vokabelserver. Dadurch können Datenmanager (z. B. auch Knotenmanager @dagendresen ) an der Definition der Konzepte beteiligt werden. Konzepte können hierarchisch sein (z. B. feinere Kategorisierung privater Daten) und sobald eine Vokabularversion veröffentlicht ist, wird sie in die Datenverarbeitungspipelines übernommen. Dies befindet sich noch in der Entwicklung, aber LifeStage befindet sich jetzt in der Produktion.

In Bezug auf dieses Problem bedeutet dies, dass wir, wenn wir neue Anforderungen zum Kategorisieren von Datensätzen für einen neuen Bericht oder eine neue Community finden, die sich herausbilden, über die Tools verfügen, um dies zu berücksichtigen, ohne dass ein Softwareentwickler beteiligt werden muss (erfordert nur ein Vokabular für geändert werden, und fahren Sie dann mit dem Markieren von Datensätzen fort).

„Mixed Bag“-Datensätze

@timrobertson100 Ich würde (falls gefragt) voll und ganz zustimmen, dass es am besten ist, Datensätze mit gemischten Beuteln zu vermeiden, und dass ein „Tag“, um einen Filter für einen _„Zweck der Wiederverwendung“_ zu aktivieren, sehr nützlich und willkommen wäre! Und glauben, dass wir gut damit leben könnten, dass solche Funktionen nicht zu 100 % auf "Mixed Bag"-Datensätze angewendet werden :-)

(Apropos – GBIF Norwegen „verhandelt“ mit norwegischen Datenherausgebern, um „gemischte“ Datensätze in kleinere Datensätze zu „aufteilen“, die homogener wären)

@timrobertson100 schrieb:

Etwas off-topic, aber vielleicht hilfreich:

Es ist vielen vielleicht nicht bekannt, aber GBIF verschiebt Vokabeln wie diese nach und nach in unseren integrierten Vokabelserver. Dadurch können Datenmanager (z. B. auch Knotenmanager @dagendresen ) an der Definition der Konzepte beteiligt werden. Konzepte können hierarchisch sein (z. B. feinere Kategorisierung privater Daten) und sobald eine Vokabularversion veröffentlicht ist, wird sie in die Datenverarbeitungspipelines übernommen. Dies befindet sich noch in der Entwicklung, aber LifeStage befindet sich jetzt in der Produktion.

In Bezug auf dieses Problem bedeutet dies, dass wir, wenn wir neue Anforderungen zum Kategorisieren von Datensätzen für einen neuen Bericht oder eine neue Community finden, die sich herausbilden, über die Tools verfügen, um dies zu berücksichtigen, ohne dass ein Softwareentwickler beteiligt werden muss (erfordert nur ein Vokabular für geändert werden, und fahren Sie dann mit dem Markieren von Datensätzen fort).

Tim, kannst du meine sehen? Irgendwann brauchen wir etwas, einen Vortrag von GBIF, ein TDWG-Webinar, über diese Bemühungen. Ich denke, die breitere Gemeinschaft wird es sehr aufschlussreich finden, wie wir die uns zur Verfügung stehenden Daten nutzen können, um die Daten zu verbessern und zu verstehen.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen