Registry: 将类别添加到数据集

创建于 2020-11-03  ·  20评论  ·  资料来源: gbif/registry

当前的Dataset有类型和子类型,这有点问题。 Type确实表示 DwC-A 中使用的行格式,并且会导致问题,因为清单可以有出现,而出现数据集实际上可以是采样事件数据的输出。

更好地使用SubType可能会有所帮助,但我觉得由于重叠(例如具有子类型采样事件的发生数据集)可能会增加更多混乱。

由于 API 现在被很好地使用并且改变它是破坏性的,我建议引入一个名为category的新多值字段来对数据集进行分类。 随着时间的推移,我们可以弃用类型和子类型。

这些类别将包括以下内容(经过编辑以包括来自以下聊天的建议):

  1. 公民科学数据
  2. 观测数据
  3. 自然历史收藏
    一种。 考虑将化石作为一个单独的类别分开,以避免意外误用
  4. 单个生物体测序(即来自 NHM 标本的组织)
    一种。 考虑添加组织样本(可能会或可能不会被测序)以帮助发现保存的组织,而无需使用模棱两可的其他术语
  5. 环境 DNA 和/或宏基因组学(例如土壤样本、水、昆虫汤等)
  6. 靶向物种检测(基于 PCR 的检测)
  7. 长期监测数据
  8. 采样事件(使用了某些协议)
  9. 清单数据
  10. 材料引用(例如文献中的分类处理)
  11. 私营部门数据
    一种。 考虑将其分为更精细的类别(例如开发前环境影响评估的支持数据)与其他类别(待定义)
  12. 跟踪数据(即个体生物的重新捕获或 GPS 跟踪)
  13. 机器观察(例如相机陷阱)

多个类别将在索引时添加到每个出现记录,从而允许在 GBIF.org 中添加直观的过滤器,以便人们可以选择打开/关闭他们感兴趣的数据集类别。

CC @ahahn-gbif @MortenHofft特别评论

所有20条评论

谢谢!

~假设这也将支持度量(并且理解多值意味着一个数据集可以属于多个类别),我想补充一下~
〜9。 私营部门数据~
〜10。 跟踪数据(即个体生物的重新捕获或 GPS 跟踪)~

[蒂姆:谢谢-在上面添加!]

问题: 4. 宏基因组(eDNA)应该是两个独立的类别吗? 尽管它们都是“基于序列的” @ManonGros ,但对这些数据的解释存在很大差异,您会发表评论吗?

[蒂姆编辑添加:我现在已经将它们分开,但会根据更多评论再次更改]

机器观察似乎是采样事件的一个子类别。

机器观察似乎是采样事件的一个子类别。

没关系,不是吗? 因为它是多值的,所以可以将数据集标记为两者或仅标记为采样事件,或者在不使用实际采样协议的情况下,机器观察可能是合适的。

这个新类别将是使用词汇服务器的自由文本吗? 还是我们试图定义所有类别?

这个新类别将是使用词汇服务器的自由文本吗? 还是我们试图定义所有类别?

〜未定,但在这一点上,我们正在提出类别〜

修订:我现在建议使用词汇服务器,如本线程后面所述。

伟大的! 我喜欢这个主意!

~只有一条评论:~
~> 4. 单一生物宏基因组(即来自 NHM 标本的组织)~
~> 5. 环境eDNA(如土壤样本、水、昆虫汤等)~

~ 4 号似乎不对。 我在阅读“单一有机体宏基因组”时所理解的是,有人(例如)采集了一头牛的肠道样本并对其进行测序,导致肠道微生物组出现了一堆事件。 估计不是这个意思吧?~
〜如果您的意思是对来自标本的组织进行了测序,那么我会写更多类似“单个生物体测序”的内容。 实际上,我们可以将宏基因组学与 eDNA 组合在一起(通常 eDNA 是宏基因组学)。 所以最后,我认为我们可以这样做:~

〜4。 单个生物体测序(即来自 NHM 标本的组织)~
〜5。 环境 eDNA 和/或宏基因组学(例如土壤样本、水、昆虫汤等)~

[蒂姆:编辑了这里表达的建议-谢谢,你确实明白我的意图!]

也许@thomasstjerne 对此有一些想法?

添加了靶向物种检测(基于 PCR 的检测)

感谢@timrobertson100让我意识到这个话题,非常令人兴奋。 到目前为止,我发现了八个可能决定 GBIF 中证据/数据集类型的自变量。 在在这里发表我的观点之前,我需要多打坐,如果有人有空,我很乐意进行头脑风暴/白板?

跟踪这一点

大家好,我喜欢对数据集和证据类型进行排序的想法,但我不确定使用单个过滤器/词汇表对用户来说是否最有吸引力(但我得到了 Tim 提出的可行性)。 我画了一些思维导图,但没有时间在这里添加图片,所以只需输入您的考虑。 我开始思考为什么用户需要对数据集/证据类型进行排序? 这是一种根据证据的生成方式及其属性来快速输入/排除对您的案例重要的数据类型的方法。 我想出了 8 个独立变量,它们跨越了数据集的建议分类和我们今天拥有的 basicOfRecord 词汇表。 请注意,我认为独立工作在这里很重要,尽管下面 1-8 的某些组合在现实生活中是不可能的。

我用松散的词来描述我的想法,这不是我建议的词汇,并且有一些未解决的重叠:

  1. 证据的保存状态:仅虚拟或物理:化石、死者、活物(动物园、文化、花园、水族馆)。 请注意,有些人认为琥珀不容易放置,因为可以从琥珀中获取 DNA,还有亚化石等)。 _问题_:我可以重新检查物理材料吗? 它是什么,在哪里?
  2. 完整性/N 种:单一和整体(例如昆虫,即在一个个体中包含其所有基因)、部分(组织样本、叶子、子实体)或混合标本(在苔藓和地衣采集中很常见,当采集单个物种时是不可能的:但不是有意采样,例如浮游生物,见 6)。 _问题_:我可以研究完整的形态,还是只研究一些特征,或者只将博物馆标本与 DNA 序列联系起来?
  3. DNA:未探索,测序,PCR。 注意:这是介于虚拟和物理之间,因为 DNA 或 PCR 产物可以长期(物理)存储,但物种存在的 DNA 证据(通常是序列)是机器生成的虚拟证据,与数字图像或一个声音。 _问题_:我可以重新检查鉴定,做系统发育,还是我只有一个标签名称?
  4. 动态/静态数据。 动态:跟踪、时间序列、标记重新捕获。 _问题_:我可以只研究过程,还是只研究模式?
  5. 证据生成方式:文献处理、馆藏数字化、个人观察、系统抽样。 _问题_:我可以根据生成的可靠性对数据进行排序吗?
  6. 对于采样事件数据,但也可能发生事件:仅存在(采样工作未知/未记录),存在不存在,丰度(定量)。 _问题_:可以进行哪些统计分析?
  7. 数据在 GBIF 中的打包方式:仅元数据、清单、仅事件、采样事件。 可能包括使用的扩展过滤器,特别是。 如果我们在 TDWG 中获得更多这样的信息。 _问题_:我在 GBIF 下载、逐字和 GBIF 解释中得到了什么?
  8. 生成数据的社区(也许这与标记发布者更相关,但可能需要通过以下方式过滤事件和数据集):(组)个人、自然历史收藏、私营部门、海洋、公民科学、机器。 其中一些并不相互排斥:可以是“自然历史收藏”+“公民科学”或“机器”。 _问题_:我可以研究特定人口统计领域的数据趋势吗?

再一次,这只是对未完成的想法的捕捉; 最好是集思广益/白板好分类的样子。 我正在考虑将其分割出来,例如原始帖子中的 1、7 和 13 可以同时为真。 如果这些是标签并且重叠没有问题,那么很好。 但如果这是严格的过滤器,我们可能需要的不仅仅是字段来捕获保存类型、生成社区、生成方式与量化等。如果超出范围,请随意丢弃。 我也没有找到 BoR 讨论的集合,这部分适用于这里。

我认为分类将来自我们(至少目前公民科学数据集是这样),但如果其他人也可以帮助进行管理,那就太好了。 只是要记住的事情。

例如,假设我们要求节点管理器检查标记为“公民科学”的数据集。 我们想要:

  1. 他们可以轻松地查看其节点的所有公民科学数据集。
  2. 如果节点管理器注意到错误标记的数据集,我们希望跟踪它,以便我们下次不会重新标记它。

查看此问题: https ://github.com/gbif/portal-feedback/issues/3381,我们将缺少data extracted from taxonomic literature (i.e., Plazi)类别。 你是对的,我错过了!

谢谢@ManonGros

查看这个问题:gbif/portal-feedback#3381,我们会丢失从分类文献(即 Plazi)类别中提取的数据。

这就是它的本意:

材料引用(例如文献中的分类处理)

(相关的是,Plazi 刚刚在 Darwin Core 问题中提议将Material citation添加到 baseOfRecord 词汇表中以供公众评论)

+1 @Dmitry一对多并使用关键字标签(而不是类别的 1:1 核心记录)
+1 @Marie考虑让 Node 员工管理类别 --> 并且还可以添加一个功能请求,使任何人都可以使用类别信息注释数据点/集(出处完整)

还要记住,“数据集”(如在 Darwin-Core-archive-dataset 中)可以是不同类别的“证据记录”(又名核心记录,例如,又名出现)的混合包——如果类别“标签”是旨在应用于 DwC-A 中的所有核心记录

并且“证据记录”(核心记录)的非规范化意味着人们无法确定与核心记录相关的给定属性旨在链接到哪个类别

我真的喜欢这个主意。 当然,ALA 的用户需要一种非常简单的方法来选择跨数据提供者的记录分组。 我从大多数人那里听到这个请求的是策展人/研究人员,他们“只是”想要博物馆或植物标本馆的标本。

几个建议:

  1. 自然历史收藏 - 对化石标本进行分类可能仍然有用,因此可以轻松地将它们分开。
    将化石分开的原因是亚化石(或任何仍然存在的化石物种)经常出现在现存分布之外,并且很容易被误认为是错误并被标记为错误,当它们完全合法时。
  1. 单个生物体测序(即来自 NHM 标本的组织)
    为组织样本添加一个额外的类别将非常有用,无论序列是否已导出。
    此类别的用户可能是寻求组织用于借出/破坏性采样的研究人员,他们目前必须搜索 BasisOfRecord = 材料样本加上准备工作运气。

  2. 私营部门数据——您是指在批准开发/采矿项目之前进行环境影响评估的公司收集的数据吗? 如果是这样,在澳大利亚,这通常被称为“支持者数据”(来自开发项目支持者的数据)。 如果私营部门的数据有其他含义,也许两者兼而有之?

还要记住,“数据集”(如在 Darwin-Core-archive-dataset 中)可以是不同类别的“证据记录”(又名核心记录,例如,又名出现)的混合包——如果类别“标签”是旨在应用于 DwC-A 中的所有核心记录

谢谢,@dagendresen。 我的想法是尝试将其与 Darwin Core 中的 class/basisOfRecord 问题分离,以便能够快速响应报告/用户需求(例如,为数据集引入新标签)。 承认可能存在“混合包”数据集,我的直觉是大多数用户会喜欢广泛的过滤,例如“忽略源自标记为 eDNA 的数据集的记录”,即使那里有一些可能感兴趣的条目,或根据来自标记为与私营部门相关的数据集的数据生成报告(例如增长图表)。 请问这看起来合理吗?

真的很喜欢这个主意

谢谢, @elywallis - 我现在将您的输入添加到顶部的列表中。

私营部门数据——您是指在批准开发/采矿项目之前进行环境影响评估的公司收集的数据吗?

我相信那是意图,是的。 我不知道细节,但我知道数据管理团队越来越多地使用这样的类别来运行趋势报告。 我会将您的评论添加到顶部列表中,而不提出最终决定。

有点题外话,但也许有用:

可能很多人都不知道,但是 GBIF 正在逐步将这样的词汇转移到我们的集成词汇服务器中。 这将允许数据管理器(例如,包括节点管理器@dagendresen )参与定义概念。 概念可以是分层的(例如,对私有数据进行更精细的分类),一旦发布了词汇表版本,就会在数据处理管道中获取它。 这仍在不断发展,但LifeStage现已投入生产。

这与这个问题相关的意思是,当我们发现新的报告或社区的数据集分类新要求时,我们将有适当的工具来适应这种情况,而无需软件开发人员参与(只需要词汇表即可进行更改,然后继续标记数据集)。

“混合包”数据集

@timrobertson100我会(如果被问到)完全同意最佳做法是避免“混合袋”数据集,并且启用过滤器以实现_“重用目的”_ 的“标签”将非常有用且受欢迎! 并且相信我们可以很好地使用这样的功能而不是 100% 应用于“混合包”数据集:-)

(适当——GBIF 挪威正在与挪威数据出版商“谈判”,将“混合包”数据集“分解”成更同质的较小数据集)

@timrobertson100写道:

有点题外话,但也许有用:

可能很多人都不知道,但是 GBIF 正在逐步将这样的词汇转移到我们的集成词汇服务器中。 这将允许数据管理器(例如,包括节点管理器@dagendresen )参与定义概念。 概念可以是分层的(例如,对私有数据进行更精细的分类),一旦发布了词汇表版本,就会在数据处理管道中获取它。 这仍在不断发展,但LifeStage现已投入生产。

这与这个问题相关的意思是,当我们发现新的报告或社区的数据集分类新要求时,我们将有适当的工具来适应这种情况,而无需软件开发人员参与(只需要词汇表即可进行更改,然后继续标记数据集)。

蒂姆,你能看到我的? 在某些时候,我们需要一些东西,来自 GBIF 的演讲,TDWG 网络研讨会,关于这项工作。 我认为更广泛的社区会发现它对我们如何使用我们拥有的数据来改进和理解数据非常有启发性。

此页面是否有帮助?
0 / 5 - 0 等级

相关问题

MortenHofft picture MortenHofft  ·  5评论

rukayaj picture rukayaj  ·  9评论

rukayaj picture rukayaj  ·  14评论

marcos-lg picture marcos-lg  ·  11评论

ManonGros picture ManonGros  ·  12评论