当前的Dataset
有类型和子类型,这有点问题。 Type
确实表示 DwC-A 中使用的行格式,并且会导致问题,因为清单可以有出现,而出现数据集实际上可以是采样事件数据的输出。
更好地使用SubType
可能会有所帮助,但我觉得由于重叠(例如具有子类型采样事件的发生数据集)可能会增加更多混乱。
由于 API 现在被很好地使用并且改变它是破坏性的,我建议引入一个名为category
的新多值字段来对数据集进行分类。 随着时间的推移,我们可以弃用类型和子类型。
这些类别将包括以下内容(经过编辑以包括来自以下聊天的建议):
多个类别将在索引时添加到每个出现记录,从而允许在 GBIF.org 中添加直观的过滤器,以便人们可以选择打开/关闭他们感兴趣的数据集类别。
CC @ahahn-gbif @MortenHofft特别评论
谢谢!
~假设这也将支持度量(并且理解多值意味着一个数据集可以属于多个类别),我想补充一下~
〜9。 私营部门数据~
〜10。 跟踪数据(即个体生物的重新捕获或 GPS 跟踪)~
[蒂姆:谢谢-在上面添加!]
问题: 4. 宏基因组(eDNA)应该是两个独立的类别吗? 尽管它们都是“基于序列的” @ManonGros ,但对这些数据的解释存在很大差异,您会发表评论吗?
[蒂姆编辑添加:我现在已经将它们分开,但会根据更多评论再次更改]
机器观察似乎是采样事件的一个子类别。
机器观察似乎是采样事件的一个子类别。
没关系,不是吗? 因为它是多值的,所以可以将数据集标记为两者或仅标记为采样事件,或者在不使用实际采样协议的情况下,机器观察可能是合适的。
这个新类别将是使用词汇服务器的自由文本吗? 还是我们试图定义所有类别?
这个新类别将是使用词汇服务器的自由文本吗? 还是我们试图定义所有类别?
〜未定,但在这一点上,我们正在提出类别〜
修订:我现在建议使用词汇服务器,如本线程后面所述。
伟大的! 我喜欢这个主意!
~只有一条评论:~
~> 4. 单一生物宏基因组(即来自 NHM 标本的组织)~
~> 5. 环境eDNA(如土壤样本、水、昆虫汤等)~
~ 4 号似乎不对。 我在阅读“单一有机体宏基因组”时所理解的是,有人(例如)采集了一头牛的肠道样本并对其进行测序,导致肠道微生物组出现了一堆事件。 估计不是这个意思吧?~
〜如果您的意思是对来自标本的组织进行了测序,那么我会写更多类似“单个生物体测序”的内容。 实际上,我们可以将宏基因组学与 eDNA 组合在一起(通常 eDNA 是宏基因组学)。 所以最后,我认为我们可以这样做:~
〜4。 单个生物体测序(即来自 NHM 标本的组织)~
〜5。 环境 eDNA 和/或宏基因组学(例如土壤样本、水、昆虫汤等)~
[蒂姆:编辑了这里表达的建议-谢谢,你确实明白我的意图!]
也许@thomasstjerne 对此有一些想法?
添加了靶向物种检测(基于 PCR 的检测)
感谢@timrobertson100让我意识到这个话题,非常令人兴奋。 到目前为止,我发现了八个可能决定 GBIF 中证据/数据集类型的自变量。 在在这里发表我的观点之前,我需要多打坐,如果有人有空,我很乐意进行头脑风暴/白板?
跟踪这一点
大家好,我喜欢对数据集和证据类型进行排序的想法,但我不确定使用单个过滤器/词汇表对用户来说是否最有吸引力(但我得到了 Tim 提出的可行性)。 我画了一些思维导图,但没有时间在这里添加图片,所以只需输入您的考虑。 我开始思考为什么用户需要对数据集/证据类型进行排序? 这是一种根据证据的生成方式及其属性来快速输入/排除对您的案例重要的数据类型的方法。 我想出了 8 个独立变量,它们跨越了数据集的建议分类和我们今天拥有的 basicOfRecord 词汇表。 请注意,我认为独立工作在这里很重要,尽管下面 1-8 的某些组合在现实生活中是不可能的。
我用松散的词来描述我的想法,这不是我建议的词汇,并且有一些未解决的重叠:
再一次,这只是对未完成的想法的捕捉; 最好是集思广益/白板好分类的样子。 我正在考虑将其分割出来,例如原始帖子中的 1、7 和 13 可以同时为真。 如果这些是标签并且重叠没有问题,那么很好。 但如果这是严格的过滤器,我们可能需要的不仅仅是字段来捕获保存类型、生成社区、生成方式与量化等。如果超出范围,请随意丢弃。 我也没有找到 BoR 讨论的集合,这部分适用于这里。
我认为分类将来自我们(至少目前公民科学数据集是这样),但如果其他人也可以帮助进行管理,那就太好了。 只是要记住的事情。
例如,假设我们要求节点管理器检查标记为“公民科学”的数据集。 我们想要:
查看此问题: https ://github.com/gbif/portal-feedback/issues/3381,我们将缺少 你是对的,我错过了!data extracted from taxonomic literature (i.e., Plazi)
类别。
谢谢@ManonGros
查看这个问题:gbif/portal-feedback#3381,我们会丢失从分类文献(即 Plazi)类别中提取的数据。
这就是它的本意:
材料引用(例如文献中的分类处理)
(相关的是,Plazi 刚刚在 Darwin Core 问题中提议将Material citation
添加到 baseOfRecord 词汇表中以供公众评论)
+1 @Dmitry一对多并使用关键字标签(而不是类别的 1:1 核心记录)
+1 @Marie考虑让 Node 员工管理类别 --> 并且还可以添加一个功能请求,使任何人都可以使用类别信息注释数据点/集(出处完整)
还要记住,“数据集”(如在 Darwin-Core-archive-dataset 中)可以是不同类别的“证据记录”(又名核心记录,例如,又名出现)的混合包——如果类别“标签”是旨在应用于 DwC-A 中的所有核心记录
并且“证据记录”(核心记录)的非规范化意味着人们无法确定与核心记录相关的给定属性旨在链接到哪个类别
我真的喜欢这个主意。 当然,ALA 的用户需要一种非常简单的方法来选择跨数据提供者的记录分组。 我从大多数人那里听到这个请求的是策展人/研究人员,他们“只是”想要博物馆或植物标本馆的标本。
几个建议:
单个生物体测序(即来自 NHM 标本的组织)
为组织样本添加一个额外的类别将非常有用,无论序列是否已导出。
此类别的用户可能是寻求组织用于借出/破坏性采样的研究人员,他们目前必须搜索 BasisOfRecord = 材料样本加上准备工作运气。
私营部门数据——您是指在批准开发/采矿项目之前进行环境影响评估的公司收集的数据吗? 如果是这样,在澳大利亚,这通常被称为“支持者数据”(来自开发项目支持者的数据)。 如果私营部门的数据有其他含义,也许两者兼而有之?
还要记住,“数据集”(如在 Darwin-Core-archive-dataset 中)可以是不同类别的“证据记录”(又名核心记录,例如,又名出现)的混合包——如果类别“标签”是旨在应用于 DwC-A 中的所有核心记录
谢谢,@dagendresen。 我的想法是尝试将其与 Darwin Core 中的 class/basisOfRecord 问题分离,以便能够快速响应报告/用户需求(例如,为数据集引入新标签)。 承认可能存在“混合包”数据集,我的直觉是大多数用户会喜欢广泛的过滤,例如“忽略源自标记为 eDNA 的数据集的记录”,即使那里有一些可能感兴趣的条目,或根据来自标记为与私营部门相关的数据集的数据生成报告(例如增长图表)。 请问这看起来合理吗?
真的很喜欢这个主意
谢谢, @elywallis - 我现在将您的输入添加到顶部的列表中。
私营部门数据——您是指在批准开发/采矿项目之前进行环境影响评估的公司收集的数据吗?
我相信那是意图,是的。 我不知道细节,但我知道数据管理团队越来越多地使用这样的类别来运行趋势报告。 我会将您的评论添加到顶部列表中,而不提出最终决定。
有点题外话,但也许有用:
可能很多人都不知道,但是 GBIF 正在逐步将这样的词汇转移到我们的集成词汇服务器中。 这将允许数据管理器(例如,包括节点管理器@dagendresen )参与定义概念。 概念可以是分层的(例如,对私有数据进行更精细的分类),一旦发布了词汇表版本,就会在数据处理管道中获取它。 这仍在不断发展,但LifeStage现已投入生产。
这与这个问题相关的意思是,当我们发现新的报告或社区的数据集分类新要求时,我们将有适当的工具来适应这种情况,而无需软件开发人员参与(只需要词汇表即可进行更改,然后继续标记数据集)。
“混合包”数据集
@timrobertson100我会(如果被问到)完全同意最佳做法是避免“混合袋”数据集,并且启用过滤器以实现_“重用目的”_ 的“标签”将非常有用且受欢迎! 并且相信我们可以很好地使用这样的功能而不是 100% 应用于“混合包”数据集:-)
(适当——GBIF 挪威正在与挪威数据出版商“谈判”,将“混合包”数据集“分解”成更同质的较小数据集)
@timrobertson100写道:
有点题外话,但也许有用:
可能很多人都不知道,但是 GBIF 正在逐步将这样的词汇转移到我们的集成词汇服务器中。 这将允许数据管理器(例如,包括节点管理器@dagendresen )参与定义概念。 概念可以是分层的(例如,对私有数据进行更精细的分类),一旦发布了词汇表版本,就会在数据处理管道中获取它。 这仍在不断发展,但LifeStage现已投入生产。
这与这个问题相关的意思是,当我们发现新的报告或社区的数据集分类新要求时,我们将有适当的工具来适应这种情况,而无需软件开发人员参与(只需要词汇表即可进行更改,然后继续标记数据集)。
蒂姆,你能看到我的