El Dataset
actual tiene un tipo y subtipo que es un poco problemático. Type
realmente indica el formato de fila utilizado en el DwC-A y causa problemas ya que una lista de verificación puede tener ocurrencias, y un conjunto de datos de ocurrencia puede ser, de hecho, la salida de datos de eventos de muestreo.
Un mejor uso de SubType
puede ayudar, pero creo que podría generar más confusión debido a la superposición (por ejemplo, un conjunto de datos de ocurrencia con un evento de muestreo de subtipo).
Dado que la API ahora se usa tan bien y cambiar esto es disruptivo, propongo introducir un nuevo campo de valores múltiples llamado category
para categorizar conjuntos de datos. Con el tiempo podemos desaprobar el tipo y el subtipo.
Las categorías incluirían los gustos de (editado para incluir sugerencias que vinieron del chat a continuación):
Las múltiples categorías se agregarían a cada registro de ocurrencia en la indexación, lo que permitiría agregar un filtro intuitivo en GBIF.org para que las personas puedan activar o desactivar las categorías de conjuntos de datos que les interesen.
CC @ahahn-gbif @MortenHofft para comentarios en particular
¡Gracias!
~Asumiendo que esto también admitirá métricas (y entendiendo que multivalor significa que un conjunto de datos puede pertenecer a más de una categoría), me gustaría agregar~
~9. datos del sector privado ~
~10. datos de seguimiento (es decir, recapturas o seguimiento GPS de organismos individuales)~
[Tim: Gracias - ¡Agregado arriba!]
Pregunta: ¿4. la metagenómica (eDNA) debería ser dos categorías separadas? Hay una gran diferencia en la interpretación de estos datos, a pesar de que ambos están "basados en secuencias" @ManonGros , ¿podría comentar?
[Tim Editado para agregar: los he dividido arriba ahora, pero cambiaré nuevamente en función de más comentarios]
La observación de la máquina parece una subcategoría del evento de muestreo.
La observación de la máquina parece una subcategoría del evento de muestreo.
Eso está bien, ¿no? Debido a que es multivalor, un conjunto de datos se puede marcar como ambos o solo como un evento de muestreo, o tal vez hay casos en los que una observación de la máquina sería apropiada donde no se usa un protocolo de muestreo real.
¿Esta nueva categoría sería texto libre usando el servidor de vocabulario? ¿O estamos tratando de tener todas las categorías definidas?
¿Esta nueva categoría sería texto libre usando el servidor de vocabulario? ¿O estamos tratando de tener todas las categorías definidas?
~Indeciso, pero en este momento estamos proponiendo las categorías~
Revisado: ahora sugeriría el servidor de vocabulario, como se detalla más adelante en este hilo.
¡Genial! ¡Me encanta la idea!
~Solo un comentario:~
~> 4. Metagenómica de un solo organismo (es decir, tejido de una muestra de NHM)~
~> 5. ADN electrónico ambiental (p. ej., muestra de suelo, agua, sopa de insectos, etc.)~
~Número 4 no parece correcto. Lo que entiendo cuando leo "Metagenómica de un solo organismo" es que alguien tomó una muestra intestinal de una vaca (por ejemplo) y la secuenció, lo que resultó en un montón de ocurrencias para el microbioma intestinal. Supongo que esta no es la idea, ¿verdad?~
~ Si quiere decir que los tejidos de un espécimen fueron secuenciados, entonces escribiría algo más en la línea de "Secuenciado de un solo organismo". Y, de hecho, podríamos agrupar la metagenómica con eDNA (a menudo, eDNA es metagenómica). Así que al final, creo que podríamos hacer algo como:~
~4. Organismo único secuenciado (es decir, tejido de una muestra de NHM) ~
~5. eDNA ambiental y/o metagenómica (p. ej., muestra de suelo, agua, sopa de insectos, etc.)~
[Tim: Editado con sugerencias expresadas aquí - gracias, ¡de hecho entendiste lo que pretendía!]
¿Quizás @thomasstjerne tiene algunas ideas sobre esto?
Detección de especies específicas añadidas (ensayos basados en PCR)
Gracias @timrobertson100 por informarme sobre el hilo, muy emocionante. Hasta ahora, encontré ocho posibles variables independientes que pueden determinar el tipo de evidencia/conjunto de datos en GBIF. Necesito meditar un poco más antes de presentar mis puntos de vista aquí, y ¿estoy feliz de hacer una lluvia de ideas / pizarra un poco si hay personas disponibles?
Haciendo un seguimiento de esto también
Hola a todos, me gusta la idea de ordenar conjuntos de datos y tipos de evidencia, pero no estoy seguro de que sea más atractivo para los usuarios hacerlo usando un solo filtro/vocabulario (pero obtuve la viabilidad tal como lo expresó Tim). Dibujé algunos mapas mentales, pero no tengo tiempo para agregar imágenes aquí, así que solo escriba para su consideración. Comencé pensando por qué los usuarios necesitarían ordenar conjuntos de datos/tipos de evidencia. Es una forma rápida de incluir/excluir tipos de datos importantes para sus casos en función de cómo se generó la evidencia y sus propiedades. Se me ocurrieron 8 variables independientes que cruzan la categorización sugerida del conjunto de datos y el vocabulario de base de registro que tenemos hoy. Tenga en cuenta que creo que el trabajo independiente es importante aquí, aunque algunas de las combinaciones de 1-8 a continuación son imposibles en la vida real.
Estoy usando palabras sueltas para describir mi pensamiento, este no es el vocabulario que estoy sugiriendo, y hay algunas superposiciones sin resolver:
Una vez más, esto es solo una captura de pensamientos inconclusos; Sería bueno hacer una lluvia de ideas/pizarra sobre cómo se vería una buena categorización. Estaba pensando en dividirlo, ya que, por ejemplo, 1, 7 y 13 en la publicación original pueden ser verdaderos simultáneamente. Si estas son etiquetas y la superposición no es un problema, entonces está bien. Pero si se trata de un filtro estricto, es posible que necesitemos más que solo un campo para capturar los tipos de preservación frente a la generación de comunidad frente a las formas de generación frente a la cantidad, etc. Siéntase libre de descartar si está fuera del alcance. Tampoco encontré la colección de discusiones de BoR, que es aplicable aquí en parte.
Supongo que las categorizaciones vendrían de nosotros (al menos así es en este momento para los conjuntos de datos de ciencia ciudadana), pero sería genial si otras personas también pudieran ayudar con la curación. Sólo algo para tener en cuenta.
Por ejemplo, supongamos que le pedimos a los administradores de nodos que verifiquen los conjuntos de datos etiquetados como "ciencia ciudadana". Queremos:
Mirando este problema: https://github.com/gbif/portal-feedback/issues/3381 , nos faltaría la categoría Tienes razón, me lo perdí!data extracted from taxonomic literature (i.e., Plazi)
.
Gracias @ManonGros
Mirando este problema: gbif/portal-feedback#3381, nos estaríamos perdiendo los datos extraídos de la categoría de literatura taxonómica (es decir, Plazi).
Eso es lo que esto pretendía ser:
Citas materiales (por ejemplo, tratamientos taxonómicos en la literatura)
(Relacionado es que Plazi acaba de proponer Material citation
como una adición al vocabulario de baseOfRecord en las ediciones de Darwin Core para comentario público)
+1 @Dmitry para uno a muchos y usando etiquetas de palabras clave (en lugar de un registro central 1: 1 a categoría)
+1 @Marie por pensar en permitir que el personal de Node seleccione categorías --> y también puede agregar una solicitud de función para permitir que cualquier persona anote un punto de datos/conjunto con información de categoría (con la procedencia intacta)
Recuerde también que un "conjunto de datos" (como en Darwin-Core-archive-dataset) puede ser una mezcla de "registros de evidencia" (también conocido como registro central, por ejemplo, también conocido como ocurrencias) de diferentes categorías, si una categoría "etiqueta" es diseñado para aplicarse a todos los registros básicos en un DwC-A
Y que la desnormalización de los "registros de evidencia" (registros centrales) significa que uno no puede estar seguro de a qué clase se pretende vincular una propiedad determinada vinculada a un registro central.
De veras me gusta esta idea. Ciertamente, ALA tiene usuarios que desean una forma muy sencilla de seleccionar agrupaciones de registros entre proveedores de datos. El grupo del que más escucho esta solicitud son curadores/investigadores que 'solo' quieren especímenes de museo o herbario.
Un par de sugerencias:
Organismo único secuenciado (es decir, tejido de una muestra de NHM)
Tener una categoría adicional para Muestra de tejido sería muy útil, ya sea que se hayan derivado secuencias o no.
Los usuarios de esta categoría pueden ser investigadores que buscan tejidos para préstamo/muestreo destructivo y que actualmente tienen que buscar BasisOfRecord = muestra de material más Preparativos.
Datos del sector privado: ¿se refiere a los datos recopilados por empresas que realizan evaluaciones de impacto ambiental antes de la aprobación de proyectos de desarrollo/minería? Si es así, en Australia esto se llamaría comúnmente "datos de los proponentes" (siendo datos de los proponentes de un desarrollo). Si los datos del sector privado significan algo más, ¿tal vez podría tener ambos?
Recuerde también que un "conjunto de datos" (como en Darwin-Core-archive-dataset) puede ser una mezcla de "registros de evidencia" (también conocido como registro central, por ejemplo, también conocido como ocurrencias) de diferentes categorías, si una categoría "etiqueta" es diseñado para aplicarse a todos los registros básicos en un DwC-A
Gracias, @dagendresen. Mi idea aquí fue tratar de desvincular esto de los problemas de clase/base de registro en Darwin Core para poder reaccionar rápidamente a las necesidades de informes/usuarios (por ejemplo, introducir una nueva etiqueta para conjuntos de datos). Reconociendo que puede haber conjuntos de datos "mezclados", mi intuición es que la mayoría de los usuarios apreciarían un filtrado amplio para, por ejemplo, "omitir registros que se originan en conjuntos de datos etiquetados como eDNA", incluso si hubiera algunas entradas allí que podrían ser de algún interés, o para producir informes (por ejemplo, gráficos de crecimiento) basados, por ejemplo, en datos que se originan en conjuntos de datos etiquetados como relacionados con el sector privado. ¿Parece esto razonable, por favor?
realmente me gusta esta idea
Gracias, @elywallis . Agregaré su aporte a la lista en la parte superior ahora.
Datos del sector privado: ¿se refiere a los datos recopilados por empresas que realizan evaluaciones de impacto ambiental antes de la aprobación de proyectos de desarrollo/minería?
Creo que esa era la intención, sí. No conozco los detalles, pero sé que el equipo de administración de datos genera cada vez más informes sobre tendencias utilizando categorías como esta. Agregaré sus comentarios en la lista superior, sin proponer una decisión final.
Un poco fuera de tema, pero quizás útil:
Puede que muchos no lo sepan, pero GBIF está trasladando progresivamente vocabularios como este a nuestro servidor de vocabulario integrado. Esto permitirá que los administradores de datos (p. ej., incluidos los administradores de nodos @dagendresen ) participen en la definición de los conceptos. Los conceptos pueden ser jerárquicos (por ejemplo, categorizaciones más finas de datos privados) y una vez que se publica una versión de vocabulario, se recoge en las canalizaciones de procesamiento de datos. Esto todavía está evolucionando, pero LifeStage está en producción ahora.
Lo que esto significa en relación con este problema, es que a medida que encontremos nuevos requisitos para categorizar conjuntos de datos para un nuevo informe o comunidad que vemos surgir, tendremos las herramientas para acomodar eso sin necesidad de la participación del desarrollador de software (solo requiere un vocabulario para cambiarse y luego continuar con el etiquetado de conjuntos de datos).
conjuntos de datos de "bolsa mixta"
@ timrobertson100 Yo (si me preguntan) estaría completamente de acuerdo en que la mejor práctica es evitar conjuntos de datos "mixtos" y que una "etiqueta" para habilitar el filtro para un _"propósito de reutilización"_ ¡sería muy útil y bienvenido! Y creo que podríamos vivir bien con tal funcionalidad sin aplicar el 100% a conjuntos de datos "mixtos" :-)
(a propósito: GBIF Noruega está "negociando" con editores de datos noruegos para "dividir" conjuntos de datos "mixtos" en conjuntos de datos más pequeños que serían más homogéneos)
@timrobertson100 escribió:
Un poco fuera de tema, pero quizás útil:
Puede que muchos no lo sepan, pero GBIF está trasladando progresivamente vocabularios como este a nuestro servidor de vocabulario integrado. Esto permitirá que los administradores de datos (p. ej., incluidos los administradores de nodos @dagendresen ) participen en la definición de los conceptos. Los conceptos pueden ser jerárquicos (por ejemplo, categorizaciones más finas de datos privados) y una vez que se publica una versión de vocabulario, se recoge en las canalizaciones de procesamiento de datos. Esto todavía está evolucionando, pero LifeStage está en producción ahora.
Lo que esto significa en relación con este problema, es que a medida que encontremos nuevos requisitos para categorizar conjuntos de datos para un nuevo informe o comunidad que vemos surgir, tendremos las herramientas para acomodar eso sin necesidad de la participación del desarrollador de software (solo requiere un vocabulario para cambiarse y luego continuar con el etiquetado de conjuntos de datos).
Tim, ¿puedes ver mi