Registry: Agregar categoría al conjunto de datos

Creado en 3 nov. 2020  ·  20Comentarios  ·  Fuente: gbif/registry

El Dataset actual tiene un tipo y subtipo que es un poco problemático. Type realmente indica el formato de fila utilizado en el DwC-A y causa problemas ya que una lista de verificación puede tener ocurrencias, y un conjunto de datos de ocurrencia puede ser, de hecho, la salida de datos de eventos de muestreo.

Un mejor uso de SubType puede ayudar, pero creo que podría generar más confusión debido a la superposición (por ejemplo, un conjunto de datos de ocurrencia con un evento de muestreo de subtipo).

Dado que la API ahora se usa tan bien y cambiar esto es disruptivo, propongo introducir un nuevo campo de valores múltiples llamado category para categorizar conjuntos de datos. Con el tiempo podemos desaprobar el tipo y el subtipo.

Las categorías incluirían los gustos de (editado para incluir sugerencias que vinieron del chat a continuación):

  1. Datos de ciencia ciudadana
  2. Datos de observación
  3. colección de historia natural
    un. Considere separar los fósiles como una categoría separada, para evitar el mal uso accidental
  4. Organismo único secuenciado (es decir, tejido de una muestra de NHM)
    un. Considere agregar también una muestra de tejido (que puede o no estar secuenciada) para ayudar a descubrir el tejido preservado sin recurrir a otros términos ambiguos
  5. ADN ambiental y/o metagenómica (por ejemplo, muestra de suelo, agua, sopa de insectos, etc.)
  6. Detección de especies objetivo (ensayos basados ​​en PCR)
  7. Datos de seguimiento a largo plazo
  8. Evento de muestreo (donde se ha utilizado algún protocolo)
  9. Datos de la lista de verificación
  10. Citas materiales (por ejemplo, tratamientos taxonómicos en la literatura)
  11. datos del sector privado
    un. Considere dividir esto en categorías más finas (por ejemplo, datos del proponente para la evaluación del impacto ambiental antes del desarrollo) versus otras categorías (por definir)
  12. datos de seguimiento (es decir, recapturas o seguimiento GPS de organismos individuales)
  13. Observación de máquinas (por ejemplo, cámara trampa)

Las múltiples categorías se agregarían a cada registro de ocurrencia en la indexación, lo que permitiría agregar un filtro intuitivo en GBIF.org para que las personas puedan activar o desactivar las categorías de conjuntos de datos que les interesen.

CC @ahahn-gbif @MortenHofft para comentarios en particular

Todos 20 comentarios

¡Gracias!

~Asumiendo que esto también admitirá métricas (y entendiendo que multivalor significa que un conjunto de datos puede pertenecer a más de una categoría), me gustaría agregar~
~9. datos del sector privado ~
~10. datos de seguimiento (es decir, recapturas o seguimiento GPS de organismos individuales)~

[Tim: Gracias - ¡Agregado arriba!]

Pregunta: ¿4. la metagenómica (eDNA) debería ser dos categorías separadas? Hay una gran diferencia en la interpretación de estos datos, a pesar de que ambos están "basados ​​en secuencias" @ManonGros , ¿podría comentar?

[Tim Editado para agregar: los he dividido arriba ahora, pero cambiaré nuevamente en función de más comentarios]

La observación de la máquina parece una subcategoría del evento de muestreo.

La observación de la máquina parece una subcategoría del evento de muestreo.

Eso está bien, ¿no? Debido a que es multivalor, un conjunto de datos se puede marcar como ambos o solo como un evento de muestreo, o tal vez hay casos en los que una observación de la máquina sería apropiada donde no se usa un protocolo de muestreo real.

¿Esta nueva categoría sería texto libre usando el servidor de vocabulario? ¿O estamos tratando de tener todas las categorías definidas?

¿Esta nueva categoría sería texto libre usando el servidor de vocabulario? ¿O estamos tratando de tener todas las categorías definidas?

~Indeciso, pero en este momento estamos proponiendo las categorías~

Revisado: ahora sugeriría el servidor de vocabulario, como se detalla más adelante en este hilo.

¡Genial! ¡Me encanta la idea!

~Solo un comentario:~
~> 4. Metagenómica de un solo organismo (es decir, tejido de una muestra de NHM)~
~> 5. ADN electrónico ambiental (p. ej., muestra de suelo, agua, sopa de insectos, etc.)~

~Número 4 no parece correcto. Lo que entiendo cuando leo "Metagenómica de un solo organismo" es que alguien tomó una muestra intestinal de una vaca (por ejemplo) y la secuenció, lo que resultó en un montón de ocurrencias para el microbioma intestinal. Supongo que esta no es la idea, ¿verdad?~
~ Si quiere decir que los tejidos de un espécimen fueron secuenciados, entonces escribiría algo más en la línea de "Secuenciado de un solo organismo". Y, de hecho, podríamos agrupar la metagenómica con eDNA (a menudo, eDNA es metagenómica). Así que al final, creo que podríamos hacer algo como:~

~4. Organismo único secuenciado (es decir, tejido de una muestra de NHM) ~
~5. eDNA ambiental y/o metagenómica (p. ej., muestra de suelo, agua, sopa de insectos, etc.)~

[Tim: Editado con sugerencias expresadas aquí - gracias, ¡de hecho entendiste lo que pretendía!]

¿Quizás @thomasstjerne tiene algunas ideas sobre esto?

Detección de especies específicas añadidas (ensayos basados ​​en PCR)

Gracias @timrobertson100 por informarme sobre el hilo, muy emocionante. Hasta ahora, encontré ocho posibles variables independientes que pueden determinar el tipo de evidencia/conjunto de datos en GBIF. Necesito meditar un poco más antes de presentar mis puntos de vista aquí, y ¿estoy feliz de hacer una lluvia de ideas / pizarra un poco si hay personas disponibles?

Haciendo un seguimiento de esto también

Hola a todos, me gusta la idea de ordenar conjuntos de datos y tipos de evidencia, pero no estoy seguro de que sea más atractivo para los usuarios hacerlo usando un solo filtro/vocabulario (pero obtuve la viabilidad tal como lo expresó Tim). Dibujé algunos mapas mentales, pero no tengo tiempo para agregar imágenes aquí, así que solo escriba para su consideración. Comencé pensando por qué los usuarios necesitarían ordenar conjuntos de datos/tipos de evidencia. Es una forma rápida de incluir/excluir tipos de datos importantes para sus casos en función de cómo se generó la evidencia y sus propiedades. Se me ocurrieron 8 variables independientes que cruzan la categorización sugerida del conjunto de datos y el vocabulario de base de registro que tenemos hoy. Tenga en cuenta que creo que el trabajo independiente es importante aquí, aunque algunas de las combinaciones de 1-8 a continuación son imposibles en la vida real.

Estoy usando palabras sueltas para describir mi pensamiento, este no es el vocabulario que estoy sugiriendo, y hay algunas superposiciones sin resolver:

  1. Estado de conservación de la evidencia: solo virtual o física: fósil, muerta, viva (zoológicos, cultivos, jardines, acuarios). Tenga en cuenta que algunos pensamientos como el ámbar no son fáciles de ubicar, ya que se puede obtener ADN del ámbar, hay subfósiles, etc.). _Pregunta_: ¿Puedo volver a examinar el material físico? ¿Qué y dónde está?
  2. Integridad / N especie: Espécimen único y completo (p. ej., insecto, es decir, contiene toda su gineta dentro de un individuo), parcial (muestra de tejido, hoja, cuerpo de la fruta) o espécimen mixto (común en la recolección de musgo y líquenes, cuando no es posible recolectar especies individuales : pero no es un muestreo intencional, por ejemplo, como el plancton, véase 6). _Pregunta_: ¿Puedo estudiar la morfología completa, o solo algunos rasgos, o solo vincular el espécimen de museo con la secuencia de ADN?
  3. ADN: no explorado, secuencia, PCR. Nota: esto está entre lo virtual y lo físico, ya que los productos de ADN o PCR pueden almacenarse durante mucho tiempo (físico), pero la evidencia de ADN para la presencia de especies, a menudo una secuencia, es una evidencia virtual generada por una máquina no muy diferente de una imagen digital o un sonido. _Pregunta_: ¿Puedo volver a examinar la identificación, hacer filogenia, o todo lo que tengo es un nombre de etiqueta?
  4. Datos dinámicos / estáticos. Dinámica: tracking, series temporales, mark-recapture. _Pregunta_: ¿Puedo estudiar solo procesos o solo patrones?
  5. La forma en que se genera la evidencia: procesamiento de literatura, digitalización de colecciones, observaciones personales, muestreo sistemático. _Pregunta_: ¿Puedo ordenar los datos por confiabilidad de su generación?
  6. Para muestrear datos de eventos, pero quizás también ocurrencias: solo presencia (esfuerzo de muestreo desconocido/no documentado), presencia-ausencia, abundancia (cuantitativo). _Pregunta_: ¿Qué tipos de análisis estadísticos son posibles?
  7. La forma en que se empaquetan los datos en GBIF: solo metadatos, lista de verificación, solo ocurrencias, evento de muestreo. Puede incluir filtro por extensión utilizada, esp. si estamos obteniendo más de esos en TDWG. _Pregunta_: ¿Qué obtengo en mi descarga de GBIF, palabra por palabra y interpretación de GBIF?
  8. Comunidad que genera los datos (quizás esto sea más relevante para etiquetar a los editores, pero es posible que sea necesario filtrar las ocurrencias y los conjuntos de datos por): (grupos de) individuos, colecciones de historia natural, sector privado, marina, ciencia ciudadana, máquina. Algunos de estos no son mutuamente excluyentes: pueden ser "colección de historia natural" + "ciencia ciudadana" o "máquina". _Pregunta_: ¿Puedo estudiar tendencias de datos en un sector demográfico en particular?

Una vez más, esto es solo una captura de pensamientos inconclusos; Sería bueno hacer una lluvia de ideas/pizarra sobre cómo se vería una buena categorización. Estaba pensando en dividirlo, ya que, por ejemplo, 1, 7 y 13 en la publicación original pueden ser verdaderos simultáneamente. Si estas son etiquetas y la superposición no es un problema, entonces está bien. Pero si se trata de un filtro estricto, es posible que necesitemos más que solo un campo para capturar los tipos de preservación frente a la generación de comunidad frente a las formas de generación frente a la cantidad, etc. Siéntase libre de descartar si está fuera del alcance. Tampoco encontré la colección de discusiones de BoR, que es aplicable aquí en parte.

Supongo que las categorizaciones vendrían de nosotros (al menos así es en este momento para los conjuntos de datos de ciencia ciudadana), pero sería genial si otras personas también pudieran ayudar con la curación. Sólo algo para tener en cuenta.

Por ejemplo, supongamos que le pedimos a los administradores de nodos que verifiquen los conjuntos de datos etiquetados como "ciencia ciudadana". Queremos:

  1. Una manera fácil de ver todos los conjuntos de datos de ciencia ciudadana para su nodo.
  2. Si un administrador de nodos notó un conjunto de datos etiquetado erróneamente, queremos realizar un seguimiento de eso para no volver a etiquetarlo la próxima vez.

Mirando este problema: https://github.com/gbif/portal-feedback/issues/3381 , nos faltaría la categoría data extracted from taxonomic literature (i.e., Plazi) . Tienes razón, me lo perdí!

Gracias @ManonGros

Mirando este problema: gbif/portal-feedback#3381, nos estaríamos perdiendo los datos extraídos de la categoría de literatura taxonómica (es decir, Plazi).

Eso es lo que esto pretendía ser:

Citas materiales (por ejemplo, tratamientos taxonómicos en la literatura)

(Relacionado es que Plazi acaba de proponer Material citation como una adición al vocabulario de baseOfRecord en las ediciones de Darwin Core para comentario público)

+1 @Dmitry para uno a muchos y usando etiquetas de palabras clave (en lugar de un registro central 1: 1 a categoría)
+1 @Marie por pensar en permitir que el personal de Node seleccione categorías --> y también puede agregar una solicitud de función para permitir que cualquier persona anote un punto de datos/conjunto con información de categoría (con la procedencia intacta)

Recuerde también que un "conjunto de datos" (como en Darwin-Core-archive-dataset) puede ser una mezcla de "registros de evidencia" (también conocido como registro central, por ejemplo, también conocido como ocurrencias) de diferentes categorías, si una categoría "etiqueta" es diseñado para aplicarse a todos los registros básicos en un DwC-A

Y que la desnormalización de los "registros de evidencia" (registros centrales) significa que uno no puede estar seguro de a qué clase se pretende vincular una propiedad determinada vinculada a un registro central.

De veras me gusta esta idea. Ciertamente, ALA tiene usuarios que desean una forma muy sencilla de seleccionar agrupaciones de registros entre proveedores de datos. El grupo del que más escucho esta solicitud son curadores/investigadores que 'solo' quieren especímenes de museo o herbario.

Un par de sugerencias:

  1. Colección de historia natural: aún podría ser útil tener también una categoría para especímenes fósiles para que puedan separarse fácilmente.
    La razón para separar los fósiles es que los subfósiles (o cualquier especie fósil aún existente) a menudo aparecen fuera de la distribución existente y pueden confundirse fácilmente con errores y marcarse como tales, cuando son perfectamente legítimos.
  1. Organismo único secuenciado (es decir, tejido de una muestra de NHM)
    Tener una categoría adicional para Muestra de tejido sería muy útil, ya sea que se hayan derivado secuencias o no.
    Los usuarios de esta categoría pueden ser investigadores que buscan tejidos para préstamo/muestreo destructivo y que actualmente tienen que buscar BasisOfRecord = muestra de material más Preparativos.

  2. Datos del sector privado: ¿se refiere a los datos recopilados por empresas que realizan evaluaciones de impacto ambiental antes de la aprobación de proyectos de desarrollo/minería? Si es así, en Australia esto se llamaría comúnmente "datos de los proponentes" (siendo datos de los proponentes de un desarrollo). Si los datos del sector privado significan algo más, ¿tal vez podría tener ambos?

Recuerde también que un "conjunto de datos" (como en Darwin-Core-archive-dataset) puede ser una mezcla de "registros de evidencia" (también conocido como registro central, por ejemplo, también conocido como ocurrencias) de diferentes categorías, si una categoría "etiqueta" es diseñado para aplicarse a todos los registros básicos en un DwC-A

Gracias, @dagendresen. Mi idea aquí fue tratar de desvincular esto de los problemas de clase/base de registro en Darwin Core para poder reaccionar rápidamente a las necesidades de informes/usuarios (por ejemplo, introducir una nueva etiqueta para conjuntos de datos). Reconociendo que puede haber conjuntos de datos "mezclados", mi intuición es que la mayoría de los usuarios apreciarían un filtrado amplio para, por ejemplo, "omitir registros que se originan en conjuntos de datos etiquetados como eDNA", incluso si hubiera algunas entradas allí que podrían ser de algún interés, o para producir informes (por ejemplo, gráficos de crecimiento) basados, por ejemplo, en datos que se originan en conjuntos de datos etiquetados como relacionados con el sector privado. ¿Parece esto razonable, por favor?

realmente me gusta esta idea

Gracias, @elywallis . Agregaré su aporte a la lista en la parte superior ahora.

Datos del sector privado: ¿se refiere a los datos recopilados por empresas que realizan evaluaciones de impacto ambiental antes de la aprobación de proyectos de desarrollo/minería?

Creo que esa era la intención, sí. No conozco los detalles, pero sé que el equipo de administración de datos genera cada vez más informes sobre tendencias utilizando categorías como esta. Agregaré sus comentarios en la lista superior, sin proponer una decisión final.

Un poco fuera de tema, pero quizás útil:

Puede que muchos no lo sepan, pero GBIF está trasladando progresivamente vocabularios como este a nuestro servidor de vocabulario integrado. Esto permitirá que los administradores de datos (p. ej., incluidos los administradores de nodos @dagendresen ) participen en la definición de los conceptos. Los conceptos pueden ser jerárquicos (por ejemplo, categorizaciones más finas de datos privados) y una vez que se publica una versión de vocabulario, se recoge en las canalizaciones de procesamiento de datos. Esto todavía está evolucionando, pero LifeStage está en producción ahora.

Lo que esto significa en relación con este problema, es que a medida que encontremos nuevos requisitos para categorizar conjuntos de datos para un nuevo informe o comunidad que vemos surgir, tendremos las herramientas para acomodar eso sin necesidad de la participación del desarrollador de software (solo requiere un vocabulario para cambiarse y luego continuar con el etiquetado de conjuntos de datos).

conjuntos de datos de "bolsa mixta"

@ timrobertson100 Yo (si me preguntan) estaría completamente de acuerdo en que la mejor práctica es evitar conjuntos de datos "mixtos" y que una "etiqueta" para habilitar el filtro para un _"propósito de reutilización"_ ¡sería muy útil y bienvenido! Y creo que podríamos vivir bien con tal funcionalidad sin aplicar el 100% a conjuntos de datos "mixtos" :-)

(a propósito: GBIF Noruega está "negociando" con editores de datos noruegos para "dividir" conjuntos de datos "mixtos" en conjuntos de datos más pequeños que serían más homogéneos)

@timrobertson100 escribió:

Un poco fuera de tema, pero quizás útil:

Puede que muchos no lo sepan, pero GBIF está trasladando progresivamente vocabularios como este a nuestro servidor de vocabulario integrado. Esto permitirá que los administradores de datos (p. ej., incluidos los administradores de nodos @dagendresen ) participen en la definición de los conceptos. Los conceptos pueden ser jerárquicos (por ejemplo, categorizaciones más finas de datos privados) y una vez que se publica una versión de vocabulario, se recoge en las canalizaciones de procesamiento de datos. Esto todavía está evolucionando, pero LifeStage está en producción ahora.

Lo que esto significa en relación con este problema, es que a medida que encontremos nuevos requisitos para categorizar conjuntos de datos para un nuevo informe o comunidad que vemos surgir, tendremos las herramientas para acomodar eso sin necesidad de la participación del desarrollador de software (solo requiere un vocabulario para cambiarse y luego continuar con el etiquetado de conjuntos de datos).

Tim, ¿puedes ver mi? En algún momento, necesitamos algo, una charla de GBIF, un seminario web de TDWG, sobre este esfuerzo. Creo que a la comunidad en general le resultará muy esclarecedor cómo podemos usar los datos que tenemos para mejorar y comprender los datos.

¿Fue útil esta página
0 / 5 - 0 calificaciones

Temas relacionados

marcos-lg picture marcos-lg  ·  11Comentarios

timrobertson100 picture timrobertson100  ·  17Comentarios

timrobertson100 picture timrobertson100  ·  9Comentarios

ManonGros picture ManonGros  ·  12Comentarios

ahahn-gbif picture ahahn-gbif  ·  4Comentarios