Registry: Importar colecciones de iDigBio a GrSciColl

Creado en 5 feb. 2020  ·  12Comentarios  ·  Fuente: gbif/registry

Objetivos)

Qué debe suceder antes de la importación real

Podríamos hacer esto en un orden diferente, por supuesto.

1. Vincular las entradas de iDigBio y GrSciColl

Dado que iDigBio describe colecciones, probablemente deberíamos:

  1. Haga coincidir las entradas de iDigBio con las colecciones de GrSciColl (según el título, el código, etc.)
  2. Si no se encuentra ninguna coincidencia en las colecciones, debemos intentar averiguar si la institución iDigBio correspondiente está disponible en GrSciColl.
  3. Si no podemos encontrar ninguna coincidencia en las colecciones e instituciones de GrSciColl, creo que deberíamos crear tanto una institución como una colección adjunta (similar a lo que hablamos en el caso de Index Herbariorum: https://github.com/gbif /registro/temas/167). ¿Tiene sentido?

Una vez que tengamos una lista de coincidencias, podríamos agregar identificadores a las entradas de GrSciColl para trabajar en la importación (similar a lo que hacemos en el caso de IH).

¿Quién debe hacer el emparejamiento: iDigBio o GBIF?

Probablemente todos tengan una idea de cómo proceder, pero con el fin de rastrear lo que está sucediendo, escribo aquí los pasos del proceso de coincidencia:

  • [x] Obtener los datos de iDigBio (desde aquí: http://idigbio.github.io/idb-us-collections/collections.json)
  • [x] Obtener los datos de GrSciColl (probablemente con la API de recopilación )
  • [x] Limpiar los datos (usando OpenRefine por ejemplo)
  • [x] Use su algoritmo favorito para hacer coincidir los datos con los campos relevantes.
  • [x] Comprueba manualmente las coincidencias aproximadas/sospechosas.

Ahora, ¿quién hará qué?

2. Acordar el mapeo de los campos iDigBio y GrSciColl

Los modelos entre iDigBio y GrSciColl parecen bastante similares. Así es como proponemos mapear los campos. ¿Podría repasar esto y dejarnos saber si tiene algún comentario?

iDibio | GrSciColl
-- | --
Institución | Asignado a "Institución" en la entidad de colección y "Nombre" si se usa para crear una institución
Colección | Nombre en Coll
Conjuntos de registros | Establecer como MachineTag (ya que es para uso interno) en coll
RecordsetQuery | MachineTag en coll
Código de la Institución | Asignado a "Código" en la Institución
Código de colección | Asignado a "Código" en la colección
Colección Uuid | Añadido como identificador
Colección Lsid | Añadido como identificador
Url de colección | Página de inicio en Coll
URL del catálogo de la colección | URL del catálogo en Coll
Descripción | Descripción en Coll
DescripciónParaEspecialistas | Concatenado a Descripción en Coll (¿o campo nuevo?)
Especímenes catalogados | Número de especímenes en Coll
TiposConocidosDeContener | ¿Descarte? (el campo se usa menos de 100 veces) ¿Es necesario para uso interno? En ese caso, podemos agregarlo como una etiqueta de máquina.
TaxonCobertura | Cobertura taxonómica en Coll
Alcance Geográfico | Cobertura geográfica en Coll
Extensión de la colección | ¿Descarte? (parece que en la mayoría de los casos contiene una cadena con el mismo valor que cataloguedSpecimens)
Contacto | Asignado al nombre del personal
Rol de contacto | Asignado a la posición del personal
Correo electrónico de contacto | Asignado al correo electrónico del personal
Dirección postal | Dirección postal en Coll
Ciudad de correo | Ciudad Postal en Coll
Estado de envío | Estado postal en Coll
Postal postal | Código Postal de Correos en Coll
Dirección Física | Dirección Física en Coll
Ciudad Física | Ciudad Física en Coll
Estado Físico | Estado Físico en Coll
Código postal físico | Código Postal Físico en Coll
NombreúnicoUUID | Agregado como identificador en inst
AtribuciónLogoURL | ¿Nuevo campo?
ID administrado por el proveedor | Añadido como identificador
Derivado de | ¿Añadido como MachineTag si es para uso interno?
Igual que | Añadido como identificador
Banderas | Agregado como MachineTag
Visualización del portal | Agregado como MachineTag
Lat | Latitud en la Institución
lon | Longitud en la Institución

3. Decide qué hacer cuando hay una superposición entre IH e iDigBio

Como se mencionó anteriormente, estamos trabajando en la sincronización de Index Herbariorum y GrSciColl (https://github.com/gbif/registry/issues/167). Hay una superposición parcial entre iDigBio e IH.

¿Qué debemos hacer en estos casos?
Sugiero sobrescribir la información de los campos provistos por IH (el valor de IH sobrescribe el valor de iDigBio o GrSciColl) y mantener los campos que son solo de iDigBio.
Si el registro de iDigBio es el más actualizado, crearíamos un problema de GitHub y luego enviaríamos la última actualización a IH.
¿Estaría bien?

GRSciColl

Comentario más útil

@asturcon Recogimos este campo de Audubon Core, pero acordamos que puede descartar el campo ya que no estamos haciendo nada con él.

Todos 12 comentarios

con respecto a la parte 1:

En cuanto a quién realiza el trabajo, creo respetuosamente que sería mejor y más conveniente si GBIF pudiera dedicar tiempo a esto. A iDigBio/ACIS IT todavía le falta 1 miembro del equipo y, a pesar de nuestros sentimientos de que el producto resultante funcionará mucho mejor para todos, no creo que podamos garantizar que podamos comprometernos con él en el corto plazo.

Aquí hay algunas otras notas para la sección 1 de este número:

  • 1-3 en su lista tienen sentido, incluida la solución propuesta en 3 si no se encuentran coincidencias
  • para hacer coincidir, podría ser posible hacer coincidir el código de institución de GBIF con el código de institución de collections.json

  • según la documentación existente de collections.json (en el archivo Léame del repositorio), el institution_lsid se asigna a un "GRBio LSID o coolURI para el LSID de la institución" si se encuentra; de lo contrario, está en blanco

  • es probable que otras coincidencias deban ser algoritmos de coincidencia basados ​​en cadenas. Una nota potencialmente útil para fines de comparación/verificación es que el uuid del conjunto de registros en collections.json coincidirá con el uuid del conjunto de registros proporcionado por nuestra API.

Parte 2:
Los registros individuales en las colecciones de iDigBio.json son registros de la Institución-Colección. GBIF separa adecuadamente la Institución y la Colección en entidades separadas. Consulte el diagrama adjunto para ver la jerarquía prevista.

unnamed

Nota: hay definiciones de campo en el archivo Léame de: https://github.com/iDigBio/idb-us-collections

Comentarios sobre asignaciones individuales:

“UniqueNameUUID Agregado como identificador”: parece tener la intención de ser un UUID de "institución" en una jerarquía de registros de iDigBio, pero no parece haberse implementado. Mantener como identificador en el sistema GBIF.

recordsetQuery: esto genera un enlace al conjunto de registros de iDigBio (es decir, https://www.idigbio.org/portal/recordsets/ea12da76-1b2e-4944-8709-1de3af1c65e2). Este campo se puede descartar si está generando enlaces al conjunto de registros de otra forma.

Conjuntos de registros - Recordatorio: este es nuestro objeto principal para registros individuales en nuestro sistema

KnownToContainTypes: parece correcto descartarlo.

Extensión de la colección: se puede copiar en CatalogedSpecimens donde CatalogedSpecimens está en blanco, pero no es necesario mantenerlo como un campo separado (descartar).

“attributionLogoURL, proveedorManagedID, derivadoDe”: tenga en cuenta que estos son términos de Audubon Core

Con respecto a la parte 3:

Estamos de acuerdo con el método propuesto para integrar los datos de IH e iDigBio. Para ayudar a determinar quién es el registro más reciente, IH o iDigBio, puede usar la fecha de confirmación para un archivo individual en el repositorio de iDigBio como una fecha agregada/modificada.

La forma en que funciona el repositorio es que un ser humano crea/actualiza un fragmento de json llamado ./colecciones/{coleccion_uuid}.json y confirma. Luego, el flujo de trabajo del software ejecuta pruebas y agrega ese fragmento json en el archivo collections.json completo. Un ejemplo de archivo json individual sería:

https://github.com/iDigBio/idb-us-collections/blob/master/collections/001c5234-048b-11e5-b0ee-002315492bbc

Nota importante : el archivo collections.json que realmente se carga y se usa se sirve desde la rama json-index o gh-pages (se envía a ambas) y no desde la rama principal. Por ejemplo:

https://raw.githubusercontent.com/iDigBio/idb-us-collections/json-index/collections.json

o

http://idigbio.github.io/idb-us-collections/collections.json

Espero que todo esto ayude. Por favor, siéntase libre de @ nosotros para preguntas adicionales o aclaraciones.

@roncanepa @nrejack Estaba revisando las asignaciones y parece que AttributionLogoURL es el único campo de iDigBio que nos falta en nuestro registro. Pero revisé el archivo collections.json y noté que este campo siempre está vacío. ¿Deberíamos agregarlo a nuestro registro? o podemos descartarlo también?

@asturcon Recogimos este campo de Audubon Core, pero acordamos que puede descartar el campo ya que no estamos haciendo nada con él.

¡Muchas gracias por sus respuestas @roncanepa y @nrejack !
En ese caso, comenzaremos con [ 1. Vincular las entradas de iDigBio y GrSciColl ]. Haremos todo lo posible de forma automática y te enviaremos a ti y a Cat algunas cosas que podrían necesitar una revisión manual, ¿te parece bien?

¡Bien por mí, envía lejos! ¡¡Muchas gracias a todos!!

Hola @CatChapman , Morten ha estado trabajando para hacer coincidir las entradas de iDigBio y GrSciColl: https://github.com/gbif/registry/issues/187
Resulta que tiene más sentido hacer coincidir primero todo con las instituciones GrSCiColl porque estas son las entradas para las que tenemos muchos más detalles e identificadores. Luego, una vez que obtuviéramos las coincidencias para la institución, podríamos echar un vistazo a las colecciones y combinarlas también.

Morten describió todo su proceso de emparejamiento y los resultados sobre el tema vinculado anteriormente, pero estos son los aspectos más destacados:

  1. Haga coincidir las entradas de iDigBio según el IRN
  2. Haga coincidir las entradas iDigBio izquierdas en función de otros identificadores
  3. Haga coincidir las entradas de iDigBio de la izquierda según el título y el código (tenga en cuenta que los títulos se procesaron para facilitar la coincidencia)
  4. Haga coincidir las entradas iDigBio de la izquierda según la ciudad y el código
  5. Hacer coincidir el título de las entradas de iDigBio izquierdas solo cuando no hay un código de institución de iDigBio
  6. Hacer coincidir el título basado en las entradas iDigBio izquierdas (a pesar de los códigos en conflicto)
  7. Hacer coincidir las entradas iDigBio izquierdas manualmente

Esto deja 235 entradas de iDigBio sin igual para las cuales crearíamos nuevas entradas en GrSciColl.
¡Ahora necesitamos tu ayuda para verificar la coincidencia! ¿Podría revisar https://github.com/gbif/registry/issues/187 y ver el resultado coincidente? (También podemos proporcionarle una hoja de cálculo si es más conveniente).

Tenga en cuenta que es posible que tengamos algunas colecciones duplicadas al principio, ya que algunos títulos de colección pueden ser un poco vagos en GrSciColl y no siempre tenemos códigos confiables. No se preocupe, esperamos solucionarlos un poco más tarde.

Morten también documentó cómo esperamos realizar la fusión aquí: https://github.com/gbif/registry/issues/188

@ManonGros ¡GUAU! Esto es genial. Ustedes rockean, mucho.

Una hoja de cálculo sería fantástica: te acabo de enviar un correo electrónico, así que no dudes en enviarla allí o vincularla (si es una hoja de cálculo de Google, etc.) aquí.

Ahora echaré un vistazo al n.º 188.

¡Estupendo! Estoy agregando el archivo CSV separado por tabulaciones para la coincidencia:
iDigBio_GrSciColl_matches_march2020.tsv.zip

Sería genial recuperar su cheque en un formato legible por máquina. Sugerimos agregar una columna a este archivo con verdadero/falso para cada coincidencia junto con una posible columna de "corrección" con la coincidencia correspondiente que cree que es verdadera.

Archivo JSON de Morten actualizado con información de CAT:
iDigBio_Morten_matches_AND_Cat_addition.json.zip

¿Fue útil esta página
0 / 5 - 0 calificaciones

Temas relacionados

timrobertson100 picture timrobertson100  ·  20Comentarios

rukayaj picture rukayaj  ·  9Comentarios

timrobertson100 picture timrobertson100  ·  9Comentarios

marcos-lg picture marcos-lg  ·  11Comentarios

rukayaj picture rukayaj  ·  14Comentarios