Registry: Impor koleksi iDigBio ke GrSciColl

Dibuat pada 5 Feb 2020  ·  12Komentar  ·  Sumber: gbif/registry

Sasaran)

Apa yang perlu terjadi sebelum impor yang sebenarnya?

Kita bisa melakukan ini dalam urutan yang berbeda tentu saja.

1. Tautkan entri iDigBio dan GrSciColl

Karena iDigBio menjelaskan koleksi, kita mungkin harus:

  1. Cocokkan entri iDigBio dengan koleksi GrSciColl (berdasarkan judul, kode, dll.)
  2. Jika tidak ada kecocokan yang dapat ditemukan dalam koleksi, kita harus mencoba mencari tahu apakah institusi iDigBio yang sesuai tersedia di GrSciColl.
  3. Jika kita tidak dapat menemukan kecocokan dalam koleksi dan institusi GrSciColl, saya pikir kita harus membuat institusi dan koleksi yang melekat padanya (mirip dengan apa yang kita bicarakan dalam kasus Index Herbariorum: https://github.com/gbif /registry/issues/167). Apakah masuk akal?

Setelah kami memiliki daftar kecocokan, kami dapat menambahkan pengidentifikasi ke entri GrSciColl untuk bekerja pada impor (mirip dengan apa yang kami lakukan dalam kasus IH).

Siapa yang harus melakukan pencocokan: iDigBio atau GBIF?

Setiap orang mungkin memiliki ide tentang bagaimana melanjutkan tetapi demi melacak apa yang terjadi, saya menulis di sini langkah-langkah proses pencocokan:

  • [x] Mendapatkan data dari iDigBio (dari sini: http://idigbio.github.io/idb-us-collections/collections.json)
  • [x] Mendapatkan data dari GrSciColl (kemungkinan besar dengan koleksi API )
  • [x] Bersihkan data (menggunakan OpenRefine misalnya)
  • [x] Gunakan algoritme favorit Anda untuk mencocokkan data dengan bidang yang relevan.
  • [x] Periksa secara manual kecocokan fuzzy/curiga.

Sekarang siapa yang akan melakukan apa?

2. Setuju dengan pemetaan bidang iDigBio dan GrSciColl

Model antara iDigBio dan GrSciColl tampak sangat mirip. Berikut adalah bagaimana kami mengusulkan untuk memetakan bidang. Bisakah Anda membahas ini dan beri tahu kami jika Anda memiliki komentar?

iDiBio | GrSciColl
-- | --
Institusi | Dipetakan ke "Institusi" di entitas Koleksi dan "Nama" jika digunakan untuk membuat institusi
Koleksi | Nama di Coll
Kumpulan rekaman | Tetapkan sebagai MachineTag (karena untuk penggunaan internal) di col
RecordsetQuery | MesinTag di col
Kode Institusi | Dipetakan ke "Kode" di Institusi
Kode Koleksi | Dipetakan ke "Kode" di Koleksi
Koleksi Uuid | Ditambahkan sebagai pengenal
Koleksi Lsid | Ditambahkan sebagai pengenal
Url Koleksi | Beranda di Coll
Url Katalog Koleksi | URL Katalog di Coll
Deskripsi | Deskripsi di Coll
DeskripsiUntukSpesialis | Digabungkan ke Deskripsi di Coll (atau bidang baru?)
Spesimen yang Dikatalogkan | Jumlah Spesimen dalam Coll
KnownToContainTypes | Membuang? (bidang digunakan kurang dari 100 kali) Apakah perlu untuk penggunaan internal? Dalam hal ini, kita dapat menambahkannya sebagai machineTag.
Cakupan Takson | Cakupan taksonomi di Coll
Rentang Geografis | Cakupan geografis di Coll
KoleksiExtent | Membuang? (sepertinya dalam banyak kasus berisi string dengan nilai yang sama dengan cataloguedSpecimens)
Kontak | Dipetakan ke Nama Staf
Peran Kontak | Dipetakan ke Posisi Staf
Email Kontak | Dipetakan ke Email Staf
Alamat Surat | Alamat Surat di Coll
Kota Surat | Kota Surat di Coll
Negara Pengiriman | Negara Surat di Coll
Zip Surat | Kode Pos Surat di Coll
Alamat Fisik | Alamat Fisik di Coll
Kota Fisik | Kota Fisik di Coll
Keadaan Fisik | Keadaan Fisik di Coll
Zip Fisik | Kode Pos Fisik di Coll
UniqueNameUUID | Ditambahkan sebagai pengenal di inst
AttributionLogoURL | bidang baru?
ProviderManagedID | Ditambahkan sebagai pengidentifikasi
BerasalDari | Ditambahkan sebagai MachineTag jika itu untuk penggunaan internal?
Sama Seperti | Ditambahkan sebagai pengidentifikasi
Bendera | Ditambahkan sebagai MachineTag
Tampilan Portal | Ditambahkan sebagai MachineTag
lat | Lintang di Institusi
Lon | Garis Bujur di Institusi

3. Putuskan apa yang harus dilakukan ketika ada tumpang tindih antara IH dan iDigBio

Seperti yang disebutkan sebelumnya, kami sedang mengerjakan sinkronisasi Index Herbariorum dan GrSciColl (https://github.com/gbif/registry/issues/167). Ada tumpang tindih parsial antara iDigBio dan IH.

Apa yang harus kita lakukan dalam kasus ini?
Saya menyarankan untuk menimpa informasi untuk bidang yang disediakan oleh IH (nilai IH menimpa nilai iDigBio atau GrSciColl) dan menyimpan bidang yang berasal dari iDigBio saja.
Jika catatan iDigBio adalah yang terbaru, kami akan membuat masalah GitHub dan kemudian mengirimkan pembaruan terbaru ke IH.
Apakah itu baik-baik saja?

GRSciColl

Komentar yang paling membantu

@asturcon Kami mengambil bidang ini dari Audubon Core, tetapi kami setuju bahwa Anda dapat membuang bidang ini karena kami tidak melakukan apa pun dengannya.

Semua 12 komentar

tentang bagian 1:

Mengenai siapa yang melakukan pekerjaan itu, saya dengan hormat berpikir akan lebih baik dan paling bijaksana jika GBIF dapat mencurahkan waktu untuk ini. iDigBio/ACIS IT masih kekurangan oleh 1 anggota tim dan, meskipun kami merasa bahwa produk yang dihasilkan akan bekerja lebih baik untuk semua orang, saya tidak berpikir kami dapat menjamin bahwa kami dapat berkomitmen untuk itu dalam waktu dekat.

Berikut adalah beberapa catatan lain untuk bagian 1 dari masalah ini:

  • 1-3 pada daftar Anda masuk akal, termasuk solusi yang diusulkan dalam 3 jika tidak ada kecocokan yang dapat ditemukan
  • untuk pencocokan, dimungkinkan untuk mencocokkan dari kode institusi GBIF ke kode institusi collections.json

  • berdasarkan dokumentasi collections.json yang ada (dalam readme repo), institution_lsid dipetakan ke "GRBio LSID atau coolURI untuk LSID institusi" jika ditemukan, jika tidak kosong

  • kecocokan lain kemungkinan besar harus berupa algoritme pencocokan berbasis string. Catatan yang berpotensi membantu untuk tujuan pencocokan/verifikasi adalah bahwa recordset uuid di collections.json akan cocok dengan recordset uuid yang disajikan dari API kami.

Bagian 2:
Catatan individu dalam collections.json iDigBio adalah catatan Institution-Collection. GBIF dengan tepat memecah Institusi dan Koleksi menjadi entitas yang terpisah. Lihat diagram terlampir untuk hierarki yang dimaksud.

unnamed

Catatan: ada definisi bidang di readme: https://github.com/iDigBio/idb-us-collections

Komentar tentang pemetaan individu:

“UniqueNameUUID Ditambahkan sebagai pengenal” - ini tampaknya dimaksudkan sebagai UUID "lembaga" dalam hierarki catatan iDigBio tetapi tampaknya tidak diterapkan. Simpan sebagai pengenal dalam sistem GBIF.

recordsetQuery: Ini menghasilkan tautan ke recordset iDigBio, (yaitu, https://www.idigbio.org/portal/recordsets/ea12da76-1b2e-4944-8709-1de3af1c65e2). Bidang ini dapat dibuang jika Anda membuat tautan ke kumpulan rekaman dengan cara lain.

Recordsets - Pengingat: ini adalah objek induk kami untuk catatan individual di sistem kami

KnownToContainTypes: ini sepertinya boleh dibuang.

Collectionextent: dapat disalin ke CatalogedSpecimens di mana CatalogedSpecimens kosong, tetapi tidak perlu disimpan sebagai bidang terpisah (buang).

“attributionLogoURL, providerManagedID, turunanDari” - perhatikan bahwa ini adalah istilah Audubon Core

Mengenai bagian 3:

Kami setuju dengan metode yang diusulkan untuk mengintegrasikan data IH dan iDigBio. Untuk membantu menentukan siapa catatan terbaru, IH atau iDigBio, Anda dapat menggunakan tanggal komit untuk file individual di repo iDigBio sebagai tanggal yang ditambahkan/dimodifikasi.

Cara kerja repositori adalah manusia membuat/memperbarui sepotong json bernama ./collections/{collection_uuid}.json dan melakukan. Alur kerja perangkat lunak kemudian menjalankan pengujian dan menggabungkan potongan json ke dalam collections.json lengkap. Contoh file json individual adalah:

https://github.com/iDigBio/idb-us-collections/blob/master/collections/001c5234-048b-11e5-b0ee-002315492bbc

Catatan Penting : File collections.json yang benar-benar dimuat dan digunakan disajikan dari cabang json-index atau gh-pages (didorong ke keduanya) dan bukan cabang master. Misalnya:

https://raw.githubusercontent.com/iDigBio/idb-us-collections/json-index/collections.json

atau

http://idigbio.github.io/idb-us-collections/collections.json

Saya harap semua ini membantu. Jangan ragu untuk @ kami untuk pertanyaan atau klarifikasi tambahan.

@roncanepa @nrejack Saya sedang memeriksa pemetaan dan sepertinya AttributionLogoURL adalah satu-satunya bidang iDigBio yang kami lewatkan di registri kami. Tetapi saya memeriksa file collections.json dan memperhatikan bahwa bidang ini selalu kosong. Haruskah kita tetap menambahkannya ke registri kita? atau kita bisa membuangnya juga?

@asturcon Kami mengambil bidang ini dari Audubon Core, tetapi kami setuju bahwa Anda dapat membuang bidang ini karena kami tidak melakukan apa pun dengannya.

Terima kasih banyak atas balasan Anda @roncanepa dan @nrejack !
Dalam hal ini, kita akan memulai [ 1. Tautkan entri iDigBio dan GrSciColl ]. Kami akan melakukan sebanyak mungkin secara otomatis dan mengirimkan Anda dan Cat beberapa hal yang mungkin perlu diperiksa secara manual, apakah Anda setuju?

Baik dengan saya, mengirim pergi! Terima kasih banyak, semuanya!!

Hai @CatChapman , Morten telah bekerja untuk mencocokkan entri iDigBio dan GrSciColl: https://github.com/gbif/registry/issues/187
Ternyata lebih masuk akal untuk mencocokkan segalanya terlebih dahulu dengan institusi GrSCiColl karena ini adalah entri yang kami memiliki lebih banyak detail dan pengenal. Kemudian setelah kami mendapatkan kecocokan untuk institusi, kami dapat melihat koleksi dan mencocokkannya juga.

Morten menggambarkan seluruh proses dan hasil pencocokannya pada masalah yang ditautkan di atas, tetapi berikut adalah sorotannya:

  1. Cocokkan entri iDigBio berdasarkan IRN
  2. Cocokkan entri iDigBio kiri berdasarkan pengenal lain
  3. Cocokkan entri iDigBio kiri berdasarkan judul dan kode (perhatikan bahwa judul diproses untuk memfasilitasi pencocokan)
  4. Cocokkan entri iDigBio kiri berdasarkan kota dan kode
  5. Cocokkan entri iDigBio kiri berdasarkan judul saja ketika tidak ada kode institusi iDigBio
  6. Cocokkan judul berdasarkan entri iDigBio kiri (meskipun kode bertentangan)
  7. Cocokkan entri iDigBio kiri secara manual

Ini menyisakan 235 entri iDigBio yang tak tertandingi yang akan kami buat entri baru di GrSciColl.
Sekarang kami membutuhkan bantuan Anda untuk memeriksa kecocokan! Bisakah Anda membuka https://github.com/gbif/registry/issues/187 dan melihat hasil yang cocok? (Kami juga dapat menyediakan Anda dengan spreadsheet jika lebih nyaman).

Perhatikan bahwa kami mungkin memiliki beberapa koleksi duplikat di awal karena beberapa judul koleksi mungkin agak kabur di GrSciColl dan kami tidak selalu memiliki kode yang dapat diandalkan. Jangan khawatir, kami berharap untuk menyelesaikannya nanti.

Morten juga mendokumentasikan bagaimana kami berharap untuk melakukan penggabungan itu sendiri di sini: https://github.com/gbif/registry/issues/188

@ManonGros WOW! Ini bagus. Kalian rock, sangat.

Spreadsheet akan sangat bagus - saya baru saja mengirim email kepada Anda, jadi jangan ragu untuk mengirimkannya ke sana, atau menautkannya (jika itu adalah Google Sheet, dll) di sini.

Akan mengintip #188 sekarang.

Besar! Saya menambahkan file CSV yang dipisahkan tab untuk pencocokan:
iDigBio_GrSciColl_matches_march2020.tsv.zip

Jika akan bagus untuk mendapatkan kembali cek Anda dalam format yang dapat dibaca mesin. Kami menyarankan untuk menambahkan kolom ke file ini dengan benar/salah untuk setiap kecocokan bersama dengan kolom "koreksi" potensial dengan kecocokan yang sesuai yang Anda yakini benar.

File JSON Morten diperbarui dengan input dari CAT:
iDigBio_Morten_matches_AND_Cat_addition.json.zip

Apakah halaman ini membantu?
0 / 5 - 0 peringkat

Masalah terkait

timrobertson100 picture timrobertson100  ·  9Komentar

MortenHofft picture MortenHofft  ·  5Komentar

timrobertson100 picture timrobertson100  ·  17Komentar

MortenHofft picture MortenHofft  ·  24Komentar

timrobertson100 picture timrobertson100  ·  20Komentar