Kita bisa melakukan ini dalam urutan yang berbeda tentu saja.
Karena iDigBio menjelaskan koleksi, kita mungkin harus:
Setelah kami memiliki daftar kecocokan, kami dapat menambahkan pengidentifikasi ke entri GrSciColl untuk bekerja pada impor (mirip dengan apa yang kami lakukan dalam kasus IH).
Setiap orang mungkin memiliki ide tentang bagaimana melanjutkan tetapi demi melacak apa yang terjadi, saya menulis di sini langkah-langkah proses pencocokan:
Sekarang siapa yang akan melakukan apa?
Model antara iDigBio dan GrSciColl tampak sangat mirip. Berikut adalah bagaimana kami mengusulkan untuk memetakan bidang. Bisakah Anda membahas ini dan beri tahu kami jika Anda memiliki komentar?
iDiBio | GrSciColl
-- | --
Institusi | Dipetakan ke "Institusi" di entitas Koleksi dan "Nama" jika digunakan untuk membuat institusi
Koleksi | Nama di Coll
Kumpulan rekaman | Tetapkan sebagai MachineTag (karena untuk penggunaan internal) di col
RecordsetQuery | MesinTag di col
Kode Institusi | Dipetakan ke "Kode" di Institusi
Kode Koleksi | Dipetakan ke "Kode" di Koleksi
Koleksi Uuid | Ditambahkan sebagai pengenal
Koleksi Lsid | Ditambahkan sebagai pengenal
Url Koleksi | Beranda di Coll
Url Katalog Koleksi | URL Katalog di Coll
Deskripsi | Deskripsi di Coll
DeskripsiUntukSpesialis | Digabungkan ke Deskripsi di Coll (atau bidang baru?)
Spesimen yang Dikatalogkan | Jumlah Spesimen dalam Coll
KnownToContainTypes | Membuang? (bidang digunakan kurang dari 100 kali) Apakah perlu untuk penggunaan internal? Dalam hal ini, kita dapat menambahkannya sebagai machineTag.
Cakupan Takson | Cakupan taksonomi di Coll
Rentang Geografis | Cakupan geografis di Coll
KoleksiExtent | Membuang? (sepertinya dalam banyak kasus berisi string dengan nilai yang sama dengan cataloguedSpecimens)
Kontak | Dipetakan ke Nama Staf
Peran Kontak | Dipetakan ke Posisi Staf
Email Kontak | Dipetakan ke Email Staf
Alamat Surat | Alamat Surat di Coll
Kota Surat | Kota Surat di Coll
Negara Pengiriman | Negara Surat di Coll
Zip Surat | Kode Pos Surat di Coll
Alamat Fisik | Alamat Fisik di Coll
Kota Fisik | Kota Fisik di Coll
Keadaan Fisik | Keadaan Fisik di Coll
Zip Fisik | Kode Pos Fisik di Coll
UniqueNameUUID | Ditambahkan sebagai pengenal di inst
AttributionLogoURL | bidang baru?
ProviderManagedID | Ditambahkan sebagai pengidentifikasi
BerasalDari | Ditambahkan sebagai MachineTag jika itu untuk penggunaan internal?
Sama Seperti | Ditambahkan sebagai pengidentifikasi
Bendera | Ditambahkan sebagai MachineTag
Tampilan Portal | Ditambahkan sebagai MachineTag
lat | Lintang di Institusi
Lon | Garis Bujur di Institusi
Seperti yang disebutkan sebelumnya, kami sedang mengerjakan sinkronisasi Index Herbariorum dan GrSciColl (https://github.com/gbif/registry/issues/167). Ada tumpang tindih parsial antara iDigBio dan IH.
Apa yang harus kita lakukan dalam kasus ini?
Saya menyarankan untuk menimpa informasi untuk bidang yang disediakan oleh IH (nilai IH menimpa nilai iDigBio atau GrSciColl) dan menyimpan bidang yang berasal dari iDigBio saja.
Jika catatan iDigBio adalah yang terbaru, kami akan membuat masalah GitHub dan kemudian mengirimkan pembaruan terbaru ke IH.
Apakah itu baik-baik saja?
tentang bagian 1:
Mengenai siapa yang melakukan pekerjaan itu, saya dengan hormat berpikir akan lebih baik dan paling bijaksana jika GBIF dapat mencurahkan waktu untuk ini. iDigBio/ACIS IT masih kekurangan oleh 1 anggota tim dan, meskipun kami merasa bahwa produk yang dihasilkan akan bekerja lebih baik untuk semua orang, saya tidak berpikir kami dapat menjamin bahwa kami dapat berkomitmen untuk itu dalam waktu dekat.
Berikut adalah beberapa catatan lain untuk bagian 1 dari masalah ini:
untuk pencocokan, dimungkinkan untuk mencocokkan dari kode institusi GBIF ke kode institusi collections.json
berdasarkan dokumentasi collections.json yang ada (dalam readme repo), institution_lsid
dipetakan ke "GRBio LSID atau coolURI untuk LSID institusi" jika ditemukan, jika tidak kosong
kecocokan lain kemungkinan besar harus berupa algoritme pencocokan berbasis string. Catatan yang berpotensi membantu untuk tujuan pencocokan/verifikasi adalah bahwa recordset uuid di collections.json akan cocok dengan recordset uuid yang disajikan dari API kami.
Bagian 2:
Catatan individu dalam collections.json iDigBio adalah catatan Institution-Collection. GBIF dengan tepat memecah Institusi dan Koleksi menjadi entitas yang terpisah. Lihat diagram terlampir untuk hierarki yang dimaksud.
Catatan: ada definisi bidang di readme: https://github.com/iDigBio/idb-us-collections
Komentar tentang pemetaan individu:
“UniqueNameUUID Ditambahkan sebagai pengenal” - ini tampaknya dimaksudkan sebagai UUID "lembaga" dalam hierarki catatan iDigBio tetapi tampaknya tidak diterapkan. Simpan sebagai pengenal dalam sistem GBIF.
recordsetQuery: Ini menghasilkan tautan ke recordset iDigBio, (yaitu, https://www.idigbio.org/portal/recordsets/ea12da76-1b2e-4944-8709-1de3af1c65e2). Bidang ini dapat dibuang jika Anda membuat tautan ke kumpulan rekaman dengan cara lain.
Recordsets - Pengingat: ini adalah objek induk kami untuk catatan individual di sistem kami
KnownToContainTypes: ini sepertinya boleh dibuang.
Collectionextent: dapat disalin ke CatalogedSpecimens di mana CatalogedSpecimens kosong, tetapi tidak perlu disimpan sebagai bidang terpisah (buang).
“attributionLogoURL, providerManagedID, turunanDari” - perhatikan bahwa ini adalah istilah Audubon Core
Mengenai bagian 3:
Kami setuju dengan metode yang diusulkan untuk mengintegrasikan data IH dan iDigBio. Untuk membantu menentukan siapa catatan terbaru, IH atau iDigBio, Anda dapat menggunakan tanggal komit untuk file individual di repo iDigBio sebagai tanggal yang ditambahkan/dimodifikasi.
Cara kerja repositori adalah manusia membuat/memperbarui sepotong json bernama ./collections/{collection_uuid}.json dan melakukan. Alur kerja perangkat lunak kemudian menjalankan pengujian dan menggabungkan potongan json ke dalam collections.json lengkap. Contoh file json individual adalah:
Catatan Penting : File collections.json
yang benar-benar dimuat dan digunakan disajikan dari cabang json-index
atau gh-pages
(didorong ke keduanya) dan bukan cabang master. Misalnya:
https://raw.githubusercontent.com/iDigBio/idb-us-collections/json-index/collections.json
atau
http://idigbio.github.io/idb-us-collections/collections.json
Saya harap semua ini membantu. Jangan ragu untuk @ kami untuk pertanyaan atau klarifikasi tambahan.
@roncanepa @nrejack Saya sedang memeriksa pemetaan dan sepertinya AttributionLogoURL
adalah satu-satunya bidang iDigBio yang kami lewatkan di registri kami. Tetapi saya memeriksa file collections.json
dan memperhatikan bahwa bidang ini selalu kosong. Haruskah kita tetap menambahkannya ke registri kita? atau kita bisa membuangnya juga?
@asturcon Kami mengambil bidang ini dari Audubon Core, tetapi kami setuju bahwa Anda dapat membuang bidang ini karena kami tidak melakukan apa pun dengannya.
Terima kasih banyak atas balasan Anda @roncanepa dan @nrejack !
Dalam hal ini, kita akan memulai [ 1. Tautkan entri iDigBio dan GrSciColl ]. Kami akan melakukan sebanyak mungkin secara otomatis dan mengirimkan Anda dan Cat beberapa hal yang mungkin perlu diperiksa secara manual, apakah Anda setuju?
Baik dengan saya, mengirim pergi! Terima kasih banyak, semuanya!!
Hai @CatChapman , Morten telah bekerja untuk mencocokkan entri iDigBio dan GrSciColl: https://github.com/gbif/registry/issues/187
Ternyata lebih masuk akal untuk mencocokkan segalanya terlebih dahulu dengan institusi GrSCiColl karena ini adalah entri yang kami memiliki lebih banyak detail dan pengenal. Kemudian setelah kami mendapatkan kecocokan untuk institusi, kami dapat melihat koleksi dan mencocokkannya juga.
Morten menggambarkan seluruh proses dan hasil pencocokannya pada masalah yang ditautkan di atas, tetapi berikut adalah sorotannya:
Ini menyisakan 235 entri iDigBio yang tak tertandingi yang akan kami buat entri baru di GrSciColl.
Sekarang kami membutuhkan bantuan Anda untuk memeriksa kecocokan! Bisakah Anda membuka https://github.com/gbif/registry/issues/187 dan melihat hasil yang cocok? (Kami juga dapat menyediakan Anda dengan spreadsheet jika lebih nyaman).
Perhatikan bahwa kami mungkin memiliki beberapa koleksi duplikat di awal karena beberapa judul koleksi mungkin agak kabur di GrSciColl dan kami tidak selalu memiliki kode yang dapat diandalkan. Jangan khawatir, kami berharap untuk menyelesaikannya nanti.
Morten juga mendokumentasikan bagaimana kami berharap untuk melakukan penggabungan itu sendiri di sini: https://github.com/gbif/registry/issues/188
@ManonGros WOW! Ini bagus. Kalian rock, sangat.
Spreadsheet akan sangat bagus - saya baru saja mengirim email kepada Anda, jadi jangan ragu untuk mengirimkannya ke sana, atau menautkannya (jika itu adalah Google Sheet, dll) di sini.
Akan mengintip #188 sekarang.
Besar! Saya menambahkan file CSV yang dipisahkan tab untuk pencocokan:
iDigBio_GrSciColl_matches_march2020.tsv.zip
Jika akan bagus untuk mendapatkan kembali cek Anda dalam format yang dapat dibaca mesin. Kami menyarankan untuk menambahkan kolom ke file ini dengan benar/salah untuk setiap kecocokan bersama dengan kolom "koreksi" potensial dengan kecocokan yang sesuai yang Anda yakini benar.
File JSON Morten diperbarui dengan input dari CAT:
iDigBio_Morten_matches_AND_Cat_addition.json.zip
Komentar yang paling membantu
@asturcon Kami mengambil bidang ini dari Audubon Core, tetapi kami setuju bahwa Anda dapat membuang bidang ini karena kami tidak melakukan apa pun dengannya.