Registry: Tambahkan kategori ke kumpulan data

Dibuat pada 3 Nov 2020  ·  20Komentar  ·  Sumber: gbif/registry

Dataset saat ini memiliki tipe dan subtipe yang sedikit bermasalah. Type benar-benar menunjukkan format baris yang digunakan dalam DwC-A dan menyebabkan masalah karena daftar periksa dapat memiliki kejadian, dan kumpulan data kejadian sebenarnya dapat menjadi output dari pengambilan sampel data kejadian.

Penggunaan SubType yang lebih baik dapat membantu, tetapi saya merasa dapat menambah lebih banyak kebingungan karena tumpang tindih (misalnya kumpulan data kejadian dengan peristiwa pengambilan sampel subtipe).

Karena API sekarang digunakan dengan sangat baik dan perubahan ini mengganggu, saya mengusulkan untuk memperkenalkan bidang multi-nilai baru bernama category untuk mengkategorikan kumpulan data. Pada waktunya kita dapat mencela tipe dan subtipe.

Kategori akan mencakup suka (diedit untuk menyertakan saran yang masuk dari obrolan di bawah):

  1. Data sains warga
  2. Data observasi
  3. Koleksi sejarah alam
    Sebuah. Pertimbangkan untuk memisahkan fosil sebagai kategori terpisah, untuk menghindari penyalahgunaan yang tidak disengaja
  4. Organisme tunggal diurutkan (yaitu jaringan dari spesimen NHM)
    Sebuah. Pertimbangkan untuk menambahkan sampel jaringan juga (yang mungkin atau mungkin tidak diurutkan) untuk membantu penemuan jaringan yang diawetkan tanpa menggunakan istilah lain yang ambigu
  5. DNA lingkungan dan/atau metagenomik (misalnya sampel tanah, air, sup serangga, dll)
  6. Deteksi spesies yang ditargetkan (tes berbasis PCR)
  7. Data pemantauan jangka panjang
  8. Acara pengambilan sampel (di mana beberapa protokol telah digunakan)
  9. Data daftar periksa
  10. Kutipan materi (misalnya perawatan taksonomi dalam literatur)
  11. data sektor swasta
    Sebuah. Pertimbangkan untuk membaginya ke dalam kategori yang lebih baik (misalnya data pendukung untuk penilaian dampak lingkungan sebelum pembangunan) versus kategori lain (akan ditentukan)
  12. data pelacakan (yaitu penangkapan kembali atau pelacakan GPS organisme individu)
  13. Pengamatan mesin (misalnya jebakan kamera)

Beberapa kategori akan ditambahkan ke setiap catatan kejadian pada pengindeksan, memungkinkan filter intuitif untuk ditambahkan di GBIF.org sehingga orang dapat memilih on/off kategori kumpulan data yang menarik bagi mereka.

CC @ahahn-gbif @MortenHofft untuk komentar khususnya

Semua 20 komentar

Terima kasih!

~Dengan asumsi ini juga akan mendukung metrik (dan memahami bahwa multinilai berarti kumpulan data dapat dimiliki lebih dari satu kategori), saya ingin menambahkan~
~9. data sektor swasta~
~10. data pelacakan (yaitu penangkapan kembali atau pelacakan GPS organisme individu)~

[Tim: Terima kasih - Ditambahkan di atas!]

Pertanyaan: haruskah 4. metagenomic (eDNA) menjadi dua kategori terpisah? Ada perbedaan dalam interpretasi data ini, meskipun keduanya "berdasarkan urutan" @ManonGros , maukah Anda berkomentar?

[Tim Diedit untuk menambahkan: Saya telah membaginya di atas sekarang, tetapi akan berubah lagi berdasarkan lebih banyak komentar]

Pengamatan mesin sepertinya merupakan sub kategori Acara Pengambilan Sampel.

Pengamatan mesin sepertinya merupakan sub kategori Acara Pengambilan Sampel.

Tidak apa-apa bukan? Karena multinilai, kumpulan data dapat ditandai sebagai keduanya atau hanya peristiwa pengambilan sampel, atau mungkin ada kasus di mana pengamatan mesin akan sesuai jika tidak ada protokol pengambilan sampel nyata yang digunakan.

Kategori baru ini akan menjadi teks bebas menggunakan server vocab? Atau apakah kita mencoba untuk mendefinisikan semua kategori?

Kategori baru ini akan menjadi teks bebas menggunakan server vocab? Atau apakah kita mencoba untuk mendefinisikan semua kategori?

~Belum diputuskan, tapi saat ini kami mengusulkan kategori~

Revisi: Sekarang saya menyarankan server kosakata, seperti yang dijelaskan nanti di utas ini.

Besar! Saya suka idenya!

~Hanya satu komentar:~
~> 4. Metagenom organisme tunggal (yaitu jaringan dari spesimen NHM)~
~> 5. EDNA lingkungan (misalnya sampel tanah, air, sup serangga dll)~

~Nomor 4 sepertinya tidak benar. Apa yang saya pahami ketika membaca "Metagenomic organisme tunggal" adalah bahwa seseorang mengambil sampel usus sapi (misalnya) dan mengurutkannya, menghasilkan banyak kejadian untuk mikrobioma usus. Saya kira ini bukan idenya, kan?~
~Jika maksud Anda bahwa jaringan dari spesimen diurutkan, maka saya akan menulis sesuatu yang lebih di sepanjang baris "Organisme tunggal diurutkan". Dan sebenarnya, kita dapat mengelompokkan metagenomics dengan eDNA (seringkali eDNA adalah metagenomics). Jadi pada akhirnya, saya pikir kita bisa melakukan sesuatu seperti:~

~4. Organisme tunggal diurutkan (yaitu jaringan dari spesimen NHM)~
~5. EDNA lingkungan dan/atau metagenomik (misalnya sampel tanah, air, sup serangga, dll.)~

[Tim: Diedit dengan saran yang diungkapkan di sini - terima kasih, Anda memang mengerti apa yang saya maksudkan!]

Mungkin @thomasstjerne memiliki beberapa pemikiran tentang ini?

Menambahkan deteksi spesies yang ditargetkan (tes berbasis PCR)

Terima kasih @timrobertson100 karena telah membuat saya mengetahui utasnya, sangat menarik. Sejauh ini, saya menemukan delapan kemungkinan variabel independen yang dapat menentukan jenis bukti/dataset di GBIF. Saya perlu bermeditasi lebih lama sebelum menyajikan pandangan saya di sini, dan senang untuk bertukar pikiran / papan tulis sedikit jika orang tersedia?

Melacak ini juga

Halo semuanya, saya suka ide untuk menyortir kumpulan data dan jenis bukti, tetapi saya tidak yakin itu paling menarik bagi pengguna untuk melakukannya menggunakan filter / kosakata tunggal (tapi saya mendapat kelayakan seperti yang diajukan oleh Tim). Saya menggambar beberapa peta pikiran tetapi tidak punya waktu untuk menambahkan gambar di sini, jadi ketik saja untuk pertimbangan Anda. Saya mulai dari berpikir mengapa pengguna perlu mengurutkan dataset/jenis bukti? Ini adalah cara cepat untuk memasukkan/mengecualikan jenis data yang penting untuk kasus Anda berdasarkan bagaimana bukti dihasilkan dan propertinya. Saya menemukan 8 variabel independen yang melintasi kategorisasi yang disarankan dari kumpulan data dan kosa kata basisOfRecord seperti yang kita miliki saat ini. Perhatikan bahwa saya pikir pekerjaan mandiri itu penting di sini, meskipun beberapa kombinasi dari 1-8 di bawah ini tidak mungkin dilakukan dalam kehidupan nyata.

Saya menggunakan kata-kata longgar untuk menggambarkan pemikiran saya, ini bukan kosakata yang saya sarankan, dan ada beberapa tumpang tindih yang belum terselesaikan:

  1. Status pelestarian bukti: hanya virtual atau fisik: fosil, mati, hidup (kebun binatang, budaya, kebun, akuarium). Perhatikan beberapa orang berpikir seperti amber tidak mudah ditempatkan, karena seseorang bisa mendapatkan DNA dari amber, ada subfosil, dll.). _Pertanyaan_: Dapatkah saya memeriksa kembali materi fisik? Apa dan dimana?
  2. Integritas / N spesies: Tunggal & utuh (misalnya serangga, yaitu mengandung semua gennya dalam satu individu), sebagian (sampel jaringan, daun, tubuh buah) atau spesimen campuran (umum dalam koleksi lumut dan lumut, ketika pengumpulan spesies individu tidak memungkinkan : tetapi pengambilan sampel tidak disengaja misalnya seperti plankton lihat 6). _Pertanyaan_: Dapatkah saya mempelajari morfologi lengkap, atau hanya beberapa ciri, atau hanya menghubungkan spesimen museum dengan urutan DNA?
  3. DNA: tidak dieksplorasi, urutan, PCR. Catatan: ini berada di antara virtual dan fisik, karena produk DNA atau PCR dapat disimpan untuk waktu yang lama (fisik), tetapi bukti DNA untuk keberadaan spesies, seringkali merupakan urutan, adalah bukti virtual yang dihasilkan mesin yang tidak jauh berbeda dengan gambar digital atau sebuah suara. _Pertanyaan_: Dapatkah saya memeriksa kembali identifikasi, melakukan filogeni, atau yang saya miliki hanyalah nama label?
  4. Data Dinamis / Statis. Dinamis: pelacakan, deret waktu, penangkapan ulang tanda. _Pertanyaan_: dapatkah saya hanya mempelajari proses, atau hanya pola?
  5. Cara bukti dihasilkan: pemrosesan literatur, digitalisasi koleksi, pengamatan pribadi, pengambilan sampel sistematis. _Pertanyaan_: Dapatkah saya mengurutkan data berdasarkan keandalan pembuatannya?
  6. Untuk pengambilan sampel data peristiwa, tetapi mungkin juga kejadian: hanya ada (usaha pengambilan sampel tidak diketahui / tidak terdokumentasi), ada-tidaknya, kelimpahan (kuantitatif). _Pertanyaan_: Jenis analisis statistik apa yang mungkin dilakukan?
  7. Cara data dikemas dalam GBIF: metadata saja, daftar periksa, kejadian saja, peristiwa pengambilan sampel. Mungkin menyertakan filter menurut ekstensi yang digunakan, khususnya. jika kita mendapatkan lebih banyak dari mereka di TDWG. _Pertanyaan_: Apa yang saya dapatkan dalam unduhan GBIF, verbatim, dan interpretasi GBIF saya?
  8. Komunitas yang menghasilkan data (mungkin ini lebih relevan untuk menandai penerbit, tetapi seseorang mungkin perlu memfilter kejadian dan kumpulan data berdasarkan): (kelompok) individu, koleksi sejarah alam, sektor swasta, kelautan, ilmu pengetahuan warga, mesin. Beberapa di antaranya tidak saling eksklusif: dapat berupa "koleksi sejarah alam" + "ilmu warga", atau "mesin". _Pertanyaan_: Dapatkah saya mempelajari tren data di sektor demografis tertentu?

Sekali lagi, ini hanyalah tangkapan dari pemikiran yang belum selesai; alangkah baiknya untuk melakukan brainstorming / papan tulis tentang bagaimana kategorisasi yang baik akan terlihat. Saya berpikir untuk mengirisnya karena misalnya 1, 7, dan 13 di pos asli dapat benar secara bersamaan. Jika ini adalah tag dan tumpang tindih tidak masalah, maka baiklah. Tetapi jika ini adalah filter yang ketat, kita mungkin memerlukan lebih dari sekadar bidang untuk menangkap jenis pelestarian vs. menghasilkan komunitas vs. cara menghasilkan vs. kuantitas, dll. Jangan ragu untuk membuang jika di luar cakupan. Saya juga tidak menemukan kumpulan diskusi BoR, yang sebagian berlaku di sini.

Saya berasumsi kategorisasi akan datang dari kami (setidaknya begitulah saat ini untuk kumpulan data sains warga) tetapi akan lebih bagus jika orang lain dapat membantu dengan kurasi juga. Hanya sesuatu yang perlu diingat.

Sebagai contoh, katakanlah kita meminta manajer Node untuk memeriksa kumpulan data yang diberi tag "ilmu warga". Kami ingin:

  1. Cara mudah bagi mereka untuk melihat semua kumpulan data sains warga untuk node mereka.
  2. Jika manajer Node melihat kumpulan data yang diberi tag secara keliru, kami ingin melacaknya sehingga kami tidak memberi tag ulang di lain waktu.

Melihat masalah ini: https://github.com/gbif/portal-feedback/issues/3381 , kami akan kehilangan kategori data extracted from taxonomic literature (i.e., Plazi) . Anda benar, saya melewatkannya!

Terima kasih @ManonGros

Melihat masalah ini: gbif/portal-feedback#3381, kita akan kehilangan data yang diekstraksi dari kategori literatur taksonomi (yaitu, Plazi).

Itulah yang dimaksudkan untuk menjadi:

Kutipan materi (misalnya perawatan taksonomi dalam literatur)

(Terkait adalah bahwa Plazi baru saja mengusulkan Material citation tambahan kosakata basisOfRecord dalam masalah Darwin Core untuk komentar publik)

+1 @Dmitry untuk satu ke banyak dan menggunakan tag kata kunci (bukan catatan inti 1: 1 untuk kategori)
+1 @Marie karena berpikir untuk mengaktifkan staf Node untuk membuat kategori --> dan juga dapat menambahkan permintaan fitur untuk memungkinkan siapa saja membuat anotasi titik data/set dengan informasi kategori (dengan asalnya utuh)

Ingat juga bahwa "dataset" (seperti dalam Darwin-Core-archive-dataset) dapat berupa kumpulan "catatan bukti" (alias catatan inti, mis. alias kejadian) dari kategori yang berbeda -- jika kategori "tag" adalah dirancang untuk diterapkan ke semua catatan inti dalam DwC-A

Dan bahwa de-normalisasi "catatan bukti" (catatan inti) berarti bahwa seseorang tidak dapat memastikan dari kelas mana properti tertentu yang ditautkan ke catatan inti dimaksudkan untuk ditautkan.

Saya sangat menyukai ide ini. Tentu saja ALA memiliki pengguna yang menginginkan cara yang sangat sederhana untuk memilih pengelompokan record di seluruh penyedia data. Kelompok yang paling banyak saya dengar permintaan ini adalah kurator/peneliti yang 'hanya' menginginkan spesimen museum atau herbarium.

Beberapa saran:

  1. Koleksi sejarah alam - mungkin masih berguna untuk juga memiliki kategori untuk spesimen Fosil sehingga dapat dengan mudah dipisahkan.
    Alasan untuk memisahkan Fosil adalah bahwa subfosil (atau spesies fosil apa pun yang masih ada) sering muncul di luar distribusi yang ada dan dapat dengan mudah disalahartikan sebagai kesalahan dan ditandai seperti itu, ketika mereka benar-benar sah.
  1. Organisme tunggal diurutkan (yaitu jaringan dari spesimen NHM)
    Memiliki kategori tambahan untuk sampel Jaringan akan sangat berguna, apakah urutan telah diturunkan atau tidak.
    Pengguna kategori ini mungkin adalah peneliti yang mencari jaringan untuk pengambilan sampel pinjaman/destruktif yang saat ini harus mencari BasisOfRecord = sampel bahan ditambah keberuntungan pot Persiapan.

  2. Data sektor swasta - maksud Anda data yang dikumpulkan oleh perusahaan yang melakukan penilaian dampak lingkungan sebelum persetujuan proyek pembangunan/pertambangan? Jika demikian, di Australia ini biasa disebut “Data Pemrakarsa” (data dari para pendukung pembangunan). Jika data sektor swasta berarti sesuatu yang lain, mungkin bisa memiliki keduanya?

Ingat juga bahwa "dataset" (seperti dalam Darwin-Core-archive-dataset) dapat berupa kumpulan "catatan bukti" (alias catatan inti, mis. alias kejadian) dari kategori yang berbeda -- jika kategori "tag" adalah dirancang untuk diterapkan ke semua catatan inti dalam DwC-A

Terima kasih, @dagendresen. Pemikiran saya di sini adalah untuk mencoba dan memisahkan ini dari masalah class/basisOfRecord di Darwin Core untuk dapat bereaksi terhadap pelaporan/kebutuhan pengguna dengan cepat (misalnya, memperkenalkan tag baru untuk kumpulan data). Mengakui bahwa mungkin ada kumpulan data "kantong campuran", intuisi saya adalah bahwa sebagian besar pengguna akan menghargai pemfilteran luas misalnya "hilangkan catatan yang berasal dari kumpulan data yang ditandai sebagai eDNA" bahkan jika ada beberapa entri di sana yang mungkin menarik, atau untuk menghasilkan laporan (misalnya grafik pertumbuhan) berdasarkan misalnya data yang berasal dari kumpulan data yang ditandai sebagai terkait dengan sektor swasta. Apakah ini tampak masuk akal, tolong?

sangat menyukai ide ini

Terima kasih, @elywallis - Saya akan menambahkan masukan Anda ke daftar di atas sekarang.

Data sektor swasta - maksud Anda data yang dikumpulkan oleh perusahaan yang melakukan penilaian dampak lingkungan sebelum persetujuan proyek pembangunan/pertambangan?

Saya percaya itu niatnya, ya. Saya tidak tahu detailnya, tapi saya tahu tim manajemen data semakin banyak menjalankan laporan tren menggunakan kategori seperti ini. Saya akan menambahkan komentar Anda di daftar teratas, tanpa mengusulkan keputusan akhir.

Sedikit di luar topik, tapi mungkin berguna:

Ini mungkin tidak diketahui banyak orang, tetapi GBIF secara progresif memindahkan kosakata seperti ini ke dalam server kosakata terintegrasi kami. Ini akan memungkinkan pengelola data (misalnya termasuk pengelola simpul @dagendresen ) untuk terlibat dalam mendefinisikan konsep. Konsep dapat bersifat hierarkis (misalnya, kategorisasi data pribadi yang lebih halus) dan begitu versi kosakata dirilis, versi tersebut diambil dalam jalur pemrosesan data. Ini masih berkembang, tetapi LifeStage sedang dalam produksi sekarang.

Apa artinya ini terkait dengan masalah ini, adalah karena kami menemukan persyaratan baru untuk mengkategorikan kumpulan data untuk laporan atau komunitas baru yang kami lihat muncul, kami akan memiliki alat untuk mengakomodasi itu tanpa memerlukan keterlibatan pengembang perangkat lunak (hanya memerlukan kosakata untuk diubah, dan kemudian lanjutkan dengan menandai kumpulan data).

kumpulan data "tas campuran"

@timrobertson100 Saya akan (jika diminta) sepenuhnya setuju bahwa praktik terbaik adalah menghindari kumpulan data "tas campuran" dan bahwa "tag" untuk mengaktifkan filter untuk _"tujuan penggunaan kembali"_ akan sangat berguna dan disambut! Dan percaya kita bisa hidup dengan baik dengan fungsionalitas seperti itu tidak menerapkan 100% ke kumpulan data "tas campuran" :-)

(sesuai -- GBIF Norway sedang "bernegosiasi" dengan penerbit data Norwegia untuk "memecahkan" kumpulan data "tas campuran" menjadi kumpulan data yang lebih kecil yang akan lebih homogen)

@timrobertson100 menulis:

Sedikit di luar topik, tapi mungkin berguna:

Ini mungkin tidak diketahui banyak orang, tetapi GBIF secara progresif memindahkan kosakata seperti ini ke dalam server kosakata terintegrasi kami. Ini akan memungkinkan pengelola data (misalnya termasuk pengelola simpul @dagendresen ) untuk terlibat dalam mendefinisikan konsep. Konsep dapat bersifat hierarkis (misalnya, kategorisasi data pribadi yang lebih halus) dan begitu versi kosakata dirilis, versi tersebut diambil dalam jalur pemrosesan data. Ini masih berkembang, tetapi LifeStage sedang dalam produksi sekarang.

Apa artinya ini terkait dengan masalah ini, adalah karena kami menemukan persyaratan baru untuk mengkategorikan kumpulan data untuk laporan atau komunitas baru yang kami lihat muncul, kami akan memiliki alat untuk mengakomodasi itu tanpa memerlukan keterlibatan pengembang perangkat lunak (hanya memerlukan kosakata untuk diubah, dan kemudian lanjutkan dengan menandai kumpulan data).

Tim, bisakah kamu melihat milikku?? Pada titik tertentu, kami membutuhkan sesuatu, pembicaraan dari GBIF, Webinar TDWG, tentang upaya ini. Saya pikir komunitas yang lebih luas akan merasa sangat tercerahkan tentang bagaimana kita dapat menggunakan data yang kita miliki untuk meningkatkan dan memahami data.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat

Masalah terkait

rukayaj picture rukayaj  ·  14Komentar

ahahn-gbif picture ahahn-gbif  ·  4Komentar

MortenHofft picture MortenHofft  ·  24Komentar

timrobertson100 picture timrobertson100  ·  9Komentar

marcos-lg picture marcos-lg  ·  11Komentar