Dataset
saat ini memiliki tipe dan subtipe yang sedikit bermasalah. Type
benar-benar menunjukkan format baris yang digunakan dalam DwC-A dan menyebabkan masalah karena daftar periksa dapat memiliki kejadian, dan kumpulan data kejadian sebenarnya dapat menjadi output dari pengambilan sampel data kejadian.
Penggunaan SubType
yang lebih baik dapat membantu, tetapi saya merasa dapat menambah lebih banyak kebingungan karena tumpang tindih (misalnya kumpulan data kejadian dengan peristiwa pengambilan sampel subtipe).
Karena API sekarang digunakan dengan sangat baik dan perubahan ini mengganggu, saya mengusulkan untuk memperkenalkan bidang multi-nilai baru bernama category
untuk mengkategorikan kumpulan data. Pada waktunya kita dapat mencela tipe dan subtipe.
Kategori akan mencakup suka (diedit untuk menyertakan saran yang masuk dari obrolan di bawah):
Beberapa kategori akan ditambahkan ke setiap catatan kejadian pada pengindeksan, memungkinkan filter intuitif untuk ditambahkan di GBIF.org sehingga orang dapat memilih on/off kategori kumpulan data yang menarik bagi mereka.
CC @ahahn-gbif @MortenHofft untuk komentar khususnya
Terima kasih!
~Dengan asumsi ini juga akan mendukung metrik (dan memahami bahwa multinilai berarti kumpulan data dapat dimiliki lebih dari satu kategori), saya ingin menambahkan~
~9. data sektor swasta~
~10. data pelacakan (yaitu penangkapan kembali atau pelacakan GPS organisme individu)~
[Tim: Terima kasih - Ditambahkan di atas!]
Pertanyaan: haruskah 4. metagenomic (eDNA) menjadi dua kategori terpisah? Ada perbedaan dalam interpretasi data ini, meskipun keduanya "berdasarkan urutan" @ManonGros , maukah Anda berkomentar?
[Tim Diedit untuk menambahkan: Saya telah membaginya di atas sekarang, tetapi akan berubah lagi berdasarkan lebih banyak komentar]
Pengamatan mesin sepertinya merupakan sub kategori Acara Pengambilan Sampel.
Pengamatan mesin sepertinya merupakan sub kategori Acara Pengambilan Sampel.
Tidak apa-apa bukan? Karena multinilai, kumpulan data dapat ditandai sebagai keduanya atau hanya peristiwa pengambilan sampel, atau mungkin ada kasus di mana pengamatan mesin akan sesuai jika tidak ada protokol pengambilan sampel nyata yang digunakan.
Kategori baru ini akan menjadi teks bebas menggunakan server vocab? Atau apakah kita mencoba untuk mendefinisikan semua kategori?
Kategori baru ini akan menjadi teks bebas menggunakan server vocab? Atau apakah kita mencoba untuk mendefinisikan semua kategori?
~Belum diputuskan, tapi saat ini kami mengusulkan kategori~
Revisi: Sekarang saya menyarankan server kosakata, seperti yang dijelaskan nanti di utas ini.
Besar! Saya suka idenya!
~Hanya satu komentar:~
~> 4. Metagenom organisme tunggal (yaitu jaringan dari spesimen NHM)~
~> 5. EDNA lingkungan (misalnya sampel tanah, air, sup serangga dll)~
~Nomor 4 sepertinya tidak benar. Apa yang saya pahami ketika membaca "Metagenomic organisme tunggal" adalah bahwa seseorang mengambil sampel usus sapi (misalnya) dan mengurutkannya, menghasilkan banyak kejadian untuk mikrobioma usus. Saya kira ini bukan idenya, kan?~
~Jika maksud Anda bahwa jaringan dari spesimen diurutkan, maka saya akan menulis sesuatu yang lebih di sepanjang baris "Organisme tunggal diurutkan". Dan sebenarnya, kita dapat mengelompokkan metagenomics dengan eDNA (seringkali eDNA adalah metagenomics). Jadi pada akhirnya, saya pikir kita bisa melakukan sesuatu seperti:~
~4. Organisme tunggal diurutkan (yaitu jaringan dari spesimen NHM)~
~5. EDNA lingkungan dan/atau metagenomik (misalnya sampel tanah, air, sup serangga, dll.)~
[Tim: Diedit dengan saran yang diungkapkan di sini - terima kasih, Anda memang mengerti apa yang saya maksudkan!]
Mungkin @thomasstjerne memiliki beberapa pemikiran tentang ini?
Menambahkan deteksi spesies yang ditargetkan (tes berbasis PCR)
Terima kasih @timrobertson100 karena telah membuat saya mengetahui utasnya, sangat menarik. Sejauh ini, saya menemukan delapan kemungkinan variabel independen yang dapat menentukan jenis bukti/dataset di GBIF. Saya perlu bermeditasi lebih lama sebelum menyajikan pandangan saya di sini, dan senang untuk bertukar pikiran / papan tulis sedikit jika orang tersedia?
Melacak ini juga
Halo semuanya, saya suka ide untuk menyortir kumpulan data dan jenis bukti, tetapi saya tidak yakin itu paling menarik bagi pengguna untuk melakukannya menggunakan filter / kosakata tunggal (tapi saya mendapat kelayakan seperti yang diajukan oleh Tim). Saya menggambar beberapa peta pikiran tetapi tidak punya waktu untuk menambahkan gambar di sini, jadi ketik saja untuk pertimbangan Anda. Saya mulai dari berpikir mengapa pengguna perlu mengurutkan dataset/jenis bukti? Ini adalah cara cepat untuk memasukkan/mengecualikan jenis data yang penting untuk kasus Anda berdasarkan bagaimana bukti dihasilkan dan propertinya. Saya menemukan 8 variabel independen yang melintasi kategorisasi yang disarankan dari kumpulan data dan kosa kata basisOfRecord seperti yang kita miliki saat ini. Perhatikan bahwa saya pikir pekerjaan mandiri itu penting di sini, meskipun beberapa kombinasi dari 1-8 di bawah ini tidak mungkin dilakukan dalam kehidupan nyata.
Saya menggunakan kata-kata longgar untuk menggambarkan pemikiran saya, ini bukan kosakata yang saya sarankan, dan ada beberapa tumpang tindih yang belum terselesaikan:
Sekali lagi, ini hanyalah tangkapan dari pemikiran yang belum selesai; alangkah baiknya untuk melakukan brainstorming / papan tulis tentang bagaimana kategorisasi yang baik akan terlihat. Saya berpikir untuk mengirisnya karena misalnya 1, 7, dan 13 di pos asli dapat benar secara bersamaan. Jika ini adalah tag dan tumpang tindih tidak masalah, maka baiklah. Tetapi jika ini adalah filter yang ketat, kita mungkin memerlukan lebih dari sekadar bidang untuk menangkap jenis pelestarian vs. menghasilkan komunitas vs. cara menghasilkan vs. kuantitas, dll. Jangan ragu untuk membuang jika di luar cakupan. Saya juga tidak menemukan kumpulan diskusi BoR, yang sebagian berlaku di sini.
Saya berasumsi kategorisasi akan datang dari kami (setidaknya begitulah saat ini untuk kumpulan data sains warga) tetapi akan lebih bagus jika orang lain dapat membantu dengan kurasi juga. Hanya sesuatu yang perlu diingat.
Sebagai contoh, katakanlah kita meminta manajer Node untuk memeriksa kumpulan data yang diberi tag "ilmu warga". Kami ingin:
Melihat masalah ini: https://github.com/gbif/portal-feedback/issues/3381 , kami akan kehilangan kategori Anda benar, saya melewatkannya!data extracted from taxonomic literature (i.e., Plazi)
.
Terima kasih @ManonGros
Melihat masalah ini: gbif/portal-feedback#3381, kita akan kehilangan data yang diekstraksi dari kategori literatur taksonomi (yaitu, Plazi).
Itulah yang dimaksudkan untuk menjadi:
Kutipan materi (misalnya perawatan taksonomi dalam literatur)
(Terkait adalah bahwa Plazi baru saja mengusulkan Material citation
tambahan kosakata basisOfRecord dalam masalah Darwin Core untuk komentar publik)
+1 @Dmitry untuk satu ke banyak dan menggunakan tag kata kunci (bukan catatan inti 1: 1 untuk kategori)
+1 @Marie karena berpikir untuk mengaktifkan staf Node untuk membuat kategori --> dan juga dapat menambahkan permintaan fitur untuk memungkinkan siapa saja membuat anotasi titik data/set dengan informasi kategori (dengan asalnya utuh)
Ingat juga bahwa "dataset" (seperti dalam Darwin-Core-archive-dataset) dapat berupa kumpulan "catatan bukti" (alias catatan inti, mis. alias kejadian) dari kategori yang berbeda -- jika kategori "tag" adalah dirancang untuk diterapkan ke semua catatan inti dalam DwC-A
Dan bahwa de-normalisasi "catatan bukti" (catatan inti) berarti bahwa seseorang tidak dapat memastikan dari kelas mana properti tertentu yang ditautkan ke catatan inti dimaksudkan untuk ditautkan.
Saya sangat menyukai ide ini. Tentu saja ALA memiliki pengguna yang menginginkan cara yang sangat sederhana untuk memilih pengelompokan record di seluruh penyedia data. Kelompok yang paling banyak saya dengar permintaan ini adalah kurator/peneliti yang 'hanya' menginginkan spesimen museum atau herbarium.
Beberapa saran:
Organisme tunggal diurutkan (yaitu jaringan dari spesimen NHM)
Memiliki kategori tambahan untuk sampel Jaringan akan sangat berguna, apakah urutan telah diturunkan atau tidak.
Pengguna kategori ini mungkin adalah peneliti yang mencari jaringan untuk pengambilan sampel pinjaman/destruktif yang saat ini harus mencari BasisOfRecord = sampel bahan ditambah keberuntungan pot Persiapan.
Data sektor swasta - maksud Anda data yang dikumpulkan oleh perusahaan yang melakukan penilaian dampak lingkungan sebelum persetujuan proyek pembangunan/pertambangan? Jika demikian, di Australia ini biasa disebut “Data Pemrakarsa” (data dari para pendukung pembangunan). Jika data sektor swasta berarti sesuatu yang lain, mungkin bisa memiliki keduanya?
Ingat juga bahwa "dataset" (seperti dalam Darwin-Core-archive-dataset) dapat berupa kumpulan "catatan bukti" (alias catatan inti, mis. alias kejadian) dari kategori yang berbeda -- jika kategori "tag" adalah dirancang untuk diterapkan ke semua catatan inti dalam DwC-A
Terima kasih, @dagendresen. Pemikiran saya di sini adalah untuk mencoba dan memisahkan ini dari masalah class/basisOfRecord di Darwin Core untuk dapat bereaksi terhadap pelaporan/kebutuhan pengguna dengan cepat (misalnya, memperkenalkan tag baru untuk kumpulan data). Mengakui bahwa mungkin ada kumpulan data "kantong campuran", intuisi saya adalah bahwa sebagian besar pengguna akan menghargai pemfilteran luas misalnya "hilangkan catatan yang berasal dari kumpulan data yang ditandai sebagai eDNA" bahkan jika ada beberapa entri di sana yang mungkin menarik, atau untuk menghasilkan laporan (misalnya grafik pertumbuhan) berdasarkan misalnya data yang berasal dari kumpulan data yang ditandai sebagai terkait dengan sektor swasta. Apakah ini tampak masuk akal, tolong?
sangat menyukai ide ini
Terima kasih, @elywallis - Saya akan menambahkan masukan Anda ke daftar di atas sekarang.
Data sektor swasta - maksud Anda data yang dikumpulkan oleh perusahaan yang melakukan penilaian dampak lingkungan sebelum persetujuan proyek pembangunan/pertambangan?
Saya percaya itu niatnya, ya. Saya tidak tahu detailnya, tapi saya tahu tim manajemen data semakin banyak menjalankan laporan tren menggunakan kategori seperti ini. Saya akan menambahkan komentar Anda di daftar teratas, tanpa mengusulkan keputusan akhir.
Sedikit di luar topik, tapi mungkin berguna:
Ini mungkin tidak diketahui banyak orang, tetapi GBIF secara progresif memindahkan kosakata seperti ini ke dalam server kosakata terintegrasi kami. Ini akan memungkinkan pengelola data (misalnya termasuk pengelola simpul @dagendresen ) untuk terlibat dalam mendefinisikan konsep. Konsep dapat bersifat hierarkis (misalnya, kategorisasi data pribadi yang lebih halus) dan begitu versi kosakata dirilis, versi tersebut diambil dalam jalur pemrosesan data. Ini masih berkembang, tetapi LifeStage sedang dalam produksi sekarang.
Apa artinya ini terkait dengan masalah ini, adalah karena kami menemukan persyaratan baru untuk mengkategorikan kumpulan data untuk laporan atau komunitas baru yang kami lihat muncul, kami akan memiliki alat untuk mengakomodasi itu tanpa memerlukan keterlibatan pengembang perangkat lunak (hanya memerlukan kosakata untuk diubah, dan kemudian lanjutkan dengan menandai kumpulan data).
kumpulan data "tas campuran"
@timrobertson100 Saya akan (jika diminta) sepenuhnya setuju bahwa praktik terbaik adalah menghindari kumpulan data "tas campuran" dan bahwa "tag" untuk mengaktifkan filter untuk _"tujuan penggunaan kembali"_ akan sangat berguna dan disambut! Dan percaya kita bisa hidup dengan baik dengan fungsionalitas seperti itu tidak menerapkan 100% ke kumpulan data "tas campuran" :-)
(sesuai -- GBIF Norway sedang "bernegosiasi" dengan penerbit data Norwegia untuk "memecahkan" kumpulan data "tas campuran" menjadi kumpulan data yang lebih kecil yang akan lebih homogen)
@timrobertson100 menulis:
Sedikit di luar topik, tapi mungkin berguna:
Ini mungkin tidak diketahui banyak orang, tetapi GBIF secara progresif memindahkan kosakata seperti ini ke dalam server kosakata terintegrasi kami. Ini akan memungkinkan pengelola data (misalnya termasuk pengelola simpul @dagendresen ) untuk terlibat dalam mendefinisikan konsep. Konsep dapat bersifat hierarkis (misalnya, kategorisasi data pribadi yang lebih halus) dan begitu versi kosakata dirilis, versi tersebut diambil dalam jalur pemrosesan data. Ini masih berkembang, tetapi LifeStage sedang dalam produksi sekarang.
Apa artinya ini terkait dengan masalah ini, adalah karena kami menemukan persyaratan baru untuk mengkategorikan kumpulan data untuk laporan atau komunitas baru yang kami lihat muncul, kami akan memiliki alat untuk mengakomodasi itu tanpa memerlukan keterlibatan pengembang perangkat lunak (hanya memerlukan kosakata untuk diubah, dan kemudian lanjutkan dengan menandai kumpulan data).
Tim, bisakah kamu melihat milikku?