Openlibrary: Gabungkan karya dengan judul yang sama dan perbedaan ejaan dalam nama penulis

Dibuat pada 25 Feb 2019  ·  5Komentar  ·  Sumber: internetarchive/openlibrary

Deskripsi

Beberapa edisi tidak digabungkan dengan karya miliknya (dan halaman kerja baru yang tidak perlu dibuat) karena perbedaan kecil dalam ejaan nama penulis.

Bukti

Lacapra vs.LaCapra memisahkan keduanya:
https://openlibrary.org/works/OL8382164W
https://openlibrary.org/works/OL2731955W

Harapan

Saya pikir penggabungan otomatis dilakukan untuk kesalahan kecil / perbedaan ejaan baik judul atau nama penulis.

Proposal & Batasan

Saya yakin, perbandingan tidak peka huruf besar akan memperbaiki kasus tertentu; menghitung jarak Levenshtein mungkin lebih rumit, atau harus sangat membatasi (maks 1 perbedaan karakter?) diberikan nama tengah, lih. https://github.com/internetarchive/openlibrary/issues/77#issuecomment -372389677

Melakukan penggabungan secara manual sangat membosankan, jika memungkinkan; cf. https://github.com/internetarchive/openlibrary/issues/684 https://github.com/internetarchive/openlibrary/issues/805

Data Triage 3 Bug merging

Semua 5 komentar

Masalahnya bukan hanya kapitalisasi. Ini juga masalah aksen, spasi, terjemahan, transliterasi, dan normalisasi ruang kode. Kita hanya harus menjauh dari penggunaan ejaan sebagai pengenal otoritas. Ada alasan yang kuat untuk menggunakan pengenal VIAF, ISNI, atau Wikidata: ejaan sederhana tidak dapat dengan tepat membedakan identitas pengarang.

LeadSongDog, 28/02/19 20:06:

Masalahnya bukan hanya kapitalisasi. Ini juga masalah aksen,
spasi, terjemahan, transliterasi, dan spasi kode
normalisasi.

Tentu, tetapi saya ingin menghindari masalah yang terlalu luas karena yang ini lebih mudah dilakukan
memperbaiki daripada kasus umum.

Kita hanya harus menjauh dari penggunaan ejaan sebagai
pengenal otoritas. Ada alasan kuat untuk menggunakan VIAF,
ISNI, atau pengenal Wikidata: ejaan sederhana tidak dapat diandalkan
membedakan identitas penulis.

Namun, kluster VIAF menggunakan perbandingan ejaan seperti OpenLibrary,
dan tidak mudah untuk menghubungkan setiap catatan ke ID Wikidata.

Bahkan ejaan pengarang dan judul yang identik tidak dapat diandalkan untuk menunjukkan bahwa karya tersebut sama. Kami memiliki banyak judul masalah yang sangat umum, seperti "Jurnal" atau "Karya". Kami juga memiliki beberapa nama penulis yang sangat umum (seringkali tidak lengkap) seperti "Smith" atau "Brown". Kecuali pengguna manusia membuat perbandingan antara dua catatan penulis, kami tidak dapat mempercayai bahwa catatan tersebut merujuk pada identitas yang sama.
Saya setuju bahwa ISNI atau Wikidata akan lebih dapat diandalkan daripada VIAF, tetapi semua itu lebih baik daripada perbandingan teks sederhana yang kita miliki sekarang. Ini bukan masalah baru, lihat # 853 misalnya, atau bahkan sebelumnya.

Saya akan bersandar pada penilaian @hornc untuk memutuskan apakah akan memasukkan ini di bawah # 853 (ini juga terkait dengan pekerjaan yang dilakukan @cdrini di solr), atau apakah ada bandwidth untuk melakukan solusi sementara untuk kasus khusus ini.

Kami memiliki ~ 10 masalah seputar penggabungan (karya, edisi, penulis). Saya pikir ini agak terhalang pada infrastruktur penggabungan kami (mis. # 2553). Mari kita lacak ini sebagai yang terkait dengan # 2114 dan tutup masalah ini.

Tidak ada awal dan akhir yang jelas untuk masalah ini - ini adalah proposal bahwa kami menggabungkan karya dengan judul dan nama penulis yang serupa. Kami juga dapat menggunakan isbn, ocaid, lccn, year, dan beberapa bidang lainnya untuk melakukan ini dalam skala besar.

Tutup sekarang.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat