Openlibrary: دمج الأعمال مع نفس العنوان والاختلافات الإملائية في اسم المؤلف

تم إنشاؤها على ٢٥ فبراير ٢٠١٩  ·  5تعليقات  ·  مصدر: internetarchive/openlibrary

وصف

لا يتم دمج بعض الإصدارات في العمل الذي تنتمي إليه (ويتم إنشاء صفحات عمل جديدة غير ضرورية) بسبب الاختلافات الطفيفة في تهجئة اسم المؤلف.

شهادة

أبقى لاكابرا ضد لاكابرا هذين منفصلين:
https://openlibrary.org/works/OL8382164W
https://openlibrary.org/works/OL2731955W

توقع

أعتقد أن الدمج التلقائي مناسب لمثل هذه الأخطاء / الاختلافات الطفيفة في تهجئة العنوان أو اسم المؤلف.

الاقتراح والقيود

إن المقارنة غير الحساسة لحالة الأحرف من شأنها إصلاح الحالة المحددة ، على ما أعتقد ؛ قد يكون حساب مسافة Levenshtein أكثر تعقيدًا ، أو يجب أن يكون مقيدًا للغاية (بحد أقصى اختلاف حرف واحد؟) نظرًا للأسماء الوسطى ، راجع. https://github.com/internetarchive/openlibrary/issues/77#issuecomment -372389677

يعد إجراء عمليات الدمج يدويًا أمرًا شاقًا للغاية ، إذا كان ذلك ممكنًا ؛ راجع https://github.com/internetarchive/openlibrary/issues/684 https://github.com/internetarchive/openlibrary/issues/805

Data Triage 3 Bug merging

ال 5 كومينتر

المسألة ليست مجرد الكتابة بالأحرف الكبيرة. إنها أيضًا مسألة اللهجات ، والمسافات البيضاء ، والترجمات ، والترجمات الصوتية ، وتطبيع مساحة الرموز. يجب علينا ببساطة الابتعاد عن استخدام التهجئة كمعرف للسلطة. هناك سبب وجيه لاستخدام معرّفات VIAF أو ISNI أو Wikidata: لا يمكن للتهجئة البسيطة التمييز بشكل موثوق بهويات المؤلف.

LeadSongDog ، 28/02/19 20:06:

المسألة ليست مجرد الكتابة بالأحرف الكبيرة. إنها أيضًا مسألة لهجات ،
المسافات البيضاء والترجمات والترجمات الصوتية ومسافات الرموز
التطبيع.

بالتأكيد ، لكنني أردت تجنب مشكلة واسعة النطاق لأن هذه المشكلة أسهل
إصلاح من الحالة العامة.

يجب علينا ببساطة الابتعاد عن استخدام التهجئة مثل
معرّف لسلطة. هناك سبب وجيه لاستخدام VIAF ،
معرّفات ISNI أو Wikidata: لا يمكن الاعتماد على التهجئة البسيطة
تميز هويات المؤلف.

ولكن بعد ذلك تستخدم مجموعات VIAF مقارنات إملائية مثل OpenLibrary ،
وليس من السهل ربط كل سجل بمعرف ويكي بيانات.

حتى التهجئة المتطابقة للمؤلف والعنوان لا تشير بشكل موثوق إلى أن الأعمال متطابقة. لدينا العديد من عناوين المشكلات الشائعة جدًا ، مثل "Journal" أو "Works". لدينا أيضًا بعض أسماء المؤلفين الشائعة جدًا (غالبًا ما تكون غير متضمنة) مثل "سميث" أو "براون". ما لم يقم مستخدم بشري بإجراء مقارنة بين سجلين مؤلفين ، فلن نتمكن من الوثوق في أنهما يشيران إلى نفس الهوية.
أوافق على أن ISNI أو Wikidata سيكونان أكثر موثوقية من VIAF ، لكن أيًا منهما سيكون أفضل من مقارنة نصية بسيطة لدينا الآن. هذه ليست مشكلة جديدة ، انظر # 853 على سبيل المثال ، أو حتى قبل ذلك.

سوف تضغط على تقييمhornc أن تقرر ما إذا كان لتستوعب هذا تحت # 853 (وهذا يتعلق أيضا العملcdrini تقوم به في المؤسسة العامة)، أو ما إذا كان هناك عرض النطاق الترددي للقيام حل مؤقت لهذه الحالة تحديدا.

لدينا حوالي 10 قضايا جميع عمليات الدمج المحيطة (الأعمال ، الإصدارات ، المؤلفون). أعتقد أن هذا محظور إلى حد ما على البنية التحتية المدمجة لدينا (على سبيل المثال # 2553). دعنا نتتبع هذا من حيث علاقته بالرقم 2114 ونغلق هذه المشكلة.

لا توجد بداية واضحة ونهاية لهذه المشكلة - إنه اقتراح بأن نقوم بدمج الأعمال مع عنوان واسم مشابه. يمكننا أيضًا استخدام isbn و ocaid و lccn و year والعديد من المجالات الأخرى للقيام بذلك على نطاق واسع.

يغلق الآن.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات