Openlibrary: Merge funktioniert mit dem gleichen Titel und Rechtschreibunterschieden im Autorennamen

Erstellt am 25. Feb. 2019  ·  5Kommentare  ·  Quelle: internetarchive/openlibrary

Beschreibung

Einige Editionen werden aufgrund geringfügiger Unterschiede in der Schreibweise des Autorennamens nicht mit der Arbeit zusammengeführt, zu der sie gehören (und neue unnötige Arbeitsseiten werden erstellt).

Beweise

Lacapra vs. LaCapra hat diese beiden getrennt:
https://openlibrary.org/works/OL8382164W
https://openlibrary.org/works/OL2731955W

Erwartung

Ich denke, eine automatische Zusammenführung ist angebracht, um solche kleinen Fehler / Unterschiede in der Schreibweise von Titel oder Autorennamen zu vermeiden.

Vorschlag & Einschränkungen

Ein Vergleich ohne Berücksichtigung der Groß- und Kleinschreibung würde meines Erachtens den konkreten Fall beheben. Die Berechnung eines Levenshtein-Abstands kann schwieriger sein oder sollte bei zweiten Vornamen sehr restriktiv sein (max. 1 Zeichendifferenz?), vgl. https://github.com/internetarchive/openlibrary/issues/77#issuecomment -372389677

Das manuelle Zusammenführen ist, wenn überhaupt möglich, sehr mühsam. vgl. https://github.com/internetarchive/openlibrary/issues/684 https://github.com/internetarchive/openlibrary/issues/805

Data Triage 3 Bug merging

Alle 5 Kommentare

Das Problem ist nicht nur die Kapitalisierung. Es geht auch um Akzente, Leerzeichen, Übersetzungen, Transliterationen und Normalisierungen des Codespaces. Wir müssen uns einfach von der Verwendung der Rechtschreibung als Kennung für eine Behörde entfernen. Es gibt einen guten Grund für die Verwendung von VIAF-, ISNI- oder Wikidata-Kennungen: Durch einfache Rechtschreibung können Autorenidentitäten nicht zuverlässig unterschieden werden.

LeadSongDog, 28/02/19 20:06:

Das Problem ist nicht nur die Kapitalisierung. Es geht auch um Akzente,
Leerzeichen, Übersetzungen, Transliterationen und Codespace
Normalisierungen.

Sicher, aber ich wollte ein Problem im Ausland vermeiden, da dieses einfacher zu lösen ist
Fix als der allgemeine Fall.

Wir müssen uns einfach von der Verwendung der Rechtschreibung als
Kennung für eine Behörde. Es gibt einen guten Grund für die Verwendung von VIAF.
ISNI- oder Wikidata-Kennungen: Einfache Rechtschreibung kann nicht zuverlässig sein
Autorenidentitäten unterscheiden.

Aber dann verwenden VIAF-Cluster Rechtschreibvergleiche wie OpenLibrary.
und es ist nicht trivial, jeden Datensatz mit einer Wikidata-ID zu verbinden.

Selbst eine identische Schreibweise von Autor und Titel weist nicht zuverlässig darauf hin, dass die Werke gleich sind. Wir haben viele Problemtitel, die sehr häufig sind, wie "Journal" oder "Works". Wir haben auch einige sehr gebräuchliche (oft inkompetente) Autorennamen wie "Smith" oder "Brown". Wenn ein menschlicher Benutzer nicht den Vergleich zwischen zwei Autorendatensätzen durchführt, können wir nicht darauf vertrauen, dass sie sich auf dieselbe Identität beziehen.
Ich bin damit einverstanden, dass ISNI oder Wikidata zuverlässiger als VIAF wären, aber jeder von ihnen wäre besser als ein einfacher Textvergleich, den wir jetzt haben. Dies ist kein neues Problem, siehe z. B. # 853 oder noch früher.

Ich werde mich auf die Bewertung von @cdrini an solr ausführt) oder ob Bandbreite für eine Notlösung für diesen speziellen Fall vorhanden ist.

Wir haben ~ 10 Probleme rund um das Zusammenführen (Werke, Ausgaben, Autoren). Ich denke, dies ist in unserer Zusammenführungsinfrastruktur etwas blockiert (z. B. # 2553). Lassen Sie uns dies im Zusammenhang mit # 2114 verfolgen und dieses Problem schließen.

Es gibt keinen klaren Anfang und kein klares Ende für dieses Problem - es ist ein Vorschlag, Werke mit ähnlichem Titel und Autorennamen zusammenzuführen. Wir können auch isbn, ocaid, lccn, year und verschiedene andere Felder verwenden, um dies in großem Maßstab zu tun.

Vorerst schließen.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen