Openlibrary: Buchtitel mit verstümmeltem Unicode korrigieren

Erstellt am 23. Jan. 2012  ·  16Kommentare  ·  Quelle: internetarchive/openlibrary

Dieses Problem wird in der ol-tech-Mailingliste gemeldet.

I don't know how widespread this problem is, but I noticed that these
two records have messed up book titles, but if you click through to
the associated MARC records on IA, the titles get rendered correctly.

http://openlibrary.org/books/OL7155555M/The_M%C2%A9%C3%98alavik%C2%A9%C3%98agnimitra
http://openlibrary.org/books/OL7165183M/The_Vikramorva%C2%A9%C3%98s%C2%A9%C4%90iyam
Data @hornc Import 2 Identifiers MARC records Bug

Alle 16 Kommentare

Beide Aufzeichnungen stammen von archive.org.

Ich habe mir die _marc.xml-Dateien auf archive.org angesehen. Die letzte Änderung der beiden marc.xml-Dateien ist 2007 und diese Datensätze wurden 2008 erstellt. Es sieht so aus, als ob das Problem mit dem Skript zusammenhängt, das diese Titel geparst hat.

Es gibt Tausende von MARC-Importdatensätzen, in denen Zeichen mit Akzent verstümmelt oder falsch behandelt wurden. Ein weiteres häufiges Szenario ist, dass Akzente oder andere diakritische Zeichen durch ein Leerzeichen vor oder nach dem Vokal ersetzt wurden.

Siehe zum Beispiel:

http://openlibrary.org/authors/OL4459814A/Heinrich_Schro_der

http://openlibrary.org/works/OL10684450W/Tonbandgera_te-Messpraxis

http://openlibrary.org/show-records/talis_openlibrary_contribution/talis-openlibrary-contribution.mrc :299045317:529

Sowohl im Autor als auch im Titel wurde der Umlaut in ein Leerzeichen nach dem Vokal geändert. Der verlinkte MARC-Eintrag wird im Browser korrekt angezeigt.

Sollten wir einen Reimport in Betracht ziehen? Und ist #149, die auch auf https://bugs.launchpad.net/openlibrary/+bug/598204 verweist, eine Abhängigkeit?

https://openlibrary.org/search?q=title%3A+%22 ©♭%22&mode=everything Findet immer noch weit über 17 Millionen Treffer. Dies für "é", wahrscheinlich der häufigste Buchstabe mit Akzent. Bearbeitungen wie https://openlibrary.org/books/OL26303038M/Anatomie_générale_appliquée_à_la_physiologie_et_à_la_médecine?b=3&a=1&_compare=Compare&m=diff sollten nicht unbedingt manuell sein.

@hornc re dein Kommentar vom 8. Mai, diese Werke wurden aus Editionen erstellt, die beim Importieren erstellt wurden
https://openlibrary.org/show-records/ia :b28044277_0001
und
https://openlibrary.org/show-records/ia :b2202010x
Solange sie nicht in den ia MARC-Datensätzen behoben sind, hat ein erneuter Import keinen Wert, es sei denn, der Import führt sie durch die Normalisierung

@LeadSongDog interessant, die MARC-Anzeige, auf die Sie verlinken, zeigt die Zeichen verstümmelt, aber wenn Sie sich durch die XML-Darstellung https://ia800202.us.archive.org/34/items/b28044277_0001/b28044277_0001_marc.xml durchklicken , wird die akzentuierte e-Anzeige korrekt angezeigt . Liegt möglicherweise ein Problem mit falsch eingestellten Codierungstypen vor? Ich werde das in Kürze aufgreifen, der neue openlibrary-Client ist jetzt in einem Zustand, in dem er für Massendatenkorrekturen verwendet werden kann.

@LeadSongDog Ich habe vielleicht herausgefunden, wie das Verstümmeln geschieht, in diesem Beispiel Marc xml
https://ia600208.us.archive.org/25/items/b2202010x/b2202010x_marc.xml

das a-grab von "Secours à donner" wird in utf-8-kodierung korrekt angezeigt

a-Grab ist U+00E0, was in binärer (pythonischer Notation) \xC3\xA0

wenn diese Bytes als MARC8 interpretiert und "konvertiert" wurden, wird C3 zum Copyright-Symbol und 'A0' zu einem Leerzeichen, was genau das ist, was wir auf den OL-Seiten mit "Secours © donner" sehen

Ich denke jetzt, dass diese MARC-Einträge utf-8-Zeichencodierungen haben, aber in OL importiert wurden, als ob sie MARC8 wären, was die Verstümmelung erklärt.

Ich habe die MARC8-Konvertierung manuell aus den hier gefundenen Tabellen durchgeführt https://memory.loc.gov/diglib/codetables/45.html Ich muss yaz oder etwas verwenden, um dies richtig zu testen, aber dies bietet einen guten Weg um die MARC-Fehler programmgesteuert zu beheben.

Ich weiß, dass es andere Unicode-Mangling-Fehler gibt, die von Amazon importierte Datensätze betreffen, aber ich denke, das liegt an einer falschen Konvertierung von Windows- oder ISO-Zeichensätzen

Vielen Dank für Ihren Kommentar @LeadSongDog , bei dem Versuch herauszufinden, ob die MARC-Datensätze tatsächlich falsch waren oder nicht, glaube ich, dass ich über die Ursache des Problems gestolpert bin!

@hornc irgendwelche Updates zum MARC-Mangling und/oder ob wir dieses Problem gelöst haben?

Das Problem ist definitiv nicht gelöst. Wenn das Importskript repariert ist, wird erneuten Import vorschlagen.

Aus Sicht der Triage wäre es wahrscheinlich sinnvoll, eine tatsächliche Zählung zu erhalten. "Tausende" ist kein sehr großer Prozentsatz von 25 Millionen Ausgaben.

Wurde dies mit unseren Python 3-Änderungen behoben oder kann jemand Schritte zur Reproduktion von Python 3 bereitstellen?

Nun https://openlibrary.org/books/OL12903648M/Etudes_Conomiques_De_L 'Ocde ist sicherlich nicht behoben, aber vielleicht sind wir damit fertig, das Loch zu graben ...
Es gab mindestens drei Problemklassen:

  1. Schlechter Import guter Daten
  2. Wörtlicher Import von schlechten Daten
  3. Fehlerhafte Daten aus alten Fällen von 1 oder 2 seit der Behebung vorhanden.
    Der Wechsel zu py3 wird höchstens Nummer 1 beheben.

Schritte zur Reproduktion der Problemklasse 1?

Die früheren Beispiele sind besser als das neueste, bei dem es sich um einen Import aus beschissenen Amazon-Daten handelt (die wir nicht importieren sollten).
https://openlibrary.org/books/OL7165183M/The_Vikramorva%C2%A9%C3%98s%C2%A9%C4%90iyam
https://openlibrary.org/authors/OL4459814A/Heinrich_Schro_der
https://openlibrary.org/books/OL13956174M/Tonbandgera_te-Messpraxis
https://openlibrary.org/books/OL26280693M/Secours_%C2%A9_donner_aux_personnes_empoisonn%C2%A9%E2%99%ADes_ou_asphyxi%C2%A9%E2%99%ADes_suivis_des_moyens_propres_%C2%A9_reconna%BE2%

Wenn der Fehler behoben wurde, sollte das erneute Importieren der Datensätze zur korrekten Kodierung führen. Dann besteht die Aufgabe darin, die Millionen beschädigter Datensätze erneut zu importieren.

Die Suche, von der behauptet wurde, dass sie zuvor mehr als 17 Millionen Datensätze lieferte: https://openlibrary.org/search?q=title%3A+%22%C2%A9%E2%99%AD%22&mode=everything
gibt jetzt 23,4 Millionen Ergebnisse zurück, aber ich denke, das ist eigentlich ein separater Fehler und gibt nur alle Werke in der Datenbank zurück.

@tfmorris Da https://openlibrary.org/search?q=title%3A+%22+%22&mode=everything das gleiche Ergebnis liefert , scheint es ja, dass es sich um einen einfachen Fall der

Ich habe #4223 für den Suchfehler erstellt.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen