Openlibrary: Combinar obras con el mismo título y diferencias ortográficas en el nombre del autor

Creado en 25 feb. 2019  ·  5Comentarios  ·  Fuente: internetarchive/openlibrary

Descripción

Algunas ediciones no se combinan con el trabajo al que pertenecen (y se crean nuevas páginas de trabajo innecesarias) debido a diferencias menores en la ortografía del nombre del autor.

Evidencia

Lacapra vs.LaCapra mantuvo estos dos separados:
https://openlibrary.org/works/OL8382164W
https://openlibrary.org/works/OL2731955W

Expectativa

Creo que una fusión automática es necesaria para errores / diferencias menores en la ortografía del título o del nombre del autor.

Propuesta y restricciones

Una comparación que no distingue entre mayúsculas y minúsculas arreglaría el caso específico, creo; calcular una distancia de Levenshtein puede ser más complicado, o debería ser muy restrictivo (¿diferencia máxima de 1 carácter?) dados los segundos nombres, cf. https://github.com/internetarchive/openlibrary/issues/77#issuecomment -372389677

Hacer fusiones manualmente es muy tedioso, si es que es posible; cf. https://github.com/internetarchive/openlibrary/issues/684 https://github.com/internetarchive/openlibrary/issues/805

Data Triage 3 Bug merging

Todos 5 comentarios

El problema no es solo la capitalización. También es una cuestión de acentos, espacios en blanco, traducciones, transliteraciones y normalizaciones de espacios de código. Simplemente debemos dejar de usar la ortografía como identificador de una autoridad. Existe una buena razón para usar identificadores VIAF, ISNI o Wikidata: la ortografía simple no puede distinguir de manera confiable las identidades de los autores.

LeadSongDog, 28/02/19 20:06:

El problema no es solo la capitalización. También es cuestión de acentos,
espacios en blanco, traducciones, transliteraciones y espacio de código
normalizaciones.

Claro, pero quería evitar un problema demasiado amplio, ya que este es más fácil de
arreglar que el caso general.

Simplemente debemos dejar de usar la ortografía como
identificador de una autoridad. Hay una buena razón para usar VIAF,
Identificadores ISNI o Wikidata: la ortografía simple no puede
distinguir las identidades de los autores.

Pero luego los clústeres de VIAF usan comparaciones ortográficas como OpenLibrary,
y no es trivial conectar todos los registros a una ID de Wikidata.

Incluso una ortografía idéntica de autor y título no indica de manera confiable que las obras sean las mismas. Tenemos muchos títulos problemáticos que son muy comunes, como "Revista" o "Obras". También tenemos algunos nombres de autores muy comunes (a menudo incompletos) como "Smith" o "Brown". A menos que un usuario humano haga la comparación entre dos registros de autor, no podremos confiar en que se refieran a la misma identidad.
Estoy de acuerdo en que ISNI o Wikidata serían más confiables que VIAF, pero cualquiera de ellos sería mejor que la simple comparación de texto que tenemos ahora. Este no es un problema nuevo, vea el # 853, por ejemplo, o incluso antes.

Me apoyaré en la evaluación de @cdrini está haciendo en solr), o si hay ancho de banda para hacer una solución provisional para este caso específico.

Tenemos ~ 10 problemas relacionados con la fusión (obras, ediciones, autores). Creo que esto está algo bloqueado en nuestra infraestructura de fusión (por ejemplo, # 2553). Hagamos un seguimiento de esto en relación con # 2114 y cerremos este problema.

No hay un principio y un final claros para este número; es una propuesta que fusionemos obras con un título y un nombre de autor similares. También podemos usar isbn, ocaid, lccn, year y varios otros campos para hacer esto a escala.

Cerrando por ahora.

¿Fue útil esta página
0 / 5 - 0 calificaciones