Openlibrary: Измените «translation_of» на рабочий идентификатор вместо строкового заголовка.

Созданный на 10 февр. 2017 · 32Комментарии · Источник: internetarchive/openlibrary

Это может быть трудным, но в долгосрочной перспективе оно должно быть полезным. Существует огромное количество избыточных рабочих записей. Многие из этих переводов были неправильно записаны как независимые произведения, иногда даже с вариантами написания авторов, которые необходимо объединить. Когда в записи об издании указано «перевод», оно должно быть подчинено оригинальному произведению, с которого оно переведено. Рассмотрим все варианты «произведений» для Илиады, найденные по адресу https://openlibrary.org/authors/OL6848355A/Homer .

Вот мой WAG относительно того, что должно произойти:
Первый шаг — назвать эту исходную работу. Это было сделано, хотя и непоследовательно, потому что скрывается в «библиотекарской» функциональности.
Второй — найти, существует ли соответствующий идентификатор исходной работы. Если она существует, эта исходная запись должна быть связана. Если записи исходной работы не существует, то существующая запись о переводческой работе должна быть переименована в соответствии со строкой «перевод». В конечном счете, все переводы одного исходного произведения должны быть подчинены этому одному исходному рабочему документу. Затем рабочие записи переводов должны быть либо удалены, либо каким-то образом преобразованы, чтобы зафиксировать имя переводчика. Перевод – это прежде всего творческое усилие, результат которого независимо защищен авторским правом.

Data Librarians UI Triage Feature Request merging metadata

Источник

LeadSongDog

Все 32 Комментарий

@#382 и #367 связаны

LeadSongDog 10 февр. 2017

Соответствующая ветка обсуждения находится по адресу http://www.mail-archive.com/[email protected]/msg00965.html.

@mekarpeles Хотите прокомментировать?

LeadSongDog 12 апр. 2017

@LeadSongDog спасибо за тег! Я постараюсь ответить на это, как только закончу улучшение ImportBot (которое, надеюсь, добавит около 100 000 читаемых элементов в Open Library). Скорее всего в эти выходные. cc'ing @hornc также на случай, если он захочет взвесить.

mekarpeles 13 апр. 2017

Еще раз спасибо @LeadSongDog. В этой теме много чего происходит.

В ответ на список рассылки:
1) @bfalling и я стремимся к некоторому объединению страниц Work и Edition. Структура URL-адреса будет такой же, но, по опыту пользователя, они всегда будут на рабочей странице с возможностью изменить выбранное/активное издание (и его данные).
2) Я думаю, что сохранение названий работ на английском языке — это практическая идея. Есть мысли против? @hornc , @tfmorris , @dvanduzer?
3) Я неравнодушен к сохранению названий Edition на их родном языке/в кодировке.

mekarpeles 18 апр. 2017

(редактировать: что такое скрытая «библиотекарская» функциональность, которая иногда имеет ссылку на исходный перевод?)

Я не думаю, что может быть универсальное правило для переводов. Ближе всего к «правильному» ответу, вероятно, та версия, которая была опубликована первой. Литература древности является важным исключением из этого правила. Большинство альтернативных переводов Гомера, Платона или Библии содержат достаточно оригинальной учености, поэтому вам не захочется объединять их все в одну работу.

Строго говоря, в Работе нет необходимости хранить какую -либо информацию о названии, потому что Работа уже является кладжем. Всегда будет каноническое издание, говорим ли мы о Cien Años de Soledad Гарсиа Маркеса или говорим о четвертом (и самом последнем) издании Intro to Calculus. Наличие объекта Work удобно для разработки пользовательского интерфейса. (Нет смысла пытаться уловить метафизику того, в твердой или мягкой обложке, в гранке или на пишущей машинке автора, или в том, какие фрагменты папируса содержат суть произведения.) Другой способ выразить это состоит в том, что Произведение не не делать ничего, кроме как перевести нас со «страницы» на «одну страницу» — материализовать книгу или электронную книгу в Книгу.

Это становится более сложным, потому что не всегда ясно, когда такие отношения, как «перевод» и «пересмотр», являются коммутативными и транзитивными. Такие вещи, как «аудиокнига» и «транскрипция», имеют еще более сложные односторонние отношения.

Итак, для 2), безусловно, целесообразно пока сохранить удобство хранения канонического названия в разделе «Работа». Список пожеланий на будущее может заключаться в том, чтобы всегда отображать заголовок на основе языкового стандарта пользователя и всегда включать заголовок на исходном языке, если он отличается от языкового стандарта пользователя.

dvanduzer 18 апр. 2017

Безусловно, производные работы часто существенно лучше оригинала, но "автор", я думаю, явно за оригинал. Переводчиков, редакторов и других участников действительно не следует смешивать. Я полагаю, что идентификация первого опубликованного издания — это простое правило, которое можно легко автоматизировать. Я отмечаю, что для записей не на английском языке PubMed хранит как английское название (и другие метаданные), так и название на языке оригинала. Это надежный подход, хотя и подверженный вариациям в англизировании.

LeadSongDog 18 апр. 2017

Попытка сжать мое понимание дискуссий о том, как следует обрабатывать переводы:

Переведенные издания должны быть изданиями оригинальной работы.
Любая переведенная рабочая запись должна быть объединена с оригинальной работой (т. е. превращена в перенаправление и все редакции перемещены в исходную работу).

Следовательно, поле translation_of не нужно? Просто правильно установленное translation_from(Режим библиотекаря) и, в идеале, роль переводчика.

Вот пример, который я настроил, показывающий Translator в разделе Contributors, и что издание написано на английском языке, переведено с древнегреческого. https://openlibrary.org/books/OL18836004M/The_Iliad

Что касается названий работ на английском языке, я думаю, что это нормально по умолчанию, и я доволен, скажем, классическими греческими и латинскими работами, использующими распространенные английские названия. На самом деле я бы сказал, что английские заголовки были бы более полезны, чем любая попытка оригинального греческого названия в греческом алфавите. Тем не менее, я не думаю, что кто-то обязательно должен менять оригинальное название работы на французском, русском, тайском или арабском языке на английское из соображений политики. Я думаю, правило должно заключаться в том, что название работы — это общепризнанное название этой работы во всем мире. Если кандидатов несколько, может быть, нужен раздел "Альтернативные названия" как для авторов?

Я предлагаю удалить/игнорировать поле translation_of и постараться правильно заполнить поля is_translation .

Если кто-то хочет временно заполнить translation_of рабочими OLID, чтобы помочь с выполнением слияний, это может на самом деле работать так же, как использование поля произвольного текста, и быть полезным. Хотя может быть проще делать слияния, как только мы создадим рабочий интерфейс слияния.

hornc 26 апр. 2017

Я не согласен с тем, что работа — это просто кладж пользовательского интерфейса. У него куча полезных свойств. Я бы не хотел, чтобы OpenLibrary скатилась по скользкой дорожке, думая, что работа невозможна.

Я не думаю, что только английский язык подходит для рабочих названий. Они должны быть локализованы. Работы имеют разные общепринятые названия на разных языках, и OpenLibrary должна учитывать это. Каждое локализованное название должно быть помечено своим языком, а затем код рендеринга может выбрать подходящие запасные варианты для каждого пользователя, например, английский, затем французский, затем остальные романские языки, а затем все, что у вас есть.

Я не понимаю разницы между translation_of и translated_from . Для меня они звучат как синонимы (или одно свойство Work, а другое свойство Edition?).

Издания на всех языках, связанные с одним и тем же произведением, — правильный путь.

Freebase фактически использовала отдельный объект для сбора информации о переводе. В дополнение к ссылке Work-Edition был также путь Work-Translation-Edition, где объект «Перевод» содержал исходный язык, целевой язык, переводчик и дату перевода. Вы можете сделать некоторые выводы из пар «Работа/Издание», но люди часто говорят о переводе как о чем-то конкретном, и он часто публикуется в нескольких изданиях. Я не говорю, что это обязательно правильный путь, но выбрасываю его как еще одну альтернативу моделированию.

С прагматичной точки зрения обработки данных я полагал, что нормализация заголовков в NFC/NFKC в первую очередь облегчит последующие сравнения и обработку. http://unicode.org/reports/tr15/#Norm_Forms

tfmorris 26 апр. 2017

👍1

Извините, терминология не очень понятна, но
translation_of — оригинальное название произведения.
translation_from — код языка

translation_of: Илиада
translated_from : grc (древнегреческий (до 1453 г.))

hornc 27 апр. 2017

После продолжительной критики Шарля Перро стало очевидно, что редактирование «перевода» и «оригинального языка» — совершенно напрасная работа. Что должно происходить в хорошо продуманной системе, так это то, что редактор выбирает одну из работ одного и того же автора. В этом примере у нас есть сотни изданий и десятки переводов, но мало оригинальных работ. Если несколько рабочих записей отражают одну работу, в списке должны быть указаны либо наиболее изданные, либо впервые опубликованные (игнорируя недатированные записи).
Кроме того, это также продемонстрировало необходимость лучшего обращения с собраниями произведений: издания будут выбирать разные подмножества или даже собирать рассказы разных авторов в сборники. Некоторые или избранные могут быть первыми публикациями, как, например, сказки мадам д'Обри, которые в некоторых изданиях объединены с его Contes des fées.

LeadSongDog 29 июн. 2017

@mekarpeles
Мне кажется, что это и
https://github.com/internetarchive/openlibrary/blob/7195f181742af7389843f275eefb2e675055b727/openlibrary/templates/books/edit/edition.html#L229-242
скорее всего, следует применить подход, аналогичный тому, который применялся в
https://github.com/internetarchive/openlibrary/blob/7195f181742af7389843f275eefb2e675055b727/openlibrary/templates/books/edit/edition.html#L169 -188

Заглавие, другие заглавия и перевод — все это способы обозначения одного произведения.

LeadSongDog 3 дек. 2018

@cdrini Это была твоя последняя работа, не так ли? Хочешь взять и этот бит тоже?

LeadSongDog 13 дек. 2018

Возможно, решение этой проблемы состоит в том, чтобы заставить это вести себя как поле «Издание какой работы»: разрешить ввод _либо_ идентификатора работы, либо народного названия работы, а затем найти название, связанное с идентификатором работы. Он должен хранить, индексировать и отображать как идентификатор, так и название на местном языке.
--Пересмотр: или просто удалите поле и используйте работу по назначению--

LeadSongDog 24 окт. 2019

@seabelis У вас есть что добавить к тому, что уже было сказано?

Кроме того, @hornc , вы готовы быть уполномоченным по этому вопросу? Обратите внимание: быть правопреемником не обязательно означает, что вы несете ответственность за выполнение работы, а просто отвечаете за сбор/предоставление информации для решения проблемы. Из Вики.

Назначенный владелец не обязательно является лицом, которое решит проблему (в этот момент даже не обязательно устанавливается, будет ли и когда проблема будет устранена вообще), а скорее это лицо, которое будет делать столько же или сколько меньше, чем необходимо для решения проблемы (задавать вопросы, запрашивать информацию, устанавливать и обновлять приоритет, проверять, не является ли это дубликатом и т. д.).
Как только проблема помечена как «Состояние: Работа в процессе», владельцем становится лицо, выполняющее работу, или руководящее/координирующее группу, выполняющую работу.

Я добавил ярлыки в зависимости от контекста: дайте мне знать, что вы думаете

xayhewalo 28 окт. 2019

Я ожидаю, что это может быть автоматически заполнено из работы. Возможно, в работе нужно языковое поле, иначе нужно заполнять исходный язык для каждого издания, что, по идее, должно быть ненужным. Потенциально это может привести к беспорядку для изданий с несколькими работами, поскольку у нас нет надежной стратегии для управления ими.

seabelis 28 окт. 2019

original_language на работе было бы полезным дополнением, если у нас его еще нет. Это может неявно кодировать информацию, для которой @hornc предложил translated_from .

tfmorris 28 окт. 2019

👍1

@LeadSongDog (или кто-то еще), не могли бы вы кратко изложить текущее предложение? У меня возникли проблемы с пониманием желаемого изменения после всего обсуждения.

Возможно, решение этой проблемы состоит в том, чтобы заставить это вести себя как поле «Издание какой работы»: разрешить ввод либо идентификатора работы, либо народного названия работы, а затем найти название, связанное с идентификатором работы. Он должен хранить, индексировать и отображать как идентификатор, так и название на местном языке.

За исключением того факта, что он не отображает название, именно так функционирует поле «Что это за произведение?»; значит эта проблема решена?

cdrini 11 нояб. 2019

@cdrini Мое резюме темы (кто-нибудь еще может редактировать этот комментарий, если я что-то пропустил).

предварительный

Когда я набрал это, я понял, что эту проблему, возможно, нужно разбить на несколько проблем или сделать Epic

Оригинальный выпуск

Многие переводы являются их собственными произведениями, тогда как на самом деле они должны быть изданиями оригинального произведения, с которого они переведены.

В настоящее время существует поле translation_of , которое принимает произвольный текст названия произведения, и поле translation_form , которое принимает код языка (например, grc для древнегреческого языка (до 1453 г.)).

@LeadSongDog предложил заставить translation_of принимать olid Works, чтобы заставить переводы ассоциироваться с произведением.

Последующие выпуски

Иногда перевод считается «каноническим произведением» или несколько разных переводов считаются «каноническим произведением» в разных регионах. Т.е. очень немногие посетители захотят читать «Одиссею» в ее древнегреческом оригинале.
Иногда роман меняет название при публикации в другой стране. Пример: первый роман о Гарри Поттере называется « Гарри Поттер и философский камень» в Великобритании, а в США — « Гарри Поттер и философский камень» . Это перевод?
Иногда сами переводы будут иметь несколько изданий. Эй!

Предлагаемые решения

Объединить все переведенные работы в оригинальную работу
- Затем заставьте translation_of требовать work_olid/в пользовательском интерфейсе редактирования отображать работы из произвольного текста и позволять пользователю выбирать соответствующую работу.
Названия работ должны быть локализованы. Таким образом, поиск «Communauté de l'Anneau» должен привести к локализованной версии страницы произведений «Братство Кольца».
Все работы должны иметь поля original_language
Внедрить новую связь Work-Translation-Object, аналогичную реализации Freebase.

xayhewalo 12 нояб. 2019

Иногда роман меняет название при публикации в другой стране. Пример: первый роман о Гарри Поттере называется «Гарри Поттер и философский камень» в Великобритании, а в США — «Гарри Поттер и философский камень». Это перевод?

Нет, не перевод. Просто маркетинговое решение.

seabelis 12 нояб. 2019

👍1

После того, как издания будут правильно связаны с оригинальной работой, запись «translation_of» будет казаться избыточной. Многие записи об издании в настоящее время не связаны ни с одной рабочей записью или с неправильной, так что в промежутке времени имеющиеся данные имеют ценность. Тем не менее, я считаю, что мое предыдущее предложение было необдуманным. Комментарий @seabelis имеет смысл: если мы его вообще показываем, он _должен_ автоматически заполняться из рабочей записи, но зачем нам повторять одно и то же дважды?

LeadSongDog 13 нояб. 2019

👍1

Должны ли мы закрыть это, поскольку это не будет исправлено? Я согласен, что сохранение трудовой книжки дважды кажется излишним.

cdrini 13 нояб. 2019

(Есть и другие проблемы, связанные с созданием потока слияния (#805) и обеспечением работоспособности всех редакций (#2629))

cdrini 13 нояб. 2019

Если это в конечном итоге будет решено косвенно через другую проблему, я думаю, что закрыть ее можно.

seabelis 13 нояб. 2019

👍1

Я думаю, что это будет косвенно решено двумя вышеперечисленными проблемами.

cdrini 14 нояб. 2019

@cdrini #805 и #2629 не относятся к переводам, имеющим несколько редакций.

Например, в «Одиссее» Гомера есть несколько произведений на разных языках. Я не думаю, что объединение всех этих изданий в одну работу — лучший способ справиться с этим.

Я думаю, что самый надежный способ справиться с этой ситуацией — это иметь объект Translated Work , который может иметь свои собственные версии, но должен быть связан с Original Work . Я не уверен, сколько работы потребуется, чтобы реализовать это.

Возможно, самое простое решение — разрешить поиск и фильтрацию выпусков на странице Works.

xayhewalo 14 нояб. 2019

@guyjeangilles Если мы сможем открыть дверь для нового объекта в схеме, это должно быть полезно не только для переводов. Я бы рассмотрел более общий ответ, такой как «основанный на», который может принимать список идентификаторов работы. Таким образом, он мог бы захватывать антологии, сборники, собрания сочинений, адаптации и т. д., а не только переводы.

LeadSongDog 14 нояб. 2019

@LeadSongDog Если based_on легко реализовать, это также позволит отфильтровать связанные мультимедиа из результатов поиска, таких как сопутствующие руководства, искровые заметки и наборы коробок. Пример: https://openlibrary.org/search?q=the+hunger+games&mode=everything

xayhewalo 14 нояб. 2019

Если мы будем следовать этим стандартам каталогизации (что я и пытался сделать), все переводы будут принадлежать оригинальному произведению в отличие от адаптаций, компаньонов и т. д. https://www.isko.org/cyclo/work1.jpg

Я не уверен, что полностью понимаю, что имеется в виду под изданиями переводов. Модель OL Work-Edition на самом деле не различает выражение и воплощение; все это вместе взято как «издание». Это относится и к «изданиям» на языке оригинала.

Тем не менее, я вижу преимущества в некотором разделении. Это сложно, и дело не только в переводе (как подробно обсуждалось на прошлой неделе) или в настройке языковых предпочтений пользователя для сайта. Например, я часто буду ссылаться на статью в Википедии для данной работы. Я обычно ссылаюсь на статью на языке оригинала. Если работа была переведена на двадцать языков, то только на Википедию потенциально может быть 20 ссылок. Я не добавляю их, потому что это сделало бы очень длинный список. Я также не добавляю ссылки на страницы отдельных изданий, потому что статья в Википедии, как правило, не привязана к конкретному изданию, и я не хочу добавлять ее в несколько изданий. Это относится и к другим типам ссылок, например, к отзывам о книгах.

Если бы был способ фильтрации по языку на рабочем уровне, я думаю, это было бы полезно для пользователя. Итак, 1) отображать только выпуски на заданном языке и 2) отображать контент рабочего уровня на этом языке. Это должно быть независимо от каких-либо языковых предпочтений сайта, так как многие люди говорят на нескольких языках и могут иметь настройки содержимого своего сайта на своем родном языке, но быть грамотными на нескольких языках (хотя необходимо будет установить какое-то поведение по умолчанию — возможно, пользователь может указать свои собственные предпочтения, например, настройку «автоматическая фильтрация работ в соответствии с настройками моего языка» / «показывать работы на их родном языке»).

Если наличие объекта «Переведенная работа», как предлагает @guyjeangilles , позволит достичь этого или чего-то подобного, я полностью за это.
Связано с № 1808?

seabelis 14 нояб. 2019

@cdrini натыкается на это, поскольку я не думаю, что # 805 или # 2629 будут касаться переводов с несколькими изданиями. Может, стоит сделать отдельную тему?

xayhewalo 20 нояб. 2019

Возможно, я что-то упустил из виду, так как дискуссия затянулась, но я подумал, что окончательное решение состоит в том, чтобы отказаться от поддержки translation_of и использовать существующие рабочие отношения (именно так работает текущая система, и там предпринимались прошлые масштабные попытки перевести переводы под правильную работу). Это _оставляет_ переведенные работы с несколькими изданиями несвязанными, что, как мне кажется, было важным отметить, но похоже, что это стандартная проблема, которая просто принята и в других местах?

Я думаю, что текущая система также может поддерживать разделение переводов на их собственные произведения (мой пример — «Иллиада» А. Поупа, где я думаю, что это было бы полностью оправдано), но, похоже, мы могли бы закончить войнами редактирования, которые заканчиваются объединением произведений, а затем попыткой разделить их, потому что трудно провести четкую грань, с которой все согласны. «Все переводы принадлежат одной работе» легче работать.

Мы уже смешиваем разные издания от разных издательств под одной и той же работой, это на самом деле не так уж и отличается. Практические проблемы, влияющие на пользователей, вероятно, были бы решены, если бы у нас был достойный способ фильтрации или поиска выпусков по языку.

hornc 20 нояб. 2019

👀1 👍1

Будут ли сохранены существующие данные для работ, которые не были консолидированы?

seabelis 23 нояб. 2019

2601 относится сюда.

BrittanyBunk 20 дек. 2019

Была ли эта страница полезной?

0 / 5 - 0 рейтинги

Смежные вопросы

Работает с отсутствующими обложками, если вернуться к обложке доступного издания

BrittanyBunk · 4Комментарии

Номер категории не полностью виден

Yashs911 · 5Комментарии

npm WARN [email protected] требует однорангового узла ajv@^6.9.1, но ни один не установлен

cclauss · 3Комментарии

Метод преобразования LCC в имена классов LCC

cdrini · 5Комментарии

Слияние работает с одинаковым названием и различиями в написании имени автора

nemobis · 5Комментарии