Openlibrary: マージは、著者名が同じタイトルとスペルの違いで機能します

作成日 2019年02月25日  ·  5コメント  ·  ソース: internetarchive/openlibrary

説明

一部のエディションは、著者名のスペルがわずかに異なるため、所属する作品にマージされません(そして、新しい不要なワークページが作成されます)。

証拠

Lacapra対LaCapraは、これら2つを別々に保ちました。
https://openlibrary.org/works/OL8382164W
https://openlibrary.org/works/OL2731955W

期待

自動マージは、タイトルまたは著者名のスペルのこのような小さな間違い/違いのためにあると思います。

提案と制約

大文字と小文字を区別しない比較により、特定の大文字と小文字が修正されると思います。 レーベンシュタイン距離の計算は難しい場合があります。または、ミドルネームを指定すると非常に制限的(最大1文字の違い?)になるはずです。 https://github.com/internetarchive/openlibrary/issues/77#issuecomment -372389677

可能であれば、手動でマージを行うのは非常に面倒です。 cf. https://github.com/internetarchive/openlibrary/issues/684 https://github.com/internetarchive/openlibrary/issues/805

Data Triage 3 Bug merging

全てのコメント5件

問題は資本化だけではありません。 また、アクセント、空白、翻訳、音訳、およびコードスペースの正規化の問題でもあります。 権限の識別子としてスペルを使用することから離れる必要があります。 VIAF、ISNI、またはWikidata識別子を使用する正当な理由があります。単純なスペルでは作成者IDを確実に区別できません。

LeadSongDog、28/02/19 20:06:

問題は資本化だけではありません。 アクセントの問題でもありますが、
空白、翻訳、音訳、およびコードスペース
正規化。

もちろんですが、これは簡単なので、広すぎる問題は避けたかったのです。
一般的な場合よりも修正します。

スペルを使用することから離れる必要があります
権限の識別子。 VIAFを使用する正当な理由があります。
ISNI、またはウィキデータ識別子:単純なスペルでは確実にできない
著者のアイデンティティを区別します。

しかし、VIAFクラスターはOpenLibraryと同じようにスペル比較を使用します。
そして、すべてのレコードをウィキデータIDに接続するのは簡単ではありません。

著者とタイトルのつづりが同じであっても、作品が同じであることを確実に示すものではありません。 「Journal」や「Works」など、非常に一般的な問題のタイトルがたくさんあります。 また、「Smith」や「Brown」など、非常に一般的な(多くの場合不完全な)著者名もあります。 人間のユーザーが2つの著者レコードを比較しない限り、それらが同じIDを参照しているとは信頼できません。
ISNIまたはウィキデータはVIAFよりも信頼性が高いと私は同意しますが、それらのいずれも、現在の単純なテキスト比較よりも優れています。 これは新しい問題ではありません。たとえば、#853、またはそれ以前を参照してください。

これを#853に含めるかどうか(これは@cdriniがsolrで行っている作業にも関連します)、またはこの特定のケースの一時的な解決策を実行するための帯域幅があるかどうかを判断するために、 @ hornc評価に

マージを取り巻くすべての問題(作品、エディション、著者)には最大10の問題があります。 これは、マージするインフラストラクチャ(#2553など)では多少ブロックされていると思います。 #2114に関連するものとしてこれを追跡し、この問題を閉じましょう。

この問題の明確な始まりと終わりはありません。これは、類似のタイトルと著者名で作品をマージするという提案です。 isbn、ocaid、lccn、year、およびその他のいくつかのフィールドを使用して、これを大規模に行うこともできます。

とりあえず締めくくります。

このページは役に立ちましたか?
0 / 5 - 0 評価