Registry: قم باستيراد مجموعات iDigBio إلى GrSciColl

تم إنشاؤها على ٥ فبراير ٢٠٢٠  ·  12تعليقات  ·  مصدر: gbif/registry

الهدف (ق)

ما الذي يجب أن يحدث قبل الاستيراد الفعلي

يمكننا القيام بذلك بترتيب مختلف بالطبع.

1. ربط إدخالات iDigBio و GrSciColl

نظرًا لأن iDigBio يصف المجموعات ، فمن المحتمل أن نقوم بما يلي:

  1. تطابق إدخالات iDigBio مع مجموعات GrSciColl (بناءً على العنوان ، الرمز ، إلخ)
  2. إذا لم يتم العثور على تطابق في المجموعات ، فيجب أن نحاول معرفة ما إذا كانت مؤسسة iDigBio المقابلة متاحة في GrSciColl.
  3. إذا لم نتمكن من العثور على أي تطابق في مجموعات GrSciColl والمؤسسات ، أعتقد أنه يجب علينا إنشاء مؤسسة ومجموعة مرتبطة بها (على غرار ما تحدثنا عنه في حالة Index Herbariorum: https://github.com/gbif / ريجستر / قضايا / 167). هل له معنى؟

بمجرد أن يكون لدينا قائمة بالمطابقات ، يمكننا إضافة معرفات إلى إدخالات GrSciColl للعمل على الاستيراد (على غرار ما نفعله في حالة IH).

من الذي يجب عليه إجراء المطابقة: iDigBio أم GBIF؟

ربما يكون لدى الجميع فكرة عن كيفية المضي قدمًا ولكن من أجل تتبع ما يحدث ، أكتب هنا خطوات عملية المطابقة:

  • [x] الحصول على البيانات من iDigBio (من هنا: http://idigbio.github.io/idb-us-collections/collections.json)
  • [x] الحصول على البيانات من GrSciColl (على الأرجح مع واجهة برمجة تطبيقات التجميع )
  • [x] تنظيف البيانات (باستخدام OpenRefine على سبيل المثال)
  • [x] استخدم الخوارزمية المفضلة لديك لمطابقة البيانات مع الحقول ذات الصلة.
  • [x] تحقق يدويًا من التطابقات الغامضة / المشبوهة.

الآن من سيفعل ماذا؟

2. اتفق على تعيين حقلي iDigBio و GrSciColl

تبدو النماذج بين iDigBio و GrSciColl متشابهة جدًا. إليك كيف نقترح تعيين الحقول. هل يمكنك تجاوز هذا وإخبارنا إذا كان لديك أي تعليق؟

iDiBio | GrSciColl
- | -
المؤسسة | التعيين إلى "المؤسسة" في كيان المجموعة و "الاسم" إذا تم استخدامه لإنشاء مؤسسة
المجموعة | الاسم في Coll
مجموعات السجلات | تعيين باعتباره MachineTag (لأنه للاستخدام الداخلي) في coll
مجموعة السجلات MachineTag في coll
كود المؤسسة | التعيين إلى "الرمز" في المؤسسة
كود المجموعة | التعيين إلى "الرمز" في المجموعة
مجموعة Uuid | تمت إضافته كمعرف
مجموعة Lsid | تمت إضافته كمعرف
مجموعة Url | الصفحة الرئيسية في Coll
رابط كتالوج المجموعة | الكتالوج URL في Coll
الوصف | الوصف في Coll
الوصف للمتخصصين | متصل بالوصف في Coll (أو حقل جديد؟)
المواصفات المفهرسة | عدد العينات في Coll
KnownToContainTypes | تجاهل؟ (الحقل يستخدم أقل من 100 مرة) هل هو ضروري للاستخدام الداخلي؟ في هذه الحالة ، يمكننا إضافته كعلامة آلة.
تاكسون كوفيرج | التغطية التصنيفية في Coll
النطاق الجغرافي | التغطية الجغرافية في كول
نطاق المجموعة | تجاهل؟ (يبدو أنه يحتوي في معظم الحالات على سلسلة لها نفس القيمة مثل indexuedSpecimens)
الاتصال | معين إلى اسم طاقم العمل
دور جهة الاتصال | تعيين إلى موقف الموظفين
البريد الإلكتروني للاتصال | معين إلى البريد الإلكتروني للموظفين
العنوان البريدي | العنوان البريدي في Coll
المدينة البريدية | المدينة البريدية في كول
الدولة البريدية | الحالة البريدية في Coll
البريدي البريدي | الرمز البريدي البريدي في Coll
العنوان الفعلي | العنوان الفعلي في Coll
المدينة المادية | المدينة المادية في كول
الحالة المادية | الحالة المادية في كول
الرمز البريدي المادي | الرمز البريدي المادي في Coll
UniqueNameUUID | تمت إضافته كمعرف في inst
AttributionLogoURL | حقل جديد؟
ProviderManagedID | تمت إضافته كمعرف
مشتق من | هل أضيفت كـ MachineTag إذا كانت للاستخدام الداخلي؟
نفس الشيء | تمت إضافته كمعرف
أعلام | أضيفت باسم MachineTag
بورتالديسبلاي | أضيفت باسم MachineTag
لات | خط العرض في المؤسسة
لون | خط الطول في المؤسسة

3. قرر ما يجب فعله عند وجود تداخل بين IH و iDigBio

كما ذكرنا سابقًا ، نحن نعمل على مزامنة Index Herbariorum و GrSciColl (https://github.com/gbif/registry/issues/167). يوجد تداخل جزئي بين iDigBio و IH.

ماذا نفعل في هذه الحالات؟
أقترح الكتابة فوق المعلومات الخاصة بالحقول التي توفرها IH (الكتابة فوق قيمة iDigBio أو GrSciColl) والاحتفاظ بالحقول من iDigBio فقط.
إذا كان سجل iDigBio هو الأحدث ، فسننشئ مشكلة GitHub ثم نرسل آخر تحديث إلى IH.
هل ذلك سوف يكون على ما يرام؟

GRSciColl

التعليق الأكثر فائدة

asturcon اخترنا هذا الحقل من Audubon Core ، لكننا اتفقنا على أنه يمكنك تجاهل الحقل لأننا لا نفعل أي شيء به.

ال 12 كومينتر

بخصوص الجزء 1:

فيما يتعلق بمن يقوم بالعمل ، أعتقد بكل احترام أنه سيكون من الأفضل والأكثر ملاءمة إذا كان GBIF قادرًا على تخصيص الوقت لذلك. لا يزال iDigBio / ACIS IT قصيرًا من قبل عضو واحد في الفريق ، وعلى الرغم من شعورنا بأن المنتج الناتج سيعمل بشكل أفضل للجميع ، لا أعتقد أننا يمكن أن نضمن أننا سنكون قادرين على الالتزام به في أي وقت قريبًا.

فيما يلي بعض الملاحظات الأخرى للقسم 1 من هذه المشكلة:

  • 1-3 في قائمتك منطقية ، بما في ذلك الحل المقترح في 3 إذا لم يتم العثور على مطابقات
  • للمطابقة ، قد يكون من الممكن المطابقة من رمز مؤسسة GBIF إلى رمز مؤسسة collections.json

  • استنادًا إلى الوثائق الحالية لـ collections.json (في الملف التمهيدي للريبو) ، يتم تعيين institution_lsid إلى "GRBio LSID أو coolURI لمؤسسة LSID" إذا تم العثور عليه ، وإلا فسيكون فارغًا

  • من المحتمل أن تحتاج المطابقات الأخرى إلى خوارزميات مطابقة تعتمد على السلسلة. من الملاحظات المفيدة المحتملة لأغراض المطابقة / التحقق أن uuid لمجموعة السجلات في collections.json سيتطابق مع uuid لمجموعة السجلات الذي يتم تقديمه من واجهة برمجة التطبيقات الخاصة بنا.

الجزء 2:
السجلات الفردية في مجموعات iDigBio's collection.json هي سجلات مجموعة المؤسسات. يقسم GBIF المؤسسة والتحصيل بشكل صحيح إلى كيانات منفصلة. انظر الرسم البياني المرفق للتسلسل الهرمي المقصود.

unnamed

ملاحظة: توجد تعريفات ميدانية في الملف التمهيدي لـ: https://github.com/iDigBio/idb-us-collections

تعليقات على التعيينات الفردية:

"تمت إضافة UniqueNameUUID كمعرف" - يبدو أن المقصود بهذا هو أن يكون UUID "مؤسسة" في تسلسل هرمي لسجلات iDigBio ولكن لا يبدو أنه قد تم تنفيذه. احتفظ به كمعرف في نظام GBIF.

recordsetQuery: يؤدي هذا إلى إنشاء ارتباط إلى مجموعة سجلات iDigBio ، (على سبيل المثال ، https://www.idigbio.org/portal/recordsets/ea12da76-1b2e-4944-8709-1de3af1c65e2). يمكن تجاهل هذا الحقل إذا كنت تقوم بإنشاء روابط لمجموعة السجلات بطريقة أخرى.

مجموعات السجلات - تذكير: هذا هو كائننا الأصلي للسجلات الفردية في نظامنا

KnownToContainTypes: يبدو أنه من المقبول تجاهله.

نص المجموعة: يمكن نسخها إلى CatalogedSpecimens حيث تكون CatalogedSpecimens فارغة ، ولكن ليس مطلوبًا الاحتفاظ بها كحقل منفصل (تجاهل).

“attributionLogoURL، ProviderManagedID، المشتق من” - لاحظ أن هذه مصطلحات Audubon Core

بخصوص الجزء 3:

نحن على ما يرام مع الطريقة المقترحة لدمج بيانات IH و iDigBio. للمساعدة في تحديد أحدث سجل ، IH أو iDigBio ، يمكنك استخدام تاريخ الالتزام لملف فردي في iDigBio repo كتاريخ مضاف / معدل.

الطريقة التي يعمل بها المستودع هي أن يقوم الإنسان بإنشاء / تحديث جزء من json يسمى ./collections/{collection_uuid}.json and commits. يقوم سير عمل البرنامج بعد ذلك بتشغيل الاختبارات والتجميعات التي يقطعها json في المجموعات الكاملة. json. مثال على ملف json الفردي سيكون:

https://github.com/iDigBio/idb-us-collections/blob/master/collections/001c5234-048b-11e5-b0ee-002315492bbc

ملاحظة مهمة : يتم تقديم الملف collections.json الذي يتم تحميله واستخدامه بالفعل من الفرع json-index أو gh-pages (يتم دفعه لكليهما) وليس الفرع الرئيسي. على سبيل المثال:

https://raw.githubusercontent.com/iDigBio/idb-us-collections/json-index/collections.json

أو

http://idigbio.github.io/idb-us-collections/collections.json

آمل أن يساعد كل هذا. لا تتردد في مراسلتنا على @ لمزيد من الأسئلة أو التوضيحات.

roncanepanrejack كنت أتحقق من التعيينات ويبدو أن AttributionLogoURL هو حقل iDigBio الوحيد الذي نفتقده في التسجيل لدينا. لكنني تحققت من ملف collections.json ولاحظت أن هذا الحقل فارغ دائمًا. هل يجب أن نضيفه إلى سجلنا؟ أو يمكننا التخلص منه أيضًا؟

asturcon اخترنا هذا الحقل من Audubon Core ، لكننا اتفقنا على أنه يمكنك تجاهل الحقل لأننا لا نفعل أي شيء به.

شكرا جزيلا لردودكمroncanepa و nrejack !
في هذه الحالة ، سنبدأ في [ 1. ربط إدخالات iDigBio و GrSciColl ]. سنفعل أكبر قدر ممكن تلقائيًا ونرسل لك وإلى Cat بعض الأشياء التي قد تحتاج إلى فحص يدوي ، هل هذا جيد معك؟

بخير معي ، ابعث بعيدا! شكرا جزيلا للجميع !!

مرحبًا CatChapman ، كان مورتن يعمل على مطابقة إدخالات iDigBio و GrSciColl: https://github.com/gbif/registry/issues/187
اتضح أنه من المنطقي مطابقة كل شيء أولاً مع مؤسسات GrSCiColl لأن هذه هي الإدخالات التي لدينا الكثير من التفاصيل والمعرفات الخاصة بها. ثم بمجرد حصولنا على المباريات الخاصة بالمؤسسة ، يمكننا إلقاء نظرة على المجموعات ومطابقتها أيضًا.

وصف مورتن عملية المطابقة الكاملة والنتائج المتعلقة بالمسألة المرتبطة أعلاه ولكن فيما يلي النقاط البارزة:

  1. تطابق إدخالات iDigBio على أساس IRN
  2. تطابق إدخالات iDigBio اليسرى بناءً على معرفات أخرى
  3. تطابق إدخالات iDigBio اليسرى بناءً على العنوان والرمز (لاحظ أنه تمت معالجة العناوين لتسهيل المطابقة)
  4. تطابق إدخالات iDigBio اليسرى بناءً على المدينة والرمز
  5. المطابقة تركت إدخالات iDigBio القائمة على العنوان وحده في حالة عدم وجود رمز مؤسسة iDigBio
  6. تركت المباراة عنوان إدخالات iDigBio على أساس (على الرغم من الرموز المتضاربة)
  7. تطابق إدخالات iDigBio اليسرى يدويا

هذا يترك 235 مدخلات iDigBio لا مثيل لها والتي سننشئ إدخالات جديدة في GrSciColl.
الآن نحن بحاجة لمساعدتكم للتحقق من المطابقة! هل يمكنك الانتقال إلى https://github.com/gbif/registry/issues/187 وإلقاء نظرة على نتيجة المطابقة؟ (يمكننا أيضًا تزويدك بجدول بيانات إذا كان ذلك أكثر ملاءمة).

لاحظ أنه قد يكون لدينا بعض المجموعات المكررة في البداية لأن بعض عناوين المجموعات قد تكون غامضة بعض الشيء في GrSciColl وليس لدينا دائمًا رموز موثوقة. لا تقلق ، نتوقع تسويتها لاحقًا.

وثق مورتن أيضًا كيف نتوقع إجراء الدمج نفسه هنا: https://github.com/gbif/registry/issues/188

تضمين التغريدة هذا عظيم. يا رفاق صخرة ، كثيرا.

سيكون جدول البيانات رائعًا - لقد قمت للتو بإرسال بريد إلكتروني إليك ، لذا لا تتردد في إرساله هناك ، أو الارتباط به (إذا كان جدول بيانات Google ، وما إلى ذلك) هنا.

سوف نلقي نظرة خاطفة على # 188 الآن.

باهر! أقوم بإضافة ملف CSV مفصول بعلامات جدولة للمطابقة:
iDigBio_GrSciColl_matches_march2020.tsv.zip

إذا كان من الرائع استعادة الشيك بتنسيق يمكن قراءته آليًا. نقترح إضافة عمود إلى هذا الملف به صواب / خطأ لكل تطابق مع عمود "تصحيح" محتمل مع التطابق المقابل الذي تعتقد أنه صحيح.

تم تحديث ملف JSON الخاص بـ Morten بإدخال من CAT:
iDigBio_Morten_matches_AND_Cat_addition.json.zip

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات