يمكننا القيام بذلك بترتيب مختلف بالطبع.
نظرًا لأن iDigBio يصف المجموعات ، فمن المحتمل أن نقوم بما يلي:
بمجرد أن يكون لدينا قائمة بالمطابقات ، يمكننا إضافة معرفات إلى إدخالات GrSciColl للعمل على الاستيراد (على غرار ما نفعله في حالة IH).
ربما يكون لدى الجميع فكرة عن كيفية المضي قدمًا ولكن من أجل تتبع ما يحدث ، أكتب هنا خطوات عملية المطابقة:
الآن من سيفعل ماذا؟
تبدو النماذج بين iDigBio و GrSciColl متشابهة جدًا. إليك كيف نقترح تعيين الحقول. هل يمكنك تجاوز هذا وإخبارنا إذا كان لديك أي تعليق؟
iDiBio | GrSciColl
- | -
المؤسسة | التعيين إلى "المؤسسة" في كيان المجموعة و "الاسم" إذا تم استخدامه لإنشاء مؤسسة
المجموعة | الاسم في Coll
مجموعات السجلات | تعيين باعتباره MachineTag (لأنه للاستخدام الداخلي) في coll
مجموعة السجلات MachineTag في coll
كود المؤسسة | التعيين إلى "الرمز" في المؤسسة
كود المجموعة | التعيين إلى "الرمز" في المجموعة
مجموعة Uuid | تمت إضافته كمعرف
مجموعة Lsid | تمت إضافته كمعرف
مجموعة Url | الصفحة الرئيسية في Coll
رابط كتالوج المجموعة | الكتالوج URL في Coll
الوصف | الوصف في Coll
الوصف للمتخصصين | متصل بالوصف في Coll (أو حقل جديد؟)
المواصفات المفهرسة | عدد العينات في Coll
KnownToContainTypes | تجاهل؟ (الحقل يستخدم أقل من 100 مرة) هل هو ضروري للاستخدام الداخلي؟ في هذه الحالة ، يمكننا إضافته كعلامة آلة.
تاكسون كوفيرج | التغطية التصنيفية في Coll
النطاق الجغرافي | التغطية الجغرافية في كول
نطاق المجموعة | تجاهل؟ (يبدو أنه يحتوي في معظم الحالات على سلسلة لها نفس القيمة مثل indexuedSpecimens)
الاتصال | معين إلى اسم طاقم العمل
دور جهة الاتصال | تعيين إلى موقف الموظفين
البريد الإلكتروني للاتصال | معين إلى البريد الإلكتروني للموظفين
العنوان البريدي | العنوان البريدي في Coll
المدينة البريدية | المدينة البريدية في كول
الدولة البريدية | الحالة البريدية في Coll
البريدي البريدي | الرمز البريدي البريدي في Coll
العنوان الفعلي | العنوان الفعلي في Coll
المدينة المادية | المدينة المادية في كول
الحالة المادية | الحالة المادية في كول
الرمز البريدي المادي | الرمز البريدي المادي في Coll
UniqueNameUUID | تمت إضافته كمعرف في inst
AttributionLogoURL | حقل جديد؟
ProviderManagedID | تمت إضافته كمعرف
مشتق من | هل أضيفت كـ MachineTag إذا كانت للاستخدام الداخلي؟
نفس الشيء | تمت إضافته كمعرف
أعلام | أضيفت باسم MachineTag
بورتالديسبلاي | أضيفت باسم MachineTag
لات | خط العرض في المؤسسة
لون | خط الطول في المؤسسة
كما ذكرنا سابقًا ، نحن نعمل على مزامنة Index Herbariorum و GrSciColl (https://github.com/gbif/registry/issues/167). يوجد تداخل جزئي بين iDigBio و IH.
ماذا نفعل في هذه الحالات؟
أقترح الكتابة فوق المعلومات الخاصة بالحقول التي توفرها IH (الكتابة فوق قيمة iDigBio أو GrSciColl) والاحتفاظ بالحقول من iDigBio فقط.
إذا كان سجل iDigBio هو الأحدث ، فسننشئ مشكلة GitHub ثم نرسل آخر تحديث إلى IH.
هل ذلك سوف يكون على ما يرام؟
بخصوص الجزء 1:
فيما يتعلق بمن يقوم بالعمل ، أعتقد بكل احترام أنه سيكون من الأفضل والأكثر ملاءمة إذا كان GBIF قادرًا على تخصيص الوقت لذلك. لا يزال iDigBio / ACIS IT قصيرًا من قبل عضو واحد في الفريق ، وعلى الرغم من شعورنا بأن المنتج الناتج سيعمل بشكل أفضل للجميع ، لا أعتقد أننا يمكن أن نضمن أننا سنكون قادرين على الالتزام به في أي وقت قريبًا.
فيما يلي بعض الملاحظات الأخرى للقسم 1 من هذه المشكلة:
للمطابقة ، قد يكون من الممكن المطابقة من رمز مؤسسة GBIF إلى رمز مؤسسة collections.json
استنادًا إلى الوثائق الحالية لـ collections.json (في الملف التمهيدي للريبو) ، يتم تعيين institution_lsid
إلى "GRBio LSID أو coolURI لمؤسسة LSID" إذا تم العثور عليه ، وإلا فسيكون فارغًا
من المحتمل أن تحتاج المطابقات الأخرى إلى خوارزميات مطابقة تعتمد على السلسلة. من الملاحظات المفيدة المحتملة لأغراض المطابقة / التحقق أن uuid لمجموعة السجلات في collections.json سيتطابق مع uuid لمجموعة السجلات الذي يتم تقديمه من واجهة برمجة التطبيقات الخاصة بنا.
الجزء 2:
السجلات الفردية في مجموعات iDigBio's collection.json هي سجلات مجموعة المؤسسات. يقسم GBIF المؤسسة والتحصيل بشكل صحيح إلى كيانات منفصلة. انظر الرسم البياني المرفق للتسلسل الهرمي المقصود.
ملاحظة: توجد تعريفات ميدانية في الملف التمهيدي لـ: https://github.com/iDigBio/idb-us-collections
تعليقات على التعيينات الفردية:
"تمت إضافة UniqueNameUUID كمعرف" - يبدو أن المقصود بهذا هو أن يكون UUID "مؤسسة" في تسلسل هرمي لسجلات iDigBio ولكن لا يبدو أنه قد تم تنفيذه. احتفظ به كمعرف في نظام GBIF.
recordsetQuery: يؤدي هذا إلى إنشاء ارتباط إلى مجموعة سجلات iDigBio ، (على سبيل المثال ، https://www.idigbio.org/portal/recordsets/ea12da76-1b2e-4944-8709-1de3af1c65e2). يمكن تجاهل هذا الحقل إذا كنت تقوم بإنشاء روابط لمجموعة السجلات بطريقة أخرى.
مجموعات السجلات - تذكير: هذا هو كائننا الأصلي للسجلات الفردية في نظامنا
KnownToContainTypes: يبدو أنه من المقبول تجاهله.
نص المجموعة: يمكن نسخها إلى CatalogedSpecimens حيث تكون CatalogedSpecimens فارغة ، ولكن ليس مطلوبًا الاحتفاظ بها كحقل منفصل (تجاهل).
“attributionLogoURL، ProviderManagedID، المشتق من” - لاحظ أن هذه مصطلحات Audubon Core
بخصوص الجزء 3:
نحن على ما يرام مع الطريقة المقترحة لدمج بيانات IH و iDigBio. للمساعدة في تحديد أحدث سجل ، IH أو iDigBio ، يمكنك استخدام تاريخ الالتزام لملف فردي في iDigBio repo كتاريخ مضاف / معدل.
الطريقة التي يعمل بها المستودع هي أن يقوم الإنسان بإنشاء / تحديث جزء من json يسمى ./collections/{collection_uuid}.json and commits. يقوم سير عمل البرنامج بعد ذلك بتشغيل الاختبارات والتجميعات التي يقطعها json في المجموعات الكاملة. json. مثال على ملف json الفردي سيكون:
ملاحظة مهمة : يتم تقديم الملف collections.json
الذي يتم تحميله واستخدامه بالفعل من الفرع json-index
أو gh-pages
(يتم دفعه لكليهما) وليس الفرع الرئيسي. على سبيل المثال:
https://raw.githubusercontent.com/iDigBio/idb-us-collections/json-index/collections.json
أو
http://idigbio.github.io/idb-us-collections/collections.json
آمل أن يساعد كل هذا. لا تتردد في مراسلتنا على @ لمزيد من الأسئلة أو التوضيحات.
roncanepanrejack كنت أتحقق من التعيينات ويبدو أن AttributionLogoURL
هو حقل iDigBio الوحيد الذي نفتقده في التسجيل لدينا. لكنني تحققت من ملف collections.json
ولاحظت أن هذا الحقل فارغ دائمًا. هل يجب أن نضيفه إلى سجلنا؟ أو يمكننا التخلص منه أيضًا؟
asturcon اخترنا هذا الحقل من Audubon Core ، لكننا اتفقنا على أنه يمكنك تجاهل الحقل لأننا لا نفعل أي شيء به.
شكرا جزيلا لردودكمroncanepa و nrejack !
في هذه الحالة ، سنبدأ في [ 1. ربط إدخالات iDigBio و GrSciColl ]. سنفعل أكبر قدر ممكن تلقائيًا ونرسل لك وإلى Cat بعض الأشياء التي قد تحتاج إلى فحص يدوي ، هل هذا جيد معك؟
بخير معي ، ابعث بعيدا! شكرا جزيلا للجميع !!
مرحبًا CatChapman ، كان مورتن يعمل على مطابقة إدخالات iDigBio و GrSciColl: https://github.com/gbif/registry/issues/187
اتضح أنه من المنطقي مطابقة كل شيء أولاً مع مؤسسات GrSCiColl لأن هذه هي الإدخالات التي لدينا الكثير من التفاصيل والمعرفات الخاصة بها. ثم بمجرد حصولنا على المباريات الخاصة بالمؤسسة ، يمكننا إلقاء نظرة على المجموعات ومطابقتها أيضًا.
وصف مورتن عملية المطابقة الكاملة والنتائج المتعلقة بالمسألة المرتبطة أعلاه ولكن فيما يلي النقاط البارزة:
هذا يترك 235 مدخلات iDigBio لا مثيل لها والتي سننشئ إدخالات جديدة في GrSciColl.
الآن نحن بحاجة لمساعدتكم للتحقق من المطابقة! هل يمكنك الانتقال إلى https://github.com/gbif/registry/issues/187 وإلقاء نظرة على نتيجة المطابقة؟ (يمكننا أيضًا تزويدك بجدول بيانات إذا كان ذلك أكثر ملاءمة).
لاحظ أنه قد يكون لدينا بعض المجموعات المكررة في البداية لأن بعض عناوين المجموعات قد تكون غامضة بعض الشيء في GrSciColl وليس لدينا دائمًا رموز موثوقة. لا تقلق ، نتوقع تسويتها لاحقًا.
وثق مورتن أيضًا كيف نتوقع إجراء الدمج نفسه هنا: https://github.com/gbif/registry/issues/188
تضمين التغريدة هذا عظيم. يا رفاق صخرة ، كثيرا.
سيكون جدول البيانات رائعًا - لقد قمت للتو بإرسال بريد إلكتروني إليك ، لذا لا تتردد في إرساله هناك ، أو الارتباط به (إذا كان جدول بيانات Google ، وما إلى ذلك) هنا.
سوف نلقي نظرة خاطفة على # 188 الآن.
باهر! أقوم بإضافة ملف CSV مفصول بعلامات جدولة للمطابقة:
iDigBio_GrSciColl_matches_march2020.tsv.zip
إذا كان من الرائع استعادة الشيك بتنسيق يمكن قراءته آليًا. نقترح إضافة عمود إلى هذا الملف به صواب / خطأ لكل تطابق مع عمود "تصحيح" محتمل مع التطابق المقابل الذي تعتقد أنه صحيح.
تم تحديث ملف JSON الخاص بـ Morten بإدخال من CAT:
iDigBio_Morten_matches_AND_Cat_addition.json.zip
التعليق الأكثر فائدة
asturcon اخترنا هذا الحقل من Audubon Core ، لكننا اتفقنا على أنه يمكنك تجاهل الحقل لأننا لا نفعل أي شيء به.