Registry: أضف فئة إلى مجموعة البيانات

تم إنشاؤها على ٣ نوفمبر ٢٠٢٠  ·  20تعليقات  ·  مصدر: gbif/registry

يحتوي Dataset الحالي على النوع والنوع الفرعي الذي يمثل مشكلة بعض الشيء. يشير Type حقًا إلى تنسيق الصف المستخدم في DwC-A ويسبب مشاكل نظرًا لأن قائمة التحقق يمكن أن تحدث ، ويمكن أن تكون مجموعة بيانات التكرار في الواقع ناتجًا لبيانات حدث أخذ العينات.

قد يساعد الاستخدام الأفضل لـ SubType ، لكني أشعر أنه قد يزيد الارتباك بسبب التداخل (على سبيل المثال ، مجموعة بيانات التكرار مع حدث أخذ عينات من النوع الفرعي).

نظرًا لأن واجهة برمجة التطبيقات (API) تُستخدم الآن جيدًا وتغيير هذا الأمر معطّل ، أقترح تقديم حقل جديد متعدد القيم يسمى category لتصنيف مجموعات البيانات. في الوقت المناسب يمكننا إهمال النوع والنوع الفرعي.

قد تتضمن الفئات إبداءات الإعجاب (تم تعديلها لتضمين الاقتراحات الواردة من الدردشة أدناه):

  1. بيانات علم المواطن
  2. بيانات المراقبة
  3. جمع التاريخ الطبيعي
    أ. ضع في اعتبارك فصل الأحافير كفئة منفصلة لتجنب سوء الاستخدام العرضي
  4. كائن حي واحد متسلسل (أي أنسجة من عينة NHM)
    أ. ضع في اعتبارك إضافة عينة الأنسجة أيضًا (والتي قد تكون أو لا يتم ترتيبها في تسلسل) للمساعدة في اكتشاف الأنسجة المحفوظة دون الاعتماد على مصطلحات أخرى غامضة
  5. الحمض النووي البيئي و / أو الميتاجينوميات (على سبيل المثال ، عينة التربة ، الماء ، حساء الحشرات ، إلخ)
  6. الكشف عن الأنواع المستهدفة (المقايسات القائمة على تفاعل البوليميراز المتسلسل)
  7. بيانات المراقبة طويلة المدى
  8. حدث أخذ العينات (حيث تم استخدام بعض البروتوكولات)
  9. بيانات قائمة التحقق
  10. الاستشهادات المادية (مثل المعالجات التصنيفية في الأدب)
  11. بيانات القطاع الخاص
    أ. ضع في اعتبارك تقسيم هذا إلى فئات أدق (على سبيل المثال ، بيانات مؤيدة لتقييم الأثر البيئي قبل التطوير) مقابل فئات أخرى (سيتم تحديدها)
  12. تتبع البيانات (أي عمليات الاستعادة أو تتبع نظام تحديد المواقع العالمي (GPS) للكائنات الفردية)
  13. مراقبة الآلة (مثل مصيدة الكاميرا)

ستتم إضافة الفئات المتعددة إلى كل سجل تواجد عند الفهرسة ، مما يسمح بإضافة عامل تصفية سهل الاستخدام في GBIF.org بحيث يمكن للأشخاص تحديد تشغيل / إيقاف تشغيل فئات مجموعة البيانات التي تهمهم.

CC @ ahahn- gbifMortenHofft للتعليقات على وجه الخصوص

ال 20 كومينتر

شكرا!

~ بافتراض أن هذا سيدعم أيضًا المقاييس (وفهم أن القيم المتعددة تعني أن مجموعة البيانات يمكن أن تنتمي إلى أكثر من فئة واحدة) ، أود أن أضيف ~
~ 9. بيانات القطاع الخاص ~
~ 10. بيانات التتبع (أي عمليات الاستعادة أو تتبع نظام تحديد المواقع العالمي (GPS) للكائنات الفردية) ~

[تيم: شكرًا - تمت الإضافة أعلاه!]

سؤال: هل يجب أن تكون 4. metagenomic (eDNA) فئتين منفصلتين؟ هناك اختلاف كبير في تفسير هذه البيانات ، على الرغم من أنها "قائمة على التسلسل" @ ManonGros ، هل يمكنك التعليق؟

[تم تعديل Tim للإضافة: لقد قسمتهم أعلاه الآن ، لكنني سأتغير مرة أخرى بناءً على المزيد من التعليقات]

تبدو مراقبة الآلة كفئة فرعية لحدث أخذ العينات.

تبدو مراقبة الآلة كفئة فرعية لحدث أخذ العينات.

هذا جيد أليس كذلك؟ نظرًا لأنها متعددة القيم ، يمكن وضع علامة على مجموعة البيانات على أنها حدث أخذ عينات واحد أو كلاهما ، أو ربما تكون هناك حالات تكون فيها مراقبة الجهاز مناسبة حيث لا يتم استخدام بروتوكول أخذ عينات حقيقي.

هذه الفئة الجديدة ستكون نصًا مجانيًا باستخدام خادم المفردات؟ أم أننا نحاول تحديد كل الفئات؟

هذه الفئة الجديدة ستكون نصًا مجانيًا باستخدام خادم المفردات؟ أم أننا نحاول تحديد كل الفئات؟

~ غير محدد ، ولكن في هذه المرحلة نقترح الفئات ~

منقح: أقترح الآن خادم المفردات ، كما هو مفصل لاحقًا في هذا الموضوع.

رائعة! انا احب الفكرة!

~ فقط تعليق واحد: ~
~> 4. كائن حي مفرد ميتاجينومي (أي نسيج من عينة NHM) ~
~> 5. eDNA البيئية (مثل عينة التربة ، الماء ، حساء الحشرات ، إلخ) ~

~ الرقم 4 لا يبدو صحيحًا. ما أفهمه عند قراءة "كائن ميتاجينومي واحد" هو أن شخصًا ما أخذ عينة من بقرة (على سبيل المثال) وقام بترتيبها ، مما أدى إلى مجموعة من التكرارات لميكروبيوم الأمعاء. أعتقد أن هذه ليست الفكرة ، أليس كذلك؟ ~
~ إذا كنت تقصد أن أنسجة العينة قد تم تسلسلها ، فعندئذ سأكتب شيئًا على غرار "تسلسل كائن حي واحد". وفي الواقع ، يمكننا تجميع علم الجينوميات مع eDNA (غالبًا ما تكون eDNA هي metagenomics). لذا في النهاية ، أعتقد أننا يمكن أن نفعل شيئًا مثل: ~

~ 4. كائن حي واحد متسلسل (أي نسيج من عينة NHM) ~
~ 5. eDNA البيئي و / أو الميتاجينوميات (مثل عينة التربة ، والمياه ، وحساء الحشرات ، إلخ) ~

[تيم: تم التعديل بالاقتراحات الواردة هنا - شكرًا ، لقد فهمت حقًا ما قصدته!]

ربما يكون لدى thomasstjerne بعض الأفكار حول هذا؟

الكشف عن الأنواع المستهدفة المضافة (المقايسات القائمة على تفاعل البوليميراز المتسلسل)

شكرا @ timrobertson100 لجعلني على دراية بالموضوع ، مثير للغاية. حتى الآن ، وجدت ثمانية متغيرات مستقلة محتملة قد تحدد نوع الأدلة / مجموعة البيانات في GBIF. أحتاج إلى التأمل أكثر قليلاً قبل تقديم آرائي هنا ، ويسعدني تبادل الأفكار / السبورة البيضاء قليلاً إذا كان الناس متاحين؟

تتبع هذا أيضا

مرحبًا بالجميع ، تعجبني فكرة فرز مجموعات البيانات وأنواع الأدلة ، لكنني لست متأكدًا من أنها أكثر جاذبية للمستخدمين للقيام بذلك باستخدام مرشح / مفردات واحدة (لكنني حصلت على الجدوى كما وضعها تيم). لقد رسمت بعض الخرائط الذهنية ولكن ليس لدي وقت لإضافة الصور هنا ، لذا اكتب فقط للنظر فيها. لقد بدأت بالتفكير لماذا يحتاج المستخدمون إلى فرز مجموعة البيانات / أنواع الأدلة؟ إنها طريقة سريعة لإدراج / استبعاد أنواع البيانات المهمة لقضاياك بناءً على كيفية إنشاء الدليل وخصائصه. لقد توصلت إلى 8 متغيرات مستقلة تتخطى التصنيف المقترح لمجموعة البيانات وأسس المفردات المسجلة كما لدينا اليوم. لاحظ أنني أعتقد أن العمل المستقل مهم هنا ، على الرغم من أن بعض التوليفات من 1-8 أدناه مستحيلة في الحياة الواقعية.

أستخدم كلمات فضفاضة لوصف تفكيري ، فهذه ليست مفردات أقترحها ، وهناك بعض التداخلات التي لم يتم حلها:

  1. حالة حفظ الدليل: ظاهري فقط أو مادي: أحفوري ، ميت ، حي (حدائق الحيوان ، الثقافات ، الحدائق ، الأحياء المائية). لاحظ أن البعض يعتقد أنه ليس من السهل وضع الكهرمان ، حيث يمكن للمرء الحصول على الحمض النووي من الكهرمان ، وهناك أحافير فرعية وما إلى ذلك). _Question_: هل يمكنني إعادة فحص المادة المادية؟ ما هو واين هو؟
  2. أنواع التكامل / N: فردي وكامل (على سبيل المثال ، حشرة ، أي تحتوي على كل جيناتها في فرد واحد) ، جزئية (عينة نسيج ، ورقة ، جسم فاكهة) أو عينة مختلطة (شائعة في جمع الطحالب والأشنة ، عندما يكون جمع الأنواع الفردية غير ممكن : ولكن ليس أخذ عينات متعمد مثل العوالق انظر 6). _السؤال_: هل يمكنني دراسة التشكل الكامل ، أو بعض السمات فقط ، أو ربط عينات المتحف فقط بتسلسل الحمض النووي؟
  3. الحمض النووي: لم يتم استكشافه ، تسلسل ، تفاعل البوليميراز المتسلسل. ملحوظة: هذا بين الظاهري والمادي ، حيث يمكن تخزين منتجات الحمض النووي أو تفاعل البوليميراز المتسلسل لفترة طويلة (ماديًا) ، لكن دليل الحمض النووي على وجود الأنواع ، غالبًا ما يكون تسلسلًا ، هو دليل افتراضي تم إنشاؤه بواسطة الجهاز لا يختلف كثيرًا عن الصورة الرقمية أو صوت. _Question_: هل يمكنني إعادة فحص التعريف ، هل نسالة ، أو كل ما لدي هو اسم التصنيف؟
  4. بيانات ديناميكية / ثابتة. ديناميكي: التعقب ، التسلسل الزمني ، الاستعادة. _Question_: هل يمكنني دراسة العمليات فقط ، أم دراسة الأنماط فقط؟
  5. الطريقة التي يتم بها إنشاء الدليل: معالجة الأدبيات ، ورقمنة المجموعات ، والملاحظات الشخصية ، وأخذ العينات بشكل منهجي. _Question_: هل يمكنني فرز البيانات حسب موثوقية إنشائها؟
  6. لأخذ عينات من بيانات الأحداث ، ولكن من الممكن حدوثها أيضًا: الحضور فقط (جهد أخذ العينات غير معروف / غير موثق) ، غياب الحضور ، الوفرة (الكمية). _السؤال_: ما هي أنواع التحليلات الإحصائية الممكنة؟
  7. طريقة تعبئة البيانات في GBIF: البيانات الوصفية فقط ، قائمة التحقق ، التكرارات فقط ، حدث أخذ العينات. قد يشمل التصفية حسب الامتداد المستخدم ، esp. إذا حصلنا على المزيد من هؤلاء في TDWG. _Question_: ما الذي أحصل عليه في تنزيل GBIF ، الترجمة الحرفية و GBIF؟
  8. المجتمع الذي ينشئ البيانات (ربما يكون هذا أكثر صلة بوضع علامات على الناشرين ، ولكن قد يحتاج المرء إلى تصفية الأحداث ومجموعات البيانات حسب): (مجموعات) الأفراد ، ومجموعات التاريخ الطبيعي ، والقطاع الخاص ، والبحرية ، وعلم المواطن ، والآلة. بعضها لا يستبعد بعضها البعض: يمكن أن تكون "مجموعة التاريخ الطبيعي" + "علم المواطن" أو "الآلة". _السؤال_: هل يمكنني دراسة اتجاهات البيانات في قطاع ديموغرافي معين؟

مرة أخرى ، هذا مجرد التقاط لأفكار غير مكتملة ؛ سيكون من الجيد طرح الأفكار / السبورة البيضاء كيف سيبدو التصنيف الجيد. كنت أفكر في تقسيمها إلى شرائح مثل 1 و 7 و 13 في المنشور الأصلي يمكن أن يكون صحيحًا في نفس الوقت. إذا كانت هذه علامات وكان التداخل لا يمثل مشكلة ، فلا بأس بذلك. ولكن إذا كان هذا مرشحًا صارمًا ، فقد نحتاج إلى أكثر من مجال لالتقاط أنواع الحفظ مقابل إنشاء المجتمع مقابل طرق التوليد مقابل الكمية وما إلى ذلك. لا تتردد في التخلص منها إذا كان خارج النطاق. لم أجد أيضًا مجموعة مناقشات BoR ، والتي تنطبق هنا جزئيًا.

أفترض أن التصنيفات ستأتي منا (على الأقل هذا هو الحال في الوقت الحالي بالنسبة لمجموعات البيانات العلمية للمواطنين) ولكن سيكون من الرائع أن يساعد الأشخاص الآخرون في التنظيم أيضًا. مجرد شيء لتأخذ في الاعتبار.

على سبيل المثال ، لنفترض أننا طلبنا من مديري العقد التحقق من مجموعات البيانات التي تحمل علامة "علم المواطن". نحن نريد:

  1. طريقة سهلة بالنسبة لهم لمشاهدة جميع مجموعات البيانات العلمية للمواطنين الخاصة بالعقدة الخاصة بهم.
  2. إذا لاحظ مدير Node وجود مجموعة بيانات تم تمييزها بشكل خاطئ ، فنحن نريد تتبع ذلك حتى لا نعيد وضع علامة عليها في المرة القادمة.

بالنظر إلى هذه المشكلة: https://github.com/gbif/portal-feedback/issues/3381 ، سنفتقد فئة data extracted from taxonomic literature (i.e., Plazi) . أنت على حق ، لقد فاتني ذلك!

ManonGros شكرا

بالنظر إلى هذه المشكلة: gbif / portal-feedback # 3381 ، سنفتقد البيانات المستخرجة من الأدبيات التصنيفية (مثل Plazi).

هذا ما قصد أن يكون:

الاستشهادات المادية (مثل المعالجات التصنيفية في الأدب)

(مرتبط بذلك أن Plazi اقترح للتو Material citation إضافة إلى مفردات السجل الأساسي في قضايا داروين الأساسية للتعليق العام)

+ 1Dmitry لشخص إلى كثير واستخدام علامات الكلمات الرئيسية (بدلاً من 1: 1 سجل أساسي للفئة)
+ 1Marie للتفكير في تمكين موظفي Node من تنظيم الفئات -> ويمكنه أيضًا إضافة طلب ميزة لتمكين أي شخص من إضافة تعليق توضيحي لنقطة بيانات / مجموعة مع معلومات الفئة (مع عدم تغيير المصدر)

تذكر أيضًا أن "مجموعة البيانات" (كما هو الحال في مجموعة بيانات داروين الأساسية) يمكن أن تكون مجموعة مختلطة من "سجلات الأدلة" (تُعرف أيضًا باسم السجل الأساسي ، على سبيل المثال ، ويعرف أيضًا باسم التكرار) من الفئات المختلفة - إذا كانت "علامة" فئة مصمم للتطبيق على جميع السجلات الأساسية في DwC-A

وأن إلغاء تطبيع "سجلات الأدلة" (السجلات الأساسية) يعني أنه لا يمكن التأكد من الفئة التي يُقصد ربط خاصية معينة مرتبطة بالسجل الأساسي بها

أنا بالفعل أعجبتني هذه الفكرة. بالتأكيد لدى ALA مستخدمون يريدون طريقة بسيطة جدًا لتحديد مجموعات السجلات عبر موفري البيانات. المجموعة التي أسمع هذا الطلب من معظمها هم القيمون / الباحثون الذين يريدون "فقط" عينات متحف أو أعشاب.

زوجان من الاقتراحات:

  1. جمع التاريخ الطبيعي - قد يكون مفيدًا أيضًا أن يكون لديك فئة للعينات الأحفورية بحيث يمكن فصلها بسهولة.
    السبب في فصل الأحافير هو أن الأحافير الفرعية (أو أي نوع من الأحافير لا تزال موجودة) غالبًا ما تظهر خارج التوزيع الموجود ويمكن بسهولة الخلط بينها وبين الأخطاء ويتم تمييزها على هذا النحو ، عندما تكون شرعية تمامًا.
  1. كائن حي واحد متسلسل (أي أنسجة من عينة NHM)
    سيكون وجود فئة إضافية لعينة الأنسجة مفيدًا جدًا ، سواء تم اشتقاق التسلسلات أم لا.
    قد يكون مستخدمو هذه الفئة باحثين يبحثون عن أنسجة لأخذ العينات المدمرة / المدمرة والذين يتعين عليهم حاليًا البحث في BasisOfRecord = عينة مادية بالإضافة إلى الاستعدادات.

  2. بيانات القطاع الخاص - هل تقصد البيانات التي جمعتها الشركات التي تجري تقييمات الأثر البيئي قبل الموافقة على مشاريع التطوير / التعدين؟ إذا كان الأمر كذلك ، في أستراليا يُطلق على هذا عادةً اسم "بيانات المؤيدين" (وهي بيانات من مؤيدي التطوير). إذا كانت بيانات القطاع الخاص تعني شيئًا آخر ، فربما يمكن أن تحتوي على كليهما؟

تذكر أيضًا أن "مجموعة البيانات" (كما هو الحال في مجموعة بيانات داروين الأساسية) يمكن أن تكون مجموعة مختلطة من "سجلات الأدلة" (تُعرف أيضًا باسم السجل الأساسي ، على سبيل المثال ، ويعرف أيضًا باسم التكرار) من الفئات المختلفة - إذا كانت "علامة" فئة مصمم للتطبيق على جميع السجلات الأساسية في DwC-A

شكرا ، dagendresen. كان تفكيري هنا هو محاولة فصل هذا عن مشكلات الفئة / أساس السجل في داروين كور لتكون قادرًا على الاستجابة للإبلاغ / احتياجات المستخدم بسرعة (على سبيل المثال ، تقديم علامة جديدة لمجموعات البيانات). مع الإقرار بإمكانية وجود مجموعات بيانات "ذات أكياس مختلطة" ، فإن حدسي هو أن معظم المستخدمين سيقدرون التصفية الواسعة على سبيل المثال "حذف السجلات التي تنشأ من مجموعات البيانات التي تم وضع علامة عليها كـ eDNA" حتى لو كان هناك عدد قليل من الإدخالات التي قد تكون ذات أهمية ، أو لإنتاج تقارير (مثل مخططات النمو) استنادًا إلى البيانات التي تنشأ من مجموعات البيانات الموسومة على أنها مرتبطة بالقطاع الخاص. هل هذا يبدو معقولا من فضلك؟

حقا أحب هذه الفكرة

شكرًا ، elywallis - سأضيف مدخلاتك إلى القائمة بالأعلى الآن.

بيانات القطاع الخاص - هل تقصد البيانات التي جمعتها الشركات التي تجري تقييمات الأثر البيئي قبل الموافقة على مشاريع التطوير / التعدين؟

أعتقد أن هذه كانت النية ، نعم. لا أعرف التفاصيل ، لكنني أدرك أن فريق إدارة البيانات يعمل بشكل متزايد على تشغيل تقارير حول الاتجاهات باستخدام فئات مثل هذه. سأضيف تعليقاتك في القائمة العلوية ، دون اقتراح قرار نهائي.

خارج الموضوع قليلاً ، لكن ربما يكون مفيدًا:

قد لا يكون معروفًا للكثيرين ، لكن GBIF ينقل بشكل تدريجي مفردات مثل هذه إلى خادم المفردات المتكامل الخاص بنا. سيسمح هذا لمديري البيانات (بما في ذلك مديري العقدة dagendresen ) بالمشاركة في تحديد المفاهيم. يمكن أن تكون المفاهيم هرمية (مثل التصنيفات الدقيقة للبيانات الخاصة) وبمجرد إصدار نسخة من المفردات ، يتم التقاطها في خطوط أنابيب معالجة البيانات. هذا لا يزال قيد التطوير ، ولكن LifeStage قيد الإنتاج الآن.

ما يعنيه هذا فيما يتعلق بهذه المشكلة ، هو أننا عندما نجد متطلبات جديدة لتصنيف مجموعات البيانات لتقرير جديد أو مجتمع جديد نراه ناشئًا ، سيكون لدينا الأدوات اللازمة لاستيعاب ذلك دون الحاجة إلى مشاركة مطور البرامج (يتطلب فقط مفردات لـ يمكن تغييرها ، ثم متابعة وضع علامات على مجموعات البيانات).

مجموعات بيانات "الحقيبة المختلطة"

@ timrobertson100 أود (إذا طُلب مني) أن أوافق تمامًا على أن أفضل الممارسات هي تجنب مجموعات بيانات "الأكياس المختلطة" وأن "العلامة" لتمكين عامل التصفية من أجل _ "الغرض من إعادة الاستخدام" _ ستكون مفيدة جدًا ومرحب بها! ونعتقد أنه يمكننا العيش بشكل جيد مع عدم تطبيق هذه الوظيفة بنسبة 100٪ على مجموعات بيانات "الأكياس المختلطة" :-)

(apropos - GBIF النرويج "تفاوض" مع ناشري البيانات النرويجيين "لتقسيم" مجموعات البيانات "ذات الأكياس المختلطة" إلى مجموعات بيانات أصغر تكون أكثر تجانساً)

كتب @ timrobertson100 :

خارج الموضوع قليلاً ، لكن ربما يكون مفيدًا:

قد لا يكون معروفًا للكثيرين ، لكن GBIF ينقل بشكل تدريجي مفردات مثل هذه إلى خادم المفردات المتكامل الخاص بنا. سيسمح هذا لمديري البيانات (بما في ذلك مديري العقدة dagendresen ) بالمشاركة في تحديد المفاهيم. يمكن أن تكون المفاهيم هرمية (مثل التصنيفات الدقيقة للبيانات الخاصة) وبمجرد إصدار نسخة من المفردات ، يتم التقاطها في خطوط أنابيب معالجة البيانات. هذا لا يزال قيد التطوير ، ولكن LifeStage قيد الإنتاج الآن.

ما يعنيه هذا فيما يتعلق بهذه المشكلة ، هو أننا عندما نجد متطلبات جديدة لتصنيف مجموعات البيانات لتقرير جديد أو مجتمع جديد نراه ناشئًا ، سيكون لدينا الأدوات اللازمة لاستيعاب ذلك دون الحاجة إلى مشاركة مطور البرامج (يتطلب فقط مفردات لـ يمكن تغييرها ، ثم متابعة وضع علامات على مجموعات البيانات).

تيم ، هل يمكنك رؤيتي؟ في مرحلة ما ، نحتاج إلى شيء ما ، حديث من GBIF ، ندوة عبر الويب TDWG ، حول هذا الجهد. أعتقد أن المجتمع الأوسع سيجد أنه مفيد للغاية حول كيفية استخدام البيانات التي لدينا لتحسين وفهم البيانات.

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات