Evalml: AutoML: استخدم تقسيم السيرة الذاتية المنفصل للتجميع

تم إنشاؤها على ٢٦ يناير ٢٠٢١  ·  4تعليقات  ·  مصدر: alteryx/evalml

# 1732 يقوم بتحديث خط الأنابيب التجميعي المكدس الخاص بنا لاستخدام نفس أداة تقسيم البيانات المستخدمة في AutoML . تابعنا مع # 1732 لأننا اعتقدنا أنه لا يزال يمثل تحسينًا على نهجنا الحالي (الافتراضي scikit-Learn).

تتعقب هذه المشكلة التحديثات طويلة المدى التي قد نرغب في إجرائها لمقسم البيانات الخاص بنا للتكديس في AutoML.


تحديث: أثناء الاستمرار في تحديث # 1732 ، واجهنا لغزًا في التفاعل بين التكديس و AutoML مما جعلنا نعيد النظر فيما إذا كان من الجيد حقًا استخدام نفس تقسيم البيانات لمجموعة التراص كما نستخدمها في AutoML. قررنا لا ، وكما أشار ريموند ، ربما نريد استخدام سيرة ذاتية منفصلة لمجموعتنا. (ذكر dsherry أيضًا مجموعة جيدة من المعلومات التي تفيد بأن استخدام التجميع يسمح للنموذج بوضع أهمية أقل على النماذج الأكثر تعقيدًا ، لذلك ربما تساعد السيرة الذاتية في ذلك - يرجى تصحيح لي إذا أعيدت صياغتها بشكل غير صحيح 😂).

بدلاً من الاستمرار في هذا العمل بعد ذلك ، يجب أن نستخدم هذه المشكلة لمناقشة تحديث AutoML للتكديس: على وجه التحديد ، يجب علينا إنشاء تقسيم منفصل للسيرة الذاتية للتجميع المكدس. سيكون هذا مشابهًا لما لدينا حاليًا لضبط العتبة الثنائية.

enhancement performance

التعليق الأكثر فائدة

الخطة: إذا تم تمكين التكديس ، فسننشئ تقسيمًا منفصلاً يمكن تمريره إلى التجميع المكدس للسيرة الذاتية

قد يكون من الرائع النظر في الدعم باستخدام التنبؤات خارج العينة (تقسيم التحقق من السيرة الذاتية الأصلية) أثناء تمرير البيانات إلى التكديس. ومع ذلك ، أقترح أن نبدأ بالنهج الأبسط المتمثل في إنشاء تقسيم منفصل فقط إذا تم تمكين التكديس.

إعادة مناقشتنا ، بعض الأدلة الداعمة لماذا يجب علينا حجب انقسام منفصل يمكن أن تستخدمه المجموعة المكدسة لأداء السيرة الذاتية:

  • "باستخدام [التنبؤات] التي تم التحقق من صحتها بشكل متقاطع ، يتجنب التكديس إعطاء وزن مرتفع بشكل غير عادل للنماذج ذات التعقيد الأعلى." AKA overfitting
  • "الطريقة الأكثر شيوعًا لإعداد مجموعة بيانات التدريب للنموذج الفوقي هي عبر التحقق من صحة k-fold للنماذج الأساسية ، حيث تُستخدم التنبؤات خارج الطي كأساس لمجموعة بيانات التدريب للنموذج التلوي قد تتضمن بيانات التدريب للنموذج التلوي أيضًا مدخلات للنماذج الأساسية ، على سبيل المثال عناصر الإدخال لبيانات التدريب. يمكن أن يوفر هذا سياقًا إضافيًا للنموذج التلوي حول أفضل طريقة للجمع بين التنبؤات من meta- النموذج. بمجرد إعداد مجموعة بيانات التدريب للنموذج التلوي ، يمكن تدريب النموذج التلوي بمعزل عن مجموعة البيانات هذه ، ويمكن تدريب النماذج الأساسية على مجموعة بيانات التدريب الأصلية بالكامل. " - مشاركة مدونة
  • "من المهم أن يتم تدريب المتعلم الفوقي على مجموعة بيانات منفصلة للأمثلة المستخدمة لتدريب نماذج المستوى 0 لتجنب الإفراط في التجهيز." - منشور مدونة آخر
  • ملخص الورقة الأصلية الذي يناقش كيف يمكن النظر إلى التجميع المكدس كتعميم للتحقق المتبادل
  • لقد وجدت هذا أيضًا قراءة جيدة.

rpeck FYI ، بعد بعض التدوير ، نتبع اقتراحك 😆

ال 4 كومينتر

الخطة: إذا تم تمكين التكديس ، فسننشئ تقسيمًا منفصلاً يمكن تمريره إلى التجميع المكدس للسيرة الذاتية

قد يكون من الرائع النظر في الدعم باستخدام التنبؤات خارج العينة (تقسيم التحقق من السيرة الذاتية الأصلية) أثناء تمرير البيانات إلى التكديس. ومع ذلك ، أقترح أن نبدأ بالنهج الأبسط المتمثل في إنشاء تقسيم منفصل فقط إذا تم تمكين التكديس.

إعادة مناقشتنا ، بعض الأدلة الداعمة لماذا يجب علينا حجب انقسام منفصل يمكن أن تستخدمه المجموعة المكدسة لأداء السيرة الذاتية:

  • "باستخدام [التنبؤات] التي تم التحقق من صحتها بشكل متقاطع ، يتجنب التكديس إعطاء وزن مرتفع بشكل غير عادل للنماذج ذات التعقيد الأعلى." AKA overfitting
  • "الطريقة الأكثر شيوعًا لإعداد مجموعة بيانات التدريب للنموذج الفوقي هي عبر التحقق من صحة k-fold للنماذج الأساسية ، حيث تُستخدم التنبؤات خارج الطي كأساس لمجموعة بيانات التدريب للنموذج التلوي قد تتضمن بيانات التدريب للنموذج التلوي أيضًا مدخلات للنماذج الأساسية ، على سبيل المثال عناصر الإدخال لبيانات التدريب. يمكن أن يوفر هذا سياقًا إضافيًا للنموذج التلوي حول أفضل طريقة للجمع بين التنبؤات من meta- النموذج. بمجرد إعداد مجموعة بيانات التدريب للنموذج التلوي ، يمكن تدريب النموذج التلوي بمعزل عن مجموعة البيانات هذه ، ويمكن تدريب النماذج الأساسية على مجموعة بيانات التدريب الأصلية بالكامل. " - مشاركة مدونة
  • "من المهم أن يتم تدريب المتعلم الفوقي على مجموعة بيانات منفصلة للأمثلة المستخدمة لتدريب نماذج المستوى 0 لتجنب الإفراط في التجهيز." - منشور مدونة آخر
  • ملخص الورقة الأصلية الذي يناقش كيف يمكن النظر إلى التجميع المكدس كتعميم للتحقق المتبادل
  • لقد وجدت هذا أيضًا قراءة جيدة.

rpeck FYI ، بعد بعض التدوير ، نتبع اقتراحك 😆

dsherryrpeck @ angela97lin بدأت تبحث في هذه المسألة، ولكن يبدو أن sklearn ل StackedClassifier و StackedRegressor الطبقات القيام استخدام التحقق من صحة عبر الداخلي خلال تدريب من طراز لمنع overfitting. يبدو أن هذه هي نفس المشكلة التي نحاول حلها مع هذه المشكلة ، لذلك يبدو أنه يجب حلها. لا أعتقد أننا سنحتاج إلى إجراء طي سيرة ذاتية منفصل للتدريب / التحقق من أساليب التجميع المكدس ، ولكن ما رأيكم جميعًا؟

image

بعد المناقشة مع dsherry ، إليك الفكرة التي نريد المضي قدمًا بها

تمت مناقشة الخطة مع @ bchen1116 : مسارات هذه المشكلة:

  • إنشاء تقسيم منفصل لتدريب المعادن لتكوين خطوط الأنابيب
  • استمر في استخدام sklearn impl للتجميع المكدس

تحسين أداء منفصل: دعم أفضل للبيانات الصغيرة. لا تنشئ انقسامًا منفصلاً للجمع. استخدم مفاصل خط الأنابيب خارج العينة من السيرة الذاتية العادية (من جميع طيات السيرة الذاتية) لتدريب الفريق. # 1898

تحسين آخر منفصل للأداء: تدريب خطوط الأنابيب ومتعلم المعادن على بيانات مختلفة. # 1897

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات