# 1732 يقوم بتحديث خط الأنابيب التجميعي المكدس الخاص بنا لاستخدام نفس أداة تقسيم البيانات المستخدمة في AutoML
.تابعنا مع # 1732 لأننا اعتقدنا أنه لا يزال يمثل تحسينًا على نهجنا الحالي (الافتراضي scikit-Learn).
تتعقب هذه المشكلة التحديثات طويلة المدى التي قد نرغب في إجرائها لمقسم البيانات الخاص بنا للتكديس في AutoML.
تحديث: أثناء الاستمرار في تحديث # 1732 ، واجهنا لغزًا في التفاعل بين التكديس و AutoML مما جعلنا نعيد النظر فيما إذا كان من الجيد حقًا استخدام نفس تقسيم البيانات لمجموعة التراص كما نستخدمها في AutoML. قررنا لا ، وكما أشار ريموند ، ربما نريد استخدام سيرة ذاتية منفصلة لمجموعتنا. (ذكر dsherry أيضًا مجموعة جيدة من المعلومات التي تفيد بأن استخدام التجميع يسمح للنموذج بوضع أهمية أقل على النماذج الأكثر تعقيدًا ، لذلك ربما تساعد السيرة الذاتية في ذلك - يرجى تصحيح لي إذا أعيدت صياغتها بشكل غير صحيح 😂).
بدلاً من الاستمرار في هذا العمل بعد ذلك ، يجب أن نستخدم هذه المشكلة لمناقشة تحديث AutoML للتكديس: على وجه التحديد ، يجب علينا إنشاء تقسيم منفصل للسيرة الذاتية للتجميع المكدس. سيكون هذا مشابهًا لما لدينا حاليًا لضبط العتبة الثنائية.
الخطة: إذا تم تمكين التكديس ، فسننشئ تقسيمًا منفصلاً يمكن تمريره إلى التجميع المكدس للسيرة الذاتية
قد يكون من الرائع النظر في الدعم باستخدام التنبؤات خارج العينة (تقسيم التحقق من السيرة الذاتية الأصلية) أثناء تمرير البيانات إلى التكديس. ومع ذلك ، أقترح أن نبدأ بالنهج الأبسط المتمثل في إنشاء تقسيم منفصل فقط إذا تم تمكين التكديس.
إعادة مناقشتنا ، بعض الأدلة الداعمة لماذا يجب علينا حجب انقسام منفصل يمكن أن تستخدمه المجموعة المكدسة لأداء السيرة الذاتية:
rpeck FYI ، بعد بعض التدوير ، نتبع اقتراحك 😆
dsherryrpeck @ angela97lin بدأت تبحث في هذه المسألة، ولكن يبدو أن sklearn ل StackedClassifier
و StackedRegressor
الطبقات القيام استخدام التحقق من صحة عبر الداخلي خلال تدريب من طراز لمنع overfitting. يبدو أن هذه هي نفس المشكلة التي نحاول حلها مع هذه المشكلة ، لذلك يبدو أنه يجب حلها. لا أعتقد أننا سنحتاج إلى إجراء طي سيرة ذاتية منفصل للتدريب / التحقق من أساليب التجميع المكدس ، ولكن ما رأيكم جميعًا؟
بعد المناقشة مع dsherry ، إليك الفكرة التي نريد المضي قدمًا بها
تمت مناقشة الخطة مع @ bchen1116 : مسارات هذه المشكلة:
تحسين أداء منفصل: دعم أفضل للبيانات الصغيرة. لا تنشئ انقسامًا منفصلاً للجمع. استخدم مفاصل خط الأنابيب خارج العينة من السيرة الذاتية العادية (من جميع طيات السيرة الذاتية) لتدريب الفريق. # 1898
تحسين آخر منفصل للأداء: تدريب خطوط الأنابيب ومتعلم المعادن على بيانات مختلفة. # 1897
التعليق الأكثر فائدة
الخطة: إذا تم تمكين التكديس ، فسننشئ تقسيمًا منفصلاً يمكن تمريره إلى التجميع المكدس للسيرة الذاتية
قد يكون من الرائع النظر في الدعم باستخدام التنبؤات خارج العينة (تقسيم التحقق من السيرة الذاتية الأصلية) أثناء تمرير البيانات إلى التكديس. ومع ذلك ، أقترح أن نبدأ بالنهج الأبسط المتمثل في إنشاء تقسيم منفصل فقط إذا تم تمكين التكديس.
إعادة مناقشتنا ، بعض الأدلة الداعمة لماذا يجب علينا حجب انقسام منفصل يمكن أن تستخدمه المجموعة المكدسة لأداء السيرة الذاتية:
rpeck FYI ، بعد بعض التدوير ، نتبع اقتراحك 😆