Evalml: أعد تمكين ضبط عتبة التصنيف الثنائي افتراضيًا

تم إنشاؤها على ١٥ أبريل ٢٠٢٠ · 17تعليقات · مصدر: alteryx/evalml

لقد أضفنا هذه الميزة إلى فرع الميزة # 346 ، ثم قمنا بتثبيتها في # 606 لأنها كانت تعيد حساب predict وتبطئ automl.

يجب علينا إعادة تمكين هذا بشكل افتراضي. للقيام بذلك ، سيتعين علينا تخزين إخراج التنبؤ مؤقتًا ، والذي يتم حسابه حاليًا في النتيجة. الحل طويل المدى هو حفظ التنبؤات باستخدام ذاكرة التخزين المؤقت (# 466) ، ولكن على المدى القصير يجب أن نكون قادرين على فعل شيء ما.

يتعلق هذا أيضًا بالرقم 579 ، الذي يتتبع تنظيف الكود المكرر بين طرق فئات خطوط الأنابيب ' score .

enhancement

مصدر

dsherry

ال 17 كومينتر

أود أن أتحرك في هذا الأسبوع المقبل. لقد كنت أبحث عن طريقتين مختلفتين للقيام بالتخزين المؤقت واختبرت بعض الأشياء محليًا.

dsherry في ١٧ أبريل ٢٠٢٠

لا ينبغي أن نفعل هذا حتى نحصل على أفضل لاعب في اختبار الأداء

dsherry في ٢٦ مايو ٢٠٢٠

الآن بعد أن أصبح لدينا أفضل لاعب في اختبارات الأداء ، يجب علينا القيام بذلك! جاء هذا كجزء من # 1024.

angela97lin في ٥ أغسطس ٢٠٢٠

👍1

@ angela97lin شكرا لك! نعم بالتأكيد.

الخطوة التالية هي إنشاء مقارنة أداء قبل مقابل بعد في بعض مشاكل التصنيف الثنائي.

dsherry في ٦ أغسطس ٢٠٢٠

اعتبارات إضافية

لا ينبغي تغيير فقدان السجل (الهدف الافتراضي لفئة bin) و AUC على الإطلاق من خلال هذا ، لأنهما لا يعرفان العتبة. لكن المقاييس الأخرى مثل F1 يجب أن تتحسن بالتأكيد. سيكون من الجميل إلقاء نظرة على القليل.
سوف يستغرق وقت المناسب ضربة. السؤال هو ، ما مدى سوء الضربة؟ لا أتوقع زيادة بنسبة 10-20٪.
يمكننا تجربة مسح حجم تقسيم تحديد العتبة. يمكن أن يؤدي ذلك إلى تحسين دقة التعليق عن طريق منع الإفراط في التجهيز / عدم الملائمة. تؤدي زيادة حجم تقسيم ضبط العتبة إلى تقليل حجم تقسيم التدريب ، مما يؤدي إلى وقت مناسب أسرع

العمل المستقبلي

ليس لدينا حاليًا أي ضمانات لهذا حول حجم البيانات. هذا ينطبق على مجموعة التدريب بشكل عام ، لذلك يجب علينا تقديم مشكلة منفصلة.

dsherry في ٦ أغسطس ٢٠٢٠

قلت في الكتابة الأصلية في أبريل

سيتعين علينا تخزين إخراج التنبؤ مؤقتًا ، والذي يتم حسابه حاليًا في النتيجة.

أعتقد أن هذا لا ينطبق بعد الآن ، ويمكن تجاهله. تم ترك هذا التعليق من قبل إعادة هيكلة score . بالإضافة إلى أننا نقوم بتحسين العتبة على تقسيم منفصل ، لذلك لا يوجد شيء للتخزين المؤقت. تضمين التغريدة

dsherry في ١٩ أغسطس ٢٠٢٠

👍1

dsherry @ angela97lin قمت بتجميع الأقسام القليلة الأولى من مستند التحليل هنا . هل يمكنك إخباري برأيك (اقرأ فقط حتى قسم التجارب - كل شيء آخر لا يزال عنصرًا نائبًا)؟

freddyaboulton في ١٩ أغسطس ٢٠٢٠

👍1

freddyaboulton لقد تركت للتو بعض التعليقات. يجب أن ننظر بالتأكيد إلى فقد السجل ، والذي يجب أن يوضح عدم وجود تغيير على الأقل في الدفعة الأولى. ومع ذلك ، أعتقد أننا يجب أن نحاول أيضًا تحسين F1 أو أي شيء آخر حساس للعتبة ، حتى نتمكن من رؤية تأثير تمكين الضبط.

dsherry في ١٩ أغسطس ٢٠٢٠

freddyaboulton آسف ، لقد

dsherry في ١٩ أغسطس ٢٠٢٠

freddyaboulton لمعلوماتك منذ أن نشرت

dsherry في ١٩ أغسطس ٢٠٢٠

👍1

dsherry @ angela97lin انتهيت من تحليلي لملف "datasets_small_0.yaml".

باختصار ، انخفض الأداء فعليًا بعد ضبط العتبة - هل يمكن أن يكون ذلك بسبب عدم استخدامنا الانقسام الطبقي لضبط العتبة؟

freddyaboulton في ٢٢ أغسطس ٢٠٢٠

freddyaboulton أوه ، نعم ، يمكن أن يكون.

لقد راجعت المستند الخاص بك وتركت التعليقات. أنا أحب الرسوم البيانية والإحصائيات الجديدة. يجب أن نجد طرقًا لإضافتها مرة أخرى إلى looking_glass/analysis/ حتى نتمكن من إعادة استخدامها. على الرغم من عدم الضغط.

بعض الخيارات التي تتبادر إلى الذهن خارج القمة:

استخدم التقسيم الطبقي لتقسيم الحد الأمثل
افرض حدًا أدنى لعدد الصفوف لتقسيم الحد الأمثل. إذا كان هذا غير قابل للتحقيق ، يمكن أن يحذر ولا يحدد عتبة ، أو يمكن أن يخطئ
بالنسبة لمجموعات البيانات الأصغر ، استخدم بيانات التدريب بأكملها كتقسيم عتبة التحسين ، وزيادة المخاطر

أعتقد أننا يجب أن نحاول التحول إلى أخذ العينات الطبقية أولاً ونرى ما يفعله ذلك.

شيء آخر يجب تجربته هو تبديل حجم الانقسام من 80٪ تدريب 20٪ عتبة الأمثل إلى 50٪ تدريب 50٪ عتبة التحسين. أشك في أن هذا سيكون جيدًا ولكن من السهل المحاولة وسيكون من المثير للاهتمام رؤيته.

dsherry في ٢٢ أغسطس ٢٠٢٠

نظرًا لأن jeremyliweishih يلتقط الرقم 1049 ، freddyaboulton ، فقد ترغب في تسليم هذا إليه. سأترك لكما اثنين من معرفة ذلك :)

dsherry في ٢٧ أغسطس ٢٠٢٠

👍1

freddyaboulton أنت لا تعمل على هذا ، أليس كذلك؟ هل يستطيع jeremyliweishih أن يأخذها؟

dsherry في ٢٥ سبتمبر ٢٠٢٠

jeremyliweishihdsherry يرجى أخذ ذلك! أظهر التحليل الأولي أن تمكين الضبط ببساطة لا يحسن النتائج. قد يساعد استخدام إستراتيجية مختلفة لتقسيم البيانات!

freddyaboulton في ٢٥ سبتمبر ٢٠٢٠

👍1

العودة إلى Dev Backlog وسوف نتابع ذلك بعد المزيد من عمل تقسيم البيانات.

jeremyliweishih في ٢٩ سبتمبر ٢٠٢٠

@ bchen1116 وناقشت ، ونشعر أن هذا ضروري لـ # 973

dsherry في ٨ مارس ٢٠٢١

هل كانت هذه الصفحة مفيدة؟

0 / 5 - 0 التقييمات

القضايا ذات الصلة

AutoML: استخدم تقسيم السيرة الذاتية المنفصل للتجميع

angela97lin · 4تعليقات

احصل على الملاءمة التلقائية لأفضل خط أنابيب على بيانات التدريب بالكامل

dsherry · 3تعليقات

قم بتحديث خط الأنابيب والمكونات لإرجاع هياكل بيانات Woodwork

angela97lin · 5تعليقات

أداء ضعيف في مجموعة البيانات الماسية

dsherry · 3تعليقات

فشل تشغيل AutoML على Iris Dataset

SydneyAyx · 3تعليقات