Evalml: دمج Woodwork DataTables في EvalML

تم إنشاؤها على ٢٥ سبتمبر ٢٠٢٠  ·  8تعليقات  ·  مصدر: alteryx/evalml

تتعقب هذه الملحمة جميع المشكلات المتعلقة بدمج Woodwork DataTables في EvalML.

ملاحظات هنا: https://alteryx.quip.com/XedaAs9HXc9f/EvalML-Woodwork-Table-Integration
مستند التصميم هنا: https://alteryx.quip.com/Oa4aA6h0Rf2k/Woodwork ShareTable-Integration-Design-Document

خطة التنفيذ:

  • تحديث AutoML: أسبوع واحد

    • قم بتحديث AutoMLSearch لدعم WW DataTables. الحفاظ على الدعم لإدخال الباندا.

    • سيستمر AutoML في تمرير DFs الباندا إلى خطوط الأنابيب / المكونات

  • أضف وثائق حول الأنواع التي نتوقع أن يتم تعيينها فئويًا ورقميًا ونصًا حتى يتمكن automl من التعامل مع الميزات بشكل صحيح ، وكذلك تحذير المستخدمين مما قد يحدث إذا مر المستخدمون في pandas DataFrames / numpy arrays. 2 أيام

  • تحديث خطوط الأنابيب وجميع المكونات لقبول WW DataTables: أسبوع واحد

    • يمكن (وينبغي) القيام به في مجموعات
  • قم بتحديث AutoML لتمرير جداول البيانات إلى كل خط أنابيب / مكون بدلاً من pandas DF. يوم 1
  • قم بتحديث المكونات من التحديد باستخدام أنواع الباندا إلى التحديد باستخدام الأنواع المنطقية DataTable بدلاً من ذلك. 3 أيام
  • قم بتحديث الوثائق لاستخدام DataTables في جميع الأمثلة. 2 أيام
  • قم بتحديث جميع طرق الرسم البياني ، واستخدام الطرق التي تقبل البيانات ، لدعم DataTables. أسبوع 1

المجموع: 3 أسابيع 3 أيام ، ثم أسبوع آخر للقيام بالرسوم البيانية / الأدوات.

التواريخ الرئيسية
إصدار أكتوبر هو الثلاثاء 27 أكتوبر.

المرمى
أكمل الكل بحلول الجمعة 6 نوفمبر (4 أسابيع). الشحن في إصدار نوفمبر.

امتداد الهدف
كل شيء باستثناء الرسوم البيانية / الأدوات التي تم إجراؤها بواسطة إصدار أكتوبر (27 أكتوبر).

epic

ال 8 كومينتر

@ angela97lin : أعتقد أننا يجب أن نتخلى عن أنواع جداول بيانات جديدة لن ندعمها في البداية. ثم يمكننا إضافة الدعم لهؤلاء على أساس كل حالة على حدة. لذا:

dt = ... # woodwork datatable as input to automl search, for example
numeric_features = dt.select('numeric')
categorical_features = dt.select('categorical')
natural_language_features = dt.select('natural_language')
# then, in order to drop unsupported types, from here on out, don't use
# the other features which may still be held in the original datatable

مثال بارز: تستخدم مجموعة بيانات الاحتيال خطوط الطول / العرض . حاليًا ، يتم تمرير ذلك في صورة طائرتين مستقلتين. على المدى القصير ، يجب أن نتراجع. أفترض أنه يمكننا الترميز إلى طائرتين مستقلتين ، لكني أشك في أن ذلك سيحقق أداءً جيدًا. على المدى الطويل ، سنرغب في استخدام العناصر الأولية المتوافقة مع أدوات Latlong لإنشاء ميزات لهذا النوع.

هذا معقول؟

أثارfreddyaboulton نقطة جيدة اليوم: نظرًا لأننا نشحن Evalml على conda ، فنحن بحاجة إلى أن تكون الأعمال الخشبية على conda قبل أن نتوقع أن يقوم المستخدمون بتثبيتها. يترك لنا ذلك الخيارات التالية لكيفية المتابعة:

  1. اكتشف متى ستتم إضافة الأعمال الخشبية إلى Conda (و / أو المساعدة في تسريع ذلك). امسك أي أعمال دمج خشبية حتى ذلك الحين. لأننا نحتاج إلى فعل ذلك من أجل إصدار كود يعتمد على الأعمال الخشبية.
  2. على المدى القصير ، اجعل الأعمال الخشبية تبعية "اختيارية" ، مما يعني أنه في حالة فشل الاستيراد ، فإننا ببساطة لا ندعم جداول الأعمال الخشبية كحجة للبحث الآلي. على المدى الطويل ، من الصعب القيام بذلك لجميع أساليب خطوط الأنابيب / المكون fit / predict ، خاصة إذا كنا سنضيف أعمال خشبية إلى conda على أي حال ، لذلك يجب أن نتجنب ذلك.
  3. دمج دعم الأعمال الخشبية. أي تثبيت conda لـ Evalml سيكون به أخطاء استيراد. عش مع هذا حتى تصبح الأعمال الخشبية في كوندا.
  4. دمج دعم الأعمال الخشبية. لا تفرج إلى كوندا حتى تصبح الأعمال الخشبية في كوندا.

أنا معجب بالخيار 1 ، أي الحصول على أعمال خشبية في Conda ، لأنني أعتقد أن هذا ما نريد القيام به على المدى الطويل.

أرى أن هناك بالفعل مشكلة مرفوعة لإضافة الأعمال الخشبية إلى Conda. سأتابع.

dsherry شكرا لهذا! ذكر gsheni هنا أنه من المحتمل أن يكون لديهم تحديث قرب نهاية الأسبوع. هل يجب أن نؤجل الدمج لإصدار أكتوبر إذن؟

@ angela97lin ، حسنًا ، نظرًا لأن الإصدار في غضون أيام قليلة ، وأنك ستخرج قليلاً أيضًا ، فلن يكون هناك الكثير من المتاعب في انتظار الدمج حتى بعد ذلك.

كنت أتحدث مع @ angela97lin و freddyaboulton حول ترقية الأعمال الخشبية. إليك ما أدرجناه على أنه معلق حاليًا / على متن الطائرة:

  • تحديث عمليات التحقق من البيانات (قيد التقدم)
  • قم بتحديث جميع المكونات لاستخدام أنواع الأعمال الخشبية حيثما أمكن (# 1290)
  • تحديث طرق فهم النموذج
  • إعادة الأعمال الخشبية بدلاً من الباندا من خط الأنابيب / المكون transform / predict ، وفي أي مكان نعيد نسخة أو امتداد من البيانات التي أدخلها المستخدم.
  • قم بتحديث قوائم dtype القديمة وجميع الاستخدامات لاستخدام أنواع الأعمال الخشبية

@ angela97lin هل فاتني أي شيء؟

dsherry هذا يبدو عن الحق!

  • تحديث الوثائق لاستخدام Woodwork (قيد التقدم ، رقم 1466)
  • تحديث عمليات تدقيق البيانات (قيد التقدم ، # 1481)
  • تحديث طرق فهم النموذج + الرسوم البيانية غير المشمولة في الوثائق
  • إعادة الأعمال الخشبية بدلاً من الباندا من خط الأنابيب / المكون transform / predict ، وفي أي مكان نعيد نسخة أو امتداد البيانات التي أدخلها المستخدم (# 1406)
  • قم بتحديث قوائم الأنواع القديمة الخاصة بنا وجميع الاستخدامات لاستخدام أنواع الأعمال الخشبية # 1290

@ angela97lin رهيبة ، شكرا!

chukarstendsherry تم إغلاق كافة المشكلات المرتبطة بهذه الملحمة! هل من الآمن إغلاق هذه الملحمة وتتبع مشكلات الحرب العالمية الأولى التي تظهر بمعزل عن غيرها؟ :)

هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات