Cet Epic suit tous les problèmes liés à l'intégration de Woodwork DataTables dans EvalML.
Remarques ici : https://alteryx.quip.com/XedaAs9HXc9f/EvalML-Woodwork-Table-Integration
Doc de conception ici : https://alteryx.quip.com/Oa4aA6h0Rf2k/Woodwork-DataTable-Integration-Design-Document
Plan de mise en œuvre:
Ajoutez de la documentation sur les types que nous attendons des catégories, des nombres et du texte pour qu'automl traite correctement les fonctionnalités, et avertissez les utilisateurs de ce qui peut arriver si les utilisateurs transmettent des tableaux pandas DataFrames / numpy. 2 jours
Mettre à jour les pipelines et tous les composants pour accepter WW DataTables : 1 semaine
Total : 3 semaines 3 jours, puis 1 semaine de plus pour faire des graphiques/utilitaires.
Dates clés
La sortie d'octobre est le mardi 27 octobre.
Objectif
Complétez le tout avant le vendredi 6 novembre (4 semaines). Expédier dans la version de novembre.
Objectif étendu
Tout sauf les graphiques/utilitaires réalisés par la version d'octobre (27 octobre).
@angela97lin : Je pense que nous devrions supprimer de nouveaux types de table de données que nous ne prendrons pas en charge initialement. Ensuite, nous pouvons ajouter un support pour ceux-ci au cas par cas. Alors:
dt = ... # woodwork datatable as input to automl search, for example
numeric_features = dt.select('numeric')
categorical_features = dt.select('categorical')
natural_language_features = dt.select('natural_language')
# then, in order to drop unsupported types, from here on out, don't use
# the other features which may still be held in the original datatable
Un exemple notable : l'ensemble de données sur la fraude utilise lat/long . Actuellement, il ne passe qu'en deux flotteurs indépendants. À court terme, nous devrions simplement laisser tomber. Je suppose que nous pourrions encoder deux flottants indépendants, mais je doute que cela fonctionne bien. À long terme, nous voudrons utiliser les primitives compatibles latlong de featuretools pour créer des fonctionnalités pour ce type.
C'est logique?
@freddyaboulton a soulevé un bon point aujourd'hui : parce que nous expédions evalml sur conda, nous avons besoin que les boiseries soient sur conda avant de pouvoir nous attendre à ce que les utilisateurs l'installent. Cela nous laisse les options suivantes pour savoir comment procéder :
fit
/ predict
, surtout si nous allons de toute façon ajouter des boiseries à conda, nous devrions donc éviter cela.Je suis un fan de l'option 1, c'est-à-dire installer des boiseries sur conda, car je pense que c'est ce que nous voudrons faire à long terme.
Je vois qu'il y a déjà un problème pour l'ajout de boiseries à conda. Je vais suivre.
@dsherry Merci pour cela ! @gsheni a mentionné ici qu'ils auront probablement une mise à jour vers la fin de la semaine. Devrions-nous alors attendre la fusion pour la version d'octobre ?
@angela97lin oui , étant donné que la sortie est dans quelques jours, et que vous serez également absent un peu, cela ne devrait pas être trop difficile d'attendre pour fusionner après.
Je discutais juste avec @angela97lin et @freddyaboulton à propos de la mise à niveau des boiseries. Voici ce que nous avons répertorié comme actuellement en attente / en vol :
transform
/ predict
, et partout où nous renvoyons une copie ou une extension des données saisies par l'utilisateur.@angela97lin ai-je raté quelque chose ?
@dsherry Cela semble à peu près correct !
transform
/ predict
, et partout où nous renvoyons une copie ou une extension des données saisies par l'utilisateur (#1406)@angela97lin génial, merci !
@chukarsten @dsherry Tous les problèmes associés à cet Epic ont été résolus ! Est-il prudent de fermer cet Epic et de suivre uniquement les problèmes WW qui surviennent isolément ? :)