このEpicは、 WoodworkDataTablesをEvalMLに統合することに関連するすべての問題を追跡します。
ここでのメモ: https ://alteryx.quip.com/XedaAs9HXc9f/EvalML-Woodwork-Table-Integration
ここでの設計ドキュメント: https ://alteryx.quip.com/Oa4aA6h0Rf2k/Woodwork-DataTable-Integration-Design-Document
実行計画:
automlが機能を正しく処理するために、カテゴリ、数値、およびテキストが設定されると予想されるタイプに関するドキュメントを追加し、ユーザーがpandas DataFrames / numpy配列を渡した場合に何が起こるかをユーザーに警告します。 2日
パイプラインとすべてのコンポーネントを更新して、WW DataTablesを受け入れます:1週間
合計:3週間3日、さらに1週間でグラフ化/ユーティリティを実行します。
重要な日付
10月のリリースは10月27日火曜日です。
ゴール
11月6日(金)(4週間)までにすべて完了してください。 11月リリースで出荷。
ストレッチゴール
10月のリリース(10月27日)までに行われたグラフ化/ユーティリティを除くすべて。
@ angela97lin :最初はサポートしない新しいデータテーブルタイプを削除する必要があると思います。 次に、ケースバイケースでそれらのサポートを追加できます。 そう:
dt = ... # woodwork datatable as input to automl search, for example
numeric_features = dt.select('numeric')
categorical_features = dt.select('categorical')
natural_language_features = dt.select('natural_language')
# then, in order to drop unsupported types, from here on out, don't use
# the other features which may still be held in the original datatable
注目すべき例:詐欺データセットはlat / longを使用しています。 現在、それは2つの独立したフロートとして渡されます。 短期的には、私たちはただドロップする必要があります。 2つの独立したフロートにエンコードできると思いますが、それがうまく機能するとは思えません。 長期的には、featuretoolsのlatlong互換プリミティブを使用して、そのタイプの機能を構築する必要があります。
意味がある?
@freddyaboultonは今日、良い点を挙げました。evalmlはcondaで出荷されるため、ユーザーがインストールすることを期待する前に、木工品をcondaに配置する必要があります。 これにより、続行する方法について次のオプションが残ります。
fit
/ predict
メソッドでこれを行うのは厄介だと感じます。特に、とにかく木工品をコンダに追加する場合は、これを避ける必要があります。私はオプション1、つまり木工品をコンダに乗せるのが好きです。それが私たちが長期的にやりたいことだと信じているからです。
コンダに木工品を追加するための問題がすでに提出されているようです。 フォローアップします。
@dsherryありがとうございます! @gsheniはここで、週末近くに更新がある可能性が高いと述べました。 それでは、10月のリリースのためにマージを延期する必要がありますか?
@ angela97linうん、リリースが数日であり、あなたも少しの間外出することを考えると、その後までマージするのを待つのはそれほど問題ではないはずです。
木工品のアップグレードについて@ angela97linと@freddyaboultonとチャットしていました。 現在未処理/機内としてリストされているものは次のとおりです。
transform
/ predict
からパンダの代わりに木工品を返し、ユーザーが入力したデータのコピーまたは拡張をどこにでも返します。@ angela97lin私は何かを逃しましたか?
@dsherryそれはほぼ正しいようです!
transform
/ predict
からパンダの代わりに木工品を返し、ユーザーが入力したデータのコピーまたは拡張を返す場所(#1406)@ angela97lin素晴らしい、ありがとう!
@chukarsten @dsherryこのエピックに関連するすべての問題は解決されました! このエピックを閉じて、単独で発生するWWの問題を追跡して安全ですか? :)