此 Epic 跟踪与将Woodwork DataTables集成到 EvalML 相关的所有问题。
此处注意: https ://alteryx.quip.com/XedaAs9HXc9f/EvalML-Woodwork-Table-Integration
此处设计文档: https ://alteryx.quip.com/Oa4aA6h0Rf2k/Woodwork-DataTable-Integration-Design-Document
实施计划:
添加有关我们期望将分类、数字和文本设置为哪些类型的文档,以便 automl 正确处理功能,并警告用户如果用户传入 pandas DataFrames / numpy 数组可能会发生什么。 2天
更新管道和所有组件以接受 WW DataTables:1 周
总计:3 周 3 天,然后再用 1 周时间进行绘图/实用程序。
关键日期
10 月发布时间为 10 月 27 日星期二。
目标
在 11 月 6 日星期五(4 周)之前完成所有工作。 11 月发布。
伸展目标
除了 10 月版本(10 月 27 日)完成的图形/实用程序之外的所有内容。
@angela97lin :我认为我们应该放弃最初不支持的新数据表类型。 然后我们可以根据具体情况添加对这些的支持。 所以:
dt = ... # woodwork datatable as input to automl search, for example
numeric_features = dt.select('numeric')
categorical_features = dt.select('categorical')
natural_language_features = dt.select('natural_language')
# then, in order to drop unsupported types, from here on out, don't use
# the other features which may still be held in the original datatable
一个值得注意的例子:欺诈数据集使用lat/long 。 目前,它作为两个独立的浮点数传递。 短期内,我们应该只是下跌。 我想我们可以编码为两个独立的浮点数,但我怀疑它会表现良好。 从长远来看,我们将希望使用功能工具的 latlong 兼容原语来构建该类型的功能。
有道理?
@freddyaboulton今天提出了一个很好的观点:因为我们在 conda 上发布了 evalml,所以我们需要在 conda 上安装木制品,然后才能期望用户安装它。 这给我们留下了以下如何进行的选择:
fit
/ predict
方法执行此操作感觉很笨拙,特别是如果我们无论如何都要向 conda 添加木制品,所以我们应该避免这种情况。我是选项 1 的粉丝,即将木制品放到 conda 上,因为我相信这是我们长期想做的事情。
我看到已经有一个向 conda 添加木制品的问题。 我会跟进的。
@dsherry谢谢你! @gsheni在这里提到,他们可能会在本周末附近进行更新。 那么我们应该推迟 10 月发布的合并吗?
@angela97lin是的,考虑到发布将在几天后发布,并且您也会离开一段时间,等到之后合并应该不会太麻烦。
只是在与@angela97lin和@freddyaboulton谈论木制品升级。 以下是我们列出的当前未完成/正在进行中的内容:
transform
/ predict
以及我们返回用户输入数据的副本或扩展的任何地方返回木制品而不是熊猫。@angela97lin我错过了什么吗?
@dsherry看起来不错!
transform
/ predict
以及我们返回用户输入数据的副本或扩展的任何地方返回木制品而不是熊猫(#1406)@angela97lin太棒了,谢谢!
@chukarsten @dsherry与此 Epic 相关的所有问题都已关闭! 关闭此 Epic 并仅跟踪孤立出现的 WW 问题是否安全? :)