Evalml: 将 Woodwork DataTables 集成到 EvalML

创建于 2020-09-25  ·  8评论  ·  资料来源: alteryx/evalml

此 Epic 跟踪与将Woodwork DataTables集成到 EvalML 相关的所有问题。

此处注意: https ://alteryx.quip.com/XedaAs9HXc9f/EvalML-Woodwork-Table-Integration
此处设计文档: https ://alteryx.quip.com/Oa4aA6h0Rf2k/Woodwork-DataTable-Integration-Design-Document

实施计划:

  • 更新 AutoML:1 周

    • 更新 AutoMLSearch 以支持 WW DataTables。 保持对 pandas 输入的支持。

    • AutoML 仍会将 pandas DF 传递给管道/组件

  • 添加有关我们期望将分类、数字和文本设置为哪些类型的文档,以便 automl 正确处理功能,并警告用户如果用户传入 pandas DataFrames / numpy 数组可能会发生什么。 2天

  • 更新管道和所有组件以接受 WW DataTables:1 周

    • 可以(并且应该)分组进行
  • 更新 AutoML 以将数据表传递给每个管道/组件,而不是 pandas DF。 1天
  • 将组件从使用 pandas dtypes 选择改为使用 DataTable 逻辑类型选择。 3天
  • 更新文档以在所有示例中使用 DataTables。 2天
  • 更新所有图形方法,即接受数据的 util 方法,以支持 DataTables。 1周

总计:3 周 3 天,然后再用 1 周时间进行绘图/实用程序。

关键日期
10 月发布时间为 10 月 27 日星期二。

目标
在 11 月 6 日星期五(4 周)之前完成所有工作。 11 月发布。

伸展目标
除了 10 月版本(10 月 27 日)完成的图形/实用程序之外的所有内容。

所有8条评论

@angela97lin :我认为我们应该放弃最初不支持的新数据表类型。 然后我们可以根据具体情况添加对这些的支持。 所以:

dt = ... # woodwork datatable as input to automl search, for example
numeric_features = dt.select('numeric')
categorical_features = dt.select('categorical')
natural_language_features = dt.select('natural_language')
# then, in order to drop unsupported types, from here on out, don't use
# the other features which may still be held in the original datatable

一个值得注意的例子:欺诈数据集使用lat/long 。 目前,它作为两个独立的浮点数传递。 短期内,我们应该只是下跌。 我想我们可以编码为两个独立的浮点数,但我怀疑它会表现良好。 从长远来看,我们将希望使用功能工具的 latlong 兼容原语来构建该类型的功能。

有道理?

@freddyaboulton今天提出了一个很好的观点:因为我们在 conda 上发布了 evalml,所以我们需要在 conda 上安装木制品,然后才能期望用户安装它。 这给我们留下了以下如何进行的选择:

  1. 找出何时将木制品添加到 conda(和/或帮助加快)。 在此之前保持任何木制品合并。 因为我们需要这样做才能发布依赖于木制品的代码。
  2. 在短期内,使 woodwork 成为“可选”依赖项,这意味着如果导入失败,我们根本不支持将 woodwork 表作为 automl 搜索的 arg。 从长远来看,对所有管道/组件fit / predict方法执行此操作感觉很笨拙,特别是如果我们无论如何都要向 conda 添加木制品,所以我们应该避免这种情况。
  3. 合并木制品支持。 evalml 的任何 conda 安装都会出现导入错误。 忍受这个,直到木制品在康达上。
  4. 合并木制品支持。 在木制品在 conda 上之前不要释放到 conda。

我是选项 1 的粉丝,即将木制品放到 conda 上,因为我相信这是我们长期想做的事情。

我看到已经有一个向 conda 添加木制品的问题。 我会跟进的。

@dsherry谢谢你! @gsheni这里提到,他们可能会在本周末附近进行更新。 那么我们应该推迟 10 月发布的合并吗?

@angela97lin是的,考虑到发布将在几天后发布,并且您也会离开一段时间,等到之后合并应该不会太麻烦。

只是在与@angela97lin@freddyaboulton谈论木制品升级。 以下是我们列出的当前未完成/正在进行中的内容:

  • 更新数据检查(进行中)
  • 更新所有组件以在适用的情况下使用木制品类型 (#1290)
  • 更新模型理解方法
  • 从管道/组件transform / predict以及我们返回用户输入数据的副本或扩展的任何地方返回木制品而不是熊猫。
  • 更新我们的旧 dtype 列表和所有用法以使用木制品类型

@angela97lin我错过了什么吗?

@dsherry看起来不错!

  • 更新文档以使用 Woodwork(进行中,#1466)
  • 更新数据检查(正​​在进行中,#1481)
  • 更新模型理解方法 + 文档中未涵盖的图形
  • 从管道/组件transform / predict以及我们返回用户输入数据的副本或扩展的任何地方返回木制品而不是熊猫(#1406)
  • 更新我们的旧 dtype 列表和所有用法以使用木制品类型 #1290

@angela97lin太棒了,谢谢!

@chukarsten @dsherry与此 Epic 相关的所有问题都已关闭! 关闭此 Epic 并仅跟踪孤立出现的 WW 问题是否安全? :)

此页面是否有帮助?
0 / 5 - 0 等级

相关问题

bchen1116 picture bchen1116  ·  4评论

SydneyAyx picture SydneyAyx  ·  3评论

freddyaboulton picture freddyaboulton  ·  3评论

dsherry picture dsherry  ·  3评论

chukarsten picture chukarsten  ·  4评论