Evalml: 数据检查API

创建于 2019-09-09  ·  11评论  ·  资料来源: alteryx/evalml

所有11条评论

检测异常值(可能还可以选择删除?)

毯子应用护栏与模型或特定问题的护栏?

我重新利用这个史诗来引用数据检查 API 项目(以前称为“Guard Rails API”)。

@angela97lin@kmax12和我刚刚见面讨论如何处理这个项目。 我们决定:

  • 更改项目范围

    • 设计用于指定数据检查的 API,这会导致错误/警告

    • 根据这些错误/警告采取行动目前超出了范围,并且可能是未来的一个项目

  • 将名称从“Guard Rails”更改为“Data Check”,因为我们觉得这更具描述性
  • @angela97lin将存档旧的护栏设计文档,并创建一个具有新范围的新

@angela97lin我刚刚完成了新的设计文档。 好东西! 它看起来棒极了。

我留下了一些意见和建议,但从我的角度来看,这是可以实施的! 令人兴奋👏

我认为一旦您有机会查看我的评论,下一步应该是为实施计划中的每项任务创建一个问题,并将它们附加到这个史诗中。 让我们也清理一下这部史诗中目前存在的问题。 乍一看,我认为我们可以将它们移到冰箱中或关闭它们。

@angela97lin和我刚刚再次审查了新的设计文档,并解决了一些设计细节。 和以前一样:下一步是创建问题并将它们附加到这个史诗中。 很酷!

来自#509:

我们不希望人们使用“mean”/“median”作为字符串类型的 impute_strategy。 添加某种数据检查来解决这个问题可能会很好?

从 #504: 移动 _check_multiclass 到数据检查:)

@angela97lin和我刚刚再次审查了设计并做了一些最后的调整。 我们更新了实施计划(目前总共为 4 周)并提交了与此史诗相关的问题。

该项目已准备好实施!

@angela97lin将于周一开始这个项目。 我们的目标完成日期是 5 月 25 日星期一,正好赶上 2020 年 5 月的发布!

我们还清理了这部史诗的老问题。 有些作为未来功能被启动到冰箱中,而其他(将通过数据检查修复的错误)在这部史诗中被标记为已阻止。

@angela97lin和我刚刚讨论过:我们没有在设计中包含任何方式来向直接使用 automl 搜索的用户(在 python 中)获取数据检查结果。

为此,我们讨论了两种选择:
1)让AutoSearchBase.search返回类似{'status': 'complete'} ,然后如果数据检查失败,我们可以包含{'status': 'error', 'data_checks': [..]}
2)让AutoSearchBase.search内部保存结果并公开一个latest_data_check_results getter(不打算作为最终名称)来获取它们。 然后引发异常以明确表示存在问题。

我们更喜欢第二个选项,所以我们会继续。 感觉更符合我们现有的设计模式 a) 错误代码的异常和 b) 将AutoSearchBase对象作为状态容器而不是一次性使用对象。

这是我们在调用时模拟的一些代码,打算在运行真正搜索的主while循环之前进入AutoSearchBase.search

        data_check_results = checks.validate(X, y)
        # option 1
        if len(data_check_results) > 0:
            logger.error('Data checks found problems')
            return {'status': 'error', 'data_check_results': data_check_results}
        # option 2
        if len(data_check_results) > 0:
            logger.error('Data checks found problems')
            self._latest_data_check_results = data_check_results
            raise SearchException('One or more data checks failed. Look at latest_data_check_results')

        <strong i="20">@property</strong>
        def latest_data_check_results(self):
            return self._latest_data_check_results

@angela97lin :我们目前的计划是从今天起一周发布 5 月版本。 你认为我们能及时合并#709 和#370 吗? 如果没有,您认为需要多长时间? 我们可以轻松地将 #710 放到下一个版本。

@angela97lin在 5 月的版本中合并了大部分内容! 剩下的唯一问题是#710。 所以,结束这个史诗般的🎉

此页面是否有帮助?
0 / 5 - 0 等级