Evalml: 当分类或布尔列中没有 None 时,Imputer 无法容纳

创建于 2020-08-19  ·  3评论  ·  资料来源: alteryx/evalml

再生器

from evalml.pipelines.components import Imputer
df = pd.DataFrame({"a": [1, 2, 3], "b": ["1", "2", None]})
imputer = Imputer()
imputer.fit(df)
from evalml.pipelines.components import Imputer
df_with_bool = pd.DataFrame({"a": [1, 2, 3], "b": [True, False, None]})
imputer = Imputer()
imputer.fit(df_with_bool)

两者都有相同的堆栈跟踪:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-69-9af4cfc17aec> in <module>
      1 df_with_bool = pd.DataFrame({"a": [1, 2, 3], "b": [True, False, None]})
      2 imputer = Imputer()
----> 3 imputer.fit(df_with_bool)

~/sources/evalml/evalml/utils/base_meta.py in _set_fit(self, X, y)
     12         @wraps(method)
     13         def _set_fit(self, X, y=None):
---> 14             return_value = method(self, X, y)
     15             self._is_fitted = True
     16             return return_value

~/sources/evalml/evalml/pipelines/components/transformers/imputers/imputer.py in fit(self, X, y)
     76         X_categorical = X_null_dropped.select_dtypes(include=categorical_dtypes + boolean)
     77         if len(X_categorical.columns) > 0:
---> 78             self._categorical_imputer.fit(X_categorical, y)
     79             self._categorical_cols = X_categorical.columns
     80         return self

~/sources/evalml/evalml/utils/base_meta.py in _set_fit(self, X, y)
     12         @wraps(method)
     13         def _set_fit(self, X, y=None):
---> 14             return_value = method(self, X, y)
     15             self._is_fitted = True
     16             return return_value

~/sources/evalml/evalml/pipelines/components/transformers/imputers/simple_imputer.py in fit(self, X, y)
     42         if not isinstance(X, pd.DataFrame):
     43             X = pd.DataFrame(X)
---> 44         self._component_obj.fit(X, y)
     45         self._all_null_cols = set(X.columns) - set(X.dropna(axis=1, how='all').columns)
     46         return self

~/miniconda3/envs/evalml/lib/python3.8/site-packages/sklearn/impute/_base.py in fit(self, X, y)
    300                                                     fill_value)
    301         else:
--> 302             self.statistics_ = self._dense_fit(X,
    303                                                self.strategy,
    304                                                self.missing_values,

~/miniconda3/envs/evalml/lib/python3.8/site-packages/sklearn/impute/_base.py in _dense_fit(self, X, strategy, missing_values, fill_value)
    384                 row_mask = np.logical_not(row_mask).astype(np.bool)
    385                 row = row[row_mask]
--> 386                 most_frequent[i] = _most_frequent(row, np.nan, 0)
    387 
    388             return most_frequent

~/miniconda3/envs/evalml/lib/python3.8/site-packages/sklearn/impute/_base.py in _most_frequent(array, extra_value, n_repeat)
     40             # has already been NaN-masked.
     41             warnings.simplefilter("ignore", RuntimeWarning)
---> 42             mode = stats.mode(array)
     43 
     44         most_frequent_value = mode[0][0]

~/miniconda3/envs/evalml/lib/python3.8/site-packages/scipy/stats/stats.py in mode(a, axis, nan_policy)
    498     counts = np.zeros(a_view.shape[:-1], dtype=np.int)
    499     for ind in inds:
--> 500         modes[ind], counts[ind] = _mode1D(a_view[ind])
    501     newshape = list(a.shape)
    502     newshape[axis] = 1

~/miniconda3/envs/evalml/lib/python3.8/site-packages/scipy/stats/stats.py in _mode1D(a)
    485 
    486     def _mode1D(a):
--> 487         vals, cnts = np.unique(a, return_counts=True)
    488         return vals[cnts.argmax()], cnts.max()
    489 

<__array_function__ internals> in unique(*args, **kwargs)

~/miniconda3/envs/evalml/lib/python3.8/site-packages/numpy/lib/arraysetops.py in unique(ar, return_index, return_inverse, return_counts, axis)
    259     ar = np.asanyarray(ar)
    260     if axis is None:
--> 261         ret = _unique1d(ar, return_index, return_inverse, return_counts)
    262         return _unpack_tuple(ret)
    263 

~/miniconda3/envs/evalml/lib/python3.8/site-packages/numpy/lib/arraysetops.py in _unique1d(ar, return_index, return_inverse, return_counts)
    320         aux = ar[perm]
    321     else:
--> 322         ar.sort()
    323         aux = ar
    324     mask = np.empty(aux.shape, dtype=np.bool_)

TypeError: '<' not supported between instances of 'NoneType' and 'bool'

这适用于np.nan而不是None

所有3条评论

@freddyaboulton感谢清晰的复制者! 看来这也解释了另一个错误 #1092。

问题
如果 pandas 数据框中的任何特征具有object类型并包含None值,我们的Imputer就会失败。

  1. X = pd.DataFrame({'feature1': [False, True, None, np.nan]})创建一个具有object类型的特征。 Imputer.fit失败。
  2. X = pd.DataFrame({'feature1': [False, True, np.nan]})创建一个具有object类型的特征。 Imputer.fit有效。
  3. X = pd.DataFrame({'feature1': [False, True]})创建一个具有bool类型的特征。 Imputer.fit有效。

category类型也是如此。 字符串类型也会发生类似的情况,尽管最后一种情况不适用。

笔记
这里令人困惑的是None可能意味着不同的东西。 它可以与nan ,也可以作为它自己的类别。

我认为只要我们记录并解释该约定,就可以将其视为nan

解决方法
从 bool/category/string 特征中清除Nonedf = df.fillna(value=np.nan)

使固定
短期:

  • 更新Imputer以将None替换np.nan
  • 更新Imputer API 文档和 automl 用户指南以提及这一点。
  • 对于所有预期的数据类型,添加Imputer测试覆盖率,并在数据中包含None

我们可以改为添加DataCheck ,如果数据中有None则错误。 但这感觉没有必要,因为None可以轻松转换。

长期:
一旦我们更新 evalml 以使用新的DataTable结构,用户将能够提前配置每个功能的类型。 我希望这意味着标准化将使这些错误变得无关紧要。

这和#540有关系吗?

@angela97lin 🤦 100% 相关...实际上它是重复的。 哈哈。 我们甚至决定让输入器将None s 转换为np.nan s。

关闭 #540 支持这一点,因为这里的文章是最新的。

谢谢!

此页面是否有帮助?
0 / 5 - 0 等级