Scikit-learn: 添加对删除共线变量的支持

创建于 2020-02-03 · 3评论 · 资料来源: scikit-learn/scikit-learn

我们可以在 LinearRegression 中添加一个可以消除数据中的共线性（精确共线性）的特征吗？

我的建议是添加一个额外的参数，如 remove_collinearity，如果它是由用户设置的，那么我们可以使用矩阵的秩或使用 VIF 的共线变量删除精确的共线变量。这可以节省一些时间，而不是进行岭回归。

New Feature

资料来源

divyaprabha123

最有用的评论

这是在这里作为特征选择转换器工作的： https :

thomasjpfan 于 2020-02-03

👍2

将它作为sklearn.feature_selection的预处理器可能会更好，这样它就可以应用于多个估计器。我不确定确切的共线性是一个常见的问题。也许是具有用户定义的特征相关阈值的估计器？

我不确定这是不是经常做的事情，而不是说特征聚类？后者可以在带有 cluster.FeatureAgglomeration 的 scikit-learn 中完成，尽管与所需的 n_clusters 的接口可能并不理想。

抄送@glemaitre

rth 于 2020-02-03

这是在这里作为特征选择转换器工作的： https :

thomasjpfan 于 2020-02-03

👍2

确实谢谢。然后将此问题作为https://github.com/scikit-learn/scikit-learn/issues/13405的副本关闭。如果您有其他意见或建议@divyaprabha123，请在那里发表评论。

rth 于 2020-02-03

👍1

此页面是否有帮助？

0 / 5 - 0 等级

改进 AgglomerativeClustering 和 FeatureAgglomeration 的类设计（AgglomerativeClustering 中的 pooling_func 不起作用）

yinruiqing · 3评论

min_weight_fraction_leaf建议的改进

ben519 · 3评论

[0.23.1] doctest GradientBoostingClassifier 在 arm(rhel) 处理器上失败

murata-yu · 3评论

0.21 的最小 numpy 和 scipy 版本

rth · 3评论

使用预先计算的距离矩阵进行聚类的示例

celiafish · 4评论