Scikit-learn: min_weight_fraction_leaf建议的改进

创建于 2016-06-28  ·  3评论  ·  资料来源: scikit-learn/scikit-learn

描述

我一直在错误地使用DecisionTreeClassifier和RandomForestClassifier的min_weight_fraction_leaf参数,并且我认为其他人可能正在和我做同样的事情。

例如, DecisionTreeClassifier中min_weight_fraction_leaf的文档说

输入样本的最小加权分数必须位于叶节点。

我真的不清楚文档中“输入样本的加权分数”是什么意思。 最初,我认为这是基于类的大小或class_weight给出的值的加权。 我认为,对参数描述进行细微更改可以消除这种混淆。 也许像

输入样本的最小加权分数必须位于叶节点,在该节点上,权重由fit()方法中的sample_weight确定。

此外,似乎只有在调用fit()提供sample_weightmin_weight_fraction_leaf才适用。 如果在对fit()的调用中未提供sample_weight ,则将静默忽略min_weight_fraction_leaf 。 在这里,我想min_weight_fraction_leaf仍应的假设下适用所有样品进行加权平均或应给予警告, min_weight_fraction_leaf不会因为使用sample_weight未提供。

版本号

达尔文15.5.0-x86_64-i386-64bit
Python 3.5.1 | Continuum Analytics,Inc. | (默认值,2015年12月7日,11:24:55)
[GCC 4.2.1(Apple Inc.内部版本5577)]
NumPy 1.11.0
科学0.10.1
Scikit-Learn 0.17.1

另外,我很乐意做出我建议的更改(如果认为值得的话),但是我对开放源代码库的贡献很少。 如果有人愿意帮助我,可能需要一些帮助。

最有用的评论

我认为,如果设置了min_weight_fraction_leaf而没有提供sample_weights ,它应该会引发错误或采用统一的权重。 在这种情况下,使用min_samples_leaf有点多余,但我认为假设统一权重仍然会更好。

所有3条评论

请提交公关

2016年6月29日,06:09,Ben [email protected]写道:

描述

我一直在使用的min_weight_fraction_leaf参数
DecisionTreeClassifier和RandomForestClassifier错误,我认为
可能其他人正在和我做同样的事情。

例如,以下位置的min_weight_fraction_leaf文档
DecisionTreeClassifier
http://scikit-learn.org/stable/modules/generation/sklearn.tree.DecisionTreeClassifier.html

输入样本的最小加权分数必须在
叶节点。

我真的不清楚文档的“加权分数”是什么意思。
输入样本”。最初,我认为这是基于
类的大小或class_weight给定的值。 我认为有一点
更改参数说明可以消除这种混乱。 也许
就像是

输入样本的最小加权分数必须在
权重由fit()方法中的sample_weight确定的叶节点。

此外,看来min_weight_fraction_leaf仅在以下情况下适用
sample_weight在调用fit()中提供。 如果sample_weight不是
在对fit()的调用中提供的min_weight_fraction_leaf处于静默状态
忽略了。 在这里,我认为min_weight_fraction_leaf应该仍然适用于
假设所有样本均等加权或应给出警告
鉴于min_weight_fraction_leaf将不使用,因为sample_weight
没有提供。
版本号

达尔文15.5.0-x86_64-i386-64bit
Python 3.5.1 | Continuum Analytics,Inc. | (默认值,2015年12月7日,11:24:55)
[GCC 4.2.1(Apple Inc.内部版本5577)]
NumPy 1.11.0
科学0.10.1
Scikit-Learn 0.17.1

-
您收到此消息是因为您已订阅此线程。
直接回复此电子邮件,在GitHub上查看
https://github.com/scikit-learn/scikit-learn/issues/6945 ,或将
线
https://github.com/notifications/unsubscribe/AAEz6xE2BmEJHo6hGgTWoigsPutoD4_nks5qQX9zgaJpZM4JAe96

我认为,如果设置了min_weight_fraction_leaf而没有提供sample_weights ,它应该会引发错误或采用统一的权重。 在这种情况下,使用min_samples_leaf有点多余,但我认为假设统一权重仍然会更好。

我认为这类似于min_samples_leafmin_weight_fraction_leaf不需要在每个叶节点中要求绝对数量的样本,而是可以选择在每个叶中要求样本(或权重)的一小部分。 模型是否对样本使用权重取决于class_weight

此页面是否有帮助?
0 / 5 - 0 等级