我们最近在我们的文档中添加了一个词汇表,其中描述了通用参数等。 我们现在应该替换random_state
参数的描述,使它们更简洁和信息量更大(参见 #10415)。 例如,代替
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
在 KMeans 和 MiniBatchKMeans 中,我们可能有:
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
因此,描述应该侧重于random_state
对算法的影响。
有兴趣贡献此更改的贡献者应该一次承担一个模块,最初。
要修改的估算器列表如下:
[x] [sklearn/ensemble/_hist_gradient_boosting/binning.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn/ensemble/_bagging.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
嗨@jnothman ,我可以接受这个问题吗? 谢谢
申请一个模块/子包,然后试一试……
在2018年1月30 00:24,Somya阿南德[email protected]写道:
嗨@jnothman https://github.com/jnothman ,我可以接受这个问题吗? 谢谢
—
你收到这个是因为你被提到了。
直接回复本邮件,在GitHub上查看
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
或静音线程
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman我很抱歉我
我认为@jnothman 的意思只是从一个文件开始,例如 sklearn/cluster/k_means_.py,更新顶部帖子中的random_state
文档字符串并打开 PR。
子包类似于 sklearn.cluster
谢谢。 会这样做并打开公关。
你好! @jnothman
您还想替换 grid_search.py 中的以下注释吗? 与您共享的线路相比,他们多出了一条线路。
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
我可以使用 grid_search.py 和 k_means.py(KMeans)。
单独留下 grid_search.py。 它已被弃用。 想法是最小化
重复的内容,并在词汇表中可用,以便我们可以
向用户提供有关 random_state 在其中的角色的最翔实的描述
特定估计量。
谢谢@jnothman。 在替换这个 random_state 信息之前,我是否需要了解这些算法?
您将需要广泛地了解算法,但不是每个细节
他们的实施。 您将需要能够找到 random_state 的位置
如果算法中的随机化不完全明显,则使用。
在某些情况下,甚至不提供比
只是链接到词汇表; 我们得看看情况如何。
好的谢谢你。 我将开始慢慢研究算法。
问候,
希瓦姆·拉斯托吉
我已经打开了一个拉取请求 #10614
由于@aby0尚未声明 sklearn.cluster 模块。 我想声明整个模块。 请让我知道我是否可以处理它,或者我应该处理其他事情。
有更新的吗? 这对我们来说是一个漫长的假期,所以如果我可以选择这个,请告诉我。
我将使用datasets
模块,因为我已经在那里寻找 #10731 的文档字符串。
我声称linear_model
模块。 很快就会提出 PR。 #11900 提出。
接下来声明decomposition
模块。
需要执行此操作的模块清单:
我们在就如何取得适当的平衡达成共识时遇到了一些困难
在这里,iirc
所以一定要注意上面合并的先前的 PR
@jnothman谢谢! 将更新 PR 以提及传递 int 时的可重复性。
愿意在另一个 PR 中使用所有其他模块,一旦这些模块被审查...
我声称协方差。
@BlackTeaAndCoffee请注意,文档字符串格式尚未最终确定,此处列出的其他 PR 正在讨论中。 所以你可能也想看看。
我声称 feature_extraction
@jnothman和@NicolasHug刚刚发现了 #15222 和一些与之相关的 PR,我在总结这个时没有考虑到这些公关……其中一些从未被审查过……:(
为了使冲刺的事情变得清晰,我想知道我们是否可以解决这两个问题之一:如果是,那是哪一个? 因为我可以避免重复信息。 感谢您的合作。
我不知道这个问题(应该检查得更好),我很高兴关闭https://github.com/scikit-learn/scikit-learn/issues/15222以支持这个问题
在@jnothman评论之后,也许这个问题应该贴上“中等”标签?
我们想要处理 ensemble/_hist_gradient_boosting/binning。
@mojc和我。
@anaisabeldhero和我想在多方面工作/*
#wimlds #SciKitLearnSprint
@daphn3k ,我将在 sklearn/gaussian_process/ 上工作
我们想处理 sklearn/preprocessing/_data.py - 2178, 2607
@rachelcjordan和 @fabi-cast
我和@Malesche想参加 sklearn/inspection/_permutation_importance.py
声称 sklearn/metrics/cluster/_unsupervised.py 文件! #wimlds
@daphn3k和我也采用协方差/* 和邻居/* #wimlds
宣称:
sklearn/dummy.py - 59
sklearn/multioutput.py - 578, 738
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/random_projection.py - 178、245、464、586
PSA:请使用原句
传递 int 以获得跨多个函数调用的可重现结果。
而不是我目前在 PR 中看到的:
使用 int 使随机性具有确定性
这是不正确的,因为无论传递什么,RNG 始终是确定性的
CC @adrinjalali因为我认为你在冲刺
研究神经网络和混合
PSA:请使用原句
传递 int 以获得跨多个函数调用的可重现结果。
而不是我目前在 PR 中看到的:
使用 int 使随机性具有确定性
这是不正确的,因为无论传递什么,RNG 始终是确定性的
CC @adrinjalali因为我认为你在冲刺
嗨@NicolasHug这是为了评论我想的公关......哪个? :)
将在 scikit-learn/sklearn/model_selection/_validation.py 上工作
@cmarmo这是所有 PR 的一般性评论。 我看到一个并在那里发表评论,然后看到第二个并发现这是一种可以更好地在源头解决的模式
@cmarmo这是所有 PR 的一般性评论。 我看到一个并在那里发表评论,然后看到第二个并发现这是一种可以更好地在源头解决的模式
抱歉@NicolasHug ,我的错,我没有发现该评论易于追踪。
@NicolasHug在@anaisabeldhero和我的提交中更正了原始句子
我和@Olks声称 sklearn/utils/extmath.py - 185, 297
声明 sklearn/ensemble/_iforest.py - 109
声明 sklearn/neural_network/_multilayer_perceptron.py - 782, 1174
声明 sklearn/ensemble/_weight_boosting.py - 188、324、479、900、1022
声明 sklearn/multioutput.py - 578, 738
宣称 :
sklearn/mixture/_bayesian_mixture.py - 166
sklearn/mixture/_base.py - 139
sklearn/mixture/_gaussian_mixture.py - 504
声明 sklearn/ensemble/_gb.py - 887, 1360
声明 sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py - 736, 918
声明 sklearn/neural_network/_rbm.py - 59
宣称 :
sklearn/svm/_classes.py - 90, 312, 546, 752
sklearn/svm/_base.py - 853
宣称:
sklearn/feature_selection/_mutual_info.py - 226、335、414
sklearn/metrics/cluster/_unsupervised.py - 80
sklearn/utils/_testing.py - 521
sklearn/utils/init.py - 478, 623
宣称 :
sklearn/dummy.py - 59
sklearn/random_projection.py - 178、245、464、586
@DatenBiene @GregoireMialon感谢您在上个 sprint 中所做的所有贡献。 只有 3 个模块未选中!
你有兴趣/有时间/有动力去解决这些问题吗(没有压力!)?
嗨,杰瑞米! 我会尽快去看看
勒梅尔。 12 热。 2020 à 15:53, Jérémie du Boisberranger <
通知@github.com> 一个 écrit :
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon感谢您的所有贡献
在最后一个冲刺期间。 只有 3 个模块未选中!你有兴趣/有时间/有动力去解决这些问题吗(没有
压力 !) ?—
你收到这个是因为你被提到了。
直接回复本邮件,在GitHub上查看
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOELRBT2A#issuecomment-585243112 ,
或退订
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
嗨@jeremiedbb! 今天我会努力完成剩下的3个模块😃
宣称:
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/ensemble/_base.py - 52
嗨@jnothman和@jeremiedbb ,看起来像所有修改过的文件。 如果您发现任何遗留问题,我很乐意为您提供帮助。
非常感谢@DatenBiene和所有努力解决这个问题的贡献者!
我想我们可以关闭这个巨大的!
如果仍然缺少关于random_state
描述的内容,请随时打开新的特定问题。
最有用的评论
我们想处理 sklearn/preprocessing/_data.py - 2178, 2607
@rachelcjordan和 @fabi-cast
wimlds #SciKitLearnSprint