最近、ドキュメントに用語集を追加しました。このrandom_state
パラメーターの説明を置き換えて、より簡潔で有益なものにする必要があります(#10415を参照)。 たとえば、代わりに
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
KMeansとMiniBatchKMeansの両方で、次のようになる可能性があります。
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
したがって、説明では、 random_state
がアルゴリズムに与える影響に焦点を当てる必要があります。
この変更への貢献に関心のある貢献者は、最初は一度に1つのモジュールを受講する必要があります。
変更する推定量のリストは次のとおりです。
[X] [sklearn /アンサンブル/ _hist_gradient_boosting / binning.py(https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 、 112
[X] [sklearn /アンサンブル/ _bagging.py(https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 、 902
こんにちは@jnothman 、私はこの問題を取ることができますか? ありがとう
モジュール/サブパッケージを要求して、試してみてください...
午後12時24分に2018年1月30日には、Somyaアナンドの[email protected]は書きました:
こんにちは@jnothmanhttps ://github.com/jnothman 、この問題を解決できますか? ありがとう
—
あなたが言及されたのであなたはこれを受け取っています。
このメールに直接返信し、GitHubで表示してください
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 、
またはスレッドをミュートします
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
。
@jnothmanナイーブで申し訳ありませんが、モジュール/サブモジュールについて詳しく説明していただけますか? たとえば、Kmeansのようなサブパッケージを参照しているのですか?
@jnothmanの意味は、sklearn / cluster / k_means_.pyなどの1つのファイルから始めて、一番上の投稿のようにrandom_state
docstringを更新し、PRを開くことだと思います。
サブパッケージはsklearn.clusterのようなものです
ありがとう。 それを行い、PRを開きます。
やあ! @jnothman
また、grid_search.pyに表示されている次のコメントを置き換えますか? あなたが共有しているものと比較して、彼らは余分な行を持っています。
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
grid_search.pyとk_means.py(KMeans)を使用できます。
grid_search.pyはそのままにしておきます。 非推奨です。 アイデアは最小化することです
繰り返され、用語集で利用できるコンテンツ。
におけるrandom_stateの役割について最も有益な説明をユーザーに提供します
特定の推定量。
@jnothmanに感謝します。 このrandom_state情報を置き換える前に、これらのアルゴリズムを理解する必要がありますか?
アルゴリズムを広く理解する必要がありますが、すべての詳細を理解する必要はありません。
それらの実装。 random_stateがどこにあるかを見つけることができる必要があります
アルゴリズムのランダム化が完全に明らかでない場合は、が使用されます。
場合によっては、それ以上の詳細を提供しないことが適切な場合もあります。
用語集にリンクするだけです。 それがどうなるかを見なければなりません。
大丈夫ありがとう。 ゆっくりとアルゴリズムを調べ始めます。
よろしく、
シヴァム・ラストギ
プルリクエストを開きました#10614
@ aby0はまだsklearn.clusterモジュールを要求していないので、 モジュール全体を請求したいと思います。 私がそれに取り組むことができるかどうか、または私が何か他のものに取り組むべきかどうか私に知らせてください。
更新者はいますか? 私たちにとっては長い休日ですので、これを選ぶことができるかどうか教えてください。
#10731のドキュメント文字列を既に調べているので、 datasets
モジュールを使用します。
linear_model
モジュールを要求しています。 すぐにPRを上げます。 #11900が発生しました。
次にdecomposition
モジュールを要求します。
これを行う必要があるモジュールのチェックリスト:
適切なバランスをとる方法についてコンセンサスを得るのに苦労しました
ここで、iirc
したがって、上記でマージされた以前のPRに注意を払ってください
@jnothmanありがとう! intを渡すときの再現性に言及するためにPRを更新します。
これらがレビューされたら、別のPRで他のすべてのモジュールを喜んで取り上げます...
私は共分散を主張しています。
@BlackTeaAndCoffeeは、ドキュメント文字列形式がまだ確定していないことに注意してください。ここにリストされている他のPRについて議論が行われています。 だからあなたも見てみたいかもしれません。
私はfeature_extractionを主張しています
@ jnothman 、 @ NicolasHugは、#15222とそれに関連するいくつかのPRを発見しましたが、これを要約する際に考慮していません...それらのいくつかはレビューされていません... :(
スプリントのことを明確にするために、これら2つの問題のいずれかを閉じることができるかどうか疑問に思っています。はいの場合、どちらですか。 情報の重複を避けることができるので。 コラボレーションありがとうございます。
私はこの問題に気づいていませんでした(もっとよくチェックする必要がありました)、これを支持してhttps://github.com/scikit-learn/scikit-learn/issues/15222を閉じてうれしいです
@jnothmanのコメントに続いて、この問題は「中程度」のラベルに値する可能性がありますか?
アンサンブル/ _hist_gradient_boosting / binningに取り組みたいと思います。
@mojcと私。
@anaisabeldheroと私は多様体に取り組みたい/ *
#wimlds #SciKitLearnSprint
@ daphn3kと私はsklearn / gaussian_process /で作業します
sklearn / preprocessing / _data.py-2178、2607で作業したい
@rachelcjordanと@
私と@Malescheはsklearn / inspection /_permutation_importance.pyを取得したいと考えています
sklearn / metrics / cluster / _unsupervised.pyファイルを要求します! #wimlds
@ daphn3kと私は共分散/ *とneighbors / *#wimldsも取ります
請求:
sklearn /dummy.py-59
sklearn / multioutput.py-578、738
sklearn / kernel_approximation.py-41、143、470
sklearn /multiclass.py-687
sklearn / random_projection.py-178、245、464、586
PSA:元の文を使用してください
複数の関数呼び出しにわたって再現可能な結果を得るためにintを渡します。
私が現在PRで見ているものの代わりに:
intを使用して、ランダム性を決定論的にします
何が渡されるかに関係なく、RNGは常に決定論的であるため、これは正しくありません。
CC @adrinjalaliあなたはスプリントにいると思うので、
ニューラルネットワークと混合に取り組んでいます
PSA:元の文を使用してください
複数の関数呼び出しにわたって再現可能な結果を得るためにintを渡します。
私が現在PRで見ているものの代わりに:
intを使用して、ランダム性を決定論的にします
何が渡されるかに関係なく、RNGは常に決定論的であるため、これは正しくありません。
CC @adrinjalaliあなたはスプリントにいると思うので、
こんにちは@NicolasHugこれは私が思うPRにコメントするためのものでした...どれですか? :)
scikit-learn / sklearn / model_selection /_validation.pyで作業します
@cmarmoそれはすべてのPRに対する一般的なコメントでした。 私は1つを見てコメントし、次に2つ目を見て、それがソースでより適切に対処されるパターンであると考えました。
@cmarmoそれはすべてのPRに対する一般的なコメントでした。 私は1つを見てコメントし、次に2つ目を見て、それがソースでより適切に対処されるパターンであると考えました。
申し訳ありませんが@NicolasHug 、私の悪い、コメントを追跡するのは簡単ではありません。
@NicolasHug元の文は@anaisabeldheroと私からのコミットで修正されました
私と@Olksはsklearn / utils /
sklearn / ansemble /_iforest.pyを主張する-109
sklearn / kernel_network / _multilayer_perceptron.pyを主張する-782、1174
sklearn / ansemble / _weight_boosting.pyを主張する-188、324、479、900、1022
sklearn / multioutput.pyを主張する-578、738
請求 :
sklearn / mixture / _bayesian_mixture.py-166
sklearn / mixture / _base.py-139
sklearn / mixture / _gaussian_mixture.py-504
sklearn / ansemble / _gb.pyを主張する-887、1360
sklearn / ansemble / _hist_gradient_boosting /gradient_boosting.pyを主張する-736、918
sklearn / kernel_network /_rbm.pyを主張する-59
請求 :
sklearn / svm / _classes.py-90、312、546、752
sklearn / svm / _base.py-853
請求:
sklearn / feature_selection / _mutual_info.py-226、335、414
sklearn / metrics / cluster /_unsupervised.py-80
sklearn / utils / _testing.py-521
sklearn / utils / init.py-478、623
請求 :
sklearn /dummy.py-59
sklearn / random_projection.py-178、245、464、586
@ DatenBiene @ GregoireMialon最後のスプリントでのすべての貢献に感謝します。 未チェックのモジュールは3つだけです!
興味がありますか/時間がある/それらに取り組む動機がありますか(プレッシャーなし!)?
こんにちはジェレミー! すぐに見てみます
ルメール。 12févr。 2020à15:53、JérémieduBoisberranger <
[email protected]>aécrit:
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialonすべての貢献に感謝します
最後のスプリント中。 未チェックのモジュールは3つだけです!興味がありますか/時間はありますか/それらに取り組む動機がありますか(いいえ
プレッシャー !) ?—
あなたが言及されたのであなたはこれを受け取っています。
このメールに直接返信し、GitHubで表示してください
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKT
または購読を解除する
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
。
こんにちは@jeremiedbb! 今日は残りの3つのモジュールを終了しようとします😃
請求:
sklearn / kernel_approximation.py-41、143、470
sklearn /multiclass.py-687
sklearn / ansemble / _base.py-52
こんにちは@jnothmanと@jeremiedbb 、変更されたすべてのファイルのように見えます。 残っている問題があれば、喜んでお手伝いさせていただきます。
@DatenBieneと、この問題を解決するために尽力してくれたすべての貢献者に感謝します。
この巨大なものを閉じることができると思います!
random_state
説明についてまだ何かが足りない場合は、新しい特定の問題を自由に開いてください。
最も参考になるコメント
sklearn / preprocessing / _data.py-2178、2607で作業したい
@rachelcjordanと@
wimlds #SciKitLearnSprint