Wir haben unserer Dokumentation vor kurzem ein Glossar hinzugefügt, das unter anderem allgemeine Parameter beschreibt. Wir sollten jetzt Beschreibungen von random_state
Parametern ersetzen, um sie prägnanter und informativer zu machen (siehe #10415). Zum Beispiel statt
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Sowohl in KMeans als auch in MiniBatchKMeans haben wir möglicherweise:
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
Daher sollte sich die Beschreibung darauf konzentrieren, wie sich random_state
auf den Algorithmus auswirkt.
Mitwirkende, die daran interessiert sind, zu dieser Änderung beizutragen, sollten zunächst ein Modul nach dem anderen belegen.
Die Liste der zu ändernden Schätzer lautet wie folgt:
Liste der Dateien, die mit dem Kwinata- Skript geändert werden sollen
[x] [sklearn/ensemble/_hist_gradient_boosting/binning.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn/ensemble/_bagging.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
Hallo @jnothman , kann ich dieses Problem annehmen? Vielen Dank
Beanspruchen Sie ein Modul/Unterpaket und probieren Sie es aus...
Am 30. Januar 2018 um 00:24 Uhr schrieb Somya Anand [email protected] :
Hallo @jnothman https://github.com/jnothman , kann ich dieses Problem lösen ? Vielen Dank
—
Sie erhalten dies, weil Sie erwähnt wurden.
Antworten Sie direkt auf diese E-Mail und zeigen Sie sie auf GitHub an
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
oder den Thread stumm schalten
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman Es tut mir leid, dass ich naiv bin, aber können Sie das Modul / Untermodul
Ich denke, was @jnothman bedeutet, ist, einfach mit einer Datei zu beginnen, zum Beispiel sklearn/cluster/k_means_.py, den random_state
Docstring wie im oberen Beitrag zu aktualisieren und eine PR zu öffnen.
ein Unterpaket ist so etwas wie sklearn.cluster
Vielen Dank. Werde das machen und eine PR eröffnen.
Hi! @jnothman
Möchten Sie auch die folgenden Kommentare aus grid_search.py ersetzen? Sie haben eine zusätzliche Zeile im Vergleich zu der von Ihnen geteilten.
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Ich kann grid_search.py und k_means.py(KMeans) nehmen.
lasse grid_search.py in Ruhe. es ist veraltet. Die Idee ist, die
Inhalte, die wiederholt werden und im Glossar verfügbar sind, damit wir
Geben Sie den Benutzern die informativste Beschreibung über die Rolle von random_state in
der jeweilige Schätzer.
Danke @jnothman. Muss ich diese Algorithmen verstehen, bevor ich diese random_state-Informationen ersetzen kann?
Sie müssen die Algorithmen im Großen und Ganzen verstehen, aber nicht jedes Detail von
deren Umsetzung. Sie müssen in der Lage sein zu finden, wo random_state
wird verwendet, wenn die Randomisierung im Algorithmus nicht ganz offensichtlich ist.
In einigen Fällen kann es angebracht sein, nicht einmal viel mehr Details anzugeben als
nur auf das Glossar verlinken; wir müssen sehen, wie es läuft.
Okay, danke. Ich werde langsam anfangen, die Algorithmen durchzugehen.
Grüße,
Shivam Rastogi
Ich habe eine Pull-Anfrage Nr. 10614 geöffnet
Da @aby0 das sklearn.cluster-Modul noch nicht beansprucht hat. Ich möchte das ganze Modul beanspruchen. Bitte lassen Sie mich wissen, ob ich daran arbeiten kann oder ich an etwas anderem arbeiten sollte.
Irgendein Update Jungs? Es ist ein langer Urlaub für uns, also lassen Sie es mich wissen, wenn ich das auswählen kann.
Ich nehme das Modul datasets
da ich dort bereits in den Docstrings nach #10731 herumstöbere.
Ich beanspruche das Modul linear_model
. wird bald eine PR erstellen. #11900 erhoben.
Als nächstes wird das Modul decomposition
beansprucht.
Checkliste der Module, in denen dies durchgeführt werden muss:
Wir hatten einige Schwierigkeiten, einen Konsens darüber zu erzielen, wie wir die richtige Balance finden
hier, iirc
Achten Sie also auf die oben zusammengeführten früheren PRs
@jnothman danke! wird die PRs aktualisieren, um die Reproduzierbarkeit zu erwähnen, wenn ein int.
bereit, alle anderen Module in einer anderen PR zu belegen, wenn diese überprüft wurden...
Ich behaupte Kovarianz.
@BlackTeaAndCoffee Bitte
Ich beanspruche feature_extraction
@jnothman , @NicolasHug , habe gerade #15222 und eine Reihe von PR im Zusammenhang damit entdeckt, die ich bei der Zusammenfassung dieses Artikels nicht berücksichtigt habe ... einige von ihnen wurden nie überprüft ... :(
Um die Dinge für Sprints klar zu machen, frage ich mich, ob wir eines dieser beiden Themen schließen können: Wenn ja, welches? Da kann ich doppelte Informationen vermeiden. Vielen Dank für Ihre Zusammenarbeit.
Dieses Problem war mir nicht bekannt (hätte besser nachsehen sollen), ich schließe gerne https://github.com/scikit-learn/scikit-learn/issues/15222 zugunsten dieses Problems
Wenn Sie dem Kommentar von @jnothman folgen , könnte dieses Problem möglicherweise ein "Moderat"-Label verdienen?
Wir wollen an ensemble/_hist_gradient_boosting/binning arbeiten.
@mojc und ich.
@anaisabeldhero und ich wollen an Mannigfaltigkeit arbeiten/*
#wimlds #SciKitLearnSprint
@daphn3k und ich arbeiten an sklearn/gaussian_process/
Wir wollen an sklearn/preprocessing/_data.py arbeiten - 2178, 2607
@rachelcjordan und @fabi-cast
Ich und @Malesche wollen die sklearn/inspection/_permutation_importance.py machen
beansprucht die Datei sklearn/metrics/cluster/_unsupervised.py! #wimlds
@daphn3k und ich nehmen auch die Kovarianz/* und Nachbarn/* #wimlds
Anspruch:
sklearn/dummy.py - 59
sklearn/multioutput.py - 578, 738
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/random_projection.py - 178, 245, 464, 586
PSA: Bitte den Originalsatz verwenden
Übergeben Sie ein int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg.
anstelle dessen, was ich derzeit in PRs sehe:
Verwenden Sie einen int, um die Zufälligkeit deterministisch zu machen
was nicht korrekt ist, da der RNG immer deterministisch ist, unabhängig davon, was übergeben wird
CC @adrinjalali da ich glaube du bist im Sprint
Arbeiten am neuronalen Netz und Mischung
PSA: Bitte den Originalsatz verwenden
Übergeben Sie ein int für reproduzierbare Ergebnisse über mehrere Funktionsaufrufe hinweg.
anstelle dessen, was ich derzeit in PRs sehe:
Verwenden Sie einen int, um die Zufälligkeit deterministisch zu machen
was nicht korrekt ist, da der RNG immer deterministisch ist, unabhängig davon, was übergeben wird
CC @adrinjalali da ich glaube du bist im Sprint
Hallo @NicolasHug, das sollte eine PR kommentieren, nehme ich an ... welche? :)
werde an scikit-learn/sklearn/model_selection/_validation.py arbeiten
@cmarmo Das war ein allgemeiner Kommentar für alle PRs. Ich habe eines gesehen und dort kommentiert, dann habe ich ein zweites gesehen und herausgefunden, dass es ein Muster war, das besser an der Quelle angesprochen werden sollte
@cmarmo Das war ein allgemeiner Kommentar für alle PRs. Ich habe eines gesehen und dort kommentiert, dann habe ich ein zweites gesehen und herausgefunden, dass es ein Muster war, das besser an der Quelle angesprochen werden sollte
Sorry @NicolasHug , mein
@NicolasHug Originalsatz wurde in den Commits von @anaisabeldhero und mir korrigiert
Ich und @Olks behaupten sklearn/utils/extmath.py - 185, 297
Anspruch sklearn/ensemble/_iforest.py - 109
Anspruch sklearn/neural_network/_multilayer_perceptron.py - 782, 1174
Anspruch sklearn/ensemble/_weight_boosting.py - 188, 324, 479, 900, 1022
Anspruch sklearn/multioutput.py - 578, 738
Anspruch :
sklearn/mixture/_bayesian_mixture.py - 166
sklearn/mixture/_base.py - 139
sklearn/mixture/_gaussian_mixture.py - 504
Anspruch sklearn/ensemble/_gb.py - 887, 1360
Anspruch sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py - 736, 918
Anspruch sklearn/neural_network/_rbm.py - 59
Anspruch :
sklearn/svm/_classes.py - 90, 312, 546, 752
sklearn/svm/_base.py - 853
Anspruch:
sklearn/feature_selection/_mutual_info.py - 226, 335, 414
sklearn/metrics/cluster/_unsupervised.py - 80
sklearn/utils/_testing.py - 521
sklearn/utils/init.py - 478, 623
Anspruch :
sklearn/dummy.py - 59
sklearn/random_projection.py - 178, 245, 464, 586
@DatenBiene @GregoireMialon Danke für all eure Beiträge während des letzten Sprints. Es sind nur noch 3 Module ungeprüft !
Hätten Sie Interesse / Zeit / Motivation, diese anzugehen (kein Druck !) ?
Hallo Jérémie! Ich versuche es demnächst mal anzuschauen
Lemer. 12. Februar. 2020 à 15:53, Jérémie du Boisberganger <
[email protected]> ein écrit :
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon Danke für all eure Beiträge
im letzten Sprint. Es sind nur noch 3 Module ungeprüft !Hätten Sie Interesse / Zeit / Motivation diese anzugehen (nein
Druck !) ?—
Sie erhalten dies, weil Sie erwähnt wurden.
Antworten Sie direkt auf diese E-Mail und zeigen Sie sie auf GitHub an
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNmentWWWK3TUL52HS4DFVREXG43VMVBW63LNment
oder abmelden
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
Hallo @jeremiedbb! Ich werde heute versuchen die 3 verbleibenden Module zu beenden 😃
Anspruch:
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/ensemble/_base.py - 52
Hallo @jnothman und @jeremiedbb , sieht so aus, als ob alle Dateien geändert wurden. Ich helfe Ihnen gerne, wenn Sie noch Probleme haben.
Vielen Dank @DatenBiene und alle Mitwirkenden, die daran gearbeitet haben, dieses Problem zu schließen!
Ich denke, wir können dieses riesige schließen!
Fühlen Sie sich frei, neue spezifische Probleme zu eröffnen, wenn noch etwas an der Beschreibung von random_state
fehlt.
Hilfreichster Kommentar
Wir wollen an sklearn/preprocessing/_data.py arbeiten - 2178, 2607
@rachelcjordan und @fabi-cast
wimlds #SciKitLearnSprint