Nous avons récemment ajouté un glossaire à notre documentation, qui décrit entre autres les paramètres communs. Nous devrions maintenant remplacer les descriptions des paramètres random_state
pour les rendre plus concises et informatives (voir #10415). Par exemple, au lieu de
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
dans KMeans et MiniBatchKMeans, nous pourrions avoir :
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
Par conséquent, la description doit se concentrer sur l'impact de random_state
sur l'algorithme.
Les contributeurs intéressés à contribuer à ce changement doivent commencer par un module à la fois.
La liste des estimateurs à modifier est la suivante :
Liste des fichiers à modifier à l'aide du script kwinata
[x] [sklearn/ensemble/_hist_gradient_boosting/binning.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn/ensemble/_bagging.py](https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
Salut @jnothman , puis-je prendre ce problème ? Merci
Réclamez un module/sous-package et lancez-vous...
Le 30 janvier 2018 à 00h24, Somya Anand [email protected] a écrit :
Salut @jnothman https://github.com/jnothman , Puis-je prendre ce problème ? Merci
-
Vous recevez ceci parce que vous avez été mentionné.
Répondez directement à cet e-mail, consultez-le sur GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
ou couper le fil
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman Je suis désolé d'être naïf, mais pouvez-vous élaborer sur le module/sous-module ? Je veux dire, faites-vous référence à un sous-ensemble comme Kmeans par exemple ?
Je pense que @jnothman signifie simplement commencer avec un fichier, par exemple sklearn/cluster/k_means_.py, mettre à jour la docstring random_state
comme dans le post du haut et ouvrir un PR.
un sous-paquet est quelque chose comme sklearn.cluster
Merci. Fera cela et ouvrira un PR.
Salut! @jnothman
Souhaitez-vous également remplacer les commentaires suivants tels qu'ils apparaissent dans grid_search.py ? Ils ont une ligne supplémentaire par rapport à celle que vous partagez.
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Je peux prendre grid_search.py et k_means.py(KMeans).
laissez grid_search.py tranquille. il est obsolète. L'idée est de minimiser la
contenu qui est répété, et disponible dans le glossaire, afin que nous puissions
donner aux utilisateurs la description la plus informative sur le rôle de random_state dans
l'estimateur particulier.
Merci @jnothman. Aurai-je besoin de comprendre ces algorithmes avant de pouvoir remplacer ces informations random_state ?
Vous devrez comprendre les algorithmes dans leur ensemble, mais pas tous les détails de
leur mise en œuvre. Vous devrez être en mesure de trouver où random_state
est utilisé, si la randomisation dans l'algorithme n'est pas complètement évidente.
Dans certains cas, il peut être approprié de ne même pas donner beaucoup plus de détails que
juste un lien vers le glossaire ; il faudra voir comment ça se passe.
D'accord, merci. Je vais commencer à parcourir les algorithmes lentement.
Salutations,
Shivam Rastogi
J'ai ouvert une pull request #10614
Puisque @aby0 n'a pas encore réclamé le module sklearn.cluster. Je voudrais réclamer le module entier. S'il vous plaît laissez-moi savoir si je peux travailler dessus ou si je devrais travailler sur autre chose.
Une mise à jour les gars? Ce sont de longues vacances pour nous, alors faites-moi savoir si je peux choisir cela.
Je vais prendre le module datasets
puisque je fouille déjà dans les docstrings pour #10731.
Je réclame le module linear_model
. soulèvera un PR bientôt. #11900 élevé.
Réclamer le module decomposition
ensuite.
Liste de contrôle des modules où cela doit être fait :
Nous avons eu du mal à parvenir à un consensus sur la manière de trouver le bon équilibre
ici, iirc
Faites donc attention aux PR précédents fusionnés ci-dessus
@jnothman merci ! mettra à jour les PRs pour mentionner la reproductibilité lors du passage d'un int.
disposé à reprendre tous les autres modules dans un autre PR, une fois ceux-ci passés en revue...
Je revendique la covariance.
@BlackTeaAndCoffee , sachez que le format de la chaîne doc n'est pas encore finalisé, des discussions ont eu lieu sur les autres PR répertoriés ici. Alors vous voudrez peut-être jeter un coup d'œil aussi.
Je réclame feature_extraction
@jnothman , @NicolasHug , vient de découvrir le #15222 et un certain nombre de relations publiques qui s'y rapportent que je n'ai pas pris en compte pour résumer celui-ci... certains d'entre eux n'ont jamais été examinés... :(
Afin de clarifier les choses pour les sprints, je me demande si nous pouvons clôturer l'un de ces deux problèmes : si oui, lequel ? Comme je peux éviter les informations dupliquées. Merci pour votre collaboration.
Je n'étais pas au courant de ce problème (j'aurais dû mieux vérifier), je suis heureux de fermer https://github.com/scikit-learn/scikit-learn/issues/15222 en faveur de celui-ci
Suite au commentaire de @jnothman, ce problème pourrait peut-être mériter une étiquette « Modéré » ?
Nous voulons travailler sur ensemble/_hist_gradient_boosting/binning.
@mojc et moi.
@anaisabeldhero et moi voulons travailler sur manifold/*
#wimlds #SciKitLearnSprint
@daphn3k et moi allons travailler sur sklearn/gaussian_process/
Nous voulons travailler sur sklearn/preprocessing/_data.py - 2178, 2607
@rachelcjordan et @fabi-cast
Moi et @Malesche voulons prendre le sklearn/inspection/_permutation_importance.py
revendiquant le fichier sklearn/metrics/cluster/_unsupervised.py ! #wimlds
@daphn3k et je prends aussi la covariance/* et les voisins/* #wimlds
Réclamer:
sklearn/dummy.py - 59
sklearn/multioutput.py - 578, 738
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/random_projection.py - 178, 245, 464, 586
Message d'intérêt public : veuillez utiliser la phrase originale
Passez un int pour des résultats reproductibles sur plusieurs appels de fonction.
au lieu de ce que je vois dans les relations publiques en ce moment :
Utilisez un int pour rendre le caractère aléatoire déterministe
ce qui n'est pas correct, puisque le RNG est toujours déterministe quel que soit ce qui est passé
CC @adrinjalali puisque je pense que tu es au sprint
travailler sur le réseau de neurones et le mélange
Message d'intérêt public : veuillez utiliser la phrase originale
Passez un int pour des résultats reproductibles sur plusieurs appels de fonction.
au lieu de ce que je vois dans les relations publiques en ce moment :
Utilisez un int pour rendre le caractère aléatoire déterministe
ce qui n'est pas correct, puisque le RNG est toujours déterministe quel que soit ce qui est passé
CC @adrinjalali puisque je pense que tu es au sprint
Salut @NicolasHug, c'était pour commenter un PR, je suppose... lequel ? :)
va travailler sur scikit-learn/sklearn/model_selection/_validation.py
@cmarmo C'était un commentaire général pour tous les PR. J'en ai vu un et j'y ai commenté, puis j'en ai vu un deuxième et j'ai compris que c'était un modèle qui serait mieux traité à la source
@cmarmo C'était un commentaire général pour tous les PR. J'en ai vu un et j'y ai commenté, puis j'en ai vu un deuxième et j'ai compris que c'était un modèle qui serait mieux traité à la source
Désolé @NicolasHug , mon mauvais, je n'ai pas trouvé le commentaire facile à tracer.
@NicolasHug La phrase originale a été corrigée dans les commits de @anaisabeldhero et moi
Moi et @Olks revendiquons sklearn/utils/extmath.py - 185, 297
Revendication sklearn/ensemble/_iforest.py - 109
Réclamer sklearn/neural_network/_multilayer_perceptron.py - 782, 1174
Réclamer sklearn/ensemble/_weight_boosting.py - 188, 324, 479, 900, 1022
Réclamer sklearn/multioutput.py - 578, 738
Réclamer :
sklearn/mixture/_bayesian_mixture.py - 166
sklearn/mixture/_base.py - 139
sklearn/mixture/_gaussian_mixture.py - 504
Réclamer sklearn/ensemble/_gb.py - 887, 1360
Réclamer sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py - 736, 918
Réclamer sklearn/neural_network/_rbm.py - 59
Réclamer :
sklearn/svm/_classes.py - 90, 312, 546, 752
sklearn/svm/_base.py - 853
Réclamer:
sklearn/feature_selection/_mutual_info.py - 226, 335, 414
sklearn/metrics/cluster/_unsupervised.py - 80
sklearn/utils/_testing.py - 521
sklearn/utils/init.py - 478, 623
Réclamer :
sklearn/dummy.py - 59
sklearn/random_projection.py - 178, 245, 464, 586
@DatenBiene @GregoireMialon Merci pour toutes vos contributions lors du dernier sprint. Il ne reste que 3 modules non cochés !
Seriez-vous intéressé/auriez-vous le temps/la motivation pour vous y attaquer (pas de pression !) ?
Salut Jérémie ! je vais essayer d'y jeter un oeil prochainement
Le mer. 12 févr. 2020 à 15:53, Jérémie du Boisberranger <
[email protected]> un écrit :
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon Merci pour toutes vos contributions
lors du dernier sprint. Il ne reste que 3 modules non cochés !Seriez-vous intéressé / avez-vous le temps / avez-vous la motivation pour vous attaquer à ceux-ci (non
pression !) ?-
Vous recevez ceci parce que vous avez été mentionné.
Répondez directement à cet e-mail, consultez-le sur GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMHJW63LNMVA5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMHJW63LNMVA
ou se désinscrire
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
Salut @jeremiedbb ! Je vais essayer de finir les 3 modules restants aujourd'hui 😃
Réclamer:
sklearn/kernel_approximation.py - 41, 143, 470
sklearn/multiclass.py - 687
sklearn/ensemble/_base.py - 52
Salut @jnothman et @jeremiedbb , ressemble à tous les fichiers qui ont été modifiés. Je serais heureux de vous aider si vous trouvez des problèmes restants.
Merci beaucoup @DatenBiene et tous les contributeurs qui ont travaillé pour clore ce problème !
Je pense que nous pouvons fermer cet énorme!
N'hésitez pas à ouvrir de nouveaux problèmes spécifiques s'il manque encore quelque chose dans la description de random_state
.
Commentaire le plus utile
Nous voulons travailler sur sklearn/preprocessing/_data.py - 2178, 2607
@rachelcjordan et @fabi-cast
wimlds #SciKitLearnSprint