Recientemente agregamos un Glosario a nuestra documentación, que describe parámetros comunes entre otras cosas. Ahora deberíamos reemplazar las descripciones de los parámetros random_state
para hacerlos más concisos e informativos (ver # 10415). Por ejemplo, en lugar de
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
tanto en KMeans como en MiniBatchKMeans, podríamos tener:
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
Por lo tanto, la descripción debe centrarse en cuál es el impacto de random_state
en el algoritmo.
Los contribuyentes interesados en contribuir con este cambio deben tomar un módulo a la vez, inicialmente.
La lista de estimadores a modificar es la siguiente:
Lista de archivos para modificar usando el script kwinata
[x] [sklearn / ensemble / _hist_gradient_boosting / binning.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn / ensemble / _bagging.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
Hola @jnothman , ¿puedo
Reclama un módulo / subpaquete y pruébalo ...
El 30 de enero de 2018 a las 00:24, Somya Anand [email protected] escribió:
Hola @jnothman https://github.com/jnothman , ¿Puedo resolver este problema? Gracias
-
Recibes esto porque te mencionaron.
Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
o silenciar el hilo
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman Lo siento por ser ingenuo, pero ¿puede dar más detalles sobre el módulo / submódulo? Quiero decir, ¿te refieres a un subpaquete como Kmeans, por ejemplo?
Creo que lo que @jnothman significa es simplemente comenzar con un archivo, por ejemplo sklearn / cluster / k_means_.py, actualizar random_state
docstring como en la publicación superior y abrir un PR.
un subpaquete es algo así como sklearn.cluster
Gracias. Haré eso y abriré un PR.
¡Hola! @jnothman
¿También le gustaría reemplazar los siguientes comentarios como se ve en grid_search.py? Tienen una línea adicional en comparación con la que compartes.
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Puedo tomar grid_search.py y k_means.py (KMeans).
deje grid_search.py solo. está en desuso. La idea es minimizar la
contenido que se repite y está disponible en el glosario, para que podamos
dar a los usuarios la descripción más informativa sobre el papel de random_state en
el estimador particular.
Gracias @jnothman. ¿Debo comprender estos algoritmos antes de poder reemplazar esta información de estado aleatorio?
Deberá comprender los algoritmos en general, pero no todos los detalles de
su implementación. Deberá poder encontrar dónde random_state
se utiliza, si la asignación al azar en el algoritmo no es completamente obvia.
En algunos casos, puede ser apropiado ni siquiera dar muchos más detalles que
simplemente enlazando al glosario; tendremos que ver cómo va.
OK gracias. Comenzaré a revisar los algoritmos lentamente.
Saludos,
Shivam Rastogi
Abrí una solicitud de extracción # 10614
Dado que @ aby0 aún no ha reclamado el módulo sklearn.cluster. Me gustaría reclamar todo el módulo. Por favor, avíseme si puedo trabajar en ello o debería trabajar en otra cosa.
¿Alguna actualización chicos? Son unas vacaciones largas para nosotros, así que avíseme si puedo elegir esto.
Tomaré el módulo datasets
ya que ya estoy hurgando en las cadenas de documentos para el # 10731.
Reclamo el módulo linear_model
. levantará un PR pronto. # 11900 levantado.
Reclamando el módulo decomposition
siguiente.
Lista de verificación de los módulos en los que se debe hacer esto:
Tuvimos algunos problemas para llegar a un consenso sobre cómo lograr el equilibrio adecuado
aquí, iirc
Así que preste atención a los RP anteriores fusionados anteriormente
@jnothman gracias! actualizará los PR para mencionar la reproducibilidad al pasar un int.
dispuesto a retomar todos los demás módulos en otro RP, una vez que estos hayan sido revisados ...
Estoy reclamando covarianza.
@BlackTeaAndCoffee , tenga en cuenta que el formato de la cadena de documentos aún no está finalizado, se han producido debates sobre los otros RP enumerados aquí. Así que quizás quieras echarle un vistazo también.
Estoy reclamando feature_extraction
@jnothman , @NicolasHug , acaba de descubrir # 15222 y una serie de relaciones públicas relacionadas con él que no he tenido en cuenta al resumir este ... algunos de ellos nunca han sido revisados ... :(
Para dejar las cosas claras para los sprints, me pregunto si podemos cerrar uno de esos dos problemas: si es así, ¿cuál? Como puedo evitar la información duplicada. Gracias por su colaboración.
No estaba al tanto de este problema (debería haberlo comprobado mejor), me complace cerrar https://github.com/scikit-learn/scikit-learn/issues/15222 a favor de este
Siguiendo el comentario de @jnothman, ¿ quizás este problema podría merecer una etiqueta de 'Moderado'?
Queremos trabajar en ensemble / _hist_gradient_boosting / binning.
@mojc y yo.
@anaisabeldhero y yo queremos trabajar en manifold / *
#wimlds #SciKitLearnSprint
@ daphn3k y trabajaré en sklearn / gaussian_process /
Queremos trabajar en sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan y @ fabi-cast
@Malesche y
reclamando el archivo sklearn / metrics / cluster / _unsupervised.py! #wimlds
@ daphn3k y también tomamos la covarianza / * y los vecinos / * #wimlds
afirmar:
sklearn / dummy.py - 59
sklearn / multioutput.py - 578, 738
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / random_projection.py - 178, 245, 464, 586
PSA: use la oración original
Pase un int para obtener resultados reproducibles en varias llamadas a funciones.
en lugar de lo que veo en las relaciones públicas en este momento:
Use un int para hacer que la aleatoriedad sea determinista
lo cual no es correcto, ya que el RNG siempre es determinista independientemente de lo que se pase
CC @adrinjalali ya que creo que estás en el sprint
trabajando en la red neuronal y la mezcla
PSA: use la oración original
Pase un int para obtener resultados reproducibles en varias llamadas a funciones.
en lugar de lo que veo en las relaciones públicas en este momento:
Use un int para hacer que la aleatoriedad sea determinista
lo cual no es correcto, ya que el RNG siempre es determinista independientemente de lo que se pase
CC @adrinjalali ya que creo que estás en el sprint
Hola @NicolasHug, esto estaba destinado a comentar un PR, supongo ... ¿cuál? :)
vamos a trabajar en scikit-learn / sklearn / model_selection / _validation.py
@cmarmo Ese fue un comentario general para todos los RP. Vi uno y comenté allí, luego vi un segundo y descubrí que era un patrón que se abordaría mejor en la fuente
@cmarmo Ese fue un comentario general para todos los RP. Vi uno y comenté allí, luego vi un segundo y descubrí que era un patrón que se abordaría mejor en la fuente
Lo siento @NicolasHug , mi
@NicolasHug La oración original ha sido corregida en las confirmaciones de @anaisabeldhero y yo.
@Olks y
Reclamar sklearn / ensemble / _iforest.py - 109
Reclamar sklearn / neural_network / _multilayer_perceptron.py - 782, 1174
Reclamar sklearn / ensemble / _weight_boosting.py - 188, 324, 479, 900, 1022
Reclamar sklearn / multioutput.py - 578, 738
Afirmar :
sklearn / blend / _bayesian_mixture.py - 166
sklearn / blend / _base.py - 139
sklearn / blend / _gaussian_mixture.py - 504
Reclamar sklearn / ensemble / _gb.py - 887, 1360
Reclamar sklearn / ensemble / _hist_gradient_boosting / gradient_boosting.py - 736, 918
Reclamar sklearn / neural_network / _rbm.py - 59
Afirmar :
sklearn / svm / _classes.py - 90, 312, 546, 752
sklearn / svm / _base.py - 853
Afirmar:
sklearn / feature_selection / _mutual_info.py - 226, 335, 414
sklearn / metrics / cluster / _unsupervised.py - 80
sklearn / utils / _testing.py - 521
sklearn / utils / init.py - 478, 623
Afirmar :
sklearn / dummy.py - 59
sklearn / random_projection.py - 178, 245, 464, 586
@DatenBiene @GregoireMialon Gracias por todas sus contribuciones durante el último sprint. ¡Solo quedan 3 módulos sin marcar!
¿Estaría interesado / tendría tiempo / motivación para abordarlos (¡sin presión!)?
¡Hola Jérémie! Intentaré echarle un vistazo pronto
Le mer. 12 févr. 2020 a las 15:53, Jérémie du Boisberranger <
[email protected]> a écrit:
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon Gracias por todas sus contribuciones
durante el último sprint. ¡Solo quedan 3 módulos sin marcar!¿Le interesaría / tendría tiempo / motivación para abordarlos (no
presión !) ?-
Recibes esto porque te mencionaron.
Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52GHS4W2MVREXWWK3TUL52GHS4DFZMVREXWK3TUL52GHS4DFMVREX
o darse de baja
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
¡Hola @jeremiedbb! Intentaré terminar los 3 módulos restantes hoy 😃
Afirmar:
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / ensemble / _base.py - 52
Hola @jnothman y @jeremiedbb , parece que todos los archivos se modificaron. Estaré encantado de ayudarte si encuentras algún problema pendiente.
¡Muchas gracias @DatenBiene y todos los colaboradores que trabajaron para cerrar este problema!
¡Creo que podemos cerrar este enorme!
Siéntase libre de abrir nuevos problemas específicos si aún falta algo en la descripción de random_state
.
Comentario más útil
Queremos trabajar en sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan y @ fabi-cast
wimlds #SciKitLearnSprint