Recentemente, adicionamos um glossário à nossa documentação, que descreve os parâmetros comuns entre outras coisas. Devemos agora substituir as descrições dos parâmetros random_state
para torná-los mais concisos e informativos (consulte # 10415). Por exemplo, em vez de
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
em ambos KMeans e MiniBatchKMeans, podemos ter:
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
Portanto, a descrição deve se concentrar em qual é o impacto de random_state
no algoritmo.
Os colaboradores interessados em contribuir com essa mudança devem assumir um módulo de cada vez, inicialmente.
A lista de estimadores a serem modificados é a seguinte:
Lista de arquivos para modificar usando o script kwinata
[x] [sklearn / ensemble / _hist_gradient_boosting / binning.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn / ensemble / _bagging.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
Olá @jnothman , posso resolver este problema? Obrigado
Solicite um módulo / subpacote e vá ...
Em 30 de janeiro de 2018 às 00h24, Somya Anand [email protected] escreveu:
Olá @jnothman https://github.com/jnothman , Posso resolver esse problema? Obrigado
-
Você está recebendo isso porque foi mencionado.
Responda a este e-mail diretamente, visualize-o no GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
ou silenciar o tópico
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman Me desculpe por ser ingênuo, mas você pode explicar melhor o módulo / submódulo? Quer dizer, você está se referindo a um subpacote como Kmeans, por exemplo?
Acho que @jnothman significa apenas começar com um arquivo, por exemplo sklearn / cluster / k_means_.py, atualizar o random_state
docstring como no post superior e abrir um PR.
um subpacote é algo como sklearn.cluster
Obrigado. Vou fazer isso e abrir um PR.
Oi! @jnothman
Você também gostaria de substituir os comentários a seguir, conforme vistos em grid_search.py? Eles têm uma linha extra em comparação com a compartilhada por você.
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Posso pegar grid_search.py e k_means.py (KMeans).
deixe grid_search.py sozinho. está obsoleto. A ideia é minimizar o
conteúdo que se repete e fica disponível no glossário, para que possamos
dar aos usuários uma descrição mais informativa sobre o papel de random_state em
o estimador particular.
Obrigado @jnothman. Precisarei entender esses algoritmos antes de substituir essas informações random_state?
Você precisará entender os algoritmos de forma ampla, mas não todos os detalhes de
sua implementação. Você precisará encontrar onde random_state
é usado, se a randomização no algoritmo não for completamente óbvia.
Em alguns casos, pode ser apropriado nem mesmo dar muito mais detalhes do que
apenas ligando para o glossário; vamos ter que ver como vai.
Ok, obrigado. Vou começar a examinar os algoritmos lentamente.
Cumprimentos,
Shivam Rastogi
Eu abri uma solicitação pull # 10614
Uma vez que @ aby0 ainda não reivindicou o módulo sklearn.cluster. Eu gostaria de reivindicar todo o módulo. Por favor, deixe-me saber se eu posso trabalhar nisso ou se devo trabalhar em outra coisa.
Alguma atualização pessoal? É um feriado longo para nós, então me diga se eu posso escolher este.
Vou pegar o módulo datasets
, pois já estou vasculhando as docstrings por # 10731.
Estou reivindicando o módulo linear_model
. vai levantar um PR em breve. # 11900 gerado.
A seguir, reivindicando o módulo decomposition
.
Lista de verificação dos módulos onde isso precisa ser feito:
Tivemos alguns problemas para chegar a um consenso sobre como encontrar o equilíbrio certo
aqui iirc
Portanto, preste atenção aos PRs anteriores combinados acima
@jnothman obrigado! atualizará os PRs para mencionar a reprodutibilidade ao passar um int.
disposto a assumir todos os outros módulos em outro PR, uma vez que estes tenham sido revisados ...
Estou reivindicando covariância.
@BlackTeaAndCoffee , esteja ciente, o formato da string doc ainda não foi finalizado, discussões estão acontecendo nos outros PRs listados aqui. Então você pode querer dar uma olhada também.
Estou reivindicando feature_extraction
@jnothman , @NicolasHug , acabou de descobrir o # 15222 e uma série de RP relacionadas a ele que não levei em consideração ao resumir este ... alguns deles nunca foram revisados ... :(
Para deixar as coisas claras para os sprints, gostaria de saber se podemos encerrar um desses dois problemas: se sim, qual? Como posso evitar informações duplicadas. Agradecemos a sua colaboração.
Eu não estava ciente desse problema (deveria ter verificado melhor), estou feliz em fechar https://github.com/scikit-learn/scikit-learn/issues/15222 em favor deste aqui
Seguindo o comentário de @jnothman, talvez esse problema mereça um rótulo de 'Moderado'?
Queremos trabalhar em ensemble / _hist_gradient_boosting / binning.
@mojc e eu.
@anaisabeldhero e eu queremos trabalhar no manifold / *
#wimlds #SciKitLearnSprint
@ daphn3k e eu trabalharemos em sklearn / gaussian_process /
Queremos trabalhar em sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan e @ fabi-cast
Eu e @Malesche queremos fazer o sklearn / inspect / _permutation_importance.py
reivindicando o arquivo sklearn / metrics / cluster / _unsupervised.py! #wimlds
@ daphn3k e eu também consideramos a covariância / * e os vizinhos / * #wimlds
alegar:
sklearn / dummy.py - 59
sklearn / multioutput.py - 578, 738
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / random_projection.py - 178, 245, 464, 586
PSA: por favor, use a frase original
Passe um int para resultados reproduzíveis em várias chamadas de função.
em vez do que estou vendo nos PRs no momento:
Use um int para tornar a aleatoriedade determinística
o que não é correto, uma vez que o RNG é sempre determinístico, independentemente do que é passado
CC @adrinjalali já que acho que você está no sprint
trabalhando na rede neural e mistura
PSA: por favor, use a frase original
Passe um int para resultados reproduzíveis em várias chamadas de função.
em vez do que estou vendo nos PRs no momento:
Use um int para tornar a aleatoriedade determinística
o que não é correto, uma vez que o RNG é sempre determinístico, independentemente do que é passado
CC @adrinjalali já que acho que você está no sprint
Olá @NicolasHug, pretendia comentar um PR, suponho ... qual? :)
vai trabalhar em scikit-learn / sklearn / model_selection / _validation.py
@cmarmo Esse foi um comentário geral para todos os PRs. Eu vi um e comentei lá, depois vi um segundo e descobri que era um padrão que seria melhor abordado na fonte
@cmarmo Esse foi um comentário geral para todos os PRs. Eu vi um e comentei lá, depois vi um segundo e descobri que era um padrão que seria melhor abordado na fonte
Desculpe @NicolasHug , que pena, não achei o comentário fácil de rastrear.
@NicolasHug A frase original foi corrigida nos commits de @anaisabeldhero e de mim
Eu e a @Olks afirmamos sklearn / utils / extmath.py - 185, 297
Reivindicar sklearn / ensemble / _iforest.py - 109
Reivindicar sklearn / neural_network / _multilayer_perceptron.py - 782, 1174
Reivindique sklearn / ensemble / _weight_boosting.py - 188, 324, 479, 900, 1022
Reivindique sklearn / multioutput.py - 578, 738
Alegar :
sklearn / blend / _bayesian_mixture.py - 166
sklearn / blend / _base.py - 139
sklearn / blend / _gaussian_mixture.py - 504
Reivindicar sklearn / ensemble / _gb.py - 887, 1360
Reivindique sklearn / ensemble / _hist_gradient_boosting / gradient_boosting.py - 736, 918
Reivindicar sklearn / neural_network / _rbm.py - 59
Alegar :
sklearn / svm / _classes.py - 90, 312, 546, 752
sklearn / svm / _base.py - 853
Alegar:
sklearn / feature_selection / _mutual_info.py - 226, 335, 414
sklearn / metrics / cluster / _unsupervised.py - 80
sklearn / utils / _testing.py - 521
sklearn / utils / init.py - 478, 623
Alegar :
sklearn / dummy.py - 59
sklearn / random_projection.py - 178, 245, 464, 586
@DatenBiene @GregoireMialon Obrigado por todas as suas contribuições durante o último sprint. Existem apenas 3 módulos desmarcados!
Você estaria interessado / teria tempo / motivação para lidar com isso (sem pressão!)?
Oi Jérémie! Vou tentar dar uma olhada nisso logo
Le mer. 12 de fevereiro. 2020 à 15:53, Jérémie du Boisberranger <
notificaçõ[email protected]> a écrit:
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon Obrigado por todas as suas contribuições
durante o último sprint. Existem apenas 3 módulos desmarcados!Você estaria interessado / teria tempo / motivação para lidar com eles (não
pressão !) ?-
Você está recebendo isso porque foi mencionado.
Responda a este e-mail diretamente, visualize-o no GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGOELRBT2A#issuecomment-585243112 ,
ou cancelar
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
Olá @jeremiedbb! Vou tentar terminar os 3 módulos restantes hoje 😃
Alegar:
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / ensemble / _base.py - 52
Olá @jnothman e @jeremiedbb , parece que todos os arquivos foram modificados. Eu ficaria feliz em ajudar se você encontrar algum problema remanescente.
Muito obrigado @DatenBiene e todos os colaboradores que trabalharam para encerrar esta edição!
Acho que podemos fechar este enorme!
Sinta-se à vontade para abrir novos problemas específicos se algo ainda estiver faltando random_state
descrição de
Comentários muito úteis
Queremos trabalhar em sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan e @ fabi-cast
wimlds #SciKitLearnSprint