Scikit-learn: Corrija a documentação dos valores padrão em todas as classes

Criado em 2 dez. 2019 · 118Comentários · Fonte: scikit-learn/scikit-learn

Descrição

A documentação dos valores padrão em muitas classes não está incluída, é inconsistente na forma como está escrita ou está desatualizada. Eu gostaria de reunir algumas pessoas para trabalhar na documentação dos valores padrão para cada classe, pois há uma tonelada de classes onde esses problemas existem. Disseram-me que os valores padrão devem ser documentados como "default = <'value'>" e, portanto, estou criando este problema com base nessa suposição.

Solução

Aqui estão algumas coisas que eu vi para os parâmetros que devem ser alterados:

nenhuma menção sobre se há um padrão deve ser verificado em relação ao código, pois alguns parâmetros estão totalmente ausentes
"opcional" deve ser alterado para "default = <'valor'>"
certifique-se de que a forma como os valores padrão são documentados seja consistente com a classe, ou seja, mude tudo para o formato "default = <'valor'>"
Modifique um único arquivo por PR

Se algumas pessoas trabalharem em algumas aulas cada, isso deverá ser feito em um piscar de olhos! Todas essas soluções devem ser bem simples.

#### Exemplos
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html
O link acima é um exemplo onde os valores padrão não são indicados, mas os parâmetros dizem "opcional", e aqueles com valores padrão indicados são todos documentados de forma inconsistente.

Sprint good first issue

Fonte

cgsavard

👍5

Comentários muito úteis

Falando logicamente, se um parâmetro for opcional, o padrão não deveria ser None sempre? Ter um parâmetro com um valor padrão diferente de None sugere que ele deve ser obrigatório.

Se houver um padrão, isso geralmente significa que a literatura considerou este um valor padrão razoável, o que também sugere que este parâmetro tem um impacto no desempenho e, portanto, não deve ser opcional, mas deve apenas mencionar qual é o padrão. Esses parecem mais próximos dos parâmetros exigidos por definição, apenas fizemos uma escolha sensata para o usuário, para que ele possa alterá-lo ou não.

Ou, de forma mais prática, existe atualmente algum parâmetro opcional que encontramos com valores numéricos padrão, mas para o qual a especificação de None gerará uma exceção? Isso também sugere que o parâmetro é realmente necessário, mas que um padrão sensato foi escolhido com base na literatura / pesquisa.

Ou talvez eu tenha confundido o significado de required e optional todos esses anos? Lol. Com certeza adoraria ajudar nisso de qualquer maneira!

jmwoloso em 6 dez. 2019

👍4

Todos 118 comentários

Olá @cgsavard , gostaria de trabalhar nisso. Posso começar a olhar para a classe AgglomerativeClustering?

vachanda em 3 dez. 2019

@vachanda Vá em frente! Podemos continuar postando aqui em quais trabalhamos para que outros saibam.

cgsavard em 3 dez. 2019

Obrigado por coordenar este @cgsavard

Observação para contribuidores: siga as diretrizes em: https://scikit-learn.org/stable/developers/contributing.html#guidelines -for-writing-documentation

adrinjalali em 3 dez. 2019

@cgsavard , Existe uma lista de classes que apresentam discrepâncias ou temos que passar por cada uma delas e atualizá-las?

vachanda em 4 dez. 2019

@vachanda Infelizmente não tenho uma lista. Acabei de examinar os arquivos e ver o que precisa ser atualizado.

cgsavard em 4 dez. 2019

Estou trabalhando em AffinityPropagation, SpectralCoclustering, SpectralBiclustering e Birch.

cgsavard em 4 dez. 2019

Estou trabalhando em FeatureAgglomeration, KMeans e MiniBatchKMeans.

vachanda em 6 dez. 2019

Falando logicamente, se um parâmetro for opcional, o padrão não deveria ser None sempre? Ter um parâmetro com um valor padrão diferente de None sugere que ele deve ser obrigatório.

Ou talvez eu tenha confundido o significado de required e optional todos esses anos? Lol. Com certeza adoraria ajudar nisso de qualquer maneira!

jmwoloso em 6 dez. 2019

👍4

@jmwoloso Estávamos realmente inconsistentes em relação ao uso de optional e, portanto, recentemente decidimos removê-lo.

glemaitre em 6 dez. 2019

🚀1

eu quero contribuir também. posso ir em frente com isso?

cyrus303 em 6 dez. 2019

@glemaitre ok, isso definitivamente faz sentido. então estamos removendo o verbage optional todos juntos, certo, enquanto também observamos os valores padrão nas strings de doc?

cada um deles que encontramos deve ser aberto como um problema separadamente ou como estamos encenando todo esse trabalho que estamos fazendo, já que várias pessoas estão trabalhando em várias coisas relacionadas a esse único problema?

jmwoloso em 6 dez. 2019

@ cyrus303 @jmwoloso Você pode obter uma classe (no máximo um módulo) e corrigi-la. A ideia é remover o opcional e adicionar um padrão quando houver um (geralmente há um). Já que estamos tocando na documentação, devemos ter certeza de que o estilo na linha segue nosso novo guia de estilo: https://scikit-learn.org/dev/developers/contributing.html#guidelines -for-writing-documentation

Você pode mencionar em qual turma / módulo está trabalhando, abra um link de RP para evitar a duplicação de esforços :). Ansioso para revisá-lo.

glemaitre em 6 dez. 2019

👍1

Ei! Vou trabalhar em tree classes ( tree.DecisionTreeClassifier , tree.DecisionTreeRegressor , tree.ExtraTreeClassifier e tree.ExtraTreeRegressor ).

alfaro96 em 11 dez. 2019

Também irei corrigir esse problema para o módulo neighbors .

alfaro96 em 17 dez. 2019

Vou fazer o módulo ensemble .

jmwoloso em 21 dez. 2019

@glemaitre alguma preferência em bool vs. boolean ? vendo uma mistura de ambos em ensemble , mesmo na mesma classe. pode muito bem colocá-los em forma enquanto estou corrigindo os padrões.

EDITAR:

idem para int vs integer . Estou presumindo int nesse caso, mas queria confirmar.

EDITAR (novamente):

também vendo docstrings com valores inconsistentes em relação à assinatura __init__ para essa classe, por exemplo:

min_impurity_split para RandomForestClassifier

a assinatura __init__ tem min_impurity_split=None enquanto os docstrings dizem min_impurity_split : float, (default=0) . Eu assumiria atualizar os docstrings para coincidir com a assinatura, uma vez que queremos manter o comportamento da classe consistente (ou seja, queremos os mesmos padrões passados na instanciação)?

jmwoloso em 21 dez. 2019

@jmwoloso Você poderia consultar https://scikit-learn.org/stable/developers/contributing.html#guidelines -for-writing-documentation. Basicamente, você deve usar como padrão o nome do tipo python (bool, str, int, float)

a assinatura __init__ tem min_impurity_split = None enquanto os docstrings para ela dizem min_impurity_split: float, (padrão = 0). Eu assumiria atualizar os docstrings para coincidir com a assinatura, uma vez que queremos manter o comportamento da classe consistente (ou seja, queremos os mesmos padrões passados na instanciação)?

Devemos combinar o parâmetro na assinatura da função. Este parâmetro padrão de valor foi alterado e a docstring não foi atualizada.

glemaitre em 21 dez. 2019

👍2

Olá @cgsavard , gostaria de contribuir, mas esta será minha primeira vez, então preciso de alguma ajuda. Estou bastante familiarizado com o python, um pouco prático com editores de texto e recentemente passei pelo fork -> clone -> editar -> tutorial de fluxo de trabalho de RP aqui . Por favor, avise o próximo passo ... Obrigado!

mghah em 22 dez. 2019

Olá @cgsavard ,
Posso trabalhar no Imputer?

pulkitmehtawork em 22 dez. 2019

Olá @cgsavard , quero trabalhar na aula de linear_model .

ankishb em 22 dez. 2019

Também estou trabalhando em Neural Network , Decomposition , Feature Extraction , Metrics e Preprocess classes.

ankishb em 22 dez. 2019

alguém pode verificar meu pr # 15964 e ver por que o código cov está falhando. Esta é a minha primeira contribuição. Por favor, guie.

pulkitmehtawork em 24 dez. 2019

Ignore codecov. Este é um falso positivo, pois não alteramos o código. Vou revisar em breve o PR

Enviado do meu telefone - desculpe ser breve e pode ser um erro ortográfico.

glemaitre em 24 dez. 2019

👍2

Acabei de fazer minha primeira contribuição # 15988

mghah em 30 dez. 2019

Vou fazer o módulo naive_bayes .

tamirlan1 em 3 jan. 2020

Acabei de fazer minha primeira contribuição # 16019

tamirlan1 em 3 jan. 2020

Olá a todos, trabalhando em sklearn/neighbors , obrigado.

mghah em 4 jan. 2020

Contribuído para sklearn / semi_supervised. Obrigado

shubchat em 7 jan. 2020

Olá @cgsavard , gostaria de contribuir também, vou fazer o módulo sklearn/svm . Obrigado

tituschristian em 8 jan. 2020

Contribuído para sklearn / semi_supervised. Obrigado
Há alguma outra edição necessária no PR # 16042

shubchat em 9 jan. 2020

@glemaitre em # 16105, tive que me aprofundar um pouco nas construções para buscar valores padrão, docstrings pareciam imprecisos e desatualizados às vezes.

Também tentei usar uma forma menos ambígua, concisa e matematicamente rigorosa de definir intervalos de parâmetros. por exemplo, mudei positive float para float in (0, inf] ou 0<= shrinkage <=1 para float in (0, 1) . Resumindo, fiz o melhor que pude para ser conciso e preciso, mas preste 5% mais atenção ao revisar este PR. Obrigado.

mghah em 11 jan. 2020

@cgsavard , este é um assunto muito bom para um sprint! Se você concordar com isso, estou planejando adicioná-lo à nossa lista de Sprint. Eu resumi as aulas que já foram ministradas por um PR e seu PR correspondente aqui .
Você se importa em vincular a essência na descrição do problema? Isso tornará as informações disponíveis desde o início. Também posso pedir que você esclareça na descrição que cada RP deve endereçar um arquivo (no máximo um módulo) por vez, conforme explicado aqui ? Isso realmente ajudará os colaboradores e revisores! Muito obrigado!

cmarmo em 16 jan. 2020

Para os interessados neste assunto, o comando

git grep "optional.*default"

irá imprimir os arquivos ainda afetados por este problema (obrigado @ogrisel! :)).

cmarmo em 16 jan. 2020

🎉1

@cgsavard Olá, gostaria de trabalhar em model_selection @WiMLDS

marielledado em 25 jan. 2020

@lopusz e eu queremos trabalhar em random_projection.py

Divirta-se com todos!

@adrinjalali @noatamir @WiMLDS

magda-zielinska em 25 jan. 2020

@ ETay203 e eu gostaríamos de trabalhar no sprint mean_shift @WiMLDS_Berlin .

mjmolina em 25 jan. 2020

@ magda-zielinska e eu queremos trabalhar no pipeline.py

@adrinjalali @noatamir @WiMLDS

lopusz em 25 jan. 2020

@lopusz e @ magda-zielinska e eu queremos trabalhar no kernel_approximation.py

fraboeni em 25 jan. 2020

Vou abordar o _optics.py agora

ETay203 em 25 jan. 2020

Reabertura: foi fechada pela palavra-chave "Correções" em # 16216.

cmarmo em 26 jan. 2020

Reabertura: foi fechada pela palavra-chave "Correções" em # 16207

cmarmo em 27 jan. 2020

Vou lidar com sklearn / linear_model / _coordinate_descent.py agora

hs-nazuna em 29 jan. 2020

Limpei o base.py e enviei o PR

lopusz em 29 jan. 2020

Limpei discriminant_analysis.py e enviei um PR

lopusz em 30 jan. 2020

Vou dar uma olhada agora em sklearn / gaussian_process / *. Py

lopusz em 2 fev. 2020

Já existe uma longa proposta para os GPs

adrinjalali em 2 fev. 2020

@lopusz minhas desculpas, que o PR estava tocando em outras questões do módulo GP, você pode ir em frente e trabalhar nisso se não se importar :)

adrinjalali em 3 fev. 2020

@adrinjalali Obrigado por ficar de olho nisso!

Na verdade, eu não escaneei os PRs abertos bem o suficiente, então o fato de os GPs não serem feitos é mais um acidente;)

Vou me certificar de manter o controle do que é PRed.

E sim PR para GPs está chegando;)

lopusz em 5 fev. 2020

Há mais alguma coisa a ser feita aqui?

andrewasche em 19 abr. 2020

Estou trabalhando em sklearn/decomposition/_dict_learning.py

reshamas em 28 mai. 2020

O que resta fazer? Estou aberto para ajudar. . .

andrewasche em 31 mai. 2020

Descobrir o que resta é provavelmente um bom lugar para começar a ajudar :)

adrinjalali em 5 jun. 2020

Olá, estive pesquisando para ver o que sobrou. Acho que ainda há algumas atualizações a serem feitas em alguns dos módulos examinados anteriormente.
Eu iria trabalhar com eles, começando com o módulo de cluster e poderia levantar um PR para cada módulo à medida que avançava?
Esta é minha primeira contribuição, por favor, me avise se não estou seguindo o processo corretamente, etc.
Obrigado!

pgithubs em 5 jun. 2020

Esta é a lista de funções, classes e módulos que ainda precisam ser corrigidos:

[x] sklearn.feature_selection.SelectorMixin
[x] sklearn.config_context
[x] sklearn.set_config
[x] sklearn.calibration.CalibratedClassifierCV
[x] sklearn.cluster.OPTICS
[x] sklearn.cluster.SpectralClustering
[x] sklearn.cluster.affinity_propagation
[x] sklearn.cluster.cluster_optics_dbscan
[x] sklearn.cluster.cluster_optics_xi
[x] sklearn.cluster.compute_optics_graph
[x] sklearn.cluster.mean_shift
[x] sklearn.cluster.spectral_clustering
[x] sklearn.cluster.ward_tree
[x] sklearn.cross_decomposition.CCA
[x] sklearn.cross_decomposition.PLSCanonical
[x] sklearn.cross_decomposition.PLSRegression
[x] sklearn.cross_decomposition.PLSSVD
[x] sklearn.datasets
[x] sklearn.decomposition
[x] sklearn.dummy
[x] sklearn.ensemble.HistGradientBoostingRegressor (experimental)
[x] sklearn.ensemble.HistGradientBoostingRegressor (experimental)
[x] sklearn.feature_extraction.image.grid_to_graph
[x] sklearn.feature_extraction.image.img_to_graph
[x] sklearn.feature_extraction.text.CountVectorizer
[x] sklearn.feature_extraction.text.HashVectorizer
[x] sklearn.feature_selection
[x] sklearn.impute
[x] sklearn.inspection.partial_dependence
[x] sklearn.inspection.permutation_importance
[x] sklearn.inspection.permutation_importance
[x] sklearn.inspection.PartialDependenceDisplay
[x] sklearn.inspection.plot_partial_dependence
[x] sklearn.isotonic.IsotonicRegression
[x] sklearn.isotonic.check_increasing
[x] sklearn.isotonic.isotonic_regression
[x] sklearn.kernel_approximation
[x] sklearn.kernel_ridge
[x] sklearn.linear_model.PassiveAggressiveClassifier
[x] sklearn.linear_model.LassoLars
[x] sklearn.linear_model.OrthogonalMatchingPursuit
[x] sklearn.linear_model.HuberRegressor
[x] sklearn.linear_model.RANSACRegressor
[x] sklearn.linear_model.TheilSenRegressor
[x] sklearn.linear_model.PassiveAggressiveRegressor
[x] sklearn.linear_model.orthogonal_mp
[x] sklearn.linear_model.orthogonal_mp_gram
[x] sklearn.manifold
[x] sklearn.metrics (exceto sklearn.metrics.confusion_matrix , sklearn.metrics.roc_auc_score , sklearn.metrics.max_error sklearn.metrics.mean_poisson_deviance , sklearn.metrics.mean_gamma_deviance , sklearn.metrics.mean_tweedie_deviance , sklearn.metrics.plot_confusion_matrix , sklearn.metrics.plot_precision_recall_curve )
[x] sklearn.mixture
[x] sklearn.model_selection.GridSearchCV
[x] sklearn.model_selection.ParameterGrid
[x] sklearn.model_selection.ParameterSampler
[x] sklearn.model_selection.RandomizedSearchCV
[x] sklearn.model_selection.fit_grid_point
[x] sklearn.multiclass
[x] sklearn.multioutput
[x] sklearn.neural_network
[x] sklearn.preprocessing
[x] sklearn.random_projection
[x] sklearn.tree.export_graphviz
[x] sklearn.tree.export_text
[x] sklearn.tree.plot_tree
[x] sklearn.utils

Espero não estar perdendo nada.

alfaro96 em 5 jun. 2020

Oi. Vou tentar fazer uma passagem na documentação feature_selection

kohakukun em 6 jun. 2020

Pegamos a parte sklearn.mixture

violetr em 6 jun. 2020

Tomando cross_decomposition part

kohakukun em 6 jun. 2020

Para o 2020 Scikit-Learn Sprint, @ icoder18 e eu estamos participando da parte sklearn.random_projection

mobigelow em 6 jun. 2020

@adrinjalali completamos sklearn / blend

violetr em 6 jun. 2020

Trabalhando no sklearn.linear_model para o sprint com @genvalen

parthsuresh em 6 jun. 2020

Leve sklearn.calibration.CalibratedClassifierCV

asubramaniyan em 6 jun. 2020

Trabalhando nisso para sklearn.utils.validation

neinkeinkaffee em 6 jun. 2020

Em seguida, abordaremos sklearn.utils.random

neinkeinkaffee em 6 jun. 2020

trabalhando em sklearn.impute

mobigelow em 6 jun. 2020

Trabalhando em sklearn.tree.plot_tree

madelgi em 6 jun. 2020

A Tabela 14 pegará sklearn.neural_network

amy12xx em 6 jun. 2020

Veja sklearn.kernel_approximation

asubramaniyan em 6 jun. 2020

Pegando sklearn.inspection

icoder18 em 6 jun. 2020

A Tabela 14 levará sklearn.preprocessing

amy12xx em 6 jun. 2020

Pegando conjuntos de dados

mobigelow em 6 jun. 2020

Tomando sklearn.mixture # 17509

amy12xx em 6 jun. 2020

Lista atualizada.

Obrigado a todos!

alfaro96 em 6 jun. 2020

Tomando sklearn.metrics para sprint

genvalen em 7 jun. 2020

Tirando o módulo model_selection

kohakukun em 7 jun. 2020

@glemaitre Podemos atualizar a descrição disso para incluir que seria melhor enviar um arquivo por vez?

reshamas em 9 jun. 2020

Olá, gostaria de contribuir. No entanto, é a minha primeira vez ... E não está claro para mim como posso saber em qual módulo ainda há trabalho a ser feito? Obrigado !

clmbst em 19 jun. 2020

https://github.com/scikit-learn/scikit-learn/issues/15761#issuecomment -639461778 contém a lista de módulos que ainda precisam ser corrigidos.

alfaro96 em 19 jun. 2020

Obrigado. Pegue sklearn.decomposition então.

clmbst em 19 jun. 2020

Estou trabalhando em 'sklearn.isotonic.isotonic_regression'

Cristinamulas em 20 jun. 2020

Estou trabalhando em 'sklearn.multiclass.py'

Cristinamulas em 20 jun. 2020

Olá, posso tentar tirar o restante em sklearn.tree ? Esta seria a minha primeira vez contribuindo também.

m-vd em 4 jul. 2020

Obrigado por se registrar, ótimo ter sua ajuda! Prossiga; Acho que todas as nossas atualizações de sprint foram encerradas.

Em 4 de julho de 2020, às 10:45, Ivan Wiryadi [email protected] escreveu:

Olá, posso tentar tirar o restante em sklearn.tree? Esta seria a minha primeira vez contribuindo também.
-
Você está recebendo isto porque comentou.
Responda a este e-mail diretamente, visualize-o no GitHub ou cancele a inscrição.

mobigelow em 4 jul. 2020

Olá, gostaria de dar minha primeira contribuição. Posso fazer sklearn.multioutput?

franslarsson em 5 jul. 2020

Vou continuar com sklearn.utils, começando com _encode.py

franslarsson em 8 jul. 2020

Estou trabalhando em sklearn/decomposition/_dict_learning.py

TahiriNadia em 11 jul. 2020

Estou trabalhando em sklearn.kernel_ridge no sprint

mikeaalv em 11 jul. 2020

Olá, vou começar a trabalhar em sklearn.feature_extraction.image.img_to_graph

tijanajovanovic em 11 jul. 2020

Estou trabalhando em sklearn.feature_extraction.text.CountVectorizer

Probinette4 em 11 jul. 2020

Estou trabalhando em sklearn.sklearn.kernel_ridge

TahiriNadia em 11 jul. 2020

Estou trabalhando em sklearn.ensemble.HistGradientBoostingRegressor

Hoda1394 em 11 jul. 2020

"Eu estou trabalhando nisso"

nisto? @ Hoda1394

TahiriNadia em 11 jul. 2020

"Eu estou trabalhando nisso"
nisto? @ Hoda1394

@TahiriNadia corrigido.

Hoda1394 em 11 jul. 2020

👍1

@cgsavard Ei, posso trabalhar nisso? Eu sou um novato

Praveenk8051 em 24 jul. 2020

Vou trabalhar nos arquivos em sklearn.datasets .

JinLi711 em 25 jul. 2020

Posso trabalhar em sklearn.linear_model._least_angle.py

sadakmed em 2 ago. 2020

@glemaitre Estou trabalhando em sklearn.linear_model._least_angle.py e encontrei uma inconsistência no uso de method ='lar' às vezes indica lars às vezes lar , essa inconsistência também está em código (não apenas na documentação), posso ver que lars é o correto, você poderia confirmá-lo e eu farei um PR.

sadakmed em 2 ago. 2020

trabalhando em 'sklearn/ensemble/_hist_gradient_boosting/binning.py'

sadakmed em 2 ago. 2020

arquivos precisam de mudança:

sklearn / _config.py
sklearn / dummy.py
sklearn / multioutput.py
sklearn / linear_model / _huber.py
sklearn / linear_model / _theil_sen.py
sklearn / linear_model / _ridge.py
sklearn / linear_model / _omp.py
sklearn / linear_model / _sag.py
sklearn / externals / _lobpcg.py
sklearn / externals / _lobpcg.py
sklearn / utils / extmath.py
sklearn / utils / __ init__.py
sklearn / utils / graph.py
sklearn / utils / _mocking.py
sklearn / utils / sparsefuncs.py
sklearn / neighbours / _base.py
sklearn / gaussian_process / _gpc.py
sklearn / gaussian_process / kernels.py
sklearn / model_selection / _validation.py
~ sklearn / decomposition / _fastica.py ~
~ sklearn / decomposition / _dict_learning.py ~
~ sklearn / decomposition / _factor_analysis.py ~
~ sklearn / decomposition / _incremental_pca.py ~
~ sklearn / decomposition / _lda.py ~
~ sklearn / decomposition / _pca.py ~
~ sklearn / decomposition / _truncated_svd.py ~
~ sklearn / decomposition / _sparse_pca.py ~
~ sklearn / decomposition / _nmf.py ~
sklearn / manifold / _mds.py
sklearn / manifold / _spectral_embedding.py
sklearn / manifold / _t_sne.py
sklearn / ensemble / _hist_gradient_boosting / grower.py
sklearn / ensemble / _hist_gradient_boosting / binning.py
sklearn / metrics / _ranking.py
sklearn / tree / _classes.py
sklearn / preprocessing / _discretization.py
sklearn / preprocessing / _encoders.py linha 620
sklearn / neural_network / _multilayer_perceptron.py linha 1054
sklearn / covariance / _robust_covariance.py

Por favor, verifique se alguém já está trabalhando / trabalhou no arquivo que você escolheu

sadakmed em 2 ago. 2020

@sadakmed , para todos os "arquivos de decomposição", há uma solicitação de pull # 17739 em andamento.

clmbst em 3 ago. 2020

👍1

trabalhando em "gaussian_process.GaussianProcessRegressor" e "neighbors._base.py"

sadakmed em 3 ago. 2020

Olá, sou novo e gostaria de começar a contribuir. Você ainda precisa de ajuda com esse problema? há algum arquivo com o qual você ainda precisa de ajuda?

boricles em 31 ago. 2020

Ei @boricles!

Dê uma olhada em https://github.com/scikit-learn/scikit-learn/issues/15761#issuecomment -639461778 para obter uma lista com os módulos ainda a serem corrigidos.

alfaro96 em 31 ago. 2020

@ alfaro96 obrigado. Eu dei uma olhada rápida agora mesmo. Vou selecionar um módulo esta noite e trabalhar nele.

boricles em 31 ago. 2020

Estou trabalhando em sklearn / config_context

boricles em 1 set. 2020

Ei, pensei em ver se poderia ajudar com os documentos.

@ alfaro96 Eu gostaria de trabalhar em sklearn.feature_extraction.text.CountVectorizer , se ainda não tiver sido feito, especialmente porque eu pessoalmente encontrei algumas armadilhas ao trabalhar com vetorizadores no passado.

Além disso, notei que embora sklearn.model_selection.learning_curve sido atualizado, há um tutorial desatualizado usando a documentação antiga , devo deixá-lo como está? Ou vale a pena atualizar?

madprogramer em 5 set. 2020

Olá @ alfaro96 ,

após as edições:
Vejo que sklearn.config_context e sklearn.set_config de sklearn.config_config.py foram corrigidos para que possam ser retirados da lista de tarefas .

Eu gostaria de trabalhar em sklearn.utils . Eu vi apenas uma instância de documentação de parâmetro onde 'opcional' é usado. Isso significa que eu preciso corrigir apenas essa instância, correto? Está em sklearn.utils._mocking.py

haiatn em 5 set. 2020

Ei, pensei em ver se poderia ajudar com os documentos.

Ei @madprogramer ,

@ alfaro96 Eu gostaria de trabalhar em sklearn.feature_extraction.text.CountVectorizer , se ainda não tiver sido feito, especialmente porque eu pessoalmente encontrei algumas armadilhas ao trabalhar com vetorizadores no passado.

~ Eu dei uma olhada na lista de verificação e na referência de sklearn.feature_extraction.text.CountVectorizer e ela não parece estar corrigida. Um PR seria bem-vindo. ~

Editar: O sklearn.feature_extraction.text.CountVectorizer já está corrigido.

Além disso, percebi que, embora sklearn.model_selection.learning_curve sido atualizado, há um tutorial desatualizado usando a documentação antiga , devo deixá-lo como está? Ou vale a pena atualizar?

Vale a pena atualizar, embora deva ser feito em um PR à parte.

Obrigada!

alfaro96 em 6 set. 2020

👍1

Olá @ alfaro96 ,

Ei @haiatn ,

após as edições:
Vejo que sklearn.config_context e sklearn.set_config de sklearn.config_config.py foram corrigidos para que possam ser retirados da lista de tarefas .

Eu atualizei a lista de verificação .

Eu gostaria de trabalhar em sklearn.utils . Eu vi apenas uma instância de documentação de parâmetro onde 'opcional' é usado. Isso significa que eu preciso corrigir apenas essa instância, correto? Está em sklearn.utils._mocking.py

Essa é a ideia, embora as classes no arquivo sklearn.utils._mocking.py não façam parte da API pública, então não acho que valha a pena atualizá-las.

No entanto, seria bom se você pudesse trabalhar em qualquer uma das outras funções, classes e módulos que estão pendentes de correção.

Obrigada!

alfaro96 em 6 set. 2020

👍1

Eu olhei a lista de verificação. Pelo que vi, o seguinte pode ser verificado na lista de verificação:

sklearn.feature_extraction.image.img_to_graph
sklearn.isotonic.IsotonicRegression
sklearn.isotonic.check_increasing
Não encontrei o arquivo sklearn.ensemble.HistGradientBoostingRegressor mas todo sklearn.ensemble está OK

Posso trabalhar em sklearn.manifold._spectral_embedding e sklearn.feature_extraction.text.HashVectorizer ? Farei isso em relações públicas separadas. Eu acho que eles são os únicos arquivos restantes que precisam de conserto (assumindo que sklearn.feature_extraction.text.CountVectorizer foi retirado).

haiatn em 6 set. 2020

Eu olhei a lista de verificação. Pelo que vi, o seguinte pode ser verificado na lista de verificação:
sklearn.feature_extraction.image.img_to_graph
sklearn.isotonic.IsotonicRegression
sklearn.isotonic.check_increasing

Obrigado @haiatn , atualizei a lista de verificação.

Não encontrei o arquivo sklearn.ensemble.HistGradientBoostingRegressor mas todo sklearn.ensemble está OK

Os sklearn.ensemble.HistGradientBoostingClassifier e sklearn.ensemble.HistGradientBoostingRegressor estão neste arquivo: scikit-learn/sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py . No entanto, eles já foram corrigidos.

Posso trabalhar em sklearn.manifold._spectral_embedding e sklearn.feature_extraction.text.HashVectorizer ? Farei isso em relações públicas separadas. Eu acho que eles são os únicos arquivos restantes que precisam de conserto (assumindo que sklearn.feature_extraction.text.CountVectorizer foi retirado).

Eu dei uma olhada no módulo sklearn.manifold e sklearn.feature_extraction.text.HashingVectorizer e eles já foram corrigidos (eu atualizei a lista de verificação de acordo).

No entanto, existem várias funções no módulo sklearn.utils que ainda devem ser corrigidas.

Obrigado @haiatn , nós realmente apreciamos sua ajuda!

alfaro96 em 7 set. 2020

Agora vou trabalhar em sklearn.utils._estimator_html_repr , sklearn.utils.deprecation e sklearn.utils._testing

haiatn em 11 set. 2020

Vou terminar sklearn.utils. Existem apenas 3 arquivos que encontrei que precisam de conserto.

haiatn em 15 set. 2020

hey @ alfaro96 ,
você poderia revisar minhas solicitações de pull aberto? Acho que são os últimos.

18360 # 18385 # 18386

haiatn em 18 set. 2020

Ei @haiatn!

Já dei uma olhada em seus PRs abertos.

Obrigada!

alfaro96 em 20 set. 2020

👍1

Agora que mesclamos o que sobrou de sklearn.utils e foi o último da lista de verificação , terminamos?

haiatn em 24 set. 2020

Há uma última solicitação de pull # 18025 aberta, então esse problema pode ser resolvido.

cmarmo em 24 set. 2020

👍1

Olá,
Eu quero começar a contribuir. Existe alguma classe pendente para fixação de documentos de valores padrão? Se houver, então eu posso aceitar.

mynkdsi1011 em 24 set. 2020

Olá, novo no código aberto, estou ansioso para consertar o documento, se alguma coisa precisar ser consertada.

k-yash em 4 nov. 2020

Esta página foi útil?

0 / 5 - 0 avaliações

Questões relacionadas

Adicionar suporte para eliminar variáveis colineares

divyaprabha123 · 3Comentários

Melhorar o design da classe para AgglomerativeClustering e FeatureAgglomeration (was pooling_func em AgglomerativeClustering não funciona)

yinruiqing · 3Comentários

GridSearchCV.fit (..., n_job = -1) pode conter bug em paralelismo

tluocs · 3Comentários

Os documentos CountVectorizer e TfidfVectorizer não mencionam que token_pattern é ignorado ao passar um tokenizer personalizado

stephantul · 3Comentários

[0.23.1] doctest GradientBoostingClassifier falha em processadores arm (rhel)

murata-yu · 3Comentários