Scikit-learn: Исправить документацию значений по умолчанию во всех классах

Созданный на 2 дек. 2019 · 118Комментарии · Источник: scikit-learn/scikit-learn

Описание

Документация значений по умолчанию во многих классах либо не включена, не согласована в том, как она написана, либо устарела. Я хотел бы собрать несколько человек для работы над документацией по значениям по умолчанию для каждого класса, поскольку существует масса классов, в которых существуют эти проблемы. Мне сказали, что значения по умолчанию должны быть задокументированы как «default = <'value'>», и поэтому я создаю эту проблему, исходя из этого предположения.

Решение

Вот несколько вещей, которые я видел в отношении параметров, которые следует изменить:

никакое упоминание о том, есть ли значение по умолчанию, не следует проверять по коду, поскольку некоторые параметры полностью отсутствуют
"необязательный" следует заменить на "default = <'value'>"
убедитесь, что задокументированные значения по умолчанию согласованы с классом, т.е. измените все на формат "default = <'value'>"
Изменить один файл на PR

Если несколько человек работают над несколькими классами каждый, то это нужно делать в кратчайшие сроки! Все это должны быть довольно простые исправления.

#### Примеры
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html
Приведенная выше ссылка является примером, в котором значения по умолчанию не указаны, но в параметрах указано «необязательный», а все параметры со значениями по умолчанию задокументированы непоследовательно.

Sprint good first issue

Источник

cgsavard

👍5

Самый полезный комментарий

Логически говоря, если параметр является необязательным, не следует ли всегда использовать значение по умолчанию None ? Наличие параметра со значением по умолчанию, отличным от None предполагает, что он должен быть обязательным.

Если есть значение по умолчанию, это обычно означает, что в литературе было обнаружено, что это разумное значение по умолчанию, которое также предполагает, что этот параметр влияет на производительность, и, следовательно, он не должен быть необязательным, а должен просто указать, что такое значение по умолчанию. По определению они кажутся более близкими к требуемым параметрам, просто мы сделали разумный выбор для пользователя, чтобы он мог его изменить или нет.

Или, говоря более практическим языком, есть ли в настоящее время какие-либо дополнительные параметры, которые мы нашли, которые имеют числовые значения по умолчанию, но для которых указание None вызовет исключение? Это также предполагает, что параметр действительно требуется, но что разумное значение по умолчанию было выбрано на основе литературы / исследований.

Или, может быть, я все эти годы путала значения required и optional ? Ржу не могу. В любом случае был бы рад помочь в этом!

jmwoloso 6 дек. 2019

👍4

Все 118 Комментарий

Привет @cgsavard , я хотел бы поработать над этим. Могу я начать смотреть на класс AgglomerativeClustering?

vachanda 3 дек. 2019

@vachanda Давай! Мы можем продолжать публиковать здесь информацию о тех, над которыми мы работаем, чтобы другие знали.

cgsavard 3 дек. 2019

Спасибо за координацию этого @cgsavard

Примечание для участников: следуйте инструкциям в разделе: https://scikit-learn.org/stable/developers/contributing.html#guidelines -for-writing-documentation

adrinjalali 3 дек. 2019

@cgsavard , есть ли список классов, у которых есть несоответствия или надо каждый из них проходить и обновлять?

vachanda 4 дек. 2019

@vachanda К сожалению, у меня нет списка. Я только что просматривал файлы и смотрел, что нужно обновить.

cgsavard 4 дек. 2019

Я работаю над AffinityPropagation, SpectralCoclustering, SpectralBiclustering и Birch.

cgsavard 4 дек. 2019

Я работаю над FeatureAgglomeration, KMeans и MiniBatchKMeans.

vachanda 6 дек. 2019

jmwoloso 6 дек. 2019

👍4

@jmwoloso. Мы были очень непоследовательны в отношении использования optional и поэтому недавно решили удалить его.

glemaitre 6 дек. 2019

🚀1

я тоже хочу внести свой вклад. могу я продолжить с этим

cyrus303 6 дек. 2019

@glemaitre хорошо, это определенно имеет смысл. Итак, тогда мы удаляем optional verbage все вместе, верно, при этом отмечая значения по умолчанию в строках документа?

следует ли каждую из этих проблем раскрывать как проблему отдельно или как мы организуем всю эту работу, которую мы выполняем, поскольку несколько человек работают над несколькими вещами, связанными с этой единственной проблемой?

jmwoloso 6 дек. 2019

@ cyrus303 @jmwoloso Вы можете получить класс (максимум модуля) и исправить его. Идея состоит в том, чтобы удалить необязательное и добавить значение по умолчанию, если оно есть (обычно оно есть). Поскольку мы касаемся документации, мы должны убедиться, что стиль в строке соответствует нашему новому руководству по стилю: https://scikit-learn.org/dev/developers/contributing.html#guidelines -for-writing-documentation

Вы можете указать, с каким классом / модулем вы работаете, открыть ссылку PR, чтобы избежать дублирования усилий :). С нетерпением жду возможности его рассмотреть.

glemaitre 6 дек. 2019

👍1

Привет! Я буду работать над классами tree ( tree.DecisionTreeClassifier , tree.DecisionTreeRegressor , tree.ExtraTreeClassifier и tree.ExtraTreeRegressor ).

alfaro96 11 дек. 2019

Я также исправлю эту проблему для модуля neighbors .

alfaro96 17 дек. 2019

Я возьму модуль ensemble .

jmwoloso 21 дек. 2019

@glemaitre какие-либо предпочтения относительно bool сравнению с boolean ? видеть сочетание обоих в ensemble , даже в одном классе. мог бы привести их в форму, пока я делаю настройки по умолчанию.

РЕДАКТИРОВАТЬ:

То же самое для int vs integer . Я предполагаю, что это int , но хотел подтвердить.

ИЗМЕНИТЬ (снова):

также видны строки документации с несовместимыми значениями относительно сигнатуры __init__ для этого класса, например:

min_impurity_split за RandomForestClassifier

подпись __init__ имеет min_impurity_split=None а в строке документации для нее написано min_impurity_split : float, (default=0) . Я бы предположил, что обновите строки документации, чтобы они соответствовали подписи, поскольку мы хотим, чтобы поведение класса было согласованным (т.е. мы хотим, чтобы при создании экземпляра передавались те же значения по умолчанию)?

jmwoloso 21 дек. 2019

@jmwoloso Не могли бы вы обратиться к https://scikit-learn.org/stable/developers/contributing.html#guidelines -for-writing-documentation. В основном вы должны по умолчанию использовать имя типа Python (bool, str, int, float)

подпись __init__ имеет min_impurity_split = None, а в строках документации для нее указано min_impurity_split: float (по умолчанию = 0). Я бы предположил, что обновите строки документации, чтобы они соответствовали подписи, поскольку мы хотим, чтобы поведение класса было согласованным (т.е. мы хотим, чтобы при создании экземпляра передавались те же значения по умолчанию)?

Мы должны сопоставить параметр в сигнатуре функции. Это значение параметра по умолчанию было изменено, и строка документации не обновлялась.

glemaitre 21 дек. 2019

👍2

Привет @cgsavard , я хотел бы внести свой вклад, но это будет мой первый раз, поэтому мне нужно немного здесь . Посоветуйте, пожалуйста, следующий шаг ... Спасибо!

mghah 22 дек. 2019

Привет @cgsavard!
Могу я поработать над Imputer?

pulkitmehtawork 22 дек. 2019

Привет, @cgsavard , я хочу поработать над классом linear_model .

ankishb 22 дек. 2019

Я также работаю над классами Neural Network , Decomposition , Feature Extraction , Metrics и Preprocess .

ankishb 22 дек. 2019

может кто-нибудь, пожалуйста, проверьте мой pr # 15964 и узнайте, почему код cov не работает. Это мой первый взнос. Пожалуйста, направьте.

pulkitmehtawork 24 дек. 2019

Игнорировать кодеков. Это ложное срабатывание, поскольку мы не касаемся кода. Скоро пересмотрю PR

Отправлено с моего телефона - извините за краткость и возможна опечатка.

glemaitre 24 дек. 2019

👍2

Я только что сделал свой первый взнос # 15988

mghah 30 дек. 2019

Я возьму модуль naive_bayes .

tamirlan1 3 янв. 2020

Я только что сделал свой первый взнос # 16019

tamirlan1 3 янв. 2020

Привет всем, работаю над sklearn/neighbors , спасибо.

mghah 4 янв. 2020

Способствовал sklearn / semi_supervised.Спасибо

shubchat 7 янв. 2020

Привет @cgsavard , я тоже хотел бы внести свой вклад, я возьму модуль sklearn/svm . Спасибо

tituschristian 8 янв. 2020

Способствовал sklearn / semi_supervised.Спасибо
Требуются ли дальнейшие правки в PR №16042?

shubchat 9 янв. 2020

@glemaitre в # 16105, мне пришлось немного углубиться в конструкции, чтобы получить значения по умолчанию, строки документации казались неточными и временами устаревшими.

Также я попытался использовать менее двусмысленный, сжатый и математически строгий способ определения диапазонов параметров. например, я изменил positive float на float in (0, inf] или 0<= shrinkage <=1 на float in (0, 1) . Короче говоря, я сделал все возможное, чтобы быть кратким и точным, но, пожалуйста, уделите на 5% больше внимания просмотру этого PR. Спасибо.

mghah 11 янв. 2020

@cgsavard , это очень хороший вопрос для спринта! Если вас это устраивает, я планирую добавить его в наш список спринтов. Я суммировал классы, которые уже были адресованы PR, и их корреспондентский PR здесь .
Не могли бы вы указать суть проблемы в описании проблемы? Это сделает информацию доступной с самого начала. Могу я также попросить вас уточнить в описании, что каждый PR должен адресовать один файл (максимум один модуль) за раз, как описано здесь ? Это действительно поможет авторам и рецензентам! Большое спасибо!

cmarmo 16 янв. 2020

Для тех, кто интересуется этим вопросом, команда

git grep "optional.*default"

выведет файлы, все еще затронутые этой проблемой (спасибо @ogrisel! :)).

cmarmo 16 янв. 2020

🎉1

@cgsavard Здравствуйте, я хотел бы поработать над model_selection @WiMLDS

marielledado 25 янв. 2020

@lopusz, и я хочу поработать над random_projection.py

Всем весело!

@adrinjalali @noatamir @WiMLDS

magda-zielinska 25 янв. 2020

@ ETay203 и я бы хотел поработать над спринтом mean_shift @WiMLDS_Berlin .

mjmolina 25 янв. 2020

@ magda-zielinska, и я хочу поработать над pipeline.py

@adrinjalali @noatamir @WiMLDS

lopusz 25 янв. 2020

@lopusz и @ magda-zielinska, и я хочу поработать над kernel_approximation.py

fraboeni 25 янв. 2020

Я собираюсь заняться _optics.py сейчас

ETay203 25 янв. 2020

Повторное открытие: закрыто ключевым словом "Исправления" в # 16216.

cmarmo 26 янв. 2020

Повторное открытие: закрыто ключевым словом "Исправления" в №16207.

cmarmo 27 янв. 2020

Я собираюсь заняться sklearn / linear_model / _coordinate_descent.py сейчас

hs-nazuna 29 янв. 2020

Я почистил base.py и отправил PR

lopusz 29 янв. 2020

Я очистил discinant_analysis.py и отправил PR

lopusz 30 янв. 2020

Я сейчас посмотрю на sklearn / gaussian_process / *. Py

lopusz 2 февр. 2020

Уже есть длинный пиар для ВОП @lopusz :)

adrinjalali 2 февр. 2020

@lopusz приношу свои извинения, что PR касался других вопросов модуля GP, вы можете продолжить и поработать над этим, если не возражаете :)

adrinjalali 3 февр. 2020

@adrinjalali Спасибо, что следите за этим!

На самом деле, я недостаточно хорошо просканировал открытые PR, поэтому то, что терапевтов не берут, скорее случайность;)

Я обязательно буду следить за тем, что пишут.

И да, пиар для ВОП идет;)

lopusz 5 февр. 2020

Здесь что-нибудь еще можно сделать?

andrewasche 19 апр. 2020

Я работаю над sklearn/decomposition/_dict_learning.py

reshamas 28 мая 2020

что осталось делать? Я готов помочь. . .

andrewasche 31 мая 2020

Выяснить, что осталось, вероятно, хорошее место, чтобы начать помогать :)

adrinjalali 5 июн. 2020

Привет, я просмотрел, что осталось, я думаю, что есть еще некоторые обновления, которые нужно внести в некоторые из модулей, рассмотренных ранее.
Я собирался проработать их, начиная с кластерного модуля, и мог бы повысить PR для каждого модуля по мере продвижения?
Это мой первый вклад, поэтому, пожалуйста, дайте мне знать, если я неправильно слежу за процессом и т. Д.
Спасибо!

pgithubs 5 июн. 2020

Это список функций, классов и модулей, которые нужно исправить:

[x] sklearn.feature_selection.SelectorMixin
[x] sklearn.config_context
[x] sklearn.set_config
[x] sklearn.calibration.CalibratedClassifierCV
[x] sklearn.cluster.OPTICS
[x] sklearn.cluster.SpectralClustering
[x] sklearn.cluster.affinity_propagation
[x] sklearn.cluster.cluster_optics_dbscan
[x] sklearn.cluster.cluster_optics_xi
[x] sklearn.cluster.compute_optics_graph
[x] sklearn.cluster.mean_shift
[x] sklearn.cluster.spectral_clustering
[x] sklearn.cluster.ward_tree
[x] sklearn.cross_decomposition.CCA
[x] sklearn.cross_decomposition.PLSCanonical
[x] sklearn.cross_decomposition.PLSRegression
[x] sklearn.cross_decomposition.PLSSVD
[x] sklearn.datasets
[x] sklearn.decomposition
[x] sklearn.dummy
[x] sklearn.ensemble.HistGradientBoostingRegressor (экспериментальный)
[x] sklearn.ensemble.HistGradientBoostingRegressor (экспериментальный)
[x] sklearn.feature_extraction.image.grid_to_graph
[x] sklearn.feature_extraction.image.img_to_graph
[x] sklearn.feature_extraction.text.CountVectorizer
[x] sklearn.feature_extraction.text.HashVectorizer
[x] sklearn.feature_selection
[x] sklearn.impute
[x] sklearn.inspection.partial_dependence
[x] sklearn.inspection.permutation_importance
[x] sklearn.inspection.permutation_importance
[x] sklearn.inspection.PartialDependenceDisplay
[x] sklearn.inspection.plot_partial_dependence
[x] sklearn.isotonic.IsotonicRegression
[x] sklearn.isotonic.check_increasing
[x] sklearn.isotonic.isotonic_regression
[x] sklearn.kernel_approximation
[x] sklearn.kernel_ridge
[x] sklearn.linear_model.PassiveAggressiveClassifier
[x] sklearn.linear_model.LassoLars
[x] sklearn.linear_model.OrthogonalMatchingPursuit
[x] sklearn.linear_model.HuberRegressor
[x] sklearn.linear_model.RANSACRegressor
[x] sklearn.linear_model.TheilSenRegressor
[x] sklearn.linear_model.PassiveAggressiveRegressor
[x] sklearn.linear_model.orthogonal_mp
[x] sklearn.linear_model.orthogonal_mp_gram
[x] sklearn.manifold
[x] sklearn.metrics (кроме sklearn.metrics.confusion_matrix , sklearn.metrics.roc_auc_score , sklearn.metrics.max_error sklearn.metrics.mean_poisson_deviance , sklearn.metrics.mean_gamma_deviance , sklearn.metrics.mean_tweedie_deviance , sklearn.metrics.plot_confusion_matrix , sklearn.metrics.plot_precision_recall_curve )
[x] sklearn.mixture
[x] sklearn.model_selection.GridSearchCV
[x] sklearn.model_selection.ParameterGrid
[x] sklearn.model_selection.ParameterSampler
[x] sklearn.model_selection.RandomizedSearchCV
[x] sklearn.model_selection.fit_grid_point
[x] sklearn.multiclass
[x] sklearn.multioutput
[x] sklearn.neural_network
[x] sklearn.preprocessing
[x] sklearn.random_projection
[x] sklearn.tree.export_graphviz
[x] sklearn.tree.export_text
[x] sklearn.tree.plot_tree
[x] sklearn.utils

Надеюсь, я ничего не упускаю.

alfaro96 5 июн. 2020

Привет. Я попробую пропустить в документации feature_selection

kohakukun 6 июн. 2020

Берем часть склеарн. Смеси

violetr 6 июн. 2020

Принимая часть cross_decomposition

kohakukun 6 июн. 2020

Для Scikit-Learn Sprint 2020 я и

mobigelow 6 июн. 2020

@adrinjalali мы завершили склеарн / смесь

violetr 6 июн. 2020

Работа над sklearn.linear_model для спринта с @genvalen

parthsuresh 6 июн. 2020

Возьмите sklearn.calibration.CalibratedClassifierCV

asubramaniyan 6 июн. 2020

Работаем над этим для sklearn.utils.validation

neinkeinkaffee 6 июн. 2020

Далее мы займемся sklearn.utils.random

neinkeinkaffee 6 июн. 2020

работает над sklearn.impute

mobigelow 6 июн. 2020

Работаем над sklearn.tree.plot_tree

madelgi 6 июн. 2020

Таблицу 14 возьмем sklearn.neural_network

amy12xx 6 июн. 2020

Возьмите sklearn.kernel_approximation

asubramaniyan 6 июн. 2020

Принимая sklearn.inspection

icoder18 6 июн. 2020

Таблица 14 примет sklearn.preprocessing

amy12xx 6 июн. 2020

Получение наборов данных

mobigelow 6 июн. 2020

Взятие sklearn.mixture # 17509

amy12xx 6 июн. 2020

Список обновлен.

Спасибо вам всем!

alfaro96 6 июн. 2020

Взятие sklearn.metrics для спринта

genvalen 7 июн. 2020

Взятие модуля model_selection

kohakukun 7 июн. 2020

@glemaitre Можем ли мы обновить его описание, включив в него то, что лучше всего отправлять по одному файлу за раз?

reshamas 9 июн. 2020

Здравствуйте, я хотел бы внести свой вклад. Впрочем, это мой первый раз ... И мне непонятно, как я могу узнать, над каким модулем еще предстоит работа? Спасибо !

clmbst 19 июн. 2020

https://github.com/scikit-learn/scikit-learn/issues/15761#issuecomment -639461778 содержит список модулей, которые нужно исправить.

alfaro96 19 июн. 2020

Спасибо. Тогда возьмите sklearn.decomposition.

clmbst 19 июн. 2020

Я работаю над 'sklearn.isotonic.isotonic_regression'

Cristinamulas 20 июн. 2020

Я работаю над sklearn.multiclass.py

Cristinamulas 20 июн. 2020

Привет, могу я попробовать забрать оставшуюся часть sklearn.tree ? Я тоже участвую в этом впервые.

m-vd 4 июл. 2020

Спасибо за регистрацию, здорово, что вам помогли! Пожалуйста, продолжайте; Я думаю, что все обновления нашего спринта были закрыты.

4 июля 2020 г. в 10:45 Иван Виряди [email protected] написал:

Привет, можно попробовать взять оставшееся на sklearn.tree? Я тоже участвую в этом впервые.
-
Вы получили это, потому что прокомментировали.
Ответьте на это письмо напрямую, просмотрите его на GitHub или откажитесь от подписки.

mobigelow 4 июл. 2020

Привет, я хотел бы сделать свой первый вклад. Могу я взять sklearn.multioutput?

franslarsson 5 июл. 2020

Я продолжу с sklearn.utils, начиная с _encode.py

franslarsson 8 июл. 2020

Я работаю над sklearn/decomposition/_dict_learning.py

TahiriNadia 11 июл. 2020

Я работаю над sklearn.kernel_ridge в спринте

mikeaalv 11 июл. 2020

Привет, начну работать над sklearn.feature_extraction.image.img_to_graph

tijanajovanovic 11 июл. 2020

Я работаю над sklearn.feature_extraction.text.CountVectorizer

Probinette4 11 июл. 2020

Я работаю над sklearn.sklearn.kernel_ridge

TahiriNadia 11 июл. 2020

Я работаю над sklearn.ensemble.HistGradientBoostingRegressor

Hoda1394 11 июл. 2020

"Я работаю над этим"

на этом? @ Hoda1394

TahiriNadia 11 июл. 2020

"Я работаю над этим"
на этом? @ Hoda1394

@TahiriNadia поправила.

Hoda1394 11 июл. 2020

👍1

@cgsavard Привет, я могу поработать над этим? Я новичок

Praveenk8051 24 июл. 2020

Я буду работать с файлами в sklearn.datasets .

JinLi711 25 июл. 2020

Могу ли я работать на sklearn.linear_model._least_angle.py

sadakmed 2 авг. 2020

@glemaitre Я работаю над sklearn.linear_model._least_angle.py и я обнаружил несоответствие использования method ='lar' иногда указывает на lars иногда lar , это несоответствие также код (не только в документации), я вижу, что lars правильный, не могли бы вы это подтвердить, и я сделаю PR.

sadakmed 2 авг. 2020

работает над 'sklearn/ensemble/_hist_gradient_boosting/binning.py'

sadakmed 2 авг. 2020

файлы нужно изменить:

sklearn / _config.py
sklearn / dummy.py
sklearn / multioutput.py
sklearn / linear_model / _huber.py
sklearn / linear_model / _theil_sen.py
sklearn / linear_model / _ridge.py
sklearn / linear_model / _omp.py
sklearn / linear_model / _sag.py
sklearn / externals / _lobpcg.py
sklearn / externals / _lobpcg.py
sklearn / utils / extmath.py
sklearn / utils / __ init__.py
sklearn / utils / graph.py
sklearn / utils / _mocking.py
sklearn / utils / sparsefuncs.py
sklearn / соседи / _base.py
sklearn / gaussian_process / _gpc.py
sklearn / gaussian_process / kernels.py
sklearn / model_selection / _validation.py
~ sklearn / разложение / _fastica.py ~
~ sklearn / декомпозиция / _dict_learning.py ~
~ sklearn / декомпозиция / _factor_analysis.py ~
~ sklearn / разложение / _incremental_pca.py ~
~ sklearn / разложение / _lda.py ~
~ sklearn / разложение / _pca.py ~
~ sklearn / декомпозиция / _truncated_svd.py ~
~ sklearn / разложение / _sparse_pca.py ~
~ sklearn / разложение / _nmf.py ~
sklearn / коллектор / _mds.py
sklearn / коллектор / _spectral_embedding.py
sklearn / коллектор / _t_sne.py
sklearn / ансамбль / _hist_gradient_boosting / grower.py
sklearn / ансамбль / _hist_gradient_boosting / binning.py
sklearn / metrics / _ranking.py
sklearn / tree / _classes.py
sklearn / preprocessing / _discretization.py
sklearn / preprocessing / _encoders.py строка 620
sklearn / neural_network / _multilayer_perceptron.py строка 1054
sklearn / covariance / _robust_covariance.py

Пожалуйста, проверьте, работает ли кто-то уже над выбранным вами файлом.

sadakmed 2 авг. 2020

@sadakmed , для всех «файлов декомпозиции» существует постоянный запрос на вытягивание # 17739.

clmbst 3 авг. 2020

👍1

работает над "gaussian_process.GaussianProcessRegressor" и "neighbors._base.py"

sadakmed 3 авг. 2020

Привет, я новичок, и я хотел бы начать вносить свой вклад. Вам все еще нужна помощь по этому вопросу? есть ли какой-нибудь файл, с которым вам все еще нужна помощь?

boricles 31 авг. 2020

Привет, @boricles!

Взгляните на https://github.com/scikit-learn/scikit-learn/issues/15761#issuecomment -639461778, чтобы увидеть список модулей, которые еще предстоит исправить.

alfaro96 31 авг. 2020

@ alfaro96 спасибо. Я только что бегло посмотрел. Сегодня вечером я выберу модуль и поработаю над ним.

boricles 31 авг. 2020

Я работаю над sklearn / config_context

boricles 1 сент. 2020

Эй, подумал, смогу ли я помочь с документами.

@ alfaro96 Я бы хотел поработать над sklearn.feature_extraction.text.CountVectorizer , если это еще не сделано, особенно потому, что я лично сталкивался с некоторыми подводными камнями при работе с векторизаторами в прошлом.

Кроме того, я заметил, что, хотя sklearn.model_selection.learning_curve был обновлен, есть устаревшее руководство, использующее старую документацию , следует ли мне оставить его? Или стоит обновлять?

madprogramer 5 сент. 2020

Привет @ alfaro96!

после правок:
Я вижу, что sklearn.config_context и sklearn.set_config из sklearn.config_config.py были исправлены, поэтому их можно извлечь из списка задач .

Я хочу поработать над sklearn.utils . Я видел только один экземпляр документации по параметрам, где используется «необязательный». Это означает, что мне нужно исправить только этот экземпляр, верно? Он находится в sklearn.utils._mocking.py

haiatn 5 сент. 2020

Эй, подумал, смогу ли я помочь с документами.

Привет @madprogramer ,

@ alfaro96 Я бы хотел поработать над sklearn.feature_extraction.text.CountVectorizer , если это еще не сделано, особенно потому, что я лично сталкивался с некоторыми подводными камнями при работе с векторизаторами в прошлом.

~ Я просмотрел контрольный список и ссылку sklearn.feature_extraction.text.CountVectorizer и, похоже, это не исправлено. Приветствуется пиар. ~

Изменить: sklearn.feature_extraction.text.CountVectorizer уже исправлено.

Кроме того, я заметил, что, хотя sklearn.model_selection.learning_curve был обновлен, есть устаревшее руководство, использующее старую документацию , следует ли мне оставить его? Или стоит обновлять?

Стоит обновить, хотя это стоит сделать в отдельный пиар.

Спасибо!

alfaro96 6 сент. 2020

👍1

Привет @ alfaro96!

Привет @haiatn ,

после правок:
Я вижу, что sklearn.config_context и sklearn.set_config из sklearn.config_config.py были исправлены, поэтому их можно извлечь из списка задач .

Я обновил контрольный список .

Я хочу поработать над sklearn.utils . Я видел только один экземпляр документации по параметрам, где используется «необязательный». Это означает, что мне нужно исправить только этот экземпляр, верно? Он находится в sklearn.utils._mocking.py

Это идея, хотя классы в файле sklearn.utils._mocking.py не являются частью общедоступного API, поэтому я не думаю, что стоит их обновлять.

Тем не менее, было бы неплохо, если бы вы могли работать с любыми другими функциями, классами и модулями, которые ожидают исправления.

Спасибо!

alfaro96 6 сент. 2020

👍1

Я посмотрел на контрольный список. Из того, что я увидел, в контрольном списке можно проверить следующее:

sklearn.feature_extraction.image.img_to_graph
sklearn.isotonic.IsotonicRegression
sklearn.isotonic.check_increasing
Я не нашел файл sklearn.ensemble.HistGradientBoostingRegressor но все sklearn.ensemble в порядке

Могу ли я работать с sklearn.manifold._spectral_embedding и sklearn.feature_extraction.text.HashVectorizer ? Сделаю это в отдельном пиаре. Я думаю, что это единственные оставшиеся файлы, которые нужно исправить (при условии, что sklearn.feature_extraction.text.CountVectorizer занят).

haiatn 6 сент. 2020

Я посмотрел на контрольный список. Из того, что я увидел, в контрольном списке можно проверить следующее:
sklearn.feature_extraction.image.img_to_graph
sklearn.isotonic.IsotonicRegression
sklearn.isotonic.check_increasing

Спасибо @haiatn , я обновил чек-

Я не нашел файл sklearn.ensemble.HistGradientBoostingRegressor но все sklearn.ensemble в порядке

sklearn.ensemble.HistGradientBoostingClassifier и sklearn.ensemble.HistGradientBoostingRegressor находятся в этом файле: scikit-learn/sklearn/ensemble/_hist_gradient_boosting/gradient_boosting.py . Однако они уже исправлены.

Могу ли я работать на sklearn.manifold._spectral_embedding и sklearn.feature_extraction.text.HashVectorizer ? Сделаю это в отдельном пиаре. Я думаю, что это единственные оставшиеся файлы, которые нужно исправить (при условии, что sklearn.feature_extraction.text.CountVectorizer взято).

Я просмотрел модули sklearn.manifold и sklearn.feature_extraction.text.HashingVectorizer и они уже были исправлены (я соответственно обновил контрольный список).

Тем не менее, в модуле sklearn.utils есть несколько функций, которые следует исправить.

Спасибо @haiatn , мы очень ценим вашу помощь!

alfaro96 7 сент. 2020

Сейчас я буду работать над sklearn.utils._estimator_html_repr , sklearn.utils.deprecation и sklearn.utils._testing

haiatn 11 сент. 2020

Доработаю sklearn.utils. Я нашел только 3 файла, которые нужно исправить.

haiatn 15 сент. 2020

эй @ alfaro96 ,
не могли бы вы просмотреть мои открытые запросы на включение? Думаю, они последние.

18360 # 18385 # 18386

haiatn 18 сент. 2020

Привет @haiatn!

Я уже посмотрел на ваши открытые PR.

Спасибо!

alfaro96 20 сент. 2020

👍1

Теперь, когда мы объединили то, что осталось от sklearn.utils, и оно было последним в контрольном списке , мы закончили?

haiatn 24 сент. 2020

Есть последний открытый запрос на вытягивание №18025, тогда эту проблему в конечном итоге можно будет закрыть.

cmarmo 24 сент. 2020

👍1

Привет,
Я хочу внести свой вклад. Есть ли какой-либо класс, ожидающий исправления документа значений по умолчанию? Если есть, то я могу заняться этим.

mynkdsi1011 24 сент. 2020

Привет, новичок в открытом исходном коде, я с нетерпением жду возможности исправить документ, если вдруг что-то останется, что нужно исправить

k-yash 4 нояб. 2020

Была ли эта страница полезной?

0 / 5 - 0 рейтинги

Смежные вопросы

warnings.filterwarnings - пожалуйста, не делайте этого. это плохое поведение.

dfee · 3Комментарии

Добавить значок лазурных конвейеров в файл readme?

amueller · 3Комментарии

AttributeError: объект 'GridSearchCV' не имеет атрибута 'best_params_'

vitorcoliveira · 3Комментарии

[0.23.1] doctest GradientBoostingClassifier терпит неудачу на процессорах arm (rhel)

murata-yu · 3Комментарии

В документах CountVectorizer и TfidfVectorizer не упоминается, что token_pattern игнорируется при передаче пользовательского токенизатора

stephantul · 3Комментарии