Недавно мы добавили в нашу документацию Глоссарий , в котором, помимо прочего, описаны общие параметры. Теперь мы должны заменить описания параметров random_state
чтобы сделать их более краткими и информативными (см. # 10415). Например, вместо
random_state : int, RandomState instance or None, optional, default: None
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
И в KMeans, и в MiniBatchKMeans мы можем иметь:
KMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
MiniBatchKMeans:
random_state : int, RandomState instance, default=None
Determines random number generation for centroid initialization and
random reassignment.
Pass an int for reproducible results across multiple function calls.
See :term:`Glossary <random_state>`.
Следовательно, описание должно быть сосредоточено на том, как random_state
влияет на алгоритм.
Участники, заинтересованные в внесении этого изменения, сначала должны брать по одному модулю за раз.
Список оценщиков, которые необходимо изменить, следующий:
Список файлов для изменения с помощью скрипта kwinata
[x] [sklearn / ensemble / _hist_gradient_boosting / binning.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_hist_gradient_boosting/binning.py) - 37 , 112
[x] [sklearn / ensemble / _bagging.py] (https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/ensemble/_bagging.py) - 503 , 902
Привет @jnothman , Могу я заняться этим вопросом? Спасибо
Получите модуль / подпакет и вперед ...
30 января 2018 года в 00:24 Сомя Ананд [email protected] написал:
Привет, @jnothman https://github.com/jnothman , Могу ли я решить эту проблему? Спасибо
-
Вы получаете это, потому что вас упомянули.
Ответьте на это письмо напрямую, просмотрите его на GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548#issuecomment-361243951 ,
или отключить поток
https://github.com/notifications/unsubscribe-auth/AAEz62ie2pMFVg7uM6_MVnmWKRX-efgHks5tPcaHgaJpZM4Rwij3
.
@jnothman Прошу прощения за свою наивность, но не могли бы вы
Я думаю, что @jnothman означает просто начать с одного файла, например sklearn / cluster / k_means_.py, обновить строку документации random_state
как в верхнем посте, и открыть PR.
субпакет - это что-то вроде sklearn.cluster
Спасибо. Сделаю это и открою PR.
Привет! @jnothman
Вы также хотели бы заменить следующие комментарии, как показано в grid_search.py? У них есть дополнительная линия по сравнению с той, которую вы разделяете.
random_state : int, RandomState instance or None, optional (default=None)
Pseudo random number generator state used for random uniform sampling
from lists of possible values instead of scipy.stats distributions.
If int, random_state is the seed used by the random number generator;
If RandomState instance, random_state is the random number generator;
If None, the random number generator is the RandomState instance used
by `np.random`.
Могу взять grid_search.py и k_means.py (KMeans).
оставьте grid_search.py в покое. это устарело. Идея состоит в том, чтобы минимизировать
содержание, которое повторяется и доступно в глоссарии, чтобы мы могли
дать пользователям наиболее информативное описание роли random_state в
конкретный оценщик.
Спасибо @jnothman. Нужно ли мне разбираться в этих алгоритмах, прежде чем я смогу заменить эту информацию random_state?
Вам нужно будет разбираться в алгоритмах в целом, но не во всех деталях.
их реализация. Вам нужно будет найти, где random_state
используется, если рандомизация в алгоритме не совсем очевидна.
В некоторых случаях может оказаться целесообразным даже не указывать более подробную информацию, чем
просто ссылка на глоссарий; посмотрим, как это пойдет.
Хорошо, спасибо. Я начну медленно перебирать алгоритмы.
С уважением,
Шивам Растоги
Я открыл запрос на перенос №10614
Поскольку @ aby0 еще не потребовал модуль sklearn.cluster. Я хочу заявить права на весь модуль. Пожалуйста, дайте мне знать, могу ли я поработать над этим или мне нужно поработать над чем-то другим.
Есть обновления, ребята? Для нас это долгий отпуск, поэтому дайте мне знать, смогу ли я его выбрать.
Я возьму модуль datasets
так как я уже ковыряюсь в строках документации для # 10731.
Я требую модуль linear_model
. скоро поднимет пиар. # 11900 поднят.
Требование модуля decomposition
следующее.
Контрольный список модулей, где это необходимо сделать:
У нас возникли проблемы с достижением консенсуса о том, как найти правильный баланс
здесь, iirc
Так что обратите внимание на предыдущие PR, объединенные выше
@jnothman спасибо! обновит PR, чтобы указать воспроизводимость при передаче int.
готовы заняться всеми другими модулями в другом PR, как только они будут рассмотрены ...
Я утверждаю ковариантность.
@BlackTeaAndCoffee, пожалуйста, имейте в виду, что формат строки документа еще не доработан, ведутся обсуждения других PR, перечисленных здесь. Так что ты тоже можешь захотеть взглянуть.
Я требую feature_extraction
@jnothman , @NicolasHug , только что обнаружил # 15222 и ряд связанных с ним PR, которые я не учел при подведении итогов ... некоторые из них никогда не рассматривались ... :(
Чтобы прояснить ситуацию для спринтов, мне интересно, можем ли мы закрыть одну из этих двух проблем: если да, то какую? Как я могу избежать дублирования информации. Спасибо за ваше сотрудничество.
Я не знал об этой проблеме (должен был проверить получше), я счастлив закрыть https://github.com/scikit-learn/scikit-learn/issues/15222 в пользу этого
После комментария @jnothman, возможно, эта проблема заслуживает ярлыка «Умеренный»?
Мы хотим работать над ensemble / _hist_gradient_boosting / binning.
@mojc и я.
@anaisabeldhero и я хотим поработать над манифольдом / *
# поля #SciKitLearnSprint
@ daphn3k и я буду работать над sklearn / gaussian_process /
Мы хотим работать над sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan и @ fabi-cast
Я и @Malesche хотим взять sklearn / Inspection / _permutation_importance.py
требуя файл sklearn / metrics / cluster / _unsupervised.py! #wimlds
@ daphn3k, и я также принимаю ковариацию / * и соседи / * #wimlds
требовать:
sklearn / dummy.py - 59
sklearn / multioutput.py - 578, 738
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / random_projection.py - 178, 245, 464, 586
PSA: используйте исходное предложение
Передайте int для воспроизводимых результатов при нескольких вызовах функций.
вместо того, что я сейчас вижу в PR:
Используйте int, чтобы сделать случайность детерминированной
что неверно, поскольку ГСЧ всегда детерминирован независимо от того, что передается
CC @adrinjalali, раз
работа над нейронной сетью и смесью
PSA: используйте исходное предложение
Передайте int для воспроизводимых результатов при нескольких вызовах функций.
вместо того, что я сейчас вижу в PR:
Используйте int, чтобы сделать случайность детерминированной
что неверно, поскольку ГСЧ всегда детерминирован независимо от того, что передается
CC @adrinjalali, раз
Привет, @NicolasHug, это должно было прокомментировать PR, я полагаю ... какой? :)
собираюсь работать над scikit-learn / sklearn / model_selection / _validation.py
@cmarmo Это был общий комментарий для всех PR. Я увидел один и прокомментировал там, затем увидел второй и понял, что это шаблон, который лучше было бы адресовать в источнике.
@cmarmo Это был общий комментарий для всех PR. Я увидел один и прокомментировал там, затем увидел второй и понял, что это шаблон, который лучше было бы адресовать в источнике.
Извините, @NicolasHug , плохо, мне нелегко отследить комментарий.
@NicolasHug Исходное предложение было исправлено в коммитах от
Я и @Olks заявляем sklearn / utils / extmath.py - 185, 297
Заявка sklearn / ensemble / _iforest.py - 109
Заявить sklearn / neural_network / _multilayer_perceptron.py - 782, 1174
Заявить sklearn / ensemble / _weight_boosting.py - 188, 324, 479, 900, 1022
Заявить sklearn / multioutput.py - 578, 738
Требовать :
sklearn / смесь / _bayesian_mixture.py - 166
sklearn / смесь / _base.py - 139
sklearn / смесь / _gaussian_mixture.py - 504
Заявить sklearn / ensemble / _gb.py - 887, 1360
Заявить sklearn / ensemble / _hist_gradient_boosting / gradient_boosting.py - 736, 918
Заявить sklearn / neural_network / _rbm.py - 59
Требовать :
sklearn / svm / _classes.py - 90, 312, 546, 752
sklearn / svm / _base.py - 853
Требовать:
sklearn / feature_selection / _mutual_info.py - 226, 335, 414
sklearn / metrics / cluster / _unsupervised.py - 80
sklearn / utils / _testing.py - 521
sklearn / utils / init.py - 478, 623
Требовать :
sklearn / dummy.py - 59
sklearn / random_projection.py - 178, 245, 464, 586
@DatenBiene @GregoireMialon Спасибо за ваш вклад во время последнего спринта. Осталось только 3 модуля без отметок!
Было бы вам интересно / у вас было бы время / была бы мотивация для решения этих проблем (без давления!)?
Привет, Джереми! Я постараюсь взглянуть на это в ближайшее время
Le mer. 12 февр. 2020 в 15:53, Жереми дю Буасберранже <
[email protected]> ответ:
@DatenBiene https://github.com/DatenBiene @GregoireMialon
https://github.com/GregoireMialon Спасибо за ваш вклад
во время последнего спринта. Осталось только 3 модуля без отметок!Было бы вам интересно / у вас было бы время / была бы мотивация заняться ими (нет
давление !) ?-
Вы получаете это, потому что вас упомянули.
Ответьте на это письмо напрямую, просмотрите его на GitHub
https://github.com/scikit-learn/scikit-learn/issues/10548?email_source=notifications&email_token=AFY4624NQL3EAFLBGPUNAE3RCQEO3A5CNFSM4EOCFD32YY3PNVWWK3TUL52XG43JNWWK3TUL52XG43JNVWWK3TUL52XG4DFVMVWWK3TUL52XG4DFV2
или отказаться от подписки
https://github.com/notifications/unsubscribe-auth/AFY4625457AU7OL4E4EUVOTRCQEO3ANCNFSM4EOCFD3Q
.
Привет @jeremiedbb! Постараюсь сегодня доделать 3 оставшихся модуля 😃
Требовать:
sklearn / kernel_approximation.py - 41, 143, 470
sklearn / multiclass.py - 687
sklearn / ensemble / _base.py - 52
Привет, @jnothman и @jeremiedbb , похоже, все файлы были изменены. Я буду рад помочь, если вы обнаружите какие-либо оставшиеся проблемы.
Большое спасибо @DatenBiene и всем участникам, которые работали над закрытием этой проблемы!
Думаю, мы можем закрыть эту огромную!
Не стесняйтесь открывать новые конкретные проблемы, если что-то все еще отсутствует в описании random_state
.
Самый полезный комментарий
Мы хотим работать над sklearn / preprocessing / _data.py - 2178, 2607
@rachelcjordan и @ fabi-cast
wimlds #SciKitLearnSprint