Numpy: Добавьте ключевое слово mass в np.hist ()

Созданный на 25 окт. 2017  ·  3Комментарии  ·  Источник: numpy/numpy

Много из людей хотят , чтобы вычислить функцию вероятности массы с помощью numpy.hist и перепутаны , что он не может сделать это.
Однако он может вычислить функцию плотности вероятности, и https://github.com/numpy/numpy/issues/1043 проделал отличную работу, переименовав normed в density .
Аналогично этому я предлагаю добавить ключевое слово mass которое (если True ) возвращает функцию массы вероятности.

Я бы тоже реализовал эту функцию, как только получу положительный отзыв.

Самый полезный комментарий

Учитывая, как часто в гистограммах используются нормализации, для меня было бы разумно разрешить эту функциональность просто с точки зрения удобства. Конечно, лишняя строка не имеет большого значения, но она складывается, и текущая реализация может расстраивать, когда вы ищете норму и понимаете, что параметр не делает то, что вам нужно. Лично я предпочитаю параметр norm_type, а не добавление нового.

Однако следует отметить, что Matplotlib принимает структуру возврата np.histogram непосредственно в качестве входных данных для plot / bar / и т. Д. При работе с Pandas DataFrames все становится немного сложнее, поскольку вам нужно вручную нарезать их, запустить np.histogram, затем построить график, но это тоже выполнимо.

Итог: реализация нормализации count / sum / pmf в np.histogram тривиальна (один аргумент против), но обеспечит удобство в модулях, построенных на ней.

Все 3 Комментарий

Нам нужно обсудить тот факт, что нормализация и биннинг - два независимых фактора гистограммы. PDF и PMF являются неподходящими категориями, так как вы можете иметь непрерывные переменные с биннами, которые нормализованы по площади под кривой (PDF), те, которые не нормализованы вообще (счетчик), те, которые нормализованы суммой значений ячеек (на самом деле это не PMF, поскольку он разбит на группы), те, которые нормализованы суммой значений ячеек для непрерывных переменных (Chevy, Volvo, Ford и т. д. PMF), и, возможно, другие. Некоторые инструменты, по-видимому, используют строковый ввод в качестве выбора.

Я спорил с matplotlib по этому поводу. Я не думаю, что это глупая работа, потому что нормализацию легко выполнить математически постфактум. Сложно просто построить графики. Это их оболочка, которая затрудняет выполнение промежуточных шагов в процессе, таких как нормализация. Но я отвлекся.

Учитывая, как часто в гистограммах используются нормализации, для меня было бы разумно разрешить эту функциональность просто с точки зрения удобства. Конечно, лишняя строка не имеет большого значения, но она складывается, и текущая реализация может расстраивать, когда вы ищете норму и понимаете, что параметр не делает то, что вам нужно. Лично я предпочитаю параметр norm_type, а не добавление нового.

Однако следует отметить, что Matplotlib принимает структуру возврата np.histogram непосредственно в качестве входных данных для plot / bar / и т. Д. При работе с Pandas DataFrames все становится немного сложнее, поскольку вам нужно вручную нарезать их, запустить np.histogram, затем построить график, но это тоже выполнимо.

Итог: реализация нормализации count / sum / pmf в np.histogram тривиальна (один аргумент против), но обеспечит удобство в модулях, построенных на ней.

В matplotlib / matplotlib # 10398 много обсуждается о добавлении такого ключевого слова, которое, возможно, стоит пересмотреть.

Была ли эта страница полезной?
0 / 5 - 0 рейтинги