Numpy: Agregar palabra clave masiva a np.hist ()

Creado en 25 oct. 2017  ·  3Comentarios  ·  Fuente: numpy/numpy

Una gran cantidad de personas que quieren calcular la función de masa de probabilidad usando numpy.hist y están confundidos que no puede hacer eso.
Sin embargo, puede calcular la función de densidad de probabilidad y https://github.com/numpy/numpy/issues/1043 hizo un gran trabajo al cambiar el nombre de normed a density .
De manera análoga a eso, propongo agregar una palabra clave mass que (si True ) devuelve la función de masa de probabilidad.

También implementaría esta función, una vez que obtuviera comentarios positivos.

Comentario más útil

Teniendo en cuenta la frecuencia con la que se utilizan las normalizaciones en los histogramas, para mí tendría sentido permitir la funcionalidad desde un punto de vista de conveniencia. Seguro que una línea adicional no es un gran problema una vez, pero se suma y la implementación actual puede ser frustrante cuando se busca una norma y se da cuenta de que el parámetro no hace lo que necesita. Personalmente, estoy a favor de un parámetro norm_type en lugar de agregar uno nuevo.

Sin embargo, debe tenerse en cuenta que Matplotlib acepta la estructura de retorno de np.histogram directamente como entradas para plot / bar / etc. Las cosas se vuelven un poco más problemáticas cuando se trabaja con Pandas DataFrames, ya que debe cortarlos manualmente, ejecutar np.histogram y luego trazar, pero también es factible.

En pocas palabras, implementar una normalización count / sum / pmf en np.histogram es trivial (un argumento en contra), pero proporcionaría conveniencia en los módulos que se basan en él.

Todos 3 comentarios

Necesitamos discutir el hecho de que la normalización y el agrupamiento son dos factores independientes de un histograma. PDF y PMF son categorías impropias, ya que puede haber agrupadas variables continuas que están normalizadas por el área bajo la curva (PDF), aquellas que no están normalizadas en absoluto (recuento), aquellas que están normalizadas por la suma de los valores de agrupación. (no es realmente un PMF ya que está agrupado), aquellos que están normalizados por la suma de los valores de intervalo para las variables no continuas (Chevy, Volvo, Ford, etc. PMF), y probablemente otros. Algunas herramientas aparentemente usan una entrada de cadena como selección.

He estado discutiendo con matplotlib sobre esto. No creo que sea el trabajo de Numpy hacer esto porque la normalización es fácil de hacer matemáticamente post-hoc. Es solo la gráfica lo que es difícil. Es su envoltorio lo que dificulta la realización de pasos intermedios en el proceso como la normalización. Pero yo divago.

Teniendo en cuenta la frecuencia con la que se utilizan las normalizaciones en los histogramas, para mí tendría sentido permitir la funcionalidad desde un punto de vista de conveniencia. Seguro que una línea adicional no es un gran problema una vez, pero se suma y la implementación actual puede ser frustrante cuando se busca una norma y se da cuenta de que el parámetro no hace lo que necesita. Personalmente, estoy a favor de un parámetro norm_type en lugar de agregar uno nuevo.

Sin embargo, debe tenerse en cuenta que Matplotlib acepta la estructura de retorno de np.histogram directamente como entradas para plot / bar / etc. Las cosas se vuelven un poco más problemáticas cuando se trabaja con Pandas DataFrames, ya que debe cortarlos manualmente, ejecutar np.histogram y luego trazar, pero también es factible.

En pocas palabras, implementar una normalización count / sum / pmf en np.histogram es trivial (un argumento en contra), pero proporcionaría conveniencia en los módulos que se basan en él.

Hay mucha discusión en matplotlib / matplotlib # 10398 sobre cómo agregar una palabra clave que valga la pena revisar

¿Fue útil esta página
0 / 5 - 0 calificaciones