๋ง์ ์ ์ฌ๋๋ค์ด ์ฌ์ฉํ๋ ํ๋ฅ ์ง๋ ํจ์๋ฅผ ๊ณ์ฐํ numpy.hist
ํ๊ณ ๊ทธ๋ ๊ฒ ํ ์์๋ ํผ๋๋๋ค.
๊ทธ๋ฌ๋ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ๊ณ์ฐํ ์ ์์ผ๋ฉฐ https://github.com/numpy/numpy/issues/1043 normed
์ density
๋ก ๋ณ๊ฒฝํ์ฌ ํ๋ฅญํ ์์
์ ์ํํ์ต๋๋ค.
์ด์ ์ ์ฌํ๊ฒ, ๋๋ ( True
) ํ๋ฅ ์ง๋ ํจ์๋ฅผ ๋ฐํํ๋ mass
ํค์๋๋ฅผ ์ถ๊ฐํ ๊ฒ์ ์ ์ํฉ๋๋ค.
๊ธ์ ์ ์ธ ํผ๋๋ฐฑ์ ๋ฐ์ผ๋ฉด ์ด ๊ธฐ๋ฅ๋ ๊ตฌํํ ๊ฒ์ ๋๋ค.
์ ๊ทํ์ ๋น๋์ด ํ์คํ ๊ทธ๋จ์ ๋ ๊ฐ์ง ๋ ๋ฆฝ์ ์ธ ์์๋ผ๋ ์ฌ์ค์ ๋ ผ์ํด์ผ ํฉ๋๋ค. PDF ๋ฐ PMF๋ ๋ถ์ ํฉํ ๋ฒ์ฃผ์ ๋๋ค. ๊ณก์ ์๋ ์์ญ(PDF)์ผ๋ก ์ ๊ทํ๋๋ ์ฐ์ํ ๋ณ์๋ฅผ ๋น๋ํ ์ ์๊ณ , ์ ํ ์ ๊ทํ๋์ง ์์(๊ฐ์), ๋น ๊ฐ์ ํฉ์ผ๋ก ์ ๊ทํ๋๋ ์ฐ์ํ ๋ณ์๋ฅผ ๊ฐ์ง ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. (๋น๋๋์๊ธฐ ๋๋ฌธ์ ์ค์ ๋ก PMF๊ฐ ์๋), ๋น์ฐ์ ๋ณ์(Chevy, Volvo, Ford ๋ฑ PMF)์ ๋ํ ๋น ๊ฐ์ ํฉ์ผ๋ก ์ ๊ทํ๋๊ณ ์๋ง๋ ๋ค๋ฅธ ๊ฒ๋ค์ผ ๊ฒ์ ๋๋ค. ์ผ๋ถ ๋๊ตฌ๋ ๋ถ๋ช ํ ๋ฌธ์์ด ์ ๋ ฅ์ ์ ํ ํญ๋ชฉ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
๋๋ ์ด๊ฒ์ ๋ํด matplotlib์ ๋ ผ์์ ๋ฒ์ฌ์๋ค. ์ ๊ทํ๋ ์ํ์ ์ผ๋ก ์ฌํ์ ์ํํ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์ ์ด๊ฒ์ ์ํํ๋ ๊ฒ์ด numpy์ ์์ ์ด๋ผ๊ณ ์๊ฐํ์ง ์์ต๋๋ค. ์ด๋ ค์ด ๊ฒ์ ๊ทธ๋ํ์ผ ๋ฟ์ ๋๋ค. ์ ๊ทํ์ ๊ฐ์ ํ๋ก์ธ์ค์์ ์ค๊ฐ ๋จ๊ณ๋ฅผ ์ํํ๊ธฐ ์ด๋ ต๊ฒ ๋ง๋๋ ๊ฒ์ ๋ํผ์ ๋๋ค. ๊ทธ๋ฌ๋ ๋๋ ๋น๋๊ฐ๋ค.
ํ์คํ ๊ทธ๋จ์์ ์ ๊ทํ๊ฐ ์ผ๋ง๋ ์์ฃผ ์ฌ์ฉ๋๋์ง ๊ณ ๋ คํ๋ฉด ๋จ์ํ ํธ์์ ๊ธฐ๋ฅ์ ํ์ฉํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ ๋๋ค. ๋ฌผ๋ก ์ถ๊ฐ ๋ผ์ธ์ ์ผ๋จ ํฐ ๋ฌธ์ ๊ฐ ์๋์ง๋ง ์ถ๊ฐ๋๊ณ ํ์ฌ ๊ตฌํ์ ํ์ค์ ์ฐพ๊ณ ๋งค๊ฐ ๋ณ์๊ฐ ํ์ํ ์์ ์ ์ํํ์ง ์๋๋ค๋ ๊ฒ์ ๊นจ๋ฌ์ ๋ ์ข์ ํ ์ ์์ต๋๋ค. ๊ฐ์ธ์ ์ผ๋ก ์ ๋ ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๊ฐํ๋ ๊ฒ๋ณด๋ค norm_type ๋งค๊ฐ๋ณ์๋ฅผ ์ ํธํฉ๋๋ค.
๊ทธ๋ฌ๋ Matplotlib๋ np.histogram์ ๋ฐํ ๊ตฌ์กฐ๋ฅผ plot/bar/etc์ ๋ํ ์ ๋ ฅ์ผ๋ก ์ง์ ๋ฐ์๋ค์ ๋๋ค. Pandas DataFrames๋ก ์์ ํ ๋ ์ํฉ์ด ์กฐ๊ธ ๋ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. ์๋์ผ๋ก ์ฌ๋ผ์ด์คํ๊ณ np.histogram์ ์คํํ ๋ค์ ํ๋กฏํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ด๊ฒ๋ ๊ฐ๋ฅํฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, count/sum/pmf ์ ๊ทํ๋ฅผ np.histogram์ ๊ตฌํํ๋ ๊ฒ์ ์ฌ์ํ์ง๋ง(๋ฐ๋ํ๋ ํ๋์ ์ธ์), ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ชจ๋์์ ํธ๋ฆฌํจ์ ์ ๊ณตํฉ๋๋ค.
matplotlib/matplotlib#10398์์ ๊ฒํ ํ ๊ฐ์น๊ฐ ์๋ ๊ทธ๋ฌํ ํค์๋๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๋ํด ๋ง์ ํ ๋ก ์ด ์์ต๋๋ค.
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
ํ์คํ ๊ทธ๋จ์์ ์ ๊ทํ๊ฐ ์ผ๋ง๋ ์์ฃผ ์ฌ์ฉ๋๋์ง ๊ณ ๋ คํ๋ฉด ๋จ์ํ ํธ์์ ๊ธฐ๋ฅ์ ํ์ฉํ๋ ๊ฒ์ด ํฉ๋ฆฌ์ ์ ๋๋ค. ๋ฌผ๋ก ์ถ๊ฐ ๋ผ์ธ์ ์ผ๋จ ํฐ ๋ฌธ์ ๊ฐ ์๋์ง๋ง ์ถ๊ฐ๋๊ณ ํ์ฌ ๊ตฌํ์ ํ์ค์ ์ฐพ๊ณ ๋งค๊ฐ ๋ณ์๊ฐ ํ์ํ ์์ ์ ์ํํ์ง ์๋๋ค๋ ๊ฒ์ ๊นจ๋ฌ์ ๋ ์ข์ ํ ์ ์์ต๋๋ค. ๊ฐ์ธ์ ์ผ๋ก ์ ๋ ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ถ๊ฐํ๋ ๊ฒ๋ณด๋ค norm_type ๋งค๊ฐ๋ณ์๋ฅผ ์ ํธํฉ๋๋ค.
๊ทธ๋ฌ๋ Matplotlib๋ np.histogram์ ๋ฐํ ๊ตฌ์กฐ๋ฅผ plot/bar/etc์ ๋ํ ์ ๋ ฅ์ผ๋ก ์ง์ ๋ฐ์๋ค์ ๋๋ค. Pandas DataFrames๋ก ์์ ํ ๋ ์ํฉ์ด ์กฐ๊ธ ๋ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. ์๋์ผ๋ก ์ฌ๋ผ์ด์คํ๊ณ np.histogram์ ์คํํ ๋ค์ ํ๋กฏํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ด๊ฒ๋ ๊ฐ๋ฅํฉ๋๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, count/sum/pmf ์ ๊ทํ๋ฅผ np.histogram์ ๊ตฌํํ๋ ๊ฒ์ ์ฌ์ํ์ง๋ง(๋ฐ๋ํ๋ ํ๋์ ์ธ์), ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ๋ชจ๋์์ ํธ๋ฆฌํจ์ ์ ๊ณตํฉ๋๋ค.