numpy 🚀 - パーセンタイルメソッドを再構築する

これはすでに存在すると思いますか？ウィキペディアの例の使用：

>>> np.percentile(15, 20, 35, 40, 50], [5, 30, 40, 50, 100], interpolation='lower')
array([15, 20, 20, 35, 50])

eric-wieser 2018年03月13日

そうではありません。ウィキペディアのページの例2を見てください。

>>> np.percentile([3, 6, 7, 8, 8, 10, 13, 15, 16, 20], [25,50,75,100], interpolation='lower')
array([ 7,  8, 13, 20])

[7,8,15,20]なるべきとき

3番目の例でも同様に失敗します

ricardoV94 2018年03月13日

最も近いのは「最も近い」のように聞こえますか？ただし、境界がどのように正確に機能するかについては、常に別のポイントがあります。
編集：つまり、データポイントまたはデータポイントの前で、0と100は正確にどこにあると見なされますか？（つまり、IIRCですが、とにかくここには厄介な複雑さがたくさんあります）

seberg 2018年03月13日

読みたくないのですが、違いはCパラメータがさらに下にある可能性があるので、これを知っている人がこれを追加したい場合は...

seberg 2018年03月13日

率直に言って、Cパラメーターを追加することは本当に良いことだと思います。しかし、ほとんどの場合、より優れたドキュメントがあればいいのですが、このようなことを本当に知っている人が必要です。

seberg 2018年03月13日

これがCパラメータと関係があるかどうかはわかりませんが、それを選択するオプションが望ましい可能性があることに同意します。

偶然にこの問題を引き起こした別のスレッドを見つけました（2016年12月）。私が探しているアルゴリズム（およびウィキペディアが最も近いランクと呼んでいるもの）は、Hyndman-Fan（H＆F）によるこの一般的に引用されている

直観的に同様のものを計算しているように見えるnumpyによって提供される他のオプション（つまり、「より低い」、「最も近い」）に対してどのように見えるかを次に示します。

percentiles

ricardoV94 2018年03月13日

私には、一見したところCパラメータとまったく同じように見えますが、最も近い曲線はH＆F曲線よりも引き伸ばされています。これは、numpyが1を使用し、明らかにH＆Fが0を使用するためです。

seberg 2018年03月13日

証拠が必要な場合。同じ値を1000回繰り返して全体を繰り返します。収束すると思います。
編集：またはそうでないかもしれませんが、それについて本当に考える忍耐力や時間がありません。しかし、それでもウィキペディアが言及しているCパラメータだと思うので、間違っていることを証明してください:)

seberg 2018年03月13日

そのようなグラフは、パーセンタイルドキュメントへの素晴らしい追加になります

編集：できれば不連続性の開閉性を示すもの

読者へのhttps://numpy.org/devdocs/reference/generated/numpy.percentile.htmlの下部にあり

eric-wieser 2018年03月13日

@ eric-wieserそのグラフを作成してもかまいません。今日は後で何かを持って戻ってきますが、ここに投稿する必要がありますか？

ricardoV94 2018年03月13日

@sebergここで正直に言うと、Cパラメータに基づいて補間がどのように計算されているのかわかりません。関係がないと思うのは、Cパラメータは線形補間のセクション（ウィキペディア）でのみ説明されており、ウィキペディアとHyndmand＆Fanの論文の両方で、補間のセクションとは別のセクションで要求したアルゴリズムについて説明しています。

興味のあるアルゴリズムと常に同じ結果をもたらす補間パラメータがあるかどうかはわかりません。

あるとしても、これはそれに到達するために使用される方法である必要がありますか？パーセンタイルの最も一般的な定義を取得するために「奇妙な」パラメータを変更することは、それを実装するための最良の方法ではないようです。

ricardoV94 2018年03月13日

@ ricardoV94かもしれませんが、デフォルトがどんなに悪くても、デフォルトを変更することはできません。 method = "H＆K"のようなものを公開して、両方のパラメーターを一度にオーバーライドすることができます。

Cパラメーターは、データポイント（データポイント上かどうかなど）に対して0％と100％を定義する場所です。ウィキペディアのパラメーターCとして、それは補間専用かもしれませんが、同じ問題がここでの違いを引き起こしていると確信しています。 Cはもちろん疑わしいですが、固有名詞はrange = 'min-max'やrange = 'extrapolated'のようなものか、おそらく完全に異なるものかもしれません。私が言ったように、多くのデータポイント（おそらく小さなノイズ）でプロットをやり直します。範囲の定義がわかりにくくなるので、それらが収束するのがわかると思います。

seberg 2018年03月13日

@seberg私はmethod = "H＆K"またはおそらくmethod = "classic"で大丈夫です。 Interpolation = "none"も意味があります。

ricardoV94 2018年03月13日

ドキュメントに画像を含めるためのメカニズムが何であるか、またはそれを行うための前例があるかどうかはわかりません。

ドキュメント内でmatplotlibコードを実行できることはわかっています。これは、他の場所で実行する方法です。これにより、現実との同期が維持されます。

eric-wieser 2018年03月13日

さて、その場合の最良のコードイメージを考えます。

matplotlibにはそのための組み込み関数（afaik）がないため、最も問題のある部分は、不連続性の開いた閉じたマーカーです。その場合、それらをハードコーディングしてもほとんど意味がありません。

ricardoV94 2018年03月13日

たぶん今のところそれらをスキップします。 matplotlibがそれらを自動的にサポートしてくれるといいですね。

eric-wieser 2018年03月13日

うまくいけば、誰かがより良い提案をするでしょう、それは不連続性に関してまだエレガントです。

import matplotlib.pyplot as plt

a = [0,1,2,3]
p = np.arange(101)

plt.step(p, np.percentile(a, p, interpolation='linear'), label='linear')
plt.step(p, np.percentile(a, p, interpolation='higher'), label='higher', linestyle='--')
plt.step(p, np.percentile(a, p, interpolation='lower'), label='lower', linestyle='--')
plt.step(p, np.percentile(a, p, interpolation='nearest'), label='nearest', linestyle='-.',)
plt.step(p, np.percentile(a, p, interpolation='midpoint'), label='midpoint', linestyle='-.',)

plt.title('Interpolation methods for list: ' + str(a))
plt.xlabel('Percentile')
plt.ylabel('List item returned')
plt.yticks(a)
plt.legend()

ricardoV94 2018年03月13日

interpolation = 'linear'は通常の階段状ではない線である必要があると思いますが、それ以外は見栄えがします。それをドキュメントに追加するPRを作成できますか？

eric-wieser 2018年03月13日

実際、 stepは一般的に誤解を招くアーティファクトを引き起こしているので、私はそれを避けたいと思います。 linspace(0, 100, 60)は、より正確な中間座標も生成します

eric-wieser 2018年03月13日

PRの作り方がわかりません。

提案された変更を追加または議論して、アカウントで自由にそれを行ってください。

ricardoV94 2018年03月13日

👍1

Cをこのようなもので変更できると思います（何かでテストしてください）。パーセンタイルで関数を呼び出してから、それをnumpyバージョンにプラグインします（C = 1を使用します。これは、現在バインドされていないパーセンタイルを修正する以外は何もしません）。

def scale_percentiles(p, num, C=0):
     """
     p : float
          percentiles to be used (within 0 and 100 inclusive)
     num : int
         number of data points.
     C : float
         parameter C, should be 0, 0.5 or 1. Numpy uses 1, matlab 0.5, H&K is 0.
     """
     p = np.asarray(p)
     fact = (num-1.+2*C)/(num-1)
     p *= fact
     p -= 0.5 * (fact-1) * 100
     p[p < 0] = 0
     p[p > 100] = 100
     return p

そして出来上がり、「最も近い」であなたはあなたの「H＆F」を手に入れ、線形であなたはウィキペディアからプロットを手に入れるでしょう。（私が何か間違ったことをしている間、私はそれを正しくしたと確信しています）。

私が言ったように、違いは、最後のポイントに対して0〜100（均等に）のデータポイントを配置する場所です。 C = 1の場合、min（data）を0パーセンタイルなどに設定します。「何がより理にかなっているのか」についてはわかりませんが、おそらく一般的な見方が少し重要です。 1を含み、0を除くという名前は、私が推測する少し意味があります（パーセンタイルの合計範囲について考えるとき、排他的な可能な範囲はデータ範囲外であるため）。ただし、C = 1/2もその意味で排他的です。

私はCパラメータを追加するつもりですが、可能であれば誰かにわかりやすい名前を考えてもらいたいと思います。また、最良のデフォルトを明らかにするために「メソッド」などのようなものを気にしません（補間+ Cの組み合わせ）。または、基本的に、ほとんどの組み合わせは使用されず、役に立たないと判断します。

結局のところ、私の問題は次のとおりです。統計学者に、どのメソッドがコンセンサスを持っているかを教えてもらいたい（Rにはいくつかのものがありますが、最後に誰かがここに来たときは、R docなどの過去のコピーであり、言うまでもなく、一般の聴衆にとっては役に立たなかった。論文を引用するほうがもっと役に立っただろう）。

seberg 2018年03月13日

そのH＆Fペーパーは読みたくないのですが（正直なところ、あまり見た目も良くありません）、サポートの観点からもご覧いただけると思います。しつこい「最も近い」（または他の）バージョンは、各データポイントに対して（パーセンタイルで）同一のサポートを持っていません。H＆Fは「最も近い」を同等にサポートしており、おそらく中間点についてはC = 1/2になるでしょう。
私は繰り返しますが、そのようなサポート引数（numpyなどのC = 1に対して）が実際に本当の理由であるかどうかはわかりません。

編集：midpointは、numpyで（ポイント自体ではなく、データポイント間の領域に対して）同等のサポートを持っているため、「C = 1」を使用します。

seberg 2018年03月14日

@sebergそれは私と一緒に動作しないようです。それが機能していることを示すコードを投稿できますか？

ricardoV94 2018年03月14日

さて、私はそこにあるそのコードで符号を間違えたので、それは反対でした（C = 0、C = 1ではなくno-op）：

def scale_percentiles(p, num, C=0):
     """
     p : float
          percentiles to be used (within 0 and 100 inclusive)
     num : int
         number of data points.
     C : float
         parameter C, should be 0, 0.5 or 1. Numpy uses 1, matlab 0.5, H&F is 0.
     """
     p = np.asarray(p)
     fact = (num+1.-2*C)/(num-1)
     p *= fact
     p -= 0.5 * (fact-1) * 100
     p[p < 0] = 0
     p[p > 100] = 100
     return p
plt.figure()
plt.plot(np.percentile([0, 1, 2, 3], scale_percentiles(np.linspace(0, 100, 101), 5, C=0), interpolation='nearest'))
plt.plot(np.percentile([0, 1, 2, 3], scale_percentiles(np.linspace(0, 100, 101), 5, C=1), interpolation='nearest'))
plt.figure()
plt.plot(np.percentile([15, 20, 35, 40, 50], scale_percentiles(np.linspace(0, 100, 101), 5, C=1), interpolation='linear'))
plt.plot(np.percentile([15, 20, 35, 40, 50], scale_percentiles(np.linspace(0, 100, 101), 5, C=0.5), interpolation='linear'))
plt.plot(np.percentile([15, 20, 35, 40, 50], scale_percentiles(np.linspace(0, 100, 101), 5, C=0), interpolation='linear'))

seberg 2018年03月14日

@seberg閉じますが、まだありません。以下のためにa = [0,1,2,3]とpercentiles = [25, 50, 75, 100] 、 np.percentile (a, scale_percentiles(percentiles, len(a), C=0), interpolation='nearest)戻っ[0, 2, 3, 3] 、それは返す必要があるときに[0,1,2,3] 。

リストのパーセンタイルをdtype=np.float必要がありました。そうしないと、関数でエラーが発生しますが、それが問題になるとは思いません。

古典的な方法の関数は単純です：
パーセンタイル/ 100 * N->インデックスとなる整数の場合は、上限をインデックスとして使用します。

それにもかかわらず、C引数は期待どおりに機能しているように見えるので、補間に使用したい場合は実装できます。ウィキペディアのものとして機能するmethod = 'classic'またはinterpolation = 'none'がまだ必要です。

ricardoV94 2018年03月14日

デバッグの場合、これは古典的な方法の私の醜い非numpy実装です：

def percentile (arr, p):
    arr = sorted(arr)

    index = p /100 * len(arr)

    # If index is a whole number, and larger than zero, subtract one unit (due to 0-based indexing)
    if index%1 < 0.0001 and index//1 > 0:
        index -= 1

    return arr[int(index)]

そしてもっとnumpythonicなもの：

def indexes_classic(percentiles, set_size):
    percentiles = np.asarray(percentiles)

    indexes = percentiles / 100* set_size
    indexes[np.isclose(indexes%1, 0)] -= 1
    indexes = np.asarray(indexes, dtype=np.int)
    indexes[indexes < 0] = 0
    indexes[indexes > 100] = 100

    return indexes

ricardoV94 2018年03月14日

これらの違いは、浮動小数点/丸めの問題のように聞こえます（
気づいているようです）、そして多分C = 0での私の推測は間違っていて、あなたは
C = 0.5。
私のポイントは、違いがどこから来るのかを言うことでした（「Cパラメータ」
IMO、おそらく多くを嫌う正当な理由がありますが
組み合わせ）。それはあなたに/回避策を実行することではありませんでした。

「クラシック」な方法については、率直に言って、クラシックなものはあまり気にしません。
あるはずです。私が知っているすべての人にとって、古典とは「かなりの数」を意味します
人々はそれを使用します」。

ソリューションに関しては、私の第一印象は「クラシック」か何かです
名前、名前が不明確な別の紛らわしいオプションを追加するだけです。私は願います
この議論は実際にすべてを作る方向に進むことができると
クリーンで透過的なユーザーが利用できる優れた（共通の）オプション
仕方。人々が実際に理解できる方法で最善です。

もう1つメソッドを追加できますが、率直に言って、私は半分しか好きではありません。私たちが
最後に追加されたメソッド（正確に何が変更されたかは覚えていません）I
すでに遅れて、誰かが飛び上がって理解することを望んでいた
私たちが持っているべきもの。言うまでもなく、それは実際には起こりませんでした。そして今
私は違いを指摘し、それがどのように適合するかを見ようとしています
私たちが現在持っているもので。

だから、私の印象は（丸めと正確な問題の可能性がある
パーセンタイル一致）（おそらくあまりにも）多くの「補間」オプションがあります
「Cパラメータ」またはそれを呼び出したいものが必要になります
ほとんど何でもできる。
そして、誰かが私にすべての方法を教えてくれたら本当に嬉しいです
（一般的）そこにある「方法」はそれらのカテゴリーに分類されます、それは
C = 0,0.5,1以上が存在し、おそらくそれらの外側にさえ存在します
オプション....

たぶん私は間違った道を進んでいますが、「Method1」を追加して
不明瞭な名前で、実際には誰にもわかりません。
他の方法は私には役に立たないようです（
たまたま「Method1」という名前をすでに知っていて、それを探しています。そして
「クラシック」が明白なものであるとは言わないでください。
そこにある実装のばらつきが大きすぎます。

別の方法は、非推奨の「補間」ですが、リストを用意することです。
メソッドの数も、「線形補間」をほのめかすほど良くありません。
それはステップ行動などではないと言うこと…そして私たちがそのように行けば、
私はまだ合理的な概要が欲しいです。

あなたはそれをする必要はありませんが、新しいメソッドを追加したい場合は、
それを追加する方法は、誰もがさらに混乱することはなく、明確です！

seberg 2018年03月14日

それでは要約しましょう：

1）現在、numpyが提供する便利な方法は1つだけです。inpolation= 'linear'であり、他の方法は、実際には誰も使用していないように見える、その周りの小さなバリエーションです。他のパッケージには、より多くの関連オプションがあります。

2）C = 0またはC = 0.5の他の値を追加することは、私には理にかなっています。すべての内挿法は、それらと組み合わせて機能しますが、おそらく使用されることはないでしょう。

3）補間法とC引数の組み合わせのいずれかが、古典的な方法を複製することに成功した場合（リファレンスとウィキペディア、および私の個人的な経験では、それが最も一般的に教えられている方法であることに同意します）、私はそれに満足しています。そのようなコンボは古典的な非補間法を生み出すとドキュメントで述べることができます。浮動小数点精度の問題だけが原因かどうかはわかりませんが、より統合された方法でそれに取り組むための努力に感謝します。

4）どのコンボでも同じ結果が得られない場合は、別の方法が理にかなっていると思います。おそらくinterpolation = 'none'と呼ばれる方が、混乱が少なくなります。

要約すると、numpy.percentileの現在のオプションは、かなり混乱し、制限されているように見えます。上記の論文は、他の有用な方法の概要を示しています。ウィキペディアのページと一緒に、numpy.percentileへのより網羅的で便利なオプションのセットを設計するための出発点として機能する可能性があります。うまくいけば、誰かがこのタスクに取り組みたいと思っています。

ricardoV94 2018年03月14日

現在の「最も近い」ということは、ある場合には意味がありますか？間隔法（「C」）または線形補間/分数のものにこれほど大きな違いをもたらすものがあれば、非分数近似で誰もそれをしなかったことに驚かれるかもしれません。定数サポートはそれほど重要であり、内挿法のCDF逆引数をダンプする理由はありますか？

コンボは、理解でき、一般的に使用されているものを見つけやすいものでない限り役に立たないので、私はそれを疑っています。補間については、多くのオプションが存在するようです（たとえば、http：//mathworld.wolfram.com/Quantile.html Q4からQ9、Rのドキュメントは実質的に同じだと思いますが、完全ではないと思います。たとえば、matlab ...）。それらが実際にすべて意味があるかどうかはわかりません;）。

正確に定義されたポイント間で何をするかを示す「補間」ポイントですが、少なくとも「線形補間」を使用する場合、それらのポイントを配置する方法はたくさんあります（奇妙なことにたくさんあります）ので、それに追加するのは悪いアプローチのようです。よく聞こえる（そして精神的に）interpolation = "nearest"の「最も近いランク」が必要でしたが、正確な「プロット位置」の選択は「非標準」のように思われるため、推測することは不可能です。悪い選択。

次に、すべてを積極的に非推奨にすることもできます（おそらく線形を除く）。

seberg 2018年03月14日

👍1

しかし、廃止する場合は、100％正しくしたいと思います。そのためには、何が存在するのか、何が存在するのか、何が明らかに存在しないのかについて、もう少し明確にする必要があります。

seberg 2018年03月14日

完全にあなたと同意します

ricardoV94 2018年03月14日

@ ricardoV94 ：＃9211で提案された加重分位数の場合のlinearの定義について意見はありますか？同じスタイルのグラフがいくつかあります。

eric-wieser 2018年05月19日

たぶん@ ricardoV94はそれについてコメントすることができます（それはクールでしょう）が、問題はかなり直交していると思います。パーセンタイルに合理的に定義された他の重みがないと仮定すると（方法はわかりません）、重みはおそらく単純な周波数タイプの重みです。それらを実装するときにあいまいさはないはずですが、確かにはわかりません。

また、そのPRでjosef-pktにpingを実行して、それが良いアイデア/正しいと思うかどうかについて、彼が簡単にコメントしてくれることを期待することもできます。

seberg 2018年05月19日

誰かがここからそれを取得したい場合は、私はを計算する最適化されていない関数を書きました
Hyndman and Fan（1996）によって記述され、 Rでも使用されている9パーセンタイル/分位数の推定方法。

方法1は、ウィキペディアで説明されている「古典的な最も近いランクの方法」に対応します。方法7は、現在のNumpy実装と同等です（補間= '線形'）。 Numpy補間の残りのメソッドは含まれていません（とにかくそれらは役に立たないようです）。

def percentile(x, p, method=7):
    '''
    Compute the qth percentile of the data.

    Returns the qth percentile(s) of the array elements.

    Parameters
    ----------
    x : array_like
        Input array or object that can be converted to an array.
    p : float in range of [0,100] (or sequence of floats)
        Percentile to compute, which must be between 0 and 100 inclusive.
    method : integer in range of [1,9]
        This optional parameter specifies one of the nine sampling methods 
        discussed in Hyndman and Fan (1996). 

        Methods 1 to 3 are discontinuous:
        * Method 1: Inverse of empirical distribution function (oldest
        and most studied method).
        * Method 2: Similar to type 1 but with averaging at discontinuities.
        * Method 3: SAS definition: nearest even order statistic.

        Methods 4 to 9 are continuous and equivalent to a linear interpolation 
        between the points (pk,xk) where xk is the kth order statistic. 
        Specific expressions for pk are given below:
        * Method 4: pk=kn. Linear interpolation of the empirical cdf.
        * Method 5: pk=(k−0.5)/n. Piecewise linear function where the knots 
        are the values midway through the steps of the empirical cdf 
        (Popular amongst hydrologists, used by Mathematica?).
        * Method 6: pk=k/(n+1), thus pk=E[F(xk)]. The sample space is divided
        in n+1 regions, each with probability of 1/(n+1) on average
        (Used by Minitab and SPSS).
        * Method 7: pk=(k−1)/(n−1), thus pk=mode[F(xk)]. The sample space
        is divided into n-1 regions (This is the default method of 
        Numpy, R, S, and MS Excell).
        * Method 8: pk=(k−1/3)/(n+1/3), thus pk≈median[F(xk)]. The resulting
        estimates are approximately median-unbiased regardless of the
        distribution of x (Recommended by Hyndman and Fan (1996)).
        * Method 9: k=(k−3/8)/(n+1/4), thus pk≈F[E(xk)]if x is normal (?).
        The resulting estimates are approximately unbiased for the expected 
        order statistics if x is normally distributed (Used for normal QQ plots).

        References:
        Hyndman, R. J. and Fan, Y. (1996) Sample quantiles in statistical packages, 
        American Statistician 50, 361--365.
        Schoonjans, F., De Bacquer, D., & Schmid, P. (2011). Estimation of population
        percentiles. Epidemiology (Cambridge, Mass.), 22(5), 750.

        '''

    method = method-1    
    x = np.asarray(x)
    x.sort()
    p = np.array(p)/100

    n = x.size  
    m = [0, 0, -0.5, 0, 0.5, p, 1-p, (p+1)/3, p/4+3/8][method]

    npm = n*p+m
    j = np.floor(npm).astype(np.int)
    g = npm-j

    # Discontinuous functions
    if method < 3:
        yg0 = [0, 0.5, 0][method]
        y = np.ones(p.size)
        if method < 2:
            y[g==0] = yg0
        else:
            y[(g==0) & (j%2 == 0)] = yg0      
    # Continuous functions
    else:
        y = g

    # Adjust indexes to work with Python
    j_ = j.copy()
    j[j<=0] = 1
    j[j > n] = n
    j_[j_ < 0] = 0
    j_[j_ >= n] = n-1 

    return (1-y)* x[j-1] + y*x[j_]

このように、連続メソッドをより効率的に実装することもできます。

def percentile_continuous(x, p, method=7):
    '''
    Compute the qth percentile of the data.

    Returns the qth percentile(s) of the array elements.

    Parameters
    ----------
    x : array_like
        Input array or object that can be converted to an array.
    p : float in range of [0,100] (or sequence of floats)
        Percentile to compute, which must be between 0 and 100 inclusive.
    method : integer in range of [4,9]
        This optional parameter specifies one of the 5 continuous sampling
        methods discussed in Hyndman and Fan (1996). 
        '''

    x = np.asarray(x)
    x.sort()
    p = np.asarray(p)/100
    n = x.size

    if method == 4:
        r = p * n
    elif method == 5:
        r = p * n + .5
    elif method == 6:
        r = p * (n+1)
    elif method == 7:
        r = p * (n-1) + 1
    elif method == 8:
        r = p * (n+1/3) + 1/3
    elif method == 9:
        r = p * (n+1/4) + 3/8

    index = np.floor(r).astype(np.int)

    # Adjust indexes to work with Python
    index_ = index.copy()
    index[index_ <= 0] = 1
    index[index_  > n] = n
    index_[index_ < 0] = 0
    index_[index_ >= n] = n-1

    i = x[index - 1]
    j = x[index_]

    return i + r%1* (j-i)

誰もがここからそれを取りたいですか？私はそうする資格がありません。

ricardoV94 2018年05月19日

前回の投稿で述べたように、numpyの現在の分位数のデフォルト実装はR一致しているようです。

R ：

> quantile(c(15, 20, 35, 40, 50), probs=c(0.05, 0.3, 0.4, 0.5, 1))
  5%  30%  40%  50% 100% 
  16   23   29   35   50 
> quantile(c(3, 6, 7, 8, 8, 10, 13, 15, 16, 20), probs=c(0.25, 0.5, 0.75, 1))
  25%   50%   75%  100% 
 7.25  9.00 14.50 20.00
> quantile(c(3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20), probs=c(0.25, 0.5, 0.75, 1))
 25%  50%  75% 100% 
 7.5  9.0 14.0 20.0

np.quantile ：

>>> np.quantile([15, 20, 35, 40, 50], q=[0.05, 0.3, 0.4, 0.5, 1])
array([16., 23., 29., 35., 50.])
>>> np.quantile([3, 6, 7, 8, 8, 10, 13, 15, 16, 20], q=[0.25, 0.5, 0.75, 1])
array([ 7.25,  9.  , 14.5 , 20.  ])
>>> np.quantile([3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20], q=[0.25, 0.5, 0.75, 1])
array([ 7.5,  9. , 14. , 20. ])

もちろん、これはウィキペディアに記載されている例を再現していません。
https://en.wikipedia.org/wiki/Percentile

実際、分位数のRヘルプページにアクセスすると、https：//www.rdocumentation.org/packages/stats/versions/3.5.0/topics/quantile
Rのデフォルトメソッド（タイプ7）は、 np.quantile設定するのと同じ境界条件を設定することがわかります。 p_k = (k-1) / (n-1) 、ここで、nはサンプルサイズ、k = 1は最小を示します。値、k = nが最大。つまり、ソートされた配列の最小値は分位= 0に固定され、最大値は分位= 1に固定されます。

また、前の投稿で述べたように、ウィキペディアの3つの例をタイプ1で再現できます。

> quantile(c(15, 20, 35, 40, 50), probs=c(0.05, 0.3, 0.4, 0.5, 1), type=1)
  5%  30%  40%  50% 100% 
  15   20   20   35   50 
> quantile(c(3, 6, 7, 8, 8, 10, 13, 15, 16, 20), probs=c(0.25, 0.5, 0.75, 1), type=1)
 25%  50%  75% 100% 
   7    8   15   20 
> quantile(c(3, 6, 7, 8, 8, 9, 10, 13, 15, 16, 20), probs=c(0.25, 0.5, 0.75, 1), type=1)
 25%  50%  75% 100% 
   7    9   15   20

それはいくつかの興味深い質問を提起します：

1.）np.quantileのデフォルトはR.quantileのデフォルトを追跡する必要がありますか？
2.）np.quantileはタイプ1アルゴリズムに切り替える必要がありますか？

ウィキペディア自体でさえパーセンタイルの標準的な定義がないことに同意しているので、アルゴリズムが適切であり、ユーザーがそれがどのように機能するかを知っている限り、（1）も（2）もそれほど重要ではないと思います。 PythonとRは世の中で最も人気のあるデータ分析プラットフォームの2つであり、お互いを精査できればいいので、私は（1）にもっと賛成です。それを考えると、（2）は不要だと思います。

chunweiyuan 2018年05月20日

はい、RとNumpyはどちらもデフォルトでメソッド7に設定されているため、そのままにしておく必要があります。問題は、他のメソッドを追加するかどうかです。

ricardoV94 2018年05月20日

誰かが興味を持っているなら、私はここに、9パーセンタイルメソッドを備えた独立したモジュールを設置し

ricardoV94 2018年06月17日

ありがとう@ ricardoV94 。

それで、キックのためだけに、私はRユーザーの仕事で世論調査をしました。回答した20人のうち、20人はquantileのデフォルトの方法のみを使用しています。彼らは公衆衛生の修士課程の学生から統計学の博士課程の研究者まで多岐にわたります。

個人的には、分位数を計算する9つの異なる方法をサポートするためにnumpyが努力する価値があるかどうかはわかりません。ほとんどのユーザーはデフォルトを使用すると思います。

chunweiyuan 2018年06月30日

価値があるのは、9つのメソッドのうち6つ（連続メソッド）をサポートするscipy.stats.mstats.mquantiles関数であり、ドキュメントにはR実装とのリンクが非常に明確に記載されています。

albertcthomas 2018年12月05日

@albertcthomasああ、それは知っておくと良いことです。とはいえ、理想的には、この複雑さを少しだけ隠しておくと思います。そして、ほとんどの場合、非隣接バージョンIIRCを修正する必要があります。それらは基本的に最も一般的な方法を提供しないからです。

seberg 2018年12月05日

はい、確かに、scipy statsモジュールに実装されている場合、numpyは必ずしもこれらのメソッドをサポートする必要はありません。

albertcthomas 2018年12月05日

個人的には、累積分布関数の一般逆行列から分位数を計算する方法が必要です。そのような方法が利用できないという事実は私をこの問題に導きます:)。

albertcthomas 2018年12月05日

@albertcthomasこれについてのヒント/知識がある場合は、そう言ってください！実際に適切なデフォルトが明確でないため、少し行き詰まっています。そして、それはかなり厄介な問題だと思います。

最も重要なことは、いくつかの適切なデフォルトが必要です。そして、それはおそらく2〜3のメソッドを実装することを意味します（隣接していないメソッドを完全に刷新します）。私は多かれ少なかれ複雑なものをサポートしても大丈夫ですが、いくつかの「典型的/良い」ものを決定できればと思います。

seberg 2018年12月05日

線形法（現在のデフォルト）と累積分布関数の逆関数（この問題を作成したときに探していたもの、および正しく理解している場合は@albertcthomas ）で十分だと思います。基本的に、補間が必要かどうかを選択できます。

そして、現在実装されている他の選択肢は確実に削除する必要があります。

ricardoV94 2018年12月05日

累積分布関数の逆関数を確実に追加する必要があります。これは、統計における観測の特定のサンプルからの分位数の最も人気のある推定量の1つです。

albertcthomas 2018年12月05日

👍1

そして、現在実装されている他の選択肢は確実に削除する必要があります。

@ ricardoV94は、ウィキペディアやHyndman and Fanの論文で代替案が参照されていないため、これを言っていますか？

albertcthomas 2019年01月02日

はい、他のパッケージには実装されていません。

なぜ誰かがそれらのメソッドを使いたいのか分かりません、そして彼らの名前は
また、誤解を招く可能性があります。

アルバートトーマス[email protected] no dia quarta、2019年2月1日
à（s）14:18：

そして現在実装されている他の選択肢は間違いなく
削除されました。
@ ricardoV94 https://github.com/ricardoV94これを言っているのは、
ウィキペディアでも、ハインドマンでも、
ファンの紙？
—
あなたが言及されたのであなたはこれを受け取っています。
このメールに直接返信し、GitHubで表示してください
https://github.com/numpy/numpy/issues/10736#issuecomment-450861068 、またはミュート
スレッド
https://github.com/notifications/unsubscribe-auth/AbpAmfUoJNk3YHOSHNeVN03Va5wtvkHQks5u_LGugaJpZM4SnVpE
。

ricardoV94 2019年01月02日

ありがとう！ np.percentileで利用可能なメソッドとして、累積分布の逆数を追加するためにPRを開いてみませんか？代替案について話し合いを続けたい場合は、この問題を開いたままにします（デフォルトのままにする必要がある現在のデフォルトを除く）。 numpyでは非推奨はどのように処理されますか？

albertcthomas 2019年01月03日

ここにいくつかの詳細情報-Python3.8がstatistics.quantilesを追加しました-同等のモードをnp.quantileに追加することを検討する必要があります

eric-wieser 2019年04月27日

👍1

前方ここでの方法は、追加することおそらくmethod kwargミラーリングstatistics （その場合には、Pythonの上、元の作者にpingを実行すると良いでしょう）より0-2を追加するものを、可能な。

デフォルトが私たちと彼らの間で一致するかどうかはわかりません。一致しない場合は残念ですが、それでも最善のアイデアのようです（とにかく私たちが考えていたものとほぼ同じです）。 0〜2個の新しい「メソッド」も追加できます。その場合、実際の名前でpython統計担当者にpingを実行するとよいでしょう...

PRは大歓迎です。これを前進させたいのですが、近い将来は行いません。

seberg 2019年06月06日

@ eric-wieser関連するPRがいくつか残っていることに注意しますが、これらのいずれかがこれに対処していますか？

これを1.19にプッシュして、ブロッカーにならないようにします。しかし、それは1.18で修正できないという意味ではありません:)

charris 2019年11月26日

@charris ：どのPRを考えていますか？

eric-wieser 2019年11月26日

残念ながら、この方向にはまだ何もないと思います。

seberg 2019年11月26日

Numpy: パーセンタイルメソッドを再構築する

全てのコメント53件

関連する問題