Pandas: バグ：groupby.pct_change（）はPandas0.23.0では正しく機能しません。グループ化は無視されます。

作成日 2018年05月25日 · 4コメント · ソース: pandas-dev/pandas

コードサンプル

>>>import pandas as pd
>>>import numpy as np

>>>df = pd.DataFrame(data=np.random.rand(8, 1), columns={'a'})
>>>df['grp']=1
>>>df.loc[::2, 'grp']=2
>>>df['%_groupby']=df.groupby('grp')['a'].pct_change()
>>>df['%_shift']=df.groupby('grp')['a'].shift(0)/df.groupby('grp')['a'].shift(1)-1
>>>print(df)

問題の説明

データフレームに異なるグループがある場合、 groupbyすることにより、 pct_change関数が各グループに適用されることが期待されます。ただし、 groupbyをpct_changeと組み合わせると、正しい結果が得られません。

出力：

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1   0.100000       NaN
2  1.2    2   0.090909  0.200000
3  1.3    1   0.083333  0.181818
4  1.4    2   0.076923  0.166667
5  1.5    1   0.071429  0.153846
6  1.6    2   0.066667  0.142857
7  1.7    1   0.062500  0.133333

期待される出力

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1        NaN       NaN
2  1.2    2   0.200000  0.200000
3  1.3    1   0.181818  0.181818
4  1.4    2   0.166667  0.166667
5  1.5    1   0.153846  0.153846
6  1.6    2   0.142857  0.142857
7  1.7    1   0.133333  0.133333

`pd.show_versions()`出力

インストールされたバージョン

コミット：なし
python：3.6.3.final.0
python-ビット：64
OS：ダーウィン
OSリリース：17.5.0
マシン：x86_64
プロセッサ：i386
バイトオーダー：少し
LC_ALL：en_US.UTF-8
言語：en_US.UTF-8
ロケール：en_US.UTF-8

パンダ：0.23.0
pytest：3.2.1
ピップ：10.0.1
setuptools：36.5.0.post20170921
Cython：0.26.1
numpy：1.14.3
scipy：0.19.1
pyarrow：なし
xarray：なし
IPython：6.1.0
スフィンクス：1.6.3
patsy：0.4.1
dateutil：2.6.1
pytz：2018.3
blosc：なし
ボトルネック：1.2.1
表：3.4.2
numexpr：2.6.2
フェザー：なし
matplotlib：2.1.0
openpyxl：2.4.8
xlrd：1.1.0
xlwt：1.2.0
xlsxwriter：1.0.2
lxml：4.1.1
bs4：4.6.0
html5lib：0.99999999
sqlalchemy：1.1.13
pymysql：なし
psycopg2：なし
jinja2：2.9.6
s3fs：なし
fastparquet：なし
pandas_gbq：なし
pandas_datareader：なし

Bug Groupby

ソース

Pferdow30

👍7 ❤1 😕1

最も参考になるコメント

これを回避するには、 applyます。これにより、目的の結果が得られるはずです。

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

WillKoehrsen 2018年06月28日

👍13 ❤3 🚀1

全てのコメント4件

〜3944行のgroupby.pyのpct_change関数がこれを適切に実装していないことがわかります。オーバーライドするメソッドは、データフレームに対して適切に実装します。これは比較的簡単に修正できるはずだと思います。
私はこれのためにPRでひびを入れます。私はこれまでパンダに貢献したことがないので、タイムリーに完了することができるかどうかを確認します。

simonariddell 2018年05月25日

👍1

https://github.com/pandas-dev/pandas/issues/11811に関連している可能性があり

jreback 2018年05月25日

👍1

逆にシフトすると、これらの線に沿って何かが見つかりました。

import pandas_datareader.data as web
import pandas as pd

tickers = ['F','AAPL','NFLX','AMZN','GOOG']

df = pd.DataFrame()
for ticker in tickers:
    data = web.DataReader(ticker, 'iex', '2018-01-01', '2018-06-01')
    data['ticker'] = ticker
    df = df.append(data)

df = df.reset_index()
df['5_day_growth'] = df.groupby('ticker').close.pct_change(periods=-5)
df['5_day_growth_alt'] = df.groupby('ticker').close.pct_change(periods=5).shift(-5)

別の方法では、計算をシフトするのではなく、正しい出力が得られます。

print(df[['date','ticker','close','5_day_growth', '5_day_growth_alt']].head(6))

          date ticker    close  5_day_growth  5_day_growth_alt
0  2018-01-02      F  12.1939     -0.032115          0.033181
1  2018-01-03      F  12.2903     -0.020717          0.021155
2  2018-01-04      F  12.5022     -0.013672          0.013862
3  2018-01-05      F  12.7141     -0.002268          0.002273
4  2018-01-08      F  12.6659      0.003820         -0.003805
5  2018-01-09      F  12.5985      0.073894         -0.068810

rontho1992 2018年06月05日

これを回避するには、 applyます。これにより、目的の結果が得られるはずです。

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

WillKoehrsen 2018年06月28日

👍13 ❤3 🚀1

このページは役に立ちましたか？

0 / 5 - 0 評価

Pandas: バグ：groupby.pct_change（）はPandas0.23.0では正しく機能しません。 グループ化は無視されます。