Pandas: バグ:groupby.pct_change()はPandas0.23.0では正しく機能しません。 グループ化は無視されます。

作成日 2018年05月25日  ·  4コメント  ·  ソース: pandas-dev/pandas

コードサンプル

>>>import pandas as pd
>>>import numpy as np

>>>df = pd.DataFrame(data=np.random.rand(8, 1), columns={'a'})
>>>df['grp']=1
>>>df.loc[::2, 'grp']=2
>>>df['%_groupby']=df.groupby('grp')['a'].pct_change()
>>>df['%_shift']=df.groupby('grp')['a'].shift(0)/df.groupby('grp')['a'].shift(1)-1
>>>print(df)

問題の説明

データフレームに異なるグループがある場合、 groupbyすることにより、 pct_change関数が各グループに適用されることが期待されます。 ただし、 groupbypct_changeと組み合わせると、正しい結果が得られません。

出力:

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1   0.100000       NaN
2  1.2    2   0.090909  0.200000
3  1.3    1   0.083333  0.181818
4  1.4    2   0.076923  0.166667
5  1.5    1   0.071429  0.153846
6  1.6    2   0.066667  0.142857
7  1.7    1   0.062500  0.133333

期待される出力

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1        NaN       NaN
2  1.2    2   0.200000  0.200000
3  1.3    1   0.181818  0.181818
4  1.4    2   0.166667  0.166667
5  1.5    1   0.153846  0.153846
6  1.6    2   0.142857  0.142857
7  1.7    1   0.133333  0.133333

pd.show_versions()出力

インストールされたバージョン


コミット:なし
python:3.6.3.final.0
python-ビット:64
OS:ダーウィン
OSリリース:17.5.0
マシン:x86_64
プロセッサ:i386
バイトオーダー:少し
LC_ALL:en_US.UTF-8
言語:en_US.UTF-8
ロケール:en_US.UTF-8

パンダ:0.23.0
pytest:3.2.1
ピップ:10.0.1
setuptools:36.5.0.post20170921
Cython:0.26.1
numpy:1.14.3
scipy:0.19.1
pyarrow:なし
xarray:なし
IPython:6.1.0
スフィンクス:1.6.3
patsy:0.4.1
dateutil:2.6.1
pytz:2018.3
blosc:なし
ボトルネック:1.2.1
表:3.4.2
numexpr:2.6.2
フェザー:なし
matplotlib:2.1.0
openpyxl:2.4.8
xlrd:1.1.0
xlwt:1.2.0
xlsxwriter:1.0.2
lxml:4.1.1
bs4:4.6.0
html5lib:0.99999999
sqlalchemy:1.1.13
pymysql:なし
psycopg2:なし
jinja2:2.9.6
s3fs:なし
fastparquet:なし
pandas_gbq:なし
pandas_datareader:なし

Bug Groupby

最も参考になるコメント

これを回避するには、 applyます。 これにより、目的の結果が得られるはずです。

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

全てのコメント4件

〜3944行のgroupby.pyのpct_change関数がこれを適切に実装していないことがわかります。 オーバーライドするメソッドは、データフレームに対して適切に実装します。 これは比較的簡単に修正できるはずだと思います。
私はこれのためにPRでひびを入れます。 私はこれまでパンダに貢献したことがないので、タイムリーに完了することができるかどうかを確認します。

https://github.com/pandas-dev/pandas/issues/11811に関連している可能性があり

逆にシフトすると、これらの線に沿って何かが見つかりました。

import pandas_datareader.data as web
import pandas as pd

tickers = ['F','AAPL','NFLX','AMZN','GOOG']

df = pd.DataFrame()
for ticker in tickers:
    data = web.DataReader(ticker, 'iex', '2018-01-01', '2018-06-01')
    data['ticker'] = ticker
    df = df.append(data)

df = df.reset_index()
df['5_day_growth'] = df.groupby('ticker').close.pct_change(periods=-5)
df['5_day_growth_alt'] = df.groupby('ticker').close.pct_change(periods=5).shift(-5)

別の方法では、計算をシフトするのではなく、正しい出力が得られます。

print(df[['date','ticker','close','5_day_growth', '5_day_growth_alt']].head(6))

          date ticker    close  5_day_growth  5_day_growth_alt
0  2018-01-02      F  12.1939     -0.032115          0.033181
1  2018-01-03      F  12.2903     -0.020717          0.021155
2  2018-01-04      F  12.5022     -0.013672          0.013862
3  2018-01-05      F  12.7141     -0.002268          0.002273
4  2018-01-08      F  12.6659      0.003820         -0.003805
5  2018-01-09      F  12.5985      0.073894         -0.068810

これを回避するには、 applyます。 これにより、目的の結果が得られるはずです。

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

このページは役に立ちましたか?
0 / 5 - 0 評価