Pandas: BUG : groupby.pct_change ()가 Pandas 0.23.0에서 제대로 작동하지 않습니다. 그룹화는 무시됩니다.

에 만든 2018년 05월 25일 · 4코멘트 · 출처: pandas-dev/pandas

코드 샘플

>>>import pandas as pd
>>>import numpy as np

>>>df = pd.DataFrame(data=np.random.rand(8, 1), columns={'a'})
>>>df['grp']=1
>>>df.loc[::2, 'grp']=2
>>>df['%_groupby']=df.groupby('grp')['a'].pct_change()
>>>df['%_shift']=df.groupby('grp')['a'].shift(0)/df.groupby('grp')['a'].shift(1)-1
>>>print(df)

문제 설명

데이터 프레임에 다른 그룹이있는 경우 groupby 를 사용하면 pct_change 함수가 각 그룹에 적용될 것으로 예상됩니다. 그러나 groupby 와 pct_change 결합하면 올바른 결과가 생성되지 않습니다.

산출:

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1   0.100000       NaN
2  1.2    2   0.090909  0.200000
3  1.3    1   0.083333  0.181818
4  1.4    2   0.076923  0.166667
5  1.5    1   0.071429  0.153846
6  1.6    2   0.066667  0.142857
7  1.7    1   0.062500  0.133333

예상 출력

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1        NaN       NaN
2  1.2    2   0.200000  0.200000
3  1.3    1   0.181818  0.181818
4  1.4    2   0.166667  0.166667
5  1.5    1   0.153846  0.153846
6  1.6    2   0.142857  0.142857
7  1.7    1   0.133333  0.133333

`pd.show_versions()`

설치된 버전

커밋 : 없음
파이썬 : 3.6.3.final.0
파이썬 비트 : 64
운영체제 : Darwin
OS 릴리스 : 17.5.0
컴퓨터 : x86_64
프로세서 : i386
byteorder : 조금
LC_ALL : en_US.UTF-8
LANG : en_US.UTF-8
로컬 : en_US.UTF-8

판다 : 0.23.0
pytest : 3.2.1
핍 : 10.0.1
setuptools : 36.5.0.post20170921
사이 톤 : 0.26.1
numpy : 1.14.3
scipy : 0.19.1
pyarrow : 없음
xarray : 없음
IPython : 6.1.0
스핑크스 : 1.6.3
패시 : 0.4.1
dateutil : 2.6.1
pytz : 2018.3
blosc : 없음
병목 현상 : 1.2.1
표 : 3.4.2
numexpr : 2.6.2
깃털 : 없음
matplotlib : 2.1.0
openpyxl : 2.4.8
xlrd : 1.1.0
xlwt : 1.2.0
xlsxwriter : 1.0.2
lxml : 4.1.1
bs4 : 4.6.0
html5lib : 0.9999999
sqlalchemy : 1.1.13
pymysql : 없음
psycopg2 : 없음
jinja2 : 2.9.6
s3fs : 없음
fastparquet : 없음
pandas_gbq : 없음
pandas_datareader : 없음

Bug Groupby

출처

Pferdow30

👍7 ❤1 😕1

가장 유용한 댓글

이에 대한 해결 방법은 apply 입니다. 이렇게하면 원하는 결과가 생성됩니다.

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

WillKoehrsen 에 2018년 06월 28일

👍13 ❤3 🚀1

모든 4 댓글

~ 3944 행에서 groupby.py의 pct_change 함수가 제대로 구현되지 않는 것을 볼 수 있습니다. 재정의하는 메서드는 데이터 프레임에 대해 적절하게 구현합니다. 나는 이것이 치료하기에 비교적 간단해야한다고 생각하고 싶습니다.
나는 이것을 위해 PR에 균열을 가질 것이다. 이전에는 팬더에 기여한 적이 없지만 적시에 완료 할 수 있는지 살펴 보겠습니다.

simonariddell 에 2018년 05월 25일

👍1

https://github.com/pandas-dev/pandas/issues/11811 과 관련이있을 수

jreback 에 2018년 05월 25일

👍1

반대로 변속 할 때이 선을 따라 뭔가를 찾았습니다.

import pandas_datareader.data as web
import pandas as pd

tickers = ['F','AAPL','NFLX','AMZN','GOOG']

df = pd.DataFrame()
for ticker in tickers:
    data = web.DataReader(ticker, 'iex', '2018-01-01', '2018-06-01')
    data['ticker'] = ticker
    df = df.append(data)

df = df.reset_index()
df['5_day_growth'] = df.groupby('ticker').close.pct_change(periods=-5)
df['5_day_growth_alt'] = df.groupby('ticker').close.pct_change(periods=5).shift(-5)

대체 방법은 계산에서 이동하는 대신 올바른 출력을 제공합니다.

print(df[['date','ticker','close','5_day_growth', '5_day_growth_alt']].head(6))

          date ticker    close  5_day_growth  5_day_growth_alt
0  2018-01-02      F  12.1939     -0.032115          0.033181
1  2018-01-03      F  12.2903     -0.020717          0.021155
2  2018-01-04      F  12.5022     -0.013672          0.013862
3  2018-01-05      F  12.7141     -0.002268          0.002273
4  2018-01-08      F  12.6659      0.003820         -0.003805
5  2018-01-09      F  12.5985      0.073894         -0.068810

rontho1992 에 2018년 06월 05일