Pandas: ОШИБКА: groupby.pct_change () не работает должным образом в Pandas 0.23.0. Группировка игнорируется.

Созданный на 25 мая 2018 · 4Комментарии · Источник: pandas-dev/pandas

Образец кода

>>>import pandas as pd
>>>import numpy as np

>>>df = pd.DataFrame(data=np.random.rand(8, 1), columns={'a'})
>>>df['grp']=1
>>>df.loc[::2, 'grp']=2
>>>df['%_groupby']=df.groupby('grp')['a'].pct_change()
>>>df['%_shift']=df.groupby('grp')['a'].shift(0)/df.groupby('grp')['a'].shift(1)-1
>>>print(df)

Описание проблемы

Когда в кадре данных есть разные группы, при использовании groupby ожидается, что функция pct_change будет применена к каждой группе. Однако объединение groupby с pct_change не дает правильного результата.

Вывод:

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1   0.100000       NaN
2  1.2    2   0.090909  0.200000
3  1.3    1   0.083333  0.181818
4  1.4    2   0.076923  0.166667
5  1.5    1   0.071429  0.153846
6  1.6    2   0.066667  0.142857
7  1.7    1   0.062500  0.133333

Ожидаемый результат

     a  grp  %_groupby   %_shift
0  1.0    2        NaN       NaN
1  1.1    1        NaN       NaN
2  1.2    2   0.200000  0.200000
3  1.3    1   0.181818  0.181818
4  1.4    2   0.166667  0.166667
5  1.5    1   0.153846  0.153846
6  1.6    2   0.142857  0.142857
7  1.7    1   0.133333  0.133333

Вывод `pd.show_versions()`

УСТАНОВЛЕННЫЕ ВЕРСИИ

коммит: Нет
питон: 3.6.3.final.0
биты Python: 64
ОС: Дарвин
ОС-релиз: 17.5.0
машина: x86_64
процессор: i386
byteorder: маленький
LC_ALL: en_US.UTF-8
ЯЗЫК: en_US.UTF-8
МЕСТО: en_US.UTF-8

панды: 0.23.0
pytest: 3.2.1
пункт: 10.0.1
setuptools: 36.5.0.post20170921
Cython: 0.26.1
число: 1.14.3
scipy: 0.19.1
pyarrow: Нет
xarray: Нет
IPython: 6.1.0
сфинкс: 1.6.3
Пэтси: 0.4.1
dateutil: 2.6.1
pytz: 2018.3
blosc: Нет
узкое место: 1.2.1
таблицы: 3.4.2
numexpr: 2.6.2
перо: Нет
matplotlib: 2.1.0
openpyxl: 2.4.8
xlrd: 1.1.0
xlwt: 1.2.0
xlsxwriter: 1.0.2
lxml: 4.1.1
BS4: 4.6.0
html5lib: 0,9999999
sqlalchemy: 1.1.13
pymysql: Нет
psycopg2: Нет
jinja2: 2.9.6
s3fs: Нет
fastparquet: Нет
pandas_gbq: Нет
pandas_datareader: Нет

Bug Groupby

Источник

Pferdow30

👍7 ❤1 😕1

Самый полезный комментарий

Чтобы решить эту проблему, используйте apply . Это должно дать желаемый результат:

df['%_groupby'] = df.groupby('grp')['a'].apply(lambda x: x.pct_change())

WillKoehrsen 28 июн. 2018

👍13 ❤3 🚀1

Все 4 Комментарий

Я вижу, что функция pct_change в groupby.py в строке ~ 3944 не реализует это должным образом. В то время как метод, который он переопределяет, правильно реализует его для фрейма данных. Я хотел бы думать, что это должно быть относительно просто исправить.
Я возьмусь за пиар за это. Хотя я раньше не участвовал в создании pandas, посмотрим, смогу ли я завершить его своевременно.

simonariddell 25 мая 2018

👍1

может быть связано с https://github.com/pandas-dev/pandas/issues/11811

jreback 25 мая 2018

👍1

Нашел что-то в этом роде, когда переключаешься назад, поэтому

import pandas_datareader.data as web
import pandas as pd

tickers = ['F','AAPL','NFLX','AMZN','GOOG']

df = pd.DataFrame()
for ticker in tickers:
    data = web.DataReader(ticker, 'iex', '2018-01-01', '2018-06-01')
    data['ticker'] = ticker
    df = df.append(data)

df = df.reset_index()
df['5_day_growth'] = df.groupby('ticker').close.pct_change(periods=-5)
df['5_day_growth_alt'] = df.groupby('ticker').close.pct_change(periods=5).shift(-5)

Альтернативный метод дает вам правильный результат, а не смещение в расчетах.

print(df[['date','ticker','close','5_day_growth', '5_day_growth_alt']].head(6))

          date ticker    close  5_day_growth  5_day_growth_alt
0  2018-01-02      F  12.1939     -0.032115          0.033181
1  2018-01-03      F  12.2903     -0.020717          0.021155
2  2018-01-04      F  12.5022     -0.013672          0.013862
3  2018-01-05      F  12.7141     -0.002268          0.002273
4  2018-01-08      F  12.6659      0.003820         -0.003805
5  2018-01-09      F  12.5985      0.073894         -0.068810