Pandas: .loc [...] = 값은 SettingWithCopyWarning을 반환합니다.

에 만든 2017년 09월 08일 · 8코멘트 · 출처: pandas-dev/pandas

코드 샘플

# My code
df.loc[0, 'column_name'] = 'foo bar'

문제 설명

Pandas 20.3의이 코드는 SettingWithCopyWarning을 발생시키고 다음을 제안합니다.

"대신 .loc[row_indexer,col_indexer] = value 사용".

이미 그렇게하고 있는데 약간의 버그가있는 것 같습니다. 나는 Jupyter를 사용합니다.
감사합니다! :)

`pd.show_versions()`

커밋 : 없음
파이썬 : 3.6.1.final.0
파이썬 비트 : 64
운영체제 : Windows
OS 릴리스 : 8.1
기계 : AMD64
프로세서 : Intel64 Family 6 Model 61 Stepping 4, GenuineIntel
byteorder : 조금
LC_ALL : 없음
LANG : 없음
로케일 : 없음. 없음

판다 : 0.20.1
pytest : 3.0.7
핍 : 9.0.1
setuptools : 35.0.2
사이 톤 : 0.25.2
numpy : 1.12.1
scipy : 0.19.0
xarray : 없음
IPython : 5.3.0
스핑크스 : 1.5.6
패시 : 0.4.1
dateutil : 2.6.0
pytz : 2017.2
blosc : 없음
병목 현상 : 1.2.1
표 : 3.2.2
numexpr : 2.6.2
깃털 : 없음
matplotlib : 2.0.2
openpyxl : 없음
xlrd : 1.0.0
xlwt : 1.2.0
xlsxwriter : 0.9.6
lxml : 3.7.3
bs4 : 4.6.0
html5lib : 0.999
sqlalchemy : 1.1.9
pymysql : 없음
psycopg2 : 없음
jinja2 : 2.9.6
s3fs : 없음
pandas_gbq : 없음
pandas_datareader : 없음

Indexing Usage Question

출처

NadiaRom

가장 유용한 댓글

여기서 문제는 4 행에서 .loc 로 먼저 데이터 프레임을 분할한다는 것입니다. 해당 슬라이스에 값을 할당하려는 시도입니다.

df_c = df.loc[df.encountry == country, :]

Pandas는 값을 df_c 슬라이스에만 할당할지 아니면 원래 df 까지 다시 전파할지 100 % 확신하지 못합니다. df_c 를 처음 할당 할 때이를 방지하려면 다음을 사용하여 팬더에게 자체 데이터 프레임 (슬라이스가 아님)임을 알려야합니다.

df_c = df.loc[df.encountry == country, :].copy()

이렇게하면 오류가 수정됩니다. 이 측면에서 많은 사용자가 팬더로 인해 혼란스러워하는 것을 알았으므로 위의 설명을 돕기 위해 간단한 예제를 제공하겠습니다.

구성된 데이터가있는 예

>>> import pandas as pd
>>> df = pd.DataFrame({'A':[1,2,3,4,5], 'B':list('QQQCC')})
>>> df
   A  B
0  1  Q
1  2  Q
2  3  Q
3  4  C
4  5  C
>>> df.loc[df['B'] == 'Q', 'new_col'] = 'hello'
>>> df
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q   hello
3  4  C     NaN
4  5  C     NaN

따라서 위의 내용은 예상대로 작동합니다! 이제 데이터로 시도한 작업을 반영하는 예제를 시도해 보겠습니다.

>>> df = pd.DataFrame({'A':[1,2,3,4,5], 'B':list('QQQCC')})
>>> df_q = df.loc[df['B'] == 'Q']
>>> df_q
   A  B
0  1  Q
1  2  Q
2  3  Q
>>> df_q.loc[df['A'] < 3, 'new_col'] = 'hello'
/Users/riddellcd/anaconda/lib/python3.6/site-packages/pandas/core/indexing.py:337: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[key] = _infer_fill_value(value)

>>> df_q
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN

같은 오류가 발생한 것 같습니다! 하지만 예상대로 df_q 변경되었습니다! 이것은 df_q 이 df 의 조각이기 때문입니다. 따라서 .loc []을 사용하더라도 df_q pandas는 변경 사항을 전파하지 않을 것이라고 경고합니다. ~ df . 이를 방지하려면 더 명시 적으로 df_q df 를 명시 적으로 선언하여

df_q 에서 다시 시작하지만 이번에는 .copy() 합니다.

>>> df_q = df.loc[df['B'] == 'Q'].copy()
>>> df_q
   A  B
0  1  Q
1  2  Q
2  3  Q

Lets try to reassign our value now!
>>> df_q.loc[df['A'] < 3, 'new_col'] = 'hello'
>>> df_q
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN

df_q 이 df 와 (과) 별개라고 Pandas에게 알려 주었으므로 오류없이 작동합니다.

실제로 df_c 대한 이러한 변경 사항이 최대 df 까지 전파되기를 원하면 완전히 다른 점이며 원하는 경우 대답 할 것입니다.

CRiddler 에 2017년 09월 08일

👍30 ❤7

모든 8 댓글

@NadiaRom 전체 예제를 제공 할 수 있습니까? 확실히 말하기는 어렵지만 df 는 뷰나 카피 일 수있는 작업에서 비롯된 것 같습니다. 예를 들면 :

In [8]: df = pd.DataFrame({"A": [1, 2], "B": [3, 4], "C": [4, 5]})

In [9]: df1 = df[['A', 'B']]

In [10]: df1.loc[0, 'A'] = 5
/Users/taugspurger/Envs/pandas-dev/lib/python3.6/site-packages/pandas/pandas/core/indexing.py:180: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._setitem_with_indexer(indexer, value)
/Users/taugspurger/Envs/pandas-dev/bin/ipython:1: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  #!/Users/taugspurger/Envs/pandas-dev/bin/python3.6

따라서 df1 올바르게 업데이트하고 있습니다. 모호성은 df 도 업데이트 될 것인지 여부입니다. 비슷한 일이 일어나고 있다고 생각하지만 재현 가능한 예가 없으면 확실히 말하기가 어렵습니다.

TomAugspurger 에 2017년 09월 08일

👍6

@TomAugspurger 다음은 일반적으로 .loc없이 팬더에 값을 할당하지 않는 코드입니다.

df = pd.read_csv('df_unicities.tsv', sep='\t')
df.replace({'|': '--'}, inplace=True)

df_c = df.loc[df.encountry == country, : ]

df_c['sort'] = (df_c.encities_ua == 'all').astype(int) # new column
df_c['sort'] += (df_c.encities_foreign == 'all').astype(int)
df_c.sort_values(by='sort', inplace=True)

# ---end of chunk, everything is fine ---

if df_c.encities_foreign.str.contains('all').sum() < len(df_c):
    df_c.loc[df_c.encities_foreign.str.contains('all'), 'encities_foreign'] = 'other'
    df_c.loc[df_c.cities_foreign.str.contains('всі'), 'cities_foreign'] = 'інші'
else:
    df_c.loc[df_c.encities_foreign.str.contains('all'), 'encities_foreign'] = country
    df_c.loc[df_c.cities_foreign.str.contains('всі'), 'cities_foreign'] = df_c.country.iloc[0]

if df_c.encities_ua.str.contains('all').sum() < len(df_c):
    df_c.loc[df_c.encities_ua.str.contains('all'), 'encities_ua'] = 'other'
    df_c.loc[df_c.cities_ua.str.contains('всі'), 'cities_ua'] = 'інші'
else:
    df_c.loc[df_c.encities_ua.str.contains('all'), 'encities_ua'] = 'Ukraine'
    df_c.loc[df_c.cities_ua.str.contains('всі'), 'cities_ua'] = 'Україна'

# Warning after it

빠른 답변 감사합니다!

NadiaRom 에 2017년 09월 08일

여기서 문제는 4 행에서 .loc 로 먼저 데이터 프레임을 분할한다는 것입니다. 해당 슬라이스에 값을 할당하려는 시도입니다.

df_c = df.loc[df.encountry == country, :]

df_c = df.loc[df.encountry == country, :].copy()

구성된 데이터가있는 예

>>> import pandas as pd
>>> df = pd.DataFrame({'A':[1,2,3,4,5], 'B':list('QQQCC')})
>>> df
   A  B
0  1  Q
1  2  Q
2  3  Q
3  4  C
4  5  C
>>> df.loc[df['B'] == 'Q', 'new_col'] = 'hello'
>>> df
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q   hello
3  4  C     NaN
4  5  C     NaN

따라서 위의 내용은 예상대로 작동합니다! 이제 데이터로 시도한 작업을 반영하는 예제를 시도해 보겠습니다.

>>> df = pd.DataFrame({'A':[1,2,3,4,5], 'B':list('QQQCC')})
>>> df_q = df.loc[df['B'] == 'Q']
>>> df_q
   A  B
0  1  Q
1  2  Q
2  3  Q
>>> df_q.loc[df['A'] < 3, 'new_col'] = 'hello'
/Users/riddellcd/anaconda/lib/python3.6/site-packages/pandas/core/indexing.py:337: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[key] = _infer_fill_value(value)

>>> df_q
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN

df_q 에서 다시 시작하지만 이번에는 .copy() 합니다.

>>> df_q = df.loc[df['B'] == 'Q'].copy()
>>> df_q
   A  B
0  1  Q
1  2  Q
2  3  Q

Lets try to reassign our value now!
>>> df_q.loc[df['A'] < 3, 'new_col'] = 'hello'
>>> df_q
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN

df_q 이 df 와 (과) 별개라고 Pandas에게 알려 주었으므로 오류없이 작동합니다.

실제로 df_c 대한 이러한 변경 사항이 최대 df 까지 전파되기를 원하면 완전히 다른 점이며 원하는 경우 대답 할 것입니다.

CRiddler 에 2017년 09월 08일

👍30 ❤7

@CRiddler 좋아요, 감사합니다 !
언급했듯이 연결된 .loc 은 (는) 예기치 않은 결과를 반환 한 적이 없습니다. 내가 이해하는 바와 같이, .copy() 는 Pandas가 선택한 df_sliced_once 를 별도의 개체로 취급하고 초기 전체 df 를 변경하지 않도록합니다. 뭐든지 섞으면 수정 해주세요.

NadiaRom 에 2017년 09월 09일

👍1

문서는 여기 http://pandas.pydata.org/pandas-docs/stable/indexing.html#returning -a-view-versus-a-copy이며 @CRiddler 에는 멋진 설명이 있습니다. 일반적으로 inplace 는 사용하지 않아야합니다.

jreback 에 2017년 09월 09일

👍1

실제로 df_c 대한 이러한 변경 사항이 최대 df 까지 전파되기를 원하면 완전히 다른 점이며 원하는 경우 대답 할 것입니다.

@CRiddler 감사합니다. 초기 데이터 프레임으로 전파하거나 수행 방법을 표시 할 때 추가 할 수있는 Stack Overflow의 답변보다 낫습니다.

persep 에 2020년 09월 12일

@persep 일반적으로 문제를

원본 데이터 :

>>>import pandas as pd
>>> df = pd.DataFrame({'A':[1,2,3,4,5], 'B':list('QQQCC')})
>>> df
   A  B
0  1  Q
1  2  Q
2  3  Q
3  4  C
4  5  C

임시 데이터 프레임을 만들면 변경 사항이 전파되지 않습니다.
이전 예에서 볼 수 있듯이 df_q 만 변경하고 pandas 경고가 발생합니다 (여기에 복사 / 붙여 넣기되지 않음). 그리고 df 변경 사항을 전파하지 않습니다.

>>> df_q = df.loc[df["B"] == "Q"]
>>> df_q.loc[df["A"] < 3, "new_column"] = "hello"

# df remains unchanged because we only made changes to `df_q`
>>> df
   A  B
0  1  Q
1  2  Q
2  3  Q
3  4  C
4  5  C

내가 아는 한, 위와 동일한 코드를 사용하고 변경 사항을 강제로 원래 데이터 프레임으로 전파하는 방법은 없습니다.

그러나 우리가 생각을 조금 바꾸고 완전한 부분 집합 대신 마스크로 작업하면 원하는 결과를 얻을 수 있습니다. 이것이 반드시 하위 집합의 원래 데이터 프레임에 변경 사항을 "전파"하는 것은 아니지만, 변경 사항이 원래 데이터 프레임 df 에서 발생하도록 보장합니다. 이를 위해 먼저 마스크를 만든 다음 df 하위 집합을 변경하려는 경우 마스크를 적용합니다.

>>> q_mask = df["B"] == "Q"
>>> a_mask = df["A"] < 3

# Combine masks (in this case we used "&") to achieve what a nested subset would look like
#  In the same step we add in our item assignment. Instructing pandas to create a new column in `df` and assign
#  the value "hello" to the rows in `df` where `q_mask` & `a_mask` overlap.
>>> df.loc[q_mask & a_mask, "new_col"] = "hello"

# Successful "propagation" of new values to the original dataframe
>>> df
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN
3  4  C     NaN
4  5  C     NaN

마지막으로, df_q가 어떻게 생겼는지보고 싶다면 q_mask 사용하여 원래 데이터 프레임에서 하위 집합을 항상 사용할 수 있습니다.

>>> df.loc[q_mask, :]
   A  B new_col
0  1  Q   hello
1  2  Q   hello
2  3  Q     NaN

이것이 반드시 df_q 에서 df "전파"되는 것은 아니지만 동일한 결과를 얻습니다. 실제 전파는 명시 적으로 수행되어야하며 마스크로 작업하는 것보다 효율성이 떨어집니다.

CRiddler 에 2020년 09월 15일

👍1

@CRiddler 감사합니다, 당신은 매우 도움이되었습니다

persep 에 2020년 09월 15일

👍1

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pandas: .loc [...] = 값은 SettingWithCopyWarning을 반환합니다.

문제 설명

pd.show_versions()

가장 유용한 댓글

구성된 데이터가있는 예

모든 8 댓글

구성된 데이터가있는 예

관련 문제

`pd.show_versions()`