Pandas: BUG : _nsorted for frame with duplicated values index

에 만든 2016년 06월 09일 · 5코멘트 · 출처: pandas-dev/pandas

아래 기능은 잘못 구현되었습니다. 프레임에 중복 된 값이있는 인덱스가있는 경우 n 행을 초과하고 제대로 정렬되지 않은 결과가 표시됩니다. 따라서 nsmallest 및 nlargest for DataFrame은이 특정 경우에 올바른 프레임을 반환하지 않습니다.

def _nsorted(self, columns, n, method, keep):
    if not com.is_list_like(columns):
        columns = [columns]
    columns = list(columns)
    ser = getattr(self[columns[0]], method)(n, keep=keep)
    ascending = dict(nlargest=False, nsmallest=True)[method]
    return self.loc[ser.index].sort_values(columns, ascending=ascending,
                                           kind='mergesort')

Bug

출처

Tux1

가장 유용한 댓글

@shankararul 참조 : https://github.com/pandas-dev/pandas/issues/15297

jreback 에 2017년 03월 13일

❤1 👍1

모든 5 댓글

과연:

In [71]: df = pd.DataFrame({'a':[1,2,3,4], 'b':[4,3,2,1]}, index=[0,0,1,1])

In [72]: df.nlargest(1, 'a')
Out[72]:
   a  b
1  4  1
1  3  2

In [73]: df.nlargest(2, 'a')
Out[73]:
   a  b
1  4  1
1  4  1
1  3  2
1  3  2

(향후 참조를 위해 @ Tux1 사이드 노트, 문제를 열 때 작은 재현 가능한 예제를 제공하는 것이 항상 좋습니다)
이 문제를 해결하기 위해 PR에 관심이 있으십니까?

jorisvandenbossche 에 2016년 06월 09일

예, 곧 수정하겠습니다
예를 들어 죄송합니다

Le 9 6 월 2016 à 23:30, Joris Van den Bossche [email protected] a écrit :
과연:
[71]에서 : df = pd.DataFrame ({ 'a': [1,2,3,4], 'b': [4,3,2,1]}, index = [0,0,1, 1])
[72]에서 : df.nlargest (1, 'a')
출력 [72] :
ab
1 4 1
1 3 2
[73]에서 : df.nlargest (2, 'a')
출력 [73] :
ab
1 4 1
1 4 1
1 3 2
1 3 2
(향후 참조를 위해 @ Tux1 사이드 노트, 문제를 열 때 작은 재현 가능한 예제를 제공하는 것이 항상 좋습니다)
이 문제를 해결하기 위해 PR에 관심이 있으십니까?
—
당신이 언급 되었기 때문에 이것을 받고 있습니다.
이 이메일에 직접 답장하거나 GitHub에서 보거나 스레드를 음소거하십시오.

Tux1 에 2016년 06월 10일

내 수정은 그다지 우아하지는 않지만 MultiIndex 및 중복 값 색인을 처리하는 다른 솔루션은 없습니다.

Tux1 에 2016년 06월 12일

Sum은 .19.2에서 잘 작동하는 것처럼 보이지만 count를 사용하면 의미가없는 것 같습니다. df는 "n"만큼 반복됩니다. 그게 버그입니까, 아니면 제가 뭔가 잘못하고 있습니까?

df.groupby(['a']).agg({'b':'count'}).nlargest(2, 'b')

jetpackdata 에 2017년 03월 13일

@shankararul 참조 : https://github.com/pandas-dev/pandas/issues/15297

jreback 에 2017년 03월 13일

❤1 👍1

이 페이지가 도움이 되었나요?

0 / 5 - 0 등급

Pandas: BUG : _nsorted for frame with duplicated values ​​index

가장 유용한 댓글

모든 5 댓글

관련 문제

Pandas: BUG : _nsorted for frame with duplicated values index