Pandas: to_sql()을 사용할 때 중복 기본 키가 감지되면 계속하시겠습니까?

에 만든 2017년 04월 13일 · 19코멘트 · 출처: pandas-dev/pandas

코드 샘플, 가능한 경우 복사-붙여넣기 가능한 예

df.to_sql('TableNameHere', engine, if_exists='append', chunksize=900, index=False)

문제 설명

SQL 테이블에 큰 DataFrame을 추가하려고 합니다. DataFrame의 일부 행은 SQL 테이블의 행과 중복되고 일부는 그렇지 않습니다. 그러나 to_sql() 는 중복이 하나라도 감지되면 실행을 완전히 중지합니다.

to_sql(if_exists='append') 가 사용자에게 중복 키가 있는 행을 경고하고 실행을 완전히 중지하지 않고 계속해서 새 행을 추가하는 것이 합리적입니다. 큰 데이터 세트의 경우 중복이 있을 수 있지만 무시하고 싶을 것입니다.

중복을 무시하고 계속 실행하는 인수를 추가할 수 있습니까? 'append_skipdupes' 와 같은 추가 if_exists 옵션이 있습니까?

`pd.show_versions()` 의 출력

설치된 버전

커밋: 없음
파이썬: 3.6.0.final.0
파이썬 비트: 64
운영 체제: 윈도우
OS 릴리스: 10
기계: AMD64
프로세서: Intel64 제품군 6 모델 60 스테핑 3, 정품 인텔
바이트 오더: 조금
LC_ALL: 없음
랑: 없음
LOCALE: English_United States.1252

팬더: 0.19.2
코: 없음
핍: 9.0.1
설정 도구: 28.8.0
사이썬: 없음
숫자: 1.12.0
scipy: 없음
통계 모델: 없음
xarray: 없음
아이파이썬: 5.3.0
스핑크스: 없음
패티: 없음
날짜 유틸리티: 2.6.0
피츠: 2016.10
블록: 없음
병목 현상: 없음
테이블: 없음
numexpr: 없음
matplotlib: 없음
openpyxl: 없음
xlrd: 없음
xlwt: 없음
xlsxwriter: 없음
lxml: 없음
bs4: 없음
html5lib: 0.999999999
httplib2: 없음
API 클라이언트: 없음
sqlalchemy: 1.1.9
pymysql: 없음
psycopg2: 없음
진자2: 2.9.5
보토: 없음
pandas_datareader: 없음

Enhancement IO SQL

출처

rosstripi

👍173

가장 유용한 댓글

이것은 또한 "중복 업데이트" 모드도 지원해야 합니다.

rockg 에 2017년 04월 13일

👍34

모든 19 댓글

이것은 또한 "중복 업데이트" 모드도 지원해야 합니다.

rockg 에 2017년 04월 13일

👍34

@rosstripi 이 아이디어는 확실히 받아들여질 것이라고 생각하지만 AFAIK의 주요 병목 현상은 sql/sqlalchemy를 풍미에 구애받지 않는 방식으로 사용하여 구현하는 것입니다. 이 작업을 수행할 수 있는 방법에 대한 일부 탐색은 확실히 환영합니다!

jorisvandenbossche 에 2017년 04월 13일

안녕하세요 이에 대한 해결 방법을 알아냈습니까? 알려주세요

muniswamy89 에 2018년 06월 06일

이 구현에 대한 업데이트가 있습니까?

저는 이제 PostgreSQL 및 SQLAlchemy에서 이 문제에 직면해 있으며 "중복 업데이트 시"를 원합니다.

작업에 감사드립니다

AlvaroPica 에 2018년 12월 10일

해결 방법은 데이터베이스에서 고유 인덱스를 제거하는 것입니다.

sqlquery="ALTER 'TABLE DATABASE'.'TABLE' DROP INDEX 'idx_name'"
나중에
df.to_sql('TableNameHere', engine, if_exists='append', chunksize=900, index=False)
실행할 수 있습니다.

MySQL 서버가 인덱스를 다시 추가하고 중복을 삭제하도록 하십시오.
sqlquery="ALTER IGNORE TABLE 'DATABASE'.'TABLE' ADD UNIQUE INDEX 'idx_name' ('column_name1' ASC, 'column_name2' ASC, 'column_name3' '[ASC | DESC]')"

특정 응용 프로그램에 따라 도움이 될 수 있습니다.
어쨌든 $# append_skipdupes if_exists 옵션이 훨씬 더 좋습니다.

valewyss 에 2019년 04월 16일

👍6 👎4 😕2

append_skipdupes 는 이것을 처리하는 완벽한 방법입니다.

cgi1 에 2019년 05월 14일

👍16

예, append_skipdupes +1

macdet 에 2019년 06월 28일

👍4

df.to_sql() 의 옵션을 사용하여 이 문제를 해결할 수 있다는 데 동의했습니다.

다음은 sqlite에서 사용하는 해결 방법입니다.

CREATE TABLE IF NOT EXISTS my_table_name (
    some_kind_of_id INT PRIMARY KEY ON CONFLICT IGNORE,
    ...

그런 다음 중복 항목을 삽입하면 자동으로 무시되고 중복되지 않은 항목이 올바르게 처리됩니다. 제 경우에는 데이터가 정적 이어야 하므로 업데이트할 필요가 없습니다. 데이터 피드의 형식이 무시할 수 없는 중복을 얻을 수 있다는 것뿐입니다.

jtkiley 에 2019년 08월 06일

👍3

MariaDb 및 MySql의 다른 해결 방법:
df.to_csv("test.csv")
다음을 사용하십시오.
LOAD DATA INFILE 'test.csv' IGNORE INTO TABLE mytable 또는
LOAD DATA INFILE 'test.csv' REPLACE INTO TABLE mytable .

LOAD DATA는 INSERT보다 매우 빠릅니다.

완전한 코드:

csv_path = str(Path(application_path) / "tmp" / "tmp.csv").replace("\\", "\\\\")
df.to_csv(csv_path, index=False, sep='\t', quotechar="'", na_rep=r'\N')
rq = """LOAD DATA LOCAL INFILE '{file_path}' REPLACE INTO TABLE {db}.{db_table}
        LINES TERMINATED BY '\\r\\n'
        IGNORE 1 LINES
         ({col});
        """.format(db=db,
                   file_path=csv_path,
                   db_table=table_name,
                   col=",".join(df.columns.tolist()))