Pandas: to_sql es demasiado lento

Creado en 1 feb. 2017 · 24Comentarios · Fuente: pandas-dev/pandas

Ejemplo de código,

df_name.to_sql('table_name',
                          schema = 'public',
                          con = engine,
                          index = False,
                          if_exists = 'replace')

Descripción del problema

Estoy escribiendo un marco de datos de 500.000 filas en una base de datos de AWS de postgres y lleva mucho, mucho tiempo enviar los datos.

Es un servidor SQL bastante grande y mi conexión a Internet es excelente, por lo que he descartado que contribuyan al problema.

En comparación, csv2sql o usar cat y canalizar a psql en la línea de comandos es mucho más rápido.

IO SQL Usage Question

Fuente

dean12

Comentario más útil

Agregue este código debajo de engine = create_engine(connection_string) :

from sqlalchemy import event

@event.listens_for(e, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()

En mi código, la función to_sql tardaba 7 minutos en ejecutarse, y ahora solo tarda 5 segundos;)

llautert en 29 nov. 2018

👍14 ❤3 😄3 🚀2 🎉2

Todos 24 comentarios

ver aquí: http://stackoverflow.com/questions/33816918/write-large-pandas-dataframes-to-sql-server-database

con SQLServer necesita importar a través de csv con una carga masiva para mayor eficiencia

jreback en 1 feb. 2017

👍2

le puede resultar útil: http://odo.pydata.org/en/latest/perf.html

jreback en 1 feb. 2017

ODO no funcionaría para mí, genera errores que no pude corregir, pero d6tstack funcionó bien https://github.com/d6t/d6tstack/blob/master/examples-sql.ipynb. Puede preprocesar con pandas y usa postgres COPY FROM para hacer la importación rápida. Funciona bien con RDS postgres.

citynorman en 14 oct. 2018

Agregue este código debajo de engine = create_engine(connection_string) :

from sqlalchemy import event

@event.listens_for(e, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()

En mi código, la función to_sql tardaba 7 minutos en ejecutarse, y ahora solo tarda 5 segundos;)

llautert en 29 nov. 2018

👍14 ❤3 😄3 🚀2 🎉2

¡Gracias @llautert!
¡Eso ayudó mucho!

# dont forget to import event
from sqlalchemy import event, create_engine

engine = create_engine(connection_string)

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()

dean12 en 30 nov. 2018

👍2 🎉1

Intenté ejecutar esta solución, pero me encontré con un mensaje de error:

AttributeError: 'psycopg2.extensions.cursor' object has no attribute 'fast_executemany'

Alguien sabe que esta pasando?

tim-sauchuk en 12 dic. 2018

👍19

Hola @ tim-sauchuk, también me encontré con el mismo error, aunque encontré una solución que ha funcionado muy bien, que implica una ligera edición en el archivo pandas.io.sql.py (simplemente elimine el archivo .pyc de __pycache__ antes de importar de nuevo para asegurarse de que escribe la nueva versión en el archivo comprimido)

https://github.com/pandas-dev/pandas/issues/8953

bsaunders23 en 20 dic. 2018

Hola @ tim-sauchuk, también me encontré con el mismo error, aunque encontré una solución que ha funcionado muy bien que implica una ligera edición en el archivo pandas.io.sql.py (simplemente elimine el archivo .pyc de
8953

El problema # 8953 que @ bsaunders23 mencionó también muestra una forma de "parchear" (arreglarlo en tiempo de ejecución). Lo probé y un conjunto de datos de 20k que tardó más de 10 minutos en cargarse y luego solo tomó 4 segundos.

scottcode en 7 ene. 2019

¡Gracias @llautert!
¡Eso ayudó mucho!

# dont forget to import event
from sqlalchemy import event, create_engine

engine = create_engine(connection_string)

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()

¿Alguien sabe cómo puedo implementar esta solución dentro de una clase con una instancia de self.engine?

vitalious en 14 feb. 2019

¿Alguien sabe cómo puedo implementar esta solución dentro de una clase con una instancia de self.engine?

Funciona para mí refiriéndose a self.engine

Ejemplo:

    self.engine = sqlalchemy.create_engine(connectionString, echo=echo)
    self.connection = self.engine.connect()

    @event.listens_for(self.engine, 'before_cursor_execute')
    def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
        print("Listen before_cursor_execute - executemany: %s" % str(executemany))
        if executemany:
            cursor.fast_executemany = True
            cursor.commit()

DanielOverdevest en 15 feb. 2019

👍2

No me funciona. ¿Qué versión de pandas y sqlalchemy estás usando?

xnejed07 en 20 feb. 2019

Lo probé ejecutando sqlalchemy: 1.2.4-py35h14c3975_0 y 1.2.11-py35h7b6447c_0

pero estoy consiguiendo

AttributeError: el objeto 'psycopg2.extensions.cursor' no tiene atributo 'fast_executemany'

pedrovgp en 31 mar. 2019

👍1

@ dean12 @llautert

¿Cómo se ve la llamada a la función en este contexto? O en otras palabras, ¿qué está usando para que los argumentos carguen correctamente la tabla?

<# dont forget to import event
from sqlalchemy import event, create_engine

engine = create_engine(connection_string)

@event.listens_for(engine, 'before_cursor_execute')
def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
    if executemany:
        cursor.fast_executemany = True
        cursor.commit()>``

davefanch87 en 23 abr. 2019

ver aquí: https://stackoverflow.com/questions/48006551/speeding-up-pandas-dataframe-to-sql-with-fast-executemany-of-pyodbc

lllong33 en 14 may. 2019

🎉3 👍3

Lo probé ejecutando sqlalchemy: 1.2.4-py35h14c3975_0 y 1.2.11-py35h7b6447c_0
pero estoy consiguiendo
AttributeError: el objeto 'psycopg2.extensions.cursor' no tiene atributo 'fast_executemany'

Está utilizando psycopg2, que es un controlador de postgresql. Este problema y la solución pertenecen a Microsoft SQL Server mediante el controlador pyodbc.

vaneseltine en 4 jun. 2019

¿qué pasa con agregar el parámetro 'dtype'

SincerelyUnique en 26 jun. 2019

¿Alguien sabe cómo puedo implementar esta solución dentro de una clase con una instancia de self.engine?

Funciona para mí refiriéndose a self.engine

Ejemplo:

    self.engine = sqlalchemy.create_engine(connectionString, echo=echo)
    self.connection = self.engine.connect()

    @event.listens_for(self.engine, 'before_cursor_execute')
    def receive_before_cursor_execute(conn, cursor, statement, params, context, executemany):
        print("Listen before_cursor_execute - executemany: %s" % str(executemany))
        if executemany:
            cursor.fast_executemany = True
            cursor.commit()

¿Has averiguado cómo?

FukoH en 8 jul. 2019

Creo que la respuesta correcta debería ser usar https://docs.sqlalchemy.org/en/13/dialects/postgresql.html#psycopg2 -batch-mode-fast-execution, si está tratando de ahorrar pandas dataframe a postgres

pankgeorg en 8 ago. 2019

Una nueva versión de pandas contiene el parámetro method que podría elegirse para ser 'múltiple'. Esto hace que el código se ejecute mucho más rápido.

KamranMK en 12 ago. 2019

👍8

fast_executemany se puede realizar en un solo paso ahora (sqlalchemy> = 1.3.0):

engine = sqlalchemy.create_engine(connection_string, fast_executemany=True)

¿Quizás vale la pena mencionarlo en algún lugar de los documentos o con un ejemplo? Es un caso particular no relacionado con los pandas, pero es una pequeña adición que podría mejorar drásticamente el rendimiento en muchos casos.

giuliobeseghi en 9 ene. 2020

👍9

Una nueva versión de pandas contiene el parámetro method que podría elegirse para ser 'múltiple'. Esto hace que el código se ejecute mucho más rápido.

Pensaría que establecer el parámetro chunksize sería suficiente para hacer una inserción por lotes de to_sql pero no.

json2d en 15 mar. 2020

👍2

Una alternativa para los usuarios de MS SQL es usar también turbodbc.Cursor.insertmanycolumns , lo he explicado en la publicación vinculada de StackOverflow: https://stackoverflow.com/a/62671681/1689261

xhochy en 1 jul. 2020

Para los futuros lectores sobre esto, hay dos opciones para usar un 'batch_mode' para to_sql. Las siguientes son las dos combinaciones:

create_engine(connection_string, executemany_mode='batch', executemany_batch_page_size=x)

create_engine(connection_string, executemany_mode='values', executemany_values_page_size=x)

Los detalles sobre estos argumentos se pueden encontrar aquí: https://docs.sqlalchemy.org/en/13/dialects/postgresql.html#psycopg2 -fast-execution-helpers

jpuerto-psc en 24 ago. 2020

👍1

Para los usuarios de postgres, recomiendo configurar method en un invocable:

invocable con firma (pd_table, conn, keys, data_iter): esto se puede usar para implementar un método de inserción más eficaz basado en características específicas del dialecto de backend.

y llame a la función desde el código de ejemplo aquí https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#insertion -method y

Usar COPY FROM es mucho más rápido 🚀

feluelle en 27 ago. 2020

👍2

¿Fue útil esta página

0 / 5 - 0 calificaciones

Temas relacionados

Interpolar (muestra ascendente) series de tiempo no equiespaciadas en 18.0rc1 equiespaciadas

marcelnem · 3Comentarios

DataFrame.describe no puede devolver percentiles cuando el conjunto de datos contiene nan

tade0726 · 3Comentarios

no se pueden trazar subparcelas de varias filas

ericdf · 3Comentarios

ERROR: fillna con inplace no funciona con la selección de múltiples columnas por loc

hiiwave · 3Comentarios

AttributeError: no se pueden usar pandas de un archivo de script

songololo · 3Comentarios