Pdf2docx: Ignorar la página debido a un error: el objeto 'TableBlock' no tiene ningún atributo 'líneas'

Creado en 4 feb. 2021 · 5Comentarios · Fuente: dothinking/pdf2docx

Hola, encontré este error al analizar aquí: Ignorar la página debido a un error: el objeto 'TableBlock' no tiene atributos 'líneas'. Lo intenté y descubrí que se puede analizar 0.5.0, pero el efecto no es particularmente bueno (pero es inofensivo), pero la versión 0.5.1 que estoy usando ahora tendrá el error anterior. No sé si algunos cambios de código durante el proceso de iteración de la versión causaron nuevos problemas.

He enviado el archivo de prueba a su buzón.

¡Gracias!

bug

Fuente

harrylyf

Todos 5 comentarios

Gracias por hacer preguntas y proporcionar documentos de prueba.

0.5.1 versión

Busque el archivo Shape.py :

>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__

Busque el método semantic_type() (alrededor de la línea 89), agregue una línea de acuerdo con el comentario a continuación

for block in blocks:
    if not block.is_text_block(): continue  # 增加这一行判断

    # not intersect yet
    if block.bbox.y1 < self.bbox.y0: continue

    # check it when intersected
    rect_type = self._check_semantic_type(block)
    if rect_type != RectType.UNDEFINED: break

    # no intersection any more
    if block.bbox.y0 > self.bbox.y1: break

Gracias nuevamente por señalar el problema, las correcciones recientes de estos dos problemas se agregarán a la próxima versión.

dothinking en 4 feb. 2021

👍1

Además, comparó los efectos de conversión de 0.5.0 y 0.5.1 y descubrió que no hay mucha mejora. No sé cuáles son sus necesidades de conversión de PDF a Word, extraer texto, mantener el formato o facilitar la edición de texto. Algunas herramientas PDF (PDF-xchange, Foxit, etc.) también pueden modificar el texto directamente, lo que es relativamente más conveniente. Así que no estoy seguro de la dirección de la biblioteca pdf2docx . Gracias.

dothinking en 4 feb. 2021

Gracias, lo probé y resolvió mi problema perfectamente.

harrylyf en 5 feb. 2021

Mi demanda actual es la conversión por lotes de tipos específicos de documentos y luego preservar el formato tanto como sea posible. Será más problemático simplemente usar acrobat u otras herramientas. Entonces quiero resolverlo con código. Creo que puedes echar un vistazo al marco sólido, la biblioteca pdf2docx creo que es una biblioteca relativamente cercana. En el futuro, creo que es posible aumentar la función de auto-modificación por parte de los usuarios (como cambiar json). Para diferentes tipos de archivos y diferentes tipos de necesidades, todos pueden optimizar algunos parámetros y condiciones de acuerdo con sus propias circunstancias.

harrylyf en 5 feb. 2021

❤1

Muy buena propuesta, gracias.

dothinking en 5 feb. 2021

¿Fue útil esta página

0 / 5 - 0 calificaciones