Pdf2docx: Ignorar la página debido a un error: el objeto 'TableBlock' no tiene ningún atributo 'líneas'

Creado en 4 feb. 2021  ·  5Comentarios  ·  Fuente: dothinking/pdf2docx

Hola, encontré este error al analizar aquí: Ignorar la página debido a un error: el objeto 'TableBlock' no tiene atributos 'líneas'. Lo intenté y descubrí que se puede analizar 0.5.0, pero el efecto no es particularmente bueno (pero es inofensivo), pero la versión 0.5.1 que estoy usando ahora tendrá el error anterior. No sé si algunos cambios de código durante el proceso de iteración de la versión causaron nuevos problemas.

He enviado el archivo de prueba a su buzón.

¡Gracias!

bug

Todos 5 comentarios

Gracias por hacer preguntas y proporcionar documentos de prueba.

0.5.1 versión

  1. Busque el archivo Shape.py :
>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
  1. Busque el método semantic_type() (alrededor de la línea 89), agregue una línea de acuerdo con el comentario a continuación
for block in blocks:
    if not block.is_text_block(): continue  # 增加这一行判断

    # not intersect yet
    if block.bbox.y1 < self.bbox.y0: continue

    # check it when intersected
    rect_type = self._check_semantic_type(block)
    if rect_type != RectType.UNDEFINED: break

    # no intersection any more
    if block.bbox.y0 > self.bbox.y1: break

Gracias nuevamente por señalar el problema, las correcciones recientes de estos dos problemas se agregarán a la próxima versión.

Además, comparó los efectos de conversión de 0.5.0 y 0.5.1 y descubrió que no hay mucha mejora. No sé cuáles son sus necesidades de conversión de PDF a Word, extraer texto, mantener el formato o facilitar la edición de texto. Algunas herramientas PDF (PDF-xchange, Foxit, etc.) también pueden modificar el texto directamente, lo que es relativamente más conveniente. Así que no estoy seguro de la dirección de la biblioteca pdf2docx . Gracias.

Gracias, lo probé y resolvió mi problema perfectamente.

Mi demanda actual es la conversión por lotes de tipos específicos de documentos y luego preservar el formato tanto como sea posible. Será más problemático simplemente usar acrobat u otras herramientas. Entonces quiero resolverlo con código. Creo que puedes echar un vistazo al marco sólido, la biblioteca pdf2docx creo que es una biblioteca relativamente cercana. En el futuro, creo que es posible aumentar la función de auto-modificación por parte de los usuarios (como cambiar json). Para diferentes tipos de archivos y diferentes tipos de necesidades, todos pueden optimizar algunos parámetros y condiciones de acuerdo con sus propias circunstancias.

Muy buena propuesta, gracias.

¿Fue útil esta página
0 / 5 - 0 calificaciones

Temas relacionados

startxc picture startxc  ·  4Comentarios

Jalkhov picture Jalkhov  ·  5Comentarios

JoHnTsIm picture JoHnTsIm  ·  7Comentarios

echan00 picture echan00  ·  9Comentarios

mitsuhiko picture mitsuhiko  ·  3Comentarios