Hola, encontré este error al analizar aquí: Ignorar la página debido a un error: el objeto 'TableBlock' no tiene atributos 'líneas'. Lo intenté y descubrí que se puede analizar 0.5.0, pero el efecto no es particularmente bueno (pero es inofensivo), pero la versión 0.5.1 que estoy usando ahora tendrá el error anterior. No sé si algunos cambios de código durante el proceso de iteración de la versión causaron nuevos problemas.
He enviado el archivo de prueba a su buzón.
¡Gracias!
Gracias por hacer preguntas y proporcionar documentos de prueba.
0.5.1
versión
Shape.py
:>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
semantic_type()
(alrededor de la línea 89), agregue una línea de acuerdo con el comentario a continuaciónfor block in blocks:
if not block.is_text_block(): continue # 增加这一行判断
# not intersect yet
if block.bbox.y1 < self.bbox.y0: continue
# check it when intersected
rect_type = self._check_semantic_type(block)
if rect_type != RectType.UNDEFINED: break
# no intersection any more
if block.bbox.y0 > self.bbox.y1: break
Gracias nuevamente por señalar el problema, las correcciones recientes de estos dos problemas se agregarán a la próxima versión.
Además, comparó los efectos de conversión de 0.5.0
y 0.5.1
y descubrió que no hay mucha mejora. No sé cuáles son sus necesidades de conversión de PDF a Word, extraer texto, mantener el formato o facilitar la edición de texto. Algunas herramientas PDF (PDF-xchange, Foxit, etc.) también pueden modificar el texto directamente, lo que es relativamente más conveniente. Así que no estoy seguro de la dirección de la biblioteca pdf2docx
. Gracias.
Gracias, lo probé y resolvió mi problema perfectamente.
Mi demanda actual es la conversión por lotes de tipos específicos de documentos y luego preservar el formato tanto como sea posible. Será más problemático simplemente usar acrobat u otras herramientas. Entonces quiero resolverlo con código. Creo que puedes echar un vistazo al marco sólido, la biblioteca pdf2docx creo que es una biblioteca relativamente cercana. En el futuro, creo que es posible aumentar la función de auto-modificación por parte de los usuarios (como cambiar json). Para diferentes tipos de archivos y diferentes tipos de necesidades, todos pueden optimizar algunos parámetros y condiciones de acuerdo con sus propias circunstancias.
Muy buena propuesta, gracias.