Pdf2docx: Omitir elementos que causan errores

Creado en 21 oct. 2020  ·  5Comentarios  ·  Fuente: dothinking/pdf2docx

Supongamos que por ahora no hay forma de procesar las imágenes flotantes, como _mejora_ me gustaría hacer una pequeña recomendación para _futuras actualizaciones_. Sería muy útil un parámetro que permita omitir las imágenes u objetos que provocan errores, y para que el archivo pdf entrante, aunque tenga elementos no procesables, se pueda omitir y obtener el archivo de salida sin estos elementos, y luego uno como programador es el responsable de realizar estas aclaraciones al usuario.

enhancement

Todos 5 comentarios

Esto tiene sentido. ¿Qué tal establecer "omitir las imágenes u objetos que causan errores" como comportamiento predeterminado y mostrar información de registro cuando esto sucedió? Gracias por tu sugerencia.

¿Qué tal establecer "omitir las imágenes u objetos que causan errores" como comportamiento predeterminado y mostrar información de registro cuando esto sucedió?

Además, creo que es genial, gracias por tenerlo en cuenta. Usaré mucho esta biblioteca, así que me verán mucho, es la mejor y más fácil de usar y creo que tiene mucho potencial para más funciones.

Creo que la siguiente información de los elementos omitidos se puede mostrar en la _información del registro_:
Página, tipo (tabla, imagen ...) , y que de alguna manera se deja el respectivo espacio en blanco donde estaba el elemento, de esta manera aunque se hayan omitido elementos no habrá cambio en el orden ni en el número de páginas.

Usaré mucho esta biblioteca, así que me verán mucho, es la mejor y más fácil de usar y creo que tiene mucho potencial para más funciones.

Esta biblioteca está basada en reglas para mapear objetos pdf a docx, por ejemplo, algunos textos rodeados por líneas horizontales / verticales -> una tabla en docx. Las reglas limitadas nunca se adaptan a todos los casos, por lo que definitivamente hay muchas características / mejoras potenciales. Bienvenidos y gracias por hacerlo crecer, para que pueda beneficiar a más personas.

Página, tipo (tabla, imagen ...), y que de alguna manera se deja el espacio en blanco respectivo donde estaba el elemento

Buen punto. Solo un comentario: como formato de diseño para imprimir, lo que extraemos de PDF es texto o imagen o forma (como una línea, un rectángulo) y sus coordenadas en la página. Entonces, por supuesto, el espacio en blanco se conserva, pero con respecto al tipo, me temo que solo puede proporcionar una imagen ya que no existe una 'tabla' para PDF.

Bienvenidos y gracias por hacerlo crecer, para que pueda beneficiar a más personas.

Gracias, estaré probando con diferentes archivos con diferentes contenidos para ver como reacciona la librería a cada uno y si hay alguna falla la estaré dejándola aquí (en ediciones) con la información detallada.

Me temo que solo puede proporcionar una imagen ya que no existe una 'tabla' para PDF.

Cuando dije "mesa", quise decir cosas como esta:
2020-10-22 12_29_14
Aunque sentí que eso cuenta como líneas simples , lo siento, es una mala manera de referirme a eso. De igual forma la idea es que, por decir el tipo de elemento que se ha omitido, no sé la verdad qué tipo de elemento mencionar aparte de una imagen, pero la idea ya está clara jeje.

No tuve tiempo para este proyecto durante tanto tiempo. Finalmente se lanzó una nueva versión en este momento, el primer día de Año Nuevo. :) Se mejora en la extracción de imágenes, por ejemplo, imagen flotante y formato de párrafo. Espero avanzar en este tema.

pip install --upgrade pdf2docx
¿Fue útil esta página
0 / 5 - 0 calificaciones

Temas relacionados

startxc picture startxc  ·  4Comentarios

JoHnTsIm picture JoHnTsIm  ·  7Comentarios

echan00 picture echan00  ·  9Comentarios

harrylyf picture harrylyf  ·  5Comentarios

mitsuhiko picture mitsuhiko  ·  3Comentarios