Pdf2docx: Überspringen von Elementen, die Fehler verursachen

Erstellt am 21. Okt. 2020  ·  5Kommentare  ·  Quelle: dothinking/pdf2docx

Nehmen wir an, dass es vorerst keine Möglichkeit gibt, die Floating-Images zu verarbeiten, als _Erweiterung_ möchte ich eine kleine Empfehlung für _zukünftige Updates_ aussprechen. Es wäre sehr nützlich ein Parameter, der es ermöglicht, die Bilder oder Objekte, die Fehler verursachen, wegzulassen, und damit die eingehende PDF-Datei, obwohl sie nicht verarbeitbare Elemente enthält, weggelassen werden kann und die Ausgabedatei ohne diese Elemente und dann eine als Programmierer erhalten wird ist dafür verantwortlich, diese Klarstellungen gegenüber dem Benutzer vorzunehmen.

enhancement

Alle 5 Kommentare

Das macht Sinn. Wie wäre es, wenn Sie "Bilder oder Objekte, die Fehler verursachen" als Standardverhalten auslassen und Protokollinformationen anzeigen, wenn dies passiert ist? Danke für Ihren Vorschlag.

Wie wäre es, wenn Sie "Bilder oder Objekte, die Fehler verursachen" als Standardverhalten auslassen und Protokollinformationen anzeigen, wenn dies passiert ist?

Außerdem finde ich es toll, danke für die Berücksichtigung. Ich werde diese Bibliothek viel benutzen, damit Sie mich oft sehen werden, sie ist die beste und einfachste zu verwenden und ich denke, sie hat viel Potenzial für mehr Funktionen.

Ich denke, dass die folgenden Informationen der ausgelassenen Elemente in den _Log-Informationen_ angezeigt werden können:
Seite, Typ (Tabelle, Bild...) , und dass irgendwie der entsprechende Leerraum dort bleibt, wo das Element war, so ändert sich auch bei weggelassenen Elementen nichts an der Reihenfolge oder Anzahl der Seiten.

Ich werde diese Bibliothek viel benutzen, damit Sie mich oft sehen werden, sie ist die beste und einfachste zu verwenden und ich denke, sie hat viel Potenzial für mehr Funktionen.

Diese Bibliothek ist regelbasiert, um pdf-Objekte auf docx abzubilden, zB einige Texte, die von horizontalen/vertikalen Linien umgeben sind -> eine Tabelle in docx. Die begrenzten Regeln berücksichtigen nie alle Fälle, also definitiv viele potenzielle Funktionen/Erweiterungen. Willkommen und danke, dass Sie es erwachsen machen, damit es für mehr Menschen von Nutzen sein kann.

Seite, Typ (Tabelle, Bild...), und dass irgendwie der jeweilige Leerraum dort bleibt, wo das Element war

Guter Punkt. Nur eine Anmerkung: Als Layoutformat für den Druck extrahieren wir aus pdf entweder Text oder Bild oder Form (wie eine Linie, ein Rechteck) und deren Koordinaten auf der Seite. Natürlich bleibt der Leerraum erhalten, aber in Bezug auf den Typ fürchte ich, dass er nur ein Bild bereitstellen kann, da für pdf keine "Tabelle" existiert.

Willkommen und danke, dass Sie es erwachsen machen, damit es für mehr Menschen von Nutzen sein kann.

Danke, ich werde mit verschiedenen Dateien mit unterschiedlichen Inhalten testen, um zu sehen, wie die Bibliothek auf jede einzelne reagiert, und wenn es einen Fehler gibt, werde ich sie hier (bei Problemen) mit den detaillierten Informationen belassen.

Ich fürchte, es kann nur ein Bild bereitstellen, da für PDF keine "Tabelle" existiert.

Als ich "Tisch" sagte, meinte ich Dinge wie diese:
2020-10-22 12_29_14
Obwohl ich nur gespürt habe, dass das als einfache Zeilen gilt , sorry, schlechte Art, darauf zu verweisen. Ebenso ist die Idee, dass ich, um zu sagen, welche Art von Element weggelassen wurde, nicht die Wahrheit weiß, welche Art von Element außer einem Bild erwähnt werden soll, aber die Idee ist bereits klar, hehe.

Hatte so lange keine Zeit für dieses Projekt. In diesem Moment, dem ersten Tag des neuen Jahres, wurde endlich eine neue Version veröffentlicht. :) Es wird bei der Bildextraktion verbessert, zB beim Floating-Image und beim Absatzformat. Hoffe auf Fortschritte bei diesem Thema.

pip install --upgrade pdf2docx
War diese Seite hilfreich?
0 / 5 - 0 Bewertungen

Verwandte Themen

JoHnTsIm picture JoHnTsIm  ·  7Kommentare

echan00 picture echan00  ·  9Kommentare

startxc picture startxc  ·  4Kommentare

harrylyf picture harrylyf  ·  5Kommentare

mitsuhiko picture mitsuhiko  ·  3Kommentare