Hallo, ich bin auf diesen Fehler beim Parsen hier gestoßen: Ignore page due to error:'TableBlock' object has no attribute'lines'. Ich habe es gerade ausprobiert und festgestellt, dass 0.5.0 geparst werden kann, aber der Effekt ist nicht besonders gut (aber es ist harmlos), aber die 0.5.1-Version, die ich jetzt verwende, wird den obigen Fehler haben. Ich weiß nicht, ob einige Codeänderungen während des Versionsiterationsprozesses neue Probleme verursacht haben.
Ich habe die Testdatei an Ihre Mailbox gesendet.
Vielen Dank!
Vielen Dank für Ihre Fragen und die Bereitstellung von Testdokumenten.
0.5.1
Version
Shape.py
:>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
semantic_type()
(um Zeile 89) und fügen Sie eine Zeile gemäß dem Kommentar unten hinzufor block in blocks:
if not block.is_text_block(): continue # 增加这一行判断
# not intersect yet
if block.bbox.y1 < self.bbox.y0: continue
# check it when intersected
rect_type = self._check_semantic_type(block)
if rect_type != RectType.UNDEFINED: break
# no intersection any more
if block.bbox.y0 > self.bbox.y1: break
Nochmals vielen Dank für den Hinweis auf das Problem. Die jüngsten Korrekturen dieser beiden Probleme werden der nächsten Version hinzugefügt.
Außerdem haben wir die Conversion-Effekte von 0.5.0
und 0.5.1
verglichen und festgestellt, dass es keine großen Verbesserungen gibt. Ich weiß nicht, welche Anforderungen Sie an die PDF-zu-Word-Konvertierung, das Extrahieren von Text, das Beibehalten der Formatierung oder das Erleichtern der Bearbeitung von Text haben? Einige PDF-Tools (PDF-xchange, Foxit usw.) können den Text auch direkt ändern, was relativ bequemer ist. Daher bin ich mir über die Richtung der Bibliothek pdf2docx
nicht sicher. Danke.
Danke, ich habe es gerade ausprobiert und es hat mein Problem perfekt gelöst.
Meine aktuelle Forderung besteht darin, bestimmte Dokumenttypen im Stapel zu konvertieren und dann das Format so weit wie möglich beizubehalten. Es wird mühsamer sein, einfach Acrobat oder andere Tools zu verwenden. Also möchte ich es mit Code lösen. Ich denke, Sie können einen Blick auf das solide Framework werfen, die pdf2docx-Bibliothek ist meiner Meinung nach eine relativ enge Bibliothek. In Zukunft denke ich, dass es möglich ist, die Funktion der Selbstmodifikation durch Benutzer zu erhöhen (z.
Sehr guter Vorschlag, danke.