Pdf2docx: Seite aufgrund eines Fehlers ignorieren: 'TableBlock'-Objekt hat kein Attribut 'lines'

Erstellt am 4. Feb. 2021 · 5Kommentare · Quelle: dothinking/pdf2docx

Hallo, ich bin auf diesen Fehler beim Parsen hier gestoßen: Ignore page due to error:'TableBlock' object has no attribute'lines'. Ich habe es gerade ausprobiert und festgestellt, dass 0.5.0 geparst werden kann, aber der Effekt ist nicht besonders gut (aber es ist harmlos), aber die 0.5.1-Version, die ich jetzt verwende, wird den obigen Fehler haben. Ich weiß nicht, ob einige Codeänderungen während des Versionsiterationsprozesses neue Probleme verursacht haben.

Ich habe die Testdatei an Ihre Mailbox gesendet.

Vielen Dank!

bug

Quelle

harrylyf

Alle 5 Kommentare

Vielen Dank für Ihre Fragen und die Bereitstellung von Testdokumenten.

0.5.1 Version

Suchen Sie die Datei Shape.py :

>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__

Suchen Sie die Methode semantic_type() (um Zeile 89) und fügen Sie eine Zeile gemäß dem Kommentar unten hinzu

for block in blocks:
    if not block.is_text_block(): continue  # 增加这一行判断

    # not intersect yet
    if block.bbox.y1 < self.bbox.y0: continue

    # check it when intersected
    rect_type = self._check_semantic_type(block)
    if rect_type != RectType.UNDEFINED: break

    # no intersection any more
    if block.bbox.y0 > self.bbox.y1: break

Nochmals vielen Dank für den Hinweis auf das Problem. Die jüngsten Korrekturen dieser beiden Probleme werden der nächsten Version hinzugefügt.

dothinking am 4. Feb. 2021

👍1

Außerdem haben wir die Conversion-Effekte von 0.5.0 und 0.5.1 verglichen und festgestellt, dass es keine großen Verbesserungen gibt. Ich weiß nicht, welche Anforderungen Sie an die PDF-zu-Word-Konvertierung, das Extrahieren von Text, das Beibehalten der Formatierung oder das Erleichtern der Bearbeitung von Text haben? Einige PDF-Tools (PDF-xchange, Foxit usw.) können den Text auch direkt ändern, was relativ bequemer ist. Daher bin ich mir über die Richtung der Bibliothek pdf2docx nicht sicher. Danke.

dothinking am 4. Feb. 2021

Danke, ich habe es gerade ausprobiert und es hat mein Problem perfekt gelöst.

harrylyf am 5. Feb. 2021

Meine aktuelle Forderung besteht darin, bestimmte Dokumenttypen im Stapel zu konvertieren und dann das Format so weit wie möglich beizubehalten. Es wird mühsamer sein, einfach Acrobat oder andere Tools zu verwenden. Also möchte ich es mit Code lösen. Ich denke, Sie können einen Blick auf das solide Framework werfen, die pdf2docx-Bibliothek ist meiner Meinung nach eine relativ enge Bibliothek. In Zukunft denke ich, dass es möglich ist, die Funktion der Selbstmodifikation durch Benutzer zu erhöhen (z.

harrylyf am 5. Feb. 2021

❤1

Sehr guter Vorschlag, danke.

dothinking am 5. Feb. 2021

War diese Seite hilfreich?

0 / 5 - 0 Bewertungen

Pdf2docx: Seite aufgrund eines Fehlers ignorieren: 'TableBlock'-Objekt hat kein Attribut 'lines'

Alle 5 Kommentare

Verwandte Themen