Pdf2docx: Seite aufgrund eines Fehlers ignorieren: 'TableBlock'-Objekt hat kein Attribut 'lines'

Erstellt am 4. Feb. 2021  ·  5Kommentare  ·  Quelle: dothinking/pdf2docx

Hallo, ich bin auf diesen Fehler beim Parsen hier gestoßen: Ignore page due to error:'TableBlock' object has no attribute'lines'. Ich habe es gerade ausprobiert und festgestellt, dass 0.5.0 geparst werden kann, aber der Effekt ist nicht besonders gut (aber es ist harmlos), aber die 0.5.1-Version, die ich jetzt verwende, wird den obigen Fehler haben. Ich weiß nicht, ob einige Codeänderungen während des Versionsiterationsprozesses neue Probleme verursacht haben.

Ich habe die Testdatei an Ihre Mailbox gesendet.

Vielen Dank!

bug

Alle 5 Kommentare

Vielen Dank für Ihre Fragen und die Bereitstellung von Testdokumenten.

0.5.1 Version

  1. Suchen Sie die Datei Shape.py :
>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
  1. Suchen Sie die Methode semantic_type() (um Zeile 89) und fügen Sie eine Zeile gemäß dem Kommentar unten hinzu
for block in blocks:
    if not block.is_text_block(): continue  # 增加这一行判断

    # not intersect yet
    if block.bbox.y1 < self.bbox.y0: continue

    # check it when intersected
    rect_type = self._check_semantic_type(block)
    if rect_type != RectType.UNDEFINED: break

    # no intersection any more
    if block.bbox.y0 > self.bbox.y1: break

Nochmals vielen Dank für den Hinweis auf das Problem. Die jüngsten Korrekturen dieser beiden Probleme werden der nächsten Version hinzugefügt.

Außerdem haben wir die Conversion-Effekte von 0.5.0 und 0.5.1 verglichen und festgestellt, dass es keine großen Verbesserungen gibt. Ich weiß nicht, welche Anforderungen Sie an die PDF-zu-Word-Konvertierung, das Extrahieren von Text, das Beibehalten der Formatierung oder das Erleichtern der Bearbeitung von Text haben? Einige PDF-Tools (PDF-xchange, Foxit usw.) können den Text auch direkt ändern, was relativ bequemer ist. Daher bin ich mir über die Richtung der Bibliothek pdf2docx nicht sicher. Danke.

Danke, ich habe es gerade ausprobiert und es hat mein Problem perfekt gelöst.

Meine aktuelle Forderung besteht darin, bestimmte Dokumenttypen im Stapel zu konvertieren und dann das Format so weit wie möglich beizubehalten. Es wird mühsamer sein, einfach Acrobat oder andere Tools zu verwenden. Also möchte ich es mit Code lösen. Ich denke, Sie können einen Blick auf das solide Framework werfen, die pdf2docx-Bibliothek ist meiner Meinung nach eine relativ enge Bibliothek. In Zukunft denke ich, dass es möglich ist, die Funktion der Selbstmodifikation durch Benutzer zu erhöhen (z.

Sehr guter Vorschlag, danke.

War diese Seite hilfreich?
0 / 5 - 0 Bewertungen

Verwandte Themen

echan00 picture echan00  ·  9Kommentare

startxc picture startxc  ·  4Kommentare

JoHnTsIm picture JoHnTsIm  ·  7Kommentare

Jalkhov picture Jalkhov  ·  5Kommentare

DarwinSurvivor picture DarwinSurvivor  ·  3Kommentare