Pdf2docx: Abaikan halaman karena kesalahan: objek 'TableBlock' tidak memiliki atribut 'garis'

Dibuat pada 4 Feb 2021  ·  5Komentar  ·  Sumber: dothinking/pdf2docx

Halo, saya menemukan kesalahan ini saat mengurai di sini: Abaikan halaman karena kesalahan: objek 'TableBlock' tidak memiliki atribut' garis '. Saya baru saja mencobanya dan menemukan bahwa 0.5.0 dapat diuraikan, tetapi efeknya tidak terlalu baik (tetapi tidak berbahaya), tetapi versi 0.5.1 yang saya gunakan sekarang akan memiliki kesalahan di atas. Saya tidak tahu apakah beberapa perubahan kode selama proses iterasi versi menyebabkan masalah baru.

Saya telah mengirim file tes ke kotak surat Anda.

Terima kasih!

bug

Semua 5 komentar

Terima kasih telah mengajukan pertanyaan dan memberikan dokumen pengujian.

0.5.1 telah membuat peningkatan dalam dukungan tabel bersarang, menghasilkan area yang awalnya hanya blok teks, dan mungkin ada blok teks dan blok tabel, sehingga pemrosesan default sebelumnya untuk blok teks saja tidak menerapkan Dalam formulir. Metode modifikasi adalah menambahkan penilaian apakah akan menambahkan blok teks:

  1. Temukan berkas Shape.py :
>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
  1. Temukan metode semantic_type() (sekitar baris 89), tambahkan baris sesuai komentar di bawah
for block in blocks:
    if not block.is_text_block(): continue  # 增加这一行判断

    # not intersect yet
    if block.bbox.y1 < self.bbox.y0: continue

    # check it when intersected
    rect_type = self._check_semantic_type(block)
    if rect_type != RectType.UNDEFINED: break

    # no intersection any more
    if block.bbox.y0 > self.bbox.y1: break

Sekali lagi terima kasih telah menunjukkan masalahnya, perbaikan terbaru dari dua masalah ini akan ditambahkan ke versi berikutnya.

Selain itu, membandingkan efek konversi dari 0.5.0 dan 0.5.1 , dan menemukan bahwa tidak ada banyak peningkatan. Saya tidak tahu apa kebutuhan Anda untuk konversi pdf ke kata, mengekstrak teks, mempertahankan pemformatan, atau memfasilitasi pengeditan teks? Beberapa alat PDF (PDF-xchange, Foxit, dll.) juga dapat memodifikasi teks secara langsung, yang relatif lebih nyaman. Jadi saya tidak yakin tentang arah perpustakaan pdf2docx . Terima kasih.

Terima kasih, saya baru saja mencobanya dan itu menyelesaikan masalah saya dengan sempurna.

Permintaan saya saat ini adalah untuk konversi batch jenis dokumen tertentu, dan kemudian mempertahankan format sebanyak mungkin. Akan lebih merepotkan jika hanya menggunakan akrobat atau alat lainnya. Jadi saya ingin menyelesaikannya dengan kode. Saya pikir Anda dapat melihat kerangka kerja yang solid, perpustakaan pdf2docx yang menurut saya adalah perpustakaan yang relatif dekat. Di masa depan, saya pikir dimungkinkan untuk meningkatkan fungsi modifikasi diri oleh pengguna (seperti mengubah json).Untuk berbagai jenis file dan berbagai jenis kebutuhan, setiap orang dapat mengoptimalkan beberapa parameter dan kondisi sesuai dengan keadaan mereka sendiri.

Usulan yang sangat bagus, terima kasih.

Apakah halaman ini membantu?
0 / 5 - 0 peringkat

Masalah terkait

echan00 picture echan00  ·  9Komentar

JoHnTsIm picture JoHnTsIm  ·  7Komentar

startxc picture startxc  ·  4Komentar

Jalkhov picture Jalkhov  ·  5Komentar

blite picture blite  ·  3Komentar