Halo, saya menemukan kesalahan ini saat mengurai di sini: Abaikan halaman karena kesalahan: objek 'TableBlock' tidak memiliki atribut' garis '. Saya baru saja mencobanya dan menemukan bahwa 0.5.0 dapat diuraikan, tetapi efeknya tidak terlalu baik (tetapi tidak berbahaya), tetapi versi 0.5.1 yang saya gunakan sekarang akan memiliki kesalahan di atas. Saya tidak tahu apakah beberapa perubahan kode selama proses iterasi versi menyebabkan masalah baru.
Saya telah mengirim file tes ke kotak surat Anda.
Terima kasih!
Terima kasih telah mengajukan pertanyaan dan memberikan dokumen pengujian.
0.5.1
telah membuat peningkatan dalam dukungan tabel bersarang, menghasilkan area yang awalnya hanya blok teks, dan mungkin ada blok teks dan blok tabel, sehingga pemrosesan default sebelumnya untuk blok teks saja tidak menerapkan Dalam formulir. Metode modifikasi adalah menambahkan penilaian apakah akan menambahkan blok teks:
Shape.py
:>>> import pdf2docx
>>> pdf2docx.shape.Shape.__file__
semantic_type()
(sekitar baris 89), tambahkan baris sesuai komentar di bawahfor block in blocks:
if not block.is_text_block(): continue # 增加这一行判断
# not intersect yet
if block.bbox.y1 < self.bbox.y0: continue
# check it when intersected
rect_type = self._check_semantic_type(block)
if rect_type != RectType.UNDEFINED: break
# no intersection any more
if block.bbox.y0 > self.bbox.y1: break
Sekali lagi terima kasih telah menunjukkan masalahnya, perbaikan terbaru dari dua masalah ini akan ditambahkan ke versi berikutnya.
Selain itu, membandingkan efek konversi dari 0.5.0
dan 0.5.1
, dan menemukan bahwa tidak ada banyak peningkatan. Saya tidak tahu apa kebutuhan Anda untuk konversi pdf ke kata, mengekstrak teks, mempertahankan pemformatan, atau memfasilitasi pengeditan teks? Beberapa alat PDF (PDF-xchange, Foxit, dll.) juga dapat memodifikasi teks secara langsung, yang relatif lebih nyaman. Jadi saya tidak yakin tentang arah perpustakaan pdf2docx
. Terima kasih.
Terima kasih, saya baru saja mencobanya dan itu menyelesaikan masalah saya dengan sempurna.
Permintaan saya saat ini adalah untuk konversi batch jenis dokumen tertentu, dan kemudian mempertahankan format sebanyak mungkin. Akan lebih merepotkan jika hanya menggunakan akrobat atau alat lainnya. Jadi saya ingin menyelesaikannya dengan kode. Saya pikir Anda dapat melihat kerangka kerja yang solid, perpustakaan pdf2docx yang menurut saya adalah perpustakaan yang relatif dekat. Di masa depan, saya pikir dimungkinkan untuk meningkatkan fungsi modifikasi diri oleh pengguna (seperti mengubah json).Untuk berbagai jenis file dan berbagai jenis kebutuhan, setiap orang dapat mengoptimalkan beberapa parameter dan kondisi sesuai dengan keadaan mereka sendiri.
Usulan yang sangat bagus, terima kasih.