Pdf2docx: Lewati item yang menyebabkan kesalahan

Dibuat pada 21 Okt 2020  ·  5Komentar  ·  Sumber: dothinking/pdf2docx

Mari kita asumsikan bahwa untuk saat ini tidak ada cara untuk memproses gambar mengambang, sebagai _peningkatan_ saya ingin membuat rekomendasi kecil untuk _pembaruan masa depan_. Akan sangat berguna parameter yang memungkinkan menghilangkan gambar atau objek yang menyebabkan kesalahan, dan agar file pdf yang masuk, meskipun memiliki elemen yang tidak dapat diproses, dapat dihilangkan dan mendapatkan file output tanpa elemen ini, dan kemudian satu sebagai programmer bertanggung jawab untuk membuat klarifikasi ini kepada pengguna.

enhancement

Semua 5 komentar

Ini masuk akal. Bagaimana dengan mengatur "menghilangkan gambar atau objek yang menyebabkan kesalahan" sebagai perilaku default, dan menampilkan informasi log saat ini terjadi? Terima kasih atas saran Anda.

Bagaimana dengan mengatur "menghilangkan gambar atau objek yang menyebabkan kesalahan" sebagai perilaku default, dan menampilkan informasi log saat ini terjadi?

Juga, saya pikir itu bagus, terima kasih telah mempertimbangkannya. Saya akan sering menggunakan perpustakaan ini sehingga Anda akan sering melihat saya, ini adalah yang terbaik dan termudah untuk digunakan dan saya merasa memiliki banyak potensi untuk lebih banyak fitur.

Saya pikir informasi berikut dari item yang dihilangkan dapat ditampilkan di _log information_:
Halaman, ketik (tabel, gambar...) , dan entah bagaimana ruang kosong masing-masing dibiarkan di mana elemen itu berada, dengan cara ini bahkan jika elemen telah dihilangkan tidak akan ada perubahan dalam urutan atau jumlah halaman.

Saya akan sering menggunakan perpustakaan ini sehingga Anda akan sering melihat saya, ini adalah yang terbaik dan termudah untuk digunakan dan saya merasa memiliki banyak potensi untuk lebih banyak fitur.

Pustaka ini berbasis aturan untuk memetakan objek pdf ke docx, misalnya beberapa teks yang dikelilingi oleh garis horizontal/vertikal -> tabel di docx. Aturan terbatas tidak pernah mengakomodasi semua kasus, jadi pasti banyak fitur/penyempurnaan potensial. Selamat datang dan terima kasih telah membuatnya berkembang, sehingga dapat bermanfaat bagi lebih banyak orang.

Halaman, ketik (tabel, gambar ...), dan entah bagaimana ruang kosong masing-masing ditinggalkan di mana elemen itu berada

Poin bagus. Hanya satu komentar: sebagai format tata letak untuk pencetakan, apa yang kami ekstrak dari pdf adalah teks atau gambar atau bentuk (seperti garis, persegi panjang) dan koordinatnya di halaman. Jadi, tentu saja, ruang kosong dipertahankan, tetapi mengenai jenisnya, saya khawatir itu hanya dapat memberikan gambar karena tidak ada 'tabel' untuk pdf.

Selamat datang dan terima kasih telah membuatnya berkembang, sehingga dapat bermanfaat bagi lebih banyak orang.

Terima kasih, saya akan menguji dengan file yang berbeda dengan konten yang berbeda untuk melihat bagaimana perpustakaan bereaksi terhadap masing-masing dan jika ada kegagalan saya akan meninggalkannya di sini (dalam masalah) dengan informasi rinci..

Saya khawatir ini hanya dapat memberikan gambar karena tidak ada 'tabel' untuk pdf.

Ketika saya mengatakan "tabel", maksud saya seperti ini:
2020-10-22 12_29_14
Meskipun saya hanya merasakan bahwa itu dianggap sebagai garis sederhana , maaf, cara yang buruk untuk merujuknya. Dengan cara yang sama idenya adalah, untuk mengatakan jenis elemen yang telah dihilangkan, saya tidak tahu sebenarnya jenis elemen apa yang disebutkan selain dari gambar, tetapi idenya sudah jelas hehe.

Tidak mendapatkan waktu untuk proyek ini untuk waktu yang lama. Versi baru akhirnya dirilis pada saat ini, hari pertama Tahun Baru. :) Itu akan ditingkatkan pada ekstraksi gambar, misalnya gambar mengambang, dan format paragraf. Berharap untuk membuat kemajuan dalam masalah ini.

pip install --upgrade pdf2docx
Apakah halaman ini membantu?
0 / 5 - 0 peringkat

Masalah terkait

harrylyf picture harrylyf  ·  5Komentar

startxc picture startxc  ·  4Komentar

echan00 picture echan00  ·  9Komentar

JoHnTsIm picture JoHnTsIm  ·  7Komentar

DarwinSurvivor picture DarwinSurvivor  ·  3Komentar