Pdf2docx: تخطي العناصر التي تسبب أخطاء

تم إنشاؤها على ٢١ أكتوبر ٢٠٢٠  ·  5تعليقات  ·  مصدر: dothinking/pdf2docx

لنفترض أنه في الوقت الحالي لا توجد طريقة لمعالجة الصور العائمة ، كتعزيز ، أود تقديم توصية صغيرة بخصوص التحديثات المستقبلية. سيكون من المفيد جدًا استخدام معلمة تسمح بحذف الصور أو الكائنات التي تسبب أخطاء ، وبالتالي يمكن حذف ملف pdf الوارد ، على الرغم من احتوائه على عناصر غير قابلة للمعالجة ، والحصول على ملف الإخراج بدون هذه العناصر ، ثم واحد كمبرمج هو المسؤول عن تقديم هذه التوضيحات للمستخدم.

enhancement

ال 5 كومينتر

هذا يبدو منطقيا. ماذا عن تعيين "حذف الصور أو الكائنات التي تسبب أخطاء" كسلوك افتراضي ، وإظهار معلومات السجل عند حدوث ذلك؟ شكرا على اقتراحك.

ماذا عن تعيين "حذف الصور أو الكائنات التي تسبب أخطاء" كسلوك افتراضي ، وإظهار معلومات السجل عند حدوث ذلك؟

أيضًا ، أعتقد أنه أمر رائع ، شكرًا لأخذه بعين الاعتبار. سأستخدم هذه المكتبة كثيرًا ، لذا سترونني كثيرًا ، إنها الأفضل والأسهل في الاستخدام وأشعر أن لديها الكثير من الإمكانات لمزيد من الميزات.

أعتقد أنه يمكن عرض المعلومات التالية للعناصر المحذوفة في _log information_:
صفحة ، اكتب (جدول ، صورة ...) ، وبطريقة ما يتم ترك المساحة الفارغة ذات الصلة حيث كان العنصر ، وبهذه الطريقة حتى لو تم حذف العناصر ، فلن يكون هناك تغيير في ترتيب أو عدد الصفحات.

سأستخدم هذه المكتبة كثيرًا ، لذا سترونني كثيرًا ، إنها الأفضل والأسهل في الاستخدام وأشعر أن لديها الكثير من الإمكانات لمزيد من الميزات.

هذه المكتبة قائمة على القواعد لتعيين كائنات pdf إلى docx ، على سبيل المثال بعض النصوص المحاطة بخطوط أفقية / عمودية -> جدول في docx. القواعد المحدودة لا تستوعب أبدًا جميع الحالات ، لذلك بالتأكيد الكثير من الميزات / التحسينات المحتملة. مرحبًا بك وشكرًا على جعله يكبر ، بحيث يمكن أن يستفيد منه المزيد من الأشخاص.

الصفحة ، اكتب (جدول ، صورة ...) ، وبطريقة ما يتم ترك المساحة الفارغة ذات الصلة حيث كان العنصر

نقطة جيدة. تعليق واحد فقط: كتنسيق تخطيط للطباعة ، ما نستخرجه من pdf هو إما نص أو صورة أو شكل (مثل خط ، مستطيل) وإحداثياتهم في الصفحة. لذلك ، بالطبع ، يتم الاحتفاظ بالمساحة الفارغة ، ولكن فيما يتعلق بالنوع ، أخشى أنه يمكن أن يوفر صورة فقط لأنه لا يوجد "جدول" لقوات الدفاع الشعبي.

مرحبًا بك وشكرًا على جعله يكبر ، بحيث يمكن أن يستفيد منه المزيد من الأشخاص.

شكرًا ، سأقوم باختبار ملفات مختلفة بمحتويات مختلفة لمعرفة كيفية تفاعل المكتبة مع كل منها ، وإذا كان هناك أي فشل ، فسوف أتركها هنا (في المشكلات) مع المعلومات التفصيلية ..

أخشى أنه يمكن أن يوفر الصورة فقط لأنه لا يوجد "جدول" لقوات الدفاع الشعبي.

عندما قلت "طاولة" كنت أعني أشياء مثل هذا:
2020-10-22 12_29_14
على الرغم من أنني شعرت أن هذا يعد سطورًا بسيطة ، إلا أنني آسف ، طريقة سيئة للإشارة إلى ذلك. بنفس الطريقة ، الفكرة هي أنه ، لقول نوع العنصر الذي تم حذفه ، لا أعرف حقيقة نوع العنصر الذي يجب ذكره بصرف النظر عن الصورة ، لكن الفكرة واضحة بالفعل.

لم أحصل على وقت لهذا المشروع لفترة طويلة. تم إصدار نسخة جديدة أخيرًا في هذه اللحظة ، في اليوم الأول من العام الجديد. :) يتم تحسينه في استخراج الصور ، على سبيل المثال صورة عائمة وتنسيق الفقرة. نأمل في إحراز تقدم في هذه القضية.

pip install --upgrade pdf2docx
هل كانت هذه الصفحة مفيدة؟
0 / 5 - 0 التقييمات

القضايا ذات الصلة

JoHnTsIm picture JoHnTsIm  ·  7تعليقات

startxc picture startxc  ·  4تعليقات

harrylyf picture harrylyf  ·  5تعليقات

echan00 picture echan00  ·  9تعليقات

gw0 picture gw0  ·  3تعليقات