Pdf2docx: Пропускать элементы, вызывающие ошибки

Созданный на 21 окт. 2020  ·  5Комментарии  ·  Источник: dothinking/pdf2docx

Предположим, что на данный момент нет возможности обрабатывать плавающие изображения, в качестве _ улучшения_ я хотел бы сделать небольшую рекомендацию для _ будущих обновлений_. Было бы очень полезно использовать параметр, который позволяет опускать изображения или объекты, вызывающие ошибки, и чтобы входящий PDF-файл, хотя он имеет необработанные элементы, можно было опустить и получить выходной файл без этих элементов, а затем один как программист несет ответственность за предоставление этих пояснений пользователю.

enhancement

Все 5 Комментарий

Это имеет смысл. Как насчет того, чтобы установить «исключение изображений или объектов, вызывающих ошибки» в качестве поведения по умолчанию и отображать информацию журнала, когда это произошло? Спасибо за ваше предложение.

Как насчет того, чтобы установить «исключение изображений или объектов, вызывающих ошибки» в качестве поведения по умолчанию и отображать информацию журнала, когда это произошло?

Кроме того, я считаю, что это здорово, спасибо, что приняли это во внимание. Я буду часто использовать эту библиотеку, поэтому вы будете часто видеть меня, она самая лучшая и простая в использовании, и я чувствую, что у нее есть большой потенциал для большего количества функций.

Я думаю, что следующая информация об опущенных элементах может быть отображена в _log information_:
Страница, тип (таблица, изображение ...) , и что каким-то образом соответствующее пустое пространство остается там, где был элемент, таким образом, даже если элементы были опущены, порядок или количество страниц не изменится.

Я буду часто использовать эту библиотеку, поэтому вы будете часто видеть меня, она самая лучшая и простая в использовании, и я чувствую, что у нее есть большой потенциал для большего количества функций.

Эта библиотека основана на правилах для сопоставления объектов pdf с docx, например, некоторых текстов, окруженных горизонтальными / вертикальными линиями -> таблица в docx. Ограниченные правила никогда не охватывают все случаи, поэтому определенно много потенциальных функций / улучшений. Добро пожаловать и спасибо за то, что помогли ему вырасти, чтобы принести пользу большему количеству людей.

Страница, введите (таблица, изображение ...), и что каким-то образом соответствующее пустое пространство осталось там, где был элемент

Хорошая точка зрения. Только один комментарий: в качестве формата макета для печати мы извлекаем из pdf текст, изображение или форму (например, линию, прямоугольник) и их координаты на странице. Так что, конечно, пустое пространство сохраняется, но, что касается типа, я боюсь, что он может предоставить только изображение, поскольку для pdf не существует «таблицы».

Добро пожаловать и спасибо за то, что помогли ему вырасти, чтобы принести пользу большему количеству людей.

Спасибо, я буду тестировать разные файлы с разным содержимым, чтобы увидеть, как библиотека отреагирует на каждый из них, и если возникнет какой-либо сбой, я оставлю его здесь (в проблемах) с подробной информацией.

Боюсь, что он может предоставить только изображение, поскольку для pdf не существует «таблицы».

Когда я сказал «стол», я имел в виду такие вещи:
2020-10-22 12_29_14
Хотя я просто почувствовал, что это считается простыми строками , извините, плохой способ на это ссылаться. Точно так же идея состоит в том, что, говоря о типе элемента, который был опущен, я не знаю, какой тип элемента следует упомянуть помимо изображения, но идея уже ясна, хе-хе.

Давно не было времени на этот проект. Наконец, в первый день Нового года вышла новая версия. :) Улучшено извлечение изображений, например, плавающих изображений и форматов абзацев. Надеюсь добиться прогресса в этом вопросе.

pip install --upgrade pdf2docx
Была ли эта страница полезной?
0 / 5 - 0 рейтинги