Предположим, что на данный момент нет возможности обрабатывать плавающие изображения, в качестве _ улучшения_ я хотел бы сделать небольшую рекомендацию для _ будущих обновлений_. Было бы очень полезно использовать параметр, который позволяет опускать изображения или объекты, вызывающие ошибки, и чтобы входящий PDF-файл, хотя он имеет необработанные элементы, можно было опустить и получить выходной файл без этих элементов, а затем один как программист несет ответственность за предоставление этих пояснений пользователю.
Это имеет смысл. Как насчет того, чтобы установить «исключение изображений или объектов, вызывающих ошибки» в качестве поведения по умолчанию и отображать информацию журнала, когда это произошло? Спасибо за ваше предложение.
Как насчет того, чтобы установить «исключение изображений или объектов, вызывающих ошибки» в качестве поведения по умолчанию и отображать информацию журнала, когда это произошло?
Кроме того, я считаю, что это здорово, спасибо, что приняли это во внимание. Я буду часто использовать эту библиотеку, поэтому вы будете часто видеть меня, она самая лучшая и простая в использовании, и я чувствую, что у нее есть большой потенциал для большего количества функций.
Я думаю, что следующая информация об опущенных элементах может быть отображена в _log information_:
Страница, тип (таблица, изображение ...) , и что каким-то образом соответствующее пустое пространство остается там, где был элемент, таким образом, даже если элементы были опущены, порядок или количество страниц не изменится.
Я буду часто использовать эту библиотеку, поэтому вы будете часто видеть меня, она самая лучшая и простая в использовании, и я чувствую, что у нее есть большой потенциал для большего количества функций.
Эта библиотека основана на правилах для сопоставления объектов pdf с docx, например, некоторых текстов, окруженных горизонтальными / вертикальными линиями -> таблица в docx. Ограниченные правила никогда не охватывают все случаи, поэтому определенно много потенциальных функций / улучшений. Добро пожаловать и спасибо за то, что помогли ему вырасти, чтобы принести пользу большему количеству людей.
Страница, введите (таблица, изображение ...), и что каким-то образом соответствующее пустое пространство осталось там, где был элемент
Хорошая точка зрения. Только один комментарий: в качестве формата макета для печати мы извлекаем из pdf текст, изображение или форму (например, линию, прямоугольник) и их координаты на странице. Так что, конечно, пустое пространство сохраняется, но, что касается типа, я боюсь, что он может предоставить только изображение, поскольку для pdf не существует «таблицы».
Добро пожаловать и спасибо за то, что помогли ему вырасти, чтобы принести пользу большему количеству людей.
Спасибо, я буду тестировать разные файлы с разным содержимым, чтобы увидеть, как библиотека отреагирует на каждый из них, и если возникнет какой-либо сбой, я оставлю его здесь (в проблемах) с подробной информацией.
Боюсь, что он может предоставить только изображение, поскольку для pdf не существует «таблицы».
Когда я сказал «стол», я имел в виду такие вещи:
Хотя я просто почувствовал, что это считается простыми строками , извините, плохой способ на это ссылаться. Точно так же идея состоит в том, что, говоря о типе элемента, который был опущен, я не знаю, какой тип элемента следует упомянуть помимо изображения, но идея уже ясна, хе-хе.
Давно не было времени на этот проект. Наконец, в первый день Нового года вышла новая версия. :) Улучшено извлечение изображений, например, плавающих изображений и форматов абзацев. Надеюсь добиться прогресса в этом вопросе.
pip install --upgrade pdf2docx