让我们假设目前没有办法处理浮动图像,作为_增强_我想为_未来更新_提出一个小建议。 这将是一个非常有用的参数,它允许省略导致错误的图像或对象,这样传入的 pdf 文件,虽然它有不可处理的元素,但可以省略并获得没有这些元素的输出文件,然后作为程序员负责向用户作出这些说明。
这是有道理的。 如何将“忽略导致错误的图像或对象”设置为默认行为,并在发生这种情况时显示日志信息? 谢谢你的建议。
如何将“忽略导致错误的图像或对象”设置为默认行为,并在发生这种情况时显示日志信息?
另外,我认为它很棒,感谢您考虑它。 我会经常使用这个库,所以你会经常看到我,它是最好和最容易使用的,而且我觉得它有很多潜力可以提供更多功能。
我认为可以在_log信息_中显示省略项的以下信息:
Page, type (table, image...) ,并且以某种方式在元素所在的位置留下相应的空白空间,这样即使元素已被省略,页面的顺序或数量也不会发生变化。
我会经常使用这个库,所以你会经常看到我,它是最好和最容易使用的,而且我觉得它有很多潜力可以提供更多功能。
这个库是基于规则的,可以将 pdf 对象映射到 docx,例如一些被水平/垂直线包围的文本 -> docx 中的表格。 有限的规则永远不会适应所有情况,因此肯定有很多潜在的功能/增强功能。 欢迎并感谢让它成长起来,让更多人受益。
页面,类型(表格,图像...),并且以某种方式将相应的空白区域留在元素所在的位置
好点子。 只是一个评论:作为一种用于打印的布局格式,我们从pdf中提取的是文本或图像或形状(如线,矩形)及其在页面中的坐标。 所以,当然,空格被保留,但关于类型,恐怕它只能提供图像,因为pdf不存在“表格”。
欢迎并感谢让它成长起来,让更多人受益。
谢谢,我将使用不同内容的不同文件进行测试,以查看库对每个文件的反应,如果有任何失败,我会将其留在这里(在问题中)提供详细信息。
恐怕它只能提供图像,因为 pdf 不存在“表格”。
当我说“桌子”时,我的意思是这样的:
虽然我只是觉得那算作简单的线条,对不起,不好的方式来指代它。 同样的思路是,要说被省略的元素类型,除了图像我不知道真正要提到什么类型的元素,但是这个想法已经很清楚了嘿嘿。
好久没时间做这个项目了。 新版本终于在这一刻,大年初一发布了。 :) 它在图像提取方面得到了改进,例如浮动图像和段落格式。 希望在这个问题上取得进展。
pip install --upgrade pdf2docx