Pdf2docx: 跳过导致错误的项目

创建于 2020-10-21  ·  5评论  ·  资料来源: dothinking/pdf2docx

让我们假设目前没有办法处理浮动图像,作为_增强_我想为_未来更新_提出一个小建议。 这将是一个非常有用的参数,它允许省略导致错误的图像或对象,这样传入的 pdf 文件,虽然它有不可处理的元素,但可以省略并获得没有这些元素的输出文件,然后作为程序员负责向用户作出这些说明。

enhancement

所有5条评论

这是有道理的。 如何将“忽略导致错误的图像或对象”设置为默认行为,并在发生这种情况时显示日志信息? 谢谢你的建议。

如何将“忽略导致错误的图像或对象”设置为默认行为,并在发生这种情况时显示日志信息?

另外,我认为它很棒,感谢您考虑它。 我会经常使用这个库,所以你会经常看到我,它是最好和最容易使用的,而且我觉得它有很多潜力可以提供更多功能。

我认为可以在_log信息_中显示省略项的以下信息:
Page, type (table, image...) ,并且以某种方式在元素所在的位置留下相应的空白空间,这样即使元素已被省略,页面的顺序或数量也不会发生变化。

我会经常使用这个库,所以你会经常看到我,它是最好和最容易使用的,而且我觉得它有很多潜力可以提供更多功能。

这个库是基于规则的,可以将 pdf 对象映射到 docx,例如一些被水平/垂直线包围的文本 -> docx 中的表格。 有限的规则永远不会适应所有情况,因此肯定有很多潜在的功能/增强功能。 欢迎并感谢让它成长起来,让更多人受益。

页面,类型(表格,图像...),并且以某种方式将相应的空白区域留在元素所在的位置

好点子。 只是一个评论:作为一种用于打印的布局格式,我们从pdf中提取的是文本或图像或形状(如线,矩形)及其在页面中的坐标。 所以,当然,空格被保留,但关于类型,恐怕它只能提供图像,因为pdf不存在“表格”。

欢迎并感谢让它成长起来,让更多人受益。

谢谢,我将使用不同内容的不同文件进行测试,以查看库对每个文件的反应,如果有任何失败,我会将其留在这里(在问题中)提供详细信息。

恐怕它只能提供图像,因为 pdf 不存在“表格”。

当我说“桌子”时,我的意思是这样的:
2020-10-22 12_29_14
虽然我只是觉得那算作简单的线条,对不起,不好的方式来指代它。 同样的思路是,要说被省略的元素类型,除了图像我不知道真正要提到什么类型的元素,但是这个想法已经很清楚了嘿嘿。

好久没时间做这个项目了。 新版本终于在这一刻,大年初一发布了。 :) 它在图像提取方面得到了改进,例如浮动图像和段落格式。 希望在这个问题上取得进展。

pip install --upgrade pdf2docx
此页面是否有帮助?
0 / 5 - 0 等级

相关问题

JoHnTsIm picture JoHnTsIm  ·  7评论

harrylyf picture harrylyf  ·  5评论

startxc picture startxc  ·  4评论

echan00 picture echan00  ·  9评论

prsteel picture prsteel  ·  18评论