Pdf2docx: エラーの原因となるアイテムをスキップする

作成日 2020年10月21日 · 5コメント · ソース: dothinking/pdf2docx

今のところ、フローティング画像を処理する方法がないと仮定しましょう。_拡張機能_として、_将来の更新_について小さな推奨事項を作成したいと思います。エラーの原因となる画像やオブジェクトを省略できるパラメータは非常に便利です。これにより、受信するpdfファイルは処理できない要素が含まれていますが、省略してこれらの要素なしで出力ファイルを取得し、プログラマーとして1つ取得できます。ユーザーにこれらの説明を行う責任があります。

enhancement

ソース

Jalkhov

全てのコメント5件

意味あり。「エラーの原因となる画像やオブジェクトを省略する」をデフォルトの動作として設定し、これが発生したときにログ情報を表示するのはどうですか？あなたの提案をありがとう。

dothinking 2020年10月22日

❤1

「エラーの原因となる画像やオブジェクトを省略する」をデフォルトの動作として設定し、これが発生したときにログ情報を表示するのはどうですか？

また、それを考慮に入れてくれてありがとう、それは素晴らしいことだと思います。私はこのライブラリを頻繁に使用するので、私をよく見ることができます。これは最も使いやすく、最も使いやすく、より多くの機能の可能性がたくさんあると感じています。

省略された項目について、以下の情報を_loginformation_に表示できると思います。
ページ、タイプ（テーブル、画像...） 、および要素があった場所にそれぞれの空白スペースが残っているため、要素が省略されていても、ページの順序や数に変更はありません。

Jalkhov 2020年10月22日

👍1

私はこのライブラリを頻繁に使用するので、私をよく見ることができます。これは最も使いやすく、最も使いやすく、より多くの機能の可能性がたくさんあると感じています。

このライブラリは、pdfオブジェクトをdocxにマップするためのルールベースです。たとえば、水平/垂直線で囲まれた一部のテキスト-> docxのテーブル。限られたルールがすべてのケースに対応するわけではないので、間違いなく多くの潜在的な機能/拡張機能があります。より多くの人々に利益をもたらすことができるように、それを成長させてくれてありがとう。

ページ、タイプ（テーブル、画像...）、そしてどういうわけか、要素があった場所にそれぞれの空白が残っている

いい視点ね。ただ1つのコメント：印刷用のレイアウト形式として、PDFから抽出するのは、テキスト、画像、または形状（線、長方形など）とページ内のそれらの座標です。したがって、もちろん空白は保持されますが、タイプに関しては、pdfの「テーブル」が存在しないため、画像を提供することしかできないのではないかと思います。

dothinking 2020年10月22日

より多くの人々に利益をもたらすことができるように、それを成長させてくれてありがとう。

おかげで、私はライブラリがそれぞれにどのように反応するかを確認するために、さまざまな内容のさまざまなファイルでテストし、障害が発生した場合は、詳細情報とともにここに（問題で）残しておきます。

PDFの「テーブル」が存在しないため、画像を提供できるのではないかと思います。

私が「テーブル」と言ったとき、私は次のようなことを意味しました：
2020-10-22 12_29_14
それは単純な行として数えられると感じましたが、申し訳ありませんが、それを参照するのは悪い方法です。同じように、省略された要素の

Jalkhov 2020年10月22日

長い間、このプロジェクトに時間を割くことができませんでした。正月初日、ついに新バージョンがリリースされました。 :)フローティング画像や段落形式など、画像の抽出が改善されます。この問題で進歩を遂げることを望んでいます。

pip install --upgrade pdf2docx

dothinking 2020年12月31日

❤1

このページは役に立ちましたか？

0 / 5 - 0 評価

Pdf2docx: エラーの原因となるアイテムをスキップする

全てのコメント5件

関連する問題