Pdf2docx: Ignorer les éléments qui provoquent des erreurs

Créé le 21 oct. 2020  ·  5Commentaires  ·  Source: dothinking/pdf2docx

Supposons que pour l'instant il n'y a aucun moyen de traiter les images flottantes, comme _amélioration_ je voudrais faire une petite recommandation pour les _mises à jour futures_. Ce serait très utile un paramètre qui permet d'omettre les images ou les objets qui provoquent des erreurs, et de sorte que le fichier pdf entrant, bien qu'il contienne des éléments non traitables, puisse être omis et obtenir le fichier de sortie sans ces éléments, puis un en tant que programmeur est responsable d'apporter ces précisions à l'utilisateur.

enhancement

Tous les 5 commentaires

C'est logique. Que diriez-vous de définir « omettre les images ou les objets qui provoquent des erreurs » comme comportement par défaut et d'afficher les informations du journal lorsque cela se produit ? Merci pour votre suggestion.

Que diriez-vous de définir « omettre les images ou les objets qui provoquent des erreurs » comme comportement par défaut et d'afficher les informations du journal lorsque cela se produit ?

Aussi, je pense que c'est génial, merci d'avoir pris cela en considération. J'utiliserai beaucoup cette bibliothèque, donc vous me verrez beaucoup, c'est la meilleure et la plus facile à utiliser et je pense qu'elle a beaucoup de potentiel pour plus de fonctionnalités.

Je pense que les informations suivantes sur les éléments omis peuvent être affichées dans les _informations de journal_ :
Page, tapez (table, image...) , et que d'une manière ou d'une autre l' espace blanc respectif est laissé là où se trouvait l'élément, de cette façon même si des éléments ont été omis, il n'y aura aucun changement dans l'ordre ou le nombre de pages.

J'utiliserai beaucoup cette bibliothèque, donc vous me verrez beaucoup, c'est la meilleure et la plus facile à utiliser et je pense qu'elle a beaucoup de potentiel pour plus de fonctionnalités.

Cette bibliothèque est basée sur des règles pour mapper des objets pdf à docx, par exemple des textes entourés de lignes horizontales/verticales -> un tableau dans docx. Les règles limitées ne s'adaptent jamais à tous les cas, donc certainement beaucoup de fonctionnalités/améliorations potentielles. Bienvenue et merci de le faire grandir, afin qu'il puisse profiter à plus de gens.

Page, tapez (table, image...), et que d'une manière ou d'une autre l'espace vide respectif est laissé là où l'élément était

Bon point. Juste un commentaire : en tant que format de mise en page pour l'impression, ce que nous extrayons du pdf est soit du texte, soit une image, soit une forme (comme une ligne, un rectangle) et leurs coordonnées dans la page. Donc, bien sûr, l'espace vide est conservé, mais en ce qui concerne le type, je crains qu'il ne puisse fournir une image uniquement car aucun "tableau" n'existe pour le pdf.

Bienvenue et merci de le faire grandir, afin qu'il puisse profiter à plus de gens.

Merci, je vais tester avec différents fichiers avec des contenus différents pour voir comment la bibliothèque réagit à chacun et s'il y a un échec, je le laisserai ici (dans les problèmes) avec les informations détaillées.

Je crains qu'il ne puisse fournir une image uniquement car aucune "table" n'existe pour le pdf.

Quand j'ai dit "table", je voulais dire des choses comme ça :
2020-10-22 12_29_14
Même si je viens de sentir que cela compte comme de simples lignes , désolé, c'est une mauvaise façon de faire référence à cela. De la même manière l'idée est que, pour dire le type d'élément qui a été omis, je ne sais pas en vérité quel type d'élément mentionner à part une image, mais l'idée est déjà claire hehe.

Je n'ai pas eu le temps de ce projet depuis si longtemps. Une nouvelle version est enfin sortie à ce moment, le premier jour du Nouvel An. :) Il s'améliore sur l'extraction d'image, par exemple l'image flottante et le format de paragraphe. J'espère faire des progrès sur cette question.

pip install --upgrade pdf2docx
Cette page vous a été utile?
0 / 5 - 0 notes

Questions connexes

harrylyf picture harrylyf  ·  5Commentaires

startxc picture startxc  ·  4Commentaires

JoHnTsIm picture JoHnTsIm  ·  7Commentaires

echan00 picture echan00  ·  9Commentaires

jakoch picture jakoch  ·  3Commentaires