Pdf2docx: Pular itens que causam erros

Criado em 21 out. 2020 · 5Comentários · Fonte: dothinking/pdf2docx

Vamos supor que por enquanto não há como processar as imagens flutuantes, como um _melhor_, gostaria de fazer uma pequena recomendação para _atualizações futuras_. Seria muito útil um parâmetro que permitisse omitir as imagens ou objetos que causam erros, e para que o arquivo pdf recebido, embora contenha elementos não processáveis, possa ser omitido e obter o arquivo de saída sem esses elementos, e depois um como programador é responsável por fazer esses esclarecimentos ao usuário.

enhancement

Fonte

Jalkhov

Todos 5 comentários

Isso faz sentido. Que tal definir "omitir as imagens ou objetos que causam erros" como um comportamento padrão e mostrar as informações de log quando isso acontecer? Obrigado por sua sugestão.

dothinking em 22 out. 2020

❤1

Que tal definir "omitir as imagens ou objetos que causam erros" como um comportamento padrão e mostrar as informações de log quando isso acontecer?

Além disso, acho ótimo, obrigado por levar isso em consideração. Vou usar muito esta biblioteca, então você vai me ver bastante, é a melhor e mais fácil de usar e acho que tem muito potencial para mais recursos.

Acho que as seguintes informações dos itens omitidos podem ser mostradas nas _informações do log_:
Página, tipo (tabela, imagem ...) , e que de alguma forma o respectivo espaço em branco seja deixado onde estava o elemento, desta forma mesmo que os elementos tenham sido omitidos não haverá alteração na ordem ou no número de páginas.

Jalkhov em 22 out. 2020

👍1

Vou usar muito esta biblioteca, então você vai me ver bastante, é a melhor e mais fácil de usar e acho que tem muito potencial para mais recursos.

Esta biblioteca é baseada em regras para mapear objetos PDF para docx, por exemplo, alguns textos cercados por linhas horizontais / verticais -> uma tabela em docx. As regras limitadas nunca acomodam todos os casos, então, definitivamente, muitos recursos / aprimoramentos potenciais. Bem-vindo e obrigado por fazer crescer, para que possa beneficiar mais pessoas.

Página, tipo (tabela, imagem ...), e de alguma forma o respectivo espaço em branco é deixado onde o elemento estava

Bom ponto. Apenas um comentário: como formato de layout para impressão, o que extraímos do pdf é texto, imagem ou forma (como uma linha, um retângulo) e suas coordenadas na página. Então, é claro, o espaço em branco é preservado, mas em relação ao tipo, receio que ele possa fornecer apenas imagem, já que não existe uma 'tabela' para o pdf.

dothinking em 22 out. 2020

Bem-vindo e obrigado por fazer crescer, para que possa beneficiar mais pessoas.

Obrigado, estarei testando com arquivos diferentes com conteúdos distintos para ver como a biblioteca reage a cada um e se houver alguma falha estarei deixando aqui (em fascículos) com as informações detalhadas ..

Infelizmente, ele pode fornecer apenas imagens, já que não existe nenhuma 'tabela' para PDF.

Quando eu disse "mesa", quis dizer coisas assim:
2020-10-22 12_29_14
Embora eu apenas tenha percebido que isso conta como linhas simples , desculpe, péssima maneira de se referir a isso. Da mesma forma a ideia é que, para dizer o tipo de elemento que foi omitido, não sei ao certo que tipo de elemento citar além de uma imagem, mas a ideia já é clara hehe.

Jalkhov em 22 out. 2020

Não tive tempo para este projeto por muito tempo. Uma nova versão foi lançada finalmente neste momento, primeiro dia do Ano Novo. :) É aprimorado na extração de imagens, por exemplo, imagem flutuante e formato de parágrafo. Espero fazer progressos nesta questão.