Pdf2docx: рд╕рдВрдкреАрдбрд╝рди рддреНрд░реБрдЯрд┐ -2

рдХреЛ рдирд┐рд░реНрдорд┐рдд 20 рдЕрдХреНрддреВре░ 2020  ┬╖  9рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ  ┬╖  рд╕реНрд░реЛрдд: dothinking/pdf2docx

рдПрдХ рддреНрд░реБрдЯрд┐ рдореЗрдВ рдЪрд▓ рд░рд╣рд╛ рд╣реИ compression error -2 ред рдпрд╣ рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ рд╣реЛрдЧрд╛ рдЕрдЧрд░ рдХреЛрдИ рдХреБрдЫ рд╕рдВрдХреЗрдд рдкреНрд░рджрд╛рди рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рд╣реЛ

рдЗрд╕ рдореБрджреНрджреЗ рдХреЗ рд╕рд╛рде рдкреАрдбреАрдПрдл рд╕рдВрд▓рдЧреНрди рдХрд░реЗрдВ:
5_EN.pdf

рддреНрд░реБрдЯрд┐ рд╕рдВрджреЗрд╢:

Processing Pages: 1/28...mupdf: compression error -2
Traceback (most recent call last):
  File "/Users/erikchan/Downloads/convert.py", line 10, in <module>
    parse(pdf_files[i], docx_files[i])
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/main.py", line 31, in parse
    cv.make_docx(indexes, multi_processing)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/converter.py", line 118, in make_docx
    self._make_docx(page_indexes)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/converter.py", line 192, in _make_docx
    self.initialize(page).parse().make_page(self.doc_docx)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/converter.py", line 172, in initialize
    images, paths = self._paths_extractor.extract_paths(page)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/shape/Path.py", line 61, in extract_paths
    image = largest.to_image(page) if largest.contains_curve else None
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/shape/Path.py", line 140, in to_image
    return ImagesExtractor.clip_page(page, bbox, zoom)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/image/Image.py", line 60, in clip_page
    return cls.to_raw_dict(image, bbox)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/pdf2docx/image/Image.py", line 50, in to_raw_dict
    'image': image.getPNGData()
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/fitz/fitz.py", line 5899, in getPNGData
    barray = self._getImageData(1)
  File "/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/fitz/fitz.py", line 5868, in _getImageData
    return _fitz.Pixmap__getImageData(self, format)
RuntimeError: compression error -2

рд╕рдмрд╕реЗ рдЙрдкрдпреЛрдЧреА рдЯрд┐рдкреНрдкрдгреА

рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ python-docx рд╕рд╛рде рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рддрд╕реНрд╡реАрд░ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдЕрдиреБрд░реЛрдз рд╣реИ, рд╕рд╛рдЭрд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдпрд╣рд╛рдВ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ред

# -*- coding: utf-8 -*-

'''
Implement floating image based on python-docx.

- Text wrapping style: BEHIND TEXT <wp:anchor behindDoc="1">
- Picture position: top-left corner of PAGE `<wp:positionH relativeFrom="page">`.

Create a docx sample (Layout | Positions | More Layout Options) and explore the 
source xml (Open as a zip | word | document.xml) to implement other text wrapping
styles and position modes per `CT_Anchor._anchor_xml()`.
'''

from docx.oxml import parse_xml, register_element_cls
from docx.oxml.ns import nsdecls
from docx.oxml.shape import CT_Picture
from docx.oxml.xmlchemy import BaseOxmlElement, OneAndOnlyOne

# refer to docx.oxml.shape.CT_Inline
class CT_Anchor(BaseOxmlElement):
    """
    ``<w:anchor>`` element, container for a floating image.
    """
    extent = OneAndOnlyOne('wp:extent')
    docPr = OneAndOnlyOne('wp:docPr')
    graphic = OneAndOnlyOne('a:graphic')

    <strong i="7">@classmethod</strong>
    def new(cls, cx, cy, shape_id, pic, pos_x, pos_y):
        """
        Return a new ``<wp:anchor>`` element populated with the values passed
        as parameters.
        """
        anchor = parse_xml(cls._anchor_xml(pos_x, pos_y))
        anchor.extent.cx = cx
        anchor.extent.cy = cy
        anchor.docPr.id = shape_id
        anchor.docPr.name = 'Picture %d' % shape_id
        anchor.graphic.graphicData.uri = (
            'http://schemas.openxmlformats.org/drawingml/2006/picture'
        )
        anchor.graphic.graphicData._insert_pic(pic)
        return anchor

    <strong i="8">@classmethod</strong>
    def new_pic_anchor(cls, shape_id, rId, filename, cx, cy, pos_x, pos_y):
        """
        Return a new `wp:anchor` element containing the `pic:pic` element
        specified by the argument values.
        """
        pic_id = 0  # Word doesn't seem to use this, but does not omit it
        pic = CT_Picture.new(pic_id, filename, rId, cx, cy)
        anchor = cls.new(cx, cy, shape_id, pic, pos_x, pos_y)
        anchor.graphic.graphicData._insert_pic(pic)
        return anchor

    <strong i="9">@classmethod</strong>
    def _anchor_xml(cls, pos_x, pos_y):
        return (
            '<wp:anchor distT="0" distB="0" distL="0" distR="0" simplePos="0" relativeHeight="0" \n'
            '           behindDoc="1" locked="0" layoutInCell="1" allowOverlap="1" \n'
            '           %s>\n'
            '  <wp:simplePos x="0" y="0"/>\n'
            '  <wp:positionH relativeFrom="page">\n'
            '    <wp:posOffset>%d</wp:posOffset>\n'
            '  </wp:positionH>\n'
            '  <wp:positionV relativeFrom="page">\n'
            '    <wp:posOffset>%d</wp:posOffset>\n'
            '  </wp:positionV>\n'                    
            '  <wp:extent cx="914400" cy="914400"/>\n'
            '  <wp:wrapNone/>\n'
            '  <wp:docPr id="666" name="unnamed"/>\n'
            '  <wp:cNvGraphicFramePr>\n'
            '    <a:graphicFrameLocks noChangeAspect="1"/>\n'
            '  </wp:cNvGraphicFramePr>\n'
            '  <a:graphic>\n'
            '    <a:graphicData uri="URI not set"/>\n'
            '  </a:graphic>\n'
            '</wp:anchor>' % ( nsdecls('wp', 'a', 'pic', 'r'), int(pos_x), int(pos_y) )
        )


# refer to docx.parts.story.BaseStoryPart.new_pic_inline
def new_pic_anchor(part, image_descriptor, width, height, pos_x, pos_y):
    """Return a newly-created `w:anchor` element.

    The element contains the image specified by *image_descriptor* and is scaled
    based on the values of *width* and *height*.
    """
    rId, image = part.get_or_add_image(image_descriptor)
    cx, cy = image.scaled_dimensions(width, height)
    shape_id, filename = part.next_id, image.filename    
    return CT_Anchor.new_pic_anchor(shape_id, rId, filename, cx, cy, pos_x, pos_y)


# refer to docx.text.run.add_picture
def add_float_picture(p, image_path_or_stream, width=None, height=None, pos_x=0, pos_y=0):
    """Add float picture at fixed position `pos_x` and `pos_y` to the top-left point of page.
    """
    run = p.add_run()
    anchor = new_pic_anchor(run.part, image_path_or_stream, width, height, pos_x, pos_y)
    run._r.add_drawing(anchor)

# refer to docx.oxml.shape.__init__.py
register_element_cls('wp:anchor', CT_Anchor)


if __name__ == '__main__':

    from docx import Document
    from docx.shared import Inches, Pt

    document = Document()

    # add a floating image
    p = document.add_paragraph()
    add_float_picture(p, 'test.png', width=Inches(5.0), pos_x=Pt(20), pos_y=Pt(30))

    # add text
    p.add_run('Hello World'*50)


    document.save('output.docx')

рд╕рднреА 9 рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

рдЗрд╕ рдорд╛рдорд▓реЗ рдХреЛ рдЙрдкрд▓рдмреНрдз рдХрд░рд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рджред

рдмрд╣реБрдд рд╕рд╛рд░реЗ рд╡реЗрдХреНрдЯрд░ рдЧреНрд░рд╛рдлрд╝рд┐рдХреНрд╕, рдпрд╛рдиреА path рдЬреИрд╕реЗ рд▓рд╛рдЗрди, рдХрд░реНрд╡ рдФрд░ рдЙрдирдХрд╛ рд╕рдВрдпреЛрдЬрди рдЖрдкрдХреА рдкреАрдбреАрдПрдлрд╝ рдореЗрдВ рдореМрдЬреВрдж рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐, рдкреАрдбреАрдПрдл рд╕реЗ рдЗрди рдкрдереЛрдВ рдХреЛ рдирд┐рдХрд╛рд▓рддреЗ рд╕рдордп рддрдХрдиреАрдХреА рд╕рдорд╕реНрдпрд╛ рдХреЗ рдХрд╛рд░рдг рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдХреНрд▓рд┐рдкрд┐рдВрдЧ рдкрде рдХреЛ рдЗрд╕ рдкреБрд╕реНрддрдХрд╛рд▓рдп рджреНрд╡рд╛рд░рд╛ рдЕрдирджреЗрдЦрд╛ рдХрд░ рджрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИред рдХреБрдЫ рдкрде рдмрд┐рдирд╛ рдХреНрд▓рд┐рдк рдХрд┐рдП рдкреГрд╖реНрда рд╕реЗ рдмрд╛рд╣рд░ рд╣реИрдВ, рдЬрд┐рд╕рдХреЗ рдкрд░рд┐рдгрд╛рдорд╕реНрд╡рд░реВрдк рдпрд╣ compression error -2 рд╕рдорд╕реНрдпрд╛ рд╣реИред

рдЗрд╕рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдЗрд╕ рдкреАрдбреАрдПрдл рдХреЛ рдмрджрд▓рдиреЗ рдХреЗ рд▓рд┐рдП рджреЛ рдФрд░ рдореБрджреНрджреЗ:

  • рдкрде рдХрд╛ рд░рдВрдЧ рдЧрд▓рдд рд╣реИред рдореБрдЭреЗ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдореВрд▓ рдХрд╛рд░рдг рдпрд╣ рд╣реИ рдХрд┐ рд╡рд░реНрддрдорд╛рди рдореЗрдВ рдХреЗрд╡рд▓ Device Color Space (рдЧреНрд░реЗ/рдЖрд░рдЬреАрдмреА/рд╕реАрдПрдорд╡рд╛рдИрдХреЗ) рдкрд░ рд╡рд┐рдЪрд╛рд░ рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИ, рдЬрдмрдХрд┐ рдпрд╣ рдкреАрдбреАрдПрдл рдирдореВрдирд╛ Indexed CS , DeviceN CS рдЬреИрд╕реЗ рд╡рд┐рд╢реЗрд╖ рд░рдВрдЧ рд╕реНрдерд╛рди рдХрд╛ рдЕрдиреБрд╕рд░рдг рдХрд░ рд╕рдХрддрд╛ рд╣реИред

  • рдУрд╡рд░рд▓реИрдк рдХреА рдЧрдИ рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рд╣рдЯрд╛ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред python-docx рдкрд░рд┐рд╡рд░реНрддрд┐рдд docx рд▓рд┐рдЦрдиреЗ рдХреЗ рд▓рд┐рдП рд▓рд╛рдЧреВ рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ, рд▓реЗрдХрд┐рди python-docx рдЕрдм рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рддрддреНрд╡реЛрдВ рдХрд╛ рд╕рдорд░реНрдерди рдирд╣реАрдВ рдХрд░рддрд╛ рд╣реИред рддреЛ, рдЕрд╕реНрдерд╛рдпреА рдЫрд╡рд┐рдпреЛрдВ рдХреЛ рдПрдХ рд╕рдордЭреМрддрд╛ рдХреЗ рд░реВрдк рдореЗрдВ рд╣рдЯрд╛ рджрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред

рдЗрд╕рд▓рд┐рдП, рджреБрд░реНрднрд╛рдЧреНрдп рд╕реЗ, pdf2docx рдЕрднреА рдХреЗ рд▓рд┐рдП рдЖрдкрдХреА рдкреАрдбреАрдПрдлрд╝ рдХреЛ рд░реВрдкрд╛рдВрддрд░рд┐рдд рдХрд░рдиреЗ рдореЗрдВ рд╕рдХреНрд╖рдо рдирд╣реАрдВ рд╣реИред рдХрдо рд╕реЗ рдХрдо рдирд┐рдореНрдирд▓рд┐рдЦрд┐рдд рдкреНрд░рдпрд╛рд╕ рдХрд┐рдП рдЬрд╛рдиреЗ рдЪрд╛рд╣рд┐рдП:

  • рдкреАрдбреАрдПрдл рд╕реЗ рдкрде рдирд┐рдХрд╛рд▓рддреЗ рд╕рдордп рдХреНрд▓рд┐рдк рдкрде
  • рдЕрдзрд┐рдХ рд░рдВрдЧ рд╕реНрдерд╛рди рд▓рд╛рдЧреВ рдХрд░реЗрдВ
  • рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдЫрд╡рд┐рдпреЛрдВ рдХрд╛ рдкрд░рд┐рдЪрдп рджреЗрдВ

рд╕реНрдкрд╖реНрдЯ рд╕реНрдкрд╖реНрдЯреАрдХрд░рдг рдХреЗ рд▓рд┐рдП рдзрдиреНрдпрд╡рд╛рдж @dothinking ред рдореБрдЭреЗ рдЖрд╢реНрдЪрд░реНрдп рд╣реИ рдХрд┐ рдпрд╣ рдкреБрд╕реНрддрдХрд╛рд▓рдп рдЗрд╕рд╕реЗ рдЕрдзрд┐рдХ рд▓реЛрдХрдкреНрд░рд┐рдп рдирд╣реАрдВ рд╣реИред рд╡рд░реНрддрдорд╛рди рд╕рдВрд╕реНрдХрд░рдг рдкрд╣рд▓реЗ рд╕реЗ рд╣реА рдмрд╣реБрдд рдЕрдЪреНрдЫрд╛ рд╣реИ рдФрд░ рдореБрдЭреЗ рдкрддрд╛ рд╣реИ рдХрд┐ рдмрд╣реБрдд рд╕реЗ рд▓реЛрдЧ рдЗрд╕рд╕реЗ рд▓рд╛рдн рдЙрдард╛ рд╕рдХрддреЗ рд╣реИрдВред

рдХреГрдкрдпрд╛ рдореБрдЭреЗ рдмрддрд╛рдПрдВ рдХрд┐ рдореИрдВ рдЖрдкрдХреЗ рджреНрд╡рд╛рд░рд╛ рд╕реВрдЪреАрдмрджреНрдз рдХрд┐рд╕реА рднреА рдореБрджреНрджреЗ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдореЗрдВ рдХреИрд╕реЗ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реВрдВ (рдореБрдЭреЗ рдХреБрдЫ рдорд╛рд░реНрдЧрджрд░реНрд╢рди рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реЛрдЧреАред) рдмрдЧ рдХреЛ рд╣рд▓ рдХрд░рдирд╛, рдкрд░реАрдХреНрд╖рдг рдХрд░рдирд╛, рдпрд╛ рдЕрдиреНрдпрдерд╛ред

рдмрд╣реБрдд рдмрд╣реБрдд рдзрдиреНрдпрд╡рд╛рдж @ Echan00ред

рдЗрд╕ рдореБрджреНрджреЗ рдкрд░ рдХреБрдЫ рдкреНрд░рдЧрддрд┐:

  • [x] рдлреНрд▓реЛрдЯрд┐рдВрдЧ рдЗрдореЗрдЬ рд╕рдорд░реНрдерд┐рдд рд╣реИ ред
  • [ ] рдХреНрд▓рд┐рдк рдкрде рдФрд░ рд░рдВрдЧ рд╕реНрдерд╛рди -> рдЕрдЪреНрдЫреА рдЦрдмрд░ рд╣реИ рдХрд┐ рдПрдХ рдФрд░ рдЕрдкрд╕реНрдЯреНрд░реАрдо рд▓рд╛рдЗрдмреНрд░реЗрд░реА PyMuPDF рдиреЗ рдкрде рдирд┐рдХрд╛рд▓рдиреЗ рдкрд░ рдирдИ рд╕реБрд╡рд┐рдзрд╛ рдкреНрд░рдХрд╛рд╢рд┐рдд рдХреАред рдореИрдВ рдЗрд╕реЗ рджреЗрдЦ рд▓реВрдВрдЧрд╛ рдФрд░ рдЙрдореНрдореАрдж рд╣реИ рдХрд┐ рдЗрд╕ рдореБрджреНрджреЗ рдХреЛ рд╣рд▓ рдХрд░ рд╕рдХрддрд╛ рд╣реВрдВред

рдЙрд╕рдХреЗ рдмрд╛рдж, рдХрд┐рд╕реА рднреА рдкрд░реАрдХреНрд╖рдг рдпрд╛ рд╕реБрдЭрд╛рд╡ рдХреА рд╕рд░рд╛рд╣рдирд╛ рдХреА рдЬрд╛рддреА рд╣реИред

2020-12-31 рдкрд░ рдЯрд┐рдкреНрдкрдгреА: рдирд╡реАрдирддрдо PyMuPDF 1.18.5 рдиреЗ рдЗрд╕ рдореБрджреНрджреЗ рдХреЛ рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ рд╣рд▓ рдХрд┐рдпрд╛, рд▓реЗрдХрд┐рди рдкреВрд░реА рддрд░рд╣ рд╕реЗ рдирд╣реАрдВ, рд╡рд┐рд╢реЗрд╖ рд░реВрдк рд╕реЗ рдХреНрд▓рд┐рдкрд┐рдВрдЧ рдкрдеред

рдЪреВрдВрдХрд┐ рдЗрдирд▓рд╛рдЗрди рдЫрд╡рд┐ python-docx рдореЗрдВ рд╕рдорд░реНрдерд┐рдд рд╣реИ, рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдЫрд╡рд┐ рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдиреЗ рдХреЗ рд▓рд┐рдП рдХрджрдо:

  • рджреЛ docx рдлрд╛рдЗрд▓реЗрдВ рдмрдирд╛рдПрдВ, рдПрдХ рдЗрдирд▓рд╛рдЗрди рдЗрдореЗрдЬ рдХреЗ рд╕рд╛рде рдФрд░ рджреВрд╕рд░реА рдлреНрд▓реЛрдЯрд┐рдВрдЧ рдЗрдореЗрдЬ рдХреЗ рд╕рд╛рде (рдЗрд╕ рдорд╛рдорд▓реЗ рдХреЗ рд▓рд┐рдП, behind text рдореЛрдб)
  • рдЗрди рджреЛ рдлрд╛рдЗрд▓реЛрдВ рдХреЗ рдмреАрдЪ рд╕реНрд░реЛрдд рдПрдХреНрд╕рдПрдордПрд▓ рдХреЗ рдЕрдВрддрд░ рдХреА рдЬрд╛рдВрдЪ рдХрд░реЗрдВ
  • рдЗрдирд▓рд╛рдЗрди рдЫрд╡рд┐ рдХреЗ рд▓рд┐рдП рджреЗрдЦреА рдЧрдИ рд╕рдВрд░рдЪрдирд╛ рдФрд░ рдХреЛрдб рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдЫрд╡рд┐ рд▓рд╛рдЧреВ рдХрд░реЗрдВ

рдПрдХреНрд╕рдПрдордПрд▓ рд╕рдВрд░рдЪрдирд╛ рдкрд░рд┐рдгрд╛рдо:

  • рдЗрдирд▓рд╛рдЗрди рдЫрд╡рд┐ <wp:inline> рдиреЛрдб рдХреЗ рдЕрдВрддрд░реНрдЧрдд <w:drawing>
  • рдлреНрд▓реЛрдЯрд┐рдВрдЧ рдЗрдореЗрдЬ <wp:anchor> рдиреЛрдб рдХреЗ рддрд╣рдд <w:drawing>
  • рдЗрдирд▓рд╛рдЗрди рдЫрд╡рд┐ рдХреЗ рд╕рднреА рдЙрдк-рдиреЛрдбреНрд╕ рдХреЗ рдЕрд▓рд╛рд╡рд╛, рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рдЫрд╡рд┐ рдореЗрдВ рдирд┐рд╢реНрдЪрд┐рдд рд╕реНрдерд┐рддрд┐ рдХреЛ рдкрд░рд┐рднрд╛рд╖рд┐рдд рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП <wp:positionH> рдФрд░ <wp:positionV>

рддреЛ, рд╡рд┐рдЪрд╛рд░ <wp:anchor> рдиреЛрдб рдмрдирд╛рдиреЗ рдХрд╛ рд╣реИ, рдлрд┐рд░ рдЙрдк-рдиреЛрдбреНрд╕ рд╕рдВрд▓рдЧреНрди рдХрд░реЗрдВ:

  • рд╕рднреА рдиреЛрдбреНрд╕ рдЗрдирд▓рд╛рдЗрди рдЫрд╡рд┐ рдХреЗ рд╕рд╛рде рд╕рдорд╛рди рд╣реИрдВ
  • <wp:positionH> рдФрд░ <wp:positionV>

рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ python-docx рд╕рд╛рде рдлрд╝реНрд▓реЛрдЯрд┐рдВрдЧ рддрд╕реНрд╡реАрд░ рдПрдХ рд╕рд╛рдорд╛рдиреНрдп рдЕрдиреБрд░реЛрдз рд╣реИ, рд╕рд╛рдЭрд╛ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдпрд╣рд╛рдВ рджрд╕реНрддрд╛рд╡реЗрдЬрд╝ред

# -*- coding: utf-8 -*-

'''
Implement floating image based on python-docx.

- Text wrapping style: BEHIND TEXT <wp:anchor behindDoc="1">
- Picture position: top-left corner of PAGE `<wp:positionH relativeFrom="page">`.

Create a docx sample (Layout | Positions | More Layout Options) and explore the 
source xml (Open as a zip | word | document.xml) to implement other text wrapping
styles and position modes per `CT_Anchor._anchor_xml()`.
'''

from docx.oxml import parse_xml, register_element_cls
from docx.oxml.ns import nsdecls
from docx.oxml.shape import CT_Picture
from docx.oxml.xmlchemy import BaseOxmlElement, OneAndOnlyOne

# refer to docx.oxml.shape.CT_Inline
class CT_Anchor(BaseOxmlElement):
    """
    ``<w:anchor>`` element, container for a floating image.
    """
    extent = OneAndOnlyOne('wp:extent')
    docPr = OneAndOnlyOne('wp:docPr')
    graphic = OneAndOnlyOne('a:graphic')

    <strong i="7">@classmethod</strong>
    def new(cls, cx, cy, shape_id, pic, pos_x, pos_y):
        """
        Return a new ``<wp:anchor>`` element populated with the values passed
        as parameters.
        """
        anchor = parse_xml(cls._anchor_xml(pos_x, pos_y))
        anchor.extent.cx = cx
        anchor.extent.cy = cy
        anchor.docPr.id = shape_id
        anchor.docPr.name = 'Picture %d' % shape_id
        anchor.graphic.graphicData.uri = (
            'http://schemas.openxmlformats.org/drawingml/2006/picture'
        )
        anchor.graphic.graphicData._insert_pic(pic)
        return anchor

    <strong i="8">@classmethod</strong>
    def new_pic_anchor(cls, shape_id, rId, filename, cx, cy, pos_x, pos_y):
        """
        Return a new `wp:anchor` element containing the `pic:pic` element
        specified by the argument values.
        """
        pic_id = 0  # Word doesn't seem to use this, but does not omit it
        pic = CT_Picture.new(pic_id, filename, rId, cx, cy)
        anchor = cls.new(cx, cy, shape_id, pic, pos_x, pos_y)
        anchor.graphic.graphicData._insert_pic(pic)
        return anchor

    <strong i="9">@classmethod</strong>
    def _anchor_xml(cls, pos_x, pos_y):
        return (
            '<wp:anchor distT="0" distB="0" distL="0" distR="0" simplePos="0" relativeHeight="0" \n'
            '           behindDoc="1" locked="0" layoutInCell="1" allowOverlap="1" \n'
            '           %s>\n'
            '  <wp:simplePos x="0" y="0"/>\n'
            '  <wp:positionH relativeFrom="page">\n'
            '    <wp:posOffset>%d</wp:posOffset>\n'
            '  </wp:positionH>\n'
            '  <wp:positionV relativeFrom="page">\n'
            '    <wp:posOffset>%d</wp:posOffset>\n'
            '  </wp:positionV>\n'                    
            '  <wp:extent cx="914400" cy="914400"/>\n'
            '  <wp:wrapNone/>\n'
            '  <wp:docPr id="666" name="unnamed"/>\n'
            '  <wp:cNvGraphicFramePr>\n'
            '    <a:graphicFrameLocks noChangeAspect="1"/>\n'
            '  </wp:cNvGraphicFramePr>\n'
            '  <a:graphic>\n'
            '    <a:graphicData uri="URI not set"/>\n'
            '  </a:graphic>\n'
            '</wp:anchor>' % ( nsdecls('wp', 'a', 'pic', 'r'), int(pos_x), int(pos_y) )
        )


# refer to docx.parts.story.BaseStoryPart.new_pic_inline
def new_pic_anchor(part, image_descriptor, width, height, pos_x, pos_y):
    """Return a newly-created `w:anchor` element.

    The element contains the image specified by *image_descriptor* and is scaled
    based on the values of *width* and *height*.
    """
    rId, image = part.get_or_add_image(image_descriptor)
    cx, cy = image.scaled_dimensions(width, height)
    shape_id, filename = part.next_id, image.filename    
    return CT_Anchor.new_pic_anchor(shape_id, rId, filename, cx, cy, pos_x, pos_y)


# refer to docx.text.run.add_picture
def add_float_picture(p, image_path_or_stream, width=None, height=None, pos_x=0, pos_y=0):
    """Add float picture at fixed position `pos_x` and `pos_y` to the top-left point of page.
    """
    run = p.add_run()
    anchor = new_pic_anchor(run.part, image_path_or_stream, width, height, pos_x, pos_y)
    run._r.add_drawing(anchor)

# refer to docx.oxml.shape.__init__.py
register_element_cls('wp:anchor', CT_Anchor)


if __name__ == '__main__':

    from docx import Document
    from docx.shared import Inches, Pt

    document = Document()

    # add a floating image
    p = document.add_paragraph()
    add_float_picture(p, 'test.png', width=Inches(5.0), pos_x=Pt(20), pos_y=Pt(30))

    # add text
    p.add_run('Hello World'*50)


    document.save('output.docx')

рдЕрдЪреНрдЫрд╛ @dothinking , рдРрд╕рд╛ рд▓рдЧрддрд╛ рд╣реИ рдХрд┐ рдЖрдк рдЬрд╛рдирддреЗ рд╣реИрдВ рдХрд┐ рд╡рд╛рд╕реНрддрд╡ рдореЗрдВ рд╕рдорд╕реНрдпрд╛рдПрдБ рдХреНрдпрд╛ рд╣реИрдВред рдореЗрд░реЗ рдкрд╛рд╕ рдХрдИ рддрд░рд╣ рдХреЗ PDF рд╣реИрдВ, рдЬрдм рдЖрдк рддреИрдпрд╛рд░ рд╣реЛ рдЬрд╛рдПрдВ рддреЛ рдореИрдВ рдкрд░реАрдХреНрд╖рдг рдореЗрдВ рдорджрдж рдХрд░ рд╕рдХрддрд╛ рд╣реВрдВ

@dothinking рдЖрдкрдХреЗ рдХреЛрдб рдирдореВрдиреЗ рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд рдмрд╣реБрдд рдзрдиреНрдпрд╡рд╛рдж! рдореЗрд░реА рд╕рдорд╕реНрдпрд╛ рдХреЛ рдкреВрд░реА рддрд░рд╣ рд╕реЗ рд╣рд▓ рдХрд░рддрд╛ рд╣реИ !!!!

рдЗрддрдиреЗ рджрд┐рдиреЛрдВ рддрдХ рдЗрд╕ рдкреНрд░реЛрдЬреЗрдХреНрдЯ рдХреЗ рд▓рд┐рдП рд╕рдордп рдирд╣реАрдВ рдорд┐рд▓рд╛ред рдЗрд╕ рдореБрджреНрджреЗ рдХреЛ рдЖрдВрд╢рд┐рдХ рд░реВрдк рд╕реЗ рд╣рд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП рдирдпрд╛ рд╕рдВрд╕реНрдХрд░рдг v0.5.0 рдЕрдм рдЙрдкрд▓рдмреНрдз рд╣реИ:

  • рдлреНрд▓реЛрдЯрд┐рдВрдЧ рдЗрдореЗрдЬ рдЕрдм рд╕рдорд░реНрдерд┐рдд рд╣реИред
  • рдкрде рдирд┐рд╖реНрдХрд░реНрд╖рдг рдЕрдкрд╕реНрдЯреНрд░реАрдо рд▓рд╛рдЗрдмреНрд░реЗрд░реА PyMuPDF рджреНрд╡рд╛рд░рд╛ рд╕рдорд░реНрдерд┐рдд рд╣реИ, рд▓реЗрдХрд┐рди рдЬрдЯрд┐рд▓ рдЖрдХреГрддрд┐рдпреЛрдВ, рдЬреИрд╕реЗ рдХреНрд▓рд┐рдкрд┐рдВрдЧ рдкрде рдХреЗ рд▓рд┐рдП рдЗрддрдирд╛ рдЕрдЪреНрдЫрд╛ рдирд╣реАрдВ рд╣реИред

рдЗрд╕ рдирд╡реАрдирддрдо рд╕рдВрд╕реНрдХрд░рдг рдХреЗ рд╕рд╛рде, рдирдореВрдирд╛ рдкреАрдбреАрдПрдл рдХреЛ рд╕рдлрд▓рддрд╛рдкреВрд░реНрд╡рдХ рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдХрд┐рдпрд╛ рдЬрд╛ рд╕рдХрддрд╛ рд╣реИ, рд▓реЗрдХрд┐рди рдЬрдЯрд┐рд▓/рднрд╡реНрдп рд╢реИрд▓реА рдХреЗ рдХрд╛рд░рдг рдкрд░рд┐рд╡рд░реНрддрд┐рдд рдбреЙрдХреНрд╕ рдлрд╝рд╛рдЗрд▓ рдХреА рдЧреБрдгрд╡рддреНрддрд╛ рдореЗрдВ рд╕реБрдзрд╛рд░ рдХреЗ рд▓рд┐рдП рдЕрднреА рднреА рдмрд╣реБрдд рд╕рд╛рд░реЗ рдХрд╛рдо рдХреА рдЖрд╡рд╢реНрдпрдХрддрд╛ рд╣реИред

рд╡рд╛рд╣ рдпрд╣ рдПрдХ рдЕрдЪреНрдЫрд╛ рдЙрдиреНрдирдпрди рд╣реИред рдЖрдкрдХреА рдХрдбрд╝реА рдореЗрд╣рдирдд рдХреЗ рд▓рд┐рдП рдмрд╣реБрдд-рдмрд╣реБрдд рдзрдиреНрдпрд╡рд╛рдж @dothinking

рдХреНрдпрд╛ рдпрд╣ рдкреГрд╖реНрда рдЙрдкрдпреЛрдЧреА рдерд╛?
0 / 5 - 0 рд░реЗрдЯрд┐рдВрдЧреНрд╕

рд╕рдВрдмрдВрдзрд┐рдд рдореБрджреНрджреЛрдВ

JoHnTsIm picture JoHnTsIm  ┬╖  7рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

Jalkhov picture Jalkhov  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

startxc picture startxc  ┬╖  4рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

harrylyf picture harrylyf  ┬╖  5рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ

lukaszb picture lukaszb  ┬╖  14рдЯрд┐рдкреНрдкрдгрд┐рдпрд╛рдБ