python读取word文档,如何识别其中的图片文件,并将图片文件保存到硬盘后,从word文档中删除该图片

文件？您好，很高兴为您解答问题。针对您的问题，我们可以通过 Python 中的第三方库 python-docx 来读取和处理 Word 文档中的内容。具体步骤如下： 1. 使用 python-docx 库打开 Word 文档，获取所有的图片对象。 2. 遍历所有图片对象，获取图片内容并保存到本地硬盘。 3. 删除 Word 文档中的对应图片。具体代码如下： ```python import os from docx import Document from docx.enum.dml import MSO_THEME_COLOR_INDEXES from docx.enum.text import WD_BREAK_TYPE from docx.oxml import OxmlElement from docx.oxml.ns import nsdecls from docx.oxml.xmlchemy import OneAndOnlyOne from docx.shared import Cm, RGBColor, Pt # 设置图片保存目录 SAVE_DIR = './img' # 获取所有图片对象 def get_images(document): images = [] for paragraph in document.paragraphs: for run in paragraph.runs: for inline in run._element.iterdescendants(tag='inline'): if inline.tag.endswith('graphic'): for graphic in inline.iterdescendants(tag='graphic'): for pic in graphic.iterdescendants(tag='pic'): for blip in pic.iterdescendants(tag='blip'): if blip.attrib.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed'): images.append(blip) return images # 保存图片到本地硬盘 def save_image(blip): # 创建图片目录 if not os.path.exists(SAVE_DIR): os.makedirs(SAVE_DIR) # 打开 Word 文档文件，获取图片内容 with open('document.xml.rels', 'r') as f: rels = f.read() rel_id = blip.attrib.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed') filename = f'{SAVE_DIR}/{rel_id}.png' with open(filename, 'wb') as img: img.write(rels.encode('utf-8')) return filename # 删除 Word 文档中的图片 def delete_image(document, blip): parent = blip.getparent() parent.getparent().remove(parent) p = OxmlElement('w:p') p.addprevious(parent) document.element.body.insert(0, p) for child in parent.iter(): if child.tag.endswith('table'): child_index = parent.index(child) p.insert(child_index+1, child) break parent.clear_content() # 主函数，读取 Word 文档中的图片并保存到本地硬盘 def process_word_doc(file): # 打开 Word 文档 document = Document(file) # 获取所有图片对象 images = get_images(document) # 保存图片到本地硬盘并删除 Word 中的图片 for blip in images: filename = save_image(blip) delete_image(document, blip) # 保存修改后的 Word 文档 document.save(file) if __name__ == '__main__': process_word_doc('test.docx') ``` 需要注意的是，代码只能处理 Word 文档中嵌入的图片，无法处理链接的图片。另外，为了保证代码的可用性，我们仅保存了图片的二进制数据，并未对图片做任何格式转换。如果需要将图片转换成其他格式，可以使用 PIL 等第三方库进行处理。

阅读全文

python读取word文档,如何识别其中的图片文件,并将图片文件保存到硬盘后,从word文档中删除该图片

相关推荐

Python自动化提取Word文档中的图片与文件

Python实现PDF转Word批量操作，附源码及图片转文件教程

Python实现Word文档自动化：批量插入图片与表格

python读取word文档,如何识别其中的表格,并把表格转换成jpg图片文件,保存到硬盘中,并从word文件中删除该表格

python读取word文档,如何识别其中的表格,并把表格转换成jpg图片文件,保存到硬盘中

python读取word文档,如何识别其中的表格,并把表格转换成文件,保存到硬盘中

python读取word文档,遍历每一个段落,查看其中有没有图片,如果有保存到硬盘,请给出代码

python读取word文档,遍历每一个段落,查看其中有没有jpeg格式图片,如果有保存到硬盘,请给出代码

python读取word文档,遍历每一个段落,查看其中有没有一个不确定格式的图片,如果有保存到硬盘,请给出代码

利用python批量修改word文件名的方法示例

python gensim

基于Python的图片匹配系统：智能化根据文字索引找到对应图片

【Word文档意外关闭快速恢复】：专家提供一招即刻恢复未保存文档的技巧

【Word文档恢复秘籍】：专家分享的7个步骤，瞬间解决关闭不提示保存问题

【文件预览小技巧】：在Python中利用tkFileDialog实现高效预览功能

【Python库文件学习之Twitter与Web框架】：Web应用构建者，将Twitter数据嵌入你的Web项目

【硬盘数据恢复秘籍】：从RAW文件系统挽救丢失数据的专家策略

【文档恢复秘籍】：.doc文件损坏真相大揭秘及修复方法

【文件系统深度剖析】：X-ways Forensics数据识别与提取

vue3实现word，pdf，docx文件的上传保存到后端本地服务器

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

饿了么后端项目+使用VUE+Servlet+AJAX技术开发前后端分离的Web应用程序。

微软--项目管理软件质量控制实践篇（一）（二）（三）

chfenger-Waverider-master0_乘波体_

840D的PLC功能块FB2和FB3读写NC系统变量

最新推荐

使用python批量读取word文档并整理关键信息到excel表格的实例

python读取目录下所有的jpg文件,并显示第一张图片的示例

Python实现读取txt文件中的数据并绘制出图形操作示例

Python读取excel中的图片完美解决方法

python查找重复图片并删除（图片去重）

CentOS 6下Percona XtraBackup RPM安装指南

【K-means与ISODATA算法对比】：聚类分析中的经典与创新

jupyter notebook没有opencv

QandAs问卷平台：基于React和Koa的在线调查工具

RLE编码与解码原理：揭秘BMP图像处理的关键步骤，提升解码效率