python提取docx里面的文本图片
时间: 2023-10-02 14:05:30 浏览: 303
docx转换pdf或者图片的极简小工具
可以使用Python中的`python-docx`库来提取docx文件中的文本和图片。下面是一个简单的示例代码:
```python
import docx
# 打开docx文件
doc = docx.Document('example.docx')
# 提取文本
text = []
for para in doc.paragraphs:
text.append(para.text)
# 提取图片
images = []
for img in doc.inline_shapes:
if img.has_picture:
images.append(img)
# 输出结果
print(text)
print(images)
```
需要注意的是,该代码仅能提取docx文件中的内嵌图片,不能提取嵌入式图片。如果需要提取嵌入式图片,可以使用`zipfile`库来解压docx文件,然后提取其中的图片。
阅读全文