如何从Python中读取并提取docx文档中的文本附件作为纯文本文件?
时间: 2024-12-14 08:16:31 浏览: 15
在Python中,我们可以使用`python-docx`库来读取.docx文档,并将其中的文本提取出来。以下是一个简单的步骤:
1. 首先,你需要安装`python-docx`库,如果你还没有安装,可以使用pip进行安装:
```bash
pip install python-docx
```
2. 然后,你可以使用以下代码来打开并提取文本附件:
```python
from docx import Document
def extract_text_from_docx(file_path):
# 打开docx文件
doc = Document(file_path)
# 初始化一个空字符串来存储所有文本
text = ''
# 遍历每个段落
for paragraph in doc.paragraphs:
text += paragraph.text + '\n'
# 对于包含表格、图片等非文字元素的段落,我们需要处理其运行的内容(runs):
for element in doc.element.body.iter(Runner):
if isinstance(element, Run):
text += element.text + '\n'
return text
# 使用函数提取文件中的文本
file_to_extract = "example.docx"
extracted_text = extract_text_from_docx(file_to_extract)
# 将文本保存到新的纯文本文件
with open("extracted_text.txt", "w", encoding="utf-8") as f:
f.write(extracted_text)
```
这个脚本会提取出.docx文档中所有的文本内容,包括段落和基于Run的内容。
阅读全文