如何使用Python编写代码来批量读取Word文档中的文字内容?
时间: 2024-11-12 13:39:31 浏览: 52
在Python中,你可以使用`python-docx`库来读取Word文档中的文本内容。这是一个专门处理Microsoft Word .docx文件的库。以下是基本步骤:
首先,你需要安装这个库,可以使用pip来安装:
```bash
pip install python-docx
```
然后,你可以通过下面的代码来批量读取Word文档中的文本:
```python
from docx import Document
def read_word_documents(file_list):
for file_name in file_list:
document = Document(file_name) # 加载Word文档
content = '\n'.join([para.text for para in document.paragraphs]) # 遍历所有段落并收集文本
print(f"文件 {file_name} 的内容:")
print(content)
# 要读取的Word文档列表
file_list = ['document1.docx', 'document2.docx']
read_word_documents(file_list)
```
这段代码会打开每个指定的Word文档,提取出所有的文本,并将它们打印出来。如果文档中有表格、图表等非文本元素,`paragraphs`属性只会获取到纯文本部分。
阅读全文