一个文件夹里面有多个word文档,把word里面的信息按照类别提取到excel中,用python如何实现。
时间: 2023-05-30 20:05:32 浏览: 185
基于python实现一键将word中的表格提取到excel文件中
5星 · 资源好评率100%
可以使用Python的docx和openpyxl库来实现将Word文档中的信息提取到Excel中。
首先,需要安装这两个库:
```
pip install python-docx
pip install openpyxl
```
然后,可以按照以下步骤实现:
1. 打开Word文档,并读取其中的内容。
```python
import docx
doc = docx.Document('filename.docx')
text = []
for paragraph in doc.paragraphs:
text.append(paragraph.text)
```
2. 根据需要提取的信息类别,使用正则表达式或其他方法筛选出符合条件的内容。
```python
import re
# 提取标题和正文
title = ''
content = ''
for t in text:
if re.match(r'^\d+\.\s', t):
title = t.strip()
else:
content += t.strip()
# 提取姓名和电话号码
name = re.search(r'姓名:(\S+)', content).group(1)
phone = re.search(r'电话:(\d+)', content).group(1)
```
3. 将提取到的信息存储到Excel表格中。
```python
from openpyxl import Workbook
wb = Workbook()
ws = wb.active
# 写入数据
ws.cell(row=1, column=1, value='姓名')
ws.cell(row=1, column=2, value='电话号码')
ws.cell(row=2, column=1, value=name)
ws.cell(row=2, column=2, value=phone)
# 保存文件
wb.save('filename.xlsx')
```
将以上代码整合到一个完整的程序中,就可以批量处理文件夹中的所有Word文档,并将提取到的信息保存到Excel中了。
阅读全文