用python语言写一个多个word里的内容提取到excel表中
时间: 2023-05-30 21:05:18 浏览: 259
这个任务可以分为以下几个步骤:
1. 导入必要的库
```python
import os
import docx
import pandas as pd
```
2. 定义函数从word文件中提取内容
```python
def extract_text_from_docx(path):
"""
从word文件中提取文本内容
:param path: 文件路径
:return: 文件内容
"""
doc = docx.Document(path)
text = ''
for para in doc.paragraphs:
text += para.text
return text
```
3. 定义函数将提取的内容保存到excel表中
```python
def save_to_excel(data, output_path):
"""
将数据保存到excel表中
:param data:数据
:param output_path:输出路径
"""
df = pd.DataFrame(data)
df.to_excel(output_path, index=False)
```
4. 定义主函数,遍历指定文件夹中的所有word文件,并提取其内容保存到excel表中
```python
def main(input_path, output_path):
"""
主函数
:param input_path:输入路径
:param output_path:输出路径
"""
data = []
for file_name in os.listdir(input_path):
if file_name.endswith('.docx'):
file_path = os.path.join(input_path, file_name)
text = extract_text_from_docx(file_path)
data.append({'file_name': file_name, 'text': text})
save_to_excel(data, output_path)
```
5. 调用主函数,指定输入路径和输出路径
```python
if __name__ == '__main__':
input_path = 'input_folder' # 替换为输入路径
output_path = 'output.xlsx' # 替换为输出路径
main(input_path, output_path)
```
完成上述步骤后,运行代码即可将多个word文件中的内容提取到一个excel表中。注意需要先安装docx和pandas库。
阅读全文