展示一个提取批量TXT格式文件并已excel方式输出关键字和文档名的phthon代码
时间: 2024-05-10 16:13:51 浏览: 87
【精品小工具】Excel批量关键字替换Word工具
5星 · 资源好评率100%
以下是一个示例代码,可以满足您的需求:
```
import os
import glob
import pandas as pd
import docx2txt # 如果有 .docx 文件需要解析,需要安装此模块
# 定义需要提取的关键词列表,可以根据实际需求修改
keywords = ['关键词1', '关键词2', '关键词3']
# 定义输出 excel 文件的路径和文件名
output_path = 'output.xlsx'
# 创建一个空 DataFrame,用于存储提取结果
result_df = pd.DataFrame(columns=['文件名', '关键词'])
# 获取所有的 txt 文件路径
txt_files = glob.glob('*.txt')
# 遍历所有的 txt 文件,提取关键词并添加到 DataFrame 中
for txt_file in txt_files:
with open(txt_file, 'r', encoding='utf-8') as f:
content = f.read()
for keyword in keywords:
if keyword in content:
result_df = result_df.append({'文件名': txt_file, '关键词': keyword}, ignore_index=True)
# 如果有需要,还可以解析 .docx 文件。需要安装 docx2txt 模块。
docx_files = glob.glob('*.docx')
for docx_file in docx_files:
content = docx2txt.process(docx_file)
for keyword in keywords:
if keyword in content:
result_df = result_df.append({'文件名': docx_file, '关键词': keyword}, ignore_index=True)
# 将 DataFrame 输出到 excel 文件中
result_df.to_excel(output_path, index=False)
```
请注意,这段代码是示例代码,如果需要根据实际需求进行修改。如果在使用过程中遇到问题,请随时联系我。
阅读全文