用python3.11写一个脚本,在windows系统中根据关键字实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码
时间: 2024-02-05 19:11:01 浏览: 68
好的,你需要安装PyPDF2模块,可以通过pip安装。以下是实现该功能的Python脚本:
```python
import os
import re
import PyPDF2
# 定义关键字和文件夹路径
keywords = ['keyword1', 'keyword2', 'keyword3']
folder_path = r'C:\folder_path'
# 遍历文件夹下所有PDF文档并搜索关键字
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith('.pdf'):
file_path = os.path.join(root, file)
pdf_file = open(file_path, 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历PDF文档中所有页面
for page_num in range(pdf_reader.getNumPages()):
page_obj = pdf_reader.getPage(page_num)
text = page_obj.extractText().lower()
# 搜索关键字并输出结果
for keyword in keywords:
if re.search(keyword, text):
print('文件名:', file)
print('页码:', page_num+1)
print('关键字:', keyword)
print('--------------------------')
pdf_file.close()
```
你需要修改 `keywords` 和 `folder_path` 变量为你自己的值。该脚本会遍历指定文件夹下所有PDF文件,搜索关键字并输出包含关键字的文件名、页码和关键字。
阅读全文