用python写一个脚本,在windows系统中根据关键字实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码
时间: 2024-02-03 10:11:48 浏览: 85
可以使用Python中的PyPDF2库来实现该功能。以下是一个示例脚本,它将遍历指定文件夹中的所有PDF文件,并在其中搜索指定关键字。对于每个匹配,它将显示文件名和页码。
```python
import os
import PyPDF2
# 设置要搜索的文件夹路径和关键字
folder = "C:\\path\\to\\folder"
keyword = "example"
# 遍历文件夹中的所有PDF文件
for filename in os.listdir(folder):
if filename.endswith(".pdf"):
filepath = os.path.join(folder, filename)
with open(filepath, "rb") as f:
# 打开PDF文件
pdf = PyPDF2.PdfFileReader(f)
# 遍历所有页面
for page in range(pdf.getNumPages()):
# 获取页面文本
text = pdf.getPage(page).extractText()
# 搜索关键字
if keyword in text:
# 显示匹配
print(f"{filename}, page {page+1}")
```
注意,这个脚本是在Python 3中编写的,因此可能需要进行一些修改以适应Python 2。此外,可能需要安装PyPDF2库,可以使用以下命令进行安装:
```bash
pip install PyPDF2
```
阅读全文