用python3.11写一个脚本,在windows系统中根据关键字实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码,写入word文档
时间: 2024-02-05 13:11:09 浏览: 61
一个基于Python的简单的用于抓取以及下载页面中pdf文件的爬虫脚本+源代码+文档说明
好的,首先你需要安装Python的docx库和PyPDF2库,可以通过以下命令进行安装:
```
pip install python-docx PyPDF2
```
接下来,你可以使用以下代码实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码,并将结果写入word文档。
```python
import os
import re
import docx
import PyPDF2
# 定义需要遍历的文件夹路径和关键字
folder_path = r"C:\Users\Administrator\Documents\pdf"
keyword = "Python"
# 新建一个word文档
doc = docx.Document()
doc.add_heading("PDF文档中包含关键字的页面", 0)
# 遍历文件夹中的所有pdf文档
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith(".pdf"):
# 读取pdf文档内容
pdf_file = open(os.path.join(root, file), "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历pdf文档中的所有页面,查找关键字
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
text = page.extractText()
# 如果页面中包含关键字,将结果写入word文档
if re.search(keyword, text, re.IGNORECASE):
doc.add_paragraph("文件名:{}".format(file))
doc.add_paragraph("页码:{}".format(page_num + 1))
doc.add_paragraph("内容:{}".format(text))
doc.add_paragraph("")
# 将结果保存到word文档
doc.save("result.docx")
```
你需要将文件夹路径和关键字替换为你自己的路径和关键字。运行脚本后,会在当前目录下生成一个名为"result.docx"的word文档,其中包含了所有包含关键字的pdf文档的文件名、页码和内容。
阅读全文