用python写一个脚本,根据关键字实现遍历某文件夹下所有pdf文档,找到pdf文档中包含关键字的文件名称、页码
时间: 2024-02-03 18:11:47 浏览: 144
好的,可以使用Python的第三方库PyPDF2来实现读取PDF文件并提取文本内容。以下是一个示例脚本,可以根据关键字遍历指定文件夹下的所有PDF文件,查找包含关键字的页码:
```python
import os
import PyPDF2
# 定义要查找的文件夹路径和关键字
folder_path = '/path/to/folder'
search_keyword = 'keyword'
# 遍历文件夹下的所有PDF文件
for filename in os.listdir(folder_path):
if filename.endswith('.pdf'):
pdf_file = open(os.path.join(folder_path, filename), 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历PDF文件中的每一页
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
# 提取当前页的文本内容
text = page.extractText()
# 判断当前页是否包含关键字
if search_keyword in text:
print(f'Found keyword "{search_keyword}" in file "{filename}", page {page_num+1}')
pdf_file.close()
```
其中,`os.listdir(folder_path)`会返回指定文件夹下的所有文件和文件夹名称,`if filename.endswith('.pdf')`会筛选出所有以`.pdf`结尾的文件。然后使用`PyPDF2.PdfFileReader`打开PDF文件,并通过`getNumPages()`获取PDF文件中的页数。接着遍历每一页,使用`getPage()`获取当前页的`Page`对象,并使用`extractText()`方法提取当前页的文本内容。最后判断当前页是否包含关键字,如果包含则打印出对应的文件名和页码。
阅读全文