你好,我这里有很多个pdf文件,我需要提取出各个pdf文件中出现了多少次数学化这三个词,你能帮我写一个相关的代码吗
时间: 2023-03-28 19:01:49 浏览: 94
你好,我可以帮你写一个相关的代码。你需要使用 Python 编程语言和 PyPDF2 库来读取 PDF 文件并搜索关键词。以下是一个示例代码:
```python
import PyPDF2
# 定义要搜索的关键词
keywords = ['数学', '化', '三']
# 定义一个函数来搜索关键词
def search_keywords(pdf_file):
# 打开 PDF 文件
with open(pdf_file, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
# 遍历 PDF 文件的每一页
for page in range(pdf_reader.getNumPages()):
# 获取当前页的文本内容
text = pdf_reader.getPage(page).extractText()
# 搜索关键词并计数
count = sum([text.count(keyword) for keyword in keywords])
# 输出结果
print(f'{pdf_file} 第{page+1}页中出现了{count}次关键词')
# 调用函数搜索所有 PDF 文件
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
for pdf_file in pdf_files:
search_keywords(pdf_file)
```
你可以将上面的代码保存为一个 Python 文件,然后将要搜索的 PDF 文件放在同一个目录下,运行代码即可。
阅读全文