利用python写一个爬取PDF关键信息的脚本
时间: 2023-12-10 17:40:59 浏览: 75
【原创】爬取Python3.9 中文版教程链接代码—-文科生的python自学之路(4)
好的,那我为您提供一个爬取PDF关键信息的 Python 脚本。
首先,我们需要安装 PyPDF2 和 re 模块,可以使用 pip 安装,命令如下:
```
pip install PyPDF2
```
然后,我们可以编写以下代码:
```python
import PyPDF2
import re
pdf_file = 'example.pdf' # PDF 文件路径
search_string = '关键词' # 搜索的关键词
# 打开 PDF 文件
with open(pdf_file, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
# 获取 PDF 文件的页数
num_pages = pdf_reader.getNumPages()
# 遍历每一页
for page in range(num_pages):
# 获取当前页的内容
page_obj = pdf_reader.getPage(page)
page_text = page_obj.extractText()
# 搜索关键词
if re.search(search_string, page_text):
# 打印页码和内容
print('Page {} contains keyword "{}":\n{}'.format(page+1, search_string, page_text))
```
以上代码会打开指定的 PDF 文件,遍历每一页,搜索指定的关键词,并打印包含关键词的页码和内容。
注意,这种方法只能搜索纯文本内容,如果 PDF 文件中包含图片或其他非文本内容,将无法搜索到。
阅读全文