利用python写一个爬取指定文件夹里所有PDF文件中的关键信息的脚本
时间: 2023-12-14 22:38:18 浏览: 192
可以使用 Python 的 PyPDF2 库来读取 PDF 文件,并使用正则表达式来匹配关键信息。以下是一个示例脚本:
```python
import os
import re
import PyPDF2
# 指定文件夹路径和关键信息的正则表达式
folder_path = '/path/to/folder'
regex = r'关键词1|关键词2'
# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
filepath = os.path.join(folder_path, filename)
if not os.path.isfile(filepath) or not filename.endswith('.pdf'):
continue
# 打开 PDF 文件并读取内容
with open(filepath, 'rb') as f:
pdf_reader = PyPDF2.PdfFileReader(f)
content = ''
for page in pdf_reader.pages:
content += page.extractText()
# 使用正则表达式匹配关键信息
matches = re.findall(regex, content)
if matches:
print(filename, matches)
```
这个脚本将遍历指定文件夹中的所有 PDF 文件,读取其内容并使用正则表达式匹配关键信息。如果找到了匹配的关键信息,将打印出文件名和匹配结果。
阅读全文