首页利用python写一个爬取指定文件夹里所有PDF文件中的关键信息的脚本

利用python写一个爬取指定文件夹里所有PDF文件中的关键信息的脚本

时间: 2023-12-14 22:38:18 浏览: 192

可以使用 Python 的 PyPDF2 库来读取 PDF 文件，并使用正则表达式来匹配关键信息。以下是一个示例脚本： ```python import os import re import PyPDF2 # 指定文件夹路径和关键信息的正则表达式 folder_path = '/path/to/folder' regex = r'关键词1|关键词2' # 遍历文件夹中的所有文件 for filename in os.listdir(folder_path): filepath = os.path.join(folder_path, filename) if not os.path.isfile(filepath) or not filename.endswith('.pdf'): continue # 打开 PDF 文件并读取内容 with open(filepath, 'rb') as f: pdf_reader = PyPDF2.PdfFileReader(f) content = '' for page in pdf_reader.pages: content += page.extractText() # 使用正则表达式匹配关键信息 matches = re.findall(regex, content) if matches: print(filename, matches) ``` 这个脚本将遍历指定文件夹中的所有 PDF 文件，读取其内容并使用正则表达式匹配关键信息。如果找到了匹配的关键信息，将打印出文件名和匹配结果。

阅读全文