# -- coding: utf-8 -- import PyPDF2 import sys import io # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' print(s) # 打开PDF文件 pdf_file = open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') # 创建一个PDF读取器对象 pdf_reader = PyPDF2.PdfFileReader(pdf_file) # 打印PDF文件头信息 pdf_info = pdf_reader.getDocumentInfo() print('PDF文件头信息：') for key, value in pdf_info.items(): try: print(f'{key}: {value}') except UnicodeEncodeError: print(f'{key}: {" ".join(value.split())}') # 打印PDF文件体信息 for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) print(f'第{page_num+1}页的内容：\n{page.extractText()}') # 打印PDF交叉引用表信息 print('PDF交叉引用表信息：\n', pdf_reader.xref) # 打印PDF文件尾信息 print('PDF文件尾信息：', pdf_reader.trailer) # 关闭PDF文件 pdf_file.close()上述代码改写成用pdfminer

时间: 2024-02-11 22:06:18 浏览: 179

可以使用pdfminer库来代替PyPDF2完成相同的功能。下面是相应的代码： ```python import io from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.layout import LAParams, LTTextBoxHorizontal from pdfminer.converter import TextConverter import sys # 创建一个文本输出流，包装标准输出 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8') # 打印包含特殊字符的字符串 s = 'PDF文件头信息：\xae' print(s) # 打开PDF文件 pdf_file = open('x1/2023凯程333教育综合应试解析-外国教育史(OCR).pdf', 'rb') # 创建一个PDF解析器对象 parser = PDFParser(pdf_file) # 创建一个PDF文档对象 document = PDFDocument(parser) # 检查文档是否可用 if not document.is_extractable: raise PDFTextExtractionNotAllowed # 创建一个PDF资源管理器对象 rsrcmgr = PDFResourceManager() # 创建一个PDF设备对象 device = TextConverter(rsrcmgr, io.StringIO(), laparams=LAParams()) # 创建一个PDF解释器对象 interpreter = PDFPageInterpreter(rsrcmgr, device) # 打印PDF文件头信息 print('PDF文件头信息：') for key, value in document.info[0].items(): try: print(f'{key}: {value}') except UnicodeEncodeError: print(f'{key}: {" ".join(value.split())}') # 打印PDF文件体信息 for page in PDFPage.create_pages(document): interpreter.process_page(page) layout = device.get_result() for element in layout: if isinstance(element, LTTextBoxHorizontal): print(element.get_text()) # 关闭PDF文件 pdf_file.close() ``` 需要注意的是，pdfminer库输出的文本可能会比PyPDF2的结果有所不同，因为它使用了不同的解析算法。此外，pdfminer库也提供了更多的解析选项和功能。

阅读全文

相关推荐

tensorflow实现GoogLeNet-InceptionV1

paddle实现GoogLeNet-InceptionV1

Python设置默认编码为utf8的方法

【调试与诊断编码错误】：深入分析和处理UTF-8与GB2312转换错误

递归输出控制：处理嵌套数据结构的最佳实践

JT-808协议实时数据传输优化：降低延迟与提升效率的策略

【海思Hi3798M-V200音频处理的艺术】：顶级音质体验打造指南

Git钩子与自定义工作流：增强团队协作能力

【i.MX6ULL音视频处理能力挖掘】：编解码与流媒体技术实战

【Python Black问题解答】：遇到困难时的8个解决方案

【字符串编码深度解析】：Python3与cv2中文路径兼容性全解

【音频播放器DIY教程】：一步一图教你用audioread打造播放器

python输出结果中文乱码

英文Windows环境下，python3.x 怎么用print输出中文

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

（参考GUI）MATLAB GUI漂浮物垃圾分类检测.zip

人脸识别_OpenCV_活体检测_证件照拍照_Demo_1741778955.zip

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

智慧园区3D可视化解决方案PPT(24页).pptx

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

前端代理配置config.js配置proxyTable多个代理不生效

最小二乘法程序深入解析与应用案例

SAR点目标仿真应用指南：案例研究与系统设计实战

eclipse为项目配置jdk

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载