Python操作PDF：提取信息、旋转、合并、拆分与加密 - CSDN文库

14 浏览量更新于2024-08-30 收藏 100KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要介绍了如何使用Python的PyPDF2库进行PDF文件的各种操作，包括提取文档信息、旋转页面、合并PDF、拆分PDF、添加水印以及加密PDF。此外，还提到了PyPDF2的历史及其与PyPDF4的关系，以及另一个替代库pdfrw的功能和安装PyPDF2的方法。在Python中处理PDF文件时，PyPDF2是一个非常实用的纯Python包，它允许开发者执行多种高级任务。PyPDF2自2010年起源于pyPdf，增加了对Python3的支持，但在最新的PyPDF4中，与PyPDF2存在一定的不兼容性。然而，对于大多数基础操作，两者可以互换使用。文章中提到的pdfrw库，由PatrickMaupin开发，能完成与PyPDF2相似的任务，而且特别的是，它与ReportLab库集成，使用户能够利用现有的PDF页面构建新的PDF文件。 PyPDF2的安装简单，通过pip命令即可完成，如`pip install PyPDF2`。一旦安装完毕，用户就可以开始使用PyPDF2提供的各种功能： 1. 提取PDF文档信息：可以获取PDF的元数据，如作者、标题、创建日期等。 2. 旋转页面：对于角度不对齐的页面，可以方便地进行90度、180度或270度的旋转。 3. 合并PDF：多个PDF文件可以合并成一个，这对于整理文档非常有用。 4. 拆分PDF：可以从一个PDF中提取出个别页面，创建新的PDF文件。 5. 添加水印：可以在PDF页面上添加文本或图像水印，增强文档的安全性和美观性。 6. 加密PDF：可以设置密码保护，限制他人对PDF的查看、编辑和打印权限。在实际应用中，开发者可以根据需求选择PyPDF2或pdfrw，这两个库都能提供强大的PDF处理能力。不过，对于特定的加密操作，pdfrw可能更胜一筹，因为它能够处理加密的PDF文件。 Python的PDF处理库如PyPDF2和pdfrw为开发者提供了强大的工具，使得在程序中处理PDF文件变得轻而易举。无论是简单的信息提取还是复杂的页面操作，都能借助这些库轻松实现。通过学习和掌握这些工具，可以极大地提高工作效率，满足多样化的文档管理需求。

资源详情

资源推荐

Python玩转玩转PDF的各种骚操作的各种骚操作

Portable Document Format（可移植文档格式），或者PDF是一种文件格式，可以用于跨操作系统的呈现和文档交换。尽管

PDF最初是由Adobe发明的，但它现在是由国际标准化组织（ISO）维护的开放标准。你可以通过使用PyPDF2包在Python中

处理已先存在的PDF。

PyPDF2是一个纯Python包，可用于许多不同类型的PDF操作。

本文将带你了解如何执行以下操作：

从Python中提取PDF中的文档信息

旋转页面

合并PDF

拆分PDF

添加水印

加密PDF

一、一、pyPdf，，PyPDF2和和PyPDF4的历史的历史

最初的pyPdf软件包于2005年发布。pyPdf的最后一个正式版本是在2010年。大约一年后，一家名为Phasit的公司赞助了一个

名为PyPDF2的pyPdf分支。该代码编写为向后与原始代码兼容，并且用了好多年，效果一直很好，其最后一个版本是在2016

年。

有一个名为PyPDF3的软件包简短系列版本，然后该项目被重命名为PyPDF4。所有这些项目都完全相同，但pyPdf和PyPDF2

+之间的最大区别在于后者版本增加了Python 3支持。Python 3的原始pyPdf有一个不同的Python 3分支，但是这个分支已经多

年没有维护了。

虽然最近放弃了PyPDF2，但新的PyPDF4与PyPDF2没有完全的向后兼容性。本文中的大多数示例都可以与PyPDF4完美配

合，但也有一些不能，这就是为什么PyPDF4在本文中没有更多的特色。随意用PyPDF4替换PyPDF2的导入，看看它是如何

工作的。

二、二、pdfrw：一个替代的：一个替代的PDF操作包操作包

Patrick Maupin创建了一个名为pdfrw的软件包，它可以完成许多与PyPDF2相同的工作。除了加密的特殊情况外，本文后面提

到PyPDF2的所有操作，pdfrw均可以实现。

pdfrw的最大区别在于它与ReportLab软件包集成，因此你可以使用一些或所有预先存在的PDF构建一个新的PDF。

三、三、PyPDF2的安装的安装

如果使用Anaconda而不是常规Python，可以使用pip或conda安装PyPDF2。以下是使用pip安装PyPDF2的方法：

$ pip install pypdf2

由于PyPDF2没有任何依赖，因此安装非常快。

四、如何从四、如何从Python中提取中提取PDF文档信息文档信息

我们可以使用PyPDF2从PDF中提取元数据和一些文本，尤其是当在预先存在的PDF文件上执行某些类型的自动化时是非常有

用的。

以下是当前可以提取的数据类型：

Author

Creator

Producer

Subject

Title

Number of page

可以在自己的电脑上随便找一个PDF文件进行尝试操作。下面是使用该PDF编写一些代码，并了解如何访问这些属性：

from PyPDF2 import PdfFileReader

def extract_information(pdf_path):

with open(pdf_path, 'rb') as f:

pdf = PdfFileReader(f)

information = pdf.getDocumentInfo()

number_of_pages = pdf.getNumPages()

txt = f"""

Information about {pdf_path}:

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38717980

粉丝: 7
资源: 893

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈