Python PyPDF2模块解析PDF并保存为TXT教程

2 浏览量更新于2024-08-31 收藏 59KB PDF 举报

"使用Python的PyPDF2库读取PDF文件内容，并将其保存到本地的TXT文件中的实例" 在Python编程中，处理PDF文件时，我们可能会遇到需要提取PDF文件的文字内容并保存到其他格式，比如TXT。PyPDF2是一个非常有用的库，专门用于处理PDF文档，它提供了读取、合并、分割PDF文件等功能。在这个实例中，我们将讨论如何使用PyPDF2将PDF文件的内容转换为TXT格式并存储到本地。首先，我们需要导入必要的库。`PyPDF2.pdf`模块包含我们需要的`PdfFileReader`类，用于读取PDF文件。另外，我们还导入了`pandas`库，虽然在这个例子中不是必需的，但被用来创建DataFrame以便更好地组织和处理提取的数据。代码中定义了一个名为`Pdf_to_txt`的函数，它接受一个PDF文件对象作为参数。函数通过遍历PDF的每一页，使用`getPage`方法获取页面内容，并调用`extractText`方法来提取页面上的文本。需要注意的是，`extractText`返回的文本是以换行符分隔的字符串。提取的文本被分割成多个列表，每个列表对应于不同的行。这里假设每页最多有8行，因此创建了8个空列表（lin1到lin8）。然后，遍历文本中的每一行，并根据行号将其分配到相应的列表中。当行号超过8时，列表将不再接收新的元素。接下来，计算最后一行（lin8）的长度（`Lin_num`），这将用于限制其他列表的长度，以确保所有列表都有相同的行数。之后，创建一个DataFrame（`df`），其中列名是`Lin1`到`Lin8`，数据来自之前创建的行列表。DataFrame的创建是为了方便后续处理，但在这个例子中，它实际上并未用于进一步的操作。最后，将标题（第一行）的首个元素与当前页面的页码结合，生成一个文件名，例如`'title_page1'`，然后使用`to_csv`方法将DataFrame保存为CSV文件。尽管这里的例子中没有明确指定，通常会将此CSV文件进一步处理，转换为TXT文件，或者直接从提取的文本生成TXT文件。这个实例提供了一个基础框架，但实际操作中可能需要进行优化，因为`extractText`方法提取的文本可能包含不规则的格式，如额外的空格或不完整的行。此外，对于多列或多段落的PDF，这种方法可能不足以准确地捕获结构。为了处理更复杂的PDF，可以考虑使用其他库，如`pdfminer`，它提供了更精细的文本提取控制。这个实例为从PDF到TXT的基本转换提供了一个起点，但可能需要根据具体需求进行调整。

PyPDF2读取读取PDF文件内容保存到本地文件内容保存到本地TXT实例实例

主要介绍了PyPDF2读取PDF文件内容保存到本地TXT实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

我就废话不多说了，大家还是直接看代码吧！

from PyPDF2.pdf import PdfFileReader

import pandas as pd

def Pdf_to_txt(pdf):

for i in range(0, pdf.getNumPages()):

title = []

lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []

extractedText = pdf.getPage(i).extractText()

text = extractedText.split('')

num = 0

for lin in text:

if num == 0:

title.append(lin)

elif num == 1:

lin1.append(lin)

elif num == 2:

lin2.append(lin)

elif num == 3:

lin3.append(lin)

elif num == 4:

lin4.append(lin)

elif num == 5:

lin5.append(lin)

elif num == 6:

lin6.append(lin)

elif num == 7:

lin7.append(lin)

elif num == 8:

lin8.append(lin)

num = 0

num += 1

Lin_num = len(lin8)

data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}

df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])

file_name = title[0] + '_page' + str((i + 1))

df.to_csv('tool/pdf解析/%s.txt' % file_name, index=False, sep=' ')

if __name__ == '__main__':

filename = 'E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf'

pdf = PdfFileReader(open(filename, "rb"))

Pdf_to_txt(pdf)

补充知识：补充知识：使用使用PyPDF2库对库对pdf文件进行指定页面删除操作文件进行指定页面删除操作

平台：win10家庭版，python 3.7，PyPDF2

思维过程：

方法一：方法一：将pdf文件通过拆分为单页，放入一个文件夹，再删除其中不要的文件，最后再把剩余的文件进行合并为一个pdf文件

第一步：使用原文件路径创建新文件夹，用于存放拆分后的单页文件

def newdir(self,path):

self.new = os.path.splitext(path)[0]

if not os.path.isdir(self.new): #使用os.path.isdir判断文件夹是否存在，

os.mkdir(self.new)

第二步：生成单页文件，并存放到新建的文件夹

def pdfsplt(self,path):

if os.path.isfile(path):

file_1 = open(path,"rb")

file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示

#使用for循环读取每一页并将其写入新pdf文件，文件以页码命名

for page in range(0,file_reader.getNumPages()):

file_write = PyPDF2.PdfFileWriter()

pageobj = file_reader.getPage(page)

file_write.addPage(pageobj)

output = str(self.new) + "\" + str(int(page+1)) + ".pdf"

with open(output,"wb") as output_pdf:

file_write.write(output_pdf)

file_1.close()

else:

print("文件不存在！")

time.sleep(3)

exit()

第三步：删除文件夹中不要的文件

def pdfremove(self,number):

for pag in number:

filename = str(self.new) + "\\" + str(pag) + ".pdf"

if os.path.isfile(filename):

os.unlink(filename)

else:

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38688352

粉丝: 4
资源: 909

Python PyPDF2模块解析PDF并保存为TXT教程

使用PyPDF2将PDF逐页转换为TXT并分段存储

Python pypdf2库：合并、分割及加密PDF的实战指南

使用Python为PDF文件高效添加标签的方法

Python利用PyPDF2库获取PDF文件总页码实例

【性能优化专家】：pypdf2处理大型PDF文件的策略

【PDF信息管理师】：使用pypdf2轻松读写PDF元数据

【PDF文件结构解析】：使用pypdf2深入挖掘PDF内部秘密

Python中使用pypdf2合并、分割、加密pdf文件的代码详解

Python实现截取PDF文件中的几页代码实例

Python如何把多个PDF文件合并代码实例

最新资源