import PyPDF4 import pandas as pd # 打开PDF文件并获取第一页 pdf_file = open('1.pdf', 'rb') pdf_reader = PyPDF4.PdfFileReader(pdf_file) page = pdf_reader.getPage(0) # 将PDF页面转换为文本 page_text = page.extractText() # 将文本数据转换为表格数据 table_data = [] for row in page_text.strip().split('\n'): table_data.append([cell.strip() for cell in row.split()]) # 将表格数据转换为pandas DataFrame df = pd.DataFrame(table_data[1:], columns=table_data[0]) # 将DataFrame输出到Excel文件 df.to_excel('example.xlsx', index=False)

时间: 2024-04-27 17:24:50 浏览: 142

PyPDF2读取PDF文件内容保存到本地TXT实例

在Python编程环境中，处理PDF文件是一项常见的任务，特别是在数据处理和文档管理方面。PyPDF2是一个强大的库，专为PDF文件的读写和操作而设计。在这个实例中，我们将深入探讨如何使用PyPDF2库来读取PDF文件的内容并将其保存到本地的TXT文件。我们导入必要的库，包括PyPDF2和pandas。`PdfFileReader`是PyPDF2的核心类，用于打开和读取PDF文件。而pandas在这里的作用是将提取出的文本数据结构化，便于后续处理。 ```python from PyPDF2.pdf import PdfFileReader import pandas as pd ``` `Pdf_to_txt`函数是实现PDF到TXT转换的主要逻辑。它遍历PDF中的每一页，使用`getPage`方法获取页面内容，并调用`extractText`方法提取文本。提取的文本通常是以`\n`分隔的多行，因此可以使用`split`方法将其拆分为列表。然后，根据行数将文本数据存储到不同的列表中，这里假设每一页最多有8行。这个结构可能适用于特定格式的PDF文件，但不是所有PDF文件都符合这种格式。对于更通用的解决方案，可以考虑不预先定义行数，而是动态地处理文本。 ```python def Pdf_to_txt(pdf): for i in range(0, pdf.getNumPages()): # ... (提取文本的代码) ``` 接着，创建一个DataFrame来存储每一页的数据，并将其保存为TXT文件。DataFrame允许我们以表格形式存储数据，方便处理。使用`to_csv`方法将DataFrame写入TXT文件，设置`index=False`表示不写入索引，`sep='\t'`设置字段间的分隔符为制表符。 ```python df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8']) file_name = title[0] + '_page' + str((i + 1)) df.to_csv('tool/pdf解析/%s.txt' % file_name, index=False, sep='\t') ``` `if __name__ == '__main__':`确保这段代码只在当前脚本运行时执行，而不是作为模块被导入时。它打开指定路径的PDF文件，创建`PdfFileReader`对象，并调用`Pdf_to_txt`函数处理文件。关于补充知识部分，提到了使用PyPDF2进行PDF页面删除的操作。这通常涉及到创建一个新的PDF文件，不包含要删除的页面。创建一个新目录来存储拆分的单页PDF，然后使用`PdfFileReader`和`PdfFileWriter`分别读取和写入PDF。通过`removePage`方法移除指定页码的页面，最后使用`write`方法将更新后的PDF写入新的文件。 ```python # ... (创建新目录的代码) def pdf_pages_remove(input_path, output_path, pages_to_remove): with open(input_path, "rb") as file: reader = PyPDF2.PdfFileReader(file) writer = PyPDF2.PdfFileWriter() for page_num in range(reader.numPages): if page_num not in pages_to_remove: writer.addPage(reader.getPage(page_num)) with open(output_path, "wb") as new_file: writer.write(new_file) ``` 总结来说，这个实例展示了如何使用PyPDF2库读取PDF文件的内容并将其转换为TXT格式，以及如何通过PyPDF2进行PDF页面的删除操作。这些功能在处理大量PDF文档时非常有用，尤其是在需要提取文本、清理数据或调整PDF结构的场景下。

你的代码看起来没有问题，但是输出的 Excel 文件是空的，这可能是因为从 PDF 文件提取的文本数据没有被正确转换为表格数据。你可以尝试在转换文本数据为表格数据时，打印出每一行的内容，以便检查是否有数据丢失或格式不正确。你还可以尝试手动创建一个表格数据列表，将每个单元格的值分别添加到列表中，以确保表格数据的正确性。另外，你可以检查一下输出的 Excel 文件是否已经存在，如果存在的话，可能会导致数据被覆盖或无法写入。你可以尝试将 Excel 文件的路径更改为一个新的文件名，以避免这种情况。

阅读全文

相关推荐

2014年数学建模比赛成绩PDF转EXCEL解决方案

pandas.read_csv参数全面解读与实用示例

PyPDF2读取PDF文件内容保存到本地TXT实例

Python实现pdf转Excel.zip

【自动化测试速成】：在vcsmx_ucli.pdf文档中应用自动化提升效率

【文档转换大师】：pypdf2将PDF转换为其他格式的秘诀

【自动化工作流构建者】：pypdf2在PDF处理中的应用

PDFMiner打开pdf文件，并转换成excel（含图片，格式）

python解析pdf文件成Excel，提取PDF中的标题字段和内容，并对生成的Excel进行保存

用python将pdf文件转为txt文件

python将提取的数据导出_独家 | 手把手教你如何用Python从PDF文件中导出数据

Python 读取PDF文件中的信息，填写到Excel文件单元格中

提取目录中所有PDF文件中的产品类别、组织状态、适用人群，保存到data.excel中，代码

帮我写一个脚本，将指定文件夹内的PDF文件转换成excel表格文件，表格运行时选择指定文件夹

python获取pdf内容文字，只存储名字和身份证号到表格

python获取pdf内容文字，只存储名字和身份证号到表格 其他多余文字全部去掉

最新推荐

基于freeRTOS和STM32F103x的手机远程控制浴室温度系统设计源码

Windows平台下的Fastboot工具使用指南

管理建模和仿真的文件

DLMS规约深度剖析：从基础到电力通信标准的全面掌握

修改代码，使其正确运行

Python机器学习基础入门与项目实践

"互动学习：行动中的多样性与论文攻读经历"

【Shell脚本进阶】：wc命令行数统计的高级用法及解决方案

python编写一个程序，使得根据输入的起点和终点坐标值计算出坐标方位角

Achilles-2 原始压缩包内容解密

python获取pdf内容文字，只存储名字和身份证号到表格其他多余文字全部去掉