import PyPDF4 import pandas as pd # 打开PDF文件并获取第一页 pdf_file = open('1.pdf', 'rb') pdf_reader = PyPDF4.PdfFileReader(pdf_file) page = pdf_reader.getPage(0) # 将PDF页面转换为文本 page_text = page.extractText() # 将文本数据转换为表格数据 table_data = [] for row in page_text.strip().split('\n'): table_data.append([cell.strip() for cell in row.split()]) # 将表格数据转换为pandas DataFrame df = pd.DataFrame(table_data[1:], columns=table_data[0]) # 将DataFrame输出到Excel文件 df.to_excel('example.xlsx', index=False)
时间: 2024-04-27 17:24:50 浏览: 142
PyPDF2读取PDF文件内容保存到本地TXT实例
你的代码看起来没有问题,但是输出的 Excel 文件是空的,这可能是因为从 PDF 文件提取的文本数据没有被正确转换为表格数据。
你可以尝试在转换文本数据为表格数据时,打印出每一行的内容,以便检查是否有数据丢失或格式不正确。你还可以尝试手动创建一个表格数据列表,将每个单元格的值分别添加到列表中,以确保表格数据的正确性。
另外,你可以检查一下输出的 Excel 文件是否已经存在,如果存在的话,可能会导致数据被覆盖或无法写入。你可以尝试将 Excel 文件的路径更改为一个新的文件名,以避免这种情况。
阅读全文