Python快速处理PDF表格数据技巧

155 浏览量更新于2023-03-16 1 收藏 45KB PDF 举报

本文主要介绍了如何使用Python的pdfplumber模块来处理和提取PDF文档中的表格数据，并将其转换为DataFrame格式。首先，需要通过命令行工具安装pdfplumber库，然后导入必要的模块，包括pdfplumber和pandas。接着，使用`with`语句打开PDF文件，选取指定页面，通过调用`extract_text()`方法验证是否成功获取内容，再使用`extract_table()`（或`extract_tables()`）来提取表格数据。提取的数据以列表形式返回，需要进一步转换为DataFrame。在处理过程中要注意，PDF表格中的数据不应有换行，且表格必须有边框，否则可能无法正确识别。当需要批量处理多页表格时，可以通过for循环遍历PDF的所有页面，依次提取并合并数据。在批量处理多页表格的示例中，创建一个空的DataFrame，然后逐页读取PDF文件，对每一页执行相同的操作，将提取到的数据添加到总DataFrame中。这样，所有页面的表格数据都将被整合到一个统一的数据结构中，方便后续的数据分析和处理工作。这个方法对于处理包含大量表格信息的PDF文档非常实用，能够有效地自动化数据提取流程，提高工作效率。

基于基于Python快速处理快速处理PDF表格数据表格数据

我们有下面一张PDF格式存储的表格，现在需要使用Python将它提取出来。

使用Python提取表格数据需要使用pdfplumber模块，打开CMD，安装代码如下：

pip install pdfplumber

安装完之后，将需要使用的模块导入

import pdfplumberimport pandas as pd

然后打开PDF文件

# 使用with语句打开pdf文件

with pdfplumber.open("D:\python\cai\yq.pdf") as pdf:

# pages[0]表示取第1页

page = pdf.pages[0]

我们来打印输出下获取到的文本，这句语句只是帮我们验证下是否成功获取到PDF里的内容

print(page.extract_text())

执行的结果如下，看来是成功了

然后可以使用extract_table()函数获取表格，如果有多个表格，可以使用extract_tables()函数，就是多了个s

d1=page.extract_table()

执行代码后，将得到一个列表，还不是数据框

所以最后一步就是将列表转为数据框就可以了，代码如下：

df = pd.DataFrame(d1[1:], columns=d1[0])

执行代码后，将得到了df数据框

有几个注意事项要提醒下：

1.pdf表格中的数据，对于同一个数据或内容，不要有换行，如果换行，可能被识别为2个数据；

2.pdf中的表格一定要有边框，没有边框的话，否则使用extract_table()函数就无法获取表格数据，extract_text()还是可以获取

文本信息的，不要问我是怎么知道的，说多了都是泪。

我们现在有一份PDF数据，里面有三页，每页都有一样数据结构但数据不同的数据表，现在需要使用Python将它批量提取出

来。

有了上回经验，我们就直接上代码：

import pdfplumber

import pandas as pd

# 创建一个空数据框

df = pd.DataFrame()

# 使用with语句打开pdf文件

with pdfplumber.open("D:\python\cai\5.pdf") as pdf:

# 使用for循环遍历每个pages

for page in pdf.pages:

# 取出当前页表格，结果为列表

d=page.extract_table()

# 将列表转为数据框

df1 = pd.DataFrame(d[1:], columns=d[0])

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38651812

粉丝: 3
资源: 935

Python快速处理PDF表格数据技巧

Python-Camelot一个可以轻松地从PDF文件中提取表格的Python库

python+opencv 读取文件夹下的所有图像并批量保存ROI的方法

Python从PDF中提取表格

使用Python快速提取PDF表格数据的实践指南

python处理pdf文件小程序：基于python实现的pdf处理工具完整源码分享给需要的同学

基于python，提取pdf中涉及到的相关表格

基于python实现的pdf处理工具完整源码

军事体育训练中基于Python的大数据处理.pdf

Python提取pdf不规则表格数据

Python读PDF表格

最新资源