基于Python的发票批量识别并录入到Excel表格

时间: 2023-08-10 09:04:35 浏览: 236

python批量提取pdf表格与文字

5星 · 资源好评率100%

根据给定的文件标题、描述、标签以及部分内容，本文将详细介绍如何使用Python批量提取PDF文件中的文字和表格数据。此方法适用于非图像化的、未加密的PDF文件。 ### Python批量提取PDF文字 #### 关键技术点 - **库介绍**：`pdfplumber` 是一个用于读取PDF文件的Python库，它可以轻松地读取和解析PDF中的文本和表格数据。 - **文档操作**：`python-docx` 库用于创建、修改Microsoft Word文档（.docx）。 #### 代码详解 ```python # 导入库 import pdfplumber import docx # 创建Word文档对象 wdoc = docx.Document() # 打开PDF文件 with pdfplumber.open("我的笔记.pdf") as wpdf: # 遍历PDF的每一页 for page in wpdf.pages: # 提取当前页的文字内容 text = page.extract_text() # 将提取的文字添加到Word文档中 wdoc.add_paragraph(text) # 插入新页 wdoc.add_page_break() # 保存Word文档 wdoc.save('我的笔记.docx') ``` #### 运行流程 1. **导入所需库**：使用`pdfplumber`读取PDF文件，使用`python-docx`创建和编辑Word文档。 2. **打开PDF文件**：通过`pdfplumber.open()`函数打开指定的PDF文件。 3. **提取文本**：使用`extract_text()`方法从每一页中提取文本内容。 4. **添加到Word文档**：利用`add_paragraph()`方法将提取的文本逐段添加至Word文档，并用`add_page_break()`插入新页以分隔不同页面的内容。 5. **保存文档**：最后调用`save()`方法保存Word文档。 ### Python批量提取PDF表格 #### 关键技术点 - **表格数据处理**：`pandas` 是一款强大的数据分析工具，常用于处理表格数据。 #### 代码详解 ```python # 导入库 import pdfplumber import pandas as pd # 创建DataFrame对象 df = pd.DataFrame() # 打开PDF文件 with pdfplumber.open("2020云南大学录取名单.pdf") as pdf: # 遍历PDF的每一页 for page in pdf.pages: # 提取当前页的表格 tb = page.extract_table() # 将表格转换为DataFrame df1 = pd.DataFrame(tb[1:], columns=tb[0]) # 合并数据 df = df.append(df1) # 保存到Excel文件 df.to_excel("2020云南大学录取名单.xlsx", sheet_name="Sheet1", index=False) ``` #### 运行流程 1. **导入所需库**：使用`pdfplumber`读取PDF文件，使用`pandas`进行数据处理和保存。 2. **打开PDF文件**：通过`pdfplumber.open()`函数打开指定的PDF文件。 3. **提取表格**：使用`extract_table()`方法从每一页中提取表格数据。 4. **转换为DataFrame**：将提取的数据转换为`pandas.DataFrame`格式。 5. **合并数据**：将每一页的表格数据合并至总表中。 6. **保存到Excel**：最后调用`to_excel()`方法将DataFrame保存为Excel文件。 ### 总结本文详细介绍了如何使用Python的`pdfplumber`和`pandas`等库来批量提取PDF文件中的文字和表格数据，并将这些数据分别保存为Word文档和Excel文件。这种方法非常适合处理大量的PDF文档，尤其是在需要对数据进行进一步分析或整理时非常有用。此外，文中还提供了完整的示例代码，以便读者可以直接复制使用或根据实际需求进行修改扩展。

要实现基于Python的发票批量识别并录入到Excel表格，需要以下步骤： 1. 安装OCR库：在Python中，可以使用Tesseract、PyOCR等OCR库进行文字识别。需要先安装相应的OCR库和语言包。 2. 批量读取发票图片：使用Python中的os库批量读取指定文件夹下的所有发票图片。 3. 图片预处理：对于不同的图片，需要进行不同的预处理，包括二值化、去噪、切割等。 4. 文字识别：使用OCR库对图片进行文字识别，获取发票的信息。 5. 将信息写入Excel表格：使用Python中的pandas库将发票信息写入Excel表格。下面是一个简单的代码示例： ```python import os import pytesseract import cv2 import pandas as pd # 设置OCR库路径 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' # 读取发票图片 img_folder = r'C:\invoices' img_files = os.listdir(img_folder) # 定义数据框 data = pd.DataFrame(columns=['Invoice Number', 'Date', 'Amount']) # 循环处理每张图片 for img_file in img_files: # 读取图片 img_path = os.path.join(img_folder, img_file) img = cv2.imread(img_path) # 图片预处理 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) ret, thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU) kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3, 3)) opened = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel) # 文字识别 text = pytesseract.image_to_string(opened, lang='chi_sim') # 解析发票信息 invoice_number = '' date = '' amount = '' # TODO: 根据实际情况解析发票信息 # 将信息添加到数据框 data = data.append({'Invoice Number': invoice_number, 'Date': date, 'Amount': amount}, ignore_index=True) # 将数据框写入Excel表格 data.to_excel('invoices.xlsx', index=False) ``` 需要注意的是，发票信息的解析需要根据实际情况进行调整，例如需要根据发票的格式进行切割和匹配。

阅读全文

基于Python的发票批量识别并录入到Excel表格

相关推荐

Python批量导出大数据到Excel的openpyxl实践

如何使用Python批量将图片插入Excel并格式化

基于python实现把json数据转换成Excel表格

基于python脚本批量删除excel指定列和指定行

基于python实现语音录入识别代码实例

python批量提取PDF中的表格到Excel文档

excel批量处理表格,如何批量处理excel表格,Python源码.zip

基于python的人脸识别

Python获取数据库数据并保存在excel表格中的方法

基于python代码批量处理图片resize

基于Python实现调用人工智能识别表格

基于python的人脸识别程序

基于Python的车牌识别系统

基于python使用xlrd和xlwt 读写考勤 excel表格，并进行数据统计，输出统计结果表格+源码（毕业设计&课程设计&项目开发）

基于Python的Excel表格数据指标分析折线图设计源码

基于Python的人脸识别设计源码

基于python手写数字识别系统源码

基于python的图像识别.zip

python操作Excel表格函数包_excel常用函数

最新推荐

基于Python的一个自动录入表格的小程序

Python脚本操作Excel实现批量替换功能

基于Python+Open CV的手势识别算法设计

基于python的人体状态识别

使用matlab或python将txt文件转为excel表格

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包