paddleocr 的result = ocr.ocr(str(img_path))，中result格式是什么

时间: 2023-11-04 10:04:42 浏览: 137

paddleocr使用介绍

### PaddleOCR 使用介绍 #### 一、PaddleOCR 简介 PaddleOCR 是一个基于百度飞桨（PaddlePaddle）框架构建的开放源代码光学字符识别（OCR）工具库。它具备轻量化的特点，总模型大小仅为8.6MB，非常适合于资源受限的环境。该工具库不仅能够识别中文、英文以及数字的组合，还支持竖排文本识别与长文本识别等功能。此外，PaddleOCR 集成了多种先进的文本检测和文本识别算法，例如 PP-OCR 和 PP-Structure 等，这些算法经过优化，适用于工业级场景。 #### 二、安装与配置 ##### 1. Python 安装首先需要确保系统中已安装 Python 3.8 或更高版本。可以通过以下命令检查当前安装的 Python 版本： ``` python --version ``` ##### 2. 配置 Python 源为了加快 Python 包的下载速度，可以配置使用清华大学提供的镜像源： ``` pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple ``` ##### 3. CUDA 安装 (可选) 如果需要使用 GPU 加速功能，则需要安装 NVIDIA 的 CUDA 工具包。具体步骤可以参考官方文档。 ##### 4. 安装 PaddlePaddle 安装 PaddlePaddle 可以选择 CPU 版本或者 GPU 版本。CPU 版本的安装命令为： ``` pip install paddlepaddle ``` 若需要 GPU 支持，则安装命令为： ``` pip install paddlepaddle-gpu ``` ##### 5. 安装 PaddleOCR 安装 PaddleOCR 的命令如下： ``` pip install "paddleocr>=2.0.1" ``` 在某些情况下，可能会遇到依赖包 shapely 的安装问题。此时可以从以下链接下载预编译好的 whl 文件： - [https://www.lfd.uci.edu/~gohlke/pythonlibs/#shapely](https://www.lfd.uci.edu/~gohlke/pythonlibs/#shapely) 根据自己的 Python 版本（例如 3.8），下载对应的 .whl 文件，然后使用 pip 进行安装： ``` pip install d:\download\Shapely-1.8.2-cp38-cp38-win_amd64.whl ``` #### 三、使用方法 ##### 1. 修改配置文件在 Python 的安装目录中找到 `paddleocr.py` 文件，并使用编辑器打开。需要对文件中的第 64 行和第 799 行进行必要的修改以适应实际应用场景的需求。 ##### 2. 命令行使用示例通过命令行方式使用 PaddleOCR 进行 OCR 识别： ``` paddleocr --image_dir F:\data\ppocr_img\imgs\11.jpg --use_angle_cls true --use_gpu false ``` 其中，`--image_dir` 参数指定了待识别图像的路径；`--use_angle_cls` 设置为 `true` 表示启用角度分类；`--use_gpu` 设置为 `false` 表示不使用 GPU 加速。 ##### 3. 编写 Python 脚本同样地，也可以通过编写 Python 脚本来实现 OCR 功能： ```python from paddleocr import PaddleOCR from PIL import Image import numpy as np # 打开图像文件 image = Image.open('F:/data/ppocr_img/imgs/11.jpg') # 初始化 OCR 对象 ocr = PaddleOCR(use_angle_cls=True, use_gpu=False) # 进行 OCR 识别 text = ocr.ocr(np.asarray(image), cls=True) # 输出识别结果 for t in text[0]: print(t[1]) ``` #### 四、服务化部署为了让 PaddleOCR 更加便捷地被其他应用程序所调用，可以将其封装成 Web 服务。一种常见的做法是使用 Flask 框架来实现这一目标。 ##### 1. 使用 Flask 封装服务创建一个简单的 Flask 应用，将 PaddleOCR 的核心功能封装起来，提供 RESTful API 接口供外部调用。 ##### 2. 异构服务集成 (可选) 如果需要与其他服务进行集成，可以考虑使用 gRPC 或者 RESTful API 等技术手段来实现。 ##### 3. RPC 调用使用 JSON-RPC 或者 gRPC 协议来调用封装好的 Flask 服务。 ##### 4. 解析并返回结果解析 Flask 服务返回的结果，并按照所需格式返回给客户端。 #### 五、总结 PaddleOCR 是一款功能强大且易于使用的 OCR 工具库，特别适合需要快速部署 OCR 功能的应用场景。无论是命令行操作还是通过 Python 脚本调用，PaddleOCR 都提供了丰富的接口供开发者选择。对于更复杂的应用场景，还可以考虑将其服务化部署，从而方便地与其他系统集成。

`paddleocr` 的 `ocr()` 函数返回一个包含识别结果的列表，每个识别结果都是一个字典，表示一个文本行。每个文本行字典包含以下字段： - `text`: 文本行识别结果，字符串类型。 - `confidence`: 文本行识别置信度，float 类型。 - `text_region`: 文本行在原图中的位置和大小，格式为 `(x1, y1, x2, y2, x3, y3, x4, y4)`，表示文本行外接四边形的四个顶点坐标(x, y)。其中，(x1, y1) 表示左上角的点，(x2, y2) 表示右上角的点，(x3, y3) 表示右下角的点，(x4, y4) 表示左下角的点。 - `char_info`: 文本行中每个字符在原图中的位置和大小以及识别结果和置信度。`char_info` 是一个列表，每个元素都是一个字典，表示一个字符。每个字符字典包含以下字段： - `text`: 字符识别结果，字符串类型。 - `confidence`: 字符识别置信度，float 类型。 - `text_region`: 字符在原图中的位置和大小，格式为 `(x1, y1, x2, y2, x3, y3, x4, y4)`，表示字符外接四边形的四个顶点坐标(x, y)。其中，(x1, y1) 表示左上角的点，(x2, y2) 表示右上角的点，(x3, y3) 表示右下角的点，(x4, y4) 表示左下角的点。例如，假设 `result` 是 `paddleocr` 识别图像的结果列表，那么可以通过以下代码访问第一行文本识别结果和识别置信度： ```python text = result[0]['text'] confidence = result[0]['confidence'] ``` 可以通过以下代码访问第一行文本在原图中的位置和大小： ```python text_region = result[0]['text_region'] ``` 可以通过以下代码访问第一行文本中第一个字符的识别结果和置信度： ```python char_text = result[0]['char_info'][0]['text'] char_confidence = result[0]['char_info'][0]['confidence'] ```

阅读全文

paddleocr 的result = ocr.ocr(str(img_path))，中result格式是什么

相关推荐

C#实现的OCR技术在有色背景图片上的中英文字识别率高达97%

Struts2 Result类型全解析：从JSP到文件下载

【Python EasyOCR库入门教程】：从零开始掌握OCR识别技术

【深度学习与OCR】：Python EasyOCR识别准确率的终极提升指南

帮我写一下使用Python调用移动云ocr的代码

如何用python将图片中的文字提取出来（调用百度ipa）

TypeScript中借鉴Rust的Option、Result和Either类型

深入理解JavaScript中Number.MIN_SAFE_INTEGER的使用

PHP语言基础知识详解及常见功能应用.docx

公司金融课程期末考试题目

适用于 Python 应用程序的 Prometheus 检测库.zip

DFC力控系统维护及使用

Spring Data的书籍项目，含多数据库相关内容.zip

2019-2023GESP,CSP,NOIP真题.zip

基于 Gin + Element 实现的春联生成平台

zetero7实测可用插件

简单的 WSN 动画制作器 matlab代码.rar

最新推荐

PHP语言基础知识详解及常见功能应用.docx

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能

"互动学习：行动中的多样性与论文攻读经历"

L1正则化模型诊断指南：如何检查模型假设与识别异常值（诊断流程+案例研究）

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

实时三维重建：InfiniTAM的ros驱动应用