深度解析：OCR中的文字检测与识别技术(CTPN与CRNN)

需积分: 1 135 浏览量更新于2024-08-03 1 收藏 1.29MB PDF 举报

OCR（Optical Character Recognition，光学字符识别）是一项关键的技术，它涉及到从图像或扫描文档中自动识别和提取文本内容。本文主要聚焦于网络详解，特别是文字检测和文字识别这两个步骤，以及CTPN算法在文字检测中的应用。文字检测是OCR过程中的首要环节，其目标是确定图像中文字的位置及其范围。传统的OCR方法可能难以应对自然场景中的复杂文字分布，如不同大小、倾斜角度的文本。CTPN（Connectionist Text Proposal Network）是2016年ECCV会议上提出的创新文字检测算法，它结合了卷积神经网络（CNN）和长短时记忆网络（LSTM），有效解决了这类问题。CTPN的核心创新包括： 1. **水平解耦**：CTPN假设文本主要是水平排列，并将其分解为可独立检测的小片段（slice），这样可以简化检测过程并降低对高度的不确定性。 2. **引入RNN**：考虑到文本的顺序性，CTPN利用双向LSTM捕捉文本的时序关系，增强了模型预测每个小片段的能力。 3. **标签构造**：与RPN不同，CTPN采用水平切片框作为回归目标，以便更精确地定位文本区域。 4. **网络结构**：CTPN借鉴了Faster R-CNN的框架，但加入了LSTM层，同时考虑了空间特征（由CNN提供）和序列特征（由LSTM捕捉），以适应连续文本的特点。文字识别则是在定位准确的文字区域后，将图像中的文字转换为字符信息。深度学习驱动的端到端OCR技术中，CRNN（Convolutional Recurrent Neural Network）和Attention OCR是两种主流方法。它们的区别在于如何将网络学到的序列特征转化为识别结果，CRNN主要依赖于CTC（Connectionist Temporal Classification）算法来对齐，而Attention OCR则运用注意力机制。 CRNN OCR通常采用CNN+RNN的网络结构，先通过CNN提取特征，再通过RNN处理序列信息。通过这些技术的进步，OCR在处理各种自然场景中的文字识别任务中取得了显著的提升，为诸如文档自动化处理、印刷体识别等应用场景提供了强大支持。 OCR技术的核心在于精确的文字检测和高效的识别，其中CTPN作为一种强大的文字检测算法，其独特的网络设计和时序性处理能力对于提高文字识别的准确性和鲁棒性至关重要。随着深度学习的发展，未来OCR技术有望在更多复杂环境和场景中实现更精准的文字识别。

1.4

、

CTPN

网络结构

原始 CTPN 只检测横向排列的文字。CTPN 结构与 Faster R-CNN 基本类似，但是加入了 LSTM 层（CNN 学习

的是感受野内的空间信息，LSTM 学习的是序列特征。对于文本序列检测，显然既需要 CNN 抽象空间特征，也需

要序列特征，毕竟文字是连续的）。假设输入 N Images：

CTPN 的整体结构与流程：

1.首先通过 BackBone 架构网络 VGG16 进行特征的提取，其 Conv5 层输出 N x C x H x W 的特征图，由于 VGG16

的卷积网络中经过 4 个池化层累计的 Stride 为 16。也就是 Conv5 层输出的 Feature map 中一个像素对应原图的 16

像素。

2.然后在 Conv5 上做 3 x 3 的滑动窗口，即每个点都结合周围 3 x 3 区域特征获取一个长度为 3 x 3 x C 的特征向

量。如下图所示，输出为 N x 9C x H x W 的 Feature map，该特征依然是由 CNN 学习到的空间特征。

3.之后继续对上一步输出的 Feature map 进行 Reshape 操作：

Reshape：N x 9C x H x W → (NH) x W x 9C

4.然后以 Batch = NH 且最大时间长度 T

max

=W 的数据流输入 Bi-LSTM，学习每一行的序列特征。Bi-LSTM 输出

为(N H) x W x 256，再经 Reshape 回复形状：

Reshape：(NH) x W x 256 → N x 256 x H x W

该特征既包含了空间特征，也包含了 Bi-LSTM 学习到的序列特征。

5.再然后经过“FC”层，变为 N x 512 x H x W 的特征

6.最后经过类似 Faster RCNN 的 RPN 网络，获得 Text Proposals。

Bi-LSTM 的输出输入至 FC 中，最终模型三个输出：

文本小片的坐标偏移(y, h)。这里作者没有对起始坐标进行预测，因为这部分在标签构造过程有固定的偏移，因

此只需要知道文本的 y, h，利用固定的偏移可以构造出完整的文本行。

剩余13页未读，继续阅读

畅想未来2020

粉丝: 37
资源: 10

深度解析：OCR中的文字检测与识别技术(CTPN与CRNN)

Android截屏检测与OCR文字识别工具功能详解

Labview开发的OCR识别工具功能详解

Python OCR图文识别技术详解

文字识别ocr

百度文字识别OCR-通用文字识别

OCR文字识别

百度OCR 图片识别文字

天若OCR文字识别工具,天若ocr文字识别软件怎么用,Windows_Unix源码.zip

OCR文字识别.zip

TesseractDemo OCR文字识别 CXimage

最新资源