文本识别与对象信息的融合算法：提升自然场景下的性能

105 浏览量更新于2024-06-20 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

文本识别，作为计算机视觉领域的一个关键技术，近年来受到了广泛关注，尤其是在深度学习框架下。本文的主题聚焦于"对象信息和文本识别的贡献"，作者Shitala Prasad和Adams Wai Kin Kong来自新加坡南洋理工大学，他们共同探讨了如何通过结合文本与对象信息来提升文本检测和识别的性能。传统的文本识别方法往往专注于图像中的文本本身，而忽视了与文本相关的额外上下文信息，如物体与文本之间的关联。例如，识别一个商店招牌上的文字时，物体的存在（如招牌）与文字识别密切相关。作者提出的算法引入了这种依赖关系，通过两个子卷积神经网络和三个训练阶段的设计，旨在捕捉文本与周围物体的交互。他们的研究焦点在于开发一种新的深度架构，名为基于文本和对象依赖关系的算法。为了验证这一方法，他们创建了一个名为NTU-UTOI的大规模非合成图像数据集，包含超过22,000张图像，其中包含了277,000个文本实例和42个文本相关对象类别，这是目前最大的非合成文本图像数据库之一。这个数据集的设计旨在更真实地模拟自然场景中的文本识别挑战。实验结果显示，该算法在COCO-Text、MSRA-TD 500和SVT等复杂背景的基准数据集上表现出与现有文本识别方法相当的性能，特别是在处理路障、招牌和玻璃反射等自然场景中的难点时，对象信息的利用带来了显著的性能提升。这表明考虑对象信息对于提高文本识别的准确性至关重要。文章的关键词包括文本检测、自然场景、深度学习、对象检测和Region-based Convolutional Neural Networks (RCNN)。这些关键词揭示了研究的核心技术路线，即通过深度学习技术融合文本和对象信息，以解决自然环境中文本识别的难题。本文的贡献在于提出了一种新颖的方法，通过结合文本与对象信息，提升了文本检测和识别的性能，特别是在复杂的自然场景中。这对于推动人工智能和计算机视觉在实际应用中的进步，如自动驾驶、视觉辅助系统和多语言图像翻译等领域具有重要意义。

资源详情

资源推荐

S. Prasad和A. W. K. 孔

为此，建立了一个新的文本数据集--南洋理工大学无约束文本和对

象图像数据集（NTU-UTOI）。该数据集包含22，767幅自然场景图

像，其中42类对象具有165，749个边界框，文本

具有

111，868个边界

框，包括英文、中文和数字。图2显示了NTU-UTOI数据集中的样本。

有关数据集的更多信息，请参见第4节。据我们所知，它是用于文本

识别的第二大真实（非合成）自然场景图像数据集。NTU-UTOI用于

训练和测试所提出的算法。此外，在评价和比较中还采用了来自三个

不同群体的三个基准：SVT

、MSRA-TD500

和COCO-Text

。这三个

数据库具有挑战性，因为它们的图像来自不同的环境和杂乱的背景。

本文其余部分的组织结构如下：第2节给出了一个非常简短的总结

国家的最先进的文本检测方法。第3节详细阐述了所提出的算法。第4

节报告了在三个基准数据集以及NTU-UTOI数据集上与最先进的文本

检测方法的比较结果。第5节给出了一些结论性的评论。

相关作品

自然场景图像中的文本检测已经研究了几十年[2，12，19，20]，并且已

经提出了各种方法，这些方法可以大致分为字符区域方法和滑动窗口方

法。字符区域方法旨在将像素分割成字符，然后将字符分组为单词[12，

19-24]，而滑动窗口方法确定滑动窗口中的像素是否属于文本[9，25-

27]。文本检测也可以分为基于图像处理的方法和基于深度学习的方法。

基于图像处理的方法首先对图像进行预处理，然后提取特征，最后将像

素点分类为文本和背景。深度学习方法利用深度网络自动提取特征并基

于其特征图执行检测的能力。一般来说，深度学习方法的性能更好，但

需要更多的计算资源，特别是在训练中。

Epshtein等人提出了一种用于文本检测的每像素输出变换，称为笔

划宽度变换（SWT）[12]。Neumann和Matas [24]提出了一种基于梯度

滤波器的方法来检测定向笔划，其显著优于SWT。Anthimopoulos等人

提出了一种滑动窗口方法，该方法使用动态归一化边缘作为特征和随

机森林分类器来检测自然场景图像中的文本[27]。Chen等人使用边缘

增强的最大稳定极值区域（MSER）进行文本检测

在NTU-UTOI中，文本一词是指英文、中文和数字。

http://tc11.cvc.uab.es/datasets/SVT_1

http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_数据库_

（MSRA-TD 500）

https://vision.cornell.edu/se3/coco-text-2/

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

文本识别与对象信息的融合算法：提升自然场景下的性能

scrubadub, 从脏脏文本中清除个人可以识别信息.zip

CAD图纸文本信息提取与处理技术研究.pdf

文本检测和文本识别怎么放到一起

文本 识别 python 深度学习

paddle 文本识别 onnx c#

基于transformer的文本识别

python模糊图像文本识别

手写英文文本识别tensorflow

uniapp 粘贴文本识别信息

python车牌文本识别终端源代码免费

tensorflow 的文本识别模型下载

文本识别：手写体评价系统可以应用于文本识别领域，如银行支票识别、身份证 识别等。在国外，Google 公司开发的手写体识别系统已经应用于 Google Keep 等应用 中

java opencv 文本识别算法

详细介绍一下场景文本识别研究现状，不少于5千字

opencv python 基于神经网络的文本识别

通过ocr对图片进行文本识别，最后提取得到的是字符还是文本字段

基于yolov3实现文本检测和基于CRNN实现文本识别的算法

请写一个500子的基于深度学习的文本识别

使用paddleocr完成图像中的文本识别

paddleocr文本识别模型训练

最新资源

文本识别 python 深度学习

文本识别：手写体评价系统可以应用于文本识别领域，如银行支票识别、身份证识别等。在国外，Google 公司开发的手写体识别系统已经应用于 Google Keep 等应用中