综合监督提升场景文本识别的深度学习方法

152 浏览量更新于2024-06-20 收藏 935KB PDF 举报

本文主要探讨了综合监督特征学习在场景文本识别中的应用。场景文本识别作为图像理解和计算机视觉领域的重要任务，因其在日常交流、自动驾驶、机器人技术等领域的实用性而备受关注。传统方法依赖于手工设计的特征提取和子任务分解，而现代深度学习技术则通过卷积神经网络实现了端到端的图像到文本转换。当前最先进的场景文本识别方法倾向于利用大规模合成图像数据集进行图像特征学习，这些数据集通过复杂的生成过程创建出逼真的图片。然而，研究者们注意到，这些方法仅关注生成的输出图像，而忽略了生成过程本身的参数信息。作者提出了一种创新思路，即利用生成过程的参数来增强图像特征的学习，主张利用这些参数能够生成“自由”图像，即不局限于特定数据的图像，它们通常比原始图像更易于识别，因为它们避免了合成过程中可能引入的失真。为此，文章构建了一个多任务学习的网络架构，结合编码器、鉴别器和生成器，这个网络能够指导对原始图像中清洁文本的特征学习。通过综合监督，网络不仅根据真实文本标签指导对输入图像的处理，还扩展到所有关联的参数渲染，以提升识别性能。实验结果显示，这种方法在标准场景文本识别基准上，特别是在词汇自由的类别上，显著优于现有的顶尖技术。同时，该方法表现出良好的适应性，即使面对包含严重几何失真的输入图像，无需额外处理也能有效工作。关键词包括场景文本识别、深度学习、神经网络、特征学习、合成数据和多任务学习。这篇论文提供了一种新颖且有效的策略，通过结合合成数据的优势和对生成过程参数的利用，优化了场景文本识别的图像特征学习，有望推动该领域的技术进步。

Yang Liu，Zhaowen Wang，Hailin Jin和Ian Wassell

#38388;更深入的了解。[32，14，15]是使用深度卷积神经网络作为场

景文本识别的图像特征的早期作品之一

[17]将问题公式化为90K类卷积神经网络，其中每个类对应于一个英

语单词。[17]的关键贡献之一不足以训练深度卷积神经网络。该合

成数据集随后被后续工作所采用。为了克服在训练中使用固定词典的

问题，[16]提出了一种联合图形模型，[27]提出了一种端到端序列识

别网络，其中图像和文本分别编码为补丁序列和字符序列。如有必

要，可在考试时引入词典。[20，4，5]是采用基于注意力的网络来处

理复杂的文本失真和低质量图像的最新方法之一。我们的方法遵循使

用卷积神经网络和序列识别的问题的一般方向。我们的贡献在于使用

的合成数据生成过程中的渲染参数，以获得新的干净的参考图像。我

们利用原始图像和干净图像来指导图像特征学习。据我们所知，这是

场景文本识别中第一个使用辅助参考图像来改进特征学习的工作，与

其他生成式多任务学习工作共享类似的理念[35，30，24]。我们表

明，我们的方法可以纠正输入图像中存在的几何失真这与[28]有关，

[28]使用空间Transformer网络在识别管道之前校正图像。然而，[28]采

用手工设计的架构，仅适用于几何失真，而我们的方法以统一的方式

适用于任意失真只要合成数据生成过程可以模拟失真，我们的方法就

可以通过特征学习来纠正它。

方法

我们构建了一个用于文本识别的综合监督特征学习框架，如图所示1.

一、它由文本图像渲染器

、特征编码器

、文本解码器

、图像生成

器

以及两个鉴别

器

和

组成。我们将在下文中讨论这些组件中的

每一个及其相互作用。

渲染器：我们使用标准文本渲染器R来合成文本图像x= R

（y

，

z），其中包含文本字符串

和渲染参数z。 z描述了如何

在

渲染图像中添加干扰因素，并且从

覆盖各种因素（包括字体、轮

廓、

颜色、阴影、背景、透视扭曲和成像噪声）的组合的分布中

随机抽取。通过

将重新定义的参数固定到一个值，

或

x y

的干净图

像x ¯s

被

设置

为

（

，

z）

。

在我们的情况下，如果您将数据存储并创

建备份，则您将在

g中使用一个文件信息x。

.一、

在我们的框架k中，

所述第二个预存的存储器是存储器

{

（

，

’

，

）

}

，并且它是不可行

的

。

编码器和文本解码器：编码器

获取输入图像X以提取其图像特

征f，该图像特征f被进一步馈送到文本解码器

中

以

预指示字符

序列

。

os-

modal

eco

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

综合监督提升场景文本识别的深度学习方法

基于深度学习的场景文本识别

基于特征金字塔的场景文本检测

基于深度学习的自然场景文本识别

用于人脸识别的上下文感知局部二元特征学习

机器学习之-基于文本内容的垃圾短信识别-所需数据.zip

小场景烟火识别数据集600张图片深度学习标注

计算机视觉场景识别技术与实践

模糊逻辑结合深度学习的多文档文本摘要新方法

基于弱监督学习的行人重识别方法

监督学习VS无监督学习：如何在正确场景选择最佳算法

最新资源