深度学习场景文本图像合成：新策略提升检测与识别能力

129 浏览量更新于2024-06-20 收藏 2.42MB PDF 举报

"本文介绍了一种新的图像合成技术，用于生成大规模注释的场景文本图像，以训练深度学习模型进行场景文本检测和识别。该技术包括三个关键步骤：语义一致性嵌入，利用视觉显著性确定文本嵌入位置，以及自适应文本外观模型的学习。在多个公共数据集上的实验验证了方法的有效性。" 正文: 在计算机视觉领域，深度神经网络（DNN）在处理各种任务时表现出卓越的性能，但依赖大量注释图像作为训练数据的问题日益突出。手动注释不仅成本高、耗时，还可能引入错误，并且难以扩展。为了解决这一挑战，研究者们提出了多种策略，包括图像增强和机器学习驱动的无监督或半监督学习。图像合成作为一种创新的解决方案，旨在自动创造大量带有注释的训练样本，从而减少对人工标注的依赖。本文提出的新型图像合成技术专注于场景文本图像，这是一个在自然环境中存在文字的图像类别，如街景照片、广告牌等。场景文本检测和识别是这一领域的核心任务，它们对于自动驾驶、视觉理解等应用至关重要。该技术包含三个主要组成部分： 1. **语义一致性嵌入**：利用预先存在的语义分割信息，将文本嵌入到背景图像中与语义相符的区域。这意味着文本会出现在与场景中其他对象逻辑相关的部位，确保合成图像的自然性和真实性。 2. **视觉显著性定位**：考虑到人类视觉系统通常更容易注意到图像中的显著区域，该方法利用视觉显著性地图来确定文本的最佳嵌入位置。这样可以确保合成的文本在场景中易于识别，同时保持其在实际环境中的可见性。 3. **自适应文本外观模型**：为了进一步增强真实感，方法通过学习真实场景文本的色彩和亮度特征，动态调整嵌入文本的外观。这样合成的文本能够更好地融入背景，降低与真实图像的差异。在实验部分，该方法在五个公共数据集上进行了验证，展示了在训练场景文本检测和识别模型方面的优秀性能。这表明，使用该合成技术生成的训练样本能够帮助模型学习更准确、更鲁棒的特征，提升模型的整体表现。关键词涵盖了图像合成、数据增强、场景文本检测和识别，这些是当前计算机视觉领域的热点。图像合成作为一种有效的数据扩增手段，不仅可以减轻手动注释的负担，还有助于提高模型的泛化能力。而场景文本检测和识别则在现实世界的应用中扮演着重要角色，如智能城市、信息检索等领域。总结来说，这项工作提出了一种新的图像合成策略，为解决深度学习模型训练中的数据需求问题提供了一种实用的解决方案，特别是在场景文本处理的背景下。通过结合语义分析、视觉显著性和自适应外观学习，该方法有助于创建更逼真的训练样本，从而提升模型在复杂视觉任务中的性能。

F. Zhan，S. Lu和C. 薛

场景文本检测已经被研究了多年，并且近年来吸引了越来越多的兴

趣，正如许多

场景文本阅读比赛所观察到的那样[40，22，23，36]。已

经提出了各种检测技术

，从使用手工制作的特征和浅模型的那些

[15，52，46，32，16，52，21，28]到设计不同DNN模型的最近的

努力

自动学习文本特征[20，13，59，53，10，19，56，58，47，53]。在

另一端，已经探索了不同的检测方法，包括首先检测字符并且然后将检测

到的字符链接成单词或文本行的基于字符的系统[15、46、16、20、13、

59、33]、将单词视为用于检测的对象的基于单词的系统[10、19、

12、26、27、11、60]以及将单词视为用于检测的对象的基于单词的系

统[10、19、12、26、27、11、60]。最近的基于行的系统[53，57]将文

本行视为检测对象。其他一些方法[37，47]本地化多个细尺度文本提

案并将其分组为文本行，这也显示出出色的性能。

另一方面，场景文本检测仍然是一个非常开放的研究挑战。这可

以从那些大规模基准测试数据集（如coco-text [49]和RCTW- 17数据集

[40]）的有限场景文本检测性能中观察到，其中场景文本检测性能受

过拟合的影响较小。训练数据的有限性是制约当前场景文本检测研究

进展的一个重要因素。特别地，所捕获的场景文本涉及大量的变化，

因为文本可以以不同的字体、颜色和大小打印并且在不同的照明、视

点、遮挡、背景杂波等下被捕获。需要大量带注释的场景文本图像来

学习捕获场景中文本的非常不同的外观的综合表示。

场景文本识别由于其大量的实际应用，近年来大多数现有的系统

旨在开发强大的字符分类器，其中一些包含语言模型，导致最先

进的性能[17，54，50，30，35]。

2、7、18、3]。这些系统执行字符级分割，然后进行字符分类，并且

它们的性能由于字符分割错误而严重降低。受递归神经网络（RNN）

在手写识别中取得巨大成功的启发[8]，RNN已经被研究用于场景文本

识别，它从单词或文本行中学习连续的序列特征，另一方面，大多数

场景文本图像数据集（如ICDAR 2013 [23]和ICDAR 2015 [22]）仅包含

数百/数千张训练图像，这些图像太小，无法覆盖场景中非常不同的

文本外观。

场景文本图像合成

所提出的场景文本图像合成技术以两种类型

的输入

开始

，如图1中的

列1和2中所示，输入

包括“背景图像”

和“源

文本

”

1.一、给定

背景图像，用于文本嵌入

的区域可通过结合“S形映射”和“S形映射”

来确定，如图3- 4中所示

。1，

其中

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

深度学习场景文本图像合成：新策略提升检测与识别能力

图像与文字的合成

图像合成技术

对摄像头采集到的图像进行缩放、切割、合成 +包含大量注释

大型语言模型 LLM：2023 年完整指南.pdf

语音识别与合成指南：NLP处理声音数据的策略

【图像层叠加】：ggimage包高级技巧与视觉效果提升

【GUI增强】：利用ImageFont库，让Python应用文本显示更上一层楼

【深度学习与自然语言处理】：Python框架的最佳八大实践

YOLO数据集格式转换：无缝集成，拓展数据来源

深度学习解锁低资源语言：语音识别的突破性应用

最新资源