图像合成：大规模注释场景文本图像的新方法

135 浏览量更新于2023-10-14 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于场景展方能1[0000−0003−1502−6847]、卢世建2[0000−0002−6766−2506]、薛楚辉3[0000−0002−3562−3094]南洋理工大学{fnzhan，shijiian.lu}@ ntu.edu.sg，{xuec0003}@ e.ntu.edu.sg抽象。在为各种视觉检测和识别任务训练深度神经网络模型时，对大量注释图像的需求已经成为一个巨大的挑战。本文提出了一种新的图像合成技术，旨在产生大量的注释场景文本图像训练准确和强大的场景文本检测和识别模型。所提出的技术由三个重复的已检测信号组成。首先，通过在背景图像内的语义上可感知的区域处嵌入文本来实现语义一致性，其中语义一致性通过杠杆化在先前的语义分割研究中已经创建的对象和图像区域的语义注释来实现。第二，它exploits视觉显着性，以确定嵌入位置内的每个语义敏感的区域，这与事实相吻合，即文本往往被放置在均匀的区域，以更好的可见性在场景中。第三，设计了一种自适应的文本外观模型，通过学习真实场景文本图像的特征，自适应地确定嵌入文本的颜色和亮度。在五个公共数据集上对该方法进行了测试，实验结果表明，该方法在训练准确、鲁棒的场景文本检测和识别模型方面具有较好的性能关键词：图像合成，数据增强，场景文本检测，场景文本识别1介绍获得大量带注释的训练图像的能力已经成为在各种计算机视觉任务中有效和高效地开发和部署深度神经网络（DNN）当前的实践严重依赖于手动注释，范围从少量图像的内部注释到大量图像的基于众包的注释另一方面，当在不同条件下或在不同环境内收集数据时，手动注释方法通常是昂贵的、耗时的、容易出现人为错误并且难以缩放2F. Zhan，S. Lu和C. 薛已经研究了三种方法来应对DNN训练中的图像注释挑战。第一种方法可能是最简单和最广泛采用的方法，它通过各种保持标签的几何变换（如平移，旋转和翻转）以及不同的强度交替操作（如模糊和直方图均衡化）来增强训练图像[48]。第二种方法是基于机器学习的，它采用各种半监督和无监督学习技术来创建更多注释的训练图像。例如，已经研究了bootstrapping，它将传统的自训练和协同训练与最近的DNN训练相结合，以从大量未注释的图像中搜索更多的训练样本[34，45]。近年来，生成对抗网络（GAN）[6]等无监督DNN模型也被用于生成更多注释的DNN训练图像[42]。第三种方法是基于图像合成的方法，它在计算机图形学领域得到了广泛的研究，用于教育、设计模拟、广告、娱乐等。[9]的文件。它通过对光和能量的物理行为进行建模并结合不同的渲染技术来创建新的图像，例如将感兴趣的对象（OOI）嵌入到一组“背景图像”中为了使合成的图像对DNN训练有用同时，应包括足够的变化以确保所学习的表示足够宽以捕获真实场景中的大多数可能的OOI外观我们提出了一种新的图像合成技术，旨在创建大量的注释场景文本图像训练准确和强大的场景文本检测和识别模型。所提出的技术包括如下所列的1. 通过在背景图像内的空间上可感测的区域处添加六个像素，可以在图像中实现空间上可感测的图像，如图1所示。1，例如，场景文本往往出现在墙壁或桌面上，而不是食物或植物叶子上。我们通过利用已经创建并且在语义分割研究中容易获得的语义注释对象和图像区域来实现语义一致性，更多细节将在第3.1节中描述。2. 它利用视觉显着性来确定每个语义连贯区域内的嵌入位置，如图1所示。1.具体地，文本通常被放置在场景中的同质区域以获得更好的可见性，并且这可以使用视觉显著性来完美地捕获显着性指导的利用有助于合成看起来更自然的场景文本图像，更多细节将在第3.2节中讨论。3. 设计了一种新的场景文本外观模型，通过学习真实场景文本图像的特征，自适应地确定源文本的颜色和亮度这是通过利用场景图像中的文本的相邻背景与背景图像内的嵌入位置之间的相似性来实现的，更多细节将在第3.3节中讨论。用于文本3图1：所提出的场景文本图像合成技术：给定如左侧框中所示的背景图像和要嵌入到背景图像中的源文本，首先确定语义图和显著性图，然后将其组合以识别语义上可感知且适合于文本嵌入的位置。根据背景图像内的嵌入位置周围的颜色、亮度和上下文结构，进一步自适应地确定源文本的颜色、亮度和方向。右侧框中的图片示出了通过所提出的技术合成的场景文本图像。2相关工作图像合成在计算机图形学研究中，将物体逼真地插入图像中作为图像合成的一种手段已经目标是实现插入逼真度，即，通过控制对象大小、对象透视（或取向）、环境照明等来确定合成图像的真实相似性。例如，Karsch et al.[24]开发一种半自动技术，将对象插入到具有照片级真实感照明和透视的传统照片中。近年来，图像合成已经被研究为用于在只有有限数量的注释图像可用时训练准确且鲁棒的DNN模型的数据增强方法例如，Jaderberg etal.[17]创建一个单词生成器，并使用合成图像来训练文本识别网络。Dosovitskiy等人[5]使用合成的浮椅图像来训练光流网络。Aldrian等人[1]提出了一种用于合成面部的3D结构的逆渲染方法。Yildirim等人[55]使用在合成面部上训练的CNN特征来回归面部姿势参数。古普塔等人[10]开发一个快速且可扩展的引擎来生成场景中文本的合成图像。另一方面，大多数现有的工作没有充分考虑语义一致性，适当的嵌入位置和嵌入对象的外观，这是至关重要的，而应用合成图像训练DNN模型。4F. Zhan，S. Lu和C. 薛场景文本检测已经被研究了多年，并且近年来吸引了越来越多的兴趣，正如许多场景文本阅读比赛所观察到的那样[40，22，23，36]。已经提出了各种检测技术，从使用手工制作的特征和浅模型的那些[15，52，46，32，16，52，21，28]到设计不同DNN模型的最近的努力自动学习文本特征[20，13，59，53，10，19，56，58，47，53]。在另一端，已经探索了不同的检测方法，包括首先检测字符并且然后将检测到的字符链接成单词或文本行的基于字符的系统[15、46、16、20、13、59、33]、将单词视为用于检测的对象的基于单词的系统[10、19、12、26、27、11、60]以及将单词视为用于检测的对象的基于单词的系统[10、19、12、26、27、11、60]。最近的基于行的系统[53，57]将文本行视为检测对象。其他一些方法[37，47]本地化多个细尺度文本提案并将其分组为文本行，这也显示出出色的性能。另一方面，场景文本检测仍然是一个非常开放的研究挑战。这可以从那些大规模基准测试数据集（如coco-text [49]和RCTW- 17数据集[40]）的有限场景文本检测性能中观察到，其中场景文本检测性能受过拟合的影响较小。训练数据的有限性是制约当前场景文本检测研究进展的一个重要因素。特别地，所捕获的场景文本涉及大量的变化，因为文本可以以不同的字体、颜色和大小打印并且在不同的照明、视点、遮挡、背景杂波等下被捕获。需要大量带注释的场景文本图像来学习捕获场景中文本的非常不同的外观的综合表示。场景文本识别由于其大量的实际应用，近年来大多数现有的系统旨在开发强大的字符分类器，其中一些包含语言模型，导致最先进的性能[17，54，50，30，35]。2、7、18、3]。这些系统执行字符级分割，然后进行字符分类，并且它们的性能由于字符分割错误而严重降低。受递归神经网络（RNN）在手写识别中取得巨大成功的启发[8]，RNN已经被研究用于场景文本识别，它从单词或文本行中学习连续的序列特征，另一方面，大多数场景文本图像数据集（如ICDAR 2013 [23]和ICDAR 2015 [22]）仅包含数百/数千张训练图像，这些图像太小，无法覆盖场景中非常不同的文本外观。3场景文本图像合成所提出的场景文本图像合成技术以两种类型的输入开始，如图1中的列1和2中所示，输入包括“背景图像”和“源文本”1.一、给定背景图像，用于文本嵌入的区域可通过结合“S形映射”和“S形映射”来确定，如图3- 4中所示。1，其中用于文本5作为语义图像分割研究中的基础事实，并且“显著性映射”可以在使用语义模型时进行有效的分割。然后可以根据所确定的文本嵌入区域的颜色和亮度来自适应地估计源文本的颜色和亮度，如图5中的列5所示。1.一、最后，“Synthesizedimage s”是通过在如图6中的列6中所示的嵌入位置处对所检索的文本进行填充来实现的1.一、3.1语义连贯语义连贯指的是语篇应该嵌入的目标在背景图像内的语义上可感知的区域处。例如，文本应放置在栅栏板上，而不是天空或羊头，因为在真实场景中很少发现文本，如图所示。2.因此，SC有助于创建语义上更合理的前景-背景配对，这对于通过使用合成图像学习/训练的视觉表示以及对象检测和识别模型据我们所知，SC在合成图像以更好地进行深度网络模型训练的早期工作中很大程度上被忽视，例如。最近的工作[10]，处理类似的场景文本图像合成问题。(a)（b）（c）（d）图2：在没有如（b）中所示的语义一致性（SC）的情况下，文本可以被嵌入在任意区域处，诸如天空和绵羊的头，这些区域在场景中很少被SC有助于在语义敏感区域嵌入文本，如（d）所示。我们利用大量的语义标注对象和图像区域，已创建的语义图像分割研究，实现语义一致性特别地，已经创建了多个语义图像分割数据集[14]，每个语义图像分割数据集都带有一组“语义分割”图像。真值标注在像素级将图像划分为多个对象或区域，其中每个对象或区域具有特定的语义标注，诸如“云”、“树”、“人”、“羊”等。如图2所示为了利用SC进行语义敏感的图像合成，首先对语义分割数据集[14]内的所有可用语义注释进行6F. Zhan，S. Lu和C. 薛分成两个列表，其中一个列表由对于文本嵌入语义上敏感的对象或图像区域组成给定一些用于嵌入的源文本和具有区域语义的背景图像，因此可以通过检查预定义的区域语义列表来确定适合于文本嵌入的图像3.2显著性指导并非语义上相干的对象或图像区域内的每个位置都可用于搜索。对于示例，更多的是可用于在黄色机器的表面上嵌入场景文本，而不是如图1A和1B所示跨越两个图3c和3d所示。需要某些机制来进一步确定语义上连贯的对象或图像区域内的确切场景文本嵌入位置我们利用人类的视觉注意和场景文本的放置原则，以确定确切的场景文本嵌入位置。为了吸引人们的注意力和眼球，场景文本通常被放置在诸如招牌之类的均匀区域周围，以创建良好的对比度和可见性。有了这样的观察，我们利用视觉显着性作为指导，以确定确切的场景文本嵌入位置。特别地，与那些高度对比和杂乱的区域相比，均匀区域通常因此，场景文本可以被放置在语义上一致的对象或图像区域内具有低显著性的位置处，如在最后一小节中所描述的。(a)（b）（c）（d）图3：在没有如（b）中所示的显著性引导（SG）的情况下，文本可以如（c）中所示的那样被因此，SG有助于将文本嵌入到语义敏感区域内的正确位置，如（d）在文献中已经报道了相当多的显着性模型[41]。我们采用[29]中的显着性模型，因为它可以很好地捕捉局部和全局对比度。给定图像，显著性模型计算显著性图，如图1所示。3，其中均匀图像区域通常具有较低的显著性。因此，适合于文本嵌入的位置可以通过以下来确定：用于文本7对所计算的显著性图进行阈值化。在我们实现的系统中，使用一个全局阈值，这是简单地估计的平均值计算的显着性图。如图3所示，显著性指导有助于将文本嵌入在语义上可感知的区域内的正确位置处。显着性指导的使用进一步有助于提高合成图像的逼真度以及检测和识别模型的学习视觉表示。3.3自适应文本外观在训练目标检测和识别模型时，由低层边缘和角点观察到的视觉对比度是至关重要的特征场景中的文本通常由不同大小和方向的线条表示，这些线条具有丰富的对比度诱导的边缘和角落。因此，在将它们应用于训练场景文本检测和识别模型时，有效控制源文本和背景图像之间的对比度对于合成图像的有用性非常重要。我们设计了一个自适应对比度技术，控制源文本的颜色和亮度，根据他们看起来像在现实场景中。该想法是搜索场景文本图像块（在现有数据集内的大量场景文本注释中容易获得），其背景具有与所确定的背景区域相似的颜色和亮度，如在第10节中所描述的。3.1和3.2。然后可以通过参考搜索到的场景文本图像块内的文本像素的颜色和亮度来确定源文本的颜色和亮度场景文本图像块是从场景文本注释中导出的，如在现有数据集中容易获得的，例如ICDAR2013 [23]。对于每个文本注释，HoG（方向梯度直方图）的功能Hb首先建立通过使用周围的背景区域的文本注释研究。注释框内文本像素的颜色和亮度的平均值和标准差也在Lab颜色空间中确定，如（µL，σL）、（µa，σa）和（µb，σb）所示。因此，大量场景文本块的背景HoGHb和文本颜色和亮度统计（μL，σL）、（μa，σa）和（μb，σb）形成如下对的列表：.ΣP=Hb1：（µL1，σL1，µa1，σa1，µb1，σb1），···Hbi：（µLi，σLi，µai，σai，µbi，σbi），···（一）在Eq.1将作为标注场景文本图像块的索引，（µL，σL）、（µa，σa）和（µb，σb）将作为设置的指导源文本的颜色和亮度。对于每个确定的背景块（适合于文本嵌入），如图1B所示。4、其HoG功能可以提取Hs，并且因此可以基于Hs和Hb之间的相似度来确定具有最相似背景的场景文本图像块。因此，源文本的颜色和亮度可以通过取相应的（µL，µa，µb）加上（σL，σa，σb）周围的随机变化来确定。该技术还根据嵌入前后的上下文结构自适应地控制源文本的方向8F. Zhan，S. Lu和C. 薛背景图像中的位置。特别地，某些主要结构（诸如桌子边界和两个连接的壁表面之间的边界，如图1中所示）可以被布置在桌子上。4）以及它们的取向可以从图像梯度估计。然后，源文本的方向可以通过与场景文本嵌入位置周围检测到的主要结构对齐来确定，如图1所示。4.除了文本对齐之外，所提出的技术还通过从如图1所示的预定义字体列表中随机选择来控制源文本的字体。4.第一章图4：自适应文本外观（ATA）：如图所示，源文本的颜色和亮度根据嵌入位置周围的背景图像的颜色和亮度自适应地确定。源文本的方向也根据嵌入位置周围的上下文结构的方向自适应地确定。因此，与文本颜色、亮度和方向的随机设置相比，ATA有助于产生更逼真的文本外观。4实施方式4.1场景文本检测我们使用EAST [60]的改编版本来训练将在第5.2节中讨论的所有场景文本检测EAST是一个简单但功能强大的检测模型，可以快速准确地检测场景图像中的场景文本。该模型直接预测图像中任意方向和四边形形状的单词或文本行。它利用完全卷积网络（FCN）模型，直接产生单词或文本行级预测，排除不必要和冗余的中间步骤。自实施原用于文本9EAST不可用，我们采用了一种适应性的实现方式，使用ResNet- 152而不是PVANET [25]作为骨干网络。4.2场景文本识别对于场景文本识别，我们使用CRNN模型[38]来训练5.3节中描述的所有场景文本识别模型。CRNN模型由卷积层、递归层和转录层组成，该转录层将特征提取、序列建模和转录集成到一个统一的框架中。与大多数现有的识别模型不同，CRNN的体系结构是端到端可训练的，可以处理任意长度的序列，不涉及字符分割。此外，它不局限于任何预定义的词典，可以达到优异的识别性能，在无词典和基于词典的场景文本识别任务。5实验我们评估所提出的图像合成技术在场景文本检测任务和场景文本识别任务上的有效性。在5个公共数据集上进行评价，将在以下小节中讨论。5.1数据集和评估指标在五个公共数据集上评估了所提出的技术，包括ICDAR 2013 [23]，ICDAR 2015 [22]，MSRA-TD 500 [52]，IIIT 5 K [31]和SVT[50]。ICDAR 2013数据集来自Robust Reading Challenges 2013。它由229张训练图像和233张测试图像组成，这些图像捕获了标志牌，海报等上的文本。带有单词级注释。对于识别任务，有848个单词图像用于训练识别模型，1095个单词图像用于识别模型评估。我们使用这个数据集的场景文本检测和场景文本识别评估。ICDAR 2015是附带场景文本的数据集，由使用Google Glass获取的1，670张图像（17，548个注释文本区域）组成。初始场景文本是指在用户在捕获中没有采取任何先前动作的情况下出现在场景中的文本。我们使用这个数据集的场景文本检测评估。MSRA-TD 500数据集由500张自然图像组成（300张用于训练，200张用于测试），这些图像是使用袖珍相机从室内和室外场景拍摄的室内图像主要拍摄标志牌、门牌、警示牌等，室外图像主要拍摄背景复杂的指路牌、广告牌等。我们使用这个数据集的场景文本检测评估。IIIT5K数据集由2000张训练图像和3000张测试图像组成，这些图像是从场景文本和原生数字图像中裁剪出来的。对于每个图像，有是一个50字的词典和一个1000字的词典。所有的词汇都有一个背景10F. Zhan，S. Lu和C. 薛真相词和一些随机选择的词。我们只使用这个数据集进行场景文本识别评估。SVT数据集由249幅街景图像组成，从中裁剪出647幅单词每个单词图像具有50个单词词典。我们只使用这个数据集进行场景文本识别评估。对于场景文本检测任务，我们使用Wolf等人的评价算法[51]第51段。对于场景文本识别任务，我们根据正确识别的单词（CRW）进行评估，这些单词可以根据地面实况转录进行计算表1：在IC DAR 2013、IC DAR 2015和M S R A-T D 500上的场景文本检测查全率（R）、查准率（P）和f分数（F），其中“E A S T”表示不像在章节4.1中所描述的那样适应E A ST模式，“R e al”表示不具有所描述的特征的原始文本图像，“S y n t h 1 K”和“S y n t h 10 K”表示通过我们的方法合成的1 K和10 K图像。方法ICDAR2013ICDAR2015MSRA-TD500RPFRPFRPF[23]第二十三话73.066.069.0------TD-ICDAR [52]------52.053.050.0NJU [22]---36.370.447.9---Kang等人[21日]------62.071.066.0Yin等人[56个]65.184.073.4---63.081.071.0Jaderberg等人[19个]68.086.776.2------Zhang等人[58个]78.088.083.043.170.853.667.083.074.0Tian等人[47个]83.093.088.051.674.260.9---Yao等人[五十三]80.288.984.358.772.364.876.575.375.9Gupta等人[10个国家]76.4 93.884.2------Zhou等人[60个]82.792.687.478.383.380.767.4 87.376.1EAST（实数）80.585.683.075.884.179.769.278.173.4EAST（Real+Synth1K）83.589.386.376.285.480.570.680.975.4EAST（Real+Synth10K）85.091.7 88.377.2 87.1 81.972.785.7 78.65.2场景文本检测对于场景文本检测任务，所提出的图像合成技术在三个公共数据集ICDAR 2013、ICDAR 2015和MSRA-TD 500上进行了评估。我们通过迎合每个数据集内的训练图像的特定特征，在文本转录，文本语言，文本注释方法等方面来合成图像。以ICDAR2013为例。源文本均为英文，嵌入是在单词级别，因为ICDAR2013中的几乎所有文本都是英文，并在单词级别进行注释。对于MSRA-TD 500，源文本是英文和中文的混合文本，嵌入是在文本行级别，因为MSRA-TD 500包含英文和中文用于文本11表2：通过使用如章节4.1中所述的自适应EAST模型对ICDAR2013数据集的场景文本检测性能，其中“S y n t h”和“G up t a”不具有由您的方法和Gup t a确定大小的图像。 [10]具体地，“1K”和“10K”不是所使用的语义图像的数量，“R和om”意味着在随机位置嵌入文本，SC、SG和ATA指的是语义一致性、显著性指导和自适应文本外观。训练数据召回精度F-测度ICDAR2013（基线）80.4985.5682.95ICDAR2013 + 1k合成器（随机）81.6684.4983.08ICDAR2013 + 1k合成（SC）82.1586.3484.19ICDAR2013 + 1k Synth（SG）82.2687.3384.72ICDAR2013 + 1k合成器（ATA）81.9084.9583.40ICDAR2013 + 1k合成器（SC+SG）82.7489.3985.94ICDAR2013 + 1k合成器（SC+ATA）82.7987.5485.10ICDAR2013 + 1k合成器（SG+ATA）82.7088.9585.72ICDAR2013 + 1k合成器（SC+SG+ATA）83.4689.3486.29ICDAR2013 + 10k合成器（SC+SG+ATA）85.0291.7488.25ICDAR2013 + 1k Gupta [10]82.8189.0185.80[10]第十届中国国际汽车工业展览会 84.9390.7487.74以及具有文本行级注释的中文文本。此外，源文本是来自相应训练图像和公开可用尸体的文本的混合对于每个背景图像，嵌入的单词或文本行的数量被限制在最大5个，因为我们有足够的具有语义分割的背景图像表1示出了通过使用如第4.1节中所述的适应的EAST（由EAST表示）模型对于每个数据集，我们仅通过使用原始图像来训练基线模型“E A S T（R eal）”以及两个分别在训练中进一步包括1K和10K我们的合成图像的自动模型“E A S T（R eal + S y n t h 1K）”和“如表1所示，当训练中包括合成图像时，所有三个数据集的场景文本检测性能都得到了一致的改善此外，当合成图像的数量从1K增加到10K时，性能改进变得更加显著。事实上，当使用10K合成图像时，训练模型的性能超过大多数最先进的模型，并且当训练中包括更大量的合成图像时，我们可以预见进一步的性能改进此外，我们观察到ICDAR2015数据集的性能改进不如其他两个数据集那么显著主要原因是ICDAR2015图像是由谷歌眼镜摄像头捕获的视频帧，其中许多都存在运动和/或失焦模糊，而我们的图像合成管道不包括图像模糊功能。我们推测，如果我们将图像模糊合并到图像合成管道中，场景文本检测模型将更好地用于ICDAR2015数据集。12F. Zhan，S. Lu和C. 薛特别是，当使用原始训练图像训练模型时，ICDAR 2013数据集的f分数为83.0。当包括1K个合成图像时，f分数提高到86.2，并且当训练中包括10K个合成图像时，f分数进一步提高ICDAR2015数据集也观察到类似的改进对于MSRA-TD 500，当在模型训练中仅使用原始300个训练图像时，获得73.4的f分数。f分数提高到75.4和78.6当在训练中包括1K和10K合成图像时，分别地。这进一步验证了我们所提出的技术产生的合成场景文本图像的有效性。我们还进行消融研究的三个建议的图像合成设计，包括语义连贯性（SC），显着性指导（SG）和自适应文本外观（ATA）。表2显示了ICDAR 2013数据集的实验结果。如表2所示，与基线模型“ICDAR2013（随机） ” 相比，包含合成图像（包含 “ICDAR2013 + 1k Synth（Random）”中的随机嵌入）一致地改进了场景文本检测性能，其中所述基线模型仅通过使用原始图像来实现。此外，包括我们的三个设计中的任何一个都有助于提高场景文本检测性能，超越随机嵌入，其中SG提高最多，其次是SC和AC。当包括所有三个设计时，f-得分达到86.26，远高于随机嵌入的83.09。此外，当训练中包含10K个合成图像时，f分数达到88.25。[10]如表2所示，其中使用我们的合成训练图像的场景文本检测模型始终显示出优异的性能。5.3场景文本识别对于场景文本识别任务，在如表 3 所示的三个公共数据集ICDAR2013、IIIT5K和SVT上评估所提出的图像合成技术，其中CRNN用作如在4.2的章节中所述的识别模型。线性模型“CRNN（R eal）”是通过在三个数据集的训练图像内的所有注释的单词图像的合并来提取的。如表3所示，基线识别精度非常低，因为三个数据集仅包含大约3100个单词图像作为比较，识别模型“C R NN（R eal + Our s 5M）“具有较高的文本识别率，其中5百万字图像直接从我们的合成场景文本图像中裁剪，如上一小节中所述。识别准确率的显着提高证明了所提出的场景文本图像合成技术的有效性。特别是，当训练中包含500万个合成图像（由我们提出的方法合成）时，ICDAR2013数据集（不使用词典）当在训练中仅使用对于IIIT5K，CRW增加到79.3%用于文本13表3：ICDAR2013、IIIT5K和SVT数据集上的场景文本识别性能，其中第二行中的“50”和“1K”表示词典大小，并且“No_ne”表示所使用的词典。 CRNNdentestesdes d e s e s d e s e s d e s e s d e s e s d e s e [17]Gupta et al.[10]分别。方法ICDAR2013 IIIT5KSVT无50 1k无50无ABBYY [50]-24.3--35.0-Mishra等人[30个]-64.1 57.5-73.2-Rodrguez-Serrano等人[35]第三十五届-76.1 57.4-70.0-Yao等人[五十四]-80.2 69.3-75.9-Almazan等人[二]《中国日报》-91.2 82.1-74.3-戈多[7]-93.3 86.6-91.8-Jaderberg等人[18个国家]81.895.5 89.6-93.2 71.7Shi等人[38个]86.797.6 94.4 78.296.4 80.8Bissacco等人[3]第一章87.6---90.4 78.0Shi等人[39]第三十九届88.696.2 93.8 81.9 95.5 81.9CRNN（实数）31.264.4 54.4 38.762.1 35.5CRNN（Real+Jaderberg 5M[17]）85.697.1 93.2 77.195.6 79.9CRNN（Real+Gupta 5M [10]）86.496.7 92.4 76.095.3 79.2CRNN（Real+Ours 5M）87.1 98.1 95.3 79.396.7 81.5(no词典），当训练中包括相同的500万个单词图像时当词典大小为1K和50时，CRW分别进一步提高到95.3%和98.1%。在SVT数据集上也观察到类似的CRW改善，如表3所示。我们还将合成图像与Jaderberg创建的图像进行基准测试等[17]和Gupta等[10]第10段。特别地，我们采用相同数量的合成图像（500万），并使用相同的CRNN网络训练场景文本识别模型“CRNN（R eal + J ad e r be r g 5M [ 17]）”和“C R NN（R eal + G up t a 5M [ 10]）”。如表3所示，通过使用我们的synn-thesizedimagesout训练的模型通过使用“Jaderb e r g 5M”和“G up t a 5M”来完成所有的修改。不是在这个模型上由Shietal。 [38]达到了与“CRNN（Real+Ours 5M）”相似的精度，但它使用了Jaderberg等人创建的800万张合成图像。[17]第10段。在最后一小节中描述的优越的场景文本识别精度以及在场景文本检测任务中的显著改进在很大程度上是由于三种新颖的图像合成设计，其有助于产生如图1所示的逼真的场景文本图像。5.如图5所示，所提出的场景文本图像合成技术能够将源文本嵌入在背景图像内的语义上可感知且适当的位置处。同时，它还能够根据背景图像中嵌入位置周围的颜色、亮度和上下文结构自适应地设置嵌入文本14F. Zhan，S. Lu和C. 薛图5：来自我们的合成数据集的几个样本图像，显示了所提出的语义一致性，显著性指导和自适应文本外观如何共同工作，以自动在场景图像中嵌入真实相似的文本。6结论本文提出了一种场景文本图像合成技术，旨在训练准确和鲁棒的场景文本检测和识别模型。该技术实现了逼真的场景文本图像合成相结合的三个新的设计，包括语义连贯性，视觉注意，和自适应文本外观。在5个公共基准测试数据集上的实验表明，所提出的图像合成技术有助于实现最先进的场景文本检测和识别性能。我们工作的一个可能的扩展是进一步改善源文本的外观。我们目前利用真实场景文本的颜色和亮度统计来指导嵌入文本的颜色和亮度。生成的文本外观与真实场景文本相比仍然具有差距，因为颜色和亮度统计没有捕获空间分布信息。一种可能的改进是直接学习所研究的数据集的文本外观，并使用学习的模型来自动确定源文本的外观。7确认这项工作是由新加坡教育部资助的，在项目“一种半监督学习方法，用于准确和强大的文本检测”（RG 128/17（S））。用于文本15引用1. Aldrian，O.，P、W.A.：用3d可变形模型逆向绘制人脸。IEEE T系列OnPatternAnalysisandMachineIntellige（5），10802. Almazan，J.，戈多A Fornes，A.，Valveny，E.：使用嵌入式数据库进行单词定位和识别。PAMI（12），25523. Bissacco，A.，Cummins，M.，Netzer，Y.，Neven，H.：Photoocr：在不受控制的条件下阅读文本。ICCV（2013年）4. Debevec，P.：将合成对象渲染到真实场景中：用全局照明和高动态范围照相术桥接传统的和基于图像的图形。 Pr oceedingSIGGRAPH'98Proceedingsofthe25thannualconferencepp. 1895. Dosovitskiy，A.，Fischer，P.，Ilg，E.，Hausser，P.，Hazirbas角戈尔科夫Smagt，P.，Cremers，D. Brox，T.：Flownet：使用卷积网络学习光流。Proc. ICCV（2015）6. Goodfellow，J.一、Jean，P.A.，Mehdi，M.，宾X David，W.F.，Sherjil，O.，Aaron，C.，Yoshua，B.：生成对抗网络。arXiv：1406.2661（2014）7. 戈多，A.：用于词图像表示的监督中级特征在CVPR（2015）8. 格雷夫斯，A.，Liwicki，M.，Fernndez，S.：一种新的非约束手写识别的联结系统。 IEEE Trans.Pattern Analysis and Machine Intelligence（TPAMI）31（2009）9. 格林伯格，D.P.，Torrance，K.E.，Shirley，P.，Arvo，J.，A.Ferwerda，J.，Pattanaik，S.，Lafortune，E.，沃尔特·B Foo，S.C.，Trumbore，B.：这是一个现实主义图像的框架。C〇municationoftheACM（8），4210. 古普塔一、维达尔迪一、齐瑟曼，A.：用于自然图像中的文本定位的合成数据。IEEE计算机视觉与模式识别会议（2016）11. 他，P.，黄伟，他T朱庆国，Qiao，Y.，李X：具有区域注意力的单次文本检测器1709.00138（2017）12. 他T黄伟，Qiao，Y.，Yao，J.：基于级联卷积文本网络的自然图像文本精确定位arXiv：1603.09423（2016）13. 他T黄伟，Qiao，Y.，Yao，J.：文本注意力卷积神经网络，用于搜索和识别。IEEEtransacti onsonimageproce ss sing（6），252914. 网址：http://cocodataset.org/15. 黄伟，林芝，杨杰，Wang，J.：使用笔划特征变换和文本协方差描述符的自然图像中的文本定位Proceedings of the IEEEInternatio nalCo nferenceo nCom puterVisio n pp.第124116. 黄伟，Qiao，Y.，唐X：基于卷积神经网络诱导mser树的鲁棒场景文本检测。欧洲计算机视觉会议49717. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：合成数据和人工神经网络用于自然场景文本识别。arXiv预印本arXiv：1406.2227（2014）18. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：用于无约束文本识别的深度结构化ICLR（2015）19. Jaderberg，M.，西蒙尼扬，K.，Vedaldi，A.，齐瑟曼，A.：使用卷积神经网络在野外阅读文本。International Journal of Computer Vision（1），116F. Zhan，S. Lu和C. 薛20. Jaderberg，M.，Vedaldi，A.，齐瑟曼，A.：文本定位的深层功能。Euro-peanconferenceoncommputtervisionpp. 第51221. 康湖，加-地李，Y.，Doermann，D.：自然图像中的方向鲁棒文本行检测。在CVPR的Proc.（2014）22. Karatzas，D.戈麦斯-比戈达湖Nicolaou，A.，Ghosh，S.，Bagdanov，A. ， Iwamura ， M. Matas， J. ，诺伊曼湖钱德拉塞卡 V.R. Lu， S.，Shafait，F.：Icdar 2015稳健阅读竞赛。文档分析和识别（ICDAR）115623. Karatzas，D. Shafait，F.，Uchida ，S.，Iwamura，M. Mestre，S.R.，Mas，J.，Mota，D.F.，Almazan，J.A.，de las Heras，L.P.，等：Icdar2013稳健阅读竞赛。在中国。ICDAR pp.148424. Karsch，K.，Hedau，V. Forsyth，D.，Hoiem，D.：将合成对象渲染成例如cycyphotographs。ACMTransacti o nso nGra phics（6），157：125. Kim K Hong，S.，Roh，B.，Cheon，Y.，Park，M.：Pvanet：深度但轻量级的神经网络，用于实时对象检测。1608.08021（2016）26. Liao，M.，施，B.，Bai，X.，王，X.，刘伟：Textboxes：一个快速的文本检测器，具有简单的设计。AA AIpp.416127. Liu，Y.，Jin，L.：深度匹配先验网络：更紧密的多方向文本检测。CVPR（2017）28. Lu，S.，陈，T.，Tian，S.，Lim，J.H.，Tan，C.L.：基于边缘和支持向量回归的场景文本提取。International Journal on Document Analysis andReco g nit ion（2），12529. Lu，S.，Tan，C.，Lim，J.H.：从图像共现直方图中进行鲁棒且高效的显著性建模。 IEEE Transactions on Pattern Analysis and Machine Intelligence（1）（2014）

下载后可阅读完整内容，剩余1页未读，立即下载