没有合适的资源?快使用搜索试试~ 我知道了~
1UnrealText:从虚幻世界合成真实场景文本图像卡内基梅隆大学shangbal@cs.cmu.edu姚丛Megvii(Face++)TechnologyInc.yaocong2010@gmail.com图1:演示拟议的UnrealText合成引擎,它实现了照片般逼真的照明条件,找到合适的文本区域,并实现自然遮挡(从左到右,放大视图标记为绿色方块)。摘要合成数据已经成为训练场景文本检测和识别模型的关键工具。一方面,在训练场景文本识别器时,合成文字图像已被证明是真实图像然而,另一方面,场景文本检测器仍然严重依赖于大量的手动注释的真实世界的图像,这是昂贵的。在本文中,我们介绍了UnrealText,一种高效的图像合成方法,通过3D图形引擎渲染逼真的图像 3D合成引擎通过整体渲染场景和文本来提供逼真的外观,并且允许通过访问精确的场景信息来提供更好的文本区域建议,例如。正常和均匀的对象网格。综合实验验证了该方法在场景文本检测和识别上的有效性。我们还生成了一个多语言版本,为未来的研究多语言场景文本检测和识别。代码和生成的数据集发布于:https://jyouhou.github.io/UnrealText/。1. 介绍随着神经网络的兴起,过去几年在场景文本检测和识别领域取得了重大进展。然而,这些模型需要大量数据,并且收集足够的数据是昂贵的,有时甚至是困难的。此外,各种应用,从交通标志的阅读,自动驾驶车辆到即时翻译,需要专门用于每个域的大量数据,进一步加剧了这个问题。因此,合成数据和合成算法对于场景文本任务是重要的。此外,合成数据可以提供详细的注释,例如字符级甚至像素级的地面实况,由于成本高,这些地面实况对于真实图像是罕见的。目前,有几种合成算法[45,10,6,49]已被证明是有益的。特别是,在场景文本识别中,仅对合成数据[10,6]进行训练已成为广泛接受的标准实践。一些尝试在合成数据和真实数据上进行训练的研究人员只报告了大多数数据集的边际改进[15,19]。将合成数据和真实数据混合使用,只会提高现有合成数据集尚未很好覆盖的少数困难情况下的性能,例如严重模糊或弯曲的文本。这是合理的,因为裁剪的文本图像具有更简单的背景,并且合成数据在更大的词汇量和背景、字体和照明条件的多样性以及数千倍的数据样本方面享有优势。然而,相反,场景文本检测仍然严重依赖于真实世界的数据。合成数据[6,49]的作用不太重要,仅带来边际改进。现有的场景文本检测合成器遵循相同的范例。首先,他们分析背景图像,例如.通过使用现成的模型执行语义分割和深度估计。然后,宝-54885489从分割的区域中提取用于文本嵌入的潜在位置。最后,将文本图像(前景)混合到背景图像中,并从估计的深度推断出感知变换。然而,用现成的模型分析背景图像可能是粗糙和不精确的。错误进一步传播到文本建议模块,并导致文本被嵌入到不合适的位置。此外,文本嵌入过程不知道整体图像条件,例如场景的照明和遮挡。这两个因素使得文本实例从背景中突出,导致合成图像和真实图像之间的差距。在本文中,我们提出了一个合成引擎,合成的场景文本图像从三维虚拟世界。该引擎基于著名的虚幻引擎4(UE4),因此被命名为UnrealText。具体地说,文本实例被视为平面多边形网格与文本前景作为纹理加载这些网格被放置在3D世界中合适的位置,并与场景作为一个整体一起渲染。如图1,所提出的合成引擎,就其本质而言,与先前的方法相比具有以下优点:(1)文本和场景一起渲染,实现逼真的视觉效果,例如:照明、遮挡和透视变换。(2)该方法可以访问精确的场景信息,例如:法线、深度和对象网格,因此可以生成更好的文本区域建议。这些方面在训练检测器中至关重要。为了进一步开发UnrealText的潜力,我们设计了三个关键组件:(1)探索虚拟场景并生成相机视点以获得更多样和自然的背景的视图发现算法。(2)环境随机化模块,定期改变照明条件,以模拟真实世界的变化。(3)一种基于网格的文本区域生成方法,通过探测3D网格来为文本找到本文的贡献总结如下:(1)提出了一种全新的场景文本图像合成引擎UnrealText,该引擎从3D世界渲染图像,与以往的在2D背景图像上嵌入文本的方法完全不同。该引擎实现了逼真的绘制效果和较高的可扩展性. (2)利用所提出的技术,合成引擎显著提高了检测器和识别器的性能。(3)我们还生成了一个大规模的多语言场景文本数据集,这将有助于进一步的研究。2. 相关工作2.1. 合成图像照片级真实感数据集的合成一直是一个热门话题,因为它们提供了多粒度的详细地面实况注释,并且成本低于手动和手动注释。符号。在场景文本检测和识别中,使用合成数据集已成为标准做法。对于场景文本识别,其中图像仅包含一个单词,合成图像通过几个步骤渲染[45,10],包括字体渲染,着色,单应性变换和背景混合。后来,GAN [5]被纳入以保持植入文本的风格一致性[50],但它仅适用于单字图像。作为这些进展的结果,仅合成数据就足以训练最先进的识别器。为了训练场景文本检测器,SynthText [6]提出通过在背景图像上打印文本来生成合成数据。它首先用现成的模型分析图像,并在语义一致的区域上搜索合适的文本区域。文本被植入透视变换的基础上估计的深度。为了保持语义一致性,VISD [49]提出使用语义分割来过滤掉不合理的表面,如人脸。他们还采用了自适应的着色方案,以适应文本的艺术风格的背景。然而,这些方法没有考虑场景作为一个整体,无法渲染文本实例在照片般逼真的方式,和文本实例是太突出的背景。到目前为止,检测器的培训仍然严重依赖于真实图像。虽然GAN和其他基于学习的方法在生成逼真图像方面也表现出了巨大的潜力[47,16,12],但场景文本图像的生成仍然需要大量的手动标记数据[50]。然而,这种数据有时不容易收集,特别是对于低资源语言等情况。最近,使用3D图形引擎合成图像在多个领域变得流行,包括人体姿态估计[42],场景理解/分割[27,23,32,34,36]和对象检测。[28,41,8].然而,这些方法或者考虑简单的情况,例如,在静态背景图像上渲染3D对象[28,42]并随机排列填充有对象的场景[27,23,34,8],或者被动地使用现成的3D场景而不进一步改变它[32]。与这些研究相比,我们提出的合成引擎实现了与3D场景的主动和规则的交互,以生成逼真和多样化的场景文本图像。2.2. 场景文本检测与识别场景文本检测和识别可能是最以人为中心的计算机视觉任务,多年来一直是一个热门的研究课题[48,20]。在场景文本检测中,主要有两种方法学分支:自上而下的方法,继承了一般对象检测器的区域规划网络的思想,将文本实例检测为旋转的矩形和多边形[18,52,11,51,46];自下而上的方法,预测局部段和局部几何属性,并将它们组合成内部对象。5490个别文本实例[37,21,2,39]。尽管在单个数据集上有了显著的改进,但那些最广泛使用的基准数据集通常非常小,测试集中只有大约500到1000张图像,因此很容易过度拟合。不同领域的推广能力仍然是一个悬而未决的问题,尚未研究。究其原因,是由于真实数据非常有限,合成数据不够有效。因此,我们的合成引擎的一个重要的动机是作为一个垫脚石一般场景文本检测。大多数场景文本识别模型由基于CNN的图像特征提取器和注意力LSTM [9]或基于Transformer [43]的编码器-解码器组成,以预测文本内容[3,38,15,22]。由于编解码器模块本质上是一种语言模型,场景文本识别器对训练数据的要求很高,训练数据的词汇量很大,这对于真实世界的数据是极其困难的。此外,场景文本识别器处理的是具有简单背景的图像作物因此,合成数据对于场景文本分析器是必要的,并且合成数据本身通常足以实现最先进的性能。此外,由于识别模块需要大量数据,因此在训练端到端文本识别系统时也需要合成数据[17,7,29]。3. 三维虚拟世界中的场景文本3.1. 概述在本节中,我们将详细介绍我们的场景文本图像合成引擎UnrealText,它是在UE4和UnrealCV插件上开发的[30]。合成引擎:(1)产生照片般逼真的图像,(2)3.2. 取景器取景器模块的目的是从3D场景的整个空间中自动确定合理且非平凡的一组相机位置和旋转,从而去除诸如来自内部对象网格(例如,图3右下)。基于学习的方法,例如导航和探索算法,可能需要额外的训练数据,并且不能保证推广到不同的3D场景。因此,我们转向基于规则的方法并设计配备有辅助相机锚的物理约束的3D随机行走(图3第一行)。3.2.1物理约束的三维随机游动从一个有效的位置开始,物理约束的3D随机游走的目标是找到下一个有效的和非平凡的位置。与有效相反,如果位置位于对象网格内部或远离场景边界,则位置无效。非平凡位置不应否则,新的视点将与当前视点相似。所提出的3D随机游走使用受物理约束的光线投射[35]来检查物理环境以确定有效和非平凡的位置。在每一步中,我们首先随机改变摄像机旋转的俯仰和然后,我们从摄像机位置向视点方向光线在碰到任何对象网格或达到固定的最大长度时停止。通过设计,从当前位置到停止位置的路径没有任何障碍,即,不在任何对象网格内。因此,沿此射线路径的点都是有效的。最后,我们在这条路径的第1个和第2个之间随机采样一个点,并将其设置为新位置3 3效率高,仅需1 - 1。5秒来渲染和生成新的场景文本图像,并且(3)是通用的并且与现成的3D场景模型兼容。如图2、流水线主要由取景器模块(秒-第3.2节)、环境随机化模块(第3.3节)、文本区域生成模块(第3.4节)和文本渲染模块(第3.5节)。首先,取景器模块用相机探索3D场景,生成相机视点。然后,随机调整环境照明。然后,在图形引擎中,基于2D场景信息提出文本区域,并利用3D网格信息进行细化。之后,文本前景将使用随机采样的字体、颜色和文本内容生成,并作为平面网格加载。最后,我们检索RGB图像和相应的文本位置以及文本内容来制作合成数据集。这是很重要的所提出的随机游走算法可以产生不同的摄像机视点。3.2.2辅助摄像机附件然而,所提出的随机游走算法在探索方面是低效的因此,我们在3D场景中手动选择一组N个在每T步之后,我们将相机的位置重置为随机采样的相机锚点。我们设置N=150-200,T=100。请注意,选择相机时代锚只需要很少的谨慎.我们只需要确保覆盖整个空间。每个场景大约需要20到30秒,这是微不足道的,不是可伸缩性的瓶颈手动但有效的相机选择是兼容的随机游走算法,产生不同的观点。5491图2:所提出的合成方法的流水线箭头指示顺序。为了简单起见,我们只显示一个文本区域。从左至右:场景概览、不同的视点、各种照明条件(灯光颜色、强度、阴影等),文本区域生成和文本呈现。图3:在第一行(1)-(4)中,我们说明了物理约束的3D随机游走。为了更好地可视化,我们使用相机对象来表示视点(用绿色框和箭头标记)。在第二行中,我们将所提出的方法的视点与随机采样的视点进行比较。3.3. 环境随机化为了产生真实世界的变化,如照明条件,我们随机改变场景中所有光源的强度,颜色和方向除了照明,我们还添加雾条件,并随机调整其强度。环境随机化增加了生成图像的多样性,并导致更强的检测器性能。所提出的随机化也可以有益于模拟到实数域的自适应[40]。3.4. 文本区域生成在现实世界中,文本实例通常嵌入在定义良好的表面上,例如。交通标志,以保持良好的易读性。以前的工作通过使用估计的场景信息来找到合适的区域,例如Syn中的gPb-UCM [1]thText [6]或VISD [49]中的显着图用于近似。然而,这些方法是不精确的,往往无法找到合适的区域。因此,我们建议在3D世界中通过探测对象网格来找到文本区域。由于检查所有对象网格是耗时的,我们提出了一个2阶段的流水线:(1)检索地面真值表面法线映射生成初始文本区域命题;(2)初始建议然后使用对象网格投影到3D世界中并在3D世界中进行细化。最后,我们从细化的提案中抽取一个子集进行渲染。为了避免方案之间的遮挡,我们将它们投影回屏幕空间,并以打乱的顺序逐个丢弃彼此重叠的区域,直到遮挡消除。3.4.1法线映射的初步建议在计算机图形学中,法线值是垂直于曲面的单位向量。因此,当投影到2D屏幕空间时,具有相似法线值的区域往往是要在其上嵌入文本的定义明确的区域我们发现通过应用64×64的滑动窗口,表面法线贴图上的像素,并检索这些像素具有光滑表面法线:任何两个像素之间的最小余弦相似值大于阈值t.我们把t设为0。95,这证明产生了合理的结果。我们随机抽取最多10个不重叠的有效图像区域来进行初始建议。使从法线映射中提出的建议是找到潜在可见区域的有效方法。3.4.2在3D世界如图4、矩形初始提案在2D屏幕空间投影到3D时会失真5492图4:初步提案的完善说明。我们绘制绿色边界框来表示2D屏幕空间中的建议,并使用平面网格来表示3D空间中的建议。(1)在2D空间中提出初步建议(2) 当我们把它们投射到3D世界中,从正面观察它们时,它们是扭曲的形式。(3)根据变形方案的大小和中心点的位置,我们重新初始化相同表面上的正交正方形,其水平边与重力方向正交。(5)然后我们扩大广场。(6)最后,我们在2D屏幕空间中获得具有自然透视变形的文本区域。世界因此,我们需要首先纠正3D世界中的建议。我们将初始建议的中心点投影到3D空间中,并在中心点周围的相应网格表面上重新初始化正交正方形:水平边垂直于重力方向。边长设置为通过将初始方案的四个角投影到3D空间中而创建的四边形的最短边然后,我们扩大宽度和高度沿水平和垂直的侧面交替。当一个方向的侧边离开表面1、撞击其他网格或达到预设的最大膨胀比时,该方向的膨胀停止。所提出的细化算法在3D世界空间中工作,并且能够在2D屏幕空间中产生自然的单应性变换。3.5. 文本渲染生成文本图像:给定如在3.4节中提出和细化的文本区域,文本生成模块对文本内容进行采样,并使用某些字体和文本颜色呈现文本图像。行数和每行字符数由字体大小和2D空间中细化提案的大小确定,以确保字符不会太小并确保易读性。为了更公平的比较,我们还使用了与SynthText相同的Google Fonts2字体集我们还使用相同的文本语料库Newsgroup20。生成的文本图像在非笔划像素上的alpha值为零,在其他像素上的alpha值为非零。1当矩形方案的角在3D世界中渲染文本:我们首先执行三角形的细化建议,以生成平面三角形网格是紧密相连的基础表面。然后我们将文本图像作为纹理加载到生成的网格上。我们还随机采样纹理属性,如漫反射和镜面反射的比例。3.6. 实现细节该合成引擎基于UE4.22和UnrealCV插件实现。在一个 Ubuntu 工 作 站 , 与 8 核 英 特 尔 CPU , NVIDIAGeForce RTX 2070GPU和16 G RAM,合成速度为0。七比一5秒每图像的分辨率为1080×720,取决于-场景模型的复杂性。我们收集了30个场景模型从官方的UE4市场。该引擎用于生成600K的场景文本图像与英文单词。使用相同的配置,我们还生成了一个多语言版本,使其成为最大的多语言场景文本数据集。4. 场景文本检测4.1. 设置我们首先通过在合成图像上训练检测器并在真实图像数据集上对其进行评估来我们使用以前经过时间考验的最先进的模型EAST [52],它快速而准确。EAST还形成了几个广泛认可的端到端文本定位模型的基础[17,7]。我们采用开源实现3.在所有实验中,模型都是在4个GPU上训练的,批量大小为56。在评估期间,调整测试图像的大小以匹配800像素的短边长度基准数据集我们使用以下场景文本检测数据集进行评估:(1)ICDAR 2013模糊场景文本(IC13)[14]包含带有放大视图的水平文本。(2)ICDAR 2015 IncidentalScene Text(IC15)[13]由不小心使用Google Glass拍摄的图像组成。图像模糊,文字很小。(3) MLT 2017[26]用于多语言场景文本检测,由9种语言的场景文本图像组成。4.2. 实验结果纯合成数据我们首先在不同的合成数据集上单独训练EAST模型,以直接和定量的方式将我们的方法与以前的方法进行比较。请注意,我们的,SynthText和VISD具有不同数量的图像,因此我们还需要控制实验中使用的图像数量。结果总结见表。1.一、首先,我们将图像的总数控制在10K,这也是最小合成数据集的完整大小,底层曲面网格上的测试点超过特定阈值2https://github.com/argman/EASThttps://fonts.google.com/5493视觉。我们观察到IC 15比先前的最先进技术有相当大的改进,提高了+0。9%的F1评分,以及IC13的显著改善(+3。5%)和MLT 2017(+2。8%)。 其次,我们还在SynthText和我们的全集上训练模型,因为可扩展性也是合成数据的一个重要因素,特别是在考虑训练识别器的需求时。额外的训练图像进一步提高了IC15、IC13和MLT的F1评分+2。6%,+2。3%,+2。百分之一。使用UnrealText训练的模型数据优于所有其他合成数据集。此外,在所有数据集上,使用我们的方法的10K图像的子集甚至显著超过800KSynthText图像。实验结果证明了我们提出的合成引擎和数据集的有效性训练数据IC15IC13MLT 2017SynthText 10K46.360.838.9VISD 10K(完整)64.374.851.4我们的一万65.278.354.2SynthText 800K(完整版)58.067.744.8我们的600K(全)67.880.656.3我们的5K + VISD 5K66.980.455.7表1:在不同合成数据上训练的EAST模型的检测结果(F1分数)。所提出的UnrealText的一个独特特征是,图像是从3D场景模型生成的,而不是真实的背景图像,由于不同的艺术风格导致潜在的域间隙。我们通过在UnrealText数据(5K)和VISD(5K)上进行训练来进行实验,如Tab. 1(最后一行,用斜体标记),它实现了比其他10K合成数据集更好的性能。这一结果表明,我们的UnrealText是对现有使用真实图像作为背景的合成数据集的补充。虽然UnrealText模拟照片般逼真的效果,但具有真实背景图像的合成数据可以帮助适应真实世界的数据集。合成数据和真实数据的结合合成数据的一个重要作用是作为预训练的数据,并进一步提高特定领域真实数据的性能。数据集。我们首先用不同的合成数据对EAST模型进行预训练,然后用领域数据对模型进行微调。结果总结见表。二、在所有特定领域的数据集上,使用我们的合成数据集预训练的模型以相当大的幅度超过其他模型,验证了我们的合成方法在提升特定领域数据集性能方面的有效性。在完整数据集上进行预训练如选项卡的最后几行所示。2.当我们使用完整的数据集对检测器模型进行预训练时,性能得到了显著提高,证明了我们的引擎的可扩展性优势。 特别是EAST模型,其F1得分ICDAR 2015训练数据PRF1IC1584.678.581.4IC15 + SynthText 10K85.679.582.4IC 15 + VISD 10K86.380.083.1IC15 +我们的10K86.981.083.8IC 15+我们的600K(完整)88.580.884.52013年国际荒漠化公约评估训练数据PRF1IC1382.670.075.8IC13 + SynthText 10K85.372.478.3IC 13 + VISD 10K85.973.179.0IC13 +我们的10K88.574.781.0IC13 +我们的600K(完整)92.373.481.8MLT 2017训练数据PRF1MLT 201772.967.470.1MLT 2017 + SynthText 10K73.167.770.3MLT 2017 + VISD 10K73.367.970.5MLT 2017 +我们的10K74.668.771.6MLT 2017 +我们的600K(完整)82.267.474.1表2:在合成数据集上预训练然后在真实数据集上微调的EAST模型的检测性能。为74. 1,这甚至优于最近的最先进的结果,包括73。[2]第9话,73[51]第51话虽然差距不大,但足以说明EAST模型在我们的合成数据集的帮助下恢复并恢复了最4.3. 模块级消融分析关于从3D虚拟场景合成的一个合理关注在本节中,我们将讨论所提出的视图查找模块和环境随机化模块在增加合成图像多样性方面的重要性。我们从所提出的取景器模块推导出两个基线:(1)随机视点+手动锚点,从中心的法线球空间随机采样相机位置和旋转周围都是辅助摄像头(2)随机视点仅从整个场景空间随机采样相机位置和在实验中,我们将场景数固定为10,以控制场景多样性,并生成不同数量的图像,并比较它们的性能曲线。通过固定场景的数量,我们比较了不同的视图查找方法可以利用场景。移除环境随机化模块,在合成过程中保持场景模型不变。对于实验,我们将图像总数固定为10K,并使用不同的5494图5:消融测试结果:(a)烧蚀取景器模块;消融环境随机化模块。场景的数量通过这种方式,我们可以比较不同方法生成的图像的多样性。我们用不同数量的图像或场景训练EAST模型,在3个真实数据集上对其进行评估,并计算F1分数的算术平均值。如图5(a),我们注意到拟议的合并,即随机游走+手动锚定,对于不同数量的图像,始终获得特别是,更大规模的训练集会导致更大的性能差距。并分别对这三种方法生成的图像进行了检验。当从同一锚点出发时,所提出的随机游走可以产生更多样的视点,并且可以遍历更大的区域。相比之下,随机视点+手动Anchor方法仅当我们为随机位置设置小的标准球大小时退化为随机旋转,或者当我们设置大的标准球大小时退化为仅随机视点因此,随机视点+手动锚点方法需要仔细手动选择锚点,并且我们还需要手动调整不同场景的标准球大小,这限制了合成引擎的可扩展性。同时,我们提出的基于随机游走的方法对人工锚点的选择更加灵活和鲁棒。 至于仅随机视点方法,生成的视点的大部分是无效的,例如,在其他对象网格内部,这对于真实图像来说是不分布的。这解释了为什么它会导致最差的性能。从图5(b)中,主要观察结果是环境随机化模块一致地改善了不同场景数的性能。此外,当我们使用更少的场景时,改进更显着因此,我们可以得出结论,环境随机化有助于增加图像的多样性,同时,可以减少所需的场景的数量。此外,随机照明条件实现了不同的现实世界变化,这也是我们认为的关键因素。5. 场景文本识别除了在训练场景文本检测模型方面的优越性能外,我们还验证了其在场景文本识别任务中的有效性5.1. 识别拉丁场景文本5.1.1设置模型我们选择了一种广泛接受的基线方法ASTER[38],并采用了在ICDAR 2019 ArT竞赛中排名前1的实现4[19]。这些模型的训练批量为512。总共识别了95个符号,包括一个句尾标记、52个区分大小写的字母、10个数字和32个可打印的标点符号。训练数据集从600K英文合成图像中,我们获得了总共12M个单词级图像区域来制作我们的训练数据集。还应注意,我们的合成数据集提供字符级注释,这在某些识别算法中将是有用。评估数据集我们在几个广泛使用的真实图像数据集上评估在不同合成数据集上训练的模型:IIIT [24],SVT[44],ICDAR 2015(IC15)[13],[31][33][34][35][36][37然而,其中一些数据集的注释并不完整,如IIIT、SVT、SVTP、CUTE等.虽然这些数据集包含标点符号、数字、大写和小写字符,但上述数据集仅提供不区分大小写的注释并忽略所有标点符号。为了对场景文本识别进行更全面的评估,我们以区分大小写的方式重新注释了这4个数据集,并且还包括标点符号。我们还发布了新的注释,我们相信它们将成为未来场景文本识别的更好基准。5.1.2实验结果实验结果总结见表1。4.第一章首先,我们将我们的方法与以前的合成数据集进行比较。我们必须将训练数据集的大小限制在1M,因为VISD只发布1M单词图像。我们的合成数据在所有数据集上实现了一致的改进。特别是,它在具有不同文本样式和复杂背景的数据集(如SVTP(+2。4%)。实验证明了该方法在场景文本识别中的有效性,特别是在复杂场景文本识别中。由于小规模的实验对研究人员如何利用这些数据集没有太大帮助,我们进一步在Synth90K,SynthText和我们的组合上训练模型我们首先将训练图像的总数限制为9M。当我们训练三种合成药物的组合时数据集,每个数据集有3M,该模型的性能优于模型在4上训练。仅5M×2数据集。我们进一步观察到,在3M×3合成数据集上的训练是一致的。4https://github.com/Jyouhou/ICDAR 2019-艺术-认可-Alchemy5495训练数据拉丁阿拉伯语Bangla中国印地语日本韩国符号混合整体ST(1.2M)34.650.517.743.915.721.255.744.79.834.9我们的(1.2M)42.250.316.544.830.321.754.616.725.036.5我们的(满,4.1M)44.351.119.747.933.124.257.325.631.439.5MLT19-train(90K)64.347.246.911.946.923.339.135.93.645.7MLT 19-系列(90 K)+ST(1.2M)63.862.048.950.747.733.964.545.510.354.7MLT19-train(90K)+Ours(1.2M)67.863.053.747.764.035.762.944.326.357.9表3:多语言场景文本识别结果(单词级准确度)。 拉丁语聚合了英语、法语、德语和意大利语,因为它们在MLT数据集中都标记为拉丁语这就好比在整个Synth90K和SynthText上进行训练,同时使用更少的训练数据。这一结果表明,最佳做法是将拟议的合成数据集与以前的数据集相结合。训练数据IIITSVTIC15SVTP可爱总90K [10](1M)51.639.235.737.230.930.5ST [6](1M)53.530.338.429.531.231.1[49]第49话53.937.137.136.330.530.9我们的(1M)54.840.339.139.631.632.1ST+90K(4. 5M×2)80.570.158.460.063.943.2ST+90 K+我们的(3M×3)81.671.961.861.767.745.7ST+90 K(16M)81.271.262.062.365.144.7表4:英文数据集的结果(单词级准确度)。5.2. 识别多语言场景文本5.2.1设置尽管MLT 2017已被广泛用作检测基准,但识别多语言场景文本的任务仍然基本上未受影响,主要原因是缺乏适当的训练数据集。为了为未来的研究铺平道路,我们还生成了一个多语言版本,其中包含MLT 2019中包含的10种语言的600K图像[25]:阿拉伯语,孟加拉语,中文,英语,法语,德语,印地语,意大利语,日语和韩语。文本内容从维基媒体转储5中提取的语料库中采样。模型我们使用与第5.1节相同的模型和实现,除了要识别的符号扩展到生成的数据集中出现的所有字符。训练和评估数据我们从建议的多语言数据集中进行裁剪。我们丢弃宽度小于32像素的图像,因为它们太模糊,并获得4。100万字图片。我们与MLT 2019竞赛提供的多语言版本的SynthText进行了比较,该竞赛包含总数1。200万张图片为了进行评估,我们从MLT 2019的训练集中随机分离了每种语言(包括对称和混合)的1500张图像。训练集的其余部分用于训练。5.2.2实验结果实验结果见表1。3 .第三章。当我们只使用合成数据并将图像数量控制为1时。2M,5https://dumps.wikimedia.org我们的结果是1. 6%的总体准确率,以及对某些脚本的重大改进例如拉丁语(+7. 6%)和混合(+21。6%)。使用整个训练集4。1M图像进一步提高了整体准确性,达到39.百分之五当我们在合成数据和MLT19的训练分割的组合上训练模型时,如选项卡底部所示。3,我们仍然可以观察到我们的方法比SynthText有相当大的差距。总体准确度为2%实验结果表明,该方法在多语种场景文本识别中也有较好的效果,相信这一结果将成为进一步研究的垫脚石。6. 局限性和未来工作有几个方面值得深入探讨:(1)总的来说,引擎是基于规则和人为选择的参数。自动选择和搜索这些参数可以节省人力,并有助于适应不同的场景。(2)虽然渲染小文本可以帮助训练检测器,但小文本的低图像质量使识别器更难训练并损害性能。设计一种方法,将难以辨认的标记为困难,并将其排除在损失计算之外,可能有助于缓解这一问题。(3)对于多语言场景文本,除拉丁文外的脚本具有更少的可用字体,我们可以轻松访问。为了提高更多语言的性能,研究人员可以考虑基于学习的方法将拉丁字体转换为其他脚本。7. 结论在本文中,我们介绍了一个场景文本图像合成引擎,渲染图像与3D图形引擎,其中的文本实例和场景作为一个整体。在实验中,我们验证了所提出的引擎在场景文本检测和识别模型的有效性。我们还研究了所提出的发动机的关键部件。我们相信我们的工作将是迈向更好的合成算法的坚实垫脚石。确认本研究得到了国家重点科技攻关项目(2004年第10号)的资助2017YFA0700800)。5496引用[1] 巴勃罗·阿贝莱斯,迈克尔·梅尔,查利斯·福克斯,还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence,33(5):898[2] Youngmin Baek、Bado Lee、Dongyoon Han、SangdooYun和Hwalsuk Lee。用于文本检测的字符区域感知在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第9365-9374页,2019年。[3] Zhanzhan Cheng , Xuyang Liu , Fan Bai , Yi Niu ,Shiliang Pu,and Shuigeng Zhou.面向语义的文本识别。CVPR 2018,2017。[4] Chee Kheng ChTotal-text:用于场景文本检测和识别的在Proc. ICDAR,第1卷,第935-942页[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Proc. NIPS,第2672-2680页[6] Ankush Gupta,Andrea Vedaldi,Andrew Zisserman.用于自然图像中的文本定位的合成数据在Proc. CVPR,第2315-2324页[7] 何彤、田智、黄伟林、沈春华、乔宇、孙长明一个端到端的textspotter,具有明确的对齐和注意力。在Proc.CVPR,第5020-5029页,2018年。[8] Stefan Hinterstoisser , Olivier Pauly , Hauke Heibel ,Martina Marek,and Martin Bokeloh.保存的注释是获得的注释:使用全合成训练进行物体检测。CoRR,abs/1902.09967,2019。[9] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735[10] 马克斯·贾德伯格,凯伦·西蒙尼安,安德里亚·维达尔迪,和安德鲁·齐瑟曼.自然景物文本识别的合成数据和人工神经网络。arXiv预印本arXiv:1406.2227,2014。[11] Yingying Jiang,Xiangyu Zhu,Xiaobing Wang,ShuliYang , Wei Li , Hua Wang , Pei Fu , and ZhenboLuo.R2cnn:旋转区域cnn用于方向鲁棒场景文本检测。arXiv预印本arXiv:1706.09579,2017。[12] Amlan Kar , Aayush Prakash , Ming-Yu Liu , EricCameracci,Justin Yuan,Matt Rusiniak,David Acuna,Antonio Torralba,and Sanja Fidler.Meta-sim:学习生成合成数据集。arXiv预印本arXiv:1904.11621,2019。[13] Dimosthenis Karatzas,Lluis Gomez-Bigorda,AnguelosNicolaou,Suman Ghosh,Andrew Bagdanov,MasakazuIwa- mura , Jiri Matas , Lukas Neumann , VijayRamaseshan Chan- drasekhar , Shijian Lu , et al.Icdar2015稳健阅读竞赛2015年第13届国际文档分析与识别会议(ICDAR),第1156IEEE,2015年。[14] Dimosthenis Karatzas,Faisal Shafait,Seiichi Uchida,Masakazu Iwamura , Lluis Gomez i Bigorda , SergiRobles Mestre,Joan Mas,David Fernandez Mota,JonAlmazan Al-mazan , and Lluis Pere de las Heras.Icdar2013稳健阅读比赛。2013年第12届国际会议文件分析和识别(ICDAR),第1484- 1493页。IEEE,2013。[15] Hui Li,Peng Wang,Chunhua Shen,and Guyu Zhang.显示、出席并阅读:用于不规则文本识别的简单而强大的基线。AAAI,2019年。[16] Chen-Hsuan Lin , Ersin Yumer , Oliver Wang , EliShechtman,and Simon Lucey.St-gan:用于图像合成的空间Transformer生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第9455-9464页,2018年[17] Xuebo Liu ,Ding Liang , Shi Yan , Dagui Chen , YuQiao,and Junjie Yan.Fots:通过统一的网络快速定位文本。Proc. CVPR,2018.[18] 刘玉良和金连文深度匹配先验网络:更紧密的多方向文本检测。 在proc CVPR,2017年。[19] 龙上邦、关宇硕、王炳轩、卞开贵、姚聪。炼金术:基于纠正 的不规则场景 文本识别技 术。arXiv预印本arXiv:1908.11834,2019。[20] 上邦龙、新赫、从耀。场景文本检测和识别:深度学习时代。arXiv预印本arXiv:1811.04256,2018。[21] Shangbang Long , Jiqiang Ruan , Wenjie Zhang , XinHe,Wenhao Wu,and Cong Yao.Textsnake:一个灵活的表示,用于检测任意形状的文本。Proc. ECCV,2018。[22] Pengyuan Lyu,Zhicheng Yang,Xinhang Leng,XiaojunWu,Ruiyu Li,and Xiaoyong Shen.二维注意不规则场景 文 本 识 别 器 。 arXiv 预 印 本 arXiv : 1906.05708 ,2019。[23] John McCormac 、Ankur Handa 、Stefan Leutenegger 和Andr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功