没有合适的资源?快使用搜索试试~ 我知道了~
综合监督特征学习的场景文本识别Yang Liu1,Zhaowen Wang2,Hailin Jin2,Ian Wassell11英国剑桥大学计算机实验室{yl504,ijw24}@ cam.ac.uk2 Adobe Research,加利福尼亚州,美国{zhawang,hljin}@ adobe.com抽象。我们解决了场景文本识别的图像特征学习问题。最先进的方法中的图像特征是从大规模合成图像数据集学习的。然而,大多数方法仅依赖于合成数据生成过程的输出,即逼真的图像,并且完全忽略该过程的其余部分我们建议利用导致输出图像的参数来改进图像特征学习。具体地,对于数据生成过程之外的每个图像,我们获得相关联的参数并渲染不具有应用于输出图像的特定数据的自由的“自由”图像由于不存在失真因素,干净的图像往往比原始图像更容易识别,可以用作监督。我们设计了一个多任务网络与编码器鉴别器生成器架构,以指导对清洁图像的原始图像的功能。实验表明,我们的方法显着优于国家的最先进的方法在标准的场景文本识别基准的词汇自由的类别。此外,我们表明,没有显式处理,我们的方法工作在具有挑战性的情况下,输入图像包含严重的几何失真,如文本的弯曲路径。关键词:场景文本识别,深度学习,神经网络,特征学习,合成数据,多任务学习1介绍场景文本识别,即对自然场景图像中的文本进行识别的问题,由于文本在人与人之间的交流方式中的重要性,在图像理解和计算机视觉中一直占有特殊的地位。它具有广泛的实际应用,包括自动驾驶,机器人和无人机,移动电子商务以及帮助视障人士。图像特征在场景文本识别中起着至关重要的作用。早期的方法使用手工制作的功能,并将问题分解为子问题,如字符检测[34,36,38]。最先进的方法使用卷积神经网络,并以端到端的方式从图像直接训练到文本[17,27]。2Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell随机因素����特征预测�������������Canon ic alfactors(渲染)(渲染)图1:提出的文本特征学习框架。顶部的蓝色阴影框包含通用文本识别流水线,其中输入图像x经过特征编码E和特征编码T,结果是预编码的特征编码。 通过一种综合监督的方法,我们使用真实文本标签y来渲染不仅是输入图像x的任何一个文本,而且是所有与文本相关的图像x。编码的函数f=E(x)是一个抽象的概念,它包含了一个函数f=E(x),也就是以便通过图像生成器G再现干净的图像。 对抗匹配损失由鉴别器DI和DF施加在图像和特征域两者上。最先进方法中的关键因素之一是使用大规模合成图像数据集来训练卷积神经网络[17]。使用合成数据的能力在文本识别问题中是特殊的 由于文本不是自然对象,我们能够生成无限量的类似于真实世界图像的标记图像。 在生成过程中,我们可以操纵讨厌的因素,如字体,照明,阴影,边界,背景,图像噪声,几何变形和压缩文物。因此,在具有这些因素的合成数据上训练的图像特征将对它们的变化具有鲁棒性,从而显著提高识别精度。真实图像和合成图像之间存在根本区别,即合成图像是通过机器学习算法可控制的过程获得的该过程不仅提供了无限量的训练数据(图像和标签),而且还提供了与数据相关联的参数。这种差异在文献中被完全忽略了例如,大多数最先进的方法遵循简单的训练过程,并且仅利用丰富的合成数据来训练图像特征。这项工作的关键思想是,我们可以利用真实图像和合成图像之间的差异具体地,对于来自具有前述滋扰因素的生成过程的每个合成图像,我们获得相关联的渲染参数,操纵参数,并且生成对应的干净图像,其中我们去除部分或全部滋扰因素。例如,原始图像可以具有透视扭曲,并且干净图像不包含任何几何变形。因为“阳极氧化”综合监督特征学习的场景文本识别3由于没有干扰因素,干净图像中的文本通常更容易识别,因此可以用作监督。通过在有和没有干扰因素的合成图像上进行训练,我们期望学习一种对不期望的干扰因素不变的更鲁棒的文本识别特征。我们所提出的方法的总体框架,我们称之为综合监督特征学习,如图所示。1.我们以生成的方式在像素级和特征级使用cleans图像作为监督,并设计辅助训练损失,这些损失可以与任何深度网络模型的常规训练目标相结合,用于文本识别。我们遵循两个原则-特征不变性要求编码器为任意输入图像x提取相同的特征,并在编辑图像x′上进行修改:E(x)=E(x′)。Fe-真正的完整性要求所有的文本标签信息都包含在E(x)中。这相当于要求存在一个逆映射或图像生成器G(·),它可以将编码特征变换回确定性图像:G(E(x))=x′。由于从图像中提取的补充信息应用于图像和特征域,因 此 除 了使 用 基 本 的 1或 2 损 失 之 外, 还 可 以 使 用 生 成对 抗 网 络(GAN)[7]来帮助特征学习。因此,我们还探索使用鉴别器DI(·)和DF(·)来鼓励所生成的图像和特征分别与它们的干净对应物更相似。我们的实验结果表明,通过正确的组合,不变性,完整性和对抗性损失都有助于文本特征对讨厌因素更具鲁棒性。本文的主要贡献有三个方面:1.我们建议杠杆年龄的数据生成过程的可控性,并引入干净的图像,是免费的副产品作为辅助训练数据的场景文本识别。否则,我们的方法不需要在生成过程中的其他滋扰因素的信息我们提出了一种通用算法,使用干净的图像作为额外的监督,可以应用于大多数基于深度学习的文本识别模型。2.我们设计了一种新的场景文本识别算法,通过图像生成,特征匹配和对抗训练来学习描述性和鲁棒性的文本表示(图像特征)。我们进行了详细的消融研究,通过检查每个拟议的组成部分的有效性。3.第三章。我们的方法在各种场景文本识别基准测试中达到了最先进的性能,并且在无词典类别中显著优于最先进的性能此外,我们的方法推广到不规则的文本识别,如透视文本和弯曲的文本识别。2相关工作场景文本识别是图像理解和计算机视觉中的一个重要研究领域。关于这一主题有大量的文献。我们将只讨论密切相关的工作在这里,并提请读者最近的调查[34,36,4Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell#38388;更深入的了解。[32,14,15]是使用深度卷积神经网络作为场景文本识别的图像特征的早期作品之一[17]将问题公式化为90K类卷积神经网络,其中每个类对应于一个英语单词。[17]的关键贡献之一不足以训练深度卷积神经网络。该合成数据集随后被后续工作所采用。为了克服在训练中使用固定词典的问题,[16]提出了一种联合图形模型,[27]提出了一种端到端序列识别网络,其中图像和文本分别编码为补丁序列和字符序列。如有必要,可在考试时引入词典。[20,4,5]是采用基于注意力的网络来处理复杂的文本失真和低质量图像的最新方法之一。我们的方法遵循使用卷积神经网络和序列识别的问题的一般方向。我们的贡献在于使用的合成数据生成过程中的渲染参数,以获得新的干净的参考图像。我们利用原始图像和干净图像来指导图像特征学习。据我们所知,这是场景文本识别中第一个使用辅助参考图像来改进特征学习的工作,与其他生成式多任务学习工作共享类似的理念[35,30,24]。我们表明,我们的方法可以纠正输入图像中存在的几何失真这与[28]有关,[28]使用空间Transformer网络在识别管道之前校正图像。然而,[28]采用手工设计的架构,仅适用于几何失真,而我们的方法以统一的方式适用于任意失真只要合成数据生成过程可以模拟失真,我们的方法就可以通过特征学习来纠正它。3方法我们构建了一个用于文本识别的综合监督特征学习框架,如图所示1.一、它由文本图像渲染器R、特征编码器E、文本解码器T、图像生成器G以及两个鉴别器DI和DF组成。我们将在下文中讨论这些组件中的每一个及其相互作用。渲染器:我们使用标准文本渲染器R来合成文本图像x= R(y,z),其中包含文本字符串y和渲染参数z。 z描述了如何在渲染图像中添加干扰因素,并且从覆盖各种因素(包括字体、轮廓、颜色、阴影、背景、透视扭曲和成像噪声)的组合的分布中随机抽取。 通过将 重新 定 义的 参 数固 定 到一 个 值, x或tex y的干净图像x ¯sy被设置为R(y,¯z)。在我们的情况下,如果您将数据存储并创建 备 份 , 则 您 将 在Fig中使用一个文件信息x。1.一、在我们的框架k中,所述第二个预存的存储器是存储器{(x,x’,y)},并且它是不可行的。编码器和文本解码器:编码器E获取输入图像X以提取其图像特征f,该图像特征f被进一步馈送到文本解码器T中以预指示字符序列y。Cros-modalencoder-decoderstrucre综合监督特征学习的场景文本识别521表示用于场景文本识别的通用深度网络设计。我们遵循[27]的先前工作来构建这两个组件。具体来说,E是一个提取3D特征图f的多层全卷积网络,T是一个双层双向长短期记忆(BLSTM)网络[11,10],它通过解决序列标签问题来预测文本首先将特征图f变换为序列{f1,…通过从左到右水平地展平从f切片的N个特征段。由于CNN的平移不变属性,每个特征帧fn对应于可以包含文本字形的一个或一部分的第n个BLSTM解码器T以特征序列为输入,分析特征帧间的相关性,并预测每个fn对应的字符概率分布πn。πn的概率空间包括所有英文字母数字字符以及用于单词分隔的空白标记。最后,将per-framepediction{π1,…通过波束搜索,将πT}arran定位到最佳预处理器如在[27]中,E和T的网络分支可以通过最小化来训练概率序列{π1,…π T}和真实文本y使用联结主义时间分类(CTC)技术[9]。CTC将y的可变长度字符序列与固定长度概率序列对齐,使得y的条件概率可以基于在{π1,…π T}。由来自y的直接监督给出的训练损失可以总结为minLy= p(y|T(E(x)=E、TΣYTπt(y~t),(1)y~:B(y~)=yt=1其中,B是针对1个T的等式的CTC映射,并且y~ td e n o t e n y ~ t e nteto k en t et特征匹配和图像生成器:我们利用cleanimagex¯s的动机是在描述文本内容时充分考虑到不同的干扰因素和完整性。 在不变性方面,我们显式地最小化从X和X’提取的特征之间的差异,因为两个图像具有相同的特征:minLf=E(x)−E(x¯)。(二)E在复杂度中,我们要求在可由特征E(x)捕获的分类信息x中的所有形式。等价地,应该存在一个图像生成器Gthatcanreconstructx¯givevenE(x)。对于图像,我们将结构G作为解卷积网络,其与编码器E联合训练以最小化图像重建损失:minLg=<$G(E(x))−x<$。(三)E、G一个改进的分布式算法:随着应用于图像和特征域的分类算法x的改进,我们还探索了生成对抗网络(GAN)[7]的思想,以帮助提高分布相似性6Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell由G(E(x))/E(x)和一个线性函数x′/E(x′)组成。 我们设计图像鉴别器DI和特征鉴别器DF,其试图区分噪声和干净输入源。这两个鉴别器都是具有二进制分类输出的卷积网络,并且它们以对抗性极大极小风格针对E和G进行训练m inm axLga=logDI(x¯|x)+l〇 g(1-DI(G(E(x)|(x))、(4)E,G DIm inm axLfa=logDF(E(x¯))+log(1−DF(E(x)。(五)E DF注意,等式(1)中的图像鉴别器D1公式(4)被公式化为以原始输入图像x为条件的条件GAN [22]这鼓励G生成的图像不仅看起来逼真,而且具有与x相同的文本内容将所有上述损失项组合在一起,我们得出了我们的综合监督文本识别模型的总体训练目标:minmaxEx,x´,y[L(x,x´,y)],L=λyLy+λfLf+λgLg+λgaLga+λfaLfa,(6)E,T,G DI,DF其中所有λ都具有相同的性能。将在实验中讨论a和vidu的效果及其最佳组合。4实验在本节中,我们将在场景文本识别的多个基准上评估我们的模型网络结构和实施细节见第2节。4.1. 我们在Sec. 4.2探索所提出的方法的性能如 何 受 到 不 同 模 型 配 置 的 影 响 , 包 括 cleanimagex 的 差 异 和modelcompones的差异。第4.3节报告了对一般认可基准的全面比较。最后,为了进一步证明我们提出的模型的泛化能力,我们验证了它的鲁棒性,特别是在SEC的不规则文本识别的两个基准4.44.1实现细节网络结构:网络结构的详细信息见表1。对于编码器E和文本解码器T的设计,我们遵循[27]中的配置以实现公平的比较。BLSTM有256个记忆块和37个输出单元(26个字母,10个数字和1个EOS符号)。在第5和第6卷积层之后应用批量归一化由于如果使用稀疏梯度层,对抗训练的稳定性会受到影响,因此我们分别用步幅卷积和泄漏校正线性单元代替MaxPool和ReLu图像生成器G包含一系列分数步长卷积[2],以生成具有与原始输入相同大小的图像鉴别器D1和D2都包含五个完全卷积层。综合监督特征学习的场景文本识别7编码器图层过滤器/步幅输出大小图像生成器层滤波器/步幅输出大小输入-32× 100× 3Conv1 3× 3/ 2× 2 16× 50× 64Conv2 3× 3/ 2× 2 8× 25× 128Conv3 3× 3/ 1× 1 8× 25× 256Conv4 3× 3/ 2× 1 4× 25× 256Conv5 3× 3/ 1× 1 4× 25× 512Conv6 3× 3/ 2× 1 2× 25× 512Conv7 2× 2/ 2× 1 1× 25× 512FConv7 2× 2/ 2× 1 2× 25× 512FConv6 3× 3/ 2× 1 4× 25× 512FConv5 3× 3/ 1× 1 4× 25× 256FConv4 3× 3/ 2× 1 8× 25× 256FConv3 3× 3/ 1× 1 8× 25× 256FConv2 3× 3/ 2× 2 16× 50× 128FConv1 3× 32× 2 32× 100× 3特征鉴别器图层过滤器/步幅输出大小图像鉴别器层滤波器/步幅输出大小ConvF1 1× 1/ 1× 1 1× 25× 256ConvF2 1× 1/ 1× 1 1× 25× 128ConvF3 1× 1/ 1× 1 1× 25× 64ConvF4 1× 1/ 1× 1 1× 25× 32ConvF5 1× 1/ 1× 1 1× 25× 1平均池1× 25/ 1× 1 1× 1× 1ConvI1 3× 3/ 2× 2 16× 50× 64ConvI2 3× 3/ 2× 2 8× 25× 128ConvI3 3× 3/ 2× 1 4× 25× 256ConvI4 3× 3/ 2× 1 2× 25× 256ConvI52 ×2/2 ×11 × 25 × 1平均池1× 25/ 1× 1 1× 1× 1文本解码器层隐藏单元输出尺寸BLSTM1256 25 ×512BLSTM2 256 25 ×512输出37 25× 37表1:场景文本识别算法的网络结构图2:干净图像的不同形成的示例。培训详情:对于场景文本识别的所有实验,我们使用Jaderberg等人发布的合成数据集(Synth90)。[14]作为训练数据。该数据集包含800万张图像及其相应的地面真实文本标签。利用不同类型的干净图像来监督特征学习,并在第二节中分析其有效性。4.2.我们的网络在Synth90上进行了训练,并在所有其他真实世界的测试数据集上进行了测试,没有任何微调。有关真实世界测试基准的详细信息,请参见4.3和4.4。 在[27]之后,在训练和测试中将图像大小调整为32 × 100。图像强度被线性缩放到[-1,1]的范围。批量大小设置为32。所有权重均从标准差为0的零均值正态分布初始化。01. Adam优化器[19]的学习率为0。002和动量0。5. 目标函数(6)中的参数通过5重交叉验证来确定为了测试,在这个过程8Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell在无约束文本识别(无词典)中,我们直接选择最可能的字符。而在约束文本识别中,我们计算所有词汇的条件概率分布,并将具有最高概率的一个作为输出结果。4.2消融研究在本节中,我们实证研究了所提出的方法的性能如何我们主要从两个方面进行研究:干净形象的形成和网络成分的贡献。清晰图像的形成:本文的主要贡献之一是我们探索使用干净的图像作为辅助监督来指导特征学习。为了与现有作品进行公平比较,我们的训练数据是来自Synth90 [14]的预渲染图像,文本标签是唯一可访问的渲染参数。 为了评估移除不同干扰因素的效果,除了在没有任何噪声扰动的情况下渲染干净图像之外,我们对原始输入图像进行后处理以模拟不同类型的“干净”图像的形成,如图中所示。2,在下面的通道中。二值化图像:为了消除图像的颜色变化,我们将输入图像转换为灰度,然后通过阈值化对灰度图像进行二值化。阈值被设置为输入图像的平均值。输出二进制图像对于强度小于平均值的所有像素具有0(黑色),否则具有255(白色)。去偏斜图像:为了消除文本方向变化,我们首先使用预先训练的神经网络模型检测输入图像中的文本基线进行文本检测[37]。然后我们计算文本的角度并将文本旋转到水平方向。理想图像:我们渲染一个新的图像,它匹配地面实况文本标签,同时删除所有其他滋扰因素。 更具体地说,我们使用FreeType库[12]以黑色呈现相应的文本,字体样式为 “B r e v i a B l a c k R e gul ar”。第一个尺寸是64。Tetextisarrangedhoriz-tally in a clean white background.渲染后,我们将合成图像重新缩放到32× 100,与原始输入图像大小相同。使用3种类型的干净图像的模型的性能如表2所示,以及在不使用任何辅助干净数据作为基线的情况下训练的CRNN模型[27]。为了实现公平的比较,我们对所有干净的图像变体使用相同的模型架构,并且我们的编码器和文本解码器的配置如表2所示,引入辅助清洁数据显著提高了性能。原因是从原始图像中去除部分或全部讨厌的因素使得文本识别更容易。我们进一步观察到,利用理想图像导致最高的准确性,其超过基线6%以上。我们将这种改进归因于理想图像使学习的特征对所有滋扰因素具有弹性。所学习的特征相对于文本信息被优化,同时对于其他不期望的干扰因素是不变的,所述其他不期望的干扰因素是综合监督特征学习的场景文本识别9干净图像识别准确率(%)无[27]80.8二值化图像85.8去偏斜图像84.7理想图像87.0表2:使用不同类型的干净图像的SVT [31]上的文本识别准确性模型变体培训损失准确度(%)[第27话]Ly80.8图像生成Ly+Lg86.1对抗世代Ly+Lg+Lga84.7特征匹配Ly+Lf85.1对抗匹配Ly+Lg+Lf+Lfa87.0表3:与CRNN [27]基线相比,我们模型的不同变体的文本识别准确率。示出了相应的训练损失对于场景文本识别至关重要我们使用理想的图像作为辅助监督整个其余的实验。架构变体:我们进行了详细的消融研究,通过检查,ING在我们的网络结构中的每个组件的有效性。我们评估并比较以下模块配置:CRNN模型[27]:用组件E和T构建,并且仅用CTC损失进行训练,对应于我们的框架中的Ly。图像生成:用E、T和G建造,用Ly和Lg训练损失对抗世代:用E、T、G和DI构建,并用Ly、Lg和Lga训练。先前的方法已经发现将GAN目标与1损失混合是有益的[13]。编码器和图像生成器协同工作以与图像鉴别器竞争。特征匹配:使用E和T构建,并使用Ly和Lf训练。对抗匹配:用E、T、G和DF构建,并用Ly、Lg、Lf和Lfa训练。编码器不仅试图使原始输入及其对应的干净图像对的特征相似,而且还欺骗特征鉴别器。在编码器和特征鉴别器之间进行对抗性博弈我们还在像素级施加1重建损失上述5种型号的性能见表3。CRNN模型[27]作为比较的基线。与基线相比,所提出模型的4种不同变体都提高了识别性能添加特征一致性损失Lf或图像生成损失Lg将性能提高了5%以上,这验证了利用干净数据作为特征学习中的辅助监督的有效性。此外,据观察,图像生成损失Lg有助于作为单独模块的最大性能增益。这表明重建干净的图像或保留10Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell仅L1L1+对抗输入图像生成的图像预测/GT生成的图像置信度评分预测/GT莫瑟咖啡咖啡餐馆餐馆莫瑟咖啡餐馆餐馆图3:示出所生成的图像及其对应的置信度核的示例。第一列显示了originalin in timages和rpaird' cl e a n i m a g e s。中间列示出了通过仅使用Ll损失和相应的预测生成的图像。右列显示了使用对抗训练的L1损失生成的图像,相应的置信度得分和预测。置信度分数对应于25个局部图像区域,其可以包含以下中的一个或部分:从左到右的水平文本字形。当它看起来真实时,置信度分数接近1,否则接近0。文本内容是学习特征表示时最重要的任务另一个有趣的观察是,与仅使用Lg损失的图像生成相比,在图像生成中添加对抗训练不会给场景识别性能带来显著改善。一个可能的原因可以在图2的第二个例子中揭示。3,这已经导致了一个“关闭”。 尽管通过额外的训练生成的图像看起来比单独使用Lg更真实,如图所示。3、其将所述序列解码器解码为“1”代替“e”,这导致解码预测。这种误解可以在生成的图像和最终预测中观察到。虽然使用图像鉴别器会降低性能,但它确实为我们提供了新的可能性。在图像鉴别器的帮助下,我们可以获得最终预测的置信度得分当生成的图像看起来逼真时,置信度得分接近1,否则接近0。它被标绘了在图的最后一列中。从左到右为25个局部图像区域。该置信度得分与字符识别准确度相关,并且可以在基于词典的单词搜索中使用由于图像鉴别器在识别性能方面没有提供明显的改进,因此在以下实验中,除非另有说明,否则我们禁用图像鉴别器。另一方面,在特征域中添加特征鉴别器和对抗训练,进一步将识别准确率提高到87%。这意味着编码器和特征鉴别器之间的对抗训练在对齐原始输入图像和相应的干净图像的特征之间的分布方面起着关键作用它使学习的特征表示对其他滋扰因素更具排他性或不变性理想图像综合监督特征学习的场景文本识别114.3一般基准我们评估我们提出的方法的基准,是专为一般的场景文本识别,其中大多包含规则的文本,虽然偶尔存在不规则的文本。基准数据集包括:– IIIT 5 K-单词[23]:(IIIT 5 K)在其测试集中包含从互联网收集的3000个裁剪的单词图像。每个图像指定50个单词的词典和1k个单词的词典。– 街景文本:(SVT)包含647张测试图像,这些图像是从249张谷歌街景图像中裁剪出来的。SVT中的许多图像遭受严重的每个图像与50个单词的词典相关联。– ICDAR 2003 [21]:(IC03)包含251个用文本边界框标记的场景图像。为了公平比较[31],我们丢弃包含非字母数字字符或少于三个字符的图像。结果数据集包含867个裁剪图像。每个裁剪的图像与Wang等人定义的50个单词的词典相关联[31]以及组合所有词典词的完整– ICDAR 2013 [18]:(IC13)从IC03继承其大部分样本。在如IC03中完成的过滤样品之后,数据集包含857个样品。未指定词典。在表4中,我们报告了我们的综合监督特征学习模型的性能,并将其与16种现有方法在一般文本识别基准上进行了比较。在不受约束的识别任务(识别没有词典),我们的方法显示了显着的改善,在所有情况下,通过使用干净的图像作为监督在像素级和特征级的生成方式。更具体地说,由于CRNN [27]和我们提出的方法共享相同的编码器和文本解码器网络结构,因此它可以作为公平比较的强基线,而无需采用任何辅助的干净图像进行监督。我们的方法比CRNN平均高出7%左右。这证明了利用辅助干净图像的有效性和优越性。在受约束的识别任务中,我们使用标准的词典搜索算法[27],并且还实现了最先进的或具有高度竞争力的结果。与FAN [4]中提出的方法相比,我们的方法在不使用基于深度怨恨的编码器或FAN [4]中所做的任何注意力机制的情况下实现了有此外,在无词典设置中,我们的方法在IIIT5K,SVT上显著优于FAN,并且与IC03和IC13上的性能相当从我们的观察中,我们发现IIIT5K和SVT包含更多不规则文本,特别是弯曲文本,并且具有非常低的分辨率图像。我们的方法具有优势,在处理不规则的文本有一个很大的变化,在他们的外观。这可能是因为我们提出的方法中学习的文本表示在很大程度上不受其他干扰因素的影响,从而使不同的文本图像最大限度地可区分。为了进一步验证算法的鲁棒性和泛化能力12Yang Liu,Zhaowen Wang,Hailin Jin和Ian Wassell方法IIIT5KSVT公司简介IC13没有一501K 没有一50没有一50充分没有一阿比[31]24.3--35.0-56.0 55.0--SYNTH+PLEX [31]---57.0-76.0 62.0--Mishra等人[10个国家]64.1 57.5-73.2-81.8 67.8--Wang等人[32个]---70.0-90.0 84.0--wDTW [6]---77.3-89.7---照片OCR [3]---90.4 78.0---87.6Almazan等人[1]第一章91.2 82.1-89.2-----Strokelets [33]80.2 69.3-75.9-88.5 80.3--苏和陆[29]---83.0-92.0 82.0--戈多[8]93.3 86.6-91.8-----Jaderberg等人[17个]97.1 92.7-95.4 80.798.7 98.6 93.190.8Jaderberg等人[16个]95.5 89.6-93.2 71.797.8 97.0 89.681.8[第27话]97.6 94.4 78.296.4 80.898.7 97.6 89.486.7稀有[28]96.2 93.8 81.995.5 81.998.3 96.2 90.188.62罗马尼亚[20]96.8 94.4 78.496.3 80.797.9 97.0 88.790.0风扇[4]99.3 97.5 87.4 97.1 85.9 99.2 97.3 94.293.9我们97.3 96.1 89.4 96.8 87.1 98.1 97.5 94.7 94.0表4:数据库和数据库的检索率(%)。“50”和“1 k”是针对这些存储器大小的,“F u l i n d i n e t e d l e x i m a g e s e c o nd l e x i m a g e s e b e n c h m a r s e c o nd le m a n e s e c o nd l e x i m a n e s e c o n t i n d l e x i m a n e n f r e n e c o n e s e n e c on en 我们的方法在不同的基准测试中获得了最先进的性能,并在无词典类别中显著超过了最先进的性能。在我们提出的方法中,我们在4.4中提供了我们的方法在具有挑战性的不规则文本识别任务上的更多测试4.4不规则文本基准测试的结果和比较在这一节中,我们评估我们提出的算法上不规则文本sce- narios,以验证其有效性。我们使用在Synth90数据集上训练的相同模型,而所有模型都是在没有词典的情况下进行评估的。两个标准的不规则文本基准数据集是SVT-Perspective [25]和CUTE 80 [26]。SVT-视角:(SVT-Perspective)包含639幅裁剪图像用于测试,这是专门为评估透视文本识别性能而设计的。从Google街景中的侧视角度选择测试样本。因此,他们中的大多数是严重变形的透视失真。CUTE80:(CUTE80)包含288个用于测试的裁剪单词图像,这些图像是从自然场景中拍摄的80个高分辨率图像中该数据集专门设计用于评估弯曲文本识别。表5总结了SVT-Perspective和CUTE 80数据集上的识别性能。与使用相同训练集的其他现有方法相比,我们的方法在所有方面都大大优于它们综合监督特征学习的场景文本识别13方法SVT-视角弯曲文本Jaderberg等人[17个]-42.7[第27话]66.854.9稀有[28]71.859.2我们73.962.5表5:不规则文本识别基准的识别率(%)例此外,回想表4中的结果,与基线CRNN模型相比,在SVT角度上,我们提出的方法比SVT基准测试的CRNN表现更好。其原因是SVT透视数据集主要由透视文本组成,这更具挑战性,不适合直接识别。我们的综合监督特征学习可以显着缓解这个问题。值得注意的是,我们实现了对RARE [28]的显着改进,RARE是一种专门为不规则文本设计的方法。我们提出的模型是一种简单而有效的方法,可以通过从任意文本中提取信息来统一处理各种不规则文本。另外,我们不需要像RARE中那样在图像识别过程之前检测基准点并校正图像。这进一步表明,我们的模型中的学习文本特征对滋扰因素的方差更鲁棒,即,弯曲形状或透视角。我们还提出了一些可视化的例子来比较由RARE校正的图像和由我们提出的方法生成的图像的质量。4.对于第一列中列出的给定输入示例,第二列表示由RARE实现的校正图像,并且第三列示出由我们的图像生成器获得的生成图像。我们观察到,我们生成的图像更接近于原始输入图像的规范视图,这消除了滋扰因素的大部分外观方差。与RARE方法相反,我们不使用生成的图像作为顺序文本识别之前的预处理步骤。“清洁”信息的生成基本上是为了指导我们的学习。在图5中,我们提出了一些有趣的例子来展示一些具有挑战性和失败的情况。图图5(a)示出了我们的模型做出正确预测的一些具有挑战性的示例,这表明我们的模型对于图像生成和文本解码任务中的不期望的遮挡、背景变化、几何变形是鲁棒的图图5(b)展示了一些失败情况,其揭示了预测准确度总是与所生成的图像闭合的质量相关联。对于这种情况,对于这种新技术,我们的数据库中的这种数据结构与数据结构很相似,因此很容易在预处理中出现。对于输入信息“18”,我们将其保留为“18”,这就是我们的模型如何隐含地理解数字总是一起出现,这可能来自训练样本中的偏差。在大多数情况下,预测结果与生成的图像中出现的字符一致。大多数错误分类的样本包含很短的文本或具有非常低的分辨率。14Yang Liu,Zhaowen Wang,Hailin Jin和Ian WassellSVT-视角可爱80移动电话市场个经校正图像 生成的图像预测输入图像稀土我们的GT餐馆餐馆基兹诺斯sheraton喜来登足球天才图4:使用我们的生成模型与RARE [28]的变换模型的图像校正效果比较。我们的模型正确地识别了所有这些具有挑战性的例子。生成的图像预测生成的图像预测输入图像我们的模型GT莫瑟希金斯西克雷斯特泰国泰国输入图像我们的模型GT比伊尔菲尔18I8法艺术塞泰什巴利什(一)成功案例(二)失败案例图5:示例显示了我们的模型生成的图像和识别结果。在每个子图中,左列是输入图像;中间一列是生成的图像;右列是所识别的文本和地面实况文本。蓝色和红色字符是正确识别和错误识别的字符。5结论提出了一种新的场景文本识别算法我们的方法的核心新颖性在于“干净”图像的使用,该图像可从合成数据生成过程和具有编码器-生成器-鉴别器-解码器架构的新颖多任务网络中灵活地获得,该架构通过使用干净图像来我们表明,我们的方法显着优于形式的国家的最先进的标准场景文本识别基准标记的方法。此外,我们表明,没有显式处理,我们的方法工作在具有挑战性的情况下,输入图像包含严重的几何失真,如文本的弯曲路径。未来的工作可能包括研究不同的干净图像如何影响识别算法的性能,如何使用数据生成过程中的其他参数,如字体,作为特征学习的辅助数据,以及如何训练在此框架中结合文本检测和识别的端到端系统。综合监督特征学习的场景文本识别15引用1. Almaz'anJ. G〇rd〇,A., 对于A来说 Valveny,E. :使用嵌入式属性创建和重新定位。IEEE transactions on pattern analysis and machineintelligence36(12),2552- 2 566(2014)2. Berthelot,D.,Schumm,T.,梅斯湖:开始:边界平衡生成对抗网络。arXiv预印本arXiv:1703.10717(2017)3. Bissacco,A.,Cummins,M.,Netzer,Y.,Neven,H.:Photoocr:在不受控制的条件下阅读文本。In:Computer Vision(ICCV),2013 IEEEInternationalCo nfere nceo n.pp. 785IEEE(2013)4. Cheng,Z.,Bai,F.,徐,Y.,Zheng,G.,Pu,S.,Zhou,S.:集中注意力:为了在自然图像中准确地识别文本。在:2017 IEEE InternationalConferenceonComputerVision(ICCV). pp. 5086-5094 IEEE(2017)5. 戈什,S.K.,Valveny,E.,Bagdanov,A.D.:用于场景文本识别的视觉注意模型。In:ICDAR(2017)6. 戈尔,V.,Mishra,A. Alahari,K.,Jawahar,C.:整体大于部分之和:识别场景文本单词。In:Document Analysis and Recognition(ICDAR),2013年12月12日。pp. 398-402 IEEE(2013)7. 古德费洛岛Pouget-Abadie,J. Mirza,M.,徐,B.,沃德-法利,D.,Ozair,S.,Courville,A.Bengio,Y.:生成性对抗网。In:Advances inneural in Formalin ProocessSystems.pp. 26728. 戈多,A.:用于词图像表示的监督中级特征在:IEEE计算机视觉和模式识别会议的进展pp. 29569. Gr aves,A., Fern'andez,S., Gomez,F., S chmid h u ber,J. :合并交易策略分类:用递归神经网络标记未分割的序列数据。在:执行第23次测试中,所有组件均在机器上运行。pp. 369-376 ACM(2006年)10. 格雷夫斯,A.,Mohamed,A.r.,Hinton,G.:深度递归神经网络语音识别 。 In : Acoustics , Speech and Signal Processing ( icassp ) , 2013 ieeeinternationalconferenceon. pp. 6645-6649 IEEE(2013)11. Hochreiter,S.,Schmidhuber,J.:长短期记忆。神经计算9(8),173512. https://www.example.comwww.freetype.org:13. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络的图像到图像翻译。ArXiv预印本(2017)14. Jaderberg,M.,西蒙尼扬,K.,Vedaldi,A.,齐瑟曼,A.:自然场景文本识别的合成数据和人工神经网络。在:NIPS深度学习研讨会(2014)15. Jaderberg,M.,Vedaldi,A.,齐瑟曼,A.:文本定位的深层功能。In:ECCV(2014)16. Jaderberg,M.,西蒙尼扬,K.,Vedaldi,A.,齐瑟曼,A.:用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功