没有合适的资源?快使用搜索试试~ 我知道了~
4715场景文本识别模型比较有什么问题数据集和模型分析白正勋Geewook Kim2楼李俊烨Sungrae Park1韩东允尚都运1号吴成俊HwalsukLee1Clova AI Research,NAVER/LINE Corp.2京都大学{jh.baek,junyeop.lee,sungrae.park,dongyoon.han,sangdoo.yun,hwalsuk.lee}@navercorp.comgeewook@sys.i.kyoto-u.ac.jpcoallaoh@linecorp.com摘要近年来,出现了许多新的场景文本识别(STR)模型。虽然每个人都声称已经推动了技术的边界,但由于训练和评估数据集的选择不一致,该领域在很大程度上缺乏全面和公平的比较本文解决了这一困难与三个主要贡献。首先,我们检查训练和评估数据集的不一致性,以及不一致性导致的性能差距。其次,我们介绍了一个统一的四阶段STR框架,大多数现有的STR模型适合。使用该框架允许对先前提出的STR模块进行广泛的评估,并发现先前未探索的模块组合。第三,我们分析了在一组一致的训练和评估数据集下,模块对性能的准确性、速度和内存需求的贡献。这种分析清除了当前比较的障碍,以了解现有模块的性能增益我们的代码是公开的1.1. 介绍在自然场景中读取文本,被称为场景文本识别(STR),在广泛的工业应用中一直是一个重要的任务。光学字符识别(OCR)系统的成熟已经导致其在清洁文档上的成功应用,但是由于现实世界中出现的不同文本外观以及捕获这些场景的不完美条件,大多数透射式OCR方法在STR任务上未能同样有效。为了解决这些挑战,先前的工作[23,24,15,在Clova AI Research实习†通讯作者。1https://github.com/clovaai/深度文本识别基准17,26,28,4,16,5,2,3,18]已经提出了多级流水线,其中每个级是针对特定挑战的深度神经网络。例如,Shiet al. [23]已经建议使用递归神经网络来解决给定输入中的字符数量变化,以及连接主义时间分类损失[6]来识别字符数量。Shi等人[24]已经提出了一种转换模块,该模块将输入规范化为直文本图像,以减少下游模块处理弯曲文本的表示负担。然而,很难评估新提出的模块是否以及如何改进现有技术,因为一些论文已经提出了不同的评估和测试环境,使得难以按面值比较报告的数字(表1)。我们观察到,1)训练数据集和2)评估数据集也在各种方法之间偏离例如,不同的作品使用IC13数据集的不同子集作为其评估集的一部分,这可能导致超过15%的性能差异。这种差异阻碍了不同模型之间性能的公平我们的论文解决了这些类型的问题,主要贡献如下。首先,我们分析了STR论文中常用的所有训练和评估数据集我们的分析揭示了使用STR数据集的不一致性例如,我们在IC03数据集中发现了7个缺失的例子,在IC13数据集中也发现了158个缺失的例子。我们调查了STR数据集上的几个先前的工作,并表明不一致性导致了表1所示的不可比结果。其次,我们介绍了一个统一的框架STR,提供了一个共同的角度为现有的方法。具体来说,我们将STR模型分为四个不同的连 续 操 作 阶 段 : 转 换 ( transition ) , 特 征 提 取(Feat.),序列建模(Seq.),预测(Predict)该框架不仅提供了现有的方法,而且还提供了它们可能的变体,以广泛分析模块式控制。4716报告结果模型年列车数据IIIT SVT IC03 IC13 IC15 SP CT3000 647 8608678571015 1811 2077645 288时间ms/图像params×106[23]第二十三话2015 MJ78.280.889.4−−86.7−−−−1608.3[24]第二十四话2016 MJ81.981.990.1−88.6−−−71.8 59.2<2−R2AM [15]2016 MJ78.480.788.7−−90.0−−−−2.2−STAR-Net [17] 2016 MJ+PRI83.383.689.9−−89.1−−73.5−−−[26]第二十六话2017 MJ80.881.591.2−−−−−−−−−ATR [28]2017 PRI+C−−−−−−−−75.8 69.3−−风扇[4]2017 MJ+ST+C87.485.9−94.2−93.370.6−−−−−[第16话]2018 MJ83.684.491.5−90.8−−60.073.5−−−AON [5]2018 MJ+ST87.082.8−91.5−−−68.273.0 76.8−−欧洲议会[2]2018 MJ+ST88.387.5−94.6−94.473.9−−−−−罗塞塔号[3]2018 PRI−−−−−−−−−−−−SSFL [18]2018 MJ89.487.1−94.7 94.0−−−73.9 62.5−−我们的实验[23]第二十三话2015 MJ+ST82.981.693.1 92.6 91.189.269.464.270.0 65.54.48.3[24]第二十四话2016 MJ+ST86.285.893.9 93.7 92.691.174.568.976.2 70.423.610.8R2AM [15]2016 MJ+ST83.482.492.2 92.0 90.288.168.963.672.1 64.924.12.9STAR-Net [17] 2016 MJ+ST87.086.994.4 94.0 92.891.576.170.377.5 71.710.948.7[26]第二十六话2017 MJ+ST84.283.793.5 93.0 90.988.871.465.873.6 68.110.74.6罗塞塔号[3]2018 MJ+ST84.384.793.4 92.9 90.989.071.266.073.8 69.24.744.3我们最好的模特MJ+ST87.987.594.9 94.4 93.692.377.671.879.2 74.027.649.6表1:现有STR模型在训练和评估设置不一致的情况下的性能这种不一致性妨碍了对这些方法进行公平比较。我们提出的结果报告的原始文件,并显示我们重新实施的结果下统一和一致的设置。在最后一行,我们还显示了我们发现的最佳模型,它显示了与最先进方法相比的竞争性能MJ、ST、C和PRI分别表示MJSynth [10]、SynthText每个基准的最高精度以粗体显示。报应最后,我们研究了模块在精度,速度和内存需求方面的贡献,一个统一的实验环境通过这项研究,我们更严格地评估了各个模块的贡献,并提出了以前被忽视的模块组合,这些模块组合比现有技术有所改进。此外,我们分析了基准数据集上的失败案例,以确定STR中剩余的挑战2. STR中的数据集问题在本节中,我们将检查先前工作使用的不同训练和评估数据集,然后解决它们的差异。通过这种分析,我们强调了每种作品在构建和使用数据集方面的差异,并调查了在比较不同作品之间的性能时由不一致性引起的偏差(表1)。数据集导致的性能差距不一致性是通过实验测量的,并在§4中讨论。2.1. 用于训练的在训练STR模型时,对场景文本图像进行标记的代价很高,因此很难获得足够的标记数据。或者使用真实数据,大多数STR模型使用合成数据集进行训练。我们首先介绍最近STR论文中使用的两个最流行的合成数据集:• MJSynth(MJ)[10]是一个为STR设计的合成数据集,包含890万个单词框图像。字框生成过程如下:1)字体渲染,2)边界和阴影渲染,3)背景着色,4)字体、边界和背景的合成,5)应用投影失真,6)与真实世界图像混合,以及7)添加噪声。图1a显示了MJSynth的一些示例,• SynthText(ST)[7]是另一个合成生成的数据集,最初是为场景文本去重而设计的。保护图1b中显示了如何将单词渲染到场景图像上尽管SynthText是为场景文本检测任务而设计的,但它也通过裁剪单词框用于STRSynthText有5.5 M的训练数据,一旦单词框被裁剪和过滤为非字母数字字符。请注意,先前的工作已经使用了MJ,ST和/或其他来源的不同组合这些不一致性引发了一个问题,即这些改进是由于所提出的模块的贡献,还是由于更好或更大的训练数据的贡献我们在§4.2中的实验描述了训练数据集对最终性能的影响在基准上。我们进一步建议,未来的STR研究清楚地表明所使用的训练数据集,4717(a)MJSynth单词框(b)SynthText场景图像图1:MJSynth和SynthText的样本用作训练数据。使用相同的训练集来训练模型。2.2. 用于评估的真实世界数据集七个真实世界的STR数据集已被广泛用于评估训练的STR模型。对于一些基准数据集,数据集的不同子集可能已被用于每个先前的评估工作(表1)。子集中的这些差异导致不一致的比较。我们通过将数据集分类为规则和不规则数据集来介绍数据集。基准数据集被赋予“规则”或“不规则”数据集的区别文本的几何布局。首先,常规数据集包含文本图像,其中水平布局的字符之间具有均匀的间距。这些代表了相对容易的STR病例:• IIIT 5 K-Words(IIIT)[20]是从Google图像搜索中抓取的数据集,其中查询词可能会返回文本图像,例如“signboard”, “house numbers”, “house name plates”,and IIIT包括2,000张用于培训的图像和3,000张用于评估的图像,• 街景文本(SVT)[27]包含从谷歌街景收集的户外街道图像。其中一些图像是嘈杂的,模糊的,或低分辨率。SVT包括257个用于训练的图像和647个用于评估的图像,• ICDAR 2003(IC03)[19]是为ICDAR 2003 RobustReading竞赛而创建的,用于阅读相机捕获的场景文本。它包含1,156个图像,培训和1,110张图像用于评估。忽略所有太短(少于3个字符)或包含非字母数字字符的单词,将1,110个图像减少到867个。然而,研究人员使用了两个不同版本的数据集进行评估:860和867图像的版本。与867数据集相比,860图像数据集缺少7个单词框。省略的词框可以在补充材料中找到,(a) (b)不规则图2:规则(IIIT5k,SVT,IC03,IC13)和不规则(IC15,SVTP,CUTE)真实世界数据集的示例。• ICDAR 2013(IC 13)[13]继承了IC 03的大部分图像,也是为ICDAR 2013 Ro- bust Reading比赛而创建的。共848张图片训练和1,095个用于评估的图像,其中用非字母数字字符对单词进行删减产生1,015个图像。同样,研究人员使用了两个不同的版本进行评估:857和1,015张图像。857个图像集是1,015个图像集的子集,其中修剪了短于3个字符的单词其次,不规则数据集通常包含STR的更难的角落情况,例如弯曲和任意旋转或扭曲的文本[24,28,5]:• ICDAR 2015(IC15)[12]是为ICDAR 2015 RobustReading竞赛创建的,包含4,468张用于训练的图像和2,077张用于评估的图像。这些图像是在佩戴者的自然运动下由谷歌眼镜捕捉的。因此,许多是嘈杂的,模糊的,旋转的,有些也是低分辨率的。同样,研究人员使用了两种不同的版本进行评估:1,811和2,077图像。之前的论文[4,2]仅使用了1,811张图像,丢弃了非字母数字字符图像和一些极度旋转、透视移位和弯曲的图像进行评价。一些废弃的词框可以在补充材料中找到,• SVT Perspective(SP)[21]是从Google街景收集的,包含645张用于评估的图像。许多图像包含透视投影由于非正面观点的流行,• CUTE80(CT)[22]是从自然场景中收集的,包含288张用于评估的裁剪图像其中许多是弯曲的文本图像。请注意,表1为我们提供了一个关键问题,即先前的工作在不同的基准数据集上评估了他们的模型。具体而言,评估是在IC03、IC13和IC15中的不同版本的基准上进行的。在IC03中,7个示例可能导致0.8%的性能在IC 13和IC 15的情况下,示例编号的差距甚至大于IC 03的差距。4718归一化图像视觉特征上下文特征预测联合图3:场景文本识别的示例流程的可视化我们将模型分解为四个阶段。3. STR框架分析本节的目标是介绍场景文本识别(STR)框架,该框架由四个阶段组成,来自独立提出的STR模型之间的共性。然后,我们描述了每个阶段的模块选项。由于STR与计算机视觉任务的相似性(例如,目标检测)和序列预测任务,STR受益于高性能卷积神经网络(CNN)和递归神经网络(RNN)。CNN和RNN在STR中的第一个组合应用是卷积-递归神经网络(CRNN)[23],它从输入文本图像中提取CNN特征,并用RNN重新配置它们以进行鲁棒的序列预测。在CRNN之后,已经提出了多个变体[24,15,17,16,26,4,3为了纠正任意文本几何形状,作为一个例子,transforma- tion模块已被提出来规范化文本图像[24,17,16]。为了处理复杂的文本图像具有高的内在维度和潜在因素(如,字体样式和杂乱的背景),已纳入改进的CNN特征此外,随着人们越来越关注推理时间,一些方法甚至省略了RNN阶段[3]。为了改进字符序列预测,已经提出了基于注意力的解码器[15,24]。从现有STR模型衍生出的四个阶段如下:1. 转型(Trans.)归一化的使用空间转换器网络(Spatial Transformer Net)输入文本图像,以简化下游阶段。2. 特征提取(Feat.) 将输入图像映射到关注相关属性的表示用于字符识别,同时抑制不相关的特征,如字体、颜色、大小和背景。3. 序列建模(Seq.)捕获字符序列内的上下文信息,以便下一阶段更稳健地预测每个字符,而不是独立地进行预测。4. 预测(Pred.)从图像的识别特征估计输出字符序列。我们提供了图3进行概述,本文中使用的所有架构都可以在补充材料中找到。3.1. 变期该阶段的模块将输入图像X变换为标准化图像X 。自然场景中的文本图像具有各种形状,如弯曲和倾斜的文本所示如果这样的输入图像被不加改变地馈送,则随后的特征提取阶段需要学习关于这样的几何形状的不变表示。为了减少这一负担,薄板样条(TPS)变换,空间变换网络的一种变体,已被应用于文本行的不同纵横比的灵活性[24,17]。TPS采用一组基准点之间的平滑样条插值。更准确地说,TPS在上下包络点找到多个基准点(图3中的绿色我们的框架允许选择或取消选择TPS。3.2. 特征提取阶段在这个阶段中,CNN抽象输入图像(即, X或X),并输出视觉特征图V={vi},i=1,. . . ,I(I是特征图中的列数每列由特征提取器得到的特征图中的UMn具有沿着输入图像的水平线的相应的可区分的感受野这些特征用于估计每个感受野上的特征。我们研究了VGG[25],RCNN[15]和ResNet[9]的三种架构,这些架构以前用作STR的特征提取器。VGG在其原始形式包括多个CON-[25]第一种是完全连接的层,第二种是完全连接的层。RCNN是CNN的一种变体,可以递归地应用于根据字符形状调整其感受野ResNet是一种具有残余连接的CNN,可以简化相对较深CNN的训练。3.3. 层序建模阶段从Feat.阶段被重新成形为特征V序列。也就是说,特征映射vi∈V中的每一列都被用作序列的一个帧。然而,这一序列可能缺乏上下文信息。因此,以前的一些作品使用双向LSTM(BiLSTM)来生成更好的序列H=Seq。(V)在特征提取阶段之后[23,24,4]。另一方面,Rosetta [3]删除了BiLSTM以降低计算复杂度和内存消耗。我们的框架允许选择或取消选择BiLSTM。输入图像译Pred.Seq.壮举.47193.4. 预测级在该阶段中,从输入H,模块预测字符序列,(即,Y=y1,y2,. . . ).通过总结以前的工作,我们有两个预测选项(1)连接主义时间分类(CTC)[6]和(2)基于注意力的序列预测(Attn)[24,4]。CTC允许预测序列的非固定数量CTC的关键技术是在每一列(hi∈H)上预测一个字符,并通过删除重复的字符,将整个字符序列修改为不固定的字符流字符和空白[6,23]。另一方面,Attn自动捕获输入序列中的信息流以预测输出序列[1]。它使STR模型能够学习表示输出类依赖关系的字符级语言模型4. 试验与分析本节包含对§3中四阶段框架中所有可能的STR模块组合(总计2×3×2×2 = 24)的评估和分析,所有这些都是在由§2中列出的数据集构建的公共训练和评估数据集下进行评估的。4.1. 实现细节正如我们在第2节中所描述的,训练和评估数据集影响STR模型的测量性能。非常漂亮为了进行公平的比较,我们固定了训练、验证和评估数据集的选择。STR 训 练 和 模 型 选 择 我 们 使 用 MJSynth 8.9 M 和SynthText 5.5 M(总共14.4 M)的联合作为我们的训练数据。我们采用AdaDelta [29]优化器,其衰减率设置为ρ=0。九十五训练批量大小为192,迭代次数为300K。梯度限幅脉冲在5级使用.所有的参数都用He的方法初始化[8]。我们使用训练集IC13、IC15、IIIT和SVT的并集作为验证数据,并在每2000个训练stpdf后验证模型,以选择在此集合上具有最高准确度的模型请注意,验证集不包含IC03训练数据,因为其中一些数据在IC13的评估数据集中重复。复制的场景图像的总数是34,并且它们包含215个词框。重复的例子可在补充材料中找到。在本文中,我们提供了一个彻底的分析STR组合的准确性,时间和记忆方面。为了准确起见,我们测量了9个图像上每个图像的单词预测成功率涉及所有基准子集的真实世界评价数据集,以及统一的评价数据集(共8,539张图像); 3,000人来自IIIT,647人来自SVT,867人来自IC 03,1015人来自IC 13,2,077人来自IC 15,645人来自SP,288、从CT我们只评估字母和数字。对于每个STR组合,我们使用不同的初始化随机种子运行了五次试验,并对它们的准确度进行了对于速度评估,我们测量用于在相同计算环境下识别给定文本的每图像平均时钟时间(以毫秒为单位),如下所述对于内存评估,我们计算整个STR管道中可训练浮点参数的数量。环境:为了进行公平的速度比较,我们所有的评估都是在相同的环境中执行的:Intel Xeon(R)E5-2630 v42.20GHz CPU,NVIDIA TESLAP40 GPU和252GB RAM。所有实验均使用NAVER智能机器学习(NSML)平台进行[14]。4.2. 训练数据集分析我们研究了使用不同组的训练数据集对基准测试性能的影响正如我们在第2.1节中提到的,先前的工作使用了不同的训练数据集,并留下了关于其模型对改进的贡献的不确定性。 为了解开这个问题,我们用不同的训练数据集设置来检查§4.3中的最佳模型的准确性。我们只使用MJSynth获得了80.0%的总准确率,只使 用SynthText获得了75.6%的总准确率,两者都获得了84.1%的总准确率。com-与 单 独 使 用 MJSynth 和 SynthText 相 比 , MJSynth 和SynthText的组合将准确性提高了4.1%以上。这项研究的一个教训是,使用不同训练数据集的性能结果是不可比较的,这种比较无法证明模型的贡献,这就是为什么我们使用相同的训练数据集训练所有模型,除非另有说明。有趣 的是 ,在 20%的 MJSynth ( 1.8M)和20%的SynthText ( 1.1M ) 上 进 行 训 练 ( 总 共 2.9M 是SynthText的一半)提供了81.3%的准确率-MJSynth和SynthText具有不同的属性,因为它们是用诸如失真和模糊的不同选项生成的。这一结果表明,训练数据的多样性可能比训练样本的数量更重要,并且使用不同的训练数据集的效果4.3. 模块组合在这里,我们专注于精度-速度和精度-内存权衡显示在不同的模块组合。我们在实验材料中提供了完整的结果表。所有24种组合的权衡图见图4,包括先前提出的6种STR模型(图4中的星号)。在准确性-时间权衡方面,Rosetta和STAR-net处于前沿,其他四个先前模型处于前沿之内方面4720先前提出的组合CRNN:无-VGG-BiLSTM-CTCRARE:TPS-VGG-BiLSTM-Attn8481R2AM:None-RCNN-None-AttnGRCNN:无-RCNN-BiLSTM-CTC8482罗塞塔号:None-ResNet-None-CTCSTAR-Net:TPS-ResNet-BiLSTM-CTC7880757872690 5 10 15 20 2530时间(ms/图像)760 10 20 30 40 50参数数量(M)#译壮举.Seq.Pred.Acc.%时间MSparams×106T1没有一VGG没有一CTC69.51.35.6T2没有一ResNet没有一CTC80.04.746.0T3没有一ResNetBiLSTMCTC81.97.848.7T4TPSResNetBiLSTMCTC82.910.949.6T5TPSResNetBiLSTMAttn84.027.649.6#译壮举.Seq.Pred.Acc.%时间MSparams×106P1没有一RCNN没有一CTC75.47.71.9P2没有一RCNN没有一Attn78.524.12.9P3TPSRCNN没有一Attn80.626.44.6P4TPSRCNNBiLSTMAttn82.330.17.2P5TPSResNetBiLSTMAttn84.027.649.6(a) 精度-时间权衡曲线及其边界组合(b) 精度与存储器的权衡曲线及其前沿组合图4:STR模块组合表现出的两种类型的权衡。星号表示以前提出的模型,圆点表示我们的框架评估的新模块组合红色实心曲线表示在组合中发现的权衡每幅图下的表格描述了模块组合及其在权衡边界上的表现。粗体的模块表示那些已经从它之前的组合中改变的模块;这些模块相对于先前的组合提高了性能,同时最小化了增加的时间或存储器成本。8481787572690 510 15 20 25 30时间(ms/图像)84828078760 10203040 50参数数量(M)沿权衡边界的组合分析。 如表4a所示,T1由于不包括任何转换或顺序模块而占用的时间最少。从T1移动到T5,按顺序引入以下模块(以粗体表示):ResNet、BiLSTM、TPS和Attn.注意,从T1到T5,一次改变一个模块。我们的框架提供了一个平滑的方法转换,根据图5:根据图4的颜色编码版本,预测(左)和特征提取(右)模块。它们分别被认为是速度和内存的最重要因素在准确性-记忆权衡中,R2 AM处于前沿,其他五个先前提出的模型处于前沿之内。沿权衡边界的模块组合以准确度的升序标记(T1至T5为准确度-时间,P1至P5为准确度-记忆)。应用场景它们依次增加了整个STR模型的复杂性,导致以计算效率为代价的性能增加ResNet,BiLSTM 和 TPS 引 入 了 相 对 适 度 的 整 体 减 慢( 1.3ms→10.9ms ) , 同 时 大 大 提 高 了 准 确 性(69.5%→82.9%)。另一方面,最后一个更改Attn仅将准确率提高了1.1%,效率(27.6ms)。至于表4 b中所示的准确性-记忆权衡,P1是具有最少错误量的模型。从P1到P5,在存储器和准确性之间进行权衡。正如在精度-速度权衡中,我们在每一步上T4T5T3T2T1P5P4P3P2P1CTCAttnVGGRCNNResNet总准确度(%)总准确度(%)总准确度(%)总准确度(%)4721到P5,其中更改的模块为:Attn、TPS、BiL- STM和ResNet。它们以内存为代价依次提高了准确性。与T1中使用的VGG相比,我们观察到P1-P4中的RCNN更轻,一个很好的准确性-记忆权衡。RCNN需要少量重复应用的唯一CNN层。我们观察到,转换,顺序和预测模块没有显着贡献的预测,理论消耗(1.9M→7.2M参数)。虽然整体重量很轻,但这些模块提供了准确性改进(75.4%→82.3%)。另一方面,最后一个变化ResNet将精度提高了1.7%,内存消耗从7.2M增加到49.6M浮点参数。因此,关注内存消耗的从业者可以确保相对自由地选择特定的转换,顺序和预测模块,但应避免使用像ResNets这样的重型特征提取器。最重要的速度模块和 记忆根据模块选择,我们通过对图4中的散点图进行颜色编码,确定了模块对速度和内存的影响全套彩色编码图在补充材料中。在这里,我们展示了速度和内存最关键的模块(即预测和特征提取模块)的散点图,如图5所示。根据预测和特征模块,存在明确的组合集群。在准确性-速度的权衡中,我们识别了CTC和Attn集群(Attn的添加显着减慢了整体STR模型)。另一方面,对于准确性-记忆权衡,我们观察到特征提取器对记忆的贡献最显著。重要的是要认识到,每个标准的最重要的模块是不同的,因此,在不同的应用场景和约束条件下,决策者应该根据他们的需求考虑不同的模块组合,以获得4.4. 模块分析在这里,我们调查的准确性,速度和内存需求方面的模块明智的表现。对于该分析,通过对包括表2中的模块的组合求平均值来计算每个模块的边际精度。在每个阶段升级一个模块需要额外的资源、时间或内存,但可以提高性能。该表显示,在所有阶段,不规则数据集的性能改进大约是常规基准的两倍。当比较精度改进与时间使用时,ResNet、BiLSTM、TPS和Attn的顺序是从None-VGG-None-CTC的基本组合的模块的最有效升级顺序。这个命令是同一个命令阶段模块精度经常(%)不规则(%)时间ms/图像params×106译没有一85.665.7N/AN/ATPS86.7(+1.1)69.1(+3.4)3.61.7VGG84.563.91.05.6壮举.RCNN86.2(+1.7)67.3(+3.4)6.91.8ResNet88.3(+3.8)71.0(+7.1)4.144.3没有一85.165.2N/AN/ABiLSTM87.6(+2.5)69.7(+4.5)3.12.7Pred.CTC85.566.10.10.0Attn87.2(+1.7)68.7(+2.6)17.10.9表2:研究模块在四个阶段的总精度,推理时间和参数的数量。通过取包括该模块的组合的结果的平均值来获得精度。分别测量了干涉时间和参数个数。精度-时间边界(T1→T5)的组合。另一方面,从准确性记忆的角度来看,RCNN、Attn、TPS、BiLSTM和ResNet是最有效的。模 块 的 升 级 顺 序 , 如 准 确 性 - 记 忆 边 界 的 顺 序(P1→P5)。有趣的是,时间模块的有效顺序与记忆模块的有效顺序相反。模块的不同属性提供不同的-在实际应用中的选择此外,两种视角下的模块排序与前沿模块的变化顺序相同,这表明在所有组合下,每个模块对绩效的定性分析每个模块都有助于通过解决STR任务的目标困难来识别文本,如§3所述。图7显示了仅在某些模块升级时才能正确识别的示例(例如,从VGG到ResNet主干)。每一行显示了我们框架中每个阶段所呈现的样本在升级之前是失败的,但是在升级之后变得可识别。TPS转换将弯曲和透视文本规范化为标准化视图。预测结果显示显著的改善,特别是对于先进的特征提取器ResNet可以产生更好的表示能力,改善背景杂乱(BiLSTM通过调整感受野来实现更好的上下文建模;它可以忽略不相关的裁剪字符(包括隐式字符级语言建模的注意力查找丢失或被遮挡的字符,例如这些示例提供了模块在实际应用中的贡献点的一瞥4722RPRTIT纳伊埃TULINTHAKA配置总成CHRU CH(a) 很难的字体。(b)纵向文本。 (c)特殊字符。(d)闭塞。(e)分辨率低(f)标签噪音。图6:我们框架的所有组合的失败案例示例译(None→TPS)Feat.(VGG- ResNet)Seq.(None→BiLSTM)预测。(CTC→收件人)图7:没有特定模块的STR组合的验证示例。所有没有标注模块的STR组合都无法识别示例中的文本,但升级模块解决了这个问题。4.5. 失效案例分析我们调查了所有24种组合的失败案例。由于我们的框架源自所提出的STR模型之间的共性,并且我们的最佳模型显示出与先前提出的STR模型竞争的性能,因此所提出的失败案例构成了整个领域的共同挑战。我们希望我们的分析能启发未来的STR工作考虑应对这些挑战。在基准数据集中的8,539个示例中,644个图像(7.5%)没有被所考虑的24个模型中的任何一个我们发现了六个常见的故障案例如图6所示。以下是对案例挑战的讨论和未来研究方向的建议。书法字体:诸如“CocaCola”之类的品牌或诸如“Cafe”之类的街道上的商店名称的字体样式仍然处于剩余的挑战中。这种多样的字符表达需要一种新的特征提取器提供广义的视觉特征。另一种可能的方法是正则化,因为模型可能过度拟合训练数据集中的字体样式垂直文本:目前的STR模型大多假设水平文本图像,因此在结构上不能处理垂直文本。一些STR模型[28,5]也利用了垂直信息,然而,垂直文本并没有明确覆盖。还没有。需要进一步研究纵向文本。特殊字符:由于目前的基准不评估特殊字符,现有的工作排除他们在训练。这会导致故障预测,误导将它们视为字母数字字符。我们建议用特殊人物训练。这使得IIIT的准确率从87.9%提高到90.3%重度闭塞:当前的方法没有广泛地利用上下文信息来克服遮挡。未来的研究可能会考虑更好的语言模型,以最大限度地利用上下文。低分辨率:现有模型没有明确地处理低分辨率情况;成像金字塔或超分辨率模块可以提高性能。标签噪声:我们在失败的例子中发现了一些嘈杂的(不正确的)标签。我们检查了基准中的所有示例,以确定噪声标签的比例所有基准数据集都含有噪声标签,未考虑特殊字符的错误标签率为1.3%,考虑特殊字符的错误标签率为6.1%,考虑大小写敏感性的错误标签率为24.1%。我们在Github仓库中提供了所有失败案例,希望它们能激发对STR问题的进一步研究5. 结论虽然在新的场景文本识别(STR)模型上已经有了很大的进步,但是它们已经在不一致的基准上进行了比较,导致难以确定所提出的模块是否以及如何改进STR基线模型。本文分析了现有STR模型在不一致的实验设置下的贡献。为了实现这一目标,我们在关键STR方法中引入了一个通用框架,以及一致的数据集:七个基准评估数据集和两个训练数据集(MJ和ST)。我们对所比较的关键STR方法进行了公平的比较,并分析了哪些模块带来了最大的准确性,速度和大小增益。我们还提供了关于模块对STR中典型挑战的贡献以及其余失败案例的广泛分析。确认作者要感谢Jaeheung Surh的有益讨论。4723引用[1] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年,国际会议[2] 樊白、湛湛成、牛一、蒲世良、周水耕。场景文本识别的编辑概率。在CVPR,2018年。[3] FedorBorisyuk , AlbertGordo , andViswanathSivakumar. Rosetta:用于图像中文本检测和识别的大型系统。在KDD中,第71-79页[4] Zhanzhan Cheng,Fan Bai,Yunlu Xu,Gang Zheng,Shiliang Pu,and Shuigeng Zhou.集中注意力:自然图像中的精确文本识别。在ICCV,第5086-5094页[5] 湛湛成、杨柳絮、樊白、牛一、蒲世良Aon:面向任意性的文本识别。在CVPR中,第5571-5579页[6] Al e xGr av es , SantiagoFern a'ndez , FaustinoGomez ,andJ ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割序列数据。在ICML,第369-376页[7] Ankush Gupta,Andrea Vedaldi,Andrew Zisserman.用于自然图像中的文本定位的合成数据。在CVPR,2016年。[8] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun. 深入研究整流器:超越人类对imagenet分类的水平。在ICCV,第1026- 1034页[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[10] 马克斯·贾德伯格,凯伦·西蒙尼安,安德里亚·维达尔迪,和安德鲁·齐瑟曼.自然景物文本识别的合成数据和人工神经网络。深度学习研讨会,NIPS,2014。[11] Max Jaderberg,Karen Simonyan,Andrew Zisserman,等.空间Transformer网络。参见NIPS,第2017-2025页,2015年。[12] Dimosthenis Karatzas,Lluis Gomez-Bigorda,AnguelosNicolaou,Suman Ghosh,Andrew Bagdanov,MasakazuIwa- mura , Jiri Matas , Lukas Neumann , VijayRamaseshan Chan- drasekhar , Shijian Lu , et al.Icdar2015稳健阅读竞赛ICDAR,第1156-1160页,2015年[13] Dimosthenis Karatzas,Faisal Shafait,Seiichi Uchida,Masakazu Iwamura , Lluis Gomez i Bigorda , SergiRobles Mestre,Joan Mas,David Fernandez Mota,JonAlmazan Almazan , and Lluis Pere De Las Heras.Icdar2013稳健阅读比赛。ICDAR,第1484-1493页,2013年[14] Hanjoo Kim , Minkyu Kim , Dongjoo Seo , JinwoongKim , Heungseok Park , Soeun Park , Hyunwoo Jo ,KyungHyun Kim,Youngil Yang,Youngkwan Kim,etal. Nsml:通过一个真实的案例研究来认识mlaas平台。arXiv:1810.09957,2018.[15] Chen-Yu Lee和Simon Osindero。递归递归网络与注意力建模在视觉识别中的应用。在CVPR中,第2231-2239页[16] Wei Liu,Chaofeng Chen,and Kwan-Yee K Wong. Char-net:一个字符感知神经网络,用于扭曲场景文本识别。在AAAI,2018。[17] Wei Liu , Chaofeng Chen , Kwan-Yee K Wong ,Zhizhong Su,and Junyu Han.Star-net:A spatial attentionresidue network for scene text recognition.在BMVC,第2卷,2016年。[18] Yang Liu,Zhaowen Wang,Hailin Jin,and Ian Wassell.用于场景文本识别的综合监督特征学习。在ECCV,2018。[19] Simon M Lucas,Alex Panaretos,Luis Sosa,AnthonyTang,Shirley Wo
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功