基于语义推理网络的场景文本识别

37 浏览量更新于2023-10-25 收藏 1002KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12113基于语义推理网络的场景文本精确识别于德利13李璇2张成泉2刘涛2韩俊宇2刘敬拓2丁二瑞2中国科学院大学人工智能学院1百度公司2中国科学院自动化研究所模式识别国家重点实验室yudeli2018@ia.ac.cn{lixuan12，zhangchengquan，liutao32，hanjunyu，liujingtuo，dingerrui}@ baidu.com摘要场景文本图像包含两个层次的内容：视觉纹理和语义信息。虽然在过去的几年中，已有的场景文本识别方法取得了很大的进展，但是挖掘语义信息来辅助文本识别的研究还没有引起足够的重视，仅仅探索了类RNN结构来隐式地建模语义信息。然而，我们观察到基于RNN的方法存在一些明显的缺点，如依赖于时间的解码方式和语义上下文的单向串行传输，这极大地限制了语义信息的帮助和计算效率。为了缓解这些限制，我们提出了一种新的端到端的可训练框架命名为语义推理网络（SRN）的准确场景文本识别，其中引入了全局语义推理模块（GSRM），通过多路并行传输来捕获全局语义上下文对规则文本、不规则文本和非拉丁文长文本等7种公共文本的测试结果表明，该方法具有较好的鲁棒性和有效性此外，SRN的速度比基于RNN的方法有显着的优势，证明了其在实际应用中的价值。1. 介绍文本具有丰富的语义信息，已用于许多基于计算机视觉的应用，如自动驾驶[43]，旅行翻译[38]，产品检索等。场景文本识别是场景文本阅读系统的关键步骤。尽管序列到序列识别在过去几十年中取得了一些显著的突破[19，37，41]，但在野外的文本识别仍然是一个难题。*同等缴款。这项工作是在余德利在百度实习时完成的。†通讯作者。图1.文本在野外的例子（a）是一些困难的场景文本图像，（b）是从（a）中单独提取的各个字符（b）中红色虚线框的字符很容易被误分类，仅基于视觉特征。这是一个很大的挑战，因为场景文本在颜色、字体、空间布局甚至不可控的背景方面都存在显著变化。最近的大多数工作都试图从提取更鲁棒和有效的视觉特征的角度来提高场景文本识别的性能，例如升级骨干网络[5，21，31]，添加校正模块[30，31，40，44]和改进注意力机制[5，37，41]。然而，对于人类来说，场景文本的识别不仅依赖于视觉感知信息，还受到高层文本语义上下文理解的影响。如图所示的一些例子。1、当仅考虑视觉特征时，很难分别区分这些图像中的每个字符，特别是用红色虚线框突出的字符。相反，考虑到语义上下文信息，人类可能会推断出正确的结果与总的词的内容。遗憾的是，对于语义信息，主流的文本识别方法都是以单向串行传输的方式来考虑的，如[5，30，31，37，40，41，44]，递归地感知最后一个解码时间步的字符语义信息，如图1所示第2段（a）分段。这种方式有几个明显的缺点：首先，它只能感知非常有限的语义语境12114图2.两种不同的语义上下文传递方式。(a)是单向串行传输，以及（b）是多路并行传输。从每个解码时间步，甚至对于第一解码时间步没有有用的语义信息。第二，当错误的解码在较早的时间步产生时，它可能向下传递错误的语义信息并导致错误累积。同时，串行模式很难被替换，因此它总是耗时且效率低下。在本文中，我们引入了一个子网络结构命名为全局语义推理模块（GSRM），以解决这些缺点。GSRM以一种新颖的多路并行传输方式考虑全局语义上下文。如图所示。如图2（b）所示，多路并行传输可以同时感知单词或文本行中所有字符的语义信息，这更加鲁棒和有效。此外，个别字的错误语义内容只会造成相当的对其他步骤的负面影响有限。在此基础上，本文提出了一种基于语义推理网络（SRN）的场景文本精确识别框架，该框架集成了全局语义推理模块（ GSRM ）、并行视觉注意模块（PVAM）和视觉语义融合解码器（VSFD）。PVAM的目的是在并行注意机制中提取每个时间步的视觉特征，VSFD的目的是开发一个有效的解码器，结合视觉信息和语义信息。SRN的有效性和鲁棒性得到了广泛的实验证实，这些实验将在第二节中讨论。4.第一章本文的主要贡献有三个方面。首先，我们提出了一个全局语义推理模块（GSRM）考虑全局语义上下文信息，这是更强大和更有效的比单向串行语义传输方法。其次，提出了一种新的场景文本精确识别框架--语义推理网络（SRN），它有效地结合了视觉上下文信息和语义上下文信息。第三，SRN可以以端到端的方式进行训练，并且在包括常规文本、不规则文本和非拉丁文长文本的多个基准上达到最先进的性能2. 相关工作近年来，场景文本识别的研究取得了很大的进展.本节将首先回顾了近年来的一些文本识别方法，并将其归纳为两类：语义上下文无关和语义上下文感知，根据是否使用语义信息。此外，还将介绍一些流行的上下文建模结构。语义上下文无关方法将场景文本识别视为一个纯粹的视觉分类任务，而不显式地使用任何语义信息。CRNN [29]首先结合CNN和RNN来提取给定文本图像的序列视觉特征，然后将其直接馈送到CTC解码器以预测每个时间步的最佳字符类别，其中CTC [8]仅根据每个位置的视觉分类最大化所有能够到达地面真值的路径的概率。为了减轻CTC损失的反向传播计算负担，Xie等人。[39]提出了聚集交叉熵损失（ACE）方法来优化每个特征在时间维上的统计频率，大大提高了效率。受视觉分割成功的启发，Liaoet al. [22]使用FCN对每个位置的字符进行像素级分类，预测字符的类别，并使用启发式规则将字符聚集到文本行中。然而，这种方法需要昂贵的字符级注释。Jaderberg [13]没有优化每一步的解码精度，而是直接使用CNN对90k种文本图像进行分类，每种文本图像代表一个单词。通常，这些方法忽略了考虑语义上下文。语义上下文感知方法试图捕捉语义信息来辅助场景文本识别。这些方法大多遵循单向语义传递的方式，例如Leeet al. [19]将输入的文本图像水平编码为一维连续的视觉特征，然后利用上一个时间步的语义信息引导视觉特征到达相应的区域。正如我们之前提到的，一些最新的工作集中在如何挖掘更有效的视觉特征，特别是不规则文本。为了消除透视畸变和分布曲率带来的负面影响，Shi等提出了一种新的方法.[31]在序列识别之前增加了校正模块，其中采用了具有多个偶数控制点对的空间变换网络[15]。Zhan等[44]采用一种具有迭代细化机制的直线拟合变换对不规则文本图像进行校正。此外，Yanget al. [40]提出了一种基于丰富局部属性的约束校正网络，以产生更好的校正结果。有一些方法通过增强空间视觉特征来减轻不规则文本识别的挑战。Cheng等人[6]提取了四个方向的场景文本特征，并设计了一个过滤门来控制各个方向的特征贡献。Wojna等人[37]介绍了2D上空间坐标的附加编码12115视觉特征V骨干网视觉上下文注意力地图×并行视觉注意模块出席对齐的视觉特征G语义特征'E''E''F''C'并行数据流语义语境图3.语义推理网络（Semantic Reasoning Network，SRN）特征图，以增加对顺序的敏感性。然而，这些工作并没有充分利用语义上下文信息，这正是我们想要在本文中关注的。上下文建模结构被设计为捕获特定时间或空间范围内的信息。RNN擅长捕捉序列数据的依赖关系，但它的内在在训练和推理过程中，ent顺序行为阻碍了并行计算[37]。为了解决这些问题，ByteNet [16]和ConvS2S [7]直接使用CNN作为编码器。这些方法可以在训练和推理过程中完全并行化最近，已经提出了Transformer [24]的结构，以捕获全局依赖性，并以恒定的计算复杂度将任意位置处的两个信号此外，Transformer已被证明在计算机视觉[11，36]和自然语言处理[34]的许多任务中有效。本文不仅采用Transformer来增强视觉编码特征，而且采用相似结构来推理语义内容。3. 方法SRN是一个端到端的可训练框架，由四个部分组成：骨干网络、并行视觉注意模块（PVAM）、全局语义推理模块（ GSRM ）和视觉语义融合解码器（VSFD）。给定输入图像，首先使用骨干网络来提取2D特征V。然后，PVAM用于生成N个对齐的1-D特征G，其中每个特征对应于文本中的字符并捕获对齐的视觉信息。然后将这些N1-D特征G馈送到我们的GSRM中以捕获语义信息S。最后，对齐的视觉特征G和语义信息S通过VSFD融合以预测N个字符。对于短于N的文本字符串，详细结构作为骨干网络。因此，ResNet 50 +FPN的特征图大小是输入图像的1/8，并且通道号是512。受非局部机制[4]思想的启发，我们还采用了由位置编码、多头注意网络和前馈模块组成的Transformer单元[34]，以有效地捕获全局空间依赖性。2D特征图被馈送到两个堆栈Transformer单元中，其中多头关注中的头的数量为8，前馈输出尺寸为512。之后，最终增强的2D视觉fea-提取的结果表示为V，vij∈Rd，其中d=512。3.2. 并行视觉注意模块注意机制广泛应用于序列识别[5，30]。它可以被视为特征对齐的一种形式，其中输入中的相关信息与相应的输出对齐。因此，使用注意机制来生成N个特征，其中每个特征对应于文本中的一个字符。现有的基于注意力的方法是效率低下的，因为一些时间依赖项。在这项工作中，一个新的注意力方法命名为par-administered视觉注意（PVA），以提高效率，打破这些障碍。一般来说，注意机制可以描述如下：给定一个键值集（ki，vi）和一个查询q，计算查询q与所有键ki之间的相似性。然后，根据相似性聚合值v i。具体来说，在我们的工作中，键值集是输入的2D特征（vij，vij）。遵循Bahdanau注意[2]，现有方法使用隐藏状态Ht-1作为查询来生成第t个特征。为了使计算并行，改为使用读取顺序作为查询时间依赖项Ht−1的。文本中的第一个字符的读取顺序为0。第二个字符的阅读顺序为1，依此类推。我们的平行注意力机制可以概括为：e=WTtanh（Wf（O）+W v）埃拉特，我和欧欧特vijSRN的结构如图所示。3.第三章。3.1.骨干网我们使用FPN [23]来聚合分层特征图exp（et，ij）αt，ij=α txp（et，ij）i，j（一）从ResNet50的第3阶段、第4阶段和第5阶段 [10]，其中，We、Wo和Wv 是可训练的重量。t是融合语义推理全局语义推理模块视觉语义嵌入……………12116不不字符读取顺序，其值在[0，1，… N-1]，fo是嵌入函数。基于PVA的思想，设计了并行视觉注意力模块（PVAM），以对齐所有时间步长的所有视觉特征。第t个时间步的对准的视觉特征可以表示为：gt= Σi，jαt，ijvij（2）由于计算方法与时间无关，PVAM并行输出所有时间步的对齐视觉特征（G，gt∈Rd）。正如图中所示的一些注意力地图。4、所得到的注意图能够正确地注意到对应人物的视觉区域，验证了PVAM的有效性。图5. GSRM的详细结构结合在一起并推理出当前时间的适当语义内容。因此，概率表达式可以升级为：QNp（y1y2···yN）=p（yt|fr（e1···et−1et+1···eN），gt）t=1QN′≈t=1 p（yt|fr（e1···et−1et+1···eN），gt）（四）图4.由PVAM计算的注意力地图3.3.全局语义推理模块在本节中，我们提出了全局语义推理模块（GSRM），它遵循多路并行传输的思想，以克服单向语义上下文传递的缺点。首先，我们回顾了Bahdanau注意机制中的概率公式，这是一种典型的RNN结构。它可以表示为：YNp（y1y2···yN）=p（yt|et−1，Ht−1，gt）（3）t=1其中Et被认为是第t个标签Yt的词嵌入。在每个时间步，RNN类方法可以参考之前的标签或在训练或推理过程中预测的结果。因此，它们以顺序的方式工作，因为先前的信息如k eet-1和Ht-1只能在时间步长t捕获，这限制了语义推理的能力，导致推理效率低下。为了克服上述问题，我们的关键是，而不是使用真正的词嵌入其中e′是et在第t个时间步长处的近似嵌入信息。在Eq. 4表示可以在全局语义上下文和当前语义信息之间建立连接的功能。如果我们表示 st=fr（e1···et−1et+1···eN），并且st是语义信息S，Eq.4可以简化为以下一个：QNp（y1y2···yN）p（yt|st，gt）（5）t=1继承上述精神，我们提出了GSRM，通过它，方程中的函数fr 4是模式化的，使设想成为现实，并从中受益。GSRM的结构由两个关键部分组成：视觉到语义嵌入模块和语义推理模块。视觉到语义嵌入块用于生成e′，详细结构如图所示。第五条（a）款。多亏了PVAM，我们得到的特征已经与每个时间步或每个目标字符对齐首先将对齐的视觉特征G馈送到具有softmax激活的全连接层，并添加嵌入损失Le，其中利用交叉熵损失，以使它们更集中于目标字符。1ΣNe，我们使用与时间无关的近似嵌入e′可以从这个IM中获得几个好处Le=−Nt=1logp（yt|gt）（6）证明1)首先，最后步骤Ht-1的隐藏状态值能够从等式中移除。3，从而串行转发过程将升级为具有高效率的并行转发过程，因为所有的时间相关项被消除。2）第二，允许包含所有前、后字的全局语义信息接下来，基于通过argmax运算的gt的最可能输出字符和嵌入层来计算嵌入向量e′语义推理模块用于实现全局语义推理，即对等式中的函数fr进行建模。4.第一章特别地，GSRM的结构12117如图所示5（b）。12118tzt不几个Transformer单元之后是掩码e'，允许模型以高效率感知全局上下文信息。同时，一阶关系和高阶关系，如词的语义，可以隐式地由多个Transformer单元建模最后，通过这个模，定义为S，st∈Rd，d=512。同时，在s上增加了推理损失LR. 的目标函数可以定义为1ΣN4. 实验4.1. 数据集有六个拉丁场景文本基准选择来评估我们的方法。ICDAR 2013（IC13）[18]包含1095个测试图像。使用[35]的协议，我们丢弃包含非字母数字字符或少于三个字符的图像。ICDAR 2015（IC15）[17]是在没有仔细定位和聚焦的情况下使用谷歌眼镜拍摄的。我们遵循与[5]相同的协议，仅使用1811张测试图像进行评估Lr=−Nt=1logp（yt|（7）没有一些极度扭曲的图像。IIIT 5 K-Words（IIIT 5 k）[26]是从网络上收集的通过引入交叉熵损失，从语义信息的角度优化了目标概率，同时也缩短了收敛时间.值得注意的是，在GSRM中，全局语义是以并行的方式推理的，使得SRN的运行速度比传统的基于注意力的方法快得多，特别是在长文本的情况下。3.4.视觉语义融合解码器正如我们在SEC中讨论的那样。1，同时考虑视觉对齐特征G和语义信息S对于场景文本识别是非常重要的。然而，G和S属于不同的域，它们在不同情况下对于最终序列识别的权重应该是不同的。受门控单元[1]的启发，我们引入了一些可训练的权重来平衡VSFD中不同领域该操作可以用公式表示如下：网站，包括3000个测试图像。街景文本（SVT）[35]有647张从谷歌街景中裁剪出来的测试图像。许多图像被噪声、模糊和低分辨率严重破坏。街景文本透视图（SVTP）[27]也是从谷歌街景中裁剪出来的。这套图像共639幅，其中有许多图像是永久性畸变的.CUTE80（CUTE）在[28]中提出用于弯曲文本识别。利用标注词从全图像中裁剪出288幅测试图像。4.2. 实现细节模型 Ⅶ 主干的细节在第 3.1 节中介绍。对于PVAM，We、Wo和Wv的大小为512，并且fo的嵌入dim在等式1中为512GSRM中的嵌入式调光也设置为512。语义推理块由4个堆叠的Transformer单元组成，其中头数为8，隐藏单元数为.z =σ（W·[g，s]）（八）512为了公平比较，与我们的SRN相同的主干是在CTC中采用，基于1D注意力和2D注意力ft=zt<$gt+（1−zt）<$st其中Wz是可训练权重， ft是第t个融合特征向量，t∈[1，N]。所有融合的特征可以表示为F，ft∈Rd，并且用于以非递归方式预测最终字符，目标函数如下：1ΣN方法. 1D-注意和2D-注意中的注意单元和隐藏单元的数量都设置为512。数据增强输入图像的大小为64×256我们随机将原始图像的宽度调整为4个尺度（例如，64、128、192和256），然后将它们填充为64×256。此外，一些图像处理操作[21]，如旋转，透视失真，运动模糊和Lf=−Nt=1logp（yt|（9）高斯噪声，随机添加到训练图像。类的数量是37，包括0-9，a-z和'EOS'。并且输出序列N的最大长度被设置为25。结合GSRM和VSFD中的所有约束函数最终目标函数总结如下：损失=αeLe+αrLr+αfLf（10）其中Le、Lr和Lf分别表示嵌入损失、推理损失和最终解码器损失将αe、αr和αf的权重设置为1.0、0.15和2.0，以权衡这三个约束。模型训练所提出的模型仅在两个合成数据集上训练，即Synth90K [13，14]和SynthText [9]没有对其他数据集进行微调。在ImageNet上预训练的ResNet50被用作我们的初始化模型，批量大小为256。培训分为两个阶段：热身和联合训练。在第一阶段，我们在没有GSRM的情况下训练SRN大约3个epoch。采用ADAM优化器，初始学习速率为1e-4。在联合训练阶段，我们训练整个12119使用相同的优化器进行端到端的流水线，直到收敛。所有的实验都是在一个带有8块NVIDIA P40图形卡的工作站上完成的。4.3. 消融研究4.3.1浅谈骨干网与PVAM我们的SRN利用骨干中的Transformer单元[34]，并在PVAM中添加字符读取顺序信息以捕获全局空间依赖性。如Tab中所示。1，我们的骨干与Transformer单元优于一个没有它在所有基准的准确性至少3%如选项卡中所示。1，在大多数公共数据集中，特别是对于CUTE，使用字符读取顺序获得了增益。在一些简单的任务上的表现略有改善，因为没有这个术语的注意力机制实际上能够通过数据驱动的训练隐式地捕获阅读顺序。表1.主干和PVAM的消融研究。“基底”是指主链;“TU”指Transformer装置;“CRO”是指字符阅读顺序信息。4.3.2关于GSRM的为了评估GSRM在语义推理中的有效性，我们比较了有 / 无 GSRM 的实验结果。此外，还对 GSRM 中的Transformer 单元数进行了探讨。如Tab.所示。2 、GSRM实现了1.5%、0.2%、0.8%、IIIT 5K中为 0.3% ，IC 15中为 4.2%、0.9%、0.1%、0.0%，将“Transformer Unit”的数量设置为1、2、4和6。这表明语义信息对文本识别是重要的，GSRM能够利用这些信息。由于4-GSRM的性能与6-GSRM相似，因此在剩余的实验中采用4-GSRM以保持可控计算。表2. GSRM构型的烧蚀研究。“IC13IC15IIIT5KSVTSVTP可爱无GSRM93.277.592.388.179.484.71-GSRM94.781.793.888.582.688.92-GSRM95.682.694.091.083.987.84-GSRM95.582.794.891.585.187.86-GSRM95.082.795.190.68486.8为了证明全局语义推理策略的好处，我们将我们的方法与两种变体进行比较：一个仅向前运行而另一个向后运行以捕获单向语义信息。此外，还介绍了两种典型的文本识别方法，CTC和2D-Attention表3.语义推理策略的消融研究“2D-ATT”是指2D-注意;“FSRM”和“BSRM”分别表示正向和反向单向语义推理模块。IC13IC15IIIT5KSVTSVTP可爱CTC91.774.691.684.574.981.2二维ATT94.077.092.788.178.184.3FSRM94.781.194.989.681.787.1BSRM94.581.194.390.082.586.8GSRM95.582.794.891.585.187.8方法，也包括在比较中，以证明我们的优越性，现有的语义上下文无关的方法和语义上下文感知方法。如Tab中所示。3、所有的语义上下文感知方法都优于语义上下文无关方法（基于CTC的方法），突出了语义信息的重要性。此外，GSRM与全局语义推理的准确率比那些与单向语义推理约1%的基准测试，验证了多路语义推理的有效性。4.3.3特征融合策略的探讨在本文中，我们介绍了一种新的特征融合策略，即门控单元，这是在第二节中描述。3.4.在本节中，我们进行实验，比较我们的VSFD与三种不同的特征融合方法，包括添加，连接和点。选项卡. 4表明，其他三种融合操作在一定程度上会导致基准性能的下降。因此，VSFD在我们的方法中被用作默认值。表4.特征融合策略的消融研究IC13IC15IIIT5KSVTSVTP可爱添加95.281.793.890.984.387.8Concat95.082.093.891.582.988.1点94.881.092.089.784.588.1门控单元95.582.794.891.585.187.84.3.4正确/失败案例为了说明语义信息如何帮助SRN提高性能，我们从基准测试中收集了一些单独的案例来比较SRN与GSRM的预测。如图例如，由于字符“r”在视觉上类似于具有单词“Vernon”的图像中的字符“c”，所以没有GSRM的预测错误地给出字符“c”，而具有GSRM的预测在全局语义上下文的帮助下正确地推断出字符“r”。“sale”中的字符SRN的故障情况如图所示7、可分为两类：1）SRN不能插入或重新移动字符，只能修改错误的字符。如果视觉特征对齐错误或某些字符丢失，则SRN无法推断出正确的字符，例如方法IC13IC15IIIT5KSVTSVTP可爱基地90.072.487.083.673.880.5碱+TU93.077.591.987.579.883.6碱+TU+CRO93.277.592.388.179.484.712120图6. SRN伴/不伴GSRM的正确病例。预测沿着图像的右侧放置。上面的字符串是没有GSRM的SRN的预测;下面的字符串是SRN的预测图7. SRN故障案例。预测和地面实况标签放置在图像的右侧。最上面的字符串是没有GSRM的SRN的预测，中间的字符串是SRN的预测;底线是地面实况。“鼻子”和“闪亮”。2)当视觉语境和语义语境都失效时，SRN可能不起作用，因为SRN的增益主要来自视觉特征和语义特征的互补。当图像受到特殊字体或低质量的影响，并且其中的单词很少出现在训练数据中时，SRN很难获得视觉上下文和语义依赖关系，如图2中的第二行。7场演出4.4. 与最新技术我们的方法与以前的计算方法的比较如表1所示。5.由于在实际应用中，识别前词典总是未知的，所以我们只在没有任何词典的情况下对结果进行比较。上下文感知方法的性能一般优于上下文无关方法，并且与GSRM的帮助下的最新方法相比，所提出的SRN在六个公共数据集上实现了更好的性能，这证明了该特定设计的模块可以比现有技术更好地利用语义信息。对于常规数据集，我们分别在IC13，IIIT5K和SVT上获得了0.2%，0.4%，0.9%的改进SVT的增益是相当大的比其他两个集，我们认为，语义信息将发挥更重要的作用，特别是对低质量的图像识别。虽然我们的方法没有考虑特殊的措施，如校正模块，以处理不规则的单词，如 ASTER [31]和 ESIR[44]，但值得注意的是，SRN在这些失真的数据集上实现了相当甚至更好的性能如Tab所示五、与采用整流模块的现有方法相比，IC15和SVTP分别提高了4.0%和2.8%，CUTE的结果相当。与对SVT增益的解释类似，我们认为这主要是由于全局语义信息将成为文本识别中视觉信息的重要补充，在面对困难情况时将显示出更大的有效性。4.5. 非拉丁文长文本的结果为了评估长文本的性能，我们设置了两个额外的实验：注意力和基于CTC的方法具有相同的配置。我们使用[9]中的引擎生成了一个合成的长文本数据集，其中包括300万张图像。此外，我们还使用RCTW [32]和LSVT [33]的训练集按照第12节中所述4.2中，我们只是将最大解码长度N改为50，类别数改为10784。我们在 ICDAR 2015 文本阅读的 Wild Competition 数据集（TRW15）[45]上通过字符级准确度评估了我们的模型。TRW15数据集包含484张测试图像。我们裁剪了2997幅水平文本行图像作为第一测试集（TRW-T），选择长度大于10的图像作为第二测试集（TRW-L）。结果见表。6.与CTC和基于注意力的方法相比，该方法在TRW-T上分别提高了6.8%和8.4%。由于该方法能够模拟二维空间信息，克服了在某一时间步长上出现错误解码结果时的误差积累。与SCCM [42]相比，我们的SRN比没有GSRM的SRN提高了4.9%，而SCCM中的LM模型提高了4.7%。这表明GSRM能够很好地融合语义特征和视觉特征，对长文本的识别具有重要意义。与未加GSRM的SRN相比，GSRM的改善率从TRW-T的4.9%提高到TRW-L的6.8%。我们还可以发现，2D-Attention在TRW-L中的识别率要低得多，这大约是由错误积累造成的。如图8、有几个案例是从测试集中选出来的显然，语义信息可以更好地区分两个例如，“负责”在视觉上类似于“素”，而“素材”是常见的中文短语，因此具有GSRM的SRN正确地4.6. 推理速度为了探索我们所提出的方法的效率，我们评估了我们的方法的速度与/不GSRM，并将其与CTC，1D-Attention和2D-Attention识别器在短文本和长文本数据集进行比较。测试集为IC 15和TRW-L，平均长度为512121表5.场景文本识别性能与以前的方法在几个基准测试的比较。所有的结果都是在没有词典。“90 K”和“ST”表示Synth 90 K和SynthText;“word”和“char”表示采用单词级或字符级注释;“自”是指使用自行设计的卷积网络或自制的合成数据集。SRN w/oGSRM意味着SRN削减了GSRM，从而丢失了语义信息。方法ConvNet，数据安诺斯IC13IC15IIIT5KSVTSVTP可爱Jaderberg等人[14个]VGG，90K词90.8--80.7--语义Jaderberg等人[12个]VGG，90K词81.8--71.7--上下文Shi等人[29]（CTC）VGG，90K词89.6-81.282.7--- 免费Lyu等人[25]（并行）ResNet，90K+ST词92.776.394.090.182.386.8Xie等人[39]（ACE）VGG，90K词89.768.982.382.670.182.6Liao等人[22]（FCN）ResNet，ST字符字91.5-91.986.4--Lee等[19个]VGG，90K词90.0-78.480.7--Cheng等人[5]（FAN）ResNet，90k+ST词93.370.687.485.9--Cheng等人[6]（AON）自身，90k+ST词-68.287.082.873.076.8语义语境- 意识到Bai等人[3]第一章Yang等[41个]Shi等人[31]（ASTER）Zhanet al.[44]（ESIR）ResNet，90K+STVGG、90K+selfResNet、90K+STResNet、90K+ST词字，字符字94.4-91.891.373.9-76.176.988.3-93.493.387.5-89.590.2-75.878.579.6-69.379.583.3Yang等[40]（ScRN）ResNet，90K+ST字符字93.978.794.488.980.887.5Li等[20]（SAR）ResNet，90K+ST词91.069.291.584.576.483.3Liao等人[21]（SAM）ResNet，90K+ST词95.377.393.990.682.287.8我们SRN，不带GSRMResNet，90K+ST词93.277.592.388.179.484.7SRNResNet，90K+ST词95.582.794.891.585.187.8表6.非拉丁文长文本数据集上的识别精度（字符级方法TRW-T（%）TRW-L（%）[45]第四十五话72.1-SCCM w/o LM[42]76.5-SCCM[42]81.2-二维关注72.259.8CTC73.870.9SRN，不带GSRM80.677.5SRN85.584.3图8.非拉丁文长文本的正确大小写。在图像下有两个预测。左边的字符串是没有GSRM的SRN的预测;右边的字符串是SRN的预测。表7.推理过程中的速度比较方法IC15TRW-LCTC1D-Attention2D-Attention128.6ms323.3ms338.8ms131.8ms431.1ms486.9msSRN，不带GSRMSRN131.5ms191.6ms137.3ms216.8ms分别为15为了进行公平的比较，我们在相同的硬件（NVIDIA Tesla K40m）上使用相同的骨干网络测试了所有方法每个方法在测试集上运行3次，单个图像所消耗的平均时间在Tab中列出。7.第一次会议。受益于SRN中的并行框架，12122与IC 15中基于1D和2D-Attention的方法相比，GSRM模型的速度分别提高了1.7倍和1.8倍，而TRW-L中的速度将提高到2.0倍和2.2倍。同时，我们的方法没有GSRM的计算效率是类似的CTC为基础的方法，由于其并行性和简单性。5. 结论在本文中，我们声称语义信息是非常重要的鲁棒性和准确的场景文本识别器。给定文本行的字符（拉丁文或非拉丁文），我们使用GSRM来建模其语义上下文，其中包括字符之间的一阶关系和高阶关系。结合GSRM，提出了一种新的端到端可训练的文本识别框架语义推理网络（SRN），该框架包括骨干网络、并行视觉注意模块和融合解码模块。SRN在包括规则文本、不规则文本和非拉丁文长文本在内的近7个公共基准测试中取得了SOTA结果，并进行了大量的实验，显示了与现有方法相比的显著优越性。此外，由于SRN的所有模块都是时间无关的，因此SRN可以并行运行，比其他语义建模方法更实用未来，我们将致力于提高GSRM的效率，使其适应基于CTC的方法，以提高其在实际应用中的价值。引用[1] JohnAr ev alo ， ThirdlySolorio ， ManuelMontes-yGo'mez，andFabioAGonz a' lez. 信息融合的门控多模式单元arXiv预印本arXiv：1702.01992，2017.12123[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473，2014。[3] 樊白、湛湛成、牛一、蒲世良、周水耕。场景文本识别的编辑概率。在CVPR中，第1508-1516页[4] Antoni Buades，Bartomeu Coll，and J-M Morel.一种非局部图像去噪算法。见CVPR，第2卷，第60-65页。IEEE，2005年。[5] Zhanzhan Cheng，Fan Bai，Yunlu Xu，Gang Zheng，Shiliang Pu，and Shuigeng Zhou.集中注意力：自然图像中的精确文本识别。在ICCV，第5076-5084页[6] 湛湛成、杨柳絮、樊白、牛一、蒲世良Aon：面向任意性的文本识别。在CVPR中，第5571-5579页[7] Jonas Gehring ， Michael Auli， David Grangier ， DenisYarats，and Yann N Dauphin.卷积序列到序列学习。ICML，第1243-1252页。JMLR。org，2017.[8] Al e xGr av es，SantiagoFer na´ ndez，FaustinoGomez，andJ ür genSchmidhube r. 连接主义时间分类：用递归神经网络标记未分割序列数据。ICML，第369-376页。ACM，2006年。[9] Ankush Gupta，Andrea Vedaldi，Andrew Zisserman.用于自然图像中的文本定位的合成数据。在CVPR，2016年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[11] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei. 用于对象检测的关系网络在CVPR中，第3588-3597页[12] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.用于非约束文本识别的深度结构化输出学习。arXiv预印本arXiv：1412.5903，2014。[13] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.自然景物文本识别的合成数据和人工神经网络。NeurIPS，2014。[14] 马克斯·贾德伯格，凯伦·西蒙尼安，安德里亚·维达尔迪，和安德鲁·齐瑟曼.使用卷积神经网络在野外阅读文本IJCV，116（1）：1[15] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。在NeurIPS，第2017[16] Nal Kalchbrenner，Lasse Espeholt，Karen Simonyan ，Aaron van den Oord ， Alex Graves ， and KorayKavukcuoglu.线性时间内的神经机器翻译。arXiv预印本arXiv：1610.10099，2016.[17] Dimosthenis Karatzas，Lluis Gomez-Bigorda，AnguelosNicolaou，Suman Ghosh，Andrew Bagdanov，MasakazuIwa- mura ， Jiri Matas ， Lukas Neumann ， VijayRamaseshan Chan- drasekhar ， Shijian Lu ， et al.Icdar2015稳健阅读竞赛见ICDAR，第1156-1160页。IEEE，2015年。[18] Dimosthenis Karatzas，Faisal Shafait，Seiichi Uchida，Masakazu Iwamura，Lluis Gomez i Bigorda，Sergi Robles12124梅斯特、琼·马斯、大卫·费尔南德斯·莫塔、乔恩·阿尔马赞·阿尔马赞和路易斯·佩雷·德拉斯·赫拉斯。Icdar2013稳健阅读比赛。载于ICDAR，第1484-1493页。IEEE，2013。[19] Chen-Yu Lee和Simon Osindero。递归递归网络与注意力建模在视觉识别中的应用。在CVPR中，第2231-2239页[20] Hui Li，Peng Wang，Chunhua Shen，and Guyu Zhang.显示、出席并阅读：一个简单而强大的不规则文本识别基线。在AAAI，第33卷，第8610-8617页，2019年。[21] Minghui Liao ， Pengyuan Lyu ， Mingha

下载后可阅读完整内容，剩余1页未读，立即下载