联合视觉语义推理解码器用于文本识别

53 浏览量更新于2023-10-14 收藏 852KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14940联合视觉语义推理：用于文本识别的多级解码器Ayan Kumar Bhunia1 Aneeshan Sain1，2 Amandeep Kumar* Shuvozit Ghose*Pinaki Nath Chowdhury1，2 Yi-Zhe Song1，21SketchX，CVSSP，英国萨里大学2iFlyTek-萨里人工智能联合研究中心{a.bhunia，a.sain，p.chowdhury，y.song} @ surrey.ac.uk{ shuvozit.ghose，kumar.amandeep015} @gmail.com。摘要虽然文本识别多年来已经取得了显着的发展，但由于复杂的背景，不同的字体，不受控制的照明，失真和其他伪影，最先进的（SOTA）模型仍然在野外场景中挣扎这是因为这样的模型仅依赖于用于文本识别的视觉信息，因此缺乏语义推理能力。在本文中，我们认为，语义信息提供了一个补充的作用，除了视觉。更具体地说，我们还利用语义信息，提出了一个多阶段多尺度注意力解码器，执行联合视觉语义推理。我们的新颖性在于直觉，对于文本识别，预测应该以阶段明智的方式进行改进。因此，我们的关键贡献是设计一个阶段式展开注意力解码器，其中离散预测字符标签调用的不可微性需要绕过端到端训练。虽然第一阶段使用视觉特征进行预测，但后续阶段使用联合视觉语义信息在其之上进行细化。此外，我们还引入了多尺度2D注意力以及不同阶段之间的密集和残余连接，以处理不同尺度的字符大小，从而在训练过程中获得更好的性能和更快的收敛速度。实验结果表明，我们的方法优于现有的SOTA方法的相当大的利润。1. 介绍几十年来，文本识别一直是一个热门的研究领域[1，33，53]，这要归功于其广泛的商业应用[42]，从混合现实中的翻译应用程序，自动驾驶中的路标识别到视障人士的辅助技术[10]，仅举几例。基本深度学习组件[25，2]以及序列到序列学习的重大进展-ing框架[53，33，46]，最近提高了无约束单词识别精度（WRA）。尽管*使用SketchX图1：与现有的注意力解码器架构[53，33]相比，我们设计了一种用于文本识别的新型多尺度注意力解码器，其以逐阶段的方式解包。通过直通 Gumbel-Softmax算子[26]绕过了由于离散字符预测而导致的不可微性问题，使得后期阶段可以通过联合视觉语义信息以端到端可微的方式学习对先前预测的细化策略。在这种发展中，由于复杂的背景、变化的字体、不受控制的照明、失真和其它伪像，现有技术的文本识别框架[3，14，37，55，8，7，9]仍然在各种场景[1，42]中挣扎。当机器在这些挑战的组合中挣扎时，人类通过联合视觉语义推理很容易地识别它们因此，问题的焦点是-最先进的文本识别系统[1]主要依赖于提取的视觉特征来将单词图像识别为机器可读的字符序列。通过增加卷积特征提取器的深度，[14]具有更大的感受野，或引入金字塔池[55]和堆叠多个Bi-LSTM层[37]。尽管所有这些尝试仅仅导致更好的上下文建模[1]，但除了丰富视觉特征之外，语义推理潜力[13]在很大程度上缺失在各种情况下，单词图像可能会模糊、扭曲、部分失真。LSTM解码器可微语义空间LogitsGumbel噪声Visual-Semantic推理2层Bi-LSTMLSTM解码器温度Softmax概率argmaxFPN可微语义空间视觉语义推理一个炎热骨干CNNLSTM解码器保留通过直通Gumbel-Softmax向前传球多尺度2D注意向后传递14941噪声或具有伪像，使得单独使用视觉特征进行识别极其困难。在这种情况下，我们人类首先尝试仅使用视觉线索来解释容易识别的字符。语义推理技术，然后应用到解码的最终文本，通过联合处理的视觉和语义信息，从先前识别的字符序列。基于这种直觉，我们提出了一种新的多阶段预测模式的文本识别。这里，第一阶段使用视觉线索进行预测，而后续阶段通过迭代[13，12]建立估计值，使用联合视觉语义信息在其之上进行优化。为文本识别设计这种联合视觉语义推理框架是不平凡的。有人可能会认为注意力解码器是一个序列到序列模型，封装了字符依赖性[53，33，46]并迎合了语义推理。然而，由于其自回归性质[2]，只有那些先前预测的字符才能在给定步骤处提供语义上下文，从而使得语义上下文流在推理期间是单向的。虽然语义上下文对于初始步骤变得可忽略不计，但是这里的一个错误预测将对后续步骤产生累积的不利影响（由于单阶段预测，其保持未细化）。因此，这种单阶段注意力解码器无法对全局语义上下文进行建模为了探索整个全局语义背景，我们需要从第一阶段完全展开的预测，在此基础上我们可以建立全局语义信息。因此，作为我们的第一个贡献，我们提出了一个多阶段的注意力解码器（图1），在那里我们建立了全局语义推理的第一阶段，这是进一步完善的后续阶段的初始估计。让我们考虑一下“飞机”这个词。对于单级注意力解码器，如果模型预测此外，它在预测前几个字符时保持几乎可以忽略不计的语义上下文考虑到我们逐阶段展开预测，如果字符被错误地预测，如这有助于在与视觉信息相结合的后期阶段将“n”细化此外，从早期阶段获得预测需要不可微的argmax运算[26]，因为字符是离散令牌。这导致先前阶段对下一预测的影响的低效建模。一个明显的方法可能是在培训的后期阶段调整教师的强制[31]后期阶段旨在学习如何将初始（可能是不正确的）假设改进为正确的预测。然而，这种动机在为后续阶段提供确切的地面事实标签作为教师强迫时被击败。因此，我们使用Gumbel-Softmax操作[26]旁路。不可区分性，并使网络即使在各个阶段也是端到端可训练的。我们的贡献概括如下：首先，我们提出了一个多阶段的字符解码模式与阶段明智的展开。虽然第一阶段使用视觉特征进行预测其次，我们使用 Gumbel-softmax层来使视觉到语义嵌入层可区分。因此，该模型以端到端的方式从初始预测到最终预测学习其细化策略第三，从架构设计，我们引入了多尺度2D注意力来处理不同尺度的字符大小，并根据经验发现在不同阶段之间添加密集和剩余连接可以稳定训练以获得更好的性能，从而在基准数据集上显著优于其他最先进的技术。2. 相关作品文本识别：虽然连接主义时间分类（CTC）层[18]不对输出字符空间[52]中的依赖性进行建模，但基于注意力的解码器[53]将语言建模、弱监督字符检测和字符识别封装在单个范例中。在一些开创性的工作[53，32]之后，基于注意力的解码器成为用于文本识别的最先进的流水线，其包括四个连续的模块：i）用于简化不规则文本图像的校正网络[ 53 ]，ii）用于特征提取的卷积编码器，iii）用于上下文建模的Bi-LSTM层，以及iv）自回归预测字符的注意解码器。此外，近期后续工作的动机大致可分为以下几个方向：（i）通过引入迭代[6]流水线[63]和对文本图像的几何属性[59]建模来改进校正网络;（ii）用于更好的卷积特征提取的四个方向特征编码器[15];（iii）通过扩展到2-D注意力[33]和硬字符本地化注释[14，35]来改进注意力机制，以更好地指导基于注意力的字符对齐过程。(iv)最近，在卷积特征上堆叠多个Bi-LSTM层[37]和金字塔池[55]被用于实现更好的上下文建模的目标。然而，这些方法主要集中在利用视觉功能，通过不同的架构修改[58，62]在Shi等人之上。[53]，但大多缺乏任何语义推理能力。虽然一些作品声称通过堆叠额外的Bi-LSTM层来建模语义推理[37，55]，但它只有助于更好地建模上下文信息，而没有实际的推理潜力。在这种情况下，来自预训练语言模型的词嵌入[46]被用于初始化注意力解码器的隐藏状态，然而我们对此持怀疑态度。例如，两个相关的词14942∈×个--联系我们t=0--YV∈12T|QT|V--嵌入空间，但它们的字符组合是分开的，从而质疑使用词嵌入文本识别。Yu等人s [61]的架构设计，在调用不可微性的视觉到语义嵌入层中使用argmax操作受到严重限制，限制了从最终预测层通过该块的梯度流;学习不足（第4.1节）。我们相信，我们是第一个工作employing一个完全可微的语义推理块，迎合多阶段细化目标的离散字符序列预测任务。多尺度学习：这种学习范式在对象检测[36]、识别[29，4，38]和语义分割[41，21]中广泛流行。而不是仅仅依赖于低分辨率，语义强的特征，多尺度框架如MSCNN [11]，DAG-CNN [60]和FPN [36]将它们与高分辨率，语义弱的特征相结合，用于在各种形状和尺寸范围内进行对象检测。我们耦合多尺度特征，以产生多尺度的注意向量的文本识别。多级框架：尽管计算开销很大，但多阶段框架在计算机视觉任务中得到了普及，如姿势估计[48]、对象检测[13]和动作识别[17]，以显著提高性能。具体而言，卷积姿态机[57]是用于姿态估计的最成功和最广泛接受的多阶段深度框架之一联合视觉语义学习：最近，图卷积网络[28]通过生成具有局部和全局语义关系的增强视觉特征，在对象检测[13]，图像-文本匹配[34]，图像字幕[30在我们的工作中，我们使用Transformer网络[54]进行联合视觉语义推理。3. 方法概述：给定输入单词图像I，我们打算预测字符序列Y=y1，y2，…y T，其中T表示文本的可变长度。我们的框架是双重的：（i）视觉特征提取器提取上下文丰富的整体特征和多尺度特征图。（ii）之后，多级注意力解码器以逐阶段连续的方式建立当处理不规则/弯曲的单词图像[59，15]时，基于图像校正的方法[59]常常不足[15，35]。为了完全消除添加单独的复杂校正网络的负担，我们遵循2D注意力机制[33]，该机制有助于在解码过程中以弱监督的方式定位单个字符。3.1. 视觉特征提取我们采用[53]中的ResNet作为骨干卷积网络，从输入图像中提取视觉特征。为了处理不同尺度的字符，我们扩展到多个在特征金字塔网络[36]的帮助下，使用横向连接使每个分辨率级别在语义上都很强假设来自特定尺度的特征图被表示为B1RH1XW 1XD;其中1 = L表示具有最低分辨率但最高级别语义的最深残差块。 Hl和Wl是来自相应尺度的特征图的高度和宽度，其取决于连续池化层的累积步幅，其中所有尺度均匀地具有D通道[36]。为了在计算容易性和性能增益之间取得平衡，我们通过经验验证考虑l= L，L1，L2。视觉特征具有两个组成部分，（i）多尺度特征映射BL，BL-1，BL-2，其在稍后的解码过程中充当2D注意力的上下文。（ii）整体特征h_L，用于初始化第一级解码器的初始状态。该h_L被识别为2层Bi-LSTM的最终隐藏状态，该2层Bi-LSTM接受顺序特征（W_L_D），该顺序特征是从最深残差块的特征图BL上的逐列最大池化获得的（确保高度保持一致），然后进行整形。3.2. 视觉语义联合推理解码器概述：假设来自第s级解码器的预测被表示为Ys=ys，ys，…是的。具体地，第一级解码器仅依赖于所提取的特征。后续阶段另外使用全局语义信息，其在逐阶段解码范例中建立在初始估计之上为了完整性，我们首先描述了基本的注意力解码器在一个广义的方式（忽略阶段符号）。稍后我们将特别说明第一阶段（s=0）与后期（s≥1）。3.2.1注意解码器背景文本识别框架旨在对条件分布P（Y）进行建模|I），其可以被因式分解为P（yi）= P （ yit，1。我们观察到性能下降到72。IC15数据集中的1%，原因是高分辨率语义弱特征无法输出初始估计值。[v] 基于自我注意的联合视觉-语义推理的重要性：为了模仿类人推理，基于自我注意的推理功能允许双向信息穿过视觉和语义空间以获得联合视觉-语义上下文。其意义可以通过移除视觉推理块并相应地修改架构来经验性地理解，这将结果降低2。9%。类似的下降4。8%，观察时，语义推理块被删除。在移除两者时，我们观察到77。1%的准确度-大幅下降6。9%来自我们的方法（表2）。[vi] 多尺度（分辨率）特征图是否有帮助？我们通过排除多尺度特征图并使用B L而不是B L− s来计算每个阶段s的g s来经验性地验证这一点。这样的修改使性能下降2. 7%（对我们），到81。3%，这突出了多尺度特征图在我们的方法中的贡献。[vii] 与其他多尺度注意解码器设计的比较：在文本识别中，唯一实现多尺度信息重要性的其他工作是Wan等人。[55]其中使用金字塔池。在这里，来自不同空间分辨率的视觉特征图被合并，由于这种特征图之间的大的语义间隙，这最终损害了下游任务因此，我们在特征金字塔网络[36]之后引入横向连接，在语义上加强高分辨率水平以获得优异的性能。然而，对于所有阶段s=0、1、2简单地采用金字塔池化，性能下降2。1%（对我们）到81。9%。[viii] 密集连接和残余连接的意义14948方法不········不表2：（左）多个约束对IC15的影响。（右）改变训练数据大小。 L ′C：仅最后一级，L C：多级，GAP：WRA与最终性能的差额。表3：联合视觉-语义推理模块的重要性以及与语言模型（LM）的比较。L′CLCLVLSIC15GAPC- -73.1十点九分-C...77.1六点九- - C键C- 79.24.8-C-C81.1 2.9Syn SynSyn Syn10K50K 100K1MYu et al. [第四十四届] 21.7三十七点七 51.2 67.4Luo等人[61] 13.3 32.1 47.3 63.7基线（s=0） 9.9 27.2 44.9 62.3Transformer with Pre-Training Semantic reasoning 84.0--- C 键CC 84.0-2 5 . 341.5 56.4 73.1除了改善前向传递中的视觉信息流之外，初始H0和最终H0表4：所提出的方法的计算分析。方法GFlops参数CPU IC 15我们的基线（Stage-0）15.3 38 M 16.38ms 74.5建议方法22.5 44M 26.31ms 84.0S确保视觉特征网中的高效梯度流加快全网融合此外，密集连接用于通过将来自前一阶段的特征与当前特征相结合来自适应地学习更具鉴别力的瞥见向量，从而稳定多级多尺度注意解码器的训练。删除密集的连接（g t计算）降低了1的性能。6%，去除残余连接使其降低1. 百分之三。在去除两者之后，我们得到更大的下降1。9%。在使用密集连接和剩余连接时观察到更快的训练。[ix] 多重约束的重要性：我们设计了实验装置（表2），其揭示了以下观察结果：（a）仅在最后阶段施加损失L C会损害模型，导致73。1%的准确度。我们将此归因于跨阶段的差梯度流（b）添加多级LC损失得到77。1%的准确度，性能更接近所提出的方法。(c)添加视觉语义约束LV和LS最终给出84的最佳性能。0%。这表明多阶段约束对于训练和收敛至关重要。多个约束背后的直觉来源于多任务学习，这确保了更好的收敛，从而丰富了具有更好的视觉语义信息的单个字符对齐特征。[ix]改变训练数据大小：在[44]之后，我们还改变了训练大小，并与单阶段基线和Yu等人相比评估了我们提出的框架。[61]见表2。在低数据制度显着的开销带来的优势，我们提出的方法比别人。4.2. 进一步分析和见解[i] 视觉语义推理模块的设计：可以使用(a)Bi-LSTM（b）Transformer [54]具有多头自注意机制。表3显示了Transformer输出执行LSTM 1。百分之三。此外，使用BERT [ 16 ]如训练拓扑预训练全局语义推理模块ω（）得分为0。9%的准确性比没有它。[ii] 各阶段的重量分担：逐阶段注意解码器具有五个可训练模块，F cls（）、E（）、Φ（）、ω（）和Φ（），其权重可以跨阶段共享或具有用于每个阶段的单独模型。我们-单独的权重达到82. 5%的准确度，而跨阶段共享的结果是82。百分之三。有趣的是，使用单独的Fcls，Φ和共享的E（），Φ，ω给出84。0%，a 1. 7%的增长，与共享所有权重相比，这可能是因为共享不依赖于阶段的参数降低了模型复杂度并具有更好的[iii] 计算分析：在下一个阶段开始处理之前，每个阶段都需要完全展开。因此，性能增益是以额外的计算费用为代价的（表4中的分析），考虑到优于强基线的性能，这是合理的。即便如此，我们还是尝试使用ResNet-101作为主干特征提取器，其参数和触发次数与我们的相似这种幼稚的多层堆叠滞后了8.9%，这将我们的收益归功于我们新颖的设计选择。[iv] 与SOTA语言模型的比较：我们比较了我们的框架与国家的最先进的语言建模（ LM ）的基础上库rispeech文本语料库的后处理技术。基于[19]，我们采用两种技术：（a）导致74。3%和（b）深度融合给出75. IC15的9%准确度（表3）。[v] 最佳阶段：阶段数s的最佳值根据经验在IC15上找到。对于s=1，我们有80。3%的准确度，在s=2时提高到84。0%，但在s=3时饱和，得到83。百分之六。因此，我们认为s=2是最优的。这种性能饱和度可能是-归因于消失梯度问题，其经由残余/密集连接来解决，但在某种程度上仍然存在。此外，对于s >2，联合视觉语义信息可能达到其最佳值，其中结果饱和。请参阅补充材料。5. 结论我们提

下载后可阅读完整内容，剩余1页未读，立即下载