基于误差提取的迭代文本识别的框架及其在看不见的字符序列上的应用

12 浏览量更新于2023-10-15 收藏 939KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14950向看不见的方向：基于误差提取的迭代文本识别Ayan Kumar Bhunia1 Pinaki Nath Chowdhury1，2 Aneeshan Sain1，2 Yi-Zhe Song1，21SketchX，CVSSP，英国萨里大学。2iFlyTek-萨里人工智能联合研究中心{a.bhunia，p.chowdhury，a.sain，y.song}@ surrey.ac.uk.摘要视觉文本识别无疑是计算机视觉中最广泛研究的课题之一。到目前为止已经取得了很大的进步，最新的型号开始专注于更实用的1009080706050标准设置上的基线不相交设置上的基线建议采用标准设置建议采用不相交设置婷然而，一个突出的问题仍然阻碍了实际的应用-现有技术大多在识别看不见（或很少看到）的字符序列方面挣扎。在本文中，我们提出了一个新的框架，专门解决这个“看不见”的问题。我们的框架本质上是迭代的，因为它利用来自前一次迭代的字符序列的预测知识来增强主网络以改进下一次预测。我们成功的关键是一个独特的跨模态变分自动编码器作为一个反馈模块，这是训练的文本错误分布数据的该模块重要地将离散预测字符空间转换为用于在下一次迭代中调节视觉特征图的在常见数据集上的实验已经显示出在传统设置下超过最先进技术的竞争性能。最重要的是，在新的不相交设置下，训练测试标签是相互排斥的，我们提供了最好的性能，从而展示了推广到看不见的单词的能力（图1提供了一个总结）。1. 介绍文本识别是计算机视觉中的一个长期问题，在各种应用中起着关键作用，从OCR系统[4，42，48，54]，导航和引导板识别[10]到最近的视觉问答[5]。随着深度学习的发展[50，62，10，43]，识别准确率比传统方法[36]显着提高。因此，研究重点转移到更实际的“野外”环境中，试图实现无处不在。其中，不规则场景文本识别[50，10，58，60]已经获得了相当的关注，但重点放在不规则图像校正过程[62，58]而不是核心识别IIIT5KSVTIC13IC15SVTP可爱的IAM犯罪图1. 图中显示了基线模型的性能[50]在训练期间没有遇到测试字的不相交设置下是有限的我们的方法在不相交设置中比基线执行得更好，减少了与标准设置的性能差距，并在罕见的单词上展示了其潜力。然而，在所有数据集上也可以注意到标准设置的改进。问题本身。在本文中，我们继续推动实用性，尽管有不同的角度-我们的动机是直接的-人类可以识别一个词的形象，即使它超出了已知的词汇范围。事实上，文本识别框架的鲁棒性在很大程度上取决于其对罕见或不可见单词的性能[52]。请注意，与传统的零射击[59]设置不同，其中转移发生在类级别，这里的字符组合是事实上，在训练过程中没有遇到的序列是什么使这项任务具有挑战性。我们对这个“看不见的”问题的解决方案是直观的：（i）我们利用具有反馈机制的迭代框架，以使模型有机会重新访问其错误的预测，以及（ii）我们明确地要求这种反馈来封装有用的信息，这些信息将有助于模型在下一次迭代中进行自我校正。因此，我们的第一个贡献是一个迭代框架，其中在前一次迭代中预测的字符通过反馈循环[17]提供线索，以提高后续迭代的性能这与当前的最新技术[50，10，29]有根本的不同，其中大多数都适用于% Word Recg Acc.14951前馈框架由三个组件（特征提取主干、双向RNN编码器和基于注意力的递归解码器）组成。尽管有注意力机制，但其单次通过性质仍然决定了错误的预测，从而没有给模型留下重新覆盖的机会。为此，我们的迭代设计使得能够在其后续步骤中通过新颖的交叉模态（即，文本预测到图像特征映射）反馈机制。我们成功的关键在于反馈在每次迭代中是如何进行的。一个简单的解决方案可能是将一个独立的拼写校正网络[13，56]串行链接到一个基本的文本识别模型。除了不能端到端训练之外，这还忽略了来自识别网络的中间视觉特征另一方面，我们主张早期的单词预测（文本标签）应该被反馈回跨模态的主要文本识别网络，并直接调制的视觉特征图在下一次迭代。也就是说，反馈模块触发从离散预测标签空间到仿射变换参数的连续空间的映射（类似于[41]），仿射变换参数因此用于调节视觉特征（因此关闭反馈回路）。仅仅知道反馈是如何工作的是不够的，我们仍然需要设计出应该反馈什么信息，以使模型能够最好地纠正自己。为此，我们重新排序以从最先进的文本识别模型例如，通过将这种错误分布提取到反馈模块中（仅在训练期间），模型将获得正确字符关联的知识。因此，我们的第二个贡献是通过条件变分自动编码器（CVAE）[51]设计反馈模块，该模块从这种误差分布中学习更具体地说，我们用辅助解码器来增强vanilla CVAE，该辅助解码器试图直接重建正确的单词，在每次迭代时给出任何不正确的预测。请注意，确定性替代方案，如典型的反馈网络[47，17]或拼写校正（预测细化）网络[13，56]，将无法很好地工作，因为它们没有对多个错误替代方案中的不确定性进行建模，从而决定了像我们这样的变分公式。我们的贡献是：[a]我们首次提出了一种迭代方法来专门解决“未看到”的文本识别问题。[b]我们设计了一个条件变分自动编码器来充当反馈模块，它可以跨模式传播来自早期迭代的预测文本标签，以调节来自主网络的视觉特征[c]我们的新的跨模态反馈模块是通过从文本将多个错误字符序列建模为给定候选词的错误分布。实验证实，我们的框架能够采用看不见的话比国家的最先进的框架作品在各种公共场景的文本识别和手写识别数据集。进一步的消融研究表明，我们的迭代框架优于朴素的拼写检查[56，13]和语言模型替代[22]，并且所提出的反馈模块可以与多个基础网络即插即用。2. 相关作品文本识别：随着深度学习方法的适用性不断提高，Jaderberg等。[20]采用卷积神经网络进行文本识别，但这种方法仅限于字典单词。虽然Jaderberg等人消除了这一限制。[18]，它仍然需要大量的资源用于角色级别的本地化。使用连接主义时间分类（CTC）[11]结合递归神经网络的序列判别训练，处理字符级定位的需要。这导致了用于阅读文本的端到端可训练卷积递归神经网络[48]。通过将注意力[3]的想法纳入文本识别[26，49]，这一点得到了进一步加强。通常实施双重过程[58，49，50，62]，其中不规则图像首先通过校正网络，然后通过文本识别网络。最近已经探索了2D注意力机制，集中注意力网络（FAN）[9]等想法，以及使用综合生成的大型数据集提高文本阅读准确性的可能性[63]。尽管进行了如此广泛的研究，但直到最近在[10]中才对阅读不规则弯曲文本进行了详细的探索，[10]描述了如何通过从2D输入图像中Baek等人[2]进行了因此，可以观察到，尽管最近的文本阅读工作强调设计更好的校正网络[62，58]，但所有这些研究[31，57]基本上都使用了现成的[48]识别模块。另一方面，由于书写的自由流动性质，手写识别提出了更严峻的挑战[4Poznanski等人[42]使用ConvNet来估计n元语法频率分布以及具有用于识别的真实频率分布的大型字典反馈机制：Carreira等人[7]基于校正信号输出流形增加输入空间，改进人体姿势估计并推广到实例分割任务[28]。而Weiet al. [55]使用Con- vNet，然后是具有更大感受野的类似模块，Newell等人。[37]发展了一个沙漏网络14952∈∈×个∈--∈PPⓈ→ PPexp（a）计算公式：gk =ΣΣ设计，堆叠在一起，以合并所有输入尺度的信息。Zamir等人[61]提出了一种与反馈概念相一致的新型网络架构，在功能上类似于ResNet架构。其他包括实例分割[28]，少量学习[64]，对象检测[8]，超分辨率[35]和图像生成[47，17]。怎么-基于条件变分自动编码器（ok，sk）=RNN（sk-1，[gk，E（yk-1）]）其中gk是对来自编码特征H的特定相关部分的信息进行编码以预测yk的瞥见向量[50];E是嵌入层，并且[·]表示级联〇。操作HeΣre，gk为这使得能够对语言学上正确的字符序列的先验知识进行建模。错误更正：可以在自动语音识别（ASR）社区中找到利用这种细化字符序列预测的想法的早期努力。在Rozovskayaet al.[46] Hanset al. [15]使用分类器检测介词错误。Ng等人利用统计机器翻译方法对语法错误进行了纠正。[38]第30段。最近，Xie等人提出了使用递归编码器-解码器架构结合注意机制的想法。[56]以解决复杂的正交错误。后来这个想法被郭等人采纳。[13]与ASR相关的任务。3. 方法我们提出了一种迭代的文本识别方法，而不是在单个前馈传递中生成结果[50，30，58，65由于我们的工作仅对文本识别部分有贡献，因此我们没有详细介绍初始校正网络。我们使用了一个现成的整流网络的基础上空间Transformer网络[21]和薄板样条[2]从施等人。[50 ]第50段。3.1. 文本识别模块从校正网络[ 50 ]接收的经校正的图像被馈送到该文本识别网络T中，旨在产生字符序列Y=y1，y2，...yK ，其中 K 表示文本的可变长度。给定图像IRH×W×C，卷积特征提取器尝试学习丰富的视觉信息并产生大小为RH′×W′×D的特征图，其中H′、W′和D分别是输出特征图中通道的高度、宽度和数量。该输出被重新整形为特征向量序列B=[bl ，b2，…bL]，其中L=H′W′和bi研发部每维特征向量b基于其感受野对特定局部图像区域进行编码。此后，采用双向LSTM来捕获两个方向上的长程依赖性，从而减轻有限感受野的约束。它输出相同长度的更新特征序列，由H表示[h1，h2，… hL]。基于三个因素来解码该yk，这三个因素是：双向编码器输出H、前一个内部状态sk−1和在最后一步中预测的字符y k − 1。在时间步长k处，递归解码器注意力得分ak，i= vTtanh（Wssk−1+Whhi+ ba），其中v，Ws，Wh，ba是可学习的参数。最后，通过下式预测当前阶跃字符yk：p（y，k）= softmax（W ， o， k+ b， o）其中W ，o和b ，o是可训练参数。3.2. 跨模态变分反馈概述：与以前设计大多数确定性反馈模块的尝试不同[17，47，61]，我们提出了一种跨模态变分反馈网络，该网络具有变分自动编码器（VAE）[25]的优点，这是一类强大的概率模型。让我们考虑一个文本识别网络T，它被分解成两个部分，即TA和TB，其中分解的特定位置是根据经验获得的，如第4.3节所述。通过预测仿射变换参数，使用反馈网络F对这样的参数调节TA的输出动作图，如Ψ=TA（I）RH×W×T，通过设计的反馈调节层Φ。换句换句话说，对于迭代步骤t，反馈网络将前一次迭代的输出Y t-1作为其输入，并预测变换参数t作为其输出。作为结果，它学习映射：F：Y，使得反馈调节层Φ基于t调制Ψ。这可以被描述为Ψt=Φ（Ψ; 其中，将Ψt馈送到TB以更高的精度预测Y t。反馈调节层：这一层的主要目的是将先前前馈通过预测的先验知识传播到T。该动作将由TA提取的丰富视觉信息与来自较早预测的先前反馈信号在这方面值得一提的是佩雷斯等人的工作。[41]，其中通用调节层FiLM已经基于用于视觉推理的简单特征仿射变换操作而设计涉及视觉问答[41]、图像风格转换[16]和语义图像合成[39]的作品也被认为支持类似的想法。基于一些先验或条件信息，中间激活图Ψ可以被调制为：其中γ、ω是全局仿射变换参数。他们俩都有-通常通过接收条件信息作为输入的网络来预测在代替变换-形成全球每个通道，我们允许本地变换-以往，我们在这里介绍跨模态迭代反馈Li=0时Lj=0k我exp（ak，j）hi和，14953GP~|PP|P{}P|PGGPPP|P||P~培训推理图2.网络的训练包括两个步骤：（i）预测Y（绿色箭头）;（ii）使用反馈机制将Y细化为Y ′。不包括FP的反馈模块可以使用附加的纯文本数据（红色）来训练。然而，当使用预测Y训练时，整个路径被遵循（红色+蓝色）。模型中的推断包括使用任意数量的校正步骤来预测Yt[39]我们假设z的后验依赖于激活的每个空间位置。地图根据较早的数学符号和假设的地面真值标签Y而不是P，因此qψ（z|P，Y）≈在一些情况下，反馈调节层可以被公式化为：Γ+Ω其中Γ，Ω ，是由维数为RH×W×T的反馈网络预测的局部变换参数，类似于Ψ。该层通过缩放将预测Y与视觉特征Ψ移位和ReLU交替地影响选择性阈值。与全局调优[41]相比，这种特征的局部协调确保了对每个层的激活进行更好的细粒度控制。反馈网络：我们的目标是通过基于CVAE的反馈网络对从离散预测字符空间Y到反馈条件层的变换参数空间的条件分布p（Y）进行建模[51]。Sohn等人[51]已经表明，该条件分布的变分下限可以写为：L（Y，P;θ，ψ）= −KL（qψ（z| P，Y）||pθ（z|Y））+Eqψ[logp（P|z，Y）]≤log p（P|Y）（一）其中z是假设遵循具有对角协方差矩阵的多变量高斯分布由于真实后验的困难性，我们通过识别神经网络qψ（z，Y）来近似z的后验分布。给定Y的z的先验分布通过先验网络pθ（z Y）建模。关于CVAE的更多细节，我们参考[51]。(i) 理想地说，应该以当通过固定的T B时预测Y的方式来调整激活图Ψ。换句话说，对于时间步长t，给定由反馈网络预测的t，条件为Yt−1，调制后的特征映射Ψt被馈送到TB中，获得第n次迭代Y′的输出。因此，Y′=TB（Ψt），qψ（z|Y（，Y），其有效地使潜在空间zaw是精确的地面实况字符序列（iii）受改进主要任务目标的辅助任务方法[66]的启发，我们的目标是通过使用辅助字符序列解码器直接从z解码地面真实字符序列Y首先，该方法解决了隐变量消失的问题[6]，并提供了更好的梯度来正则化反馈模块的学习。其次，我们发现通过预测的相对论信息训练我们的反馈模块的选择（参见图2）：从其他最先进的技术中生成的地面实况对，而不是单独依赖于T预测Y。这有助于模块学习候选正确单词和密切相关的错误实例之间的关联关系由于‘h’与‘n’或‘b’的部分结构相似性，松散地说从错误分布中学习这种意义赋予模型所需字符关联的语义知识以形成有效单词。此外，使用纯文本数据缓解了训练期间图像配对数据集的有限可用性的问题。因此，我们调整Eqn。1、我们的反馈网络，以生成-评估先验知识*，而不仅仅是转换参数。这种先验知识有两个组成部分。一个封装Y和Y之间的关系，而另一个生成Y并将Y注入T中用于下一次预测。因此，采用上述变分下限表达式（Eqn. 1），并假设条件独立的这两个知识组件（给定 z和 Y ）表示为 p （ *z ， Y） =p（z，Y）p（Yz，Y），我们得到修改的下界为：其中Ψt=Φ（Ψ;t）。因此，最小化交叉项pyY′和Y之间的损失等于最大化L′（Y，P*;θ，ψ）=−KL（qψE（z|Y（，Y）||pθ（z|Y））+ˆP.qψ [log p（P|z，Y）]+ Eqψ [logp（Y|z，Y）]（2）关注TB不是CNNBZF柱ZF先验关注TB不是CNNBZF先验福奥克Bi-LSTMFenc解码器LSTMBi-LSTMFenc解码器LSTM14954||GD---G--网络组件：忽略时间步长符号，让我们考虑具有地面实况Y的n阶图像I，其经历T的第一次前向传递，分别在当前和连续的后反馈迭代中预测Y和Y’。在训练期间，我们通过共享编码器网络获得Y和Y的嵌入表示比较讨论：虽然最先进的文本识别框架对条件分布p（ YI ）进行建模，但我们的建模对象 iv e 是 p（YtYt−1，I）。这可以被解耦成两个边际分布：通过变换参数空间Pt相关的情况（更多）严格之前知识 P*t）。假设Fenc：Y¨enc=Fen c（Y¨）和Yenc=Fen c（Y）。移动明显条件独立我们重新表述我们有两个独立的分支：后验网络Fpost用于估计后验分布的参数，先验网络Fprior用于对先验分布做同样的事情由此得到： µpost ， σpost=Fpost （ [Yenc ，Yen c]）和µprior，σprior=Fprior（Yenc）。潜在变量z是从后（或测试期间的前）分布中取样在将其馈送到辅助地面实况字符序列解码器Faux和变换之前，将其与Yenc信息参数预测子模块 FP。因此，我们有，P=FP（[Yenc，z]），并且Y¯=Faux（[Yenc，z]）其中P封装Γ和Ω，Y¯是辅助电路的输出如：p （ Yt|Yt−1 ， I ） =p （ Yt|I ， Pt ） ×p（Pt|Yt−1），其中p（Yt|I，Pt）是我们改进后的字符串识别模型，P（Pt|Yt-1）类似于我们的反馈网络。算法1所提出的框架的训练算法一曰：输入：图像和地面实况对;预测和地面实况对。2：初始化超参数：α1、α2是用于T，F分别。3：初始化模型参数：θT、θF（θF’θF不包括辅助解码器此后，我们将第n次迭代的预测评估为：Y′=TB（Ψ），其中Ψ=Φ（Ψ;P）。FP）第四章：虽然没有做培训做5：从D采样小批量Di请参阅图2以了解详情。学习目标：我们的基线文本识别网络T（参数θT）使用交叉熵（ce）进行训练6：更新θT：=θT−α1θT7：更新θF：=θF−α2θF8：从G取样小批次Gi（L θT） d方程3（LθF） d方程4在地面实况输出序列Y上求和的损失K9：更新θF'：=θF'α2θF十： end while（L θF′）d方程五个LθT =Lc e（Y，Y）=−ΣyklogP（yk|I，yk（−1）（3）11：输出：θ，θk=1反馈模块F将从两个输入源被训练：（a）通过使用从T获得的预测Y。在前向预测Y第一次准确的情况下，下一次迭代中发散的预测值是非常不期望的。因此，随着下限（Eqn. 2），我们施加一个单调递减的约束Lc。这强制执行损失值（等式10）。3）与当前迭代Y’相关，Y 小于其先前的Y，Y，从而将预测提高到更高的精度。因此，我们使用以下公式优化反馈模块的所有参数θFLθF =λ1Lce（Y′，Y¨）+λ2Lce（Y′，Y¨）+λ3LKL+λ4Lc其中，Lc=max（0，Lce（Y′，Y¨）−Lce（Y，Y¨））（四）(b)通过使用从现有文本识别方法生成的预先收集的纯文本数据[30，10，2，50]。这样做开发了候选正确词和错误替代之间的关联关系的语义感。保持FP固定，反馈模块的其余部分（由θF’表示的参数）仅使用辅助解码器重构损失和KL发散损失被优化为：LθF'=λ2Lce（Y¯，Y¨）+λ3LKL（5）在测试期间，我们排除了Faux和Fpost，其中迭代预测是使用由FP预测的变换参数来完成的（参见图2）。14955不F4. 实验数据集：我们使用类似于[62，58，2，10，50，30]的方法在合成数据集上训练我们的方法，例如Synth90k [19]和SynthText [14]分别保存800万和600万图像。评价在以下方面进行：IIIT 5 K-单词、街景文本（SVT）、SVT-透视（SVT- P）、ICDAR 2013（IC 13）、 ICDAR 2015（IC15），和可爱80. IIIT 5 K-Words [34]呈现随机挑选的3000个裁剪的单词图像。街景文本[53]包含647张图像，大多数是模糊的，嘈杂的或具有低分辨率。SVT-Perspective[44]提供了645个来自具有透视畸变的侧视角快照的样本。ICDAR 2013 [24]呈现1015个单词，而IC-DAR2015 [23]具有2077个图像，其中200个是不规则的。CUTE80 [45]通过呈现288个裁剪的高质量弯曲文本图像来区分自己。手写文本识别（HTR）和场景文本识别（STR）在识别方面有着共同的目标，通常由类似的网络体系结构来处理。因此，我们在两个不同的公共HTR数据集上验证了我们的结果。[4]中描述的评估设置在两个大型标准数据集上使用，即包含1，15，320 个单词的 IAM[33] 和具有 66 ， 982 个单词的RIMES。对于IAM，我们使用相同的分区进行训练，验证和测试。对于RIMES，我们遵循ICDAR 2011竞赛发布的14956GG表1.比较训练期间未遇到的新单词的无约束WRA。 t = 0表示无反馈。方法IIIT5KSVTIC13IC15SVTP可爱80IAMRimesShietal.[50]（t=0）无反馈基线序列-SCM基线确定性-反馈Shi等人[50]+ CVAE-Feedback（t=1）Shi等人。[50]+ CVAE-反馈（t=2）Shietal.[50]+CVAE-F回缩（t=3）84.384.282.665.774.461.654.359.785.684.183.765.575.863.457.663.787.986.885.970.478.664.759.969.790.688.789.372.279.665.164.570.490.888.989.472.679.666.164.870.590.788.889.472.579.665.864.670.3相对增益（t=0 vs t=2）.6.5↑4.7↑6.8↑6.9↑5.2↑4.5↑10.5↑10.8↑显示、出席和阅读[27]（t=0）无反馈85.886.584.768.482.271.857.962.8显示、出席和阅读[27]+ CVAE-反馈（t=2）91.590.591.274.887.175.068.073.0相对增益（t=0 vs t=2）.5.7↑4.0↑6.5↑6.4↑4.9↑3.2↑10.1↑10.2↑散射[29]（t=0）无反馈84.786.984.371.882.669.359.062.9散射[29]+ CVAE-反馈（t=2）91.190.990.077.787.372.768.773.1相对增益（t=0 vs t=2）6.4↑4.0↑6.6↑5.9↑4.7↑3.4↑9.7↑10.2↑4.1. 实现细节网络设计：保持文本校正和识别网络类似于Shi等人。[50]，我们使用PyTorch [40]中的开源代码[2，30]实现隐藏大小为256的双向LSTM用于设计我们的反馈模块的F enc，该反馈模块接受离散字符序列的一层MLP嵌入式128维表示。对于后验Fpost和先验Fprior网络，我们使用具有双曲正切非线性的2层MLP潜在变量z的大小为256。辅助解码器Faux是一层LSTM解码器，其初始隐藏状态通过在Yenc和采样z的级联表示上应用FC层来初始化。参数预测网络FP是受[67]启发的卷积解码器网络。第一层是通过1x1卷积实现的全连接层，该卷积经由整形操作映射到大小等于T的最后一个CNN层的张量。此后，我们引入残差解码器块的序列，该残差解码器块的序列以下采样的逆顺序对特征映射到更高的空间维度进行上采样，然后是T。换句话说，如果T中的ResNet编码器块将特征图的高度减半，则FP中的对应ResNet解码器块[67]将使其加倍。该策略基本上制定解码器ResNet块（FP）的中间特征图，其空间大小类似于编码器ResNet块（T）中的对应层，因此也预测类似尺寸的所需仿射变换参数。由于我们需要预测Γ和Ω，因此我们将FP的最后一层中的卷积滤波器的数量加倍，并将输出通道分开以分别获得Γ和Ω培训详情：在实践中已经观察到，在初始阶段预热单独的部件，随后进行联合训练操作，比一次性训练整个框架提供更好的稳定性。文本识别网络（T）与校正网络一起使用具有1.0的学习率和64的批量大小的ADADELTA优化器来同时，反馈模块F经由Adam优化器训练，其中学习率为0.001，梯度裁剪为5。在预热阶段，首先，从一个文本识别和校正网络进行训练MJSynth和SynthText数据集的联合，用于600K迭代。此后，整流网络被冻结。然后，为了从文本数据捕获语言先验，反馈模块F独立于G被训练300K次迭代，从而忽略FP部分（等式2）。（五）。最后，保持-在T固定的情况下，我们使用Y训练完整的反馈模块（等式2）。4），对于300K迭代具有相同的训练规范。现在，对于联合训练（参见算法1），在更新T之后，用来自T的预测Y作为输入来更新F。此后，保持Fp固定，使用. 在此训练期间，我们将T的学习率降低到0.01其持续600K次迭代。由于HTR中相应的数据大小，用于预热阶段的迭代分别为100K、50K和50K，而用于联合训练的迭代为100K。对于STR和HTR，我们将图像大小调整为32 x100，并在11 GB Nvidia RTX2080- Ti GPU中训练我们的模型。出于相同的目的，λ1、λ2、λ3和λ4为了生成纯文本数据，我们遵循类似于[68]的方法整个训练数据集被划分为交叉验证设置中的训练验证分割，其中前十个波束搜索解码的假设从不同的最新技术水平（SOTA）模型[30，10，2，50]收集，以利用（使用开源代码）来自最接近的可能错误替代方案的错误信息。这样的集合可以由正确或不正确预测的单词组成。这要求反馈模块事先学习语言以修复错误预测的单词，以及用于正确预测的单词的4.2. 性能分析基线：根据我们的迭代方法，我们探索两种替代方案作为基线。Seq-SCN：受自动语音识别社区[56]的启发，可以设计一个简单的基线，其中我们基于序列到序列架构从纯文本训练数据[13]训练独立的拼写校正模块（SCM），该训练数据由成对的模型假设和相应的地面实况组成。确定性反馈：这里，我们简单地用确定性编码器（bi-LSTM）-解码器（参数预测网络）架构以及Shi等人替换基于CVAE的反馈模块。[50 ]第50段。14957GG（a）（b）（c）图3.在（a）CS、（b）DS设置中具有不同字长的IAM数据集上的无约束WRA。(c)少数样品，击败单前馈通过机制，但可以接受的认可，通过我们的迭代框架，在CS设置。新评估设置：在这里我们设计了一个新的dis-联合训练-试验分段（DS）。在训练时，我们从MJSynth和Synth90K中删除所有单词，这些单词的地面真值对出现在任何提到的STR测试数据集中。此外，我们确保不包含来自测试集的任何信息。由于HTR数据集的大小限制，我们将其拆分，使得对应于一个特定地面真实字符序列的所有单词-图像对必须共同落入训练集或测试集中的任一个，从而确保不相交性。该评估协议对我们的模型在其真实字符序列从未出现在训练数据集中的单词图像上的识别性能进行评分我们用它来验证我们的模型的泛化能力，为un-seen或罕见的话。此外，在这种情况下，我们的模型的优越性证实了具有较少独特词的数据集的公平结果。由于除了英语之外，大型数据集很少可用于文本识别（特别是手写），因此理想的是使用通过收集一小组独特单词的多个实例创建的数据集，因此每个独特单词只需要注释一次。要做到这一点，任何模型都需要从一小部分可用的独特单词中学习特定于字符的细粒度请注意，我们重新训练SOTA模型[30，10，2，50]，用于收集错误分布，通过确保没有来自评估集的单词结果分析：随着设计的基线，我们将我们的迭代设计上的三个流行的国家的最先进的（SOTA）前馈文本识别框架- a）石等。 [50]，b）显示、出席和阅读[27] c）散射[29]。Show，Attend and Read[27]通过包括 2D attention 扩展 [50] ， SCATTER [29] 耦合多个BLSTM层以实现更丰富的上下文建模。我们分别遵循[50，27，29]中类似的训练方案。然而，我们的是一个元框架，可以添加到大多数SOTA框架之上。表1（最高分数为红色）描绘了对未见过的单词（DS设置）的无约束单词识别准确度（WRA）。[i]与基线的比较：Seq-SCN执行我们的方法，因为在细化预测时没有利用丰富的视觉特征。有时它无法复制已经准确的预测，导致某些数据集中的准确度较低。确定性反馈是一个迭代框架，在t= 2时比其他基线表现得更好，但是，它落后于我们的设计，因为没有任何不确定性处理潜力。[ii]DS设置下的显著改进：从表1中可以看出，由于我们的迭代管道，在DS场景中的改进在三个SOTA基线上非常明显[50，27，29]。类似地，在手写数据集（表1）中，DS设置中的性能下降比其STR对应物严重得多。这意味着HTR由于其自由流动的写作性质而带来了更大的挑战。针对Shi等人的改进[50]在IAM和RIMES的HTR数据集中分别达到10.5%和10.8%，而对于IC15的STR数据集，它确保DS设置增加6.9%。[iii]其他观察结果：t =2时的改善w.r.tt =0被示出为相对增益，其中我们的方法输出在CS设置中表现相当，在DS设置中表现很好（表2）。事实上，在迭代t= 2处看到最优WRA，其然后减小。与可能的印象相反，我们的反馈模块可能会记住错误的配对，对“看不见的”单词的改进经验地验证了它。图3示出了定性结果。表2.与使用标准设置的SOTA结果比较[2]。方法IIIT5KIC13IC15SVTP可爱80IAMYang等[58] 94.4 93.9 78.7 80.8 87.5-Luo等人[30个]91.292.468.876.177.482.1Cheng等人[10个国家]87.0-68.273.076.8-Zhang等人[65] 83.8-Baek等人[2] 87.9 92.3 71.8 79.2 74.0-Lyu等人[32] 94.0 92.7 76.3 82.3 86.8-Zhan等[62] 93.3 - 76.9 79.6 83.3-Shi等。[49] 81.9-80.3Cheng等人[9] 87.4 93.3 70.6--②Shiet al. [50] 93.4 91.8 76.1 78.5 79.5-②Liet al. [27] 95.0 94.0 78.8 86.4 89.6-②Litman等。[29] 93.7 93.9 82.2 86.9 87.5-Shi等人[50]（t=0）93.2 91.6 75.9 78.2 79.3 82.3Li等[27]（t=0）94.893.778.686.089.585.9Litman等人[29]（t=0）93.693.882.086.587.086.0基线序列-SCM93.491.875.878.579.982.9确定性馈送。93.592.777.179.680.585.6[50]+ CVAE-进料。（t=2）94.993.778.880.982.987.5[27]+ CVAE-进料。（t=2）96.395.481.488.591.089.7[29]+ CVAE-进料。（t=2） 95.295.784.688.989.790.34.3. 进一步分析和见解消融术研究：我们已经做了一个彻底的烧蚀研究，以证明每一个设计选择的贡献都对14958GCIAM（HTR）和IC15（STR）数据集使用Shi et al.[50]作为基线。[i]辅助解码器的重要性：在从方程中移除该部分及其相应的损失函数时。4我们看到IAM（IC15）数据集的CS和DS设置中的性能分别下降了2.19%（1.98%）和5.01%（2.94%）[ii]单调递减约束的意义：去除它，在DS设置中分别对于IAM（IC15）数据集不稳定5.47%（3.87%），从而证实其重要性。[iii]使用误差分布的意义：丢弃来自（误差分布）的数据包含，导致IAM（IC 15）数据集在常规训练-测试分割中性能下降2.17%（1.87%），在不相交设置中进一步下降4.9%（2.48%）。更多分析请参见表4。[iv]找到用于反馈的最佳块：我们通过一次将反馈信号提供到T的骨干特征提取器的每个ResNet块中来评估性能表3显示了对CS和DS设置中的IAM和IC 15数据集的完整分析，其显示了通过向ResNet卷积架构的Block-3此外，局部变换被认为优于全局变换。[v]具有不同文本长度的经常观察到，任何文本识别框架都难以识别冗长的单词。由于其迭代细化方法，以及建模的语言先验，我们的方法显示出相当高的性能相比，无反馈基线增加字符序列长度，如图3所示。[vi]计算成本：最后，我们想通知任何迭代管道[7，8，28]的好处确实会产生额外的计算费用，无论是文本纠正[62]还是在我们的情况下文本识别。对复杂性和速度分析（Intel（R）Xeon（R）W-2123 CPU@3.60GHz）的表4.三种设计选择的相对贡献（WRA）在训练用于迭代预测的反馈网络之后：（a）经由LC的正则化约束（等式10）4），（b）修正的反馈网络的变分下界，（c）利用G从误差分布中捕获先验知识。约束LC辅助解码器Faux使用错误Dist. GCS设置DS设置IC15IAMIC15IAMC-CC-CcC-C-C76.876.676.978.885.384.585.387.569.668.770.172.659.859.359.964.8在[12]中通过浅融合（预测得分的加权和）和深融合（融合它们的隐藏状态）。与这些LM积分相比，我们的方法在CS和DS设置中表现更好（表6）。现成LM[ 22 ]的有限性能可归因于：（i）LM主要用于语音识别任务，其中数据存在于提供足够上下文的句子级别。然而，对于分散注意力的单词识别（我们的焦点），LM不能利用这样程度的上下文信息。（ii）LM语料库与用于训练词图像识别系统的语料库显著不同。这导致了一个有偏见的不正确[13]。(iii)LM作为独立的后处理步骤，不仅忽略了来自输入图像的丰富视觉特征，而且也不知道模型的误差分布。相反，我们的模型在每次预测之后迭代地重新访问丰富的视觉特征，同时考虑训练时的误差分布。此外，为了与无约束单词识别的评估标准保持一致，我们引用了我们的工作中仅使用贪婪解码的所有结果-表5.复杂性和速度分析。参数和触发器（乘加），用于单个组件（左）和迭代的变化数量（右），在推理期间使用CPU时间。网络参数乘加CPU迭代CPU表5揭示了TB由于其序列而花费大部分时间解码操作，而F增加了最小的负担。请同时参阅补充资料表3.在特定ResNet块（缩写为“块”）之后使用反馈的WRA，（ 8×25×128 ）、 3 号块（ 4×25×256 ）、 4 号块（2×25×256）、块5（1×25×256），如ASTER [50]所述常规设置p（CS）差异点设置（DS ）方法Blk 1区块2Blk 3Blk 4Blk 5CS DSCS DSCS DSCS DSCS DS全球（IAM）84.7 五十九点九85.5 六十点八86.7 六十一点九86.2 六十点八84.5 五十八点五本地（IAM）84.9 六十一点零86.7 六十四点二87.5 六十四八87.3 六十三点九85.6 63.2全球（IC15）78.5 六十八点六76.6 七十二78.6 71.478.5 70.478.4 六十九点六局部（IC15）78.5 68.978.7 七十一点三78.8 七十二点六78.6 七十一点五78.5 六十九点八反馈模块与语言模型：我们可以用语言模型（LM）来代替我们的迭代方法来改进文本预测。为了公平起见，我们使用了一个最先进的RNN-LM [13]，它是从字符级别的文本语料库（lib-rispeech）中训练出来的[1]，旨在预测下一个可能的字符。这可以与文本识别解码器使用两个国家的最先进的方法介绍融合表6.不同LM积分方法的比较方法公约al Setup Dis关节设置IIIT5KIC15可爱80IAMRimesCSDSCSDSCSDSCSDSCSDSShi等人[50个]93.284.375.965.779.361.682.3654.488.959.7[50] +浅93.384.375.965.779.361.682.3054.388.759.7[50] +深度93.585.676.567.481.262.983.6757.589.963.6[50]+ CVAE-进料。（t=2）94.990.878.8

下载后可阅读完整内容，剩余1页未读，立即下载