场景文本识别中的词汇依赖性的分析与解决

78 浏览量更新于2023-10-25 收藏 12.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

114250关于场景文本识别中的词汇依赖性0Zhaoyi Wan 1�，Jielei Zhang 1�，Liang Zhang 2，Jiebo Luo 3，†，Cong Yao 1†01 Megvii，2 中国矿业大学，3 罗切斯特大学i@wanzy.me，{yctmzjl，yaocong2010}@gmail.com，zhangliang04@hotmail.com，jluo@cs.rochester.edu0摘要0追求公共基准测试的高性能一直是场景文本识别研究的动力，取得了显著的进展。然而，仔细调查揭示了一个惊人的事实，即最先进的方法在词汇表内的单词图像上表现良好，但在词汇表之外的单词图像上泛化能力较差。我们称这种现象为“词汇依赖性”。在本文中，我们建立了一个分析框架，对场景文本识别中的词汇依赖性问题进行了深入研究。关键发现包括：（1）词汇依赖性是普遍存在的，即所有现有算法或多或少都表现出这种特征；（2）基于注意力的解码器在泛化到词汇表之外的单词上表现较差，而基于分割的解码器在利用视觉特征方面表现良好；（3）上下文建模与预测层高度耦合。这些发现提供了新的见解，并有助于未来的场景文本识别研究。此外，我们提出了一种简单而有效的互相学习策略，使两个家族（基于注意力和基于分割）的模型能够进行协作学习。这种补救措施缓解了词汇依赖性问题，并提高了整体场景文本识别性能。01. 引言0作为许多视觉识别和理解系统中的关键任务[42, 25, 17, 35,22,21]，场景文本识别是计算机视觉领域的一个活跃研究领域[24, 45, 43, 44, 32, 39,36]。最近，对基准测试的高性能追求引起了社区的广泛关注。在深度学习[50, 31, 2, 33, 12]和大量合成数据[13, 29,46]的推动下，标准基准测试的识别准确率迅速提高。例如，IIIT-5k[27]上没有词典的准确率在很短的时间内从78.2%[31]提高到96.0%[12]。0� 作者贡献相等 † 通讯作者0图1：RNN-基于注意力的方法中的循环记忆机制实际上是一把双刃剑。积极的一面是对于词汇表中有单词的文本图像（左侧），即使图像质量下降（模糊或部分遮挡），内容仍然可以被正确识别。被忽视的消极方面在于对于词汇表之外的文本图像（右侧），可能会容易出现错误（用红色标记）。0然而，长期以来忽视了一个重要问题：尽管在各种基准测试上取得了高准确率，但最先进的算法实际上在词汇表内的单词图像上表现明显优于词汇表之外的单词图像。这种差距不是由图像质量引起的。如图1所示，一种表现出色的文本识别器[33]即使在质量较差的图像上也可以正确读取内容，但在质量较好的图像上可能会出错。秘密在于词汇表：最先进的方法似乎倾向于记忆在训练阶段中看到的单词。我们称这种现象为“词汇依赖性”。为了进一步验证词汇依赖性在场景文本识别中是否普遍存在，我们重现了一些代表性的场景文本识别方法，包括CRNN [31]，FAN [2]，CA-FCN[23]和ASTER[33]。这些方法使用相同的骨干网络（ResNet-50[8]）和训练数据（SynthText[7]），以排除干扰因素。从表1可以看出，所有评估方法在词汇表内和词汇表外的测试图像之间的性能差距都很显著。这表明词汇依赖性是普遍存在的。在本文中，我们系统地研究了这个问题01 更具体地说，本研究中的词汇表包括训练集中出现的所有单词。CRNN [31]86.891.168.722.5FAN [2]89.993.175.317.8CA-FCN [23]89.391.676.315.3ASTER [33]89.292.974.618.4114260表1：IIIT-5k上具有词汇表内外单词的测试图像之间的准确度差距。“在词汇表内”和“在词汇表外”分别表示词汇表内和词汇表外。0方法全部在词汇表外间隔0词汇表在场景文本识别中的依赖性。建立了一个评估框架，其中设计了具有受控词汇表和目标度量的训练数据集，以评估和比较不同模块组合。使用具有受控词汇表的训练数据，我们能够检查词汇对算法性能的影响以及不同算法在学习语言先验方面的能力。同时，目标度量允许以定量和精确的方式评估不同模块组合的优点和缺点。通过实验，我们得到了一系列有价值的观察和发现，并相应地给出了一些选择模块组合的指南和未来发展场景文本识别算法的建议。此外，为了减轻现有方法中的词汇依赖性，我们提出了一种新颖的相互学习策略，允许具有不同PRED层（即基于注意力的解码器和基于分割的解码器）的模型在训练过程中相互补充。实验结果证明了它在提高注意力解码器和基于分割方法的准确性和泛化能力方面的有效性。本研究的贡献如下：•我们提出了词汇依赖性问题并提出了一个分析框架进行研究。•通过实验，我们发现了当前PRED层的优点和局限性。基于注意力的解码器在从学习的词汇表中进行泛化时表现不佳，但在随机语料库的数据上训练时表现良好。基于分割的方法可以准确提取视觉特征，而CTC系列通常具有较弱的视觉观察能力。•我们发现CNTX模块（执行上下文建模）的效果与PRED层密切相关。因此，我们根据PRED层提供了选择CNTX模块的指南。•此外，我们提出了一种简单而有效的相互学习方法，允许不同家族的模型进行协同优化，从而可以减轻词汇依赖性问题。02. 提出的分析框架0在本节中，我们详细描述了我们的分析框架，包括数据、模块和度量。02.1. 测试数据0为了进行实验，我们采用了各种评估基准，其中一些在先前的工作中常用。我们首先简要介绍了具有真实图像的公共测试数据集，其详细信息请参考[1]。ICDAR2013（IC13）[15]是ICDAR2013鲁棒阅读竞赛的数据集，用于摄像头捕捉的场景文本。ICDAR2015（IC15）[14]来自Google眼镜收集的场景文本图像，其中裁剪的文本图像模糊、定向且分辨率较低。街景文本（SVT）[37]是来自Google街景的室外街景图像集合，包括嘈杂、模糊或低分辨率的图像。SVTPerspective（SVTP）[28]专注于曲线文本图像。该数据集包含645个评估图像，这些图像受到非正面视角的严重扭曲。CUTE80（CT）[30]由80个自然场景图像组成，为场景文本识别生成了288个裁剪的单词图像。基本上，如图1所示，对于在视觉特征方面具有困难的文本图像（例如模糊、污渍和不规则字体），根据词汇表的推测依赖性更高。因此，我们将上述5个数据集分为一个集合Ω。Ω的基本事实是我们合成训练数据的语料库。因此，Ω及其补集Ωc分别表示词汇表内和词汇表外的文本图像集合。另一个评估数据集IIIT-5k（IIIT）[27]被排除在语料库收集之外，该数据集通常包含规则文本并具有清晰的外观。由于其相对较大的图像数量和视觉清晰度，我们选择IIIT作为进行Ωc的独立集。通过收集的词汇表，将词汇表中的1354个图像分为Ω，剩下的1646个图像组成Ωc。它们分别命名为IIIT-I和IIIT-O。数据集的大小和其词汇表的数量如表2所示。此外，Ω的词汇表中有3172个不同的单词。02.2. 训练数据0最近的场景文本识别工作使用合成数据[7,13]进行训练。SynthText（ST）是由[7]中提出的合成引擎生成的数据集，其背景图像来自Google图像搜索。它包含80k张图像，研究人员从中裁剪出约700万个文本实例进行训练。如表2所示，ST是从Newgroup20[16]数据集的大型语料库中生成的，该语料库的词汇表中有数万个单词。ST的大型词汇表掩盖了对此类训练数据中词汇依赖性的影响和原因。因此，我们通过限制词汇表来生成新的训练数据进行研究。具体而言，如2.1节所述，我们的语料库是从测试数据集中收集的。使用ST的合成引擎，生成了三个具有相似外观和不同语料库的数据集，以进行全面和受控的比较。示例如图2所示。LexiconSynth（LS）：从收集到的真实词汇中，我们通过均匀采样来构建LS的语料库。由于LS覆盖了Ω的词汇表，使用LS数据训练的模型在Ω上的评估时可以获得词汇学习的便利。然而，这种纯净的语料库也加剧了对词汇表中单词的过拟合。观察性能差距，可以找出模型词汇学习的属性。RandomSynth（RS）：与LS相反，RS数据的语料库是从字符的随机排列中生成的。伪单词的长度与LS中的长度分布相同，但字符类别的分布是均匀的。也就是说，RS上训练的模型的准确性是在没有词汇先验的情况下实现的。MixedSynth（MS）：防止算法依赖词汇表的一种直观解决方案是将RS数据混合到LS数据中。在我们的实验中，MS数据是LS和RS的并集。实例从RS和LS中按比例r:(1-r)进行采样，其中r∈[0,1]。所有实验中的训练步骤都是固定的。与具有大词汇表的数据集相比，RS和LS的混合在实际情况下更加实用，因为词汇表很少完全提前给出。合成细节：由于评估数据集的注释在处理单词的大小写和标点符号方面有不同的方式，我们将语料库收集为不区分大小写的单词，不包含标点符号。在渲染LS数据时，每个收集到的单词会生成三个具有不同变体的实例：大写、小写和首字母大写。此外，每个单词有10%的几率插入一个随机选择的标点符号。对于RS数据的语料库，字母、数字和标点符号的比例约为6:3:1。每个单词以与LS数据相同的三种情况进行渲染。根据ST的规模，分别为RS和LS数据生成了约700万个裁剪图像。除非有特殊说明，MS数据的比例r经验上设置为0.5。DatasetVoc.ImagesWordsSTST7266715-76222-IC15ST1369442669348SVTPST53610930080IIITST24295711277495datasets with a similar appearance and diverse corpus areconducted for thorough and controlled comparison. Exam-ples are illustrated in Fig. 2.LexiconSynth (LS) From collected ground truth words, webuild the corpus for LS by uniformly sampling from in-stances. As the vocabulary of Ω is covered by LS, modelstrained with LS data acquire the facilitation of vocabularylearning when evaluated on Ω. However, this puriﬁed cor-pus also exacerbates the over-ﬁtting to words in vocabulary.In observation of the performance gap, properties about vo-cabulary learning of models can be dogged out.RandomSynth (RS) In contrast to LS, the corpus of RSdata is generated from characters in a random permutation.The lengths of the pseudowords are of the same distributionwith those in LS, but the distribution of character classes isuniform. That is, the accuracy of models trained on RS isachieved without the assistance of vocabulary prior.MixedSynth (MS) An intuitive solution for preventing al-gorithms from vocabulary reliance is to mix RS data intoLS data. In our experiments, MS data is the union of LSand RS. Instances are sampled from RS and LS with ratior : (1 − r), r ∈ [0, 1]. The training steps are ﬁxed in allexperiments. In comparison with datasets with a large vo-cabulary, the mixture of RS and LS is more practicable inreal-world situations where the vocabulary is seldom com-pletely given in advance.Synthesis Details As the annotation of evaluation datasetsserves in diﬀerent manners on how to treat the case andpunctuation of words, we collect the corpus as case-insensitive words without punctuation. During the render-ing of LS data, each gathered word generates three instanceswith diﬀerent variants: Uppercase, lowercase, and ﬁrst-letter-capitalized case. Besides, words are inserted with arandomly chosen punctuation by a chance of 10%.For the corpus of RS data, the proportion of letters, dig-its, and punctuation is about 6:3:1. Each word is renderedin the same three cases as LS data. Following the scale ofST, about 7 million cropped images are generated for RSand LS data respectively. When without special statements,the ratio r of MS data is set as 0.5 empirically.114270表2：训练和评估数据中的单词和图像数量。“Voc.”是数据集的词汇表。“Test”是除IIIT外从测试图像中收集的词汇表。0输入词汇输出词汇输入词汇输出词汇0IC13 ST 857 158 549 1420SVT ST 530 117 333 940CT ST 218 70 171 630IIIT测试 1354 1646 502 12700图2：生成的训练数据示例。从上到下依次为全大写、全小写和首字母大写的情况。左边两列是从LS中挑选的图像，右边两列是从RS中挑选的图像。02.3. 模块组合0根据[1]，典型的场景文本识别方法可以分为四个阶段，转换（TRAN），特征提取（FEAT），上下文建模（CNTX）和预测（PRED）。CNTX阶段类似于[1]中的序列建模（Seq.）。我们扩展到上下文建模，因为我们还考虑了基于分割的方法，以便从更广泛的角度讨论词汇依赖性问题。场景文本识别的流程如图3所示。在我们的实验和分析中，我们专注于CNTX和PRED阶段，因为这两个阶段与词汇依赖性密切相关。TRAN和FEAT阶段被固定为控制变量：不采用转换层，并且在所有组合中使用ResNet50骨干网络。下面，我们将介绍三个PRED层和三个CNTX阶段的选择。预测层CTC[6]和基于注意力的解码器[3，40]是预测层选择中的两种主要方法。如图3d所示，CTC将逐帧预测对齐到目标字符串。最终输出中删除了没有“BLANK”（用于表示无字符）的相同字符的帧。由于其优越的推理速度[1]，CTC广泛应用于许多实际应用[20]和学术研究[4，9]。基于注意力（Atten.）解码器[2，33]是场景文本识别领域的最新方法。从特征序列中推广了一个瞥视向量，然后采用RNN来产生特征序列上的注意力向量，并按顺序产生字符分类（见图3c）。最近，MaskTextSpotter[26]引入了实例分割来单独定位和分类每个字符，并激发了后续的工作[5，23，41]。尽管基于分割（Seg.）的方法通过在分割图中找到连通组件直接提取字符，但深度卷积网络的大感受野可能会带来词汇依赖性。上下文模块采用双向LSTM（BLSTM）[11]对特征图进行上下文建模LSTMLSTMAttend𝑠"#$ℎ"𝛼"𝑔"…LSTM Cell…114280图像0BLSTMPPM ...0CNTX0VGGResNet...0FEAT0仿射TPS0TRAN0… “ACADEMY”0特征图上下文向量0跳过跳过0CTC 注意力分割0PRED0（a）常见场景文本识别方法的框架。0C A A ... Y Y 预测0解码“ACADEMY”0（b）基于CTC的解码器。0LSTM ...0“A” “C” 0“ACADEMY”连接0（c）基于注意力的解码器。0预测0“ACADEMY”0（d）基于分割的解码器。0映射到序列0（e）双向LSTM（BLSTM）。0平均池化01x103x302x206x60连接0（f）金字塔池化模块（PPM）。0图3：场景文本识别中应用的流水线和典型模块。“Skip”表示不是必需的阶段，因此可以在特定的识别方法中省略。0在最近的研究中，CNNs对文本进行了跟踪[33，19]。如图3e所示，BLSTM模块将特征序列作为输入，这些特征序列是通过池化或卷积与步长转换的特征图。在许多场景文本识别方法中，这是一种常见的做法[34，40]，用于上下文建模，因为BLSTM以双向顺序扫描和映射特征。金字塔池化模块（PPM）[49]如图3f所示0对于上下文建模，另一种选择是被证明在基于分割的方法上有效的 PPM[18]。它利用自适应平均池化将特征图池化为不同的方形分辨率（在我们的实验中为1、3、4、6）。然后，通过双线性插值将池化特征调整为输入分辨率，并与原始特征连接以获得不同尺度的全局上下文信息。由于基于分割的方法与BLSTM不兼容，PPM是上下文建模的实用模块。我们的实验还验证了它在增强模型词汇学习方面的有效性。此外，对于稳健的文本识别，显式的上下文建模并不是必需的，因为深度卷积网络通常具有较大的感受野[38，47]。然而，在我们的实验中，上下文建模模块确实为词汇学习和依赖性带来了多样性。原始结果如表3所示，其中模块组合以圆圈数字命名。02.4.度量0使用我们重新设计的训练数据，我们可以评估算法在几个训练数据上的性能。为了评估模型的性质，提出了几个度量标准。首先，我们介绍了一种常规的性能评估度量标准，即通用准确度（GA）。目前评估场景文本识别算法的常规做法是在真实世界图像的公共基准上评估模型。我们将在提到的评估数据集的所有测试图像上定义的识别准确度作为GA，对应于以前的工作中的常见评估。除了通用度量标准，我们进一步提出了三个特定度量标准及其调和平均数，以充分反映不同方法的特定属性。为了清晰起见，让我们定义两个函数。Acc（X train，X test）是在数据集Xtrain上训练并在数据集Xtest上测试的模型的准确度。Gap（∙）定义为在具有相同训练数据X train的IIIT-I和IIIT-O之间的性能差距：0差距（ X train ）= Acc（ X train ， IIIT - I ）0− Acc（X train，IIIT - O）。 (1)0观察能力（ OA）准确的视觉特征提取和识别是场景文本识别方法的基本能力。我们将 OA定义为算法在没有给定任何词汇的情况下准确识别单词的能力。PREDCNTXNo.Data.cAtten.None➀RS68.582.255.171.757.054.283.273.39.8/12.6MS81.889.972.286.475.265.693.080.112.9/15.0LS85.792.777.490.582.371.593.761.032.7/43.2PPM➁RS70.384.657.174.158.255.284.777.57.3/9.0MS81.688.671.885.075.671.992.880.712.2/14.2LS85.592.177.089.481.874.094.269.524.7/30.7BLSTM➂RS68.682.455.470.957.053.582.973.89.4/12.0MS82.789.374.586.677.867.092.781.011.7/13.6LS87.092.779.892.084.273.394.263.930.3/39.1CTCNone➃RS64.180.447.866.149.155.281.871.510.3/13.5MS69.881.056.572.757.657.686.774.312.4/15.5LS77.887.065.881.968.866.091.673.618.0/22.0PPM➄RS62.576.548.062.847.249.081.668.013.6/18.5MS75.986.264.279.264.562.190.677.013.6/16.3LS84.890.976.089.879.276.094.270.124.1/29.8BLSTM➅RS66.181.252.367.951.951.482.472.69.8/12.7MS74.985.962.077.564.562.590.078.311.8/14.1LS80.088.169.382.771.668.893.173.519.6/23.8RS68.980.456.171.657.955.284.273.310.9/13.9MS76.985.465.781.566.464.291.280.610.6/12.4LS79.788.468.785.772.162.292.378.813.5/15.9PPM➇RS69.382.456.570.556.859.084.574.410.1/12.8MS77.687.366.881.567.164.290.979.911.0/13.0LS81.689.372.385.875.264.692.976.816.1/19.2Atten.+Mut.None➈RS70.482.857.072.758.856.986.375.810.5/13.1MS82.089.972.386.475.268.193.180.712.4/14.3LS85.891.977.290.883.172.794.577.616.9/19.9Seg.+Mut.None➉RS70.082.456.170.857.459.084.374.710.0/12.1MS78.387.866.782.167.768.091.279.312.4/14.4LS82.389.471.386.478.672.593.680.013.6/15.7+114290表3：模型的原始准确度，用圆圈数字编号。“Gap”是IIIT-I和IIIT-O之间的准确度差距。“NGap”是通过在IIIT上的识别准确度进行归一化的。0差距/NGap AVG IC13 IC15 SVT SVTP CUTE IIIT-I IIIT-O0分割。0无 �0表4：所提度量的计算。其中，Acc（∙）和Gap（∙）在第2.4节中定义。0度量。计算0GA Acc（X train，Ω∪Ωc）0OA Acc（RS，Ω∪Ωc）0VA Acc（LS，Ω）0VG1 - (Gap（LS）- Gap（RS）)0HM 3（10OA + 10VG）-10在训练数据中，OA通过评估在RS数据上训练的模型与所有基准测试图像（总共7406张图像）的识别准确性来衡量。由于识别准确性纯粹来自对视觉特征的观察，而没有学习任何词汇，它表示了模型利用视觉观察的能力。词汇学习能力（VA）如第1节所述，算法很可能使用学习到的词汇来改进或约束文本图像的识别结果。与OA类似，VA被建议用于评估识别准确性。0在我们的实验中，对VA进行测量是通过使用LS数据训练模型，并在Ω中的所有图像上评估识别准确性。VA对于选择提前提供词汇的文本识别任务中的模型是有意义的。词汇泛化（VG）人类可以很容易地从他们学到的东西中推广出其他事物，这启发我们通过测量使用LS数据训练的模型在词汇表之外的单词上的性能来评估算法的词汇泛化（VG）。事实上，在我们的实验中，我们观察到了当前识别方法的词汇泛化。为了公平地评估VG，应该消除图像视觉特征对数据集的影响，这在两个图像集之间产生了内在差距。因此，VG由以下公式表示：0VG = 1 - (Gap（LS）- Gap（RS）) (2)0其中，分数从1中减去以统一单调性。No.PREDGAVAVGOAHM➀Atten.81.085.777.169.676.9➁Atten.81.385.582.671.979.5➂Atten.83.187.079.169.878.0➃CTC75.877.892.465.877.1➄CTC80.184.889.563.577.5➅CTC78.479.990.267.678.1➆Seg.80.879.797.369.980.8➇Seg.81.381.694.070.580.9Harmonic Mean (HM) For a overall metric, the harmonicmean of OA,VA, and VG is adopted as the summary score:HM = 3( 1OA +1VA + 1VG)−1.(3)HM can be taken as a standard for general comparisonof diﬀerent models.Besides, evaluation on random string can be a metric,however, there is no standard benchmark that contains purerandom labels with real-world complexity . Thus, it will notbe discussed in this paper.3. Comparisons and AnalysesUsing our proposed framework in Sec. 2, we providecomparisons and analyses on various module combinations.Metrics of models are shown in Fig 5. Based on the speciﬁcevaluation, we assess and analyze module combinations indiﬀerent aspects.3.1. Effect of Training DataFundamentally, we should ﬁrst validate the eﬀectivenessof the proposed dataset and explore the relevance of vocab-ulary reliance on training data. Experiments are conductedby gradually adjusting the ratio r in MS data from 0 to 1.Three models, ➀ , ➃ and ➆ in Tab. 3, are adopted for com-parison. Besides the recognition accuracy on IIIT, we ob-serve the probability of predicted words falling into the vo-cabulary, as shown in Fig. 4.With RS data mixed into the LS data, recognition accu-racy on IIIT is improved as models trained with the mixeddata are less prone to be misled by vocabulary reliance. Es-pecially for model ➀ , the recognition accuracy on IIIT in-creases from 77.8% to 84.4%, beneﬁting from the mixed RSdata with a ratio of 25%.The improvement in accuracy ceases when r reachesaround 0.5. On one hand, the reduction of the probabilityto produce word prediction in vocabulary proves it eﬀec-tive to countervail vocabulary reliance with RS data. On theother hand, it requires a suﬃcient ratio of LS data to learnvocabulary from training data.0.800.85AccuarcyIIIT5075InVoc.%Prediction1.000.750.500.250.00Ratio2040InVoc.%Wrong PredictionModel Model Model Model Model Model Figure 4: Probability of model ➀ , ➃ and ➆ on makingprediction inside vocabulary. “Ratio” is the ratio of RS inMS data.3.2. Comparison of Prediction Layers0.00.10.20.30.40.5GapAtten.CTCSeg.Atten.CTCSeg.Atten.CTCNonePPMBLSTMRSMSLS(a)0.000.250.500.751.00Ratio0.100.150.200.250.30GapModel 1�Model 4�Model 7�(b)Figure 5: The accuracy gap between IIIT-I and IIIT-O. (a)Performance gap on IIIT-I and IIIT-O of module combina-tions. (b) The gap changes with adjusted ratio of RS data.From Fig. 5a, we perceive the consistent performancegap between models trained with RS, MS, and LS data, de-spite PRED layers nor CNTX modules. It shows that allthe combinations suﬀer from the problem of vocabulary re-liance, but the severity diﬀers.Moreover, we illustrate the performance gap on IIIT ofmodel ➀ , ➃ and ➆ trained with diﬀerent training data.The models are built without CNTX modules, using theAtten., CTC, and Seg.PRED layers, respectively.Theattention-based decoder starts with the highest gap on thepoint where r = 0 (LS data), as shown in Fig. 5b. With moreRS data mixed into the training set, the gap of attention-based decoder decreases. The trend veriﬁes the advantageof attention-based decoders on vocabulary learning and in-feriority on vocabulary reliance.In addition to vocabulary reliance, a thorough compar-ison of our proposed metrics of the PRED layers is illus-trated in Fig. 6a. The performance of CTC is generallycovered by the other two prediction layers, on metrics in-cluding both accuracy and generalization. Attention-basedand segmentation-based decoders gain advantages in VAand VG respectively. They also perform similarly well inOA, indicating the ability to accurate recognition accordingto visual features only.114300表5：模型的度量。圈出的数字对应于不同模块组合。No.参见表3。OAVGVA0.60.670.710.690.890.83Atten.CTCSeg.0.640.670.730.720.890.83Atten.Seg.Atten.+Mut.0.7000.7250.7500.7750.8000.8250.8500.8750.900Vocabulary Learning Ability0.750.800.850.900.951.00Vocabulary GeneralizationAtten.CTCSeg.NonePPMBLSTM0.570.840.710.660.910.82NonePPMBLSTM0.640.710.820.70.80.86NonePPMBLSTM114310OA0VG VA0(b)图6：PRED层在我们的度量标准上的性能。所有模型都没有使用CNTX模块。(a) PRED层的比较。(b)互相学习的OA和VA改进。0图7：模块组合的VA和相应的VG。03.3. 上下文模块的比较0基本上，采用上下文模块可以提高模型的词汇学习能力，这一点可以通过模块组合的VA得到验证。例如，PPM在先前的场景文本识别方法中并不常用，但与PRED层组合后可以提高VA：Seg.为3.9%，CTC为10.5%。另一方面，如图7所示，VA的增强通常会导致VG的降低。与PRED层类似，C

下载后可阅读完整内容，剩余1页未读，立即下载