基于知识蒸馏的统一文本识别

121 浏览量更新于2023-10-15 收藏 887KB PDF 举报

知识蒸馏

场景文本识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

983文字就是文字，不管是什么：基于知识蒸馏的统一文本识别Ayan Kumar Bhunia1 Aneeshan Sain1，2 Pinaki Nath Chowdhury1，2 Yi-Zhe Song1，21SketchX，CVSSP，英国萨里大学。2iFlyTek-萨里人工智能联合研究中心{a.bhunia，a.sain，p.chowdhury，y.song}@ surrey.ac.uk.摘要文本识别仍然是计算机视觉中的一个基础和广泛研究的主题，这主要是由于其广泛的商业应用。然而，这个问题的挑战性决定了研究工作的分散性：场景文本识别（STR）处理日常场景中的文本，手写文本识别（HTR）处理手写文本。在本文中，第一次，我们认为他们的统一-我们的目标是一个单一的模型，可以竞争有利的两个独立的国家的最先进的我们首先表明，STR和HTR模型的交叉利用会由于其内在挑战的差异而引发显着的性能下降然后，我们通过引入知识蒸馏（KD）为基础的框架来解决他们的工会。然而，这是不平凡的，主要是由于文本序列的可变长度和顺序性质，这使得主要与全局固定长度数据一起工作的现成KD技术是不充分的。为此，我们提出了四个蒸馏损失，所有这些都是专门设计来应付上述独特的特征的文本识别。经验证据表明，我们提出的统一模型与单个模型表现相当，在某些情况下甚至超过了它们。消融研究表明，天真的基线，如两阶段框架，多任务和领域适应/泛化替代方案不工作，以及进一步验证我们的设计。1. 介绍文本识别在过去的二十年中得到了广泛的研究[37]，主要是由于其在商业应用中的潜力。随着深度学习的出现，在不同的公开可用的基准数据集[41，58，30，39]上的识别准确性取得了很大的进步[4，35，57，63，5，8，7]除了有监督的文本识别之外，最近的尝试已经通过域适应[67]利用合成训练数据，学习最佳的augmen。1008085.978.281.886.476.96070.453.4402007.1(a)HTR模型(b)STR模型(c)联合模型STR数据集HTR数据集(d)提出图1.尽管场景图像表现良好（IAM [39]），但在HTR数据集（a）上训练的模型在STR序列中表现不佳（ICDAR-2015[30]），反之亦然（b）。尽管使用STR和HTR数据集两者联合训练模型（c）有助于改善数据集之间的差异，但差距仍然远远落后于专业模型。我们的KD基于所提出的方法导致的性能在平价，甚至比个别模型。注意策略[38，6]，结合视觉问题回答[10]，并抑制对抗性攻击[60]。尽管取得了长足的进步，但文本识别领域仍然是支离破碎的，一方专注于场景文本识别（STR）[30]，另一方专注于手写文本识别（HTR）[39]。然而，考虑到每个问题的内在挑战的差异，这并不令人惊讶：STR研究场景图像中的文本，这些文本带来了复杂背景、模糊、伪像、不受控制的照明等挑战[63]，而HTR处理手写文本，其中主要挑战在于不同个体的书写[ 6 ]的自由流动性质。因此，直接利用针对HTR上的STR训练的模型（反之亦然）将触发显著的性能下降（参见图1）。这就引出了我们的动机虽然没有解决这个问题的现有工作，但人们可能会天真地认为使用来自STR和HTR数据集的训练数据来训练单个文本识别网络。然而，对于大的域差距和模型容量限制的明显问题[54]，虽然联合训练的模型减少了HTR和STR数据集之间的性能差距，但它仍然明显落后于单独训练的模型。单词识别百分比Acc.984专业模型。另一种解决方案是在专门的STR和HTR模型之前包括分类网络（即，两级网络）。在评估期间，classi- fier决定输入是否属于场景或手写文本，然后选择合适的模型进行下游识别。然而，这种解决方案有两个缺点：a）分类网络将招致额外计算成本和额外存储器消耗以存储所有三个神经网络。b）分类器和文本识别模型的级联连接将复合累积误差。在这项工作中，我们引入了一个基于知识蒸馏（KD）[22，49]的框架，将单个STR和HTR模型统一到一个多场景模型中。我们的设计在一个高层次上，并没有偏离传统的KD设置，其中一个可学习的学生模型试图模仿一个预先训练的老师的行为。我们首先使用STR和HTR模型各自的训练数据分别训练它们。接下来，每个单独的模型轮流充当蒸馏过程中的老师，以训练单个统一的学生模型。正是这种由专业教师捕获的知识转移到单个模型中，导致我们的性能优于使用联合STR和HTR数据集训练单个模型（见图1）。然而，使这样的设计（KD）与文本识别一起工作是不平凡的困难主要来自于文本图像的可变长度和序列性质-因此，采用现成的KD方法[49]其目的在于匹配用于全局固定长度数据的预先训练的教师和可学习的学生模型之间的输出概率和/或隐藏表示，这可能不足以在局部特征级传递知识因此，我们提出了三个额外的蒸馏损失，以解决文本识别的独特特征。更具体地，我们首先施加字符对齐的提示丢失。这鼓励学生在文本图像中的不同字符序列接下来，注意蒸馏损失进一步施加在注意力解码器在字符解码过程的每一步获得的注意力图上。这补充了字符本地化提示丢失，因为注意力地图捕获了强调本地化区域的丰富多样的上下文信息[23]。除了本地化的字符级别信息之外，捕获序列字符之间的长程非本地依赖性是至关重要的，特别是对于自回归注意力解码器框架[34]。相应地，我们提出了一个亲和蒸馏损失作为我们的第三个损失，以捕获可变字符长度序列的每一对位置之间的相互作用，并引导统一的学生模型来模拟专业教师的亲和矩阵。最后，我们还利用最先进的logit蒸馏损失与我们的三个亲造成损失。它的目的是匹配输出概率的学生网络的字符词汇，与预先训练的教师。我们的主要贡献可归纳如下：(a)我们设计了一个实际可行的统一的文本识别设置，要求一个单一的模型在HTR和STR的情况下表现同样出色。(b)我们引入一种新的知识蒸馏范式，其中统一的学生模型从两个专门用于STR和HTR的预先训练的教师模型学习。(c)我们设计了三个额外的蒸馏损失，专门解决文本数据的可变长度和连续性。(d)广泛的实验加上烧蚀研究的公共数据集上，证明了我们的框架的优越性。2. 相关作品文本识别：随着深度学习的出现， Jaderberg et al.[27，26]介绍了一种采用深度网络的基于字典的文本识别框架。或者，Poznanskiet al. [44]通过使用CNN来估计n-gram频率分布，解决了HTR中增加的困难。后来，连接主义时间分类（CTC）层[17]使端到端序列区分学习成为可能。随后，CTC模块被基于注意力的解码机制[33，51]所取代，该机制在单个模型下封装了语言建模、弱监督字符检测和字符识别。不用说，注意力解码器成为场景文本[35，63，61，66]和手写[6，38，59，67]的文本识别的最先进范例Dif-已经提出了不同的增量命题[5，8，7]，如改进校正模块[66，61]，设计多方向卷积特征提取器[12]，改进注意力机制[11，34]以及堆叠多个BLSTM层以用于更好的上下文建模[35]。除了提高单词识别精度外，一些工作还专注于通过设计对抗性特征变形模块[6]和学习最佳增强策略[38]来提高低数据状态下的性能，以处理文本识别的对抗性攻击[60]。Zhang等人[67]引入了无监督域自适应来处理来自新场景的图像，然而，这相反，我们专注于统一一个单一的模型，能够在HTR和STR图像上始终如一地表现良好。知识升华：早些时候，知识蒸馏（KD）的动机是从更大的教师模型中训练更小的学生模型，以实现经济高效的部署。Caruana和他的合作者[1]在这个方向上开创了先河，通过使用均方误差与较深模型的输出log- its来训练较浅的模型。Hinton等人的开创性工作。[22]第二十二话985ΣRFF一×个∈DDF∈| |联系我们H··通过温度控制的软最大层在类上分布，用于训练较小的学生模型。此外，Romeroet al.[48]采用教师在中间层学到的特征，作为学生学习的提示后来的工作探索了不同的想法，如模仿来自强大教师的注意力图[64]，通过最小化最大平均差异（MMD）度量来转移神经元选择性模式[ 24 ]，用于更快知识转移的Gramian矩阵[ 62 ]，用于逐步知识蒸馏的多个教师助理[40]等。除了分类设置之外，KD还用于对象检测[14]、语义分割[21]、深度估计[43]、姿态估计[42]、车道检测[23]、神经机器翻译[54]等。Vongkulbhisal等[56]提出了一种将具有不同标签集的异构分类器统一为单个统一分类器的方法。除了获得更小的快速执行模型之外，在自蒸馏[3]中使用KD还可以提高具有与教师相同架构的学生的表现。保持自我升华[3]，我们的教师网络和可培训的学生共享完全相同的架构，但我们的动机在于从两个预先培训的专业教师那里获得统一的学生模型。统一模型：与专门的个体模型相比，统一模型具有几个优点，例如更低的注释和部署成本，因为与其对应物不同，统一模型不需要随着增加的领域[ 46 ]或任务[ 65 ]而为了拥抱通用AI的哲学，其中目标是开发处理多个目的的单个模型，已经尝试通过多任务学习来解决多个任务[28，32，65]，在多个域[9，46]上工作，并采用通用对抗攻击[36]。虽然非监督域自适应[55]仍然需要对目标域图像进行微调，但域泛化[15]旨在提取域不变特征，从而消除对后更新步骤的需求。在NLP社区中，通过多语言神经机器翻译在一个模型中处理多语言对[18，54]，在过去几年中一直是一个热门的研究方向。尽管所有这些文本识别和模型统一的方法是广泛研究的主题，我们引入了一个全新的方面，文本识别统一STR和HTR的情况下到一个单一的模型具有显着的商业优势。3. 方法K表示地面实况字符的可变长度我们首先使用S和H独立地训练两个单独的文本识别模型。此后，通过知识蒸馏从两个领域特定的教师获得单一的统一模型3.1. 基线文本识别模型给定图像I，文本识别模型试图预测机器可读字符序列Y。在处理不规则文本的两种最先进的选择中，我们采用了二维注意力，通过复杂的校正网络以弱监督的方式定位单个字符[61]。我们的文本识别模型由三个部分组成：（a）主干卷积特征提取器[52]，（b）RNN解码器，其在每个时间步长自动预测字符，（c）2D注意力块。令所提取的卷积特征图为Rh’×w’×d，其中h’、w’和d表示通道的高度、宽度和数量。i，j处的每个d维特征基于接收场对特定的局部图像区域进行编码。在每个时间步长t，解码器RNN基于三个因素预测输出字符或序列结束（EOS）y t：a）解码器RNN的先前内部状态s t-1，(c)- 表示用于预测的最相关部分的瞥见向量gt。为了得到gt，前一个隐藏状态st-1用作查询以发现关注区域，如下所示：J= tanh（WFFi，j+WB②F+Ws st−1）αi，j= softmax（WT Ji，j）（1）g t=α i，j·Fi，ji =[1，...，h′]，j =[1，... w′]（2）i、j其中，Wf、Ws、Wa是可学习的权重。计算每个空间位置（i，j）上的注意权重α i，j，采用卷积运算“②”与3 3核WB来考虑二维注意机制中的邻域信息。存在对应于译码的每一个时间步长的αtRh'×w'，但在方程（1）中去掉了t图1和图2是为了符号简洁。当前隐藏状态S t通过以下方式更新：（ ot ， st ） =RNN （ st−1; [E （ yt−1 ），gt]）），其中E（. ）是带有嵌入的字符嵌入层尺寸R128，和[.]表示级联操作。最后， y ， y~t 被预测为： p （ y~t ） =softmax（Woot+bo），具有可学习的参数W o和b o。该模型使用在地面实况序列上求和的交叉熵损失（，）进行端到端训练y1，y2，，y，K，其中y，t是大小为R的独热编码向量|V|V是字符词汇大小。K K|V|概述：我们的目标是设计一个单一的统一模型工作的STR（S）和HTR（H）的词图像。在LC=ΣH（yt，y~t）=−Σyt，ilogp（y~t，i）（3）t=1t =1i =1在这种情况下，我们可以访问标记的STR数据集DS={（Is，Ys）∈Is×Ys}以及标记HTR数据集DH={（Ih，Yh）∈Ih×Yh}。这里，I表示来自具有标签Y={yi ，y2，···，yK}的相关域的词图像。3.2. 基础知识：知识蒸馏最初，知识蒸馏（KD）[22]被提出用于分类任务，以学习较小的学生模型986不不R·不不不τ，tτ，t图2. STR和HTR模型，使用各自的图像进行预训练，被用作教师，通过知识蒸馏来训练统一的学生模型，具有四个蒸馏损失和交叉熵损失（LC）。示出了用于解码的第t个时间步长，其跨时间展开。通过模仿一个受过训练的老师的输出。给定特定数据，令来自预先训练的教师的输出为y〜T=softmax（lT），并且可学习的学生的输出为从S场景文本图像DS训练的cialised模型，以及从H和书面文本图像DH训练的TH。有了这些经过预先培训的教师，我们的目标是学习一个统一的学生模型y〜S=softmax（IS），其中，It是来自各个模型的pre-softmax logit。温度（τ）归一化softmax为用于柔化输出，以便更多关于可以捕获类间相似性用于训练。在那里-因此，giv eny〜t，t=softmax（t），y〜t，t=softmax（t），并且SU通过四个蒸馏损失量身定制的顺序recog-点火任务，以及典型的交叉熵损失。TS、TH和SU都具有与文本识别网络（）相同的架构。通过包含来自STR和HTR数据集的图像来直接训练单个模型会导致不地面实况ylTSτLS由于有限的模型容量和，训练学生网络以优化以下损失函数：大畴隙。与此相反，专业化的培训模式-K Kels可能有助于从响应提取底层结构LKD=ΣH（yt，y~S）+λΣH（y~T，y~S）（4）t=1t=1的数据，然后可以提炼成统一的学生在专业教师的指导下建立网络其中λ是平衡两项的超参数，并且第一项表示学生网络的输出和地面实况标签之间的传统交叉熵损失，而第二项鼓励学生从教师的软化输出中学习。然而，采用基本KD制剂不适合我们的目的。首先，处理变长序列识别的文本识别需要提取局部细粒度的字符信息。此外，由于注意解码器的自回归性质，预测字符之间存在顺序依赖性，因此在蒸馏过程中需要全局一致性标准。(b)虽然训练教师和学生通常涉及相同的（单域）数据集，但我们这里有两个单独的域，STR和HTR，因此需要处理更大的域间隙和来自两个单独域的数据。3.3. 统一文本识别模型概述：我们提出了一个知识蒸馏方法的顺序文本图像统一的场景文本和手写识别过程到一个单一的模型。Com-与传统的知识提取相比，我们有两个预先训练好的教师网络T∈ {TS，TH}，其中TS是一个特殊的预培训STR教师二维特征图LSTM_______统一学生模型二维特征图LSTM_______HTR教师二维特征图LSTM____________________________跨越时间跨越时间跨越时间2D关注2D关注2D关注CNNCNNCNN987--ttttΣ。Σ我们有两个预先训练的教师T∈ {TS，TH}，其中图像来自两个不同的域I ∈ {Is，I h}。为了训练一个学生网络SU，我们会得到一个损失-使用STR预训练的老师和相应的数据集（TS，Is）以及类似地HTR对应物的另一个损失项（TH，Ih）来计算输出。我们使用一般化符号（T，I）来描述损失函数，该符号基本上分别具有两个元素（TS，Is）和（TH，Ih）因此数学上，（T，I）：{（TS，Is），（TH，Ih）}。请参考图2。Logits蒸馏损失：我们扩展了传统的知识蒸馏损失，我们的序列识别任务，通过聚合交叉熵损失的序列。给定图像I，令来自特定的预先训练的教师和可训练的学生的温度归一化的softmax输出在特定的时间步长t为y~T（I）和y~SU（I）。我们忽略等式1的τ。4、为了简洁明了。我们称之为logitsKLlogits（T，I）=Hy~T（I），y~SU（I）（5）t=1其中，（T，I）：（TS，Is），（TH，Ih）。我们得到两个这样的logits988--A∈K不不--提示不不S不不L全部=LC（I）+λ1·Llogits（T，I）+λ2·Lattn（T，I）不不22¨¨K字符本地化提示丢失：事实上，教师学到的中间特征可以进一步充当在蒸馏过程中的48.然而，作为序列识别任务，文本识别需要处理可变长度的序列，其中每个字符在其自身内具有可变宽度。在预测每一个字符时，基于注意力的去我们需要全局一致性损失来处理字符之间的长程依赖性。因此，我们引入了一个亲和蒸馏损失模型的远程非本地依赖性的专业教师。给定特征对准特征 g1，g2，. . .，g，K，捕获每对字符之间的成对相关性的亲和矩阵被计算为：编码器专注于卷积特征的特定区域-一个gigjA= ··（八）地图为了避免因变量而导致的差异i、jK×K||2||2||2||2able字符宽度，我们在字符局部化视觉特征的空间执行特征蒸馏损失，被称为一瞥向量（参见等式1）。2）代替全局卷积特征图。这提供了教师由于我们的学生与预先培训的教师共享相同的体系结构，因此我们不需要任何参数转换层来匹配特征空间他们字符本地化提示丢失由下式给出：其中，RK×K表示字符序列长度为K的单词图像的亲和度矩阵。我们使用l2损失来匹配专业教师AT（I）和可学习学生ASU（I）的亲和矩阵：Laff（T，I）=AT（I）- ASU（I）（9）优化程序：除了四个蒸馏损失用于学习从专业老师，uni-L（T，I）=Σ¨gT（I）−gSU（I）¨（六）固定学生模型S图像I∈{I，IU是从地面实况标签训练的，用于使用典型的交叉熵损失（参见--t=1其中，（T，I）：{（TS，Is），（TS，Ih）}。给定输入图像当量（3）第三章。因此，给定（T，I）：（TS，Is），（TH，Ih），过学生的所有培训目标变为：I，g T（I）和g SU（I）是在第t个Σ处的大小为R d的一瞥向量。时间步从一个特定的预先培训的教师和培训-能干的学生。（T，I）+λ· L提示（T，I）+λ4· 拉夫（T，I）Σ（10）注意蒸馏损失：当字符本地化时提示丢失有助于丰富本地化信息（即粗略覆盖特定字符的裁剪区域中的绝对信息），计算的注意力图（参见等式2）带来上下文信息，其给出关于哪个区域比其他区域相对更重要的见解。与注意力蒸馏不同，logits此外，HTR通常显示重叠特征，而STR中很少出现这种情况。因此，学生必须从专业教师那里学习适当的“回顾”（注意力）机制。令αT（I）和αSU（I）表示来自各自教师和可学习学生在第t个时间步，对于给定的输入图像I，两者都具有大小Rh'×w' 考虑（T，I）：（ TS，Is），（ TH， Ih），注意蒸馏损失计算如下：Lattn（T，I）=Σ¨αT（I）−αSU（I）¨（7）t=1由于高温气冷堆和STR和它们各自的训练数据大小，我们观察到一种倾向，即学习一个在STR或HTR数据集上过度拟合的有偏见的模型为了缓解这一问题，我们采用了一种条件蒸馏机制，通过决定从两个不同的专业教师那里学习的比例来稳定训练，从而导致统一的学生模型在STR和HTR场景中无处不在4. 实验数据集：STR的训练范式涉及使用大型合成数据集，如Synth90k [25]和SynthText[20]分别具有800万和600万图像，并在真实图像上进行评估（无微调），例如：IIIT 5 K- Words，街景文本（SVT），SVT-透视（SVT- P），ICDAR 2013（IC13）， ICDAR 2015（IC15），和可爱80. IIIT 5-K Words [41]有5000个来自Google图像搜索的裁剪单词。SVT [58]托管了647张从谷歌街景收集的图像，其中大多数图像都是模糊的，嘈杂的，分辨率低。SVT-P [45]有639个单词图像也来自谷歌街景，但侧视快照导致严重的透视失真。选项。 ICD13 [31]包含848个裁剪的单词补丁亲和蒸馏损失：基于注意的解码器在其自身内封装隐式语言模型，并且先前预测的字符的信息流过其隐藏状态。虽然先前的字符局部提示损失和注意力蒸馏损失主要有助于局部水平的信息蒸馏，而后者（注意力）另外有助于上下文信息，与IC15 [ 30 ]不同，IC15 [30]具有2077个不规则的单词图像，即定向的、透视的或弯曲的。与其他数据集不同，CUTE80 [47]数据集包含高分辨率图像，但具有弯曲的文本。在HTR的背景下，我们在两个大型标准数据集即 IAM[39] （ 1 ， 15 ， 320 个单词）和 RIMES2h}3989（66，982个单词）上遵循[6990≤TLS--×个不我·我S我·我›→›→S›→›→SHH算法1所提出的框架的训练算法1：输入：数据集：{DS，DH};教师：{TS，TH};学习率：η;总训练步骤：T，蒸馏检查：T’;准确度度量：Acc;蒸馏acc.脱粒ω≥1第二章：初始化：统一学生模型：U，参数：θ SU;步骤：t=l;梯度：g;标志：fS，fH为真第三章：而t做4：g=05：得到：（Is，Ys）∈DS序列;（Ih，Yh）∈DH序列第六章：g+=（LC（Is）+LC（Ih））/θ SUd参见等式3 7：对于L中的每个LKD，所有−{LC}都d参见eq. 10 8：如果fS，则g+=LKD（TS，Is）/θ SU9：如果fH，则g+=KD（TH，Ih）/θSU十：端十一：更新θSU：θSU=θSU−η*g十二：如果t%T′==0，则d条件蒸馏13：L=Lall−{LC}14：{Ival，Yval}=DSval;{Ival，Yval}=DHval15：如果（TS，s）>ω（TH，h）则fH=假16：否则fH=真17：如果（TH，h）>ω（TS，s）则fS=假18：否则fS=真十九：end if20：t=t+1二十一： end while实施详情：我们使用31层CNN骨干特征提取器[34]，无需任何预训练。输入图像的大小调整为48 160以下[34]。我们首先一次预训练专门的HTR和STR模型。对于STR，我们一起使用Synth90k [25]和SynthText [20]数据集，并且各自的训练集分别用于IAM和RIMES数据集我们使用Adam optimiser，初始学习率为0。001和批量大小为32，用于专业教师预培训和基于蒸馏的统一学生模型培训。衰减率为0。在每10 -4次迭代后应用9，直到学习率下降到10- 5。在条件蒸馏（算法1）期间，在ω = 1的验证集上比较损失。05.我们将λ1、λ2、λ3和λ4设置为0。5、5、1和1。我们使用在11 GBNVIDIA RTX-2080-Ti GPU中训练的PyTorch来实现网络及其训练范例。评价方案：为了更好地理解统一STR和HTR的挑战，并认识到每种替代训练范式的贡献，我们评估如下：(i)我们首先评估数据集上的预先训练的教师模型，以确定其已被训练的目的，例如：TS在STR数据集的测试集上，H在HTR数据集的测试集上。（ii）接下来，我们对预培训教师的替代数据集进行评估模型，并查看在跨数据集场景中性能如何下降，例如TS在HTR数据集的测试集上，反之亦然。ii）最后，我们评估统一学生模型U在STR和HTR数据集上验证单个模型是否可以普遍适用于这两种情况。4.1. 竞争对手据我们所知，还没有先前的工作处理的目标统一STR和HTR模型到一个单一的模型。因此，我们设计了一些强基线的基础上，现有的文献由我们自己。㈠多任务培训：这是一个幼稚的令人沮丧的简单训练范式[13]，其中属于STR和HTR数据集的样本用于训练由交叉熵损失指导的单个网络。由于与HTR数据集[39]相比，STR具有压倒性的大合成训练样本[25，20]，因此我们使用加权随机采样（变体-I）来平衡训练数据。相反，我们从STR数据集（变体II）随机采样子集，以强制地使HTR和STR数据集的训练图像的数量相似，以便验证条件蒸馏的效用。在变体III中，我们将HTR和STR特征单元视为不同的类，从而在每个时间步将其扩展到N类到2N类分类。（ii）DA-Corr-Unsup：一个明显的替代方案是尝试任何领域的适应方法引入序列recog- nition任务。Zhang等人[67]提出了文本图像的无监督局部自适应（DA）技术。我们首先在作为源域的STR（或HTR）图像上训练模型，然后无监督地适应目标HTR（或STR）图像二阶统计-相关距离[53]用于对齐来自两个域的特征分布。[iii] DA-Corr-Sup：由于我们可以访问标记STR和HTR数据集，我们进一步扩展了张等人的无监督DA设置。[67]通过考虑要注释的目标域，允许监督DA。对于与二阶统计量相关联的源域和靶域两者，交叉熵损失被最小化-STR域和HTR域两者之间的相关性。[iv] DA- Adv-Unsup：我们进一步采用康等人最近的工作。[29]采用对抗学习进行无监督域适应以进行文本识别。这里，设置保持与具有两个版本（ HTR STR ）和（ STRHTR）的DA-Corr-Unsup相同，但是域适应通过具有先前梯度反转层的鉴别器来处理。（V）DA-Adv-Sup：这再次是[29]在监督DA之后的类似适应，其最小化STR和HTR两者的交叉熵和域分类损失。㈥总干事培训：解决这个问题的另一种替代方法可以是使用基于模型不可知元学习的域泛化（ DG ）训练，使用episodic-training [16]。它涉及使用加权（λ）求和[19]用于梯度（在元训练集上）和元梯度（通过内部循环更新分割的元测试）来训练我们的基线文本识别模型。内循环更新过程由STR（或HTR）词图像的图像组成的支持集组成，而外循环更新过程由STR（或HTR）词图像的图像组成。991→→--表1.与各种备选方案相比的定量性能。竞争者在不同的设置中使用组合STR+HTR数据集：（a）多任务（联合）训练，（c）领域泛化（DG）。表2.我们的仅STR和仅HTR模型的定量比较，分别在STR和HTR数据集上训练，与最先进的模型进行比较。我们的方法在KD期间仅使用STR和HTR作为教师。方法STR数据集HTR数据集IIIT5-K SVT IC13 IC15 IAMRimesShi等人[五十二]93.493.6 91.876.1--Baek等人[二]《中国日报》87.987.5 92.371.8--Yu等人[63个]94.891.5 95.582.7--Litman等人[35]第三十五届93.792.7 93.982.2--Bhunia等人[6]美国----82.8188.53仅STR模型93.190.9 93.578.253.458.5仅HTR模型11.57.610.37.185.990.2STR-HTR联合模型86.183.6 87.270.481.886.2建议（统一）92.389.9 93.376.986.490.6HTRSTR基线HTR做同性恋锡尼尔我基线STR克洛伊诺govZalora艺术提出统一模型做同性恋Zalora艺术图3.带有注意力地图和预测的说明性示例（红色不正确，蓝色正确）。虽然跨数据集场景存在差异，但来自统一模型的注意力图与各自的专业模型的注意力图几乎一致。使用来自不同域的图像来实现更新过程，即，HTR（或STR）。这种基于内环和外环的优化策略有助于学习旨在在没有进一步微调的情况下很好地通用化两种场景的模型。4.2. 性能分析从表2可以看出，虽然在STR数据集上评估时在HTR上训练的模型失败得很惨，但是在STR上训练然后在HTR上测试不会导致类似的性能崩溃。这表明，虽然STR情景部分地包括域特定的HTR属性，但反过来是不正确的。有趣的是，这可能是使用统一模型的HTR数据集与仅HTR的对照相比存在正转移的原因。此外，我们基于KD的多场景文本识别的统一方法显著优于所有其他基线。特别地，（i）对于为统一而设计的基线，我们将所有三个多任务学习训练（也称为联合训练）变体的限制归因于其不考虑联合训练期间两个不同任务的不同复杂性相反，我们预先训练的教师模型首先从各自的场景中发现专业知识。鉴于专业知识，我们的框架可以通过从两个不同的数据源中进行条件蒸馏来平衡学习，从而将其封装到单个框架中（参见图3）。我们超越了这种联合训练（变种-我是-在每个数据集上以几乎6-7%的幅度使用性能最好的竞争对手）基线。有限的性能变体-Ⅱ的研究验证了条件蒸馏的必要性和动机。（ii）在HTR和STR数据集上评估时，无监督DA的性能受到显著裕度的限制。从任意源域开始，自适应后目标域的性能几乎没有显著提高，源域的性能甚至有所下降无监督DA的一个不可避免的必然结果是缺乏任何保证，即模型在成功适应目标域之后将保留关于源域的信息。（iii）基于域自适应（DA）的流水线在使用来自两个数据集的监督标签的同时抑制多任务学习训练基线，但落后于我们3。5个4. 平均5%。即使使用来自两个数据集的监督标签，学习过程也围绕发现域不变表示振荡，并且忽略了从标记的数据集可用的两个专业知识此外，与基于协方差的字符分布对齐[67]相比，基于对抗学习的DA [29]在文本识别方面有所（iv）[67]和[57]都在源域上训练文本识别模型，该源域包括容易获得的合成图像，然后无监督地适应由真实世界文本图像组成的目标域虽然从合成数据中进行具有成本效益的训练是他们的主要目标，但我们认为可以访问两个标记的数据集（现在很容易获得），以设计一个适用于两种情况的统一模型（v）域泛化（DG）的目的是找到对域偏移鲁棒的模型，在不需要进一步适应的情况下给出令人满意的性能虽然这样的技术在看不见的数据体系中起着关键作用，但是给定足够的标记数据，可以实现令人沮丧的更简单的方法。[13]替代-性能增益。给定标记的STR和HTR训练数据，我们观察到尽管DG训练优于多任务训练，但由于特权信息的不可用，它落后于我们提出的方法几乎4%（表1）。（vi）词汇的多样性（存在的方法STR数据集HTR数据集IIIT5-K SVT IC13 IC15 SVT-P可爱80IAMRimes多任务训练（一）多任务训练（二）多任务训练（三）DA-Adv-Unsup（STR→HTR）DA-Adv-Unsup（HTR→ STR）DA-Adv-SupDA-Corr-Unsup（STR→HTR）DA-Corr-Unsup（HTR→ STR）DA-Corr-SupDG培训86.135.483.282.616.688.182.717.188.388.583.634.580.580.112.985.680.213.185.886.087.236.384.184.215.489.284.515.989.489.570.429.167.166.812.172.567.812.772.772.977.832.174.174.212.779.974.713.180.180.379.432.576.375.813.481.676.113.981.882.081.881.977.958.778.183.182.782.783.283.486.285.982.364.182.487.587.187.187.687.7992LL L LLLLLLLLLFLF在STR和HTR场景之间的数据集）形成了实现SOTA性能的重要限制[57]。虽然名词我们的专业知识通过统一来弥合这种差异。除了训练数据大小的巨大差异之外，HTR和STR任务的复杂性也不同。简单的多任务训练通常过度拟合STR或HTR数据集，因此，条件蒸馏不仅稳定了训练，而且还帮助学生模型去表3.每个KD约束与C的贡献（WRA）logitsAttnIC15 IAM提示-70.4 81.8J-75.3 84.9JJ --75.7 85.3J J J-76.4 85.9J J J J76.9 86.44.3. 消融术研究：表4.时间和空间复杂性分析。方法IC15 IAM GFlops参数。电话：+86-21 - 88888888传真：+86-21 -88888888不列颠哥伦比亚省74.4 83.1 0.80 50MKD-Res-12 74.2 83.9 0.38 16MKD-Res-31 74.7 84.2 0.12 9M提出 76.9 86.4 0.67 19M以什么比例从两个不同的个体专业教师学习，使得统一模型在STR和HTR场景中无处不在地执行。在无条件精馏的情况下，性能降低了2。百分之五乙腈-0.IC15和IAM数据集上分别为4%。该hy-控制条件蒸馏过程的参数ω在1处变化。01，1。03，1。05，1。07，1。10，IC15（IAM）的结果为76。8%（86. 3%）、76. 9%（86. 3%）、76. 百分之九[i]我们基线的竞争力：我们的基线文本识别模型是松散的灵感来自李等人的工作。[34]该方法还使用2D注意力以弱监督方式定位字符，甚至从不规则文本图像中进行识别。另一种方法是使用由图像校正模块[52]和文本识别[2]组成的两阶段框架。但正如Zhang等所观察到的。[67]，尽管设计用于处理空间失真的基于校正的网络在不规则STR数据集中导致良好的性能，但由于手写风格引起的失真，它成为HTR任务的瓶颈因此，为了统一文本识别的目的，2D注意机制提供了绕过文本识别系统中的校正网络表2显示了我们的基线文本识别模型与STR和HTR数据集中的现有方法相比具有竞争力的性能。此外，我们试图复制我们的基于KD的流水线，在[ 2 ]的顶部结合图像校正模块，但性能受限于75。9%，85。IC15和IAM数据集分别为5%。[ii]基于二进制分类器的两阶段替代方案：除了多任务训练（M.T.T）之外，另一种替代方案是使用二进制分类器（B.C.R）在HTR和STR样本之间进行分类，然后相应地选择STR或HTR模型。虽然这实现了与我们的性能相当的性能，但它涉及维护三个网络（2个专用模型）的+1个分类器），即使使用简单的ResNet18作为二进制分类器-从而使其对于在线部署是低效的。对计算方面的全面分析如表4所示。（三）个人的重要性在四个知识蒸馏损失（Llogit s、Latt n、Lhintt、Laf f）中，我们使用这些蒸馏约束中的一个连同C来理解它们各自的相对贡献。表3示出了具有最大的影响，其中包括将IC15（IAM）的准确性提高5。1%（3. 3%），然后是logits，导致增加4。9%（3.1% ）， aff 由 4. 8% （ 3. 0% ）和 attn 由 4. 3% （ 2.6%）。[4]条件蒸馏的意义-（86. 4%）、76. 8%（86. 4%）、76. 8%（86. 4%）。[vi]提示损失位置：基于暗示的训练有助于提高绩效在一些增强中，基于模型的架构，特征蒸馏损失的位置是有因此，我们采用提示：（a）CNN功能以及（b）注意解码器的隐藏状态ST。使用hinton可以使性能提高3. 8%（2. 2%），而未治疗组为4例。6%（2.5%）在IC 15（IAM）数据集上的增强;这两者都比上下文向量G上的提示给出5更低。1%（3. 3%）的改进。[vii]使用KD减少模型大小知识蒸馏是一种通用方法，用于压缩[22]任何深度模型，而不管教师和学生之间的结构差异。因此，我们进一步检查我们的基于注意力解码器的文本识别框架的定制KD方法是否可以现成地使用，以减小统一学生的模型大小我们将具有31层ResNet的学生模型替换为仅12层（2+2+3+3+2）作为KD-ResNet-12，并按照MobileNetV 2架构[50]将正常卷积替换为深度卷积以获得KD-ResNet-31。这两个产生的轻量级架构给出74。2%（83. 9%）和74。7%（84. 如表4中所示，与我们的完整版本相比，IC15（IAM）数据集的准确度没有显著下降。这表明，我们的框架可以扩大进一步的模型压缩的文本识别模型。5. 结论我们提出了一

下载后可阅读完整内容，剩余1页未读，立即下载