动态低分辨率蒸馏：经济高效的端到端文本识别

184 浏览量更新于2023-12-01 收藏 2.5MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文动态低分辨率蒸馏，实现经济高效的端到端文本识别陈英2人，梁乔1人，陈占成2人，蒲世良2人，牛毅2人，Xi Li1人1浙江大学，杭州，中国2中国杭州海康威视研究院{chenying30，chengzhanzhan，pushiliang. hri，niuyi} @ hikvision.com{qiaoliang，xilizju} @ zju.edu.cn抽象的。端到端的文本识别由于其全局优化和高可扩展性而受到广泛关注。然而，输入规模一直是一个艰难的权衡，因为识别一个小的文本实例通常需要放大整个图像，这带来了很高的计算成本。在本文中，为了解决这个问题，我们提出了一种新的具有成本效益的动态低分辨率蒸馏（DLD）文本定位框架，其目的是推断不同的小但可识别的分辨率的图像，并在准确性和效率之间实现更好的平衡。具体地说，我们采用一个分辨率选择器来动态地决定不同图像的输入分辨率，这是由推理精度和计算成本的约束在文本识别分支上采用了另一种顺序知识提取策略，使低分辨率输入获得了与高分辨率图像相当的性能该方法可以进行端到端的优化，并可应用于任何现有的文本识别框架中，以提高其实用性。在多个文本识别基准上的实验表明，该方法极大地提高了低分辨率模型的可用性该代码可在https://github.com/hikopensource/DAVAR-Lab-OCR/上获得。关键词：端到端文本识别，动态解析，序列知识蒸馏1介绍场景文本识别的研究已经取得了很大的进展，并在金融、教育、交通等领域得到了成功的应用。传统的文本识别过程通常分为两个子任务：文本检测[66，1，54，31]和识别[46，7，50，10]。为了减少两个任务之间的错误累积和维护成本，已经提出了许多工作以端到端的方式[27，3，19，48，29，42，41]。为了进一步提高模型的实时性，一些作品巧妙地设计了不同的几何形状，⋆作者贡献平等地†通讯作者。+v：mala2255获取更多论文2尘等人低分辨率图像高分辨率图像多个低分辨率图像壮举. 提取器来自low-resfeat.Rec.输出Drs壮举. 提取器Det.壮举. 提取器Det.从高分辨率的壮举。 SKDfeat.Rec.Rec.产出产出（（（Fig. 1. （a）是离线两阶段文本定位器，其可以针对两个任务使用不同的分辨率，但不能全局优化。(b)是普通的端到端文本定位器，其中识别器在使用低分辨率输入时只能接收低分辨率RoI特征映射。(c)是我们提出的DLD框架，其中低分辨率网络可以动态选择小但可行的分辨率并重建高分辨率特征。表示或更轻的网络架构[33，34，35，55，53]。然而，大多数工作只是基于一个固定的和精心选择的输入分辨率的结果报告，但其性能往往受到严重影响的分辨率变化在不同的情况下。在传统的两阶段文本识别流水线中，如图1（a）所示，为了节省推理成本，我们可以首先从下采样图像中检测文本，然后从原始高分辨率图像中裁剪文本区域进行识别。它不会在一定程度上损害整体性能，因为这两个任务可以单独优化然而，一旦享受到端到端文本定位器带来的全局优化和更低的维护成本等好处，我们就不得不面对分辨率选择问题：图像只能调整到预定义的比例。如果我们想使用低分辨率输入来实现更高的效率，如图1（b）所示，许多小文本将从网络开始时就失去其区分这使得端到端的文本spotter在许多现实情况下实用性很低。这个问题主要归因于端到端文本定位器的两个子任务的不同特征和分辨率敏感性[6]。当人们阅读低分辨率图像中的文本时，他们可以容易地识别对象是否是文本。然而，模糊的纹理可能会影响识别，因为它是一个更细粒度的顺序分类任务。事实上，不同的文本可能有不同的承认困难。人们有时可以根据其他可识别的字符及其语义上下文含义正确地推断出一些低分辨率文本[10，62，5]。然而，随着图像的降采样，图像中的特征会逐渐丢失. 这意味高分辨率低分辨率图像image壮举. 提取器从高分辨率图像裁剪Rec.输出+v：mala2255获取更多论文动态低分辨率蒸馏（DLD）3对于包含不同大小和位置的文本的图像，必须存在最小分辨率以使所有实例都可识别。因此，平衡精度和计算成本的更好方法是在不同尺度下推断不同图像[49，60，67]。此外，为了使网络更倾向于选择精度下降最小的较小尺度，我们借用了分辨率知识蒸馏（KD）的思想[61，26，39]，它可以使用从高分辨率教师转移的知识来提高低分辨率学生的表现。在本文中，我们提出了一种名为动态低分辨率蒸馏（DLD）文本定位的新框架，其目的是在分辨率KD模式下为端到端文本定位器动态选择可行的输入分辨率，如图1（c）所示。具体而言，在DLD中，学生网络采用轻量级动态分辨率转换器（DRS）来找到合适的下采样分辨率以保持茶的性能。给定一组候选下采样尺度，DRS被优化以在精度和计算成本监督下以最小的性能下降找到最佳分辨率。另一方面，为了提高低分辨率文本的可识别性，我们强调了模型提取的序列信息，并在识别部分将其与序列知识蒸馏（SKD）策略相结合。SKD的损失由基于特征的L2损失和序列级波束搜索输出损失组成，这有效地提高了那些低分辨率但可识别的文本实例的性能。DLD是一个自洽的框架，其中提出的两项任务可以有机地协同工作，并实现有效的相互促进。SKD提示DRS选择相对较低的分辨率，并且DRS提供不同的分辨率对比率以增强SKD以使其更鲁棒并专注于尺度无关的特征。本文的主要贡献如下：（1）首先研究了针对端到端文本识别任务中的输入分辨率问题，提出了一种动态低分辨率蒸馏文本识别框架，该框架可以有效地提高性能并降低计算成本。(2)我们提出了一个顺序KD策略与动态分辨率选择器，允许模型选择一个小的，但可识别的输入规模。(3)大量的实验和烧蚀研究证明了我们的方法的有效性。2相关作品2.1端到端文本定位无论是否采用感兴趣区域（ROI）操作，当前的端到端文本定位器可以分为两种类型：两阶段和一阶段模型。两阶段的端到端文本定位器通常涉及类似ROI的操作，以从特征图中裁剪检测到的区域，用于后续识别任务。方法[28，29，30，37，42，64]通常遵循Faster-RCNN[44]/Mask-R CNN框架[15]来检测文本区域，然后将RoI区域裁剪为小特征+v：mala2255获取更多论文4陈。等人使用RoI-pooling/RoI-Align操作进行识别为了识别任意形状的文本并提高检测效率，一些工作在检测阶段采用基于分割的方法，然后精心设计新的RoI操作来将文本校正为规则形状，例如RoIRotate[33]，RoI-Slide[11]， TPS[41，51]， BezierAlign[34，35]，校正RoI-Pooling[2]等。在单阶段模型中，文本实例直接从全局特征映射中解码，而[58]使用多类别分割直接检测不同类别[53]使用建议的PG-CTC解码器将收集的在[40]的工作中，作者使用掩码注意力将不同的实例映射到不同的特征映射通道，然后预测每个通道中的单个文本。这两种类型的方法都受到输入尺度问题的与能够将RoI特征重塑为统一大小的两阶段方法相比，一阶段方法在某种程度上面临更多关于文本尺度的挑战，并且通常需要大量的训练样本。2.2知识蒸馏知识蒸馏（KD）[20]首先被提出来将大型教师网络的容量转移到小型学生。这种学习范式在接下来的几年中继续发展，并已应用于许多领域，如图像识别[59]，对象检测[39]，语义分割[18]，文本识别[4]。除了在不同网络之间传输知识之外，分辨率KD [56，61，26]还被广泛用于在高分辨率教师的帮助下训练低分辨率学生，这可以很好地适应于改进一些低分辨率应用，如人脸识别[12，13]。[39]首先研究了目标检测任务中的低分辨率KD，并提出了对齐的多尺度训练方法来对齐不同级别的特征。然而，这些方法仅在固定的输入分辨率尺度下进行分辨率KD，这在某种程度上限制了模型在不同尺度下显示对象时的泛化能力2.3动态分辨率由于图像具有不同的识别难度，因此提出了许多作品来为图像分配动态输入分辨率[49，60，52，67]。[49]提出了一种强化学习方法，以动态地识别何时何地使用以相应的低分辨率数据为条件的高分辨率数据。[60]使用不同的子网络来处理不同难度的样本[52]学习如何对不同的对象使用不同的缩放策略[67]设计了一个分辨率预测器来选择可行的输入分辨率，在保持性能的同时降低了计算代价。+v：mala2255获取更多论文∈动态低分辨率蒸馏（DLD）5面具预培训高分辨率教师R-CNNCNNFeat.映射转换Bi-LSTM注意力解码器RoI掩蔽动态分辨率转换器（DRS）转换GAP FC+Gumbel噪声CNN高分辨率特征b×8×32低分辨率功能b×8×32RoI掩蔽壮举. 贴图转换地面实况顺序知识波束搜索蒸馏（SKD）0.8倍…0.4×Bi-LSTM注意地面真理解码器0.3倍掩模R-CNN动态低分辨率学生图二. 拟议DLD框架的说明。它包含一个固定的预先训练的高分辨率教师和一个动态的低分辨率学生，旨在获得可比的性能。DRS动态地为学生选择一个较小的分辨率，同时性能降低最小。SKD过程帮助学生捕获序列间信息，并能够识别低分辨率的文本。3方法3.1概述如图2所示，我们提出了一个动态低分辨率蒸馏（DLD）框架。它遵循分辨率蒸馏的设置[56，61，26]，其中教师和学生使用相同的网络架构，但输入不同分辨率的图像。高分辨率教师网络是预先训练好的，然后在接下来的训练中固定下来。学生的目标是在一些较低的分辨率下实现相当的性能。该算法主要分为两部分：（1）采用动态分辨率选择策略（DRS），为不同的输入图像选择合适的分辨率;（2）采用序列知识提取策略（SKD），提取图像的语义序列信息，提高图像的可识别性低分辨率的实例。整个框架是端到端可训练的。3.2基线文本识别模型我们采用基于Mask-RCNN [15]的两阶段端到端文本定位框架[37，29，42，30]作为基础模型。检测分支遵循标准的Mask-RCNN实现，它可以预测具有任何文本形状的边界框的掩码区域。对于输入图像IRH×W×3，通过ResNet-50 [16]和特征金字塔网络（FPN）[32]的主干提取多尺度特征。对于文本识别任务，首先通过RoI-Masking操作[42]从全局特征图中裁剪识别特征，然后统一调整大小为固定大小Hr×Wr。Hr和Wr+v：mala2255获取更多论文××联系我们关于我们ΣΣ·6陈。等人在所有实验中分别设置为8和32像素。这些特征映射经过六个卷积层，然后通过双向长短期记忆（Bi-LSTM）模块提取序列信息。最终的字符序列由基于注意力的解码器解码[7]。我们首先培养一个强大的高分辨率的教师，然后将其固定在后续的蒸馏培训。教师网络在文本检测和识别注释的监督下进行训练，如下所示，L教师=Ldet+L rec，（1）其中检测部分包含来自边界框回归、分类和实例分割的损失。3.3动态分辨率受[67]的启发，我们提出了一个动态分辨率转换器（DRS），以帮助在更可行的尺度上对推理图像进行建模。在这里，我们为学生网络选择了一组候选的下采样尺度，例如。，可以在范围[0. 八，零。（3）教师的决心。DRS的目标是找到一个合适的规模在组中的最小性能下降相比，教师。选择的标准是，降低分辨率应该得到奖励，而性能下降将受到惩罚。具体来说， DRS 是一个轻量级的残差网络，由 10 个卷积层（Convs）、一个全局平均池（GAP）层和一个全连接（FC）层组成。给定高分辨率图像I和k个候选下采样比例因子{s1，s2，...， sk}，DRS首先预测概率向量p=[p1，p2，...， Pk]通过网络，然后将Pin变换为二进制判决h=[h1，h2，.，hk] 0，1 k指示选择哪个比例因子。为了优化DRS，网络首先基于具有高分辨率输入I和所有对应的低分辨率图像Is1、Is2、. Isk.我们用y和ys1，ys2，.分别表示教师和学生的预测概率分布。在精度方面产生的损失可以形成为：KLacc=KL（hiysi，y），（2）i=1其中KL（）是识别结果的KL散度。在训练过程中，根据检测地面实况（GT）裁剪识别特征图，以确保识别结果的数量一致。优化目标是使其中一个hi为1，其他h i为0。选择与教师识别结果最接近、检测准确率最高的为了防止DRS模块收敛到最大规模，并鼓励它尽可能选择较小的图像，我们直接用其前向计算成本对其进行惩罚，如下所示：KL触发器=hiTi，（3）i=1+v：mala2255获取更多论文∼ΣSi=argmax（log（pj）+gj）我动态低分辨率蒸馏（DLD）7其中Ti是输入Isi下的前向FLOPS。由于包含不同实例的图像具有不同的FLOPS，因此我们使用预先计算的平均值。DRS的整体监督如下：LDRS=L acc+γL触发器，（4）其中γ是用于平衡准确度和计算成本之间的权重的参数。Gumbel Softmax Trick。注意，将p转化为单热h的过程是不可微的。在这里，我们采用Gumbel-Softmax采样技巧[22]。具体地，我们首先将Gum mbel噪声gj添加到d是具体的随机变量pj，然后从上述分布中抽取离散样本，如下：hi=J00，否则、（五）其中gj=−log（−log（uj））基于i.i.d样本uj计算，其中ujUniform（0，1）. 在above程序中，argmax操作可以通过softmax操作来近似，如下所示：exp（（log（pi）+gi）/τ）h=，（6）Kexp（（log（pj）+gj）/τ）j=1其中τ是温度参数。在训练过程中，使用较低的τ可以使采样的期望值更接近arg max的结果，但梯度方差会很大。采用较高的τ可以使梯度方差变小，但抽样的期望值会接近平均分布。在这里，我们在开始时以较大的τ初始化，并逐渐将其减小为τ=σepochτinit，其中τinit是初始温度，σ是衰减因子。3.4序贯知识蒸馏文本识别是一个序列分类问题，其中序列信息对于捕获语义意义至关重要[46，10，62]。例如，虽然有些字符在低分辨率下很容易混淆，例如这启发我们去挖掘进一步的模型的更深层次的潜力，使DRS选择较小的规模，越多越好因此，我们提出了一个顺序知识蒸馏（SKD）策略，以帮助低分辨率网络提取语义信息的监督下，其教师。在这里，我们只探讨文本识别任务的优化问题，因为它更有可能成为当前端到端文本定位框架整体性能的瓶颈，这也将在下面的实验中得到证明具体地，给定高分辨率输入I和所选择的低分辨率图像Is，我们使用Froi，Froi∈RH×W ×C 以分别表示+v：mala2255获取更多论文SF F∈S∈Q|FFSΣSROIHWCS2conNCS2i=1j =1c=1i=1c =18陈。等人............师生老师（图三. 序列解码中基于logit的知识提取和序列级知识提取的比较。教师和学生，其中H、W和C分别表示特征图使用RoI-Masking裁剪这些要素，检测GT并调整大小为均匀的形状。在卷积堆栈和Bi-LSTM模块之后，可以进一步提取上下文信息，表示为con，conRN×C，其中N是隐藏状态的长度。在网络的这两个阶段，我们采用基于特征的KD策略来设置L2损失：HWCL= 1mm||Froi[i，j，c] − Froi[i，j，c]||、（7）N CL= 1mm||Fcon[i，c] − Fcon[i，c]||.（八）在最后的解码阶段，与在序列上累积基于logit的损失[4]的蒸馏过程不同，我们借用了序列级知识蒸馏[25]的思想来更好地捕获序列信息，如图3所示。学生基于教师网络的前k个波束搜索[43]结果它帮助学生尽可能多地按顺序保留上下文信息为了保证优化速度，我们只选择前3名的结果具体来说，给定输入con和基于注意力的解码器，我们使用p（qcon）来表示所有可能序列q上的预测序列分布。然后，序列级知识蒸馏可以公式化，然后近似如下：Lseq= −p（q| Fcon）log p（q| Fcon）q∈Q=−I{q=y1，y2，y3，. }logp（q|Fcon）、（九）q∈Q K−log|Fco n）k=1SoftmaxA NL S............波束搜索A NI STop-1......A NL S......前2名A O前三名...…I S...学生+v：mala2255获取更多论文动态低分辨率蒸馏（DLD）9其中，y是具有茶模型的前k个beamsear ch得分的结果。这里，我们简单地设置K=1以节省训练时间。最后，整体SKD优化为：LSKD=Lroi+η1Lcon+η2Lseq，（10）其中η1和η2是平衡L_r_o_i、L_con和L_seq的大小的h_p_er参数。3.5优化所提出的DLD框架经过优化，可以通过端到端训练以高精度和高效率学生网络的总体损失由三部分产生：原始文本检测和识别损失，DRS平衡精度和计算成本的损失，以及SKD提高低分辨率模型的表示能力的损失。L=Ldet+λ1Lrec+λ2LDRS+λ3LSKD，（11）其中λ1、λ2和λ3是权重平衡参数。在训练阶段的每个时期，学生网络将对所有候选分辨率进行k次向前计算。LDRS的后向损失将仅在轻量DRS模块中传播。Ldet、Lrec和LSKD的丢失将仅在具有最大hi的分支上进行，并且将不传播到DRS。4实验4.1实现细节数据集。我们列出了本文中使用的数据集如下。我们在三个流行的文本识别基准上评估了我们的方法：（1）ICDAR 2013[24]（IC 13）仅包含水平文本，（2）ICDAR 2015[23]（IC 15）包括定向文本，以及（3）涉及许多弯曲文本的Total-Text[8]（TT对于教师网络，我们首先在SynthText-800 K[14]上对其进行预训练，然后使用混合数据集进行微调，该数据集包括从ICDAR-MLT 2017[38]过滤的7 k图像以及IC13，IC 15和TT中的所有训练图像。在接下来的KD训练阶段，教师将被固定，学生网络可以使用教师的权重进行初始化实验设置。基本模型的体系结构在第3.2节中描述。教师和学生模型共享相同的培训设置。所有模型都由AdamW[36]优化器训练，batch-size=3。 KD训练持续50个epoch，使用1×10−3的初始学习率。在第30个时期和第40个时期，学习率除以10。参数τinit被设置为5并且衰减因子σ=0。965. Bi-LSTM模块有256个隐藏单元。对于加权平衡参数，我们设置γ=0。1和其他的η1=η2=λ1=λ2=λ3=1。+v：mala2255获取更多论文−×××--10尘等人根据不同数据集上文本实例的规模，为教师选择基本推理方案，即：、用于IC 13的“S-768”、用于IC 15的“S-1280”以及用于T总-T ext的“S-896”，其中“S-”的前缀表示输入图像被固定的较短边调整大小。为了获得教师网络的强基线，我们进行了广泛使用的数据增强策略，如下所示：（1）实例感知随机裁剪，（2）将输入图像的短边随机缩放到范围尺度[0. 三，一0 ]的基本分辨率，（3）随机旋转与角度随机选择从[ 15英寸， +15英寸]，（4）应用随机亮度，抖动，和对比度的输入图像。在训练和测试阶段，学生的DRS分辨率范围设置为0。八，零。七，零。六，零。五，零。四，零。3 .所有实验都在 Pytorch 中实现，CUDA-10.0 下的 32 GB-Tesla-V100 GPUCUDNN-7.6.3。4.2文本识别基准测试建议的DLD的有效性与其他三种设置进行了比较：(1)Vanilla Multi-scale：在多个尺度下训练并在固定尺度下测试的单个模型(2)仅限DRS：使用建议的DRS，学生网络从蒸馏中删除了监督。(3)仅SKD：使用拟议的SKD，与教师相比，学生继续使用1/ 2量表表1显示了三个基准测试的实验结果。具有高分辨率输入的Vanilla多尺度的结果可以被视为模型的原始上界。如果输入是低分辨率的，尽管FLOPS可以优化约75%，精度将大大降低，例如，，一般/无的端到端结果减少了8.5% （82.9% vs. 74.4%）， 6.6%（ 69.5% vs. 62.9%）和 6.9%（62.3% vs.55.4%）。使用SKD将知识从高分辨率教师转移到低分辨率学生，在SKD-仅的结果中，我们可以看到，与Vanilla Multisale相比，在三个数据集中，低分辨率的性能分别有效地提高了配备DRS模块，在仅DRS中，我们能够调整模型的趋势，以平衡不同的精度和计算成本。γ。当该模型与SKD额外集成时，在整个DLD框架下，学生网络可以选择更多的低分辨率尺度而不会降低性能，整体性能得到进一步优化。具体来说，当我们设置γ =0时。1、该模型可以达到相当甚至更高的精度（ 82.7% vs. 82.9%， 70.9% ， 69.5%， 63.9% ，62.3%），比高分辨率输入，并与约50%的FLOPS成本。假设我们更想要这个模型倾向于具有成本效益并设置γ =0。3.可以降低模型的FLOPS与所有使用1/ 2分辨率输入的水平相似，并且精度可以分别比单用SKD提高2.8%、2.2%、2.3%。更多的统计和可视化分析在补充材料中我们在第4.3，4.4，4.5节中对全文[8]进行了以下消融实验，并使用“无”表示无词典端到端结果，使用“全”表示基于词典组合所有图像的结果。+v：mala2255获取更多论文动态低分辨率蒸馏（DLD）11表1. 三个文本定位基准的结果。“S”、“W”和“G”分别表示强、弱和通用词汇的识别[23]。“Full”表示所有图像的词典都是合并的，而“None”表示无词典[8]。列 “T y p e”中的“H”和“L”指示推断是利用高分辨率输入还是利用低分辨率输入来执行。FLOPS是平均浮点运算。数据集训练方法类型输入大小端到端（%）单词识别（%）FLOPSSWG没有一充分SWG没有一充分IC13香草多尺度HLS-768S-38486.980.986.678.982.974.4----91.485.291.082.786.377.3----142.9G35.8G仅SKDLS-38484.1 82.8 78.8--88.0 86.5 81.7--35.8G仅DRS（γ =0. 第一章仅DRS（γ =0. 第三章LL动态动态85.783.784.882.080.777.6----90.187.888.985.884.080.5----80.7G48.8GDLD（γ =0. 第一章DLD（γ =0. 第三章LL动态动态86.585.685.784.482.781.6----90.990.089.988.686.184.9----71.5G41.6GIC15香草多尺度HLS-1280S-64078.072.274.467.869.562.9----81.475.777.270.871.765.3----517.2G129.3G仅SKDLS-64075.4 71.7 67.1--78.9 74.6 69.6--129.3G仅DRS（γ =0. 第一章仅DRS（γ =0. 第三章LL动态动态76.273.672.168.966.863.7----79.876.475.271.569.366.3----298.8G163.6GDLD（γ =0. 第一章DLD（γ =0. 第三章LL动态动态79.078.175.773.570.969.3----82.481.178.676.473.371.2----261.8G148.3GTT香草多尺度HLS-896S-448------62.355.471.466.5------65.258.175.971.1206.7G52.0G仅SKDLS-448---59.6 68.9---62.6 73.5 52.0G仅DRS（γ =0. 第一章仅DRS（γ =0. 第三章LL动态动态------60.958.870.468.9------63.561.675.073.6119.2G75.0GDLD（γ =0. 第一章DLD（γ =0. 第三章LL动态动态------63.961.973.771.9------66.464.077.875.9103.0G62.1G4.3序贯知识蒸馏的消融研究不同的蒸馏损失。SKD包含来自三个部分的损失：RoI特征的损失L roi、contexture特征的损失L con和波束搜索输出的损失L seq。在此，我们基于SKD模型进行不同的实验，以评估这些损失的重要程度，结果如表2所示。很容易知道，在没有任何KD损失的情况下，模型将落入香草多尺度设置。从结果中，我们可以看出，Lseq对蒸馏的影响最大，对“无”和“满”的影响分别超过未蒸馏的结果3.0%通过合并所有三种损失，该模型实现了4.2%/2.4%的改进。不同的知识蒸馏设置。我们还对不同的KD策略进行了实验。基于无DRS的Resolution KD框架的设置（教师使用S-896，学生使用S-448），我们将我们的模型与另外两个工作进行了比较：（1）Bhunia et al. [4]：包含四种类型的KD损失（Logits ' Distillation，Character Localised Hint，AttentionDistillation，Affinity Distillation），这些损失是为文本识别设计的，以及（2）Qi等人。[39]：为检测阶段设计的KD策略。表3显示了实验结果。对于识别KD，结果表明，我们提出的SKD超过[4]0.4%/0.6%。这主要是因为序列级蒸馏策略在某些低分辨率文本中的有效性+v：mala2255获取更多论文----12陈。等人表2. 烧蚀对SKD不同蒸馏损失的影响。表3. 不同知识蒸馏设置的消融。培训方法L罗伊L孔L序列端到端（%）没有一充分55.466.5仅SKD（S-448）✓✓✓56.957.558.466.967.267.9✓✓✓59.668.9蒸馏方法端到端（%））没有一充分SKD59.668.9Bhunia等人[4]美国SKD取代Logits[4]59.258.768.367.5Qi等人[39]第三十九届SKD+Qi et al. [39]第三十九届55.859.867.069.2表4. 不同ROI标度的消融。“†”表示m o del有额外的deco n v m o du les。培训方法类型老师ROI量表学生ROI量表端到端（%））FLOPS没有一充分香草多尺度HH（8×32）(16×64）--62.363.171.472.1206.7G227.3GDLDLLL（8×32）(16×64）(16×64）（8×32）(16×64）（8×32）†63.964.864.573.774.173.3103.0G112.3G119.2G我们简单地将SKD中的序列级蒸馏替换为[4]中采用的基于logits的蒸馏，并且我们可以看到性能将分别在“无”和“满”时下降0.9%和1.4%。对于检测KD，结果表明与检测蒸馏的集成的增强是有限的。这是因为，在当前模型中，低分辨率的检测性能与高分辨率的检测性能之间只有很小的差距。不同的ROI比例。在当前基于Mask-RCNN的框架下，识别特征尺度是影响性能的因素。在这里，我们进行实验来评估其影响，其结果如表4所示。结果表明，较大的ROI尺度有助于模型获得更高的性能，但不可避免地带来额外的计算成本。另一方面，在一项研究中，如果教师和学生使用不同的ROI标度，模型不能直接进行蒸馏。因此，我们添加了一个去卷积（deconv）模块[63]，以将较小的student的特征与较大的teacher h e r的特征对齐。这也模拟了特征级超分辨率过程。从结果中可以看出，直接使用较大的学生ROI尺度，进行超分辨率甚至会降低性能并增加FLOPS。4.4消融动态分辨率不同的候选人规模。候选学生量表的集合通常由经验定义。在表5中，我们比较了在不同的candidate set下的结果。包含单个值的集合与仅SKD模型相同。我们可以看到，较小的候选人组0.5，0.4，0.3比较大的组0.8，0.7，0.6获得更低的推理成本和准确性。有了更多的候选值，模型可以优化，以找到准确性和计算成本之间的更好的平衡。然而，培训成本会有所增加。+v：mala2255获取更多论文培训方法γ 端到端（%）FLOPS没有一充分0.1 63.973.7103.0G0.2 63.272.482.8GDLD0.3 61.971.962.1G0.4 59.269.550.6G0.5 56.066.438.4G培训方法τinit 端到端（%）FLOPS没有一充分163.671.9115.8G363.573.2110.2GDLD563.973.7103.0G763.872.696.7G963.272.598.5G动态低分辨率蒸馏（DLD）13表5. 不同候选标度的消融。训练时间报告用于训练模型的平均时间。培训方法分辨率等级端到端（%）FLOPS 训练时间(min/epoch）没有一充分DLD{0.5}{0.8，0.7，0.6}{0.5，0.4，0.3}{0.8，0.7，0.6，0.5，0.4，0.3}59.663.658.963.968.973.468.073.752.0G128.8G45.9G103.0G7.89.08.410.2表6. 消融参数γ。表7. 消融参数τinit。准确性和计算成本之间的平衡γ是控制DRS精度和效率趋势的重要参数。表6显示了γ的变化如何影响模型。随着γ的增大，模型倾向于选择更多的小输入尺度，从而获得更有效的计算代价。但是，准确性会有所降低。此参数可灵活控制，为不同要求下的分辨率选择提供直观指导。不同的温度参数。表7显示了τinit如何影响学生的表现。该参数在一定程度上影响DRS模块一旦γ被固定，它就可以容易地被调谐4.5不同端到端文本检测器为了证明我们的方法的有效性，除了基于Mask-RCNN的基本文本定位器之外，我们还基于开源代码对其他两个不同的框架进行了实验：（1）Text Perceptron[41]，一个两阶段的文本定位器，其文本检测分支是基于分割的，以及（2）MANGO[40]，一个一阶段的文本定位器。由于MANGO没有明确的检测分支，而是直接全局识别文本，因此我们只报告基于交集大于并集（IoU）=0的端到端结果。1限制，如[40]中所报告。其他结果基于IoU=0报告。5. 我们计算的文本识别（Rec）的准确性使用GT的检测推理。实验结果显示在表8中。在Vanilla Multi-Scale设置中，随着输入比例的减小，不难理解几乎所有的精度都会下降。然而，在基于Mask-RCNN的框架中，Rec和端到端的性能下降比Det更快。这意味着文本检测任务在某些相对较低的分辨率下仍然可以很好地工作，而文本识别任务则成为端到端性能的整体瓶颈这也证明了我们最初提到的动机相反，对于其他两个文本定位器，Det性能下降得更快+v：mala2255获取更多论文14陈。等人表8. VanillaMulti-Scale的尺度变化的烧蚀实验以及采用DLD在不同文本打印框架上的比较结果。'Det '是文本检测任务的Hmean 度量。“R e c”是文本识别任务的准确性指标。“E2 E”是“End-to-End”的缩写。'Full'表示所有图像的词汇都是组合的，而'None'表示没有词汇。FPS是每秒的平均帧数。训练方法输入大小基于Mask-RCNN[41]第四十一话芒果[40]Det（%）Rec（%）E2E（%）FPS Det（%）Rec（%）E2E（%）FPS E2E（%）FPS没有一充分没有一充分没有一充分S-89685.3 73.6 62.3 71.4 7.9 85.3 73.1 66.0 74.6 9.566.2 77.7 3.7S-76885.7 72.8 61.2 71.1 8.6 85.1 72.6 64.7 74.2 11.4 67.1 78.1 4.7香草S-64086.1 71.7 60.5 70.2 9.0 85.2 72.2 64.3 73.1 13.3 66.5 76.5 6.1多尺度S-51284.9 66.9 58.7 69.3 9.4 82.5 68.9 61.3 70.5 14.8 61.9 73.3 7.7S-38482.3 58.6 52.0 63.5 9.8 77.4 60.7 54.1 64.3 16.5 50.9 64.4 11.5S-25676.5 42.5 38.3 48.5 12.0 62.2 45.2 40.5 50.2 17.8 29.2 46.3 13.9DLD（γ =0.第一章动态85.8 74.8 63.9 73.7 9.1 85.6 75.3 67.1 76.4 13.2 67.8 78.3 6.5DLD（γ =0.第三章动态85.1 73.1 61.9 71.9 9.7 81.7 73.5 63.6 72.8 15.8 62.5 73.8 10.4当压缩输入大小时，这也共同影响端到端性能。这是因为，在基于Mask-RCNN的文本定位器中，有很多预设的锚点来捕获不同尺度的文本，但分割任务对尺度相对更敏感[45]。当我们在这些文本检测器上采用所提出的DLD时，我们可以看到所有γ =0的模型。1可以获得比Vanilla Multi-Scale中的高分辨率结果更高的精度和更快的速度。虽然在γ =0的情况下可以进一步加快推理速度。3、Text Perceptron和MANGO的端到端性能下降比Mask-RCNN大得多由于DLD在文本检测任务中不涉及蒸馏损失，因此可以预见，在文本检测知识转移的帮助下，端到端回想表1中报告的结果，我们可以发现FLOPS与FPS呈负相关，但不是等比例的，因为许多操作被优化为并行计算，并且不同的平台可能会有不同的行为。然而，降低计算成本对于低端设备也至关重要。5结论本文提出了一种新的动态低分辨率蒸馏（DLD）框架的成本效益的端到端的文本定位，旨在识别图像在不同的低，但可识别的分辨率。该模型集成了一个动态低分辨率选择器，可以选择不同的下采样尺度。然后采用一种顺序知识蒸馏策略，使模型能够识别分辨率较低的图像，从而达到更好的分辨率-性能平衡。实验表明，该方法可以有效地增强在许多复杂情况下，端到端文本+v：mala2255获取更多论文动态低分辨率蒸馏（DLD）15引用1. Baek，Y.，Lee，B.，Han，D.，Yun，S.，Lee，H.：用于文本检测的字符区域感知。在：CVPR。pp. 2019 -09 - 29 00：00：002. Baek，Y.，Shin，S.，Baek，J.，公园，S.，李，J.，Nam，D.，Lee，H.：文字识别的字符区域注意。In：ECCV.第12374卷，第12374页。第5043. 巴茨角，杨，H.，Meinel，C.：参见：半监督式端到端场景文本识别。在：AAAI。pp.京ICP备16006674号-1京公网安备4. Bhunia，A.K.，Sain，A.，Chowdhury，P.N.，Song，Y.Z.：无论如何，文本就是文本：使用知识蒸馏统一文本识别。In：ICCV. pp. 9835. Bhunia，A.K.，Sain，A.，Kumar，A.，Ghose，S.，Chowdhury，P.N.，Song，Y.Z.：联合视觉语义推理：用于文本识别的多级解码器。In：ICCV.pp. 149406. 陈旭，Jin，L.，Zhu，Y.，中国科学院，Luo，C.，Wang，T.：文本识别在野外：一个调查。ACM计算监视器54（2），42：17. 郑志，Bai，F.，徐，Y.，Zheng，G.，中国农业科学院，Pu，S.，Zhou，S.：聚焦注意力：在自然图像中实现精确的文本识别。In：ICCV. pp. 50768. Chang，C.K.，Chan，C.S.：Total-text：A Comprehensive

下载后可阅读完整内容，剩余1页未读，立即下载