没有合适的资源?快使用搜索试试~ 我知道了~
14116无人工标注场景文本识别器性能极限的突破郑彩媛1,2,李惠辉3,李善敏4,韩胜柱4,韩在俊4,王鹏1,2 <$1西北工业大学计算机学院与宁波学院,2西北工业大学航空航天地海一体化国家工程实验室大数据应用技术,中国,3三星中国西安研发院(SRCX),4韩国三星高等技术学院2020202704@mail.nwpu.edu.cn,{hui01.li,s.rhee,sj75.han,jae-joon.han}@www.example.comwww.example.comsamsung.compeng.wang @ nwpu.edu.cn摘要场景文本识别(STR)由于其广泛的应用,近年来受到了广泛的关注。 大多数方法-S以全监督的方式训练STR模型,这需要大量的标记数据。虽然合成数据对STR贡献很大,但它受到真实域与合成域之间的差距的影响,限制了模型的性能。在这项工作中,我们的目标是通过利用合成数据和大量真实的未标记图像来提升STR模型,彻底免除人类注释成本。提出了一种鲁棒的基于一致性正则化的STR半监督框架,有效解决了合成图像与真实图像之间由于区域不一致而导致的不稳定性问题.设计了一种字符级一致性正则化来缓解字符-在序列识别中。在标准文本识别基准上的大量实验证明了该方法的有效性.它可以稳步改进现有的STR模型,并推动STR模型达到新的最先进的结果。据我们所知,这是第一个成功应用于STR的基于一致性正则化的框架。1. 介绍场景文本识别(Scene Text Recognition,STR)是对自然场景中的文本进行识别的一种方法,广泛应用于如图像检索、机器人导航和即时翻译。与传统的OCR相比,STR由于来自环境的多种变化而更具挑战性,部分工作是C.Zheng在SRCX实习时完成的[2] P. Wang是通讯作者。(a) 跨域(b)域内。图1.场景文本识别通过使用监督训练,现有的一致性正则化SSL(UDA [50]和FixMatch [43])和我们的方法来测试准确性跨域意味着标记和未标记的训练数据来自不同的域(例如,合成标记vs.在我们的环境中,真正的未标记),而域内意味着它们来自相似的条件。UDA和FixMatch在域内环境下是可行的,但在跨域环境下失败。据观察,在训练过程中,测试准确率急剧下降,最高准确率甚至低于监督训练所获得的准确率。相比之下,我们的方法能够稳定训练过程,并提高测试性能,在域内和跨域的条件。字体样式和复杂的布局。虽然STR取得了巨大的成功,但主要是在完全监督的情况下进行研究。STR中的真实标注数据集通常很小,因为标注工作是昂贵和耗时的。因此,两个大型合成数据集MJSynth [16,17]和SynthText [15]通常用于训练STR模型并产生竞争性结果。S.然而,合成数据与实际数据之间存在着域差,制约了合成数据的效果。简单地说,合成数据集可以提高STR的性能,但STR模型仍然需要真实数据。考虑到很容易获得大规模的unla-14117由于现实世界中的数据被忽视,许多研究者试图利用未标记的数据,以半监督学习(SSL)的方式训练模型。Baek等人[3] Fanget al. [9]引入了自我训练方法来训练STR模型并获得改进的性能。然而,自我训练需要一个预先训练的模型来预测未标记数据的伪标签,然后重新训练模型,这会影响训练效率。相比之下,一致性正则化(CR),国家的最先进的(SO-TA)SSL算法的另一个重要组成部分,还没有很好地利用在STR。在本文中,我们将探索一种基于CR的SS-L方法来改进STR模型,该方法仅使用合成数据和未标记的真实数据进行训练,彻底免除了人工注释成本。CR假设当输入相同图像的扰动版本时,模型应该输出类似的预测[38]。它在几个SSL基准测试中的表现往往优于自我训练[1,36]。然而,利用现有的CR方法直接进行STR是不平凡的。我们尝试两种代表性的CR方法,UDA [50]和FixMatch [43]。这两种方法在我们的环境中都行不通.如图1a所示,模型在训练过程中非常不稳定。与图像分类实验相比,它们显示出很大的优越性,我们认为原因在于以下两个方面。1) 我们标记的图像是合成的,而未标记的图像来自真实场景。合成图像和真实图像之间的域间隙影响训练的稳定性。事实上,它被发现,崩溃的模型识别合成输入与合理的准确性,但产生几乎相同的输出,为所有真正的输入。我们推测,他们不正确地利用域间隙,以尽量减少整体-l损失:它们学习区分合成数据和真实数据,并学习合成数据的合理表示以最小化监督损失,但只是将真实数据投影到相同的输出,使得一致性损失为零。为了验证这一猜想,我们通过使用全部来自真实的训练图像来执行另一个实验。如图1b所示,UDA和FixMatch的训练过程在这样的设置中变得稳定。然而,我们的目标是减轻人力标签成本。引入的域间隙成为问题。2) 与图像分类不同,STR是一种序列预测任务。字符序列之间的对齐给一致性训练带来了另一个困难。为了解决上述问题,我们提出了一个强大的字符级一致性正则化为基础的框架STR。首先,受BYOL [14]的启发,在对比学习中不使用负样本就可以防止模型崩溃,我们提出了一种STR的非对称一致性训练结构。其次,为了保证训练过程中字符级的一致性,提出了一种字符级的CR单元。再次,在训练过程中巧妙地采用了权值衰减、领域自适应等技术,进一步完善了STR模型。主要贡献概述如下:1) 我们提出了一个强大的一致性正则化的半监督框架STR。它能够跟踪跨域设置,因此更容易从标记的合成数据和未标记的真实数据中受益。与自训练方法相一致,我们的方法更有效,无需迭代预测和重新训练。2) 考虑到文本的序列特性,本文提出了一种字符级一致性正则化(CCR)单元,以保证两个连体模型的输出之间有更好的序列对齐。3) 大量的实验进行分析所提出的框架的有效性。它提高了各种现有STR模型的性能。尽管没有人类注释,我们的方法实现了新的SOTA per-candidate在几个标准的文本识别基准的规则和不规则文本。2. 相关工作2.1. 场景文本识别研究通常将文本识别视为序列预测任务,并使用RNN对序列进行建模以进行识别,而无需进行字符分离。连接主义时间分类(CTC)模型[39,47]和基于注意力的编码器-解码器模型[21,40]是STR的两个常用框架。规则文本识别的成功使得研究者将目光转向非规则文本识别. [25,27,40,41,53,56]将不规则文本纠正为规则文本,以减轻识别困难。[23]和[52]采用二维注意力来处理不规则文本的复杂布局。[7,49,55]试图通过减轻注意力的对齐漂移来提高识别准确性。[10,34,54]试图从语言模型中整合语义信息以增强单词识别。所有这些方法都需要在充分监督下进行培训。2.2. 半监督学习半监督学习(SSL)旨在使用标记数据和额外的未标记数据来提高模型性能。主要有两种类型的SSL方法与我们的工作,自我训练[5,13,22,51]和consis-正则化(CR)[20,30,43,44,50]。自我训练简单而有效。它首先使用标记数据来训练教师模型,然后预测未标记数据的伪标签,最后使用标记和伪标记数据来训练学生模型。Pseudo Label [22]和Noisy Studen- t [51]是两个流行的变体。CR基于流形假设,即当馈送同一图像的不同增强视图时,模型输出应该是一致的。例如,Temporal Ensembling [20]鼓励使用以下输出对未知标签进行一致预测:14118D分类器分享段落编码器编码器解码器分类器分类器编码器解码器受监管分支机构最终亏损无监督分支+识别域自适应一致性损失//“二”共享参数EMA目标模型在线模型强增强弱增强编码器解码器分类器编码器D编码器分类器编码器解码器投影分类器图2.我们提出的STR一致性正则化方法的总体框架该模型充分利用了人工标注的合成数据和未标注的真实数据,完全免除了人工标注的代价采用EMA和领域自适应设计了一个非对称结构,以促进稳定的模型训练。不同时期的网络训练。Mean Teacher [44]要求教师模型和学生模型的输出一致,并通过平均学生模型权重来更新教师模型。FixMatch [43]结合了CR和伪标记以获得更好的性能。UDA [50]强调了噪声注入在一致性训练中的重要性,并在各种语言和视觉SSL任务上实现了SOTA性能。2.3. 半监督文本识别提出了一些工作来训练STR模型的SSL。例如,Gaoetal. [11]采用强化学习技术来利用未标记的数据来改善STR的性能。然而,标记和未标记数据都是从合成数据中分离出来的,没有域间隙问题。[58]和[18]利用域自适应技术来减轻源数据和目标数据之间的域偏移,从而改善目标域上的识别结果。Baek等人[3]尝试只使用真实数据训练STR模型,并尝试使用伪标签和平均教师来提高STR性能。Fang等人[9]提出了一种自主、双向和迭代的STR语言建模方法。自我训练策略与迭代预测集成应用,以进一步提高STR性能。3. 该方法3.1. 概述如图2所示,我们的框架由一个用于文本识别的STR模型和一个用于整合从标记和未标记的数据中提取信息。我们在这里采用基于注意力的编码器-解码器STR模型进行说明。然而,我们的框架并不局限于自回归STR模型。编码器从输入图像中提取区分特征,而解码器生成字符级特征。分类器通过线性变换和Softmax将特征映射到字符空间上的概率。根据STR模型是否具有“地面真实”特征序列,定义了STR模型的两种模式:训练模式和推理模式。在训练模式下,“地面实况”字符被发送到解码器进行下一个字符预测。相反,在推理模式中,前一步的输出被馈送到解码器以推断下一个字符。这两种模式在第一步都会收到一个特殊的“BOS”令牌,这意味着解码的开始。训练模式在输入所有地面实况字符时结束,而推理模式在生成“EOS”令牌时结束CR架构受到UDA [50]的启发,它由两个分支组成,即监督和无监督分支,如图2所示。监督分支在标记数据上进行训练,而非监督分支将未标记图像的两个增强视图作为输入,并要求输出彼此相似。受BYOL [14]的启发,我们在无监督分支中使用具有相同结构但参数不同的STR模型用于两种输入视图,分别表示为在线模型和在线模型与监督分支中使用的模型共享参数。为了克服模型训练过程中的不稳定性,提高STR性能,14119不你们UsUsU s不不1不2不reg不不不不12C12不目标模型产生相对稳定目标用于在线缺点U 不不1Σ不1 2T--LgtLUwyt--1 2T因此,在无监督分支的在线模型中的分类器之前引入额外的投影层。3.2. 受监管分支机构监督分支采用在线STR模型,使用标记的合成数据进行训练。特别地,将在线STR模型的权重表示为θo,其由来自三个模块的参数组成,编码器、解码器和分类器,参见图2。给定输入图像XL和地面实况字符序列,Ygt={y gt,y gt,.,y gt}时,受监督分支输出a编码解码t1//t2//tN-1//tN//目标模型损失损失.损失损失EOS>t1t2tN-1tN线上模式//停运列车梯度流输出字符向量序列PL=pL,pL,.,pL. 采用交叉熵损失对模型进行训练,即不L=log p(y |(十)(1)t=1图3.一致性正则化(CCR)。在每个时间步t,目标解码器和在线解码器共享前一时间步目标解码器产生的相同输出字符,以保持良好的字符对齐。一致性损失是COM-在每个时间步的输出之间其中pL(ygt)表示t t在时间步长t输出为ygt。 T是序列长度。3.3. 无监督分支与[50]不同,受[14]启发,无监督我们框架中的分支依赖于两个模型,如[13,50]所示,用低熵正则化预测将有利于SSL。我们使用一个较低的Softmax锐化了从tar得到的STR模型PUw的输出温度τ。将Softmax之前的步骤t处的输出向量表示为zUw={zUw,zUw, . ,zUw},C是数字分别作为在线STR模型(模型参数为θo)和目标STR模型(模型参数为θt)。的字符类,则exp(zUw/τ)p(y)=(三)两个模型相互作用,相互学习。给定不带标签XU的输入图像,两个连续的ttΣyt' exp(zUw/τ)不采用t个增强方法,其产生图像的t个增强视图,分别表示为XUw和XUs。在线STR模型以XU作为输入,并在训练模式下运行。受[ 14 ]中的崩溃防止解决方案的启发,在解码器和分类器之间引入了一个额外的投影层,如图2所示,参数独立地表示为θ p。它是由2层感知器与再LU激活。增加的投影层使得在线模型和目标模型之间的体系结构不对称,这有助于稳定的训练过程。然后,类过滤器将输出向量转换为字符空间上的概率,表示为PUs =p,p,...,p.tar getSTR模型将XUw作为输入并在推理模式下运行,其生成概率序列PUw={pUw,pUw, . ,pUw}。输出序列为我们设置τ = 0。四是[50]。一致性训练将PUw和PUs的输出调整为不变量。 鉴于STR是一个序列识别任务,本文提出了一种字符级一致性正则化(CCR)单元用于自回归解码器,以保持序列的良好对齐。如图3所示,在解码时间步长t中,通过采用在pUw中具有最高概率的类,从目标模型生成伪标签。伪标签将在下一个时间步中用作在线解码器和目标解码器的输入。该设计使得在线解码器和目标解码器共享相同的上下文信息,有利于字符级对齐,从而确保稳定的一致性训练。为了减轻噪声样本在训练过程中带来的影响,我们在识别时根据噪声样本的置信度分数过滤掉噪声样本。置信度得分是最大输出概率的累积乘积从每个解码步骤中的目标模型,即,作为参考目标来训练在线模型。 一停止梯度操作作用于目标模型,其T参数θt是指数移动平均值(EMA),sUw=pUw(yt|(4)在线模型参数θ0,即,θ t=αθ t+(1 − α)θ o(2)其中α∈[0,1]是目标衰变率。EMA使t=1在无监督分支中使用的一致性损失是定义为:L=I(sUw> β)1Dist(pUw,pUs)(5)t=1模型,这有助于保持投影层接近最佳,也有利于模型训练。其中,I(sUw>βU)是指标,βU是用于滤除噪声的阈值141201F2不1 2T联系我们联系我们PUw 和 PUs 之 间 的 特 征 距 离。 Dist 有 几 种 选 择 , 如 交 叉 熵(CE)、KL-散度或均方误差(MSE)。我们的框架默认采用KL-发散。3.4. 其他培训技巧重量衰减。权重衰减是对比学习[6,14]和SSL [43]中的重要组成部分。据称[45] BYOL中的权重衰减可以帮助动态平衡预测器和在线模型之间的权重,并提高在线模型的表示能力。在这里,我们也采用它到我们的模型训练,以提高在线模型的特征学习能力。域自适应。为了减轻训练数据中的域偏移,在监督和非监督分支之间使用字符级域自适应单元,参考[58]。特别地,在每个解码步骤中,在线模型的解码器提取待解码字符的视觉特征,表示为HL=hL,hL,hL和HUs= h L,h L,hUs,hUs,,hUs分别用于有监督分支和无监督分支中的特征扩展。 域自适应损失定义为1也被丢弃。最终有10个。5M图像,记为真实未标记数据(RU)。此外,在消融研究期间,为了证明所提出的框架的优越性,我们还使用[3]收集的真实标记数据进行实验。它总共有278K的图像,称为真实标记数据(RL)。六个常用的场景文本识别基准对我们的方法进行了评价。ICDAR 2013(IC13)包含1095个裁剪的单词图像。在[54]之后,我们删除了包含非字母数字字符的图像,这导致了857个测试补丁。IIIT 5 K-Words(IIIT)[29]有3000个几乎水平的单词补丁用于测试。街景文本(Street View Text,SVT)[48]由647个从谷歌街景收集的文字图像组成。SVT-Perspective(SVTP)[35]包含645张用于测试的图像,这些图像是从Google街景中的侧视快照中裁剪出来的。CUTE80(CUTE)[32]有288个弯曲的文本图像。ICDAR 2015(IC15)[19]包含2077个从偶然场景图像中裁剪出来的单词图像。在删除非字母数字字符的图像后,剩下1811个单词补丁用于测试。Lda= 4d2 (cov(HL)−cov(HUs)<$2(六)4.2.评估指标其中·2表示平方矩阵Frobenius范数,cov(H)F是协方差矩阵,d是特征尺寸。按照惯例,我们报告每个数据集的此外,为了使-3.5. 总体目标函数我们对上面定义的三个损失函数求和。用于训练我们提出的模型的总体目标函数是:L总体=Lreg+λconsLcons+λdaLda(7)其中λcons和λda是平衡三项的超参数 我们设置λcons= 1和λ da= 0。01经验4. 实验4.1. 数据集这里使用两种类型的数据进行训练,即,带标注的合成数据和不带标注的真实数据。采用了两种广泛使用的合成数据集,包括SynthText(ST)[15]和MJSynth(MJ)[17],这导致14。总共5M个样本,称为合成标记数据(SL)。对于真实的未标记场景文本数据,我们收集了三个公共可用数据集,Places2 [59],OpenImages1 和ImageNet ILSVRC 2012 [37]。采用CRAFT [4]从这些图像中检测文本 然后,我们裁剪检测分数大于0的文本图像。7 .第一次会议。低分辨率图像(宽度乘以高度小于1000)1https://storage.googleapis.com/openimages/web/index.html14121为了全面评估模型在规则和不规则文本上的识别性能,在[3]之后,我们引入了一个平均得分(Avg),它是所有六个数据集中样本联合的准确性。4.3. 实现细节整个模型是端到端训练的,没有预先训练。我们对标记数据使用384的批量大小,对未标记数据使用288的批量大小。默认情况下,我们设置目标衰减率α=0。999,置信阈值β U=0。5、分别。监督分支和非监督分支都是联合训练的,而我们在推理时只使用监督分支中的模型。采用四种STR模型来验证所提出的框架的有效性,其默认模型配置包括CRNN [39],MORAN [28],H-GA[52]和TRBA [2]。请注意,CRNN使用CTC进行字符解码,这是非自回归的。因此,在用CRNN训练模型时,不采用C-CR.在训练MORAN或HGA时,我们采用Adadelta,遵循它们原有的优化方法。学习率为1。初始值为0,在训练过程中下降。当使用CRNN或TRBA模型时,采用AdamW [26]优化器。在[3]之后,我们使用单周期学习率调度器[42],最大学习率为0。001。重量衰减率与所用STR模型一致14122无监督分支将图像的两个增强视图作为输入。在这里,我们定义了两种类型的增强,即,强八月和弱八月。StrongAug源自RandAugment [8],其中包括几何变换和颜色抖动方面的多种增强策略。考虑到Cutout可能会裁剪掉图像中的一些字符,从而破坏文本的语义信息 , 我 们 从 RandAug- ment 中 去 掉 了 Cutout 操 作 。WeakAug只有颜色抖动,包括亮度、对比度、饱和度和色调。在我们的框架中,我们使用WeakAug为目标模型,StrongAug为有监督和无监督分支的在线模型。whmwrm赫布赫普所以我很快所有出售的学校简介牡蛎樱桃马蒂马丁我爱你wwww.uxhbcardscomwww.billboardscom普利司通县民安会4.4. 与SOTA的我们使用不同的STR模型进行实验。为了公平比较,我们还使用与半监督训练中使用的相同的数据增强策略在监督设置下重现这些模型。如表1所示,我们的再现模型具有与原始论文中报道的相当或甚至更高的精度。这些结果提供了一个公平的基线,以显示我们的方法的优势。原始设置的实验见补充资料。通过使用额外的未标记的真实图像使用所提出的框架进行训练,所有模型都得到了改进。t.具体来说,CRNN提高了3。1%(82。8%至85。平均而言,MORAN从88. 5%至90。百分之二(升百分之一点七)。HGA的精度提高了2. 5%(88。7%至91 。 2% ) , TRBA 增加了 3. 0% ( 91 。 5% 至 94 。5%)。在不同STR模型上的一致增强显示了有效性和普遍性。我们所提出的方法。特别是,不规则文本(IC15,SVTP和CUTE)的性能增益更明显,因为不规则文本在外观上具有更大的变化,这很难由合成引擎生成。请注意,尽管TRBA在监督设置中比ABINet [ 9 ]更差(91. 5%,92. 7%),我们的框架帮助TRBA优于在半监督环境中采用自我训练的ABINet(94。5%,九十三5%),再次证明了我们提出的CR方法的优越性。 与其他SOTA工作相比,我们提出的TR-BA框架在绝大多数测试数据集(仅IIIT除外)上实现了最高的准确率,这表明了它对规则和不规则文本识别的鲁棒性。此外,为了加速训练过程,我们使用仅10%的合成标记数据(表示为“SL sm“,仅包含1. 45M图像)和10%真实未标记数据(表示为“RU sm“,其具有1. 05M图像)。令人惊讶的是,实验结果相当不错,平均得分为93。2%,甚至更高-比TRBA pr(91. 5%)和ABINet [9](92. 7%)。应该注意的是,TRBApr和ABINet是使用所有合成数据图4.使用我们的方法可以成功识别的硬例子。第一行显示了TRBA pr的识别结果,其中包括错误(红色字符),而第二行是TRBA cr的结果。我们的方法使TRBA地址-衣服甚至像黑暗,模糊,或严重失真强硬的样品。(14. 5M)。训练数据为5。比TRBAsm中使用的多8倍。优秀的结果表明,在训练STR模型中使用真实图像的必要性和我们的半监督训练框架的优势。在图4中,我们给出了几个可以被TRBAcr正确识别但在使用TRBApr时遇到故障的示例。虽然所采用的真实图像是未标记的,但STR模型仍然可以从我们的方法中受益,特别是对于识别严重模糊,扭曲或具有艺术字体的文本。4.5. 消融研究为了分析所提出的模型,我们在本节中进行了一系列的烧蚀实验。所有的烧蚀实验都是使用TRBA进行的,因为它具有良好的性能。SLsm和RUsm用于快速训练。更多不同数据大小的实验可以在补充中找到。4.5.1畴隙对模型稳定性在这项工作中,我们提出了一个稳定的CR为基础的SSL框架STR。如第1节所述,我们猜测是STR中使用的训练数据之间的域不一致性导致了先前CR方法的不稳定甚至失败。为了证明这一猜想,我们使用域一致的训练数据(域内数据)进行实验。特别-ly,我们将真实标记的训练数据RL以1:4的比例分成RL20p和RL80pRL20p采用带标注的方式,而RL80p采用不带标注的方式. 测试了SO-TA CR方法,包括FixMatch[43]和UDA [50].如表2所示,当训练数据来自同一个域时,它们工作得很好。 测试精度提高3. 6%使用FixMatch,2.6%使用UDA。然而,当训练数据来自不同的域时,例如,SLsm和RUsm的训练过程变得不稳定。 我们在崩溃前测试模型。 识别14123IC15方法标记数据集未标记的数据集常规文本不规则文本IC13SVTIIITIC15SVTP 可爱Shi等人[39](CRNN)MJ--80.878.2----Luo等人[28](MORAN)SL--88.393.477.879.781.9-Yang等[52](HGA)SL--88.994.779.580.985.4-Baek等人[2](TRBA)SL--87.587.9-79.274.0-ODSLiao等人[24]第二十四话SL-95.391.893.977.382.287.888.3ETHWan等人[46]第四十六话SL-92.990.193.979.484.383.388.5MWang等人[49](丹麦)SL-93.989.294.374.580.084.487.2一Yue等人[55]第五十五话SL-94.888.195.377.179.590.388.4OTQiao等人[34](SRN)SL-95.591.594.882.785.187.890.4SZhang等人[57]第五十七话SL--90.995.282.884.383.2-Mou等人(PlugNet)SL--92.394.4-84.384.3-Qiao等人[33](PIMNet)SL-95.291.295.283.584.384.490.5Fang等人[9](ABINet)SL-97.493.596.286.089.389.292.7Gao等人[12个]10%SL90%SL-78.174.8----Baek等人[3](CRNN)RLBook32等.-84.389.8-74.682.3-Baek等人[3](TRBA)RLBook32等.-91.394.8-82.788.1-Fang等人[9](ABINet)SLUber-Text97.394.996.887.490.193.493.5CRNN-prSL-91.082.290.271.670.781.382.8CRNN-crSLRU92.487.992.075.875.785.885.9MORAN-prSL-95.190.493.479.780.685.488.5Rs莫兰河SLRU96.593.094.182.682.988.590.2欧HGA-prSL-95.089.593.679.881.187.888.7HGA-crSLRU95.493.294.984.086.892.091.2TRBA-prSL-97.391.295.384.286.492.091.5TRBA-cr10%SL10%RU97.394.796.287.089.694.493.2TRBA-crSLRU98.396.396.589.393.393.494.5表1.与SOTA法STR检测准确性的比较。在每列中,最佳结果以粗体显示,监督设置中的最佳结果以下划线显示 我们的方法坚定地改进了STR模型,并推动TRBA在测试基准上实现新的SOTA性能精确度甚至低于仅使用SL sm,性能下降11. 0%(FixMatch)和4. 6%(UDA)。标记/未标记数据RL20p(55.7K)/方法IC13Sup90.1SVTSVTP87.5可爱88.8Avg84.8相比之下,我们的方法能够提高识别率。-77.6 78.0 83.0FixMatch93.088.692.088.4无论训练数据是来自相似的RL20p(55.7K)/82.3 82.5 88.5域或不。与完全超-RL80p(223K)UDA92.588.691.487.4通过训练,我们的方法提高了STR模型的准确性80.7 80.9 88.5我们的93.891.592.989.3稳定在4。5%(84. 8%至89。3%)使用域内数据82.5 83.6 88.5和3. 3%(89. 9%至93。2%)在跨域设置。的SLsm(1.45M)/支持96.090.094.489.9域内设置的性能增益甚至大于-82.4 82.6 88.9由FixMatch和UDA带来的。FixMatch九十86.279.278.9SLsm(1.45M)/72.6 77.2 69.1RUsm(1.06M)UDA94.285.390.085.34.5.2模型装置75.7 79.5 82.3在我们的方法中使用的技术包括一个额外的97.387.094.789.696.294.493.2非对称结构的投影层,EMA,域自适应和权重衰减。在这里,我们详细分析每个单元的效果。实验中加入了C-CR,以提高字符级的一致性。如表3所示,使用额外的投影层可以将最终平均得分提高0。百分之七。然而,性能仍然低于在完全监督设置下获得的性能(87. 7%,89岁。9%)。如[45]所示,在没有权重衰减的情况下,在线和目标输出之间的一致性主要取决于投影层,从而使在线模型权重劣化。权重衰减有助于平衡在线模型之间的权重表2.在域内和跨域数据设置上使用CR方法进行实验。我们的方法可以不断提高识别精度。利用模型崩溃前的数据,得到了跨域环境和动态投影层。使用重量衰减,投影层,增加了测试数据的平均分数由另外3。5%,超过监督结果。EMA机构带来的精度增益为1。6%,因为它有助于保持投影层接近最佳,并提高训练稳定性。最后,增加了域自适应机制,跨域域内Avg我们14124IC15IC1582.9投影WDEMADAIC1394.280.5✓94.5SVTSVTP91.584.090.1可爱88.784.089.5Avg87.087.7方法IC13伪标签(PL)95.9吵闹的学生(NS)96.3SVTSVTP91.285.794.4可爱95.490.696.1Avg90.992.486.1 85.4✓ ✓85.5 86.7 94.1中国96.794.695.992.8表6. 与其他半监督方法的比较。我们86.7 89.3 92.7方法为STR模型带来了更多的好处,并且优于中国台湾97.3 87.094.789.696.294.493.2其他方法。表3.对模型装置进行消融。“投影”是指在分类器之前使用自适应投影层。”WD” means weight decay,根据经验,CE导致与KL发散相似的识别性能,而MSE导致较低的准确性(93. 2%vs. 91. 0%)。方法IC13SVTIIITAvg4.6. 与其他半监督方法的比较八十四点九表4.我们提出的CCR的影响与使用标准一致性正则化相比,使用CCR的训练有助于TRBA的平均得分增加1%84.0表5.在一致性丢失中使用不同距离函数的消融。CE和KL发散导致类似的性能,优于MSE。平均测试准确率达93. 百分之二。4.5.3CCR的影响这项工作的另一个贡献是字符级一致性正则化(CCR)单元来处理特殊的STR任务的序列性。我们提出了CCR,使在线模型和目标模型在无监督分支中分别运行(标准一致性正则化,SCR),并且仅通过一致性损失来限制它们的最终输出,而不是对在线模型和目标模型执行相同的上下文信息。表4中的实验结果证明了CCR的有效性。它帮助TRBA在最终测试精度上提高1%4.5.4消融距离测量功能默认情况下,我们使用KL散度来度量损失函数(5)中的一致性。在这里,我们测试其他距离测量函数,如CE和MSE。如表5所示,我们将我们的方法与已成功用于STR的其他SSL方法进行了比较,包括伪拉贝尔(PL)[22]和噪声学生(NS)[51]。TRBA被用作基本模型。基于PL的SSL遵循[ 3 ]中的实践执行,而基于NS的SSL遵循[51],阈值βU= 0。5和3次重复训练。结果示于表6中。 基于CR的方法优于所有其他人,结果平均得分为2。3%高于PL和0. 比NS高8%。请注意,与NS相比,我们的训练过程更有效,无需耗时的迭代。5. 结论在本文中,我们提出了一个鲁棒的字符级一致性正则化方法的STR。我们的框架consists的监督分支训练合成标记的数据,和一个无监督的分支训练的两个增强视图的真实未标记的图像。通过EMA、权重衰减和域自适应设计了非对称结构,以促进稳定的模型训练,并克服合成图像和真实图像引起的域间隙问题。 此外,委员会认为,提出了字符级一致性正则化单元以确保更好的字符对齐。在不使用任何人类注释数据的情况下,我们的方法能够大幅度地改进现有的STR模型,并在STR基准测试上实现新的SOTA性能。确认本 课 题 得 到 了 国 家 重 点 研 发 计 划( No.2020AAA0106900 ) 、 国 家 自 然 科 学 基 金(No.U19B2037,No.61876152)、陕西省重点研发计划(No.2021KWZ- 03)、陕西省自然科学基础研究计划 ( No.2021JCW-03 ) 和 宁 波 市 自 然 科 学 基 金(No.202003N4369)的资助97.2 93.0 93.5我们的97.394.796.293.285.9 87.0 91.387.089.694.4IC15SVTP可爱96.6塞舌尔卢比CCR97.393.085.994.796.492.293.196.293.287.089.694.4一致性损失IC13IC15SVTSVTPIIITCUTE平均值MSE96.3CE97.492.086.894.391.092.096.393.286.989.892.7KL-发散97.394.796.293.287.089.694.414125引用[1] 阿不力克木·阿不都维利,李行健,石汉飞,徐成忠,窦德敬.半监督迁移学习的自适应一致性正则化。在CVPR,2021年。2[2] Jeonghun Baek、Geewook Kim、Junyeop Lee、SungraePark、Dongyoon Han、Sangdoo Yun、Seong Joon Oh和Hwal- suk Lee。场景文本识别模型比较有什么问题?数据集和模型分析。在ICCV,第4714-4722页,2019年。五、七[3] Jeonghun Baek,Yusuke Matsui,and Kiyoharu Aizawa.如果我们只使用真实的数据集进行场景文本识别呢使用更少的标签进行场景文本识别。在CVPR中,第3113-3122页,2021年。二三五七八[4] Youngmin Baek、Bado Lee、Dongyoon Han、SangdooYun和Hwalsuk Lee。用于文本检测的字符区域感知。在CVPR中,第9365-9374页,2019年。5[5] Lucas Beyer , Xiaohua Zhai , Avital Oliver , andAlexander Kolesnikov. S4L:自我监督半监督学习。在ICCV,第14762[6] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offreyE.辛顿视觉表征对比学习的一个简单框架在ICML,机器学习研究的Proceedings的第119卷,第15975[7] Zhanzhan Cheng,Fan Bai,Yunlu Xu,Gang Zheng,Shiliang Pu,and Shuigeng Zhou.集中注意力:自然图像中的精确文本识别。在ICCV,第5086-5094页,2017年。2[8] Ekin D.Cubuk,Barret Zoph,Jonathon Shlens和Quoc V.Le.随机扩增:实用的自动化数据扩充,减少搜索空间。在CVPR研讨会,第3008-3017页,2020年。6[9] Shancheng Fang , Hongtao Xie , Yuxin Wang ,Zhendong Mao ,and Yongdong Zhang. 像人 类一样阅读:面向场景文本识别的自动、双向、迭代语言建模.在CVPR中,第7098二三六七[10] Shancheng Fang , Hongtao Xie , Zheng-Jun Zha ,Nannan Sun,Jianlong Tan,and Yongdong Zhang.基于卷积序列建模的场 景文本识别的注意力和在ACMMultimedia,第248-256页,2018年。2[11] Yunze Gao , Yingying Chen , Jinqiao Wang , andHanqing Lu.半监督场景文本识别。 IEEE Trans. 图像处理。,30:3005-3016,2021. 3[12] Yunze Gao , Yingying Chen , Jinqiao Wang , andHanqing Lu.半监督场景文本识别。 IEEE Trans. 图像处理。,30:3005-3016,2021. 7[13] Yves Grandvalet和Yoshua Bengio基于熵最小化的半监督学习在NIPS,第529二、四[14] Jean-BastienGrill , FlorianSt
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功