没有合适的资源?快使用搜索试试~ 我知道了~
4523基于上下文解耦的开集文本识别刘畅1杨春1,尹旭成1,2,刘1北京科技大学计算机与通信工程学院2中国北京科技大学人工智能研究所lasercat@gmx.us,{chunyang,xuchengyin} @ ustb.edu.cn摘要开放集文本识别任务是一个新兴的挑战,需要额外的能力,在评估期间认知新的字符。我们认为,当前方法性能有限的一个主要在开集场景下,背景信息中的顽固偏差会传递到视觉信息中,从而影响分类性能。本文提出了一个文本-语境解耦框架,通过分离语境信息和字符-视觉信息来缓解这个问题。语境信息可以分解为时间信息和语言信息。在这里,时间的信息,models字符顺序和单词的长度是孤立的分离的时间注意模块。模型n-gram和其他语言统计的语言信息是分离的去耦上下文锚机制。各种定量和定性实验表明,我们的方法取得了良好的性能在开集,零杆,闭集的文本识别数据集。1. 介绍文本识别是一个研究得很好的任务,并已广泛应用于各种应用[7]。现有的文本识别方法大多假设测试集中的字符被训练集覆盖。此外,还假设训练集和测试集之间的上下文信息的一致性。这些方法在不重新训练模型的情况下不能适应识别看不见的字符。然而,随着语言的发展,新颖的连字(例如,稀有字符、表情符号和外国字符)可以在某个时间段期间在区域中频繁使用。例如,作为全球化的结果,在场景文本图像中可以频繁地看到外国字符。因此,它是*通讯作者。图1.插图的基本模型(上图)倾向于从上下文中寻求帮助,而我们的框架(下图)更关注本地字符特征。如果模型在出现“新角色”时需要重新训练,则不可行。该任务被定义为开集文本识别任务[23],作为开集识别的特定领域[33]和鲁棒模式识别的典型案例[54]。目前,一些基于视觉匹配的文本识别方法能够识别文本行中的新字符[16,23,52]。然而,这些开放集文本识别方法往往会受到从训练集捕获的上下文信息的影响。这种现象可以在显着图(图1)1中看到,也可以在[41]中观察到。在这种情况下,每个字符的特征表示总是与语言信息混合在一起。这可能有利于训练和评估之间的上下文信息偏差可以忽略不计的封闭场景,因为一些字符(例如“0”和“0”)很难仅通过字符视觉信息(图形)来分离。然而,在开放集场景下,上下文信息可能严重偏离训练集。因此,现有的模型可能会错误地将为了减轻上下文信息对开集文本识别的影响,我们提出了一个字符上下文解耦框架,允许明确分离字符视觉信息和上下文信息。反1https://github.com/MisaOgura/flashtorch4524y|文本信息被进一步分解为时间信息和语言信息。一般来说,时间信息对单词中字符的数量和顺序进行建模,而语言信息对n-gram和其他语言统计数据进行建模。因此,一个分离的时间注意力模块(DTA)被引入到模型的时间信息和视觉特征分离此外,还提出了一种解耦上下文锚机制(DCA),用于总之,我们的框架减少了训练集上下文信息对视觉特征的混淆效应,使其不那么容易受到开放集场景下棘手的上下文信息偏见的影响。本文的主要贡献概括如下:(1) 提出了一个上下文解耦框架,通过减少上下文信息对词级样本中小说人物视觉表征的影响,提高了词级开集文本识别(2) 提出了一个分离的时间注意模块,减少了时间信息对视觉特征提取器的影响。(3) 提出了一种解耦的上下文锚机制,使语言信息从视觉特征提取器分离。2. 相关工作开集文本识别作为开集识别的一个特定领域[13,33],是一项要求模型识别测试集单词的任务,这些单词可能包含训练集中看不到的新字符[23]。一些方法[23,52]已被提出来解决这个任务。Wan等人[52]提出了将词图像的视觉特征与文本图像进行匹配,并利用类聚合器对匹配结果进行采样他们的方法在大规模字符集上不能很好地扩展,这是另一方面,OSOCR [23]使用Pro- toCNN从单个字形生成类中心,并将类中心与单词图像的序列化视觉特征相匹配。基于特征的原型生成设计可以通过缩小标签集来降低训练成本,从而可以应用于更大的标签集。然而,这些方法[23,52]没有提供有效的方法来分离上下文信息,限制了开放集词级识别的性能上下文信息的影响也在[41]中进行了研究,这表明无RNN方法也容易出现上下文信息偏差。因此,我们提出了一个框架,该框架将上下文信息从字符视觉信息中分离出来,以提高开集视觉匹配的准确性。小说人物在大多数传统的文本识别方法中[3,8,12,20,34,44,48,55],类中心大多被建模为线性分类器中的权重,而视觉信息和上下文信息被一起建模而没有显式分离。最近,更多的方法选择采用专用的后处理模块[11,49]来对上下文信息进行建模。zero-shot字符识别任务是开集文本识别的另一个特殊情况。许多方法[4,6,16,43,45]建议用唯一的结构表示(例如,部首或笔画序列)进行预测。最近,一些方法展示了韩语字符识别[6]和整字识别[16]的能力。尽管在大的标签集上表现得相当好,但这些方法需要字符的语言特定的结构表示,因此将它们限制在相应的语言中。相比之下,像[1,23]这样的无结构方法只需要每个字符的字体(或打印样本)的模板。这种方法有利于那些对字符组成没有什么先验知识的场景,例如,甲骨文字符的古代著作。我们的方法遵循无结构方案,并通过引入字符上下文解耦进一步实现可靠的单词识别能力。3. 该方法在这项工作中,我们提出了一个字符上下文解耦框架(如图2所示),以减少开放场景下的上下文信息偏见的影响,通过分离和隔离字符视觉信息和上下文信息与分离的时间注意力模块和解耦上下文锚机制。第3.1节首先阐述了框架及其优化。然后,在第3.2节中给出了对不太直观的解耦上下文锚机制的详细解释。最后 , 在 第 3.3 节 中 给 出 了 开 放 集 上 下 文 解 耦 网 络(OpenCCD)作为我们框架的示例实现。3.1. 上下文解耦框架该框架将样本(单词级图像)img和字符集E作为输入,并输出预测单词y:(y[0],.,y∈[t]),其中样本和字符集的最大概率为g,y=argmaxP(y|x,E;θ),(1)其中x是样本中所有字符的视觉特征表示为了写作方便,我们在下面的部分省略了E和θ在我们的框架中,我们使用全概率定律,以预测的长度l扩展P(y x)MaxL传统的闭集文本识别任务可以看作是测试集为零的特殊情况P(y|x)=Σl=1P(l|x)P(y|(x,l),(2)4525|LΣΣΣ影响时间戳t处y[t]的概率的正确因素,Y图2.我们实施了所提出的环境-环境解耦框架。在该框架中,首先使用DSBN-Res 45网络[5]提取样本和字符模板的视觉表示,然后分离时间注意力模块预测单词长度并对每个时间戳的视觉特征x[t]进行视觉预测是通过匹配原型(注意力减少的模板特征)与开集分类器来实现的。最后,使用解耦上下文锚模块调整视觉预测,并且在开集场景下存在难以处理的语言信息时不进行调整。其中maxL是一个字的最大长度。与大多数现有的文本识别框架不同,使用语音结束[35,44],分割[21,40]或空白[9,34]来处理长度,我们的框架显式预测长度。P(y x,l)可以经由所提出的解耦上下文锚机制(在第3.2节中详细描述)进一步分解为上下文预测和视觉预测,P(y|x,l)L=t=1P(y[t]|x[t])tY=1C∈C[t]P(y[t]|c)P(c|x,l)。(三)图3.我们的解耦上下文锚机制的因果图。这里,c是字符的公共“上下文”(语言信息),x模拟输入图像中所有字符的视觉信息,并且x [ t ]对应于第t个因此,优化目标将是最大化对数似然logP(y),|x)的真实标签序列y,logP(y)|x)MaxL因为只有在正确预测长度时才能预测正确的标签。3.2. 解耦上下文锚机制在这项工作中,我们提出了一个解耦的上下文锚机制,以建模和分离的语言信息c在字符y[t]在每个时间戳t的效果。=log(l=1(一)P(l|x)P(y)|x、l))假设1(A1)我们假设语言信息作为输入视觉信息和所有时间戳的预测输出的共同原因(见图1)。= logP(l)|x)+logP(y)|x,lx)l*= logP(l)|x)+(logP(y[t]|x[t]))t=1(四)(3)第三章。我们将样本图像建模为标签y的此外,我们假设标签(单词)是根据语言信息c生成的,使标签y成为c的因果结果。因此,语言语境c和l∈C[t]+1998年12月20日(t=1字符级视觉信息[t] 是唯一两个:=−(L透镜+Lvis +Lctx),P(y[t]|x[t],x,y[t-1]. y[0],l,c)=P(y[t]|x[t],c),(5)其中Llen、Lvis和Lctx是三个对数似然项的对应交叉熵损失。步骤(a)假设2(A2)字符的形状(字符视觉信息)及其上下文(语言信息)P(y[t]|c)P(c|x,l))4526Y|L|H|||||||Y|H∝是独立的给定字符y[t],即,P(x[t]|y[t],c)= P(x[t]|y[t])P(x[t],c|y[t])= P(x[t]|y[t])P(c|y[t])。(六)定理3:解耦上下文锚机制结合定理1和定理2,我们有解耦合上下文锚机制,P(y|x,l)这一假设意味着语言信息不会影响这个词,这通常适用于大多数合成数据集L=t=1P(y[t]|x[t])lc∈C[t]t=1P(y[t]|c)P(c|x,l)。(九)其中样式和内容随机匹配。定理1:语境给定假设A1,给定图像x及其长度l的预测词y的概率P(y x,l)可以被写为所有时间的“锚定预测”的乘积-tamp,即,这个定理的证明可以在附录B中找到。该机制还允许在单词级别上明确分离语言信息和字符视觉信息,这提供了一种对在训练集上学习的语言信息进行建模和分离的方式,导致特征提取器更多地关注字符视觉信息,并且更少地受训练集语言信息的影响。考虑到Theo中揭示的锚属性,P(y|x,l)=tY=1C∈C[t]P(y[t]|x[t],c)P(c|(x,l),(7)rem 1和定理2的解耦性质,我们称这种机制为解耦上下文锚机制。证据详见附录A。这里,积分项可以被解释为在所有可能的上下文c上的“锚定预测”P(y [ t ] x [ t ],c)的集合因此,我们称这个定理为上下文的锚属性。定理2:语言信息与文字视觉信息的可分离性给定假设A2,字符视觉信息对标签P(y[t])的影响|x[t])和语言信息P(y[t])的影响|c)可与上下文预测P(y[t])分离|x[t],c),3.3. OpenCCD网络在本节中,开放集上下文解耦网络(OpenCCD,图2)作为我们提出的框架的示例实现。这里,字符集E:(Ev,Ec)由Noto字体Ev的字形和字符Ec的语义嵌入组成。该网络首先提取单词图像img和字形Ev的视觉特征,并使用DSBN [5]层构建45层ResNet(Res 45-DSBN)。它在字形和单词图像之间共享卷积层,同时保持特定于任务的批处理统计数据。使用三个级别的词特征(Fl,Fm,Fh)和字形的最新特征图Fg。原型(类中心)Wv是P(y[t]|X[t],c)P(y[t]|x[t])P(y[t]|c).(八)P(y[t])通过对Fg应用几何注意而生成。在训练过程中,我们在每次迭代时对Ev进行小批量处理,以达到合理的训练速度。在评估过程中,视觉这里,P(y[t]x[t])表示y[t]的预测概率。关于字符视觉信息x[t],P(y[t]c)对由语言信息引起的效果进行建模,并且P(y[t])对训练集上的字符频率进行建模。这个定理的证明在附录C中给出这是-Orem认为,在特定的条件下,文字视觉信息和语言信息对预测的影响是可以明确直觉上,P(y[t]c)这种行为发生在我们的在训练过程中,该特征提取器可以使用Lctx和Lvis的梯度来更新特征提取器,其中Lctx和Lvis的梯度被累积以更新特征提取器。这就是需要反向传播Lctx的原因,并且也使Lctx成为正则化项,通过反向传播来执行网络的某些属性。这个属性将其与切割梯度的“看两次”机制[11,49]区分开来整个数据集的原型Wv被预先缓存,因此原型生成产生很少的额外成本。接下来,使用分离的时间注意力(DTA)模块来预测单词P(lx)的长度,并且最大可能长度被引爆为1000。然后是DT A模块对有序字符级视觉特征x:(x[0],..., x[l])从特征图Fh.然后产生基于视觉的预测P(y[t]x[t]开集分类器。对于闭集场景,经由解耦上下文锚(DCA)模块产生面向语言信息的预测P(y[t]c) 对于语言信息难以处理的开集场景,P(y[t]c)被视为均匀分布,这相当于仅使用视觉预测。在OpenCCD中,分离的时间注意力模块(图1)。(4)建议4527∈||||||∈|C.∝||⊂[t][t]|||图4.提出的分离式时间注意模块。我们在时间注意力模块中隔离序列建模时间注意力地图这里,GAP表示全球平均池化。预测序列长度P(lx)。它还通过注意力图A对特征图Fh中的字符进行排序和采样。该模块利用FPN来对来自输入特征图的全局时间信息进行建模,并将它们解码成A和P(lx)。由于时间信息与单独的字符形状(字符视觉信息)无关,因此该模块通过切割梯度w.r.t.P(lx)和A.然后,该模块根据注意力图A和最可能长度λ1将输入视觉特征图Fh分割成各个字符的视觉特征x,所有这些都只包含经由x反向传播到Fh的字符视觉信息。在OpenCCD中,P(y[t]x[t])是通过将原型与字符级特征x[t]进行比较来产生的,结合Eq.在图9中,在时间戳t处的预测特征的概率可以近似为,P(y[t]|x)P(y[t]|x[t])P(y[t]|c)。(十三)由于语言信息主要与标签相关,因此我们从预测标签而不是特征图来估计语言信息。 更具体地,该模块重新使用估计的字符概率分布Y(0,1)l×M:(P(Y[0]x[0]),.,P(Y[l]x[l])),其中gard 到 每 个 时 间 戳 t 处 的 字 符 视 觉 信 息 , 以 及 P(Y[t]x[t]):(P(y0x[t]),.,P(y M x[t]))是时间戳t处所有字符的概率分布。然后,使用应用的4层Transformer编码器[39]来估计c基于字符嵌入的期望,c=Trans(YEc),(14)其中Ec RM×C是训练集中所见字符的语义嵌入,因此Y Ec解释为期望。Trans表示4层Transformer编码器。最后,通过比较特征值em来估计y,P(Y[t]c)层面Ec至cc,P(Y[t]|其中σ是softmax函数。用Eq. 12将积分降低到标准分类问题,等式12中的Lctx。4可以实现为像Llen和Lvis的交叉熵损失。因此,OpenCCD可以通过以下三个方面进行优化:P(y[t]|x[t])α|x[t]|y[t]是[UNK]|Sim(x [ t ],y [ t ]),否则,|Sim(x[t],y[t]) otherwise,(十)加权交叉熵损失4. 实验其中x[t]是x[t]的L2范数,Sim(x[t],y[t])定义为:这项工作是基于OSOCR [23],我们的代码2和数据集3已经发布。我们对所有三种情况的基准进行实验:开放集单词级识别,Sim(x[t],y[t]):=maxwv∈<$(y[t])(cos(wv,x[t])),(11)的字符识别,零射击字符识别,和传统的封闭集字级识别基准。此外,委员会认为,其中,返回所有原型(y[t])Wv伴生具有标签y[t],并且每个单独的原型wv对应于字符y [ t ]的去耦上下文锚不是实现变分自动编码器[19]来估计语言信息的分布并利用蒙特卡洛估计积分,而是利用预测的上下文锚来近似积分,这类似于仅使用具有最大预测相似性的锚的传统锚机制[30,31],还 进 行 了 开 集 词 级 识 别 的 消 融 研 究 。 我 们 使 用AdaDelta优化器,学习率设置为10−2,每200k次迭代减少一次。对于单词识别任务,我们提供了一个文件更接近SOTA方法,其中大型网络在ResNet 45-DSBN骨干中具有更多的潜在通道。4.1. 开集文本识别我们使用一组中文文本识别数据集[10,28,36,38,50]作为训练集,C∈C[t]P(y[t]|c)P(c|x,l)P(y[t]|c)。(十二)45282https://github.com/lancercat/VSDF网站3https://www.kaggle.com/vsdf2898kaggle/osocrtraining4529×表1.开放集文本识别数据集的详细性能分析。性能数据以字符准确度(顶部)/线路准确度(底部)方式列出。MLT [28]的日本子集作为OSOCR [23]之后的测试集,所有模型都经过20万次迭代的训练定量性能和SOTA方法见表1,定性样品见图5.结果显示,与OSOCR相比,整体性能有显著改善[23]。细节表明,性能增益来自识别看不见的字符。该模型显示出一定程度的鲁棒性超过新的字符(图中黄色的5)喜欢独特的Kanjis和Kanas。结果表明,形状相近的汉字是最主要的错误来源。这种现象的原因可能是使用硬标签(与软标签相反)推动所有负类,这也在细粒度分类中提到[53]。模糊的文本艺术可能是失败案例的另一个主要原因,这是可以预期的,因为语言信息在开集场景下是难以处理的,因此不能用于恢复视觉上不可区分的字符。4.2. 消融研究我们对开放集文本识别挑战进行了消融性研究,以验证分离字符视觉信息和上下文信息的效果在本节中,我们在同一台服务器上训练所有消融模型,以最小化混杂因素,结果(图10)。6)证明了用分离的时间注意模块隔离时间信息可以提高开集识别率。此外,进一步分离的语言信息与解耦上下文锚机制被证明会产生更多的改进。直观地说,测试集精度曲线表明,这两个提议的方法介绍了稳定的性能改善,在大多数迭代。曲线的不稳定性是图5.开放集文本识别任务的示例结果。该图显示了在“假名”、“唯一汉字”和“共享汉字(近景)”情况下的定性性能每组的结果用两行表示,其中顶行显示成功案例,底行显示失败案例。白色文本表示看到的字符,黄色表示新字符,红色表示识别错误,绿色表示正确结果,紫色块表示拒绝结果。图6.对提出的模块进行烧蚀研究。X轴表示总迭代次数,Y轴表示测试集精度。稳定-应用每个模块后可以获得优先级增益(红色:基础模型;绿色:分离角色视觉信息;蓝色:分离两者)。由线路准确度度量引起,其中一个错误的字符可能危及整个线路。我们进一步进行配对t检验,以定量验证性能改进的鲁棒性用DTA模块分离时间信息显示2. 00t值和0. 06p-值,而使用DCA分离语言信息给出了5。87t值和1。54 10−5p值。p值表明我们可以拒绝这两种方法的假设。因此,有很强的证据表明,DTA和DCA都可以鲁棒地提高开集识别性能。定性地,我们在图7中显示了我们的模型和基础模型之间的结果比较。与基本模型相比,我们的框架通过分离语言信息和字符视觉信息,对语言信息偏见表现出了良好的鲁棒性改进。方法OSOCR[23日]OSOCR大[23]我们我们大Kana-18.750.1043.557.5247.3511.17共享汉字-79.8673.8176.4874.1576.5374.66独特汉字-71.7434.0877.5048.8182.2058.33所有汉字-75.3351.6477.0659.8179.7465.42整体47.8929.0849.1030.0862.1636.5765.3441.314530表2.HWDB和CTW数据集上的零射击字符识别精度* 表示方法会场准确度(%)HWDBCTW训练集中训练集中500100015002000500100015002000CM*[1]ICDAR'1944.6871.0180.4986.73----[46]第四十六话ICFHR'181.708.4414.7163.80.121.504.9510.08[43]第四十三话PRL'1933.641.563.870.62.3610.4916.5922.03HCCR [4]PR'2033.7153.9166.2773.4223.5338.4744.1749.79OSOCR [23]-46.6772.1979.8284.3127.9448.2358.5663.77我们-90.9394.1094.5895.5558.2268.5674.4577.18图7.我们的方法和基本方法之间的比较。绿色表示正确预测,红色表示错误预测。黄色表示新人物,白色表示见过的人物。mation4.3. 常规基准由于缺乏开集文本识别的基准测试,我们采用两个研究得很好的特例,在泛化能力和单词识别能力方面进行了参考比较。在这里,我们坚持在每个相应的社区中最适用的pro-tools来训练,评估和测量性能。零次字符识别遵循社区中的常见协议[1,4,23,43],我们在HWDB [24]和CTW [50]数据集上执行零次汉字识别基准测试[4,23,43]。由于训练集的大小很小,该模型被训练了50k次迭代如表2所示,我们的方法比现有方法具有显著的性能优势图8中的定性样本显示了对风格多样性、轻微模糊和其他混淆因素的一些鲁棒性。这也表明,一些退化,如模糊或低对比度不一定产生永久的信息图8.零次汉字识别基准测试的样本结果。左边的数字表示用于训练的不同类的数量。绿色表示正确的识别结果,红色表示错误的,紫色块表示拒绝。注意白色不表示看到的字符,所有测试字符都是新的。损失,并且可以用足够的分布良好的训练数据来反演。我们将开集词识别和这一挑战之间的鲁棒性差异部分归因于潜在的语言特定的这些实验表明合理的推广能力相比,SOTA零射击字符识别方法。这也证明了数据驱动的潜在表示与模型驱动的表示(如根式序列)的选择[4,6]。我们的方法不需要字符的结构知识,这使得潜在的使用,以识别甲骨文和其他liga- tures,这种知识是未知的或不适用的。最后,我们在传统的闭集基准测试上进行了实验,将该方法与SOTA文本识别方法进行了性能和速度方面的比较。我们报告了无词典性能(表3)和基于词典的性能4531∗表3.在传统的封闭式基准上的表现* 表示字符级注释,+表示多批次评估。方法会场训练集RNNFPSIIIT5KSVT公司简介IC13可爱[2]第二季第2集ICCV'19MJ+STY36.2387.987.594.492.371.8SAR [20]AAAI'19MJ+STY-91.584.5--83.3ESIR [51]CVPR'19MJ+STY-93.390.2--83.3[22]第二十二话CVPR'20MJ+ST+额外Y-93.792.796.393.987.5种子[29]CVPR'20MJ+STY-93.889.6-92.883.6丹麦[44]AAAI'20MJ+STY-94.389.295.093.984.4[2]第三届中国国际航空航天博览会KDD'18MJ+STN212.7684.384.792.989.069.2[21]第二十一话AAAI'19StN4592.082.1-91.478.1[40]第四十话AAAI'20MJ+ST+额外N-93.990.1-92.983.3我们的大型-MJ+STN66.91/255+91.9085.9392.3892.2183.68表4.基于词典的闭集基准测试实验。c表示闭集方法,并且m表示使用除MJ和ST之外的数据集方法会场IIIT5k(小/中)公司简介(满)SVT(五十人)AONc [9][51]第五十一话[21]第二十一话CVPR'18CVPR99.6/98.199.6/98.899.8/98.996.7--9697.498.5Zhang等人[五十二]ECCV'2096.2/92.893.392.4OSOCR-L [23]-99.5/98.696.796.7Ours-L-99.8/99.096.997.9性能[52]。更具体地说,该模型遵循SOTA方法的主流技术在MJ [17]和ST [14]对于评估,IIIT5k [27],SVT[42],ICDAR 2003 [25],ICDAR 2013 [18]和CUTE [32]是采用由于训练集明显更大,我们的模型被训练了80万次迭代。我们首先将我们的方法与其他开集文本识别方法进行比较,这些方法在表4中报告了它们在基于词典的基准测试中的性能,以及一些流行的闭集识别方法。结果表明,我们的方法保留了合理的闭集性能相比,其他开集方法。我们的方法也达到了接近的性能对SOTA闭集方法在这个基准测试。其次,使用无词典协议的比较如表3所示,尽管性能略低于重型SOTA闭集识别方法以换取更快的速度,但我们的方法显示出与轻量级文本识别方法相比具有竞争力的性能。遵循社区惯例[2,21],采用运行速度来衡量该方法的成本我们的方法可以达到67 FPS单批和255 FPS多批在笔记本电脑上与RTX 2070移动GPU(7 TFlops),而仅使用2.5 GiB Vram。这证明我们的模型是一个有竞争力的轻量级方法,为传统的任务。5. 限制尽管在所有测试场景中表现出合理的性能,但我们的方法仍然存在一些局限性。在框架方面,我们做了一些强有力的假设。首先,我们假设视觉特征提取器可以被一般化到一种新的语言。尽管它比基于词根的方法具有更好的语言内迁移能力,但要假设它具有鲁棒的语言间迁移能力还是有点太强了。这些限制可能导致喀纳斯和独特汉字之间的性能差距。在实现方面,我们的方法使用小的输入(32128个补丁),并且缺乏有效的校正模块[26,35]。这导致有效文本区域非常小,因此限制了歪斜和弯曲样本的性能。我们将在接下来的工作中讨论如何解决这些限制6. 结论本文提出了一个开放集文本识别的上下文解耦框架,该框架在理论上是具体而言,烧蚀研究和对比实验验证了我们的实现是一个有效的开集文本识别方法和生产就绪的轻量级文本识别方法下的闭集场景。7. 确认本 研 究 得 到 了 国 家 重 点 研 究 发 展 计 划( 2020AAA09701 ) 、 国 家 杰 出 青 年 科 学 基 金( 62125601 ) 和 国 家 自 然 科 学 基 金 ( 62006018 ,62076024)的部分资助。4532引用[1] Xiang Ao , Xu-Yao Zhang , Hong-Ming Yang , FeiYin,and Cheng-Lin Liu.零触发手写识别的跨模态原型学习。在ICDAR中,第589-594页,2019年。二、七[2] Jeonghun Baek、Geewook Kim、Junyeop Lee、SungraePark、Dongyoon Han、Sangdoo Yun、Seong Joon Oh和Hwal- suk Lee。场景文本识别模型比较有什么问题?数据集和模型分析。在ICCV,第4714-4722页,2019年。8[3] FedorBorisyuk , AlbertGordo , andViswanathSivakumar. Rosetta:用于图像中文本检测和识别的大型系统。在KDD中,第71-79页,2018年。二、八[4] 曹仲、姜璐、森翠、张长水。基于空间分解嵌入的零次手写体汉字识别。模式识别,107:107488,2020。二、七[5] Woong-Gi Chang、Tackgeun You、Seonguk Seo、SuhaKwak和Bohyung Han。用于无监督域自适应的特定于域的批量归一化在CVPR中,第7354- 7362页,2019年。三、四[6] 陈敬业,李斌,薛向阳。基于笔划级分解的零次汉字识别。在IJCAI,第615-621页,2021中。二、七[7] 陈小雪,金连文,朱元志,罗灿杰,王天威。文本识别在野外:一个调查。ACM计算监视器,54(2):42:1-42:35,2021. 1[8] 叶尘,舒宏春,徐文教,杨正宇,洪智虎,董明帅。使用深度学习算法进行Transformer文本识别。Comput.Commun. ,178:153- 160,2021. 2[9] 湛湛成、杨柳絮、樊白、牛一、蒲世良AON:TowardsArbitrarily Oriented Text Recognition(面向任意文本识别)。在CVPR中,第5571-5579页,2018年。三、八[10] Chee Kheng Chng,Errui Ding,Jingtuo Liu,Dimosthe-nis Karatzas,Chee Seng Chan,Lianwen Jin,YuliangLiu,Yipeng Sun,Chun Chet Ng,Canjie Luo,ZihanNi,Chuan- Ming Fang,Shuaitao Zhang,and Junyu Han.ICDAR 2019关于任意形状文本的稳健阅读挑战(RRC-ArT)。在ICDAR中,第1571-1576页,2019年。5[11] Shancheng Fang,Hongtao Xie,Yuxin Wang,ZhendongMao,and Yongdong Zhang.像人类一样阅读:用于场景文本识别的双向迭代语言建模。在CVPR中,第7098-7107页二、四[12] Xinjie Feng,Hongxun Yao,Yuankai Qi,Jun Zhang,and Shengping Zhang.通过Transformer进行场景文本识别。CoRR,abs/2003.08077,2020。2[13] Chuanxing Geng,Sheng-Jun Huang,and Songcan Chen.开集识别的最新进展:综述。 IEEE Trans.模式分析马赫内特尔,43(10):3614-3631,2021. 2[14] Ankush Gupta,Andrea Vedaldi,Andrew Zisserman.用于自然图像中的文本定位的合成数据。在CVPR中,第2315-2324页,2016年。8[15] Jie-Bo Hou,Xiaobin Zhu,Chang Liu,Kekai Sheng,Long-Huang Wu , Hongfa Wang , and Xu-Cheng Yin.Hid-4533用于场景文本检测的den锚机制 IEEE Trans.图像处理。,29:7904-7916,2020. 4[16] Yuhao Huang,Lianwen Jin,and Dezhi Peng.基于匹配类嵌入的零次在IC中-DAR,第12823卷,第127-141页,2021年。一、二[17] Max Jaderberg Karen Simonyan Andrea Vedaldiand Andrew Zisserman 用于自然场景文本识别的 合 成 数 据 和 人 工 神 经 网 络 。 CoRR ,abs/1406.2227,2014年。8[18] Dimosthenis Karatzas 、 Faisal Shafait 、 SeiichiUchida 、 Masakazu Iwamura 、 Lluis Gomez iBigorda 、 Sergi RoblesMestre 、 JoanMas 、 DavidFerna' ndezMota、JonAlmaza' n和 Llu 'ıs-Pere delas Heras 。 ICDAR 2013 强 劲 的 阅 读 竞 争 。ICDAR,第1484-1493页,2013年。8[19] Diederik P. Kingma和Max Welling。自动编码变分贝叶斯。在Yoshua Bengio和Yann LeCun的编辑中,ICLR,2014年。5[20] Hui Li,Peng Wang,Chunhua Shen,and GuyuZhang.Show,attend and read:一个简单而强大的不规则文本识别基线。在AAAI,第8610-8617页,2019年。二、八[21] Minghui Liao , Jian Zhang , Zhaoyi Wan ,Fengming Xie,Jia-jun Liang,Pengyuan Lyu,Cong Yao,and Xiang Bai.二维视角下的场景文本识别在AAAI,第8714-8721页三、八[22] Ron Litman , Oron Anschel , Shahar Tsiper ,Roee Litman,Shai Mazor,and R.曼玛塔选择性上下文注意场景文本识别器。在CVPR中,第11959- 11969页,2020年。8[23] Chang Liu,Chun Yang,Hai-Bo Qin,XiaobinZhu,Jiebo Hou,and Xu-Cheng Yin.通过标签到原 型 学 习 实 现 开 集 文 本 识 别 。 CoRR ,abs/2203.05179v1,2021。一、二、五、六、七、八[24] 刘成林,殷飞,王大汉,王秋凤。CASIA联机和脱机中文笔迹数据库。载于ICDAR,第37-41页,2011年。7[25] 西 蒙 ·M Lucas , Alex Panaretos , Luis Sosa ,Anthony Tang,Shirley Wong,Robert Young,KazukiAshida , HirokiNagai , MasayukiOkamoto , HiroakiYamamoto , HidetoshiMiyao , JunMin Zhu , WuWen Ou , ChristianWolf , Jean-Michel Jo- lion , Leon Todoran ,Marcel Worring,and Xiaofan Lin.IC-DAR 2003年健全的阅读比赛:参赛作品,结果和未来的方向。Int. J.文档分析认得,7(2- 3):105-122,2005. 8[26] 罗灿杰,金连文,孙增辉。MORAN:一个用于场景文本识别的多目标校正注意网络模式识别,90:109-118,2019。8[27] A. Mishra,K. Alahari和C.贾瓦哈尔使用高阶语言先验的场景文本在BMVC中,第127.1-127.11页,2012年。8[28] Nibal Nayef 、 Yash Patel 、 Michal Busta 、 Pinaki NathChowd-hury 、 Dimosthenis Karatzas 、 Wafa Khlif 、 JiriMatas 、 Uma- pada Baglif 、 Jean-Christophe Burie 和Cheng-Lin Liu。IC-DAR 2019关于多语言场景文本检测和识别的鲁棒阅读挑战(RRC-MLT-2019)。在ICDAR中,第1582-1587页五、六[29] 乔志,周玉,杨东宝,周玉灿,王伟平.SEED:语义增强的编码器-解码器4534场景文本识别框架。在CVPR中,第13525-13534页,2020年。8[30] 约瑟夫·雷德蒙和阿里·法哈迪YOLO9000:更好、更快、更强。在CVPR中,第6517-6525页,2017年。5[31] 任少卿,何开明,Ross B.Girshick和Jian Sun。Faster R-CNN: Towards Real-time Object Detection with RegionProposal Networks. IEEE Trans. 模式分析马赫内特尔,39(6):1137-1149,2017. 5[32] Anhar Risnumawan 、 Palaiahnakote Shivakumara 、CheeSeng Chan和Chew Lim Tan。一个鲁棒的自然场景图像任意文本检测系统。专家系统应用,41(18):8027-8048,2014. 8[33] Walter J. Scheirer , Anderson de Rezende Rocha ,Archana Sapkota,and Ter
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功