基于序列域自适应网络的文本图像鲁棒识别

101 浏览量更新于2023-10-19 收藏 819KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2740基于序列域自适应网络的文本图像鲁棒识别张亚平1，2，聂帅1，刘文举1，徐兴3，5，张东祥4，5，沈衡涛31中国科学院自动化研究所模式识别国家重点实验室（CASIA）2中国科学院大学（UCAS）3电子科技大学计算机科学与工程学院未来媒体研究中心4浙江大学计算机科学与技术学院5阿凡提人工智能实验室{yaping.zhang，shuai.nie，lwj} @ nlpr.ia.ac.cn，xing. uestc.edu.cn，zhangdongxiang37@gmail.com，shenhengtao@hotmail.com摘要域自适应已经显示出有前途的进展，以减轻域转移问题。然而，最近的视觉域自适应工作通常集中在全局粗对齐的非序列目标识别上，这不足以传递有效的知识用于序列识别。培训（资料来源）测试（目标）域转移（类型）场景文本手写文本数学表达式文本例如具有可变长度细粒度字符信息的文本图像。在本文中，我们开发了一个序列到序列域自适应网络（SSDAN）的鲁棒的文本图像识别，它可以利用无监督的序列数据的注意力为基础的序列编码器-解码器网络。在SSDAN中，引入门控注意相似性（GAS）单元以自适应地集中于在关注的字符级特征空间中对齐源和目标序列数据的分布，而不是全局粗对齐。大量的文本识别实验表明，SSDAN可以有效地传递序列知识，并验证了所提出的模型在各种识别场景中的应用前景，包括自然场景文本，手写文本甚至数学表达式识别。1. 介绍深度学习方法在文本图像阅读方面取得了显着的成果[3，5，7，13，21，23，31]。然而，它仍然具有挑战性，以建立一个强大的文本识别器，可以有效地处理在新的情况下变化的数据，由于不可避免的域转移时，遇到的实际数据在如图1所示，文本数据差异往往会受到多种因素的影响，例如自然场景文本中的不同外观[21]，手写文本中的各种手写风格[3]，甚至*通讯作者。图1.文本图像识别场景中不同类型的域转移示例数学表达式中的不同结构[7]。为了对移动后的目标文本图像建立一个鲁棒的文本识别器，一般的解决方案是采集大规模的带注释的文本图像，但这种方法成本高且不能覆盖所有的文本类型。然而，无监督的目标文本图像很容易获得。如果我们能够利用无监督的文本图像来减少域偏移，这将是有帮助的。无监督域适应是一种有效的方法，我们-使用未标记的目标域数据来减轻域偏移，这是为了对齐源域和目标域之间的特征分布。最近关于域适应的研究工作[30，38]显示了字符识别的潜在结果。它们通常优化字符的全局表示，以最大限度地减少域偏移的某些度量，例如最大平均离散度（MMD）[24，38]，相关对齐距离（CORAL）[35，41]或对抗损失[9，30，36]，其中特征维度在源和目标域中是固定的。然而，文本图像是不同字符的组合，这是一个可变长度的标签序列，而不是孤立的。因此，最流行的局部自适应方法不能直接应用于序列预测，因为全局固定长度表示在字符级缺乏重要的细粒度信息，这进而不能适当地描述序列状图像的内容。在本文中，为了解决上述问题，我们合成/逼真写作风格结构多样性2741图2. SSDAN的结构包括：一个CNN编码器，用于将输入图像映射为一系列高级特征向量在编码器和解码器之间的注意单元，用于自适应地关注字符的位置;GRU解码器，用于递归地将编码特征转换为输出字符串; GAS单元，用于为模型提供指导，以自适应地在源域和目标域之间找到字符级的域不变特征总的来说，通过联合最小化字符级相似性损失Lattn和源解码损失Ldec来实现无监督序列到序列域自适应。开发一个序列到序列域自适应网络（SSDAN），用于鲁棒的文本图像识别。如图2所示，所提出的SSDAN是用于处理序列的基于注意力的编码器-解码器模型，其来源于[7，21]。该算法在解码过程中能够自动地集中于字符的最相关区域，从而使一个类序列的文本图像不必将源序列的所有信息压缩到一个全局定长向量中。此外，一个门控注意相似性（GAS）单元被引入到对齐的源和目标域的分布在一个关注的字符级特征空间，我们采用门函数来控制模型专注于有效的字符级特征，而不是全局粗对齐。在GAS单元中，使用无监督的字符级相似性损失来指导模型减少源序列和目标序列之间的域偏移。然后通过联合最小化非监督字符级相似性损失和监督源解码损失来实现无监督序列到序列域自适应，这可以学习对移位目标域有效的域不变我们将我们的贡献总结如下：• 我们提出了一种新的序列到序列域自适应网络称为SSDAN的鲁棒文本图像识别，可以推广到不同的场景，如自然场景文本、手写文本和数学表达式识别。• 本文在SSDAN中引入了一种新的GAS单元，它可以自适应地将图像的精细信息传递给目标，粒度的字符级知识，而不是通过全局特征执行域自适应。• SSDAN能够利用非监督序列数据有效地减少域移位在六个基准数据集上进行的大量实验验证了所提出的模型在自然场景文本、手写文本和更困难的数学实验识别中的大规模现实应用的潜力。2. 相关工作在本节中，我们回顾了文本识别方法的文献。然后，我们讨论了最近的试验应用领域适应技术的文本识别。文本识别方法. 深度学习方法有在图像文本阅读方面取得了显着的成果[3，5，7，13、20、21、23、31]。然而，文献是相对稀疏的建立一个强大的文本识别器，可以处理不同的数据丰富的场景有效。针对场景文本中存在的透视变形问题，设计了相应的处理方法例如，[32]和[22]引入了一个空间Transformer网络来在识别之前校正整个文本。此外，CharNet [21]试图引入字符级空间Transformer来纠正单个字符，它能够处理更复杂形式的失真，这些失真无法通过单个全局变换轻松建模。但它们只适用于空间仿射失真，难以推广到手写体风格或数学表达式中的各种结构所引起的失真。总之，现有的文本图像识别方法通常是针对特定场景设计的，不能有效地推广到不同的任务。虽然我们的领域适应模型是针对不同的场景设计的，包括自然场景文本、手写文本和数学表达式，“模特”GRU��SCNN编码器解码器“Blenched“序列译码损失��（ S（S源图像ℒ��基于注意力的字符级相似性损失阿勒特目标图像��（（（��中文（简体）��………��（分布对齐空间（关注组G��ሚ(��t)气体单元气体关注2742选择识别此外，现有的方法通常忽略了文本图像数据相反，我们的SSDAN利用域自适应技术来解决域移位问题，自适应地执行文本图像中的字符级自适应用于文本识别的域适应。最近在视觉领域有大量的作品适应解决域转移问题[30，38，41]。一些方法在字符级手写或自然场景数字数据集上进行了评估，并显示出有效的性能。然而，大多数最近的工作使用深度卷积架构来将源域和目标域映射到域对齐的共享空间中。他们通常通过最小化某些局部移位的措施来优化全局表示，例如MMD [24，38]，CORAL [35，41]或ad-[9]第30话，第36话。因此，这些方法不能直接应用于具有多个字符的序列文本图像，因为域移位是在字符中而不是全局图像中的局部。最近，已经提出了其他方法来通过对抗学习来适应不同的字体风格以进行图像到图像的翻译[1]。类似地，这些方法有限地翻译在全局图像上的不同风格的信号字符的字体，这仍然不能扩展到文本行图像。为了解决这些问题，我们开发了一个序列到序列域的适应，专注于细粒度的字符级功能，成功地转移可变长度的序列知识。3. 该方法本文提出了一种无监督的序列间自适应文本识别方法具体地说，源域文本图像具有良好的注释文本标签（字符或符号序列），而我们只能访问目标域中未标记的文本图像，这是在不同的分布。更正式地说，我们假设有N个s-通过一个带有注意力机制的GRU解码器在所提出的SSDAN中，进一步引入GAS单元来自适应地引导模型寻找源域和目标域之间的字符级3.1. 注意文本识别注意文本识别本质上可以被认为是学习从序列状文本图像x编码的特征图序列与地面真值标签序列y ={y1，y2，...，yT}。如图所示在图2中，注意文本识别流水线包括1）CNN编码器，其从输入图像学习高级视觉2)编码器和解码器之间的注意力模型，其将模型的注意力焦点驱动到编码特征序列的特定部分。3）GRU解码器，其生成符号序列作为输出，每个时间步长一个。CNN编码器。 CNN编码器F将原始输入图像x，并产生大小为H′×W′×D的特征网格F（x），其中D表示通道数H′和W′是所得到的特征图高度和宽度。然后编码器输出被整形为L个元素的网格序列，L = H′× W ′。这些元素中的每一个都是D维特征向量，其对应于通过其对应的感受野的图像的局部区域因此，整个编码图像F（x）可以被重新格式化为：F（x）=[f 1，...， fL]，fi ∈ RD，（1）其中fi对应于编码图像F（x）的第i个网格，其保留了输入图像x的特定空间信息。关注虽然CNN编码器保持水疗中心-我们无法确定具体字符在文本图像中。因此，引入注意力模型来学习文本图像的哪个部分与解码字符最相关。如图2所示，注意力是一个T步过程，在时间步长k处，表示与编码的字符y带符号的源域样本Xs={xs}Ns，其中ks s Nsi i=0特征图F（x）被定义为上下文向量ck：对应标签Y={yi}i=0，且Nt未标记不在没有任何值的情况下获取域样本Xt={xt}Ni i=0能够在训练时间内标注标签对于y∈ Ys，ck=αk，ifi，（2）y={y1，y2，...，yT}，其中yk T表示字符i=0时标签和文本的可变长度。考虑到典型的全局域自适应方法，ODS缺乏细粒度的字符级信息，我们其中，关注权重αk，i由下式计算：α=αexp（sk，i），开发一个序列到序列域自适应网络-k我Lj=0 经验k，j）（三）工作（SSDAN）的强大的文本图像识别，对齐的源和目标序列数据的分布在一个参加字符级的特征空间，而不是一个全球性的粗对齐。如图2所示，所提出的SS-DAN是一种基于注意力的序列编码器-解码器网络，它将文本图像编码为一系列注意力字符级特征，然后重新组合其中注意力分数sk，i指示当解码文本图像的第k个字符时模型注意编码映射F（x）中的第i个子区域的概率。根据过去的经验工作[7]，我们定义了注意力得分为sk，i =βtanh（Wh hk−1 + Wf fi），（4）2743F其中β、Wh和Wf是要学习的参数，hk−1是解码器中的先前解码状态。因此，我们进一步引入了一个自适应门函数δ（ck），为了判断上下文向量ck是否涉及有效字符，GRU解码器。采用GRU解码器来预测字符串的输入文本图像，其中我们使用门控递归单元（GRU）神经网络在解码时步演员，δ（ck）=.1ifp（yk|yk−1，ck）>pc0ifp（yk|yk−1，ck）0意味着执行域自适应。此外，在方程的门函数中的Pc9方法ExpRate一[28]37.2第六章[28]25.7第七章[28]26.1WYCIWYS [8]28.7Le等人[19]35.2IM2TEX [7]38.7SSDAN基39.9SSDAN41.6组件模型V1V2V3V4V5V6编码器VGGResNetDenseNetCCCCCC适应气体CCC毛皮-评价WER32.826.929.927.923.922.22748决定被关注特征是否执行域自适应。具体来说，如果当前特征向量属于有效字符的概率大于pc，基于SSDAN的输入该矢量将被执行域自适应，否则，它将作为噪声被忽略。从另一个角度来看，如果pc=0，门函数将不起作用，这意味着在没有任何指导的情况下对字符级特征进行序列域自适应虽然pc太大，函数将过于严格，无法选择足够的有效功能。图3显示了pc值的不同增益，其中λ=1。笑几乎兰盖实际上笑几乎实验结果证明，门函数是这对整体表现很重要。知道乐现在知道了85807570-2-1.5-1-0.5 0 0.51log（）858075基于SSDAN7000.10.20.30.40.50.60.70.8pc可怜的，可怜的图4.示例示出了识别结果，左列是具有真实值的输入图像，第二列和最后一列分别表示没有和具有局部自适应的识别结果每个结果都显示在注意力可视化和预测文本对中。图3.模型参数λ（左）和pc（右）的影响。可视化。在本节中，我们可视化了IAM的一些识别结果。结果显示在注意力可视化和预测文本对中。所选择的注意力可视化显示了在一个特定时间的出席地点，其中基于SSDAN的模型遭受识别错误。如图4所示，虽然SSDAN-base未能处理个人性格的扭曲，IC-038075706560555045401 2 3 4 5 6数据集大小104IIIT5K8075706560555045401 2 3 4 5 6数据集大小104SSDAN成功地解决了手写体风格问题。如图4所示的前两种情况，即使SSDAN基础和SSDAN模型在一个特定时间关注同一位置，SSDAN也可以通过减轻域转移来实现更好的性能。更有趣的是，根据图4中的最后两种情况，我们发现SSDAN模型可以学习更精确的对齐。这些结果再次验证了SSDAN的有效性。无监督数据的影响。为了量化EF-无监督数据的有效性，我们用不同大小的标记数据和未标记数据，同时保持其他超参数固定。图5显示了不同数据大小的结果。首先，我们观察SSDAN- base模型，这是一个完全监督学习，从MJSYNTH数据集中随机抽取不同数量的标记样本使用的标记样本越多值得注意的是，使用额外的未标记样本可以通过SSDAN获得一致的性能改善，其中无监督数据的大小与标记数据的数量一致。这表明我们的SSDAN能够从无监督数据中学习知识。我们还观察到，我们的模型可以得到显着的改善时，可用的注释数据是小的。图5.训练数据集大小对IC-03（左）和IIIT 5 K（右）的影响。5. 结论本文提出了一种新的用于鲁棒文本图像识别的SSDAN模型，它将类序列文本图像识别和领域自适应连接起来。它可以利用无监督的序列数据来学习更鲁棒的表示。该模型也可以推广到不同的场景，包括场景文本，手写文本和数学表达式识别。在多个数据集上的综合实验结果和广泛的分析表明了该算法的有效性。未来研究的一个有趣的开放问题是进一步调整SSDAN框架，以更好地处理各种序列域偏移。鸣谢。第一和第四作者在这项工作中有同等的贡献。本工作得到了国家自然科学基金项目的资助. 61573357号61503382号61602089号61403370号 61273267号 91120303;项目学而思网校（No. Y9D2M10101）。基于SSDAN基于SSDAN基于SSDAN精度精度精度精度2749引用[1] Samaneh Azadi ， Matthew Fisher ， Vladimir Kim ，Zhaowen Wang，Eli Shechtman，and Trevor Darrell.多内容甘为少数拍摄字体风格转移。在IEEE计算机视觉和模式识别会议论文集，第11卷，第13页，2018年。[2] 我是布鲁彻。词汇的深层神经网络手写文本识别2015年巴黎第十一大学博士论文[3] 我是布鲁彻。联合行分割和转录-用于端到端手写段落识别。神经信息处理系统的进展，第838-846页，2016年[4] Zhanzhan Cheng，Fan Bai，Yunlu Xu，Gang Zheng，Shiliang蒲和周水耕。集中注意力：自然图像中的精确文本识别。在计算机视觉（ICCV），2017年IEEE国际会议上，第5086-5094页IEEE，2017年。[5] 展展成、杨柳徐、樊白、一牛、石良浦、和周水耕。Aon：面向任意性的文本识别。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[6] Arindam Chowdhury和Lovekesh Vig。高效的端到端-用于手写文本识别的神经网络模型在BMVC，2018年。[7] Yuntian Deng，Anssi Kanervisto，Jeffrey Ling和Alexan-拉什先生。图像到标记的生成，注意力从粗到细。在国际机器学习会议上，第980-989页[8] Yuntian Deng，Anssi Kanervisto，and Alexander M Rush.你看到的就是你得到的：一个可视化标记反编译器。arXiv预印本arXiv，1609，2016.[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。第32届国际机器学习会议论文集-第37卷，第1180-1189页。JMLR。org，2015.[10] Yunze Gao ， Yingying Chen ， Jinqiao Wang ， andHanqing Lu.阅读场景文本与注意力卷积序列建模。arXiv预印本arXiv：1709.04303，2017。[11] 高玉婷，黄正，戴雨辰。双苏-具有注意力机制的有监督网络用于场景文本识别。arXiv预印本arXiv：1808.00677，2018。[12] Suman K Ghosh，Ernest Valveny和Andrew DBagdanov。用于场景文本识别的视觉注意模型。2017年第14届IAPR国际文件分析与识别会议（ICDAR）。IEEE，2017年。[13] 潘和、黄伟林、乔玉、陈昌来、奚-傲鸥堂。读取深度卷积序列中的场景文本。在AAAI，第16卷，第3501-3508页[14] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKil-伊恩·Q·温伯格密集连接的卷积网络。CVPR，第1卷，第3页，2017。[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。第32届国际机器学习会议论文集-第37卷，第448-456页。JMLR。org，2015.[16] Max Jaderberg Karen Simonyan Andrea Vedaldi和An-德鲁·齐瑟曼。深度结构化输出学习紧张的文本识别。arXiv预印本arXiv ： 1412.5903，2014。[17] Max Jaderberg Karen Simonyan Andrea Vedaldi和An-德鲁·齐瑟曼。自然景物文本识别的合成数据和人工神经网络。arXiv预印本arXiv：1406.2227，2014。[18] 迪莫塞尼斯卡拉扎斯费萨尔沙费特内田诚Masakazu Iwamura ， Lluis Gomez i Bigorda ， SergiRobles Mestre，Joan Mas，David Fernandez Mota，JonAlmazan Al-mazan ， and Lluis Pere De Las Heras.Icdar2013稳健阅读比赛。在文档分析和识别（ICDAR），2013 年第 12 届国际会议上，第 1484-1493 页 IEEE ，2013。[19] Anh Duc Le和Masaki Nakagawa。培训端到端一种通过生成模式进行手写数学表达式识别的系统在文件分析和识别（ICDAR），2017年第14届IAPR国际会议，第1卷，第1056-1061页。IEEE，2017年。[20] Chen-Yu Lee和Simon Osindero。递归递归网在自然环境中对OCR进行注意力建模。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition，第2231-2239页[21] Wei Liu，Chaofeng Chen，and Kwan-Yee K Wong. 焦-net：一个字符感知神经网络，用于扭曲场景文本识别。在AAAI人工智能会议上。2018年，美国路易斯安那州新奥尔良[22] Wei Liu，Chaofeng Chen，Kwan-Yee K Wong，ZhizhongSu，和韩俊宇Star-net：A spatial attention residue network

下载后可阅读完整内容，剩余1页未读，立即下载