没有合适的资源?快使用搜索试试~ 我知道了~
4767基于对抗学习的Ayan Kumar Bhunia1 Abhi-das2 Ankan Kumar Bhunia3 Perla Sai Raj Kishore2 Partha Pratim Roy41新加坡南洋理工大学2印度工程管理学院3印度贾达普大学4印度理工学院印度1ayanbhunia007@gmail.com摘要手写体文字识别与识别是一个复杂的领域,它处理的是形状不规则、形状复杂的手写体文字。深新设计-RAL网络模型使得有必要扩展训练数据集,以便引入变化并增加样本数量;因此,在低资源脚本中,单词检索非常现有的文献包括预处理策略,很少足以覆盖所有可能的变化。我们提出了一个Adversar- ial特征变形模块(AFDM),它学习如何以可扩展的方式弹性地扭曲提取的特征。AFDM被插入中间层之间,并与原始框架交替训练,从而增强了其更好地学习高度信息化特征而不是琐碎特征的能力。我们测试我们的元框架,这是建立在流行的单词识别和单词识别框架之上,并通过AFDM增强,不仅在广泛的拉丁语单词数据集,而且在稀疏的印度语脚本。 我们记录了不同大小的训练数据的结果,并观察到我们的增强型网络在低数据状态下的泛化能力要好得多;观察到整体的单词错误率和mAP分数也得到改善。1. 介绍在过去的二十年里,手写识别一直是一个非常受欢迎的研究领域该技术可应用于邮政自动化、银行支票处理、手写文件数字化,也可作为视觉障碍者的阅读辅助工具。手写字符识别和单词定位和识别系统在过去的几年里已经有了显著的发展自Nipkow的扫描仪[ 27 ]和LeNet [ 21 ]以来和脚本。这些深度学习算法需要大量的数据来训练对真实世界手写数据具有鲁棒性的模型。虽然单词级和分离的手写字符的大型数据集可用于拉丁文等脚本,但大量具有较大词汇的脚本具有有限的数据,这对使用这些脚本的语言中的单词识别和识别领域的研究提出了挑战。近年来出现的深度学习算法使网络能够有效地从输入中提取信息特征,并自动生成手写文本图像的转录[31]或点[40]查询词,具有很高的准确性。在没有大量训练数据的脚本中,深度神经网络(DNN)通常会出现不足,在训练集上过度拟合,从而在评估期间泛化能力较差。流行的方法,如数据增强,允许模型更有效地使用现有的数据,而批量归一化,[15][39][ 39增强策略(如随机平移、翻转、旋转和向输入样本添加高斯噪声)通常用于扩展原始数据集[20],并且证明不仅对有限数据集而且对像Imagenet [7]这样的大型数据集都是有益的。现有文献[6,19,29,51]在对多达3755个字符类进行分类之前,在特征提取之前增加训练数据[51]。然而,由于手写文本的自由流动性,这种转换未能纳入书写风格的广泛变化和文字中字符所呈现的复杂形状由于手写图像中可能的变化的巨大空间,通过这种通用手段生成变形示例来进行训练模型需要通过学习有效地利用信息量更大的不变性来对输入中的不寻常变形具有鲁棒性,并且仅利用“硬”示例来做到这一点并不是最佳的相反,我们提出了一个基于对抗学习的框架,用于低资源脚本的手写单词检索任务,以便从有限数量的样本中训练深度网络4768从手写图像中进行信息检索主要分为两类:(a)手写单词识别(HWR),其输出单词图像的完整转录;以及(b)手写单词识别(HWS),其从样本单词图像的集合中找到查询关键字(字符串或样本单词图像)的出现。现有的基于深度学习的单词检索文献(主要覆盖英语单词)利用了大量可用的数据集,或者使用图像增强技术来增加训练样本的数量[19]。Bhunia等人[3]提出了一个跨语言的印度语脚本框架,其中使用大量可用的脚本进行训练,并使用字符映射对低资源脚本进行测试。这种方法的可行性主要取决于源和目标脚本之间的相似程度Antoniou等人[2]提出了一个使用生成式广告网络(GAN)的数据增强框架,它可以在一次性设置中为新类生成增强数据。受最近针对不同任务(如跨域图像翻译[52],主适应[44]等)的对抗学习的成功启发我们提出了一种基于生成式对抗学习的范例,以使用空间变换在高维特征空间中增强单词图像[17]。我们将其称为对抗性特征变形模块(AFDM),它被添加到原始任务网络的顶部,执行识别或定位。它防止后者过度拟合容易学习和琐碎的功能。因此,所提出的模块增强的框架,以及推广到现实世界的测试数据与罕见的变形。对抗生成器(AFDM)和任务网络都是联合训练的,其中对抗生成器打算生成在本文中,我们做出了以下新的贡献:1. 我们提出了一个可扩展的解决方案,HWR和HWS在低资源脚本使用对抗学习,以增加高维卷积特征空间中的数据。对抗生成器引入的各种变形鼓励任务网络从不同的手写变体中学习,即使是从有限的数据量中学习。2. 我们将我们的对抗增强方法与不同的基线进行了比较,它清楚地表明,所提出的框架可以提高最先进的手写单词定位和识别系统的性能。不仅在低资源脚本的情况下性能得到改善,而且模型也更好地推广到真实世界的手写数据。2. 相关作品手写识别在过去已经被研究得非常详细,并且存在关于它的深入评论[28]。不-尽管如此,对更好和更精确的技术的探索仍在继续。[16]中给出的结果表明,模型应该优先使用词嵌入而不是n-gram方法。在此基础上,另一种方法[29]采用ConvNet来估计构成输入图像中单词空间部分的n元语法的基于频率的配置文件,并将其与字典中现有单词的配置文件相在[40]中,Sudholtet al.采用VGG-Net [37]并使用终端全连接层通过嵌入字符的金字塔直方图(PHOC [1])属性来预测图像中手写单词的整体表示。 [18,40,48]等架构类似地将特征嵌入到文本嵌入空间中。该论文[49]展示了一种区域建议网络驱动的单词识别机制,其中端到端模型将区域特征编码到分布式单词嵌入空间中,在该空间中执行搜索。基于Graves等人提出的Connec时间分类(CTC)准则的序列判别训练.在[10]中用于训练RNN [14]引起了人们的广泛关注,并被广泛用于[11,31]等作品中在Shiet al.[31],由ConvNet工程化的图像特征序列被赋予一个递归网络,如LSTM [11]或MDLSTM [45,4],用于计算单词transmittance。[19]中的作者还包括基于仿射变换的注意力机制,以在序列到序列转录之前空间地重新定向原始图像,以提高检测准确性。在大多数上述方法中,重要的是以不同的方式预处理图像以扩展原始数据集,如[18,19,20,29,35]中所观察到的。扩展数据集的增强过程甚至在大型广泛数据集[19,7]的情况下以及专注于标准数据集中有接近4000个类的中文手写字符识别的作品中也可以看到。在另一类方法中,在线硬示例挖掘(OHEM)的过程已被证明是有效的,通过针对数据集中较少的“硬”示例来提高数据集的准确性随着近年来对抗性学习和GAN的出现,几种方法已经结合了生成建模来创建现实的合成数据[8,26,50],遵循Goodfellow等人描述的架构指南。稳定的GAN训练[9]。诸如[2]的论文使用GAN通过在样本类图像上进行计算以输出属于同一类的样本来增强有限数据集中的数据。最近的工作由王等。[47]描述了一种对抗模型,该模型通过使用生成器[9]将遮挡和空间变形合并到特征空间中来生成硬示例,迫使检测器适应实际输入4769到模型。在我们的框架中,我们使用类似的策略来使我们的单词检索检测器对手写文本的自然图像中的各种变化具有鲁棒性和不变性。另一种类似的方法[38]也探索了对抗学习在视觉跟踪和对象检测中的应用,并试图缓解数据集中的类不平衡问题,其中观察到一类中的数据量远远超过另一类。在数据集中有大量容易识别的样本会阻碍训练过程,因为检测器不知道更有价值的3. 手写单词检索模型我们分别使用CRNN [31]和PHOCNet [40]作为手写体单词识别和定位的基线框架;在这些之上,我们实现了我们的对抗增强方法。值得注意的是,我们的模型是一个元框架,在这个意义上,增强模块也可以与ResNet类似的架构一起合并,而不是最初在两个框架中采用的VGG类似的架构卷积递归神经网络 为HWR:Shi等人[31]介绍了一种端到端可训练的卷积递归神经网络,具有连接主义时间分类(CTC)损失,其可以处理任意长度的单词序列而无需字符分割,并且可以使用基于词典和无词典的方法来预测词汇表外单词图像的转录。The ‘Map-to-Sequence’ layer [输入首先被馈送到卷积层;建立递归网络以针对所提取的特征的每一帧进行每帧预测。最后,转录层将来自递归层的预测翻译成标签序列。HWS的PHOCNet:PHOCNet [40]是单词识别中最先进的方法,实现了QbE(按示例查询)和QbS(按字符串查询)方法的示例性结果。该模型将手写单词的图像简化为相应视觉属性的编码表示。一个词的PHOC标签[40]是通过将其分割成多个层次的直方图来获得的。计算单词中字符的直方图及其一旦经过训练,通过使用空间金字塔池化层[13],针对不同大小的输入单词图像预测估计的PHOC表示。查询和词图像的这些语义表示可以通过简单的最近邻搜索(对于QbE)直接进行比较,或者与具有数据集中的词图像的PHOC的深度模型的输出表示进行比较(对于QbS)。PHOC- Net使用sigmoid激活来生成直方图,而不是Softmax,利用多标签分类方法。4. 拟议方法4.1. 概述在HWR和HWS框架中普遍观察到的通用增强技术通常不足以使模型推广到真实世界的手写数据,特别是在现有数据集很小并且仅覆盖真实世界中观察到的一小部分不规则性的低资源脚本的情况下我们提出了一个模块化的变形网络,它被训练来学习多种参数,这些参数试图使原始任务网络学习到的特征变形,从而鼓励它适应困难的示例和不常见的不规则性。设T为任务网络,其输入为图像I。通过任务网络,我们意味着单词识别[31]或单词定位网络[40],并且相应的任务损失是L任务,其可以是CTC损失[31](对于单词识别)或交叉熵损失[40](对于单词定位);为了描述的简单,我们将使用术语任务网络和任务丢失。我们在任务网络的中间层之一之后引入了对抗特征变形模块(AFDM)让我们把任务网络T分解成三个部分,即TA、TB和R。R是最后的标签预测部分,预测用于识别的单词级转录或PHOC标签[40]第40话:TA和TB是任务网络T的两个连续卷积部分。第二节讨论了TA和TB之间解剖的确切位置。5.1.假设F是TA的输出特征图,即F=TA(I)。然后将来自AFDM的变形特征图F′通过TB和R进行最终的标签预测。虽然完整任务网络T的训练目标是正确预测输出标签,但AFDM试图使特征变形,使得T无法轻松预测正确的标签。因此,T被强制更好地推广到更具判别力的不变性和信息特征,手写文本数据中的字符串。特征变形网络A和任务网络T在训练时在该对抗游戏中竞争。在推理过程中,我们只使用T。4.2. 对抗性特征变形模块AFDM受空间变换网络(Spatial Transformation Net-works)[17]的启发,实现了我们的目标,即扭曲TA学习的特征,使任务网络难以识别(或定位)。 该模块使用其对抗性局部化网络A预测一组参数θ。计算变换矩阵Tθ需要这些参数。网格生成器通过对网格S′中代表F′中坐标的点执行变换Tθ来生成采样网格S。 所得到的网格S表示:4770我我我1我我ii,1Pi,K′1K图1:我们的训练网络的架构,带有对抗性特征变形模块,包括本地化网络,网格生成器和插入任务网络的TA和TB之间的采样器。该图示描述了使用AFDM来均匀地变形完整的特征图F。- 发送原始地图F中的N个点,其中目标地图F′中的对应点应当从该N个点采样,使得目标地图F ′看起来以如下方式空间扭曲:其中,矩阵E的第i行第j表示基础控件点p′和p′。 现在,考虑到目标点I j由Tθ表示。 该网格S和原始特征图是表示为S′={s′}i=1,···,N,其中s′=[x′,y′]T我我我然后通过双线性采样器获得焦油。得到特征图F′。 虽然有一些转变[17]可以用于AFDM,薄板样条变换(TPS)[5]被认为是最强大的作为总共N个特征点的第i个点的x,y坐标,对于每个点s′,我们通过以下步骤在F中找到对应的采样位置si=[xi,yi]T根据Jaderberg等人的研究,[17 ]第10段。 我们使用TPS是因为它的柔韧性和弹性变形能力,′i,k2i,k2i,k(三)通过求解二维插值问题来求解平面:从一组任意控制点计算映射R2→R2[5]。此外,矩阵运算s′=[1,x′,y′,e′si=Tθ·s′,···,e′]T∈R(K+3)×1(4)(5)TPS中的网格生成和转换,其中di,k是s′和第k个之间的欧几里得距离我如果可以,则模块也可以反向传播梯度′由A 逆 预 测的 参 数 表示 K个 控 制 点 P=[p1 , ··· ,pK ]∈R2×K,其中pv=[xv,yv]T通过回归它们的x,y值被归一化为位于[-1,1]内网格生成器使用表示P中的控制点的参数来定义用于一组对应的控制点P ′=[p′,···,p′]的变换函数,称为基本控制点,代表F中的位置。由于基础控制点是固定的,P′是一个常数。变换由矩阵Tθ∈R2×(K+3)表示,其可以计算为:基地控制点我们迭代地修改S ′中的所有N个点,使用方程。(5)定义网格变换函数Tθ(·)并产生采样网格S:S=Tθ({s′}),i= 1, 2,···,N(6)我们得到表示F中的采样点的网格S={si}i=1,···,N。由A表示的网络包括预测2K归一化坐标值的最终全连接(fc)层。 用tanh(·)作用函数对它进行拟合,然后对值进行整形,形成矩阵P。应当注意,上述等式定义了defor。.Tθ=联系我们−1P′03×2(一)由AFDM执行的mation操作,使原始地图中的所有通道均匀变形在后面的部分中,我们将讨论分区策略,其中P′∈R(K+3)×(K+3)也是常数。是GIV ENF中的子映射被单独地馈送到其中以进行变形。签署人:1000万P′TEe=dlnd∆47714.3. 对抗性学习P′=P00 11×K(2)0 0P′对抗学习的传统方法[9]涉及训练一个模型来学习一个生成器G,4772′KSM从噪声分布P_noise(z)采样的矢量z输出图像G(z)。BIND将所生成的图像或来自分布P数据(x)的真实图像x作为输入,并识别它是真实的还是伪造的。使用交叉熵损失训练网络的目标函数定义为:计算第m个子图中的编码特征以生成θm=A(fm)。在没有AFDM的情况下(例如,在测试期间),输出子网络TA的F进一步通过TB和R。识别器R输出单词图像I的预测单词标签Lp。单词标签可以是单词级的,L=最小最大E[logD(x)]由一系列字符表示的注释,或PHOC la-xPARP数据(x)G D+Ez<$Pnoise(z)[log(1−D(G(z)] (7)在传统的GAN中,生成器G学习z从噪声分布Pnoise(z)到数据分布P data(x)除以 data x。在我们的框架中, G(即AFDM)学习F从未失真特征分布P undistorted(F)到失真特征空间Pdistorted(F′)的映射。[40]根据系统的类型。让我们假设后者的地面真值标签是Lg。因此,我们最初的单词提取损失L任务可以定义为:Ltask=Qword(Lp, Lg)(10)其中,Qword(·)表示计算预测Lp与地面实况标签之间的损失的通用函数Lg,这是[31]中使用的CTC损失或[40]中描述的L=minmaxEF′P扭曲(F′)[logD(F)]在训练过程中,我们有两个不同的网络:G D+EFPundistorted(F)[log(1−D(G(F)](八)在我们的框架中,我们以对抗的方式交替地训练AFDMA(类似于G)和任务网络T(类似于D最初,A产生随机变形,但随着对抗学习的进展,它学习策略,以扭曲的中间特征空间,使它变得难以识别(点)的T。换句话说,生成器框架A试图使特征图变形(参见图3)此外,我们试图训练的判别网络,即。在一个子系统中的任务网络T,使用标记的样本,同时鼓励它准确地检索手写输入,尽管其中存在变形。现在,我们不是均匀地变形F(具有高度H,宽度W和C通道),而是以k种不同的方式修改k个子映射(k是一个小比通道的数量C),从而增加了任务的复杂性,并防止A学习琐碎的扭曲策略。F被划分为子映射f1到fk,每个子映射具有C个通道。第m个子-网络T和本地化网络A。让我们分别考虑它们的参数θT和θA在一个-训练过程中的数据流为:I→TA(·)→AFDM (·)→TB (·)→R(·)→Lp,其中AFDM (·)表示包括A的参数预测、网格生成和采样操作在内的完整变形操作;最后两个不涉及学习任何参数。A需要通过θA学习特征变形策略,应该失败。因此,我们通过最大化损失函数L任务来获得θA。另一方面,对θT进行优化,使任务损失L最小.θA= arg maxLtask(11)θAθT= arg minLtask(12)θT结果,如果由AFDM引起的变形使得图像I难以识别,则任务网络T得到高损失并且A得到低损失,否则如果修改的特征很容易识别,A反而遭受了很大的损失映射fm∈RCK 然后输入A,5. 实验详情θm,并计算网格变换函数Tθm(·)。的后者,如等式11所示1到6,变换给定的格网',以获得属于子地图fm的点的采样点Sm的对应网格。因此,变形的特征图F′被计算为:5.1. 数据集我们使用两个非常流行的拉丁字母数据集,即IAM(1,15,320字)和RIMES(66,982字)数据集,用于手写文档图像分析F′=(f S1)S2)(9)社区广泛。IAM[24]是HWR和HWS可用的最大的拉丁字母数据集之一,允许-其中,λ表示信道级级联操作,λ表示与[17]中描述的变换相对应的双线性采样机制述子映射让我们来证明我们的特征扭曲策略在不同大小的训练集上的有效性(见图2)。为了证明我们模型因此,fm被采样以获得(fm<$Sm)∈RCk和在低资源脚本中(就培训的可用性连接以得到与原始特征图F具有相同尺寸的F ′。AFDM因此学习函数A(·)数据),我们选择两个印度脚本,即孟加拉语和德-vanagari(印地语),作为例子来证明的好处高×宽×高×宽×14773IAM RIMES IndicBAN IndicDEV WER CER WERCER WER CER手写单词识别(无约束)B1 23.14 12.02 16.04 11.17 26.31 14.67 25.35 13.69B2 25.17 13.08 24.37 12.14B3 21.58 11.45 14.61 10.37 20.28 11.13 19.07 10.34B4 19.979.8112.427.6117.679.1916.46 8.34[32]第32话9.6912.327.6520.15 10.52 19.19 9.72ASTER[33]17.018.1110.526.6218.319.2217.22 8.13MORAN[23]17.958.9611.277.0519.629.8318.56 9.01我们的17.198.4110.476.4415.477.1214.36.14手写单词识别(词典)B1 15.98 10.05 12.519.6416.67 10.21 15.67 9.78B2 15.879.4714.69 8.41B3 12.178.4510.137.1711.377.6410.24 6.76B4 10.247.217.595.569.695.418.67 4.67美国[32]7.337.485.2511.137.5510.20 6.68ASTER[33]8.735.836.173.129.445.428.614.59MORAN[23]9.196.526.833.8310.526.619.685.46我们的8.875.946.313.177.494.376.59三点九七手写单词识别QBsQBEQBsQBEQBsQBEQBsQbEB183.12 72.67 86.31 77.69 80.37 76.91 81.67 77.61B2 81.04 77.67 82.64 78.64B3 85.173.67 87.69 79.67 84.67 84.73 85.61 86.19B4 86.94 75.64 90.34 80.67 87.67 85.49 88.17 86.49TPP-92.97 84.8094.31 85.8989.21 86.6989.97 87.82PHOCNet[42]我们的88.69 77.94 92.94 82.67 89.3486.4790.13 87.67表1:(a)手写单词识别(HWR)和(b)手写单词识别(HWS)的基线性能以及不同数据集上的最新方法对抗性训练。印地语和孟加拉语是全球第五和第六大最受欢迎的语言[27],分别使用梵文和孟加拉语。由于修饰语[30]和复杂的草书形状[30]的存在,这两种文字都比拉丁文复杂得多,并且与拉丁文相比稀疏[12,24]。据我们所知,只有一个公开可用的数据集[3,30]分别包含孟加拉语和梵文的17,091和16,128个单词 。 我 们 将 这 两 个 数 据 集 分 别 表 示 为 IndBAN(BANgla)和IndDEV(DEVanagari)。对于IAM,IndBAN和IndDEV,我们使用相同的分区进行与数据集一起提供的训练,验证和测试。对于RIMES数据集,我们遵循ICDAR 2011竞赛发布的分区。5.2. 实现细节在实验过程中,我们注意到,首先对任务网络进行一定数量的迭代预训练是很重要的,这样它就可以学习一个基本模型,从而在一定程度上理解不同字符的形状。如果我们开始一起训练这两个网络,我们注意到AFDM经常压倒任务网络,它无法学习有意义的表示。因此,我们首先训练任务网-在没有AFDM的情况下进行10K次迭代。此后,我们将后者包括在内,以实现其对中间卷积特征图进行变形的对抗目标。我们使用500次连续迭代来训练参数local-单独的化网络A用于更好的初始化。据观察,由于TPS具有很大的灵活性,发现了一些特别困难的变形任务网络未能推广以后。因此,我们使用一个简单的技巧来解决这个稳定性问题:AFDM只对一批数据样本中的一半样本进行随机变形,其余样本保持不变以备检索;这大大改善了稳定性问题。对于本地化网络,我们使用四个卷积层,步长为2,内核为大小为3×3,然后是2个全连接层,最后使用双曲正切激活来预测18个参数值我们继续子地图分区的数量(k)为4。我们使用的批处理大小为32。在较早的初始化之后,任务网络和AFDM两者交替地被训练总共10万次 我们对任务网络和AFDM都使用Adam优化器,但是,我们将任务网络的学习率保持在10−4,AFDM的本地化网络的学习率保持在10−3。PHOCNet由13个卷积层组成,随后是SPP层和3个全连接层,最后使用S形激活预测PHOC标签。我们将这些卷积层命名为:conv1 1,conv1 2,conv2 1,conv22,conv3 1,conv3 2,conv3 3,conv3 4、conv3 5、conv3 6、conv4 1、conv4 2和conv4 3。在 conv1 2和conv2 2之后有两个池化层(2×2)。每个卷积层都有一个大小为3×3的内核,对于conv1 X,滤波器的数量分别为64、128、256和512,分别为conv2 X、conv3 X、conv4 X。另一方面,我们的CRNN框架由8个conv层组成,后面是一个“映射到序列”和一个2层BLSTM单元。其架构为:conv1、conv2 、 conv3 1 、 conv3 2 、 conv4 1 、 conv4 2 、conv5 1、conv5 2、conv6。 前7层具有3×3内核,但最后一层具有2×2内核。在conv1X、conv2 X中有64、128和256个过滤器,conv 3 X和512从conv 4 1到conv 6过滤;池层在conv1、conv 2、conv 3 2、conv 4 2和conv 5 2之后。前两个 池层的 池化窗口 为2×2,其 余的池 化窗口为1×2。在实验分析的基础上,我们在对流层后引入了AFDM在PHOCNet中,以及在CRNN中的conv4 1层之后。应注意,输入被调整大小为高度64,保持纵横比相同。更多分析见5.5节。5.3. 基线方法据我们所知,目前还没有针对HWS和HWR的对抗性数据增强策略的工作。基于不同流行的数据增强和迁移学习策略,我们定义了几个基线来证明AFDM的有效性。• B1:在此基线中,我们执行不同的图像级别4774图2:(a)HWR(无约束)的字错误率(WER)和(b)HWS中QbS的平均平均精度(mAP),对于标准测试集上的不同数量的训练样本,使用IAM数据集上的不同数据增强策略。(c)以及(d)表示使用不同子图划分方案的性能;设置在5.2节中描述。层conv3 1 conv3 2 conv3 3 conv3 4 conv3 5 conv3 6 conv4 1 conv4 2 conv4 3非洲民主运动(粮食计划署)85.29 85.20 85.97 86.94 87.88 88.1988.6987.81 87.77AFDM(仿射)84.13 84.12 84.53 85.01 85.33 85.8186.9486.02 85.24表2:在PHOCNet中的特定图层后使用AFDM进行字符串查询的平均精度(mAP)层conv3 1 conv3 2 conv4 1conv4 2conv5 1conv5 1A-TPS17.9817.4117.1917.2520.3220.41A-仿射22.0120.1119.9720.0119.9920.21表3:在CRNN中的特定层之后使用AFDM的字错误率(WER)(无约束)。在[29]和[40]中提到的数据增强技术对手写单词图像进行增强,以增加训练集中的单词样本总数(10500K• B2:这里我们使用迁移学习策略来减轻低资源脚本中的数据不足问题我们使用大量拉丁语脚本中的数据训练HWR和HWS模型,然后我们固定CRNN(PHOCNet)网络的conv5 2(conv4 2)层的权重,并在来自印度语脚本的可用注释数据上微调其余层。• B3:这与我们基于对抗学习的框架相同,只是它使图像空间使用TPS机制(第4.2节)。AFDM的输入是原始训练图像。• B4:在这里,我们使用仿射变换[17]代替TPS,使用较少的参数(6个)来设计扭曲政策,自由度相对较小,图3:我们展示了三个示例的可视化(按列):原始图像(a)和未失真特征图的第一通道(b)以及失真特征图(c)。变形5.4. HWR和HWS上的性能在我们的实验中,我们使用字符错误率(CER)和单词错误率(WER)作为HWR的度量[4],而平均平均精度(mAP)度量[40]被认为是HWS。在IAM数据集的基于词典的识别的情况下,我们使用数据集中存在的所有唯一词,而我们使用ICDAR 2011 competi-tion中提供的词典用于RIMES数据集,并且原始数据集提供的词典用于IndBAN和IndDEV数据集。从表1中可以看出,我们使用TPS的对抗性特征增强方法显著优于B1,B1使用不同的图像级数据增强技术,如[29,31]所示。这意味着,只有图像级的“手工制作”的数据增强不能显着提高性能,即使我们通过可能的转换增加数据样本的数量。我们注意到,从B2中的预训练权重初始化权重有助于在合理的程度上提高HWR和HWS的性能,并显着加快训练过程。B3和B4都是对抗框架。从HWR和HWS的结果可以得出结论,对抗性数据增强在卷积网络的中间层引入时效果更好,而不是像B3中那样在图像空间中进行对抗性变形。此外,由于变形的灵活性更大,TPS在B4中的表现优于简单的仿射变换总体而言,IndBAN和IndDEV的对抗性数据增强带来的改善明显更高。此外,IndBAN和IndDEV数据集的性能优于其他两个数据集,尽管我们声称孟加拉语和梵文脚本的主要原因-4775这背后的原因是,IndBAN和IndDEV数据集在训练集和测试集中都有同一作者的相同单词的多个副本,以及更简单的单词(平均有4个字符),而IAM数据集在测试集中有更复杂的样本。在孟加拉语和梵文脚本的真实世界场景中的单词检索比在看不见的测试集中复杂得多此外,由于有限的训练数据以及大量的字符类[3,30],图像级数据增强无法在测试集中很好地推广模型,从而使HWR和HWS的性能都很差相比之下,与图像级数据增强相比,使用对抗学习的所提出的方法有助于显著的平均增益。我们还比较了最近的最先进的方法[33,42,23,32]与我们的。请注意,它是一个Meta框架;AFDM模块也可以并入[33,42,23,32]中。总的来说,我们 的结果与最近 流行的数据集( 如IAM 和RIMES)上的框架相比具有竞争力,并且在低资源脚本(例如,In-dicBAN和IndicDEV)。5.5. 消融研究我们全面研究了在IAM数据集上不同训练数据大小下不同增强技术所我们使用标准测试集进行评估,使用我们的训练集大小从10K到80K进行了8个实例的实验从图2中,很明显,所提出的方法在低数据状态下表现良好,在图像级增强上产生了合理的改进。值得注意的是,随着训练数据的增加,我们的模型相对于其他基线(不使用对抗增强)的改进会减少。我们还通过在PHOCNet和CRNN中ConvNet特征提取单元的不同位置包含AFDM来评估性能(如表2和3所示)。我们观察到,如果AFDM被插入在较浅的层之间,则模型发散,并且我们没有实现期望的结果。在任务网络的中间到更深的部分中观察到更好的性能以及改进的训练稳定性,所述任务网络对所提取的特征信息的更高级别的理解进行编码。性能在非常深的层中再次下降我们还通过使用标准设置的其余部分将原始特征图划分为1,2,4,8和16个子图来评估模型的性能。注意到4次分割提供了最佳结果(图2)。对抗vs. 非对抗性学习:在 与AFDM相比,AFDM是基于AFDM [17]并使用对抗性目标训练的,替代方案(非对抗性)可以是Shi等人的工作。[32]其中,根据[17]的原始哲学,序列识别网络[32]用于校正单词图像的空间方向,以使识别更[32]我们在……在CRNN和PHOCNet体系结构之前引入具有TPS的并行计算模块,并以端到端的方式训练具有任务丢失目标的完整体系结构(并行计算+任务网络)(等式10),保持任务网络的标准实验设置的其余部分相同。使用QBS的非对抗性管道的无约束WER为20.07%,QBS的mAP值为85.64%,分别落后于所提出的对抗性框架3.51%(WER)和3.05%(mAP)。接下来,我们使用Mor等人的框架将IAM数据集划分为难词和易词样本。[25]以CRNN作为基线识别器。我们认为前70%的单词图像作为简单的样本,30%作为硬样本的基础上的置信度得分。高分表示容易识别的图像没有太多变形,而分数较低的图像中包含大量变形。我们使用这些简单的样本训练该实验设置挑战模型学习不变性,该不变性可以概括训练过程中不存在的硬不可见单词样本据观察,虽然非对抗性管道提供了40.22%的无约束WER(71.31 mAP-QbS),但我们的对抗性框架实现了27.64%的WER(82.67 mAP-QbS),超过了非对抗性替代方案12.58%的WER(11.36 mAP-QbS)。尽管这两个管道的目标都是学习对手写数据中不同类型的变形不变的鲁棒由于手写的自由流动性质,不可能在训练数据集中包含所有可能的变化。因此,我们的对抗性框架被证明有助于学习一个鲁棒的模型,该模型可以很好地概括稀疏数据集中不存在的不可见变形。6. 结论我们研究了研究人员在低资源脚本中探索手写识别时经常面临的一个共同困难AFDM可以灵活地添加到单词定位和识别框架中,即使在低数据集也能让深度网络很好地泛化。与使用“手工”技术在图像空间中增强手写数据不同,使用TPS反向扭曲中间特征空间是一种可扩展的解决方案,可以克服在一些稀疏训练数据集中缺乏变化的问题。TPS与对抗性参数化策略结合的更高程度的灵活性在很大程度上结合了罕见的看不见的变化,击败了框架很容易过拟合的变形策略。4776引用[1] 乔恩·阿尔马兹、阿尔伯特·戈多、艾丽西亚·福恩和欧内斯特·V·阿尔韦尼。单词识别和嵌入式的attribute。IEEETransactionsonPatternAnalysisandMachineIntelligence,36(12):2552-2566,2014. 2[2] Antreas Antoniou,Amos Storkey,and Harrison Edwards.数 据 增 强 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1711.04340,2017。2[3] Ayan Kumar Bhunia , Partha Pratim Roy , AkashMohta,and Umapada.跨语言框架的词识别和发现的indic脚本。模式识别,79:12-31,2018。二、六、八[4] 这是一个蓝色的香水,我是罗拉杜,罗纳尔多·梅西纳扫描、出席并阅读:具有mdlstm注意力的端到端手写段落识别。在ICDAR,第1卷,第1050-1055页二、七[5] 弗雷德湖布克斯坦主要经纱:薄板样条与变形分解。IEEE Transactions on pattern analysis and machineintelligence,11(6):567-585,1989。4[6] 丹·塞雷斯·伊坎和尤利·梅尔。脱机手写体汉字分类的多列深度神经InIJCNN,pages 1-6,2015. 1[7] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。一、二[8] Hao Dong,Paarth Neekhara,Chao Wu,and Yike Guo.使用生成式对抗网络进行非监督图像到图像的翻译。arXiv预印本arXiv:1701.02676,2017。2[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第2672二、四[10] Al e xGr av es,SantiagoFer na´ ndez,FaustinoGomez,andJ ür genSchmidhube r. 连接主义时间分类:用递归神经网络标记未分割序列数据。在ICML,第369-376页,2006中。2[11] Al e xGr av es , MarcusLiwicki , SantiagoFern a'ndez ,Roman Bertolami,HorstBun k e,andJürgenSchmidhube r.一个用于无约束手写识别的非开放IEEE transactions onpattern analysis and machine intelligence,31(5):855-868,2009。2[12] 艾曼纽·格罗西奇和海卡尔·艾尔·阿布蒂2011法国手写识别大赛。载于ICDAR,第1459-1463页,2011年。6[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。参见ECCV,第346-361页,2014。3[14] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。2[15] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功