通过对抗性多任务学习进行E2E阿拉伯语在线手写识别的作家适应

128 浏览量更新于2023-12-09 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）373通过对抗性多任务学习进行E2E阿拉伯语在线手写识别的作家适应Fakhraddin Alwajiha，b，Eman Badra，c，Sherif Abdouaa埃及吉萨开罗大学信息技术系b也门伊卜，伊卜大学计算机科学和信息技术系c埃及吉萨Zewail科技创新城科技大学阿提奇莱因福奥文章历史记录：2021年9月20日收到2022年2月12日接受2022年3月1日上线保留字：多任务学习阿拉伯语在线手写识别联结主义时间分类卷积神经网络双向长短时记忆A B S T R A C T近年来，由于手持设备和具有手写界面的通信软件的快速技术进步，在线手写识别的重要性已经迅速增加。作为在线手写识别系统的一部分，深度学习端到端（E2E）模型提供了高识别率。然而，要达到更高的性能水平，需要为这些模型提供适应个人笔迹的适应技术。本研究提出了一个作家适应技术的阿拉伯语在线手写识别系统，采用对抗性多任务学习（MTL）。对抗训练和MTL修改了Writer Dependent（WD）模型的深层特征该方法的设计包含两个任务：标签分类（主要任务）和模型特征鉴别（次要任务）。我们的方法旨在联合优化两个子网。该技术针对基于E2E连接主义时间分类（CTC）的模型进行了测试，该模型是卷积神经网络（CNN）和双向长短期记忆（BiLSTM）的组合。针对两个大型数据集（Online-KHATT和CHAW）对所提出的模型进行了训练和评估。在监督自适应中，它实现了高达1.83%的绝对字符错误率（CER）和11.71%的绝对字错误率（WER）减少此外，监督自适应实现了高达0.84%的绝对CER和6.77%的绝对WER减少了微调模型。在无监督自适应中，所提出的方法实现了高达0.5%的绝对CER和1.74%的绝对（WER）减少WI的绝对WER减少我们的实验结果表明，我们提出的监督作家适应可以实现显着提高识别精度相比，基线模型：WI和微调模型。©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍*通讯作者：埃及吉萨开罗大学信息技术系电子邮件地址：f. grad.fci-cu.edu.eg（F.Alwajih），emostafa@zewail-city.edu.eg（E.巴德尔），s. fci-cu.edu.eg（S. Abdou）。开罗大学计算机和信息系负责同行审查。手写识别技术的重要性近年来已经快速增加，部分地由于硬件和软件两者的不断进步。大多数智能手机和平板电脑现在都配备了支持笔输入的界面。手持设备也变得越来越流行，学生和企业都负担得起。各种应用程序，如笔记，数学打字和绘图工具应用程序已经找到了一个不断增长的市场。大多数可视电话应用程序都增加了使用数字笔功能进行笔记和手写注释的选项。手写识别本质上涉及手写输入到数字文本的转录。根据《公约》的性质https://doi.org/10.1016/j.eij.2022.02.0071110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.comF. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373374输入，手写识别系统可以分为在线或离线系统。在在线手写识别系统中，通过使用数字笔或触笔来捕获输入输入格式是一个点序列基于捕获设备的类型的附加信息可以包括时间戳和压力。由于输入的时间性质，在线手写的识别可以流传输。另一方面，在离线手写系统中，输入是具有宽度和高度的图像的形式。离线输入的来源包括扫描的文档和从在线输入中提取的由于离线输入的性质此外，在预处理和特征提取阶段，对来自在线和离线手写的输入的处理是不同的。虽然在线手写通常被视为信号或时间序列，但离线手写被视为图像。在线手写识别的方法可以分为三个主要类别：分段和解码[18];基于原型的分类器[16，9]和序列建模[8]。序列建模是最常用的方法.许多技术已被用作序列建模的一部分，包括隐藏马尔可夫模型（HNN）[23]、具有HNN的混合神经网络（NN）（NN/HNN）[6]、具有HNN的混合深度神经网络（ DNN ）（ DNN/HNN ） [19] 和端到端（ E2 E ）DNN[24，8]。传统的序列建模方法，包括HISTORY和混合方法，通常包括需要单独训练的多个组件，导致次优。深度学习E2E系统允许以E2E方式同时训练模型的所有组件。不同架构设计的各种深度学习模型先前已用于在线手写识别任务，包括基于CTC和序列到序列（seq2seq）模型。基于CTC的系统[24]已被用于识别在线手写输入帧并将其映射为字母、子单元或单词。在这项研究中，CTC为基础的模型中使用的设计所提出的方法。基于CTC的模型可以与语言模型（LM）合并，从而改进功能[8]。有关详细审查，请参阅[3，36，29]。E2E在线手写识别系统需要使用数千个手写样本的大型数据集进行训练。E2E系统已经显示出与通过传统系统获得的结果相当的结果[4，8]。然而，当测试WI模型时，一个不知名作家的笔迹退化归因于训练样本的分布与特定人的“看不见的”样本之间的不匹配。写作风格和写作手段的不同也可能导致这种不匹配.阿拉伯手写体传统上分为六种主要风格：Naskh，Thuluth，Nastaliq，Dewani，Reqaa和Kufi。图1展示了这六种传统阿拉伯手写体的风格。其中有些文体在写作中比其他文体更常用。此外，现代手写阿拉伯文字通常显示了一些学习trans-marts风格的元素，导致不可预测性。这种不可预测性给设计有效的阿拉伯手写识别系统增加了另一个挑战。减少训练数据和特定作者的不可见样本之间的不匹配的一种解决方案是将模型修改为WD模型。作者适应是一个从WI模型到WD模型的转换过程，它是在特定的作者的适应数据下进行的。作家改编的主要挑战是数据有限。具有大量参数的WI模型如果用有限的自适应数据进行自适应，则很容易过拟合。深度学习中的自适应与领域自适应、迁移学习和微调等技术密切相关。在联机手写识别系统中，作者自适应的方法很少。它们可以分为两类：基于模型的和基于特征转换的作家改编方法[26，28，20，2，7，16，34，35]。基于模型的自适应方法依赖于通过优化某个准则来更新模型参数。为此，已经使用了许多技术，包括微调、线性变换、正则化和子空间方法。另一方面，特征转换作者自适应方法通常依赖于特征空间，并且通常通过转换输入特征或使用辅助特征来起作用[32]。这些方法的目的是使书写者笔迹的变化标准化。在线手写模型的书写者适应可以在两种不同的设置中使用：监督学习设置和无监督学习设置。在监督模式中，已知自适应样本被标记，而在无监督模型中，自适应样本最初未被标记，并且在应用自适应之前通过WI模型实现标记。在本文中，我们提出了一种新的作家模型为基础的自适应方法，利用CTC为基础的模型，以实现最佳的阿拉伯语在线手写识别。我们的方法采用对抗性多任务学习（MTL）。对抗MTL技术减轻了由WI模型和WD模型生成的特征分布之间的深度特征失配。在对抗学习中，涉及两个任务：标签分类的主要任务和深度特征判别的次要任务。我们使用两个数据集CHAW和Online-KAHTT数据集对所提出的方法进行了评估。所提出的方法都consistently和显着表现出优越的性能相比，WI和微调WI模型具有相同的数据的目标作家。（1）提出了一种新的基于CTC的自适应在线手写识别方法，该方法采用对抗性多任务学习和少量的自适应样本。(2)我们开发了一个基于CTC的模型，利用CNN和BiLSTM进行阿拉伯语在线手写识别，其中我们利用两个大型数据集进行训练。（3）我们使用来自两个数据集的作者样本对所提出的方法进行了评估，并将其与微调方法进行了基准测试。本文的组织如下：第2节探讨了以前的工作，在作家适应在线手写识别。在第3节中，我们解释了我们提出的方法的架构第4节详细介绍了结果，并提供了一个比较的建议的架构对原始WI与监督和无监督的适应设置。最后，第5节详细介绍了我们的结论和对未来可能工作的建议。2. 相关工作基于模型的自适应涉及修改和改变模型参数或向模型添加新参数以将预训练模型调整到目标写入器，其中仅有限的自适应数据属于特定写入器。已经提出了几种模型自适应的方法。在[26]中，Matic等人设计了一个基于预先训练的时延神经网络（TDNN）字符识别系统的依赖于作者的系统。通过改变TDNN的最后一层进行自适应，TDNN充当最佳超平面分类器。这最后一层被重新训练成一种新的写作风格。在[28]中，作者将输出自适应模块（OAM）置于WI神经网络之上。OAM是一种径向基函数（RBF）网络，它将WI模块的输出映射到写入器自适应输出。F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373375Fig. 1. 传统的阿拉伯书写风格。正则化的使用也可以帮助作家适应。在[20]中，研究人员提出了一种使用有偏正则化的支持向量机（SVM）的自适应方法。通过最小化适应数据上的调整后的正则化风险函数来实现适应。有偏正则化提供了WI和WD（通用和个性化信息）之间的权衡。由于Hessel在在线手写识别方面取得了显著的成果，一些研究利用了自动语音识别（ASR）中的说话人自适应方法[2]。在[7]中，针对基于障碍的识别系统，使用最大似然线性回归（MLLR）增强了作者自适应。在这种方法中，MLLR“试图”找到最佳的转换矩阵，将最大限度地提高适应数据的可能性。然后，可以将变换矩阵应用于受阻状态观测密度，以将WI模型调整到新写入器另一方面，特征转换自适应依赖于应用转换来减少个体写入者的数据之间的变化变换可以直接应用于特征向量或原始手写输入，也可以提取深度独立特征（作者代码），随后将这些特征合并到识别阶段。Huang等人。[16]利用线性判别分析（LDA）对基于原型的方法进行作者自适应。他们提出了一种用于作家适应的 Incre-mental LDA（ILDA）算法。在他们的方法中，ILDA算法被设计为调整LDA变换矩阵和原型。Zhang et al.[37]提出了学习风格迁移映射（STM）范式，为每个作家进行计算。在STM中，源点集，定义为作家特定的数据，被映射和转换到目标点集，定义为WI分类器的相应参数。这是通过求解一个凸二次规划问题的封闭形式的解决方案。STM通过将不同作者的写作投射到一个无风格的空间上来减少他们之间的风格差异。因此，WI分类器能够实现更高的识别率。STM可以被描述为以监督、无监督或半监督方式应用的特征变换。作为STM的扩展，Yang等人。[34]提出用神经网络分类器的集成框架来补充该范式。在适应中，他们在WI分类器中添加了一层。更新适应层权重，并且WI模型权重保持固定。作者证明，该模型优于其他传统的STM方法，包括学习矢量量化（LVQ）和修正的二次判别函数（MQDF）。Yang等人[35]提出了四种类型的变换，他们专门为CNN层自适应设计。他们提出这种适应可以在模型的多个层上深入执行，包括CNN和全连接层，而不是只在顶层上执行。作者将他们的方法称为深度传输映射（DTM），完全以非监督的方式运行。自适应是通过从不同的抽象层次捕获额外的信息来实现的。在自适应过程中，自适应层充当线性变换。深度学习方法也被用于特征变换自适应。在[9]中，研究人员使用深度学习功能来执行在线中文手写识别的作家适应。在这种方法中，DNN和CNN被用来提取这些特征（称为串联）。然后将提取的特征馈送到基于原型的分类器中。深度学习特征的线性变换用于执行自适应。上述用于在线手写识别系统的书写者自适应方法的设计者主要利用传统技术，例如HPLC-SVM、TDNN和原型分类器。尽管这些方法中有一小部分确实将深度学习纳入了其特征表示中，但它们的创建者都没有所涉语文主要是拉丁文或中文。E2E在线手写系统最近提供了显着的识别率[8]，并已成为该领域的主导在线手写系统。E2E系统依赖于深度学习神经网络，如BiLSTM和CNN。这些系统中的大多数CTC允许对seq2seq问题进行培训。已经对E2E ASR[22，36，27]和光学字符识别（OCR）系统[33，17]的领域进行了广泛的研究，这些领域与在线手写识别密切相关。在[22]中，他们使用基于E2 E ASR CTC的模型研究了两个说话者自适应方法，即Kullback-Leibler发散（KLD）和MTL自适应。基于对抗的自适应方法主要从域自适应领域引入[10，11]。据我们所知，我们提出的模型是第一个E2E在线手写识别模型，检查作家适应阿拉伯语在线手写。在这项工作中，我们引入了一种正则化技术作为基于模型的作家适应在线手写识别任务使用对抗学习。3. 基于端到端CTC模型在这项工作中，我们提出了一种新的基于模型的作家适应方法，利用基于CTC的模型和对抗MTL。在对抗学习中，定义了标签分类的主要任务和深度特征区分的次要任务。WDF. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373376ð ÞYð Þð Þð j¼ðÞXð Þ ð Þ通过克隆WI来创建和初始化网络，然后将其划分为特征提取和标签分类两个子网络。在次要任务中，鉴别子网络与主要任务的标签分类子网络并行地附接在特征提取子网络的顶部。这两个任务联合优化，在一个极大极小的方式与多任务学习，其中特征提取层之间共享的任务。极大极小博弈的目标是最小化标签分类损失，同时联合最大化特征区分损失。在这个游戏结束时，正则化的WD模型应该达到比WI模型更高的识别率。WI在自适应过程中保持固定，并在测试过程中与区分子网络一起丢弃。在下面的部分中，我们描述了这项工作中使用的基于CTC的模型，以及生成对抗网络（GAN）和域自适应神经网络（DANN）。然后，我们描述了作家对抗训练在线手写- ING作家适应。3.1. 基于CTC的在线手写识别系统我们使用CNN，BiLSTM和全连接层的组合来构建我们的模型架构，如图2所示。在训练过程中，CTC损失被用作目标函数[14，24]，用于优化标签序列的预测典型地，手写识别的输出序列的长度小于手写输入的长度。在CTC中，引入了一个额外的空白标签e，以确保输出的长度保持不变，并允许输出中的重复标签。CTC目标函数LCTC被定义为正确标签的负对数条件概率的总和，如等式（1）所示。1下面。在此求和中，X¼x1;x2;：：;xT，其中X是长度为T的手写输入序列;Y 1/4l1;l2;. Lis表示长度为L的标签序列;权重，p表示CTC单个路径，并且B-1L表示从原始L个标签的序列生成的所有可能的CTC路径LCTC1/4-lnPH2OYjXCTC1/4-lnP H2OP j X CTC 1/4-lnP H2O Y jXCTC 1/4-lnP H2OPjXp2B-1 LCTC假设输出单元是条件独立的。因此，PHpX可以表示为来自每个时间步长t的后验的乘积：不PHpj XPHptjxt 2t1/2其中pt是时间t时的输出单位;xt是时间t时的输入手写体。使用CNN-BiLSTM深度网络（编码器）计算每个时间步的标签的后验概率。编码器输出henc henc1;：：;henc T被视为对数，并被传递到softmax层以计算标签l上的概率分布。然后，通过最大化方程H来估计模型参数H梯度下降中所需的梯度可以使用前向-后向算法[15]计算。为了找到给定手写输入的最可能的标签序列，使用贪婪解码[14]。贪婪解码包括两个步骤。第一步是为每个时间步连接最可能的标签。第二步是删除重复的标签和所有空白。3.2. 生成对抗网络（GANs）GAN是一种神经网络架构，允许深度学习模型学习和捕获训练数据分布，允许从学习的分布中生成新的数据实例[12]。通常，GAN由两个模型组成：如图3所示，该分类器是一个二元分类器，其功能是区分真实实例和生成器生成的假实例。另一方面，生成器是GAN的一部分，它生成与训练数据分布相同的假实例。四、假设x是表示输入数据的样本实例，则Dx是最小值。D x是一个二元分类器，它从训练数据中产生一个概率，其中x是一个真实实例。Dx应该输出相对于真实实例的高概率和相对于合成实例的低概率。类似地，假设z是从高斯分布采样的特征向量，则G z是将z变换到数据空间的生成器。G的主要目的是通过捕获训练数据分布（p数据）从估计分布（pg）根据[12]，G和D进行极大极小博弈。G试图最小化D将其合成输出分类的概率图二、E2E系统的体系结构用于训练阿拉伯语在线手写识别。所提出的基于CTC的模型由CNN层组成，BiLSTM层和全连接层。图3. 生成对抗网络（Generative Adversarial NetworksF. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373377ð-ð ð ÞÞÞð Þ ¼ ð Þ ð ÞyFXLh;h 1/4“FD dFX'F12不12LyFyNsyWiFWiWiFypHWD;HWDpHWD;HWDptjxt13XF见图4。DANN的总体结构由三个主要的子网络组成：特征提取子网络、标签分类子网络和领域分类子网络。该图改编自[11]。放置为假实例（日志1D G x），而D试图最大化正确分类合成和现实h^f;h^yargminEhf;hy;h^d7hf;hy样本（logD×100）。根据[12]，GAN损失函数可以^表示如下：V D GlogD xhd拉赫鲁德GD;Þ 1/4Ex~p数据[1/2 E x ~ p数据][Ez~pzzl/logg1-DGz]ð3Þ应用随机梯度下降或其变体之一，上述DANN目标产生以下更新规则：从理论上讲，这个最小最大竞争的最优解-h¼h-a。@Ly-k@Ld9当发电机的估计分布G等于训练数据的分布，而神经网络无法区分真实和虚假的输入。在实践中，GANf f@hf@Ly@hf到目前为止，模型还没有经过训练hyhy-a@hy103.3. 领域自适应神经网络DANN是深度域自适应网络，主要依赖于hd¼hda-k@Ld@hdð11Þ表示学习（RL）技术，其中在学习过程中考虑域不变性和判别属性[11]。DANN的目标是学习分类器I，它可以分解为两个部分，其中Gf是表示底层特征的特征提取器，Gy是预测目标标签的标签分类器在训练和测试期间使用Gf和Gy，并通过最小化以下等式进行优化：作为NN中的典型训练阶段，通过使用标准反向传播相对于参数区分损失来计算梯度。在DANN中，作者在[11]中提出了GRL向后传球3.4. 使用MTL进行对抗训练的作家适应为了执行写入器自适应任务，我们从一系列特征X ¼ x; x;. ; x，目标标签Y; y;. ; y和a1Lh;h'[dw]x;y= 2Ds此外，DANN架构提出了一个域分类器Gd，它在特征表示Gf之后分支，以区分目标域和源域。Gd在训练阶段使用，训练结束后投掷。它通过最大化以下函数与Gf和Gy训练的WI模型HWI。如图2所示，我们将WI分成两个子网络G f和G y . GF 作为一个特征提取器，映射-ping每个输入向量到它的表示。GWI子网络作为一个分类器来预测给定GWI表示的类的后验概率。然后，我们通过复制具有相同架构的WI模型来构建WD模型。因此，我们具有从HWI初始化的GWD1/4GWD：GWD。GWD架构是1Ns x2Ds通过最小化以下CTC损失来5、目标：1ðNt x2DtLWDWDlog0@Xp WDWD px1A12总训练损失可表示如下：Ehf;hy;hdLyhf;hy-kLdhf;hd6哪里hf;hy .的参数Ld和 Ly是权衡KCTCH.F.;Hy-YFyp2B-1BRLH.F.;Hy吉吉Þy和hd通过优化以下等式获得：t1/2þ不F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373378FFFFFF不Fy@hdFF不yFFyFy-kLZH;H;H15FyFy一个重要的目标是为了达到这个目标，一个额外的二进制类-引入了Gd算子。Gd接受来自GWD和GWI的输入。一个.由于CTC在主要任务中处理将输入序列映射到输出序列，因此我们向TNN网络添加了最大和平均池化层。这些层将可变长度的隐藏向量聚合成两个固定的隐藏向量，下一个致密层。然后进行GW D和Gd的对抗训练在该训练期间，L_disc相对于h_d被最小化，并且L_disc相对于h_WD被最大化。这种极大极小的客观竞争提高GWD产生具有更接近于由GWI产生的特征分布的分布的特征的能力，并且将提高Gd的可重构能力，使其能够更好地以区分由GWI生成的特征与由GWD生成的特征。4. 实验和结果我们进行了阿拉伯语在线手写识别任务的作家适应我们利用两个大型数据集来训练和测试我们的端到端基于CTC的模型。对于适应任务，从测试集中选择个体作家样本f f最终，极大极小竞争将收敛到这样的点，即GWD产生高度复杂的特征，而Gd无法区分这些特征是由GWD还是GWI针对同一样本产生的。为了实现融合，WD4.1. 数据集我们使用两个著名的阿拉伯语在线手写数据集训练和验证了WI和WD模型; CHAW[19]模型将被有效地正则化，并且将具有相对于目标写入者数据进行概括的优秀能力，而不会与WI模型偏离太多。通过最大化标准交叉熵损失来训练Gd，如下所示：LdiscHWD;HWI;Hd 1/4X'G d G W D x t; H W D ; Hd[25]第25话：CHAW包括从1250名作家收集的数据，由开罗大学提出，而Online-KHATT包括从623名作家收集的数据，由法赫德国王大学提出;两个数据集共有1873名作家。作家的性别、国籍、出生地、年龄、用手习惯和教育水平这两个数据集都包含-f fTy ft1/2不ð14Þ保持自然的写作与不受限制的写作风格。这种变化证明了数据集的可靠性。两个测试集1X数据集由240名作家组成。表1比较并总结了将两个数据集合并。在这种情况下，WD和Gd模型通过对抗MTL训练来联合训练。在MTL设置中，有标签分类的主要任务和特征区分的次要任务。特征判别函数，用于预测特征由GWD或GWI生产。主要任务和次要任务4.2. 独立于编写器的模型设置我们使用基于CTC的模型，CNN和BiLSTM神经网络作为阿拉伯语在线识别系统的WI模型，f f使用以下目标函数进行逆向优化：LtotalC3HWD;HWD;Hd=LCTCC3HWD;HWDWD WI磁盘f fdH^WD;H^WD¼argminLtotalHWD;HWD;H^d最小16mmH^d¼argminLtotalH^WD;H^WD;Hd17我们的实验我们为[24，23，4]中描述的每个点选择了20个手写特征作为输入特征。我们的设计包括两个CNN层，然后是4个BiLSTM层，每个层有80个单元。最后，在输出层总共有160个单元的地方添加了两个完全连接的层，这是由于阿拉伯文字的性质所需要的。阿拉伯字母表由28个字母组成，根据它们在单词中的位置而不同。我们将每个字母扩展为四个不同依赖字母（孤立，开始，中间和结束）。这种扩张f y在输出层中产生了160个类在解码中，我们利用其中k是控制以下之间的权衡的超参数：在优化过程中，LCTC和Ldisc，H^WD，H^WD和H^d是参数。最简单的贪婪CTC解码器，以选择最高概率的字符分布。在培训阶段（增加f y需要优化的参数HWI用于生成特征，并在训练过程中与HWI一起设置为固定的。此外，本发明还提供了一种方法，H^WD;H^WD;H^d 参数在培训期间通过后台更新-网络鲁棒性），dropout意味着丢弃随机神经元[30]。我们在我们的WI模型中使用了辍学率为0.3，所有层。批量归一化（BN）是另一种用于加快神经网络的收敛速度，f y使用梯度下降的传播算法，表示如下：hWD←hWD-a。@LCTC-k@L圆盘！ð 18ÞFF网络推广[5]。在我们的模型中，BN层被放置在每个CNN层之后，以提高训练过程中的速度，并在测试过程中获得更好的识别精度。WI接受过培训f fWD WD@hWD@LCTC@hWD使用Adam Optimizer进行CTC损失[21]。 TensorFlow 2.2[1]用于建造，训练和测试所有模型hy←hy-a@hWDhd¼hda-k@L盘ð19Þð20Þ4.3. 编写器适应模型设置对于我们的writer自适应模型，我们使用了3.4节中描述的writer自适应方法。WI训练的模型其中a是学习率。GRL允许对抗学习在反向传播阶段。训练完成后，丢弃二级任务网络Gd和固定WI网络。我们保留经过调整的主要任务网络以供测试。虽然主要任务的架构是序列到序列，但是次要任务模型架构是序列到序列。yt1/2F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373379为了创建相同的架构并初始化WD模型的权重，可以使用第4.2节中描述的方法。CNN、BiLSTM和密集层构成了特征提取器子网络。最后一个密集层构成标签分类器子网络，如图5所示。在自适应过程中使用WI特征提取器子网络，以从F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373380表1CHAW和Online-KATHH数据集之间的比较。数据集CHAW在线-KHATT列车组测试集列车组测试集许多作家1146104623136样本数句子字数180k–12k–12k69746974（线）5654715331533（线）12100词汇量17800500194375887适应样本。然而，WI特征提取器子网络权重在优化过程中保持固定。我们还将BiLSTM模型（子网络）定义为两个BiLSTM层，每个层有64个单元，然后是平均和最大池化层。添加了一个带有sigmoid激活的密集输出层。我们将GRL层附加到了TCP网络的前端，如图6所示。将该网络设置为接收来自WI特征提取器子网络和WD特征提取器子网络的输入，并尝试区分这些输出。由于BiLSTM模型的结构遵循一个架构的序列，因此我们采用了一个池化层，以便将WI和WD特征提取器子网络中的BiLSTM层的输出序列聚合为固定向量，然后将其传递到密集输出层。在训练WI模型中使用的dropout也在适应训练期间使用。BN层权重在适应训练期间保持冻结。我们采用早期停止正则化，以防止过拟合的适应模型。对于有监督的对抗性作家适应，我们使用数据集中手写样本提供的标签，而在无监督的对抗性作家适应期间，我们使用WI来标记适应样本。我们从每个数据集中选择两个作者来分配和挑选最佳的超参数进行适应训练进行随机搜索以找到最佳超级参数（批量大小、学习率、辍学率和k）。然后，所有作家都使用了这项任务的结果4.4. 评价为了评估我们的方法，我们使用了标准度量字符错误率（CER）和单词错误率（WER）。我们使用了来自Online-KHATT和CHAW数据集（参见第4.1节）的相同手写样本，这些样本用于训练基线模型。适应过程中使用的样本未用于WI模型的训练。为了进行评估，从两个数据集的测试集中选择84名书写者的笔迹;每个数据集42名书写者。对于每个作者，我们将他/她的样本分为训练集和测试集。从CHAW数据集中，我们选择了40个样本（单词）用于训练，80个样本用于测试（将用于所有实验）。在线KHATT数据集由基于数据的样本组成。从该数据集中，我们为每个作家选择了4个样本进行适应训练，平均10个样本进行测试。为了评估我们提出的自适应方法与其他方法的对比，我们在WI模型上运行了两个额外的实验，每个作家的微调模型与作家的训练数据微调。首先，我们对两个数据集运行WI。分别达到13.21%CER 、41.50%WER、16.84%CER和56.05%WER图五、左边是WI模型，分为特征提取器和标签分类器。右边是从训练的WI模型创建和初始化的WD模型;也分为特征提取器和标签分类器。F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373381F图第六章对抗性作家改编的架构左侧是要调整的Writer Dependent（WD）模型hWD在中间的是一个模型hd其在由第hWI与第hWD子网络生成的特征之间进行区分。最后，右侧是Writer Independent（WI）模型hWI，用于生成WIf f输入的特征。在自适应过程中，hWD模型和hd被反向优化，而hWIhWI子网络被丢弃f f y并且在训练之后丢弃hWI和hD分别针对CHAW和Online-KHATT数据集。类似地，我们将微调应用于WI模型作为第二基线。相对于CHAW和Online-KHATT数据集，所有作者的平均结果分别为12.77% CER、39.62% WER、15.30% CER和48.04% WER（表2）。4.5. 讨论适应过程中的一个重要发现涉及WER的减少水平。在适应过程中（表2和图7）和WI模型中，WER的减少均高于CER。这可能是由于WI模型具有识别大多数目标字符的能力，但是结果可能包含一些丢失的、拼写错误的或混乱的单词，这些单词导致更高的WER。监督适应有助于学习克服这些错误，并改善一些单词字符顺序。阿拉伯文字由28个主要字符组成，每个字符根据其在单词中的位置而不同。在我们基于CTC的模型中，我们将每个承租人扩展为4个不同的此外，我们还添加了额外的特殊阿拉伯字符，如将字符的识别扩展到包括其形状的多个位置有助于与仅使用基本字符相比，结果有所改善。在阿拉伯文字中，字符形状不仅根据单词中的位置而不同，而且还受到前后字母的影响。具有位置的字符承载上下文信息，这有助于解码阶段[4]。然而，适应培训数据不会涵盖每个作家的所有160个目标单元。所提出的自适应方法工作在特征表示上，并根据检测到的特征进行分布移位。因此，我们的模型能够satisfactorily概括，尽管可能没有覆盖特定作者的所有目标单元。图 7详细介绍了四个模型的性能比较，每个作家的数据从两个数据集的CER和WER。显然，与WI相比，监督和无监督自适应的使用不断提高了识别率，并为每个作者微调了模型。从大多数结果来看，所提出的方法对不同手写风格的鲁棒性两个例外涉及CHAW数据集的一个作者和Online-KHATT数据集的一个作者书写者用多行书写他们的书写样本，这限制了WI模型识别字母/单词的能力。在这两种情况下，适应都没有效果。微调比无监督自适应提供更好的结果。无监督自适应依赖于WI模型的质量表2WER（%）和CER（%）（越低越好）WI，微调，监督对抗适应和无监督对抗适应模型的性能。系统数据集CHAW在线-KHATTCER[%]WER[%]CER[%]WER[%]Avg. CER[%]Avg. WER[%]作家独立模式13.2141.5016.8456.0515.0248.77微调（k= 0）12.7739.6215.3048.0414.0343.83监督对抗适应（k= 3）11.9735.2214.4238.9013.2037.06无监督对抗适应（k= 3）12.9440.7416.1253.3614.5347.04F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373382图第七章每个作者在CHAW和Online-KHATT数据集的不同模型（WI，微调，监督对抗适应和无监督对抗适应模型）中实现CER和WERCHAW数据集的CER（b）CHAW数据集的WEROnline-KHATT数据集的CER（d）Online-KHATT数据集的WER其用于为未标记的自适应数据生成标记在标签可用的情况下，建议使用监督适应。在我们所有的实验中，我们对模型输出使用贪婪解码。它为每个时间步选择最可能的字符，如第3.1节所述。采用LM波束搜索解码器或Dictionary积分等解码技术可以提高识别率。在我们在这项研究中，我们主要集中在改进模型和使用贪婪解码器，这将能够突出改进。与LM的集成可以在生产系统中的写入器适应可行性之后完成。适应方法可以改善基线在线手写识别模型。此外，研究先进的序列模型，如seq2seq与注意力和自我注意力转换器，[31]可以在适应之前提高基线模型的结果，F. Alwajih，E. Badr和S. 阿卜杜埃及信息学杂志23（2022）373383数据可用性。然后，我们可以以与本工作相同的方式将对抗性多任务学习适应应用于这些模型。此外，数据增强用于增加训练数据。因此，为具有风格转移的作家生成合成数据[13]将增加作家的适应样本，从而提高整体性能。5. 结论在这篇文章中，我们提出了一种新的方法，基于模型的笔迹自适应CTC为基础的在线手写识别使用对抗多任务学习。在这项工作中，WD是从WI克隆和WI的权重初始化。然后将WD分成特征提取器和标签分类器。具有鉴别器模型的GRL层被放置在与标签分类器并行的特征提取器之后。对抗性多任务学习用于确保由WD生成的深度特征的分布与由固定WI生成的深度特征的分布相似。实验结果表明，所提出的监督作家适应不断提高适应模型的性能超过两个基线模型; WI和微调模型。在无监督的作家适应，实验结果表明，改善WI和退化相比，微调模型。我们的工作是第一个工作，解决作家适应在线手写识别E2E模型。它将有助于为阿拉伯语应用程序打开更多的大门，这些应用程序可用于不同的领域。此外，所提出的方法也可以应用于其他语言，如拉丁语。对抗性多任务学习自适应不限于基于CTC的模型，并且它可以以相同的方式应用于其他E2E模型，诸如注意力和自我注意力模型。在未来，我们将探索在基于注意力的模型上应用对抗性多任务学习此外，我们将探讨合成的适应训练数据对适应性能的影响竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用[1] Abadi M ， Agarwal A ， Barham P ， Brevdo E ， Chen Z ， Citro C ， et al.Tensorflow ： Large-scalemachinelearningonheterogeneousdistributedsystems.[2] Abdelaziz I，Abdou S，Al-Barhamtoshy H.大词汇量阿拉伯文联机手写识别系统。Pattern Anal Appl2016;19：1129-41.[3] Al-Helali BM，Mahmoud SA.阿拉伯语在线手写识别（aohr）：一项调查。ACM计算监视器50 .第50章[4] Alwajih F，Badr E，Abdou S，Fahmy A. Deeponkhatt：一个端到端的阿拉伯语在线手写识别系统。202 1年国际模式与人工智能杂志。[5] Amodei D，Ananthanarayanan S，Anubhai R，Bai J，Battenberg E，Case C，等.深度语音2：英语和普通话的端到端语音识别。机器学习国际会议，PMLR 2016：173-82。[6] Bengio Y ， LeCun Y ， Nohl C ， Burges C. Lerec ：一种用于在线手写识别的NN/HMM 混合算法。神经计算 1995;7 ： 1289-303. doi ： https ： //doi.org/10.1162/neco.1995.7.6.1289。[7] 作者：A，A.联机手写体识别的自适应技术比较.第六届国际文献分析与识别会议论文集，doi：https://doi.org/10.1109/ICDAR.2001.953837。[8]

下载后可阅读完整内容，剩余1页未读，立即下载