没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊35(2022)101215完整文章深度学习的BLSTM用于模拟Beta-Elliptic方法的[10]杨文,杨文.Qahtanib,Fahd S.阿尔哈里西湾,放大图片作者:Omar Almutiryc,Habib Dhahric,Adel M.阿利米a,daREGIM-Lab智能机器研究组,斯法克斯大学,斯法克斯国家工程学院,LR 11 ES 48,3038 Sfax,突尼斯bTaif大学计算机和信息技术学院计算机科学系,P.O.Box。11099,Taif 21944,沙特阿拉伯c沙特阿拉伯利雅得沙特国王大学应用计算机科学学院d南非约翰内斯堡,约翰内斯堡大学,工程与建筑环境学院,电气和电子工程科学系阿提奇莱因福奥文章历史记录:接收日期:2022年2022年5月8日修订2022年7月1日接受2022年7月28日在线提供保留字:在线手写体建模深度学习RNNBLSTMA B S T R A C Tβ-椭圆模型(BEM)已在多个应用中取得了巨大成功,例如手写识别和分析、手写识别、年龄对手部运动学的影响等。随着近年来深度学习技术的出现及其在多个领域的应用,需要用简单的多级深度学习递归神经网络(RNN)实现β-椭圆模型。在本文中,我们提出了一种新的在线手写轨迹建模,通过模拟β-椭圆的方法,以限制计算时间,并有一个端到端的描述系统,满足移动终端用户的需求。开发的模型部署了一个基于多级架构的深度学习递归神经网络(RNN),具有双向长短期记忆(BLSTM),模拟提取组成β-椭圆向量的动态和几何参数的过程这种架构包括预处理,segmenta-灰,并在其两个速度和几何轮廓的轨迹近似步骤,并跟踪只有神经计算序列。为了评估我们的模型,β-椭圆和BLSTM估计模型之间的相似度是通过MAE(平均绝对误差)和RMSE(均方根误差)度量来测量的在LMCA和ADAB数据集上的实验结果表明,本文提出的RNN模型对在线手写轨迹建模的有效性分别为:RMSE为3.75%、5.26%,MAE为1.69%、2.75%。©2022 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍手写机构通常被视为臂-手系统的末端执行器轨迹它同时代表了生物运动的结果和信息交流的图形符号的连接* 检查手写的基本人类天赋返回三个分析水平。第一级建立了其速度和轨迹的轨迹轮廓,以探索其动力学实体和几何实体之间的规律性和对应关系。然后,中级分析包括对其生物力学生成过程进行建模最后,高水平的分析包括上升到神经生理控制脉冲的水平,并描述参与轨迹生成的激活神经肌肉子系统通讯作者。电子邮件地址:yahia. regim.usf.tn(Y. Hamdi)。由Karabuk大学负责进行同行审查在文献中已经开发了许多模型,如Hollerbach的振荡模型,Gangadhar模型,对数正态模型,β-椭圆模型等。在我们的工作中,我们专注于β-椭圆模型,它结合了如何表示联机手写数据一直是一个研究课题。很久了由于技术的快速发展以及个人电脑、平板电脑和手机等设备的使用得到了加强,它经历了一个显着的进步。最近,深度学习的创新已经扫除了大多数特征工程工作,并在许多领域用端到端的学习表示代替它们,例如,用于语音的深度神经网络(DNN)[1]和自然语言处理[2,3],用于计算机视觉的卷积神经网络(CNN)[4]。随着使用深度学习技术的架构变化,训练方法也从显式的分离https://doi.org/10.1016/j.jestch.2022.1012152215-0986/©2022 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestchY. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012152使用RNN与连接器时间分类损失函数(CTC)[7]将分割转换为隐式分割[5,6]。此外,RNN在许多任务中产生了最先进的结果,包括手写序列和语音识别[8,9]。使用LSTM和BLSTM来生成手写序列似乎非常有效[10],作者强调了一种新的模型,该模型允许RNN将其理解限制在用于生成多个手写样本的第二注释序列看到深度学习技术的大量使用和β-椭圆模型在几个应用中的效率,用一个简单的深度神经网络来代替它会更有趣。本文的主要目标是证明BLSTM版本的RNN可以使用其内存进行在线手写轨迹建模。给定时间戳t处的笔尖轨迹序列(x,y),我们的模型以以下形式提取其轨迹的神经元表示:一系列β控制脉冲激励一组神经肌肉子系统和一系列椭圆弧目标。它取代了之前的β-椭圆模型(第4节),该模型首先使用极值速度点将墨水分割成n个笔划,然后计算每个笔划表示的动态和几何特征。特别地,该模型由堆叠的两个BLSTM网络组成。第一个致力于在线手写笔画分割,尽管第二个致力于β-椭圆特征估计。新模式减少了所需的定制量此外,它比β-椭圆模型更容易和更快,并且满足智能移动设备用于手写质量分析和识别的要求。我们工作的主要贡献如下:采用端到端的RNN架构对在线手写轨迹建模中广泛使用的β-椭圆模型进行仿真。 我们还详细描述了我们基于RNN的 BLSTM模型。将不同的预处理、分割和特征提取步骤集成到一个堆叠的BLSTM架构中。提供实验结果,量化我们提出的神经系统在准确性和等待时间方面的效率我们还提出了一个广泛的比较这两种模式。本文的其余部分组织如下。在第2节中,我们介绍了现有手写模型的最新发展。第3描述了RNN模型的概述第4节介绍了β-椭圆在第五节中,我们描述了所提出的神经元抽象模型。我们的近似模型的实验结果和评价概述在第6节。结论和今后的工作见第7节。2. 相关工作对手写体生成过程中在线捕获的运动和绘制的分析(ii)考虑到所涉及的器官(神经系统、手、手臂、肌肉、手指关节、腕关节等)的神经生理学特性,对手写运动进行建模以用于其合成或高级表示。. ). 在文献中,这些目标通过两种不同类型的手写建模方法来解决:第一种称为“自底向上”的方法对这些运动的运动学和几何学研究使它们能够向上滚动到产生它们的神经肌肉冲动[11第二种被称为它将由手臂-手系统产生的快速或组成的动作(如手写)返回到构图中生物运动程序(规划)起源于大脑,并通过相关的神经肌肉系统、运动记忆、运动学习、笔画复杂性和协同发音等传播。许多研究都是在在线手写建模主题的背景下进行的,例如:Hollerbach’s[13]已经通过由在垂直和水平方向上布置的两对弹簧形成的振荡机械结构来模拟肌肉的动作以及摩擦力对手的速度和轨迹的影响这两对弹簧在它们的中心钩在一起,形成一个代表手的质量。每一对由两个反作用相反的弹簧组成,模拟对手在该模型中,学习并存储在存储器中的写入动作生成程序对应于关于振荡动作的幅度和相位的数据计算模型:Morasso等人[17]提出了一种计算理论,该理论将笔迹描述为一系列运动基本段,其运动速度曲线可以通过不同幅度和持续时间的对称钟形曲线来近似。轨迹被划分为沿着所跟踪的轨迹的切线倾斜角的变化的局部最大值之后的笔划(或段)。Schomaker它使用了一个delta规则的变化,导致可疑的结果。实际上,网络的效率取决于其调整设置。尽管如此,所提出的工作克服了与手写模型相关的各个方面。因此,手写过程应该有四个基本步骤,包括手写的成型和链接,例如:模型配置:称为准备和规划,引擎编程。脚本启动:配置模型后,在正确的时间构建脚本输出信号。运行脚本的持续时间和测量取决于一些特性,这些特性是生成的冲程的数量或经过的时间的量、与空间目标位置的距离或目标力值。运动的终止定义了脚本。Kalveram模型[14]:使用基于傅立叶变换的模型来呈现中风数据。为了描述数学运算,Kalveram采用了“中央目标模式生成器”的比喻从这个模型中可以得出许多限制鉴于手写笔画像任何真实的运动序列一样具有有限的持续时间,模型的动力学必须具有起始和终止阶段振子的初始状态是通过它们之间精确的相位关系由傅里叶分解准备的它代表了大型振荡器网络中最具挑战性的问题这些问题在[8]中没有处理,因为[8]考虑了已经准备好的初始状态。此外,对于每一个中风,一个单独的网络必须进行训练。Gangadhar模型:Gangadhar et al.[19]提出了一种模型,该模型在振荡器的网络中提供规则的步伐该网络结构包括三层:输入层、振荡层和输出层。输入层中的每个节点仅描绘处于静止状态的笔划所选输入线必须具有高状态,并且在笔划的整个执行步骤期间保持在该状态。每个振荡层包含多个子层,其所有的神经元在环形拓扑下互连并且使用相同的振荡频率。输出层中的两个神经元描绘手写轨迹的水平和垂直速度。这个模型有很多局限性,Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012153ete所选拓扑的原始状态,以及难以理解输入网络的类型。[20]提出了一种称为简约振荡模型的振荡器模型的改进。该表示提供了笛卡尔坐标系(x,y)之间的完全独立性,并且允许减少用于生成真实轨迹迹线的参数的数量。对 数 正 态 模 型 : Plamondon[12] 引 入 了 一 个 基 于 “delta-lognormal协同效应”的模型肌肉协同运动被认为是一个高斯函数,随着时间的推移逐步演变所提出的模型产生钟形的速度曲线类似于那些容易的手的动作。他们确定了曲率和角速度之间的在相同的背景下,作者[2]将delta-对数正态扩展到矢量delta-对数正态版本,以弥补他们缺乏运动空间方面的信息。在该模型中,手写轨迹的生成被认为是矢量重叠的笔画随着时间的推移。对于每个有限行程,曲率半径被认为是近似常数,因此我们可以根据曲线速度、起始点处的切向倾角和时间t处的曲线(或切向)速度矢量的倾角来估计当前点处的切线方向相对于路径的倾角。此外,sigma-lognormal模型[21]演示了如何使行动计划(包括虚拟目标点(VTP)之间的一系列圆周弧)能够合成空间和时间轨迹方面。VTP被定义为通过对数正态分布定位的目标,但由于下一个时间重叠对数正态分布而不一定达到[22]。它们与学习过程和大脑如何编程运动有关。β-椭圆模型:β-椭圆模型[23]在其出现期间经历了几次发展它最初是从运动学Beta模型[20]推导出来的,产生了一个隐藏序列[h 1,h 2,. . ,hk]的时间步长。时间步t处的隐藏状态的激活被计算为当前输入xt和先前隐藏状态ht-1的函数f,如下:ht<$fxt;iht-1RNN架构的主要限制是由输入序列对隐藏层和输出层的影响所定义的,当它遍历循环网络连接时,输入序列会继续退化。这个缺点被称为消失梯度问题[39],这导致使用有限范围的数据信息。因此,这种类型的RNN不能长时间记忆更多的信息。3.1. 长短期记忆:LSTMLSTM是一种深度RNN模型,被认为可以解决一些约束,例如基于其内存单元的消失梯度问题。因此,LSTM隐藏层由一组称为记忆单元的递归节点组成(见图1)。每个单元包含一个或多个使用三个门(即输入门it、遗忘门ft和输出门ot)激活的单元,这三个门由三个等式(2)-(4)表示。it¼sigmWi xtUi h tbif t 1/4 sigm.Wf xtUfht-1bf3ot¼sigmWo xtUo h tbo这里W*和U*分别是输入到隐藏和状态到状态权重矩阵,b*是偏置参数。Ctanh几何轮廓的分析。因此,该模型结合了几何特征与速度分布,并满足速度,ct¼电子邮件f在文献[32]中提出的曲率/曲率定律。在该形式中,速度分布由与椭圆弧相关联的叠加β函数表示,该椭圆弧对手写轨迹的几何形状进行建模[25,26]。在文献中,β-椭圆模型对各个研究领域和项目的发展做出了贡献,例如手写运动生成[27],手写识别[28],作者识别[29],签名验证[30],年龄对手部运动运动学的影响[31],时序恢复[32],儿童笔迹质量评估[33]和签名隐写文档图像[34]等。此外,采用两个正弦振荡的手写速度生成由[35]提出。它遵循运动等效理论,认为模式是以楔形序列及其在字母中的相对位置存储这些被称为调制点,其中正弦调制参数被调制以生成必要的速度分布。根据角的位置和形状,相位,振幅和频率之间的关系的两个潜在的振荡被修改。3. RNN的背景RNN网络是一种强大的模型,可用于在不同领域生成动态序列,如手写文本[36],音乐[37],运动捕捉数据[38]等。给定输入序列[x 1,x 2,. . ,xk],其中xieRd,隐藏状态htottanhct7it和ft用于控制ct的更新(等式6),这又节省了长期存储器。是表示逐元素向量积的运算。tanh层(参见等式5)产生新的候选向量c_t,其被添加到小区状态c_t。由等式(7)计算,LSTM输出由ht表示。Fig. 1. 一个cell的LSTM内存块。(graves[10])。Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012154.拉克什þ¼c不Ht1H3.2. 双向长短时记忆BLSTM是双向RNN(BRNN)[40]和LSTM的混合。事实上,给定输入序列,BRNN可以访问模拟的过去和未来上下文,而RNN只从每个冲程中提取的动态特征被描述为:报告Dt=t1-t0,其表示β脉冲的持续时间,K,p,和Rp-tc,其表示由等式验证的β脉冲不对称性。十一岁使用过去的上下文。BRNN由两个隐藏层组成Rp tc¼tc-t0ð11Þ它们被联合连接第一层用于前向处理输入数据,第二层用于后向处理。这些对应的隐藏层连接到输出层,输出层控制输入序列在每个时间步的过去和未来序列上的比例,如等式2中定义8和等式9.第九条。-t1-t0如Eq.如下面的图12所示,在线手写轨迹的速度轮廓建模可以通过其连续分段线的叠加β信号来生成。图3中示出了在线阿拉伯语文本“”的速度分布生成的示例。(c)。ht wxhxtWh ht 1bh8 nn n nht¼Wxh xtWh ht1bh9事实上,BRNN在许多序列学习领域都超过了简单的RNN,例如语音处理[33,52],手写识别[41]和蛋白质结构预测[42],这些领域需要使用未来和过去的信息。4. β-椭圆模型原理β-椭圆理论的基本原理建立在主要假设上,假设手写轨迹运动方面最初像任何其他熟练的引擎过程一样被编程。其特征在于同时定义了静态和时间方面,对在线手写轨迹进行建模[15]。其主要思想是将手写轨迹分解为称为笔画的基本组件[16]位于由最大值-最小值、最小值和双拐点表示的速度极值之间。后者对应于速度的单调变化,表明运动控制从神经肌肉的一个子系统到另一个子系统或从神经生理脉冲到下一个子系统它也被保留为线路径的候选分割点动态曲线中的每个冲程由单个β脉冲pulse_t(t)表示(见图2.a),如等式9所述。VrtXVit-t0iXpulsebiKi;t;qi;pi;t0i;t1i121/11/1β-椭圆模型采用的第二个方面是几何轮廓。它由位于两个连续极值时间之间的每个笔划模型组成,由一组几何特征描述的椭圆弧(见图2.b),例如:a:椭圆形巨轴的半测度b:是椭圆形短轴的半测度y1-y0为椭圆主轴的倾角。x1-x图三. b)示出了阿拉伯文文本“”的构建几何轮廓的示例。它呈现出连续的椭圆弧(位于两个粉红色的星星之间)的手写轨迹。5. 手写体抽象模型所提出的神经元在线手写轨迹建模旨在使用基于RNN网络的架构来模拟先前版本的β-椭圆模型[11]的算法(见图4)。它具有两个BLSTM模块的堆叠:第一个用于基于轨迹控制点检测的笔划分割(笔划1,笔划2,笔划i) 第二BLSTM专用于特征提取(ai',bi',. D第一个模型。这些模块依次描述如下-hPRIME¼。WPRIMExtWPRIMEhPRIMEbPRIMEp2ð9Þing subsection.与tpωt1<$qωt0,其中普什克t0表示所构造的脉冲的开始时间和其结束时间t1。tc是beta函数达到最大值的时刻K是β脉冲函数的最大值(见图1)。 2.a)。参数p和q对Beta函数的对称性和形状的精细化有影响,这验证了方程的公式10个。这些参数参与了速度分布的Beta函数的表示。t1-tc图二.β-椭圆模型:在线轨迹表示的动态和空间方面的描述。5.1. 用于轨迹控制点(TCP)定位的BLSTM层手写体分割是一种尝试将手写体轨迹分解为字符、字素或连续笔划的技术。它代表了联机手写识别系统的最重要的步骤之一。在文献中有几种分割技术[43,44,49]。其中,有那些不旨在解决词或行分割问题,或不给正确的基于分类器的分割在许多研究中也取得了成功,相当于或超过了卷积方法。例如,SVM在在线手写日语文本的分割上取得了良好的性能[45]。[46]还介绍了一种基于神经的分割技术,以验证预期分割点。在这项工作中,一个基于特征的启发式分割器(FHS)被用来过分割的手写轨迹。最近,Volkova等人。[47]提出了一种基于RNN和动态规划的在线字符分割方法。四种类型的特征(Dx坐标、Dy坐标、提笔/落笔以及解码器的输出,解码器的输出表示取决于识别后的输出的标记点序列)被用作RNN分割的输入用动态规划方法对RNN的此外,BLSTM版本的RNN用于在线手的分割XHY. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012155图3.第三章。使用beta椭圆模型对在线阿拉伯语文本“”进行在线手写建模(a)原始轨迹,(b)几何轮廓,和(c)速度轮廓。见图4。 用于β-椭圆建模的BLSTM。[48]第48话减少不确定因素在我们的模块中,将在线手写路径分割成模拟β-椭圆过程的笔划包括首先确定轨迹控制点(TCP)(见图5)。(b)。实际上,TCP对应于由局部最大值(Lmax)、局部最小值(Lmin)、上升沿上的双拐点(dinfredge)和下降沿上的双拐点(dinffedge)表示的其曲线速度极值此外,我们还整合了起点(SP)和终点(EP),以界定构成手写轨迹的每个笔画。由于在线手写轨迹是一系列点,因此更好-因此,我们建议使用直接用输入原始轨迹训练的BLSTM网络,而不是使用提取的特征进行分割过程。给定输入序列(x 1,x 2,.,xT),得到一个隐状态序列(h1,h2,. . ,hT),将输入传递给前向LSTM层。同时,我们可以得到另一个隐藏状态序列(h ' 1,h'2,. . ,h ' T)通过传递(x T,x T - 1,.. . ,x1)上的反向LSTM。然后,所有隐藏状态都被馈送到一个完全连接的层,然后是一个回归层,用于最终的预测定界点。第一个BLSTM的输出层包含五个神经元,Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012156yX.ΣS不不¼已经进行了几次尝试以将参数q固定为2.5。它表示β脉冲脉冲β ′(t)的优化和参数q的计算中所涉及的最佳值实际上,BLSTM的所生成的新β脉冲的叠加描述了整个手写体的新速度分布V 0rt tt由以下表达式定义的轨迹:nV0reb0iK0i;t0;q0i;p0i;t00i;t01i=141/1使用BLSTM和β-椭圆模型构建的阿拉伯字符“”的速度剖面的比较如图所示。 六、a) 原始轨迹>8.0.0.0000.<点击0:t0-t00 :t01-t0如果t02t0;t0脉冲B0t0;p0;q0;t00;t01>:t0c-t00t01-t0c10其他地方ð15Þ其中t0<$p0ωt01<$q0ωt00。cp0b) BLSTM控制点检测BLSTM几何轮廓的可视化:另一方面,在空间域中,在两个连续的速度极值时间之间执行的每个基本轨迹行程由BLSTM模型生成的一组静态参数(a ',b',h ')表征如上所述,这些参数a一个典型的例子图五、BLSTM用于在线阿拉伯字符分别为每个分段笔划的SP、L max、L min、dinf_points和EP(见图1)。 4)。在将在线轨迹分割成中风之后,下一步骤包括使用第二BLSTM网络估计β椭圆参数我们在下面的小节中详细描述了估计动态和几何β-椭圆参数的过程5.2. 用于手写体Beta笔划参数估计的BLSTM由第二个BLSTM网络进行表征手写轨迹β笔划的β脉冲和椭圆参数的估计 后者将坐标矩阵[(x ki,y ki),(x ki+1,y ki+1),. (x ki+N-1,y ki+N-1)],k = ki,.. . ,ki+N-1,分别构成轨迹笔划Si及其前后相邻笔划(xki-1,yki-1),(xki+N,yki+N)如图4所示,使用第二BLSTM将笔划{S1,S2,Si}的输入序列{Si(x ki-1,y ki-1),(xki+N,y ki+-N)}变换为时间戳t处的向量矩阵Ht。第一个和最后一个隐藏状态被线性组合,使得在等式2中描述。十三日:Ht¼wf hfþwb hbþbð13Þ其中hf和hb是前向和后向t tLSTM分别。Wf;Wb;和b是用于训练网络的加权和偏置参数。输出是描述在线手写轨迹的每个笔划的动态和几何β椭圆参数的序列。BLSTM动态轮廓的可视化:在基于TCP点估计分割矩之后,第二BLSTM网络生成新的动态参数(这些参数允许由方程(1)描述的速度分布的新控制脉冲pulse ′(t)的高阶表示14.为了确保动态特征的最佳近似,我们图六、在线阿拉伯字符“”的速度配置文件构建。(a)使用BLSTM,(b)使用β-椭圆模型。(a)BLSTM速度剖面(b)β椭圆速度剖面Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012157图1是使用BLSTM模型与β-椭圆算法比较的阿拉伯字符“X”的标准几何轮廓。7.第一次会议。5.3. 培训在改变网络参数后,使用随机梯度下降(SGD)训练LSTM和BLSTM模型,动量值为0.9,批量大小为128个样本,以最小化负对数似然损失。此外,学习率初始化为0.001值,以开始RNN的训练它被预先训练了100个epoch,当预测误差在50次迭代中确实减少时,训练步骤在50个历元上得到的图8示出了所采用的架构的训练和验证误差曲线6. 实验和结果在下面的部分中,我们将评估所提出的BLSTM模型的性能,并将其与LSTM和以前的在线手写轨迹建模算法进行比较我们使用了广泛的研究,在公共基准数据集上的分割和β-椭圆参数估计覆盖广泛的中风。此外,我们提出了阿拉伯文字的识别和等待时间的评估结果(a) BLSTM几何轮廓见图8。 误差曲线6.1. 数据集和实施设置6.1.1. 数据集第一个数据库是ADAB(阿拉伯语数据库)基准数据集[50]。它包含了各种作家收集的21,000多个阿拉伯语单词。它是在线阿拉伯手写识别最常用的评估数据集。它收集了937个突尼斯城镇/村庄的名称。如表1所示,该数据集被分为六个不同的集,来自ICDAR 2011在线阿拉伯手写识别竞赛[8]。我们使用集合1、2和3进行训练,其中包含超过250.000 S,集合4用于验证。我们测试了我们的模型使用集5和6包含超过十万先令第二个数据集是LMCA[51],由100.000个阿拉伯字符,500个阿拉伯单词和30.000个数字组成,由55个不同的作家年龄在8至65岁之间的几类作家为收集这一数据集做出了贡献使用UNIPEN格式存储数据收集,该格式采用数字平板6.1.2. 设置为了研究所提出的方法对β-椭圆模型化的影响,我们进行了三组实验。 第一轮实验是验证BLSTM和LSTM版本的RNN用于beta笔画分割的效率。该阶段的输入是在线手写轨迹的坐标(xt,yt),输出将是描述每个笔画的SP、EP和TCP。第二个实验是基于第一个RNN阶段的输出,使用回归层估计β-椭圆参数。此外,为了验证我们提出的LSTM和BLSTM模型对β-椭圆特征估计的鲁棒性,我们通过比较两种方法获得的识别率进行了第三次实验。为此,我们使用了三分之(b) β-椭圆几何轮廓见图7。在线阿拉伯字符“”的几何轮廓构造。(a)使用BLSTM,(b)使用β-椭圆模型。表1ADAB数据集描述。集字数伪单词数作家集1503740,29656集合2509025,45037组3503115,09339组4441722,08525组5100040006组6100080003总21,575114,924166Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012158n-xtx不BLSTM的阶段由5层组成:输入层,2个隐藏层,基于softmax的全连接层用于分类MAE¼ni¼1 jyi-xij16步6.2. 消融研究在这里,我们进行了广泛的实验研究,以强调我们提出的基于LSTM和BLSTM版本的RNN在手写轨迹笔划分割和β椭圆特征估计方面的有效性。我们还比较了使用相同训练参数的两个版本的性能。6.2.1. RNN分割阶段用于笔划定位点的训练的LSTM和BLSTM网络的架构如下:输入层,BLSTM包含由200个节点组成的两个隐藏层:一个用于前向方向,另一个用于后向方向;每个包含100个节点。至于LSTM,它包含两个前向隐藏层,一个全连接层,由组合前几层的输出组成,后面是输出层。为了验证LSTM和BLSTM在笔划分割方面的性能,我们将其输出与使用β椭圆算法时获得的输出进行了比较。实际上,根据三个标准执行比较,即TCP时间、X(t)和Y(t),它们表示界定构成手写轨迹的每个笔划的点的坐标表2描述了使用beta-椭圆算法、LSTM和BLSTM模型对阿拉伯字符""进行分割的示例。实际上,在该示例中检测到七个TCP,因此生成七个冲程。与BEM方法相比,我们可以观察到在使用LSTM检测笔划TCP时间方面获得的值此外,我们注意到与BEM模型相比,使用LSTM的[0,2.5]和使用BLSTM的[0,0.5]的笔划坐标X(t)和Y(t)之间略有修改通过不同的结果,我们证实了提出的BLSTM分割方法比LSTM网络更好地模拟了算法方法。对于上面提到的每个标准,使用回归平均绝对值来误差(MAE)度量如下式所示MAE损失误差在n对观测之间测量,其中yi表示基于RNN模型的LSTM和BLSTM版本的预测值,并且xi是使用β-椭圆模型获得的目标值。表3列出了使用LMCA和ADAB数据库进行卒中分割的三个标准的MAE误差值。实验结果表明,使用BLSTM网络进行笔划分割具有很强的相似性。它证明了所提出的用于TCP定位的神经方法的有效性,该方法确定速度分布的最大值和最小值、双凸点以及限定速度分布的坐标点x(t)和y(t)中风图9.a)和图9.b)分别显示了使用beta椭圆模型和BLSTM模型对阿拉伯语单词“阿拉伯语”的分割。在这里,它表明,BLSTM模型显着模拟传统的手写建模算法的角度来看,轨迹TCP点的确定,从而对轨迹笔划分割。6.2.2. RNN特征估计阶段如图 4、用于特征估计阶段的第二BLSTM的结构由七层组成,这七层在几次测试之后是固定的:输入层、两个前向层、两个后向层,每个后向层包含128个LSTM单元、密集层,最后是输出层。LSTM网络使用仅使用前向层的相同架构。网络的训练批量为128,学习率为10-3,迭代50次。它们用于预测Beta笔划建模的动态和几何参数。为了评估所提出的用于β椭圆参数估计的RNN模型的性能,我们使用了均方根误差(RMSE)评估器度量。它经常被用作一个标准参数来估计模型在数据集拟合中的质量。在我们的例子中,我们使用RMSE度量来评估使用LSTM和BLSTM模型估计的β-椭圆参数与传统β-椭圆方法的实际参数之间的差异程度。其将准确度表示为由以下表达式描述的比率vutXnXli。ffiffiffiffiffiffiffiffiffiffiffiffiffiffiffiffi_ffiffiffiffiΣffiffi2ffiffi1/1t1/2表2在线阿拉伯字符“”的beta-elliptic(BEM)、LSTM和BLSTM之间的笔划分割过程的比较。TCP命令1234567TCP时间BEM0.020.160.280.410 0.620.760.88LSTM0.040.190.290.440 0.650.780.91BLSTM0.030.170.280.420 0.630.770.89X(t)BEM81.1165.7754.3969.2383.5863.9946.29LSTM82.1465.9957.0270.2084.1564.9247.92BLSTM80.5465.8055.0769.1182.9564.0447.38Y(t)BEM72.4855.6541.6428.686.592.212LSTM70.9956.1043.8529.937.173.262BLSTM71.7155.8042.4128.616.772.342表3beta-椭圆LSTM和BLSTM模型之间笔画控制点检测的MAE误差度量评价度量TCP时间估计误差X(t)估计误差Y(t)估计误差LSTMBLSTMLSTMBLSTMLSTMBLSTMMaeLMCA百分之二点八五1.69%4.20%2.55%4.18%2.93%ADAB4.09%百分之二点九五6.90%4.20%7.33%4.76%PRMSE¼ð17ÞY. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)1012159Btð Þ1-c-1- c-1 -c -1(图9.阿 拉 伯 语单词“阿拉伯人”的笔划分割。a)使用β-椭圆模型,b)使用BLSTM网络。其中xt和x是实际和预测的β椭圆值分别地,n表示参数的数目,而L1是笔划的数目。表4中报告了使用不同LSTM和BLSTM隐藏层实现的RMSE值。可以注意到,当我们使用具有4层的BLSTM时,对于LMCA和ADAB数据集分别获得最佳RMSE值为3.75%和5.26%。这些结果表明,两种模型之间的β-椭圆参数近似的很强的相似性。图10还呈现了针对每个估计参数的所提出的模型的评估结果。它显示了BLSTM而不是LSTM用于手写轨迹建模的性能,以及与使用β-椭圆算法生成的手工参数相比,其估计动态和空间特征的能力。可以证实,BLSTM产生的参数的预测分布非常接近β-椭圆模型的真实值,这解释了所提出的基于BLSTM的手写表示方法的有效性。在分析结果之后,可以注意到BLSTM在手写序列近似方面优于LSTM。这是由于BLSTM能够同时访问手写贝塔序列建模的过去和未来上下文,因为BEM模型将轨迹路径分割成在时间上相关的笔划。然而,对于在快速收敛和动态参数的仿真结果方面的网络参数的最佳优化器,我们将q的值设置为2.5。它表示影响参数p的估计和β脉冲函数的构造的最佳值图11示出了根据参数q的不同值的参数p的近似。见图10。 用于β-椭圆参数估计的BLSTM。固定q值可以简化神经生理脉冲问题建模事实上,β脉冲的形状有两个方面的特征:它的不对称程度和它的宽度。考虑到这最后一个特征与比率成比例(见等式2)。18)和脉冲的不对称程度是成比例的比率(见方程。19),如果我们考虑q是常数,这两个特性变得线性相关,这简化了神经网络预测的函数。然而,使两个参数p和q独立意味着为神经网络分配更复杂的非线性回归任务来建模,这需要更大的学习数据库。第1页-第18tc-t0p t tq¼tc-t019Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)10121510见图11。 根据q的不同值估计参数p。表4RMSE误差测量通过使用不同的LSTM和BLSTM层比较预测的和实际的β-椭圆参数获得层数2层4层6层数据集LSTMBLSTMLSTMBLSTMLSTMBLSTMRMSE LMCA8.76%6.98%5.41%3.75%7.03%4.88%ADAB百分之十一点二五8.95%7. 百分之八十三5.百分之二十六百分之九点九七7.73%6.3. 识别率为了验证所提出的RNN特征提取的效率及其对识别过程的影响,我们还报告了三种模型在识别率方面的比较。我们使用上述数据集进行了字符级和单词级的实验。两个指标CER(字符错误率)和WER(字错误率)被用来进行这个实验。CER和WER指标的识别结果如表5所示。使用相同的识别器结构,得到的结果是非常接近的。虽然使用LSTM和BLSTM模型获得的结果分别为CER和WER的1.4%,4.29%和0.92%,2.82%,但我们的目标是评估近似手工特征对识别的影响速率以及随后对所提出的端到端系统的辨别能力的影响。它可以证明BLSTM模型生成一组β-笔划参数的优越性,这与LSTM的β-椭圆模型产生非常相似的识别结果。此外,使用BLSTM模型的深度学习功能可以提高系统在整体运行时间方面的性能。6.4. 等待时间通过改变笔画数(NS),我们测量了β-椭圆和BLSTM模型参数提取的平均等待时间如图12,BLSTM模块与β-椭圆模型相比,平均等待时间减少了大约40%,这解释了Y. Hamdi,H.布贝克湾Rabhi等人工程科学与技术,国际期刊35(2022)10121511β-椭圆4.543.532.521.510.501 2 3 4 5 6 7 8 910冲程数(SN)BLSTM表5使用LMCA和ADAB数据集的BEM、LSTM和BLSTM模型的CER和WER特征提取方法BEMLSTMBLSTM度量CERWERCERWERCERWER数据集LMCA6.13%–8.95%7.65%–ADAB–9.76%–百分之十四点零五–11.16%图12个。β-椭圆和BLSTM模型参数生成的等待时间所提出的系统的响应和CPU时间相比,传统的算法。这导致更快的特征提取,因此识别时间高达4倍,与我们以前的系统相关因此,我们的神经元方法是快速的,并可以在许多商业应用中的手写识别,作者识别,签名验证等。6.5. 讨论我们提出了一种新的基于BLSTM的RNN模型用于手写轨迹建模,并与LSTM网络相比,我们评估了其在笔划分割和特征估计方面的有效性。它取代并模拟了复杂的β-椭圆算法的功能。三种模型的比较已执行的相似性的值,实现的识别性能,和等待时间。因此:我们分别计算并比较了LSTM和BLSTM网络的笔画轨迹控制点和参数估计的预测值与实际值我们采用了beta-椭圆,LSTM和BLSTM的手写识别构造特征,并使用CER和WER指标比较我们计算并比较了两种模型用于β-中风参数估计的等待时间。在LMCA和ADAB数据集上获得的性能比较表明,我们的BLSTM模型很好地模拟了用于手写轨迹建模的β-椭圆算法,允许实现比LSTM模型更低的MAE和RMSE为了证明我们的方法在实际应用中的有效性,我们采用了提供的BLSTM功能的脚本识别保持相同的分类器。实验结果表明,所产生的BLSTM参数在阿拉伯字符和单词识别中是有效的。此外,所提出的训练模型可以被集成到任何设备,便于他们在多个应用程序,如手写识别,手写质量评估等管理,但是,我们提出的模型有一些限制,如识别率的降低,由于手写脚本的动态和几何参数的近似的差异。此外,当用户非常快速地书写时,难以近似动态参数,这增加了真实样本和预测样本之间的笔画数的差异。7. 结论β-椭圆模型已经在多种手写处理应用中显示出其有效性。这就需要通过一个便于操纵的动态模型来模拟它们。本文提出了两种用于在线手写轨迹建模的多层BLSTM递归神经网络.训练后的模型模拟并取代了手工制作的beta-椭圆模型的beta笔划分割和参数近似。所提出的架构通过一个简单的两个BLSTM模型来理解预处理、分割和特征提取的不同阶段。使用基准LMCA和ADAB数据集进行的实验已经证明了所提出的BLSTM网络在与先前的β-椭圆算法相一致的笔划分割和特征估计方面的效率。此外,BLSTM的性能优于LSTM的不同任务。这些模型的实现给出了较低的MAE为1.69%,2.75%的笔迹轨迹分割和3.75
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功