手写体数字叠加印刷形式识别方法及应用评估

121 浏览量更新于2024-01-17 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报通过叠加到印刷形式上的M. I. R. Shuvoa，M.A. H. Akhanda，Nazmul Siddiqueb，a孟加拉国库尔纳工程技术大学计算机科学与工程系，库尔纳9203b英国阿尔斯特大学计算机工程与智能系统学院阿提奇莱因福奥文章历史记录：接收日期：2022年2022年6月28日修订2022年6月28日接受2022年7月2日在线发布保留字：手写数字识别印刷数字人工神经网络卷积神经网络自动编码器卷积自动编码器A B S T R A C T手写体最终是印刷形式的一种变体，其中字符比印刷形式稍大、稍小、有角度和变形手写的微小变化定义了要识别的字符的参数手写数字识别（HNR）由于变形和其他变化而提出了重大挑战。本文提出了HNR的新概念，假设手写体数字是印刷体的变形，这使得将手写体数字图像叠加到相应的印刷体数字图像上时，识别任务更容易，准确率更高在所提出的HNR中，自动编码器和卷积自动编码器已被适配用于将HNI转换为PNI的叠加任务，而神经网络和卷积神经网络用于PNI的分类。叠加方法减少了计算开销。此外，该方法采用简单的预处理而不进行特征提取，而传统方法采用预处理、特征提取和使用机器学习工具的识别，这增加了计算开销。HNRSP的性能进行了评估，识别孟加拉语，梵文，和英语的手写数字的基准数据集和所提出的系统达到99.68%，99.73%，和99.62%的识别准确率孟加拉语，梵文，和英语手写数字，分别。©2022由Elsevier B.V.代表沙特国王大学出版。这是一篇开放获取的文章，CC BY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍数字是语言的一个组成部分，手写数字识别（HNR）已成为一个有吸引力的研究领域，由于其在日常生活中的手写和印刷形式的不同用途（Plamondon和Srihari，2000）。与其他识别任务（如字符识别）相比，HNR提出了独特的挑战。在字符识别的情况下，系统的识别故障可以通过利用语法规则来检查。然而，由于数字的任何组合都是有效的，这样的机制对于数字识别来说是不可能实现的因此，在本发明中，*通讯作者。电子邮件地址：insan_shuvo@cse.kuet.ac.bd（M. I. R. Shuvo），akhand@cse.kuet.ac.bd（M. A. H. Akhand），nh ulster.ac.uk. Siddique）。沙特国王大学负责同行审查制作和主办：ElsevierHNR成为现实生活中使用的敏感任务，因为模型需要绝对准确。不同的语言有不同的数词集合;数词集合中的结构、相似性和其他复杂性增加了HNR的复杂性。由于人的书写模式的差异，当数字集合包括类似形状的数字（例如，孟加拉数字的””和“”）时，手写数字图像中的相似性变得非常接近，并且识别任务甚至对于人类也另一方面，由于人们的书写模式不同HNR传统上是基于手写数字图像的模式识别任务。其最基本的步骤是从图像中提取特征，并在各自的类中使用这些特征进行分类。此外，图像预处理是HNR中的常见任务。对于特征提取，诸如主成分分析（PCA）、核PCA（Wen等人， 2007）、遗传算法（GA）（Das等人，2012）、局部二进制模式（LBP）（Hassan和Khan，2015）、凸壳（Das等人， 2009）、链码和傅立叶描述符（Rajput和Mali，2010）、小波（Romero等人，20 0 9 年; Seijas和Segura，2012年;https://doi.org/10.1016/j.jksuci.2022.06.0191319-1578/©2022由Elsevier B. V.出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7752Almuttardi等人，2013）、GIST描述符（Do和Pham，2015）、Gabor滤波器（Arya等人，2015年，几位研究人员进行了调查。近年来，方向梯度直方图（HOG）（Choudhury等人，2018; Khan，2017 ）、均匀局部二进制模式（ Prabhanjan 和 Ramegowda ，2016）、正交多项式技术（Abdulhussain等人，2021）、最大相关性最小冗余、条件互信息最大化（Singh等人，2015）、形状分解（Dash等人，2018）、基于点光源的阴影（PLSS）和定向像素位置直方图（HOPP）（Ghosh等人，2021）也用于特征提取任务。在分类步骤中，支持向量机（ SVM ）（ Khan ， 2017; Prabhanjan 和Ramegowda，2016;Singh等人，2016，2017; Cheedella，2020）在几项研究中被用来使用提取的特征识别数字类别。其他分类算法如k-最近邻（KNN）（Belongie等人，2002年4月; Babu等人，2014）、神经网络（NN）（Cheedella，2020; Singh等人，2015; Khan等人，2004）、递归神经网络（RNN）（Oval和Shirawale，2015）、决策规则（Dash等人，2018），朴素贝叶斯，随机树（Shamim等人，2018）、决策树（Cheedella，2020; Bernard等人，2007）也被用作HNR中的分类器。最近，不同的基于深度学习的方法，例如卷积神经网络（CNN）（ Akhand et al. ， 2018 年） ; 自动编码器（ AE ）（ Ayinde 和Escherada ， 2018 年），长短期记忆（ LSTM ）（ Ahmed 等人，2019）通常用于包括HNR在内的模式识别任务，因为它们具有内置的特征提取技术。随着CNN的出现，基于图像的模式分类任务进入了一个新时代，因为它可以固有地包含旋转、移位不变量和缩放（Akhand等人，2016; Rabby等人，2019; Ahlawat等人，2020年）。Akhand等人（2016）提出了一种HNR方案，其中CNN使用用于识别数字的归一化输入图像进行训练。Shopon等人（2016）研究了CNN和CNN的自动编码器用于HNR。Rabby等人（2019）介绍了一种采用轻量级CNN的HNR方法。Ahlawat等人（2020）通过改变CNN的层数开发了一种基于CNN的HNR方法，其中使用了两种不同的CNN架构，包括三层（CNN_3L）和四层（CNN_4L）。Biswas andIslam，2021）通过改变优化器来识别两个特定数字数据集上的手写数字，研究了五种不同的CNN架构。Mellouli等人（2019）研究了HNR的可解释CNN，其中形态学过程被集成到卷积层中，使用反谐波平均值来生成特征图。Ali etal.（2019）雇用CNN以及用于HNR的深度学习框架Deeplearning4 j（DL4 J）。后来，他们提出了另一种模型，将极端学习机（ELM）算法与CNN和DL4J相结合，其中CNN用作特征提取器，ELM单元用于显示出比前一个更好的结果的分类任务（Ali等人，2020 年）。Shaukat等人（2020）使用CNN和DL 4设计了一个基于云的HNR系统。（2018）提出了一种混合模型，其中GA以及有限记忆Broyden-Fletcher-Goldfarb-Shanno（L-BFGS）算法用于训练CNN。Ahlawat和Choudhary（2020）使用CNN和SVM开发了另一种HNR混合方法，用于手写数字，其中CNN用于特征提取，SVM用作分类器。Jiang和Zhang（2020）提出了两种用于HNR的方法，即Edge-SiamNet和Edge-TripleNet，由HNR系统的Siamese网络结构和卷积单元组成，其中使用 canny 边缘提取技术提取图像的边缘。 Ayinde 和 Mrsada（2018）研究了HNR的稀疏自动编码器（SAE），其中采用L1和L2正则化使SAE的权值非负约束（L1/L2-NCSAE）。Ahmed et al.（2019）为HNR提出了一种双层LSTM架构。不同的研究人员在训练CNN以及基于CNN的HNR预训练网络时采用了数据增强技术。Akhand等人（2018）提出了一种HNR方法，其中原始训练模式以及基于顺时针和逆时针旋转的人工生成模式用于训练CNN。在另一种方法中，使用原始训练模式分别训练三个不同的CNN，以顺时针和逆时针旋转生成模式。Sufian等人（2022）为HNR开发了一种由三个密集块和两个过渡块组成的密集连接CNN，其中使用了数据增强。Shopon等人（2017）开发了一种用于两种不同语言的HNR的技术，其中块状伪影用于图像增强，以提高用作分类器的深度CNN的性能。Gupta和Bag（2021）开发了一个基于CNN的系统，其中CNN和一些预训练的网络，如Alexnet，VGG-16，Resnet-18，DenseNet-121，MNIST预训练的模型等，用于识别不同语言的数字。Al-wajih等人（2020）提出了一种采用ResNet和Local Binary CNN（LBCNN）的HNR技术。本研究旨在基于人类学习写作的假设，开发一个新颖高效的HNR由于人类是通过模仿印刷体来学习书写数字的，因此手写数字是印刷体为不同的人所作的不同表述书写学习假设表明，手写数字图像（HNI）的叠加是可能的到印刷形式上，然后从印刷形式的识别将是有效的，因为具有固定模式的印刷图像的小集合将被分类器利用在该方法中，HNI与相应的印刷体数字图像（PNI）的叠加和识别是主要任务。叠加模块的开发是本研究的主要意义，而PNI分类是一个普通的图像分类任务，相对容易。叠加模块的主要任务是将各种形状、大小和方向的HNI映射到一组确定的打印表单图像，以及生成具有定义的固定方向和大小的最佳匹配PNI基于神经网络的自动编码器（AE）和卷积自动编码器（CAE）适用于叠加任务，与传统的AE和CAE的架构进行了重大修改传统的AE将图像编码为较低维度的潜在特征，并重新创建原始图像和维度。通过编码HNI生成的潜在特征与本工作中的标准AE相同。然而，在解码阶段期间，从潜在特征重构PNI（其在上下文中不同并且通常相对于输入HNI在大小上较低标准图像分类器ANN和CNN用于识别PNI，因为它们对于此类任务进行了充分的研究。建议的系统进行评估，识别手写数字的孟加拉文，梵文，英语考虑基准数据集。实验结果表明，所提出的系统的效率，同时被com-quantity的突出现有的方法。已经报道了使用不同工具和技术的关于HNR的许多研究，但是将HNI作为PNI的变形并将HNI叠加到PNI上作为学习机制的概念是我们所知的第一个这项工作的主要贡献总结如下：本研究提出了HNR感知人类数字书写学习的新概念。AE和CAE适用于将HNI映射到PNI上，从而为给定的HNI产生最佳匹配的PNI。ANN和CNN被用作从PNI识别类别标签的分类器。●●M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7753×.- 是的ΣðÞ.ΣCAE或AE（用于叠加）与CNN或ANN（用于分类）的组合被研究用于特定HNR任务的合适模型。本文其余部分的结构如下。提出了建议HNR系统的方法在第2节中，连同其他先决条件，以更好地理解。第3节详细分析了拟议系统的结果。本节还包括与其他相关工作的性能比较。最后，第4对研究进行了简要总结2. 手写体数字在印刷体上的叠加与识别手写数字（HN）可以看作是印刷数字（PN）的变形将HNI叠加到PNI上，然后从PNI识别是所提出的HNR方法的功能步骤图图1显示了数字8（孟加拉语中的数字4）在手写情况下的不同变形。当人们学习复制印刷形式并试图最小化差异时，发现手写图像在方向、缩放、不完整、额外姿势、粗糙度、细化等方面变形由于单个HN图像中的一个或多个变形，HN图像之间对于特定数字的相似性增加，因此在传统分类中将所有这些图像置于相同的原始类别中的复杂性增加另一方面，变形可以使HN移动到另一个数字类别的域;例如，孟加拉语数字“”和“”中的变形将HNI定位到PNI上可以帮助降低识别任务中的这种复杂性在通过成功叠加获得PNI之后，由于单个印刷数字的独特形状和大小一眼看去，识别任务将更容易，并且通过将不同形式、大小和方向的HNI叠加到相同大小的 PNI上来提高准确性。图 2演示了建议的HNR系统通过叠加到打印形式（HNRSP）。该模型由两个主要功能模块组成：叠加模块和分类器.叠加模块采用具有变化变形的HNI形状，方向）并产生标准印刷形式和预定义的固定尺寸（即，28 28）的10个PNI。最后，执行分类任务，将生成的PNI分类到相应的数字类。HNI和PNI的大小分别定义为H x×H y和P x×P y，其中P x6H x和Py6Hy. 所提出的模型的关键任务是叠加模块的开发。另一方面，从PNI分类是一个普通的图像分类任务，相对简单。因此，建议HNRSP模型由叠加和分类模块，这些是独立准备的。将HN叠加到PN上有助于定义HN和PN之间的误差;并且在迭代中最小化HN和PN之间的误差叠加模块和分类器技术都需要计算任务来进行叠加（即，train）：由于已经用大量图像训练了叠加模块（即，18，000个手写数字图像），主要的计算是为了准备它，并且由于使用仅10个数字的打印图像，分类器训练成本非常小（并且可以忽略）。此外，叠加模块和分类器方法的准备彼此独立，并且在两个不同步骤的情况下训练时间不会增加在以下分节中-图1.一、可变形手写数字，例8（孟加拉语数字4）：（a）缩放，额外姿势;（b）旋转，不完整;（c）缩放，粗糙度;（d）旋转，细化。描述了叠加模块和分类器的开发和训练2.1. 叠加模块图3示出了针对孟加拉语8（孟加拉语中的数字4）的样本HNI的所提出的HNRSP中的叠加过程。在该过程中，输入HNI x叠加到10个孟加拉PNI z上（即，0、8、0和0），并生成相应的PNI（即，8)对于输入HNI，其最小化HNI和PNI之间的误差Lxz。这里的挑战是实现叠加任务，AE和CAE智能地适应它在拟议的HNRSP。AE和CAE的简要描述以及在所提出的方法中使用的AE和CAE的新定义的结构在以下小节中讨论。2.1.1. 带自动编码器（AE）AE是传统NN的三层变体，它使用无监督学习算法，并规定输出与输入相同，目的是减少维度或特征（Akhand，2021）。从体系结构的角度来看，最简单的 AE 是一个简单的前馈多层感知器（MLP），具有两端具有相同数量的神经元的单个输入和输出层以及具有较少数量的神经元的一个隐藏层声发射的结构可以分为两部分：编码器和解码器。首先，AE尝试根据下式应用确定性映射将原始输入特征x编码到更低维的特征空间h。h¼sWxb1其中s是激活函数，W是输入层和隐藏层之间的权重矩阵，b是偏置。然后，AE的解码器部分尝试使用将低维特征映射到其重构的特征映射z。z¼s0W0xb02其中，s0：是激活函数，W0¼WT（绑定权重），偏置b0也是如此。z是x的预测，因此需要根据下式使反射误差最小化。●M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7754.Σ××图二、建议HNR系统通过叠加到打印形式（HNRSP）的样本手写数字图像（HNI）孟加拉8。叠加模块获取HNI并生成其对应的打印数字图像（PNI）。分类器从生成的PNI中识别类别标签，即，四、图3.第三章。孟加拉语8的手写数字图像（HNI）样本的拟议HNRSP中的叠加说明叠加模块取一个HNI，将其叠加到10个印刷数字图像（PNI）上，生成相应的PNI，即最佳匹配的PNI。最小长度Lx;zx-z2x-s0W0sWxbb023在所提出的HNRSP中，AE已被管理以从HNI生成PNI 图图4展示了该映射的AE架构。为了将Hx×Hy大小的HNI映射为Px×Py大小的PNI，其中Px为6Hx，Py为6Hy，所设计的AE在输入层具有Hx×Hy数目的神经元，在输出层具有Px×Py数目的神经元层.将原始HNI大小的Hx×Hy的线性化特征作为AE的输入。为了利用上述假设，在AE的输出层，提供大小为Px×Py的PNI的对应它指导AE为所提供的HNI生成PNI。表 1 展示了所提出的 HNRSP 中的 AE 架构，用于考虑 H x×Hy32×32和P x×P y16×16的叠加。这里，输入层由1024（=32 32）个节点组成。在编码器部分中，使用五个层编码器的第一层由512个节点组成，随后的层分别由256、128、64和32个节点组成编码器的最后一层（编码层5）被认为是潜在特征。所设计的AE解码器部分也由两层组成分别由64个和128个节点组成。解码器的最后一层连接到由256（=16 16）个节点组成的输出层。相对于传统的声发射，声发射中编码和解码的层差数量以及输入和输出层的不同大小是叠加的结构意义尽管可以对相同尺寸的图像执行叠加（计算效率不高），但是输出图像（即，PNI）不同于输入图像（即，HNI），这是拟议的HNRSP中最重要的2.1.2. 具有卷积自动编码器（CAE）CAE的叠加模块（Masci等人，2011）使用二维输入，并通过编码器和解码器层将它们重建为相同的二维结构。 CAE的独特功能是卷积和子采样操作。在卷积运算中，内核（2D滤波器）对输入图像进行卷积，称为输入特征图（IFM），并生成卷积特征图（CFM）。因此，该过程保留了特殊的局部性和份额M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7755××××××n×××××2N.ΣR图四、用于孟加拉语8的样本HNI的建议HNRSP中的手写数字图像（HNI）叠加到印刷数字图像（PNI）上的自动编码器架构的图示。PNI大小小于或等于输入HNI，即，Px6Hx和Py6 Hy。表1HNRSP中的自动编码器（AE）结构，用于将32 × 32大小的手写数字图像叠加到16×16大小的打印数字图像上。神经元层数输入层1024编码层1 512编码层2 256编码层3 128编码层4 64编码层5（潜在特征）32解码层1 64解码层2 128输出层256每个位置的权重。对于输入u，第i个特征映射H i¼ f.uωWibi4这里，激活函数由f表示，权重由W表示，* 表示二维卷积，b表示偏差。重建是使用2的池化层2区域应用于CMF并产生16 16子采样特征图（SFM），它们在两个维度上都是一半。通过第二次和第三次卷积子采样操作，4个4大小的SFM是潜在特征空间。CFM大小与第一卷积操作中的输入HNI相同，并且与第二和第三卷积操作中的SFM相同，因为应用了绝对卷积CAE的解码器部分从绝对卷积操作开始，然后在具有2 2区域的该潜在特征空间上应用上采样操作，并将特征空间重建为8 8大小。第二个上采样层将特征空间重建为16 × 16维。最后，在最后一个上采样层中应用单个内核之后生成PNI编码和解码中的层差异的数量以及输入HNI和输出PNI图像中的不同大小是CAE中相对于传统CAE用于叠加的架构上显著的特征尽管叠加可以在相同尺寸的图像上执行（在计算上不有效），但是输出图像（即，PNI）不同于输入图像（即，HNI），这是拟议的HNRSP中最重要的问题。2.2. 分类器的开发v¼f0BXHiωW0ib1Cð5Þ分类器的目的是分配它的每一个允许的@我HA这里，对于每个输入通道，使用单个偏置b，H表示潜在特征图集，W0表示翻转权重。当量（6）定义误差函数。e. E.;v.X. uj-vj26第1页在所提出的HNRSP中，CAE已经设法从HNI生成图5展示了拟议的HNRSP中采用的CAE体系结构。为了将Hx×Hy大小的HNI映射到Px×Py大小的PNI，其中Px6Hx和Px6Hy，所设计的CAE在输入层中具有Hx × Hy大小的HNI，而Px × Py在输入层中具有Hx ×Hy大小的PNI。在输出中调整PNI的大小层，该层指导CAE为所提供的HNI生成PNI。表2 示出了所提出的HNRSP 中的CAE 的架构，用于叠加Hx×Hy1/32× 32和Px×Py1/16× 16的三个编码层和两个解码层在不同层的编码和解码中使用5 × 5大小的内核和2 × 2大小的子采样。在第一层，5 5大小内核是应用超过的输入HNI并产生32× 32大小的卷积特征图（CFM）。然后是最大-通过计算一组决策函数，将输入输入到有限数量的类别中的一个。在建议的HNRSP中，ANN和CNN被用作识别的分类器。ANN和CNN及其结构的简要描述2.2.1. 人工神经网络分类人工神经网络是一种受信息生物神经系统的处理机制，并充分研究了分类任务（Akhand，2021）。人工神经网络在HNR中得到了很好的研究，现有的方法将HNI的像素作为人工神经网络的输入，经过几层处理后将其分类为数字类别。图6展示了HNRSP中考虑的ANN结构。输入层由m个输入节点组成，其中m是大小为PxxPy的PNI的线性表示。输出层由10个节点组成，用于将输入分类为10个数字之一。隐藏层中的节点数量取决于打印图像的大小假设打印的图像大小为32 32 ，考虑ANN 架构1024-512-256-10 。这里，输入层由1024（=32 32）个单元组成，隐藏层分别由512和256个单元组成，输出层由10个单元组成。对于16 × 16大小的PNI，ANN架构256-128-64-10M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7756××图五、用于孟加拉语8的样本HNI的所提出的HNRSP中的HNI叠加到PNI上的卷积自动编码器（CAE）架构的图示 PNI大小小于或等于输入HNI，即，Px6 Hx.表2卷积自动编码器（CAE）结构被考虑在HNRSP中，用于将32× 32大小的手写数字图像叠加到16× 16大小的打印数字图像上。图层操作过滤器大小要素地图大小输入层二次采样2×2 16×16编码层2卷积5×5 16×16二次采样2×2 8×82.2.2. 卷积神经网络（CNN）CNN（Akhand，2021; Jia等人， 2012）是一个多层NN变量，擅长与2D输入工作。CNN中的卷积和对于分类任务，基本CNN结构包含一对或多对输出层由10个节点组成，用于将输入分类为10个数字中的一个.输入图像被直接馈送到在CNN中，通过卷积编码层3（潜在特征）卷积5×5 8×8二次采样2×2 4×4子采样操作和最终SFM的值是类的。解码层1卷积5×5 4×4上采样2×2 8×8解码层2卷积5×5 8×8通过致密层过滤。图图7显示了HNRSP中考虑的一般CNN结构。它有一个卷积层以及随后的子采样层。上采样2×2 16×16输出层卷积5 ×516× 16在卷积层中使用5 5大小的内核，而子采样层的池化区域为2 2。这里，最大池化用于子采样。然后，子采样层之后是通过平坦化最终SFM单元获得的密集层对于PNI分类为10个类，这些单元链接到输出层每个输出层神经元引用一个特定的数字。对于每个输入，输出层中一个特定神经元的值变为1，而其他九个神经元的值在建议的HNRSP中，PNI的大小从8× 8到32 × 32，CNN架构将取决于PNI的大小。用于16 × 16大小的PNI的CNN架构（即，Px=Py= 16）由输入层（I）、卷积层（I）和卷积层（I）组成，通过子采样层S1和输出层S2将是。见图6。人工神经网络作为HNRSP中印刷体数字的分类器。我 16×16！ f6 K 15×5C112×12-S2×26 S 16×6g！ f 沃 216×10克！ O10其中核由K1表示，Wo是用于将密集层节点连接到输出层节点的权重另一方面，对于较大的PNI，CNN的架构将具有额外的卷积子采样。对于32× 32大小的PNI，CNN架构包括输入层（I）、两个卷积层（I）、两个卷积层（I）、两个卷积层（I）和两个卷积层（I）。&考虑了为了训练神经网络，使用了反向传播算法（Amardeep，2017）。最后，对于孟加拉语8（孟加拉语中的数字4），如图6中的样本情况所示，具有4的输出节点将被激活以对其进行分类。在所提出的HNRSP中使用的ANN的显著差异在于，重构的PNI（从HNI通过叠加）被用作ANN的输入在所提出的HNRSP中的另一个重要问题是，人工神经网络仅用10个PNI训练，这在计算上比用大量HNI训练人工神经网络更有效。二次采样层为S1 S2，输出层为 S0。&我32×32！F6 K 1 5×5 C1 28×28-S 2×2 6 S 1 14×14 g！f12 K 25×5C210×10-S2×212 S 25×5g！f沃300×10克！ O 10具有不同结构的CNN对于HNR进行了很好的研究;但是当前研究中的概念与现有研究不同。现有的方法将HNI视为CNN的输入，并将其分类为数字类别（Calderón et al.，2003;Akhand等人，2016;Akhand等人，2018; Shopon等人，2016年）。在所提出的HNRSP中使用的CNN的显著区别在于，重建的PNI（通过叠加从HNI）被用作CNN的输入另一个重要问题是，M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7757×××××××××图7.第一次会议。卷积神经网络作为HNRSP中印刷体数字的分类器所提出的HNRSP的一个优点是，CNN仅用10个PNI训练，这在计算上比用大量HNI训练CNN更有效。2.3. 拟议制度HNRSP从概念到实现的各个方面都与现有的HNR方法有着显著的不同HNRSP的主要贡献是开发了一种具有新概念的HNR方法，认识到手写数字是印刷数字的变体，因为人类通过在印刷形式上练习来学习书写数字在开发新的HNR时明智地采用了这一假设。本研究的主要吸引力是使用新定义的AE和CAE架构将HNI叠加到打印表格上的创新想法识别任务分为两个主要的功能步骤：HNI叠加到相应的PNI，然后从PNI识别由于书写者书写模式中数字形象的角度不同而造成的个体书写模式的变异由于对低维PNI进行了重建，减少了计算量，同时也提高了识别精度。此外，该技术不涉及任何特征提取方法，并且使用简单的图像预处理。相反，在传统方法中，使用不同的方法来提取特征以及使用不同的预处理技术和使用不同的机器学习工具进行识别，这只会增加计算开销。3. 实验研究使用基准数据集，对孟加拉语、梵文和英语的拟议HNRSP研究了该算法在迭代次数、旋转角度和混淆矩阵等方面的识别精度。最后，将该系统的分类性能与其他主要方法进行了比较，验证了该方法的有效性3.1. 基准数据集和预处理为了验证所提出的系统CVPR，ISI数据集包含了相对大量的孟加拉语和梵文数字的训练和测试样本。样本由不同人的邮政邮件PIN码的扫描图像组成。它分别包含19，392和18，793个孟加拉语和梵文的10个数字的训练样本，以及4000和3763个测试样本。在这项工作中，预处理是在18，000（=1800）上完成的10)训练集图像并用于训练孟加拉语和梵文都有有一些杰出的作品可用于使用该数据集的孟加拉语和梵文手写数字识别（Ghosh等人，2021; Akhand等人，2018;Gupta和Bag，2021; Bhattacharya和Chaudhuri，2009）。在孟加拉语和梵文数据集中，图像样本有各种大小、分辨率和形式。执行一些预处理步骤以将图像数据转换成可由识别系统使用首先，通过对输入图像应用自动阈值化来生成二值然后，背景和前景被互换，这将导致自动编码器和分类器的计算开销更少。然后将图像的大小调整为32 32像素。这里，双重类型矩阵被考虑用于调整大小的像素以保存图像的完美质量。众所周知的MNIST（LeCun等人，1998）数据集用于英文数字。数据集由60，000个训练数据和10，000个测试数据组成。所有图像都具有相同的大小28 28和像素值位于0和255之间。对于这个数据集，不需要额外的预处理，如数据挖掘和增强。3.2. 实验装置在这项研究中，原始HNI被转换为更低或相同大小的PNI。将来自CVPR、ISI的32 32个大小的预处理HNI叠加到不同大小（8 8至32 32）的PNI上，将来自MNIST数据集的28 28个大小的HNI叠加到不同大小（8 8至28 28）的PNI上。训练数据增强也被认为是训练叠加模块（即，AE和CAE），当训练中包含人工生成的模式时M. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7758×××××× × × × ××以及原始的训练模式。该方法只对CVPR、ISI数据集的训练样本进行顺时针和逆时针旋转，生成两个样本。为简单起见，仅10 °和20 °被认为是旋转角度，并且在现有研究中发现这样的旋转程度是有效的（Akhand等人，2018年）。本研究中使用的学习率为1.0。对于AE或CAE，考虑批量（BS）范围从25到150的分批训练，因为训练集非常大。另一方面，ANN和CNN仅用10个PNI训练了50次迭代。为了确保所提出的系统可以适当地响应未知数据，在任何训练阶段都不使用基准数据集Python以及Keras和Tensorflow库用于实现所提出的方法。实验在具有Windows 10环境的台式机上运行，具有以下设置：CPU：IntelCore i7-10700 K@4.50 GHz，RAM：8 GB，GPU：Nvidia GeForceGTX 1070 8 GB，Python 3.7 Anaconda环境。3.3. 实验结果及分析本节在CVPR、ISI数据集以及MNIST数据集上评估了拟议的HNRSP的性能。首先，叠加模块的不同组合（即，AE或CAE）与分类器方法（即，人工神经网络或CNN）在没有数据增强的情况下在所提出的系统中进行测试。图8示出了通过使用BS值25和50叠加到28 × 28大小的印刷数字图像上的孟加拉手写数字的所提出的方法的测试集识别精度。从图中可以观察到，对于叠加，CAE比AE好得多，因为CAE +ANN或CAE + CNN比AE + ANN或AE + CNN表现得好得多。对于BS= 50，CAE + CNN在迭代120时实现了最佳识别准确率99.05%。另一方面，对于BS = 50，AE + CNN在迭代120时的最佳识别准确率为95.90%。识别的准确性主要取决于印刷体数字图像的正确构造，CAE似乎优于AE的任务。另一方面，从印刷图像分类是一项简单的任务，ANN和CNN都被证明在这项任务中具有竞争力。从图中可以看出，识别的准确性提高到一定程度的迭代，在此之后的改进是不可识别的，甚至在某些情况下略有下降。图图9展示了训练数据增强对所提出的系统在旋转角度值为± 10°和± 20°的孟加拉手写数字的性能的影响。只有CAE被认为是叠加模块，因为它被发现比AE更好，并构建了28个28大小的打印数字图像。没有数据增强的性能（即，CAE+ ANN和CAE + CNN）也提出了更好地理解的增强效果。值得注意的是，在CAE + ANN或CAE + ANN（即，无数据增强）;而CAE的训练是用54，000（=18000 + 18000*2）个样本进行的，其中旋转±10 °或±20°的数据增强。从图中可以观察到，对于±10 °或±20 °的任何旋转角度，使用增强的性能优于未使用增强的性能。例如，对于旋转角度±20°，CAE + CNN（±20°）对于BS值25实现了99.65%的识别准确度所获得的值优于未经数据增强的所获得的值，后者为99.13%。基于旋转生成的模式似乎增强了叠加的能力，从而提高了最终的识别精度。对于梵文手写数字，在±10°或±20°的任何旋转角度下，具有增强的性能也优于不具有增强的性能，如图所示。 10个。表3呈现了HNRSP对于不同BS值叠加到各种尺寸的印刷图像上的性能。只有具有数据增强（±10°或±20°）的CAE才被视为叠加模块，因为它表现良好，如前所述。所提出的方法的主要意义在于将图像叠加到印刷图像上，并且所提出的结果识别了不同叠加尺寸的效果，所述不同叠加尺寸为8八、十二十二，十六十六、二十二十，二十四二十四、二十八、二十八3232.考虑ANN或CNN作为来自打印图像的分类器，该表显示了所提出的HNRSP的四个不同版本的结果，即CAE + ANN（±10 °）、CAE + CNN（±10°）、CAE + ANN（±20°）和CAE + CNN（±20°）。所呈现的结果是CAE训练高达1000次迭代的个体设置的最佳测试集精度，而ANN和CNN仅训练了50次迭代。不同BS值中特定印刷图像尺寸（PIS）的最佳精度以斜体标记，不同PIS值中BS值的最佳精度以下划线标记。此外，特定版本的最佳结果以粗体显示。表3的结果清楚地揭示了PIS值对HNRSP性能的影响。从表中可以观察到，对于特定PIS值，不同BS值的性能变化并不显著。所提出的系统对于最小的PIS（即，8）对于任何版本的方法。与其他情况相比，CAE + ANN（±10 °和±20°）对于PIS值88的性能非常差，即使是具有相同PIS值的CAE + CNN。作为示例，对于BS值50，CAE + ANN（±20°）实现的准确度为91.30%，并且对于相同的BS值，CAE + CNN（±20°）实现的准确度为99.15%。PIS的最小值的较低性能是对数的，因为在这种情况下，对于不同的数字情况，重建重叠可能很高。从表中可以看出，图8.第八条。通过使用AE或CAE叠加到28× 28大小的印刷数字图像上，使用ANN或CNN对批量（BS）25和50进行分类，对孟加拉手写数字执行HNRSPM. I. R. 舒沃湾A. H. Akhand和N.Siddique沙特国王大学学报7759×图9.第九条。孟加拉手写数字的HNRSP性能，通过使用CAE叠加到28× 28大小的印刷数字图像上，使用ANN或CNN分类，考虑批量（BS）25和50的训练数据增强旋转±10°或±20°图10个。通过使用CAE叠加到28× 28大小的印刷数字图像上，使用ANN或CNN进行分类，考虑批量（BS）25和50的训练数据增强旋转±10°或±20°，对梵文手写数字进行HNRSP的性能表3业绩评价（即，测试集精度）的HNRSP孟加拉手写数字通过叠加使用CAE的各种大小的印刷图像和批量大小（BS）。腐火车的角度8月数据打印图像尺寸不同BS值的CAE +ANN精度不同BS值25 50 100 150 25 50 100 150±10° 8×892.8090.77 91.65 90.2899.5099.18 99.25 99.3012× 1299.3099.15 99.22 99.20 99.35 99.12 99.1716× 16 99.4599.4599.45 99.30 99.4599.5020× 20 99.45 99.4399.5099.38 99.43 99.43 99.50 99.3824× 24 99.38 99.33 99.3099.5099.40 99.48 99.28 99.4328× 2899.6399.4099.5599.4599.6899.38 99.52 99.4032× 32 99.50 99.3899.5299.45 99.45 99.3899.5599.4520° 8×8 91.68 91.30 92.23 92.90 99.48 99.1

下载后可阅读完整内容，剩余1页未读，立即下载