孟加拉语手写体复合字符深度学习模型

6 浏览量更新于2024-01-27 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于挤压激励ResNeXT的孟加拉语手写体复合字符识别深度学习模型Mohammad Meraj Khana，Mohammed，Mohammad Shorif Uddinb，Mohammad Zavid Parveza，LutfurNaharba孟加拉国达卡BRAC大学计算机科学与工程系b孟加拉国达卡贾汉吉尔纳加尔大学计算机科学与工程系阿提奇莱因福奥文章历史记录：2020年12月13日收到2021年1月4日修订2021年1月31日接受在线预订2021年保留字：孟加拉语复合字符手写字符识别OCR深度学习压缩激发模型A B S T R A C T在当今的数字化时代，手写文档的识别由于其广泛的应用而具有很高的要求。孟加拉语是世界上使用最多的语言之一，由50个基本字母组成。孟加拉语中存在着许多复合字，它们是两个或两个以上基本字的组合。孟加拉语手写体字符的识别是一项具有挑战性的任务，由于其各种大小，纯粹，多样性，大量的转折，字母之间的相似性，以及不同的书写模式。本文提出了一种使用SE-ResNeXt的深度CNN（卷积神经网络）模型。挤压和激励（SE）块与现有的ResNeXt一起添加，以解决孟加拉语手写复合字符识别问题。通常，CNN在低层提取空间特征，在上层提取复杂特征。添加SE块以通过分别通过局部感受野内的挤压和激发自动融合通道方向的空间信息和通道间依赖性来提高通常的深度CNN的性能。为了验证所提出的模型的性能，我们使用了Mendeley BanglaLekha-Isolated 2数据集。实验结果表明，该模型对孟加拉文手写体复合字符的平均识别率为99.82%。此外，所提出的模型优于国家的最先进的模型demonstrating更高的结果。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍孟加拉语是孟加拉-德西人的母语和官方语言它是印度第二大语言，世界第五大语言，拥有非常丰富的遗产。孟加拉语文字包括一些基本字和一些复合字。基本字有11个元音和39个辅音孟加拉语的基本特征见表1。除了基本字符外，它还包含约334个由两个或三个基本字符组成的复合字符（Kibria et al.，2020年）。这些复合性状的形成机理如表2所示。*通讯作者。电子邮件地址： merajkhan. gmail.com （ M.M.Khan）， zavid.parvez@bracu.ac.bd（M.Z. Parvez）。沙特国王大学负责同行审查该图的前两行显示了两个基本字符如何形成复合字符的新形状。图2的第三行示出了由两个保持其形状的基本字符形成的复合字符。在图的第四行。二是由三个基本字组成的复合字，其组成基本字的形状都不保留。由于不同复合字的形成机制不同，孟加拉语复合字的识别存在一定的困难。表3显示了24个常用孟加拉语复合字符的印刷形式，这些字符的手写版本在本工作中用于识别。表4显示了一些手写复合字符的示例，这些字符对于不同的人来说具有不同的风格由于不同的书写风格，一些复合字的形状可能看起来相似。表5显示了一些外观相似的孟加拉手写复合字符。表6显示了一些复合字符的单词的例子。孟加拉语手写字符识别由于其在各种应用中日益增长的实际用途而引起了人们的浓厚兴趣，例如自动数据输入，银行支票处理，邮政自动化，文档数字化等。https://doi.org/10.1016/j.jksuci.2021.01.0211319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comMohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3357表1孟加拉语基本字符（前11个是元音，后39个是辅音）。表2用基本字探讨孟加拉文复合字的形成机制表324个常用的孟加拉语复合字符，其手写版本在这项工作中用于识别。表424个常用孟加拉语复合字符的手写样本。表5一些形状相似的手写孟加拉复合字的典型样本用手指或触笔进行手写输入，这也需要被识别以便进一步处理。手写体复合字符识别比手写体基本字符识别更困难，这是由于：（1）书写表6一些复合字符的单词示例。不同的人有不同的字形、大小和形状;2不同的复合字有相似之处; 3复合字随着基本字的形成而变形。此外，不同的复合字符之间的角度，转弯，重叠和互连进一步使字符识别问题复杂化。虽然有一些关于孟加拉语手写基本字符识别的工作，但关于孟加拉语复合字符识别的工作报道相对较少（ Kibria 等人， 2020;Pramanik和Bag，2018; Rabby等人，2018; Sarkar等人，2017;Alom等人，2018; Shopon等人，2016; Basri等人，2020;Hasan等人，2019; Reza等人，2019; Keserwani等人，2017; Alif等人，2017年）。这些工作是使用具有多层感知器（MLP）的形状分解（Pramanik和Bag，2018）;支持向量机（SVM）（Kibria等人，2020）;卷积神经网络（CNN）（Rabby等人，2018; Alom等人，2018;Shopon等人，2016; Basri等人，2020; Hasan等人，2019;Reza等人，2019; Keserwani等人，2017; Alif等人， 2017年）。但标准的孟加拉语OCR的准确度还不能令人满意.最近在对象识别领域的一项研究的惊人结果给我们留下了深刻的印象，我们决定探索各种挤压和激励ResNeXt（SE-ResNeXt）模型，这是一种特殊的深度卷积神经网络，可以通过确定通道特征相互依赖性来学习非常复杂的本文的其余部分组织如下。第2节介绍相关文献。第三节介绍了孟加拉语手写复合字的书写方法。第4节显示了实验结果以及数据集。最后，第五部分对本文进行了总结。2. 相关作品在文献中，我们已经发现了大量关于英语和非英语手写字符的研究作品，例如中文、阿拉伯语、乌尔都语、梵文、普什图语、古吉拉特语、日语、罗马语（Li等人，2020; Gan等人，2020; Eltay等人，2020;Ashiquzzaman和 Tushar ， 2017; Bhagyasree等人， 2019; Saufi等人，2018;Clanuwat等人，2019; Jangid和Srivastava，2018; Puria和Singh，2019; Husnain等人，2019; Mohammed Aarif和Poruran，2020; Mudhsh和Almodfer，2017; Amin等人，2020年;帕里肯例如，2020; Parthiban等人，2020年）。在参考文献中。FPreferandAfroge（2019 ），Ashiquzzaman等人（2017 ），Chatterjee 等人（2019），Saha和Saha（2018），Kibria等人（2020），Pramanik和Bag（2018），Rabby等人（2018），Sarkar等人（2017），Alom等人（2018），Shopon等人（2016）和Basri等人（2020），讨论了孟加拉语手写复合字符的识别。对于识别，研究人员首先关注手动特征提取过程。但由于字体的多样性，这一过程是繁琐和费时的分类字符。由于巨大的风格变化，传统的机器学习方法面临着Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University33582Xω¼CC2×hi--CCCC平C高×宽1/1第1页C32×3232×32×6432×32×6416×16 ×1288×8×2561×1×25624SE-ResNeXtBlock-2（128个过滤器）SE-ResNeXtBlock-3输出全球平均池化全连接层输入SE-ResNeXtBlock-1（64个过滤器）块卷积内核-3×3(64过滤器）Fig. 1.所提出的SE-ResNeXt模型的框图。手写体字符识别的特征提取困难。Pramanik和Bag（2018）研究了使用MLP（多层感知器）的基本形状分解，用于识别孟加拉语手写字符。最近，Kibria et al. （2020）提出了一种基于高级特征集分类器的支持向量机（SVM）方法。但由于基于MLP的模型是完全连接的，因此它需要tion F tr：X？U，X R H×W×C，其中F tr是标准卷积运算符，U是输出，X是输入，H是高度，W是宽度，C是通道。设V=[v 1，v2，. . . 表示滤波器核的学习集合，其中v 。是指第c个滤波器的参数。我们可以将F tr的输出写为U = [u1，u2，. . ，uc]，其中权重太多，这会由于冗余而导致过拟合。另一方面，支持向量机在处理相关性时遇到困难uc¼vcXc0s1vsωxs1在数据量大、复杂且空间丰富情况下信息. 这些方法面临着巨大的分类困难，其中， <$表示卷积n，vc^hv 1;v 2;· ··;v C0i，各种复合形状字符由于它们的形状相似性和它们的精确度达不到实际OCR的标准。因此，一些研究人员研究了卷积神经网络（CNN）（Rabby et al. ，2018; Saha和 Saha，2018; Reza例如，2019;Keserwani等人，2017; Alif等人，2017年），用于识别孟加拉语字符。然而，上述讨论的方法的准确性不符合实际OCR的标记。最近，研究人员正在探索基于深度学习的方法（FPreferand Afroge，2019;Ashiquzzaman等人，2017; Chatterjee等人，2019; Alom等人，2018;Shopon等人，2016; Basri等人，2020; Hasan等人，2019）识别孟加拉手写字符，因为深度学习技术在各种对象识别任务中表现出色。受此启发，我们选择研究一种深度神经模型，该模型克服了所研究的深度CNN的一些限制（Alif et al.，2017;Chatterjee等人， 2019年）的报告。3. 建议的识别方法在本节中，将解释所提出的方法的细节。所提出的方法的框图如图所示。1.一、图中的模型。 1，由卷积块组成X¼x1;x2;· ··;xC0（对于简单y，排除偏差项）。这里vs是二维空间核，其表示作用于对应通道X的v c的单个通道。由于输出是通过对所有通道求和而产生的，因此通道依赖性通过空间相关性嵌入到vc中。的网络通过以下转换使用信息特征而被授权。添加了ResNext的SE构建框图如图所示。二、3.2. Squeeze：全局信息嵌入通道间依赖性利用是一个问题，该问题在网络的非常深的层中变得更加严重，特别是对于具有较小感受野大小的那些层。滤波器以局部感受野操作，并且变换后的输出不能与其它连续信道共享该信息。为了解决这个问题，我们引入了一个全球总结的通道，这可以被看作是信道统计，通过挤压全球空间信息。这可以通过使用全局平均池来实现，该池将最具信息性的特征作为通道描述符。对于空间维度W_H，通过收缩U来生成信道统计z R_c，其中z的第c个元素通过下式计算：和几个SE-ResNeXt块。每个SE-ResNeXt块包含3个内部块，其中每个内部块包含17个卷积1XH XWz¼Fu层、2个全连接层和1个全局平均池化层。此外，SE-ResNeXt块总共包含51个卷积层、6个全连接层和3个全局平均池化层。3.1. 挤压和激励块挤压和激发（SE）块（Hu等人，2020）是一个计算单元，可以为任何给定的transforma构造。其中坐标（i，j）表示像素的位置，i = 0，1，2，. . ，H1，并且j =0，1，2，.. . ，W 1.变换输出U可以被解释为局部描述符的集合，其统计数据表示整个图像。这种类型的信息广泛用于特征工程工作（Chollet，2017）。为了简单起见，我们在这里使用全局平均池化。Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3359RΣΣR2Cc22图二. SE-ResNeXt构建块。3.3. 激励：自适应重新校准我们从之前的挤压操作中获得的通道统计数据用于完全捕获激发操作中的通道间为了实现我们期望的目标，我们将使用具有S形激活的非常简单的门控函数，其执行两个标准：（i）它必须能够捕获通道到通道非线性，以及（ii）它必须能够找到非互斥关系，因为允许强调多个通道而不是一个热激活。门控函数用公式表示为Eq.（三）、s<$Fexz;Wrgz;WrW2dW1z3其中d是指ReLU（Clevert等人，2016; Nair and Hinton，2010）函数，W1R×C和W R×C。为了降低模型的复杂性和提高泛化能力，我们通过在非连通层周围使用两个全连接（FC）层来参数化门函数通过具有参数W1的降维层的线性度，其中降维比r = 16，ReLU，然后是维度-增加层与参数W2。最终的输出是通过重新缩放得到的。xc¼F比例尺为1000;sc¼sc uc为1000其中，X1/4x1x2;···;xC和Fscale表示特征图uc2RH×W和标量sc的通道影响。3.4. 辍学在神经网络的训练阶段，模型不仅学习特征，而且在一定程度上从训练数据中学习随机噪声，并变得过拟合。这导致模型在使用不可见数据集进行测试时表现不佳。尤其是当网络中的神经元数量多于独立参数时。Dropout就是这样一种技术，其中一定比例的神经元将在网络的训练阶段被删除，如图3所示。随机选取需要去除的神经元，以利于模型的推广。它使网络在看不见的数据集中也能很好地预测在所提出的模型中，我们图三.应用dropout后的标准神经网络（Ashiquzzaman等人， 2017年）。Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3360公司简介TPFFN××0.00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000×我k¼1;kj¼1;j JK表7SE-ResNeXt模块的详细构造和设置Conv 3× 3 64 UConv 1× 1 64全球平均值汇集FCFCConv 1× 164 U8 3 16×16 × 128Conv 3× 3 64 UConv 1× 1 64全球平均值汇集FCFCConv 1× 164 U8 3 8×8 × 256Conv 3× 3 64 UConv 1× 1 64全球平均值汇集FCFC全球平均值--- - - - 256简体中文表8MNIST和Mendeley BanglaLekha之间的比较-孤立2.MNIST数据集Mendeley BanglaLekha-孤立2位置居中非居中缩放均匀非均匀类10（只有10位数）84（50个基本字符，24个复合字符，10位数字）数据样本70000 166105有效地使用了dropout技术来解决过拟合问题。3.5. 模型架构该模型由SE-Resnext块层构建。原始ResNeXt块略有修改，增加了一个特殊的计算块挤压和激励（SE）。SE块由一个全局平均池化层和两个非线性FC层组成。所提出的模型的架构如表7所示，其中内括号表示字符不居中且比例不一致。 Mendeley BanglaLekha-Isolated 2 和MNIST数据集的简要总结见表8。准确度定义为分类器正确识别的总样本的百分比。精确度定义为分类器预测的实际阳性样本占总阳性样本的百分比。召回率被定义为被分类器正确预测为阳性的总阳性样本的百分比。F1得分是精确度和召回率的调和平均值。最后，我们还计算了整个分类器的平均准确率、平均精确率、平均召回率和平均F1分数。性能结果如表3所示，这是非常好的性能。精度TP100 5TPTNFPFN精密度（%）TP× 100ð6Þ召回数量%TP× 100ð7ÞResNeXt块，ResNeXt块的输出馈送到SE块，并且外括号表示形成SE-ResNeXt层的SE-Resnext块的数量。F1-分数为10%精度×召回精度×召回100ð8Þ4. 实验装置及结果分析为了验证所提出的模型，我们使用了标准的 MendeleyBanglaLekha-Isolated 2数据集（Mohammed等人，2017年），包含来自不同年龄和性别的多个作家的手写孟加拉语复合字符以及基本字符。该数据库包含50个孟加拉语基本字符，24个选定的复合字符和10个孟加拉语数字。对于每个字符，2000手写样本采集和预处理。除去一些错误的字符，数据集中共有166，105个（而不是2000个84 = 168，000个）手写字符图像。为了调查，我们已经拿走了55000美元复合字符样本。其中45，000个用于哪里True Positive（TP）-分类器将正确的复合字符预测为正确的真阴性（TN）-分类器将错误的复合字符预测为错误假阳性（FP）-分类器将错误的复合字符预测为正确的假阴性（FN）-分类器将正确的复合字符预测为错误的类的TP、TN、FP和FN是通过使用方程计算的。（9）─（12）（Habib等人， 2020年）。TPi¼cii20910,000人用于培训，10,000人用于测试。该数据集相对与MNIST数据集相比复杂（LeCun等人，2010年），作为TN¼XnXNCð10Þ层内核大小滤波器激活基数块输出Conv3 ×364ReLU––32×32 × 64Conv1 ×164ReLU8332×32 × 64Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3361×××我j¼1;j IJFP¼Xc图四、培训和测试的损失和准确性nij¼1;j 纪FN¼Xncð11Þð12Þ输入数据到下一个计算层。批量标准化提供了一个很大的增强训练。实验结果表明，该模型在训练和测试阶段均能较好地克服过拟合问题（Clevert等人，2016年; Nair和Hinton，2010年）。其中i是类，n是复合字符类的总数（n= 24）。这里，i = 1，2，3，.. . jk是混淆矩阵的第jk个元素，j和k分别表示混淆矩阵的行和列所有的模拟都是在具有第9代Intel i7-9700 K，3.6 GHz处理器的计算机上进行的，16 GB RAM 。 CUDA 加速计算使用 NVIDIARTX2080Ti11GB DDR6 GPU实现。Mendeley BanglaLekha-Isolated 2数据集的图像大小不同，从150到185185像素。然而，所有的图像都被转换为灰度，并调整大小，3232个像素用于将其作为输入馈送到所提出的模型。在训练过程中，我们选择了批量大小64。总迭代被设置为783，具有100个历元。此外，在测试过程中，我们选择了10次迭代来获得平均结果。作为优化函数，我们使用Nesterov动量。为了加速训练过程和快速收敛，我们执行了批量归一化（Thakkar等人， 2018年，在喂食前图五. 归一化混淆矩阵。为了解决这个问题，我们使用了dropout技术，这使得它成为一个广义模型。从图4（a）中，我们可以看到，对于训练和测试，损失函数都逐渐减小。在稳定状态下，训练损失为零，测试损失更接近于零，测试和训练损失之间的差异非常接近，这表示模型在泛化方面做得很好，没有过拟合（训练损失验证损失）或/和没有欠拟合（训练损失验证损失）。从图4（b）中，我们可以看到精度随着每次迭代而逐渐增加。经过多次迭代，它变得稳定。在早期阶段，训练和测试精度之间的差异较大，但在后期阶段，它变得越来越小。这表明该模型在未知数据上预测良好，而不是过度拟合或欠拟合。该模型只需要一个称为基数的超参数，而不是传统深度CNN中需要的许多超参数。为了克服消失的梯度问题，我们利用了跳跃连接和校正线性单元（rectified linear unit，简称RIU），其中跳跃连接有助于平滑梯度流，RIU有助于有效地流动梯度。全局平均池化在最终FC层之前使用，这在CNN环境中更原生，它可以很容易地找到特征图和输出类别之间的相似性或关系。如果我们仔细观察图5中的标准化混淆矩阵，我们可以看到类、的真阳性率比其余类要低。这些类的字符的形成有点复杂;有很多转弯，角度和类似的模式。存在来自数据集的大量类别“”的图像类因此，这些类别中的不匹配是频繁的。我们也注意到这个问题的字符相似性存在严重的字符类''” and ‘‘ 结果反映在表9中，我们可以看到这些类的准确率，精确率，召回率，F1分数相对低于其他类。我们已经通过图5所示的24个常用复合孟加拉语字符类的归一化混淆矩阵研究了我们的方法的性能。从混淆矩阵，我们已经计算了类的准确率，精度，召回率，和F1分数使用方程。（5）Eq.（8）分别。Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3362表9类的准确率、精确率、召回率和F1分数。最后，还显示了这些指标的平均值类精度精度召回F1得分0.990.840.950.891.001.001.001.001.000.990.910.951.001.001.001.001.000.990.990.991.001.001.001.001.000.991.001.001.000.991.001.000.990.960.850.901.001.001.001.001.001.000.990.991.001.001.001.001.001.001.001.001.001.000.990.991.000.981.000.991.001.001.001.000.990.880.980.921.001.001.001.001.001.000.990.991.000.990.980.991.001.000.980.991.001.001.001.001.000.910.980.940.990.930.840.88平均九十九点八二百分之九十七点七五百分之九十七点六三百分之九十七点六二表10与现有最先进技术的性能比较。方法应用技术精度F1得分计算环境Kibria等人（2020年）支持向量机88.73%88.89%–普拉马尼克和包尸体腐烂。+ MLP88.74%––（2018年）Ashiquzzaman等人（2017年）Deep CNN 93.68%-Afroge带有ReLU和Dropout的百分之九十五点五–（2019年）12 GB RAMAlif等人（2017年）ResNet-18百分之九十五点九九-1050Ti 4 GB GPUChatterjee等人ResNet-50百分之九十六点一二–（2019年）Saha and Saha（2018）DCNN + Divide and Merge Mapping + Optimal百分之九十七点一二–NVIDIA 940 GEFORCE 2 GB GPU路径查找器Alom等人（2018年）ResNet + DenseNet百分之九十八点三一–Intel Core-i7 CPU@3.33 GHz，56.00 GB RAMHasan等人（2019）DCNN + BiLSTM百分之九十八点五–Intel Core-i7 CPU@3.20 GHz，16 GB RAM和NVIDIA GeForceGTX-1070我们的方法SE-ResNeXt九十九点八二百分之九十七点六二Intel Core- i7，3.6 GHz CPU，16 GB RAM和NVIDIA RTX-2080Ti GPU我们还记录到，除了少数情况外，大多数情况下的分类准确率高达100%，这些情况比较复杂，并且与其他类别类似我们提出的模型的处理速度约为12毫秒的识别复合字符。表10显示了我们的方法与现有最先进技术的比较性能从性能数据来看，很明显，我们的模型比现有的方法具有明显的优越性优异结果背后的原因如下。Kibria等人（2020）提出的基于SVM的模型在处理相关性时遇到困难，如果输入图像复杂且数据量巨大。此外，SVM没有利用丰富的空间信息，而仅仅依赖于图像像素的光谱特征。由Pramanik和Bag提出的基于形状分解+多层感知器（MLP）的模型Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3363（2018）需要太多的参数，因为每一层都是完全连接的。因此，连接权重快速增长并变得难以管理，导致冗余和低效率，过拟合，并失去泛化能力。此外，形状分解需要更多的手工工程来区分不同的特征，这是一项繁琐、噪声敏感且耗时的任务。Ashiquzzaman等人（2017）和FPreferand Afroge（2019）提出的深度CNN模型比以前的SVM或MLP模型表现更好。但他们使用的香草深度CNN并不好-即将呈现ResNet有太多的参数，计算昂贵，其网络架构复杂。通过堆叠卷积层来使模型更深并不能保证验证精度和泛化能力的提高随着训练时间的增加，它最终会通过比较ResNet-50和ResNet-18，我们可以看到，Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3364表11一些分类错误的案件。表12其他相关方法的一些错误分类病例。方法测试数据真类预测类Pramanik和Bag（2018）FPreferand Afroge（2019）Ashiquzzaman等人（2017年）Hasan等人（2019年）Chatterjee等人使用的ResNet-50模型的准确性。（2019）与Alif等人使用的Resnet-18相比，根本没有希望。（2017年）。Alom等人使用的DenseNet模型（2018）在准确性方面比ResNet模型表现得更好。但是DenseNet使用的内存比ResNet多，因为来自不同层的张量是连接在一起的。Hasan等人（2019）提出的DCNN + BiLSTM模型实现了良好的准确性，但几乎没有缺点。LSTM适用于序列数据，如时间序列问题。它需要太多的数据才能得到一个好的结果，而且它的训练时间也很长。此外，dropout在LSTM中更难实现所提出的SE-ResNeXt模型在其深度网络上有两个潜在的改进，首先，我们在并行路径中执行操作，而不是深入。“分裂-合并”技术只需要一个叫做基数的其次，SE块通过使用通道特征相互依赖性，使模型能够学习更复杂的我们还在ResNeXt块中使用了跳过连接，这克服了消失的梯度因此，与其他方法相比，我们的方法给出了改进的我们还注意到测试中的一些错误分类。数据集不足、缺乏变化、书写模式和结构的相似性可能导致这些错误分类。模型架构的进一步改进和组合多个数据集可以改善这个问题。表11显示了一些错误分类的例子。与我们的方法相比，其他方法的误分类率更高。这些相关方法的一些错误分类示例见表12。如果我们仔细研究表12中所示的错误分类案例，我们会发现Pramanik和Bag（2018）提出的方法表现不佳，尽管测试图像数据清晰，而且形成风格并不复杂。FPreferand Afroge（2019）和Ashiquzzaman等人（2017）提出的方法也发生了同样的情况。Hasan等人（2019）提出的方法表现相对较好，其中第一和第三个测试数据即使是人眼也难以识别然而，中间的一个是某种程度上清楚的，虽然模型未能识别真正的类。5. 结论在这项工作中，我们校准了基于SE-ResNext的深度卷积神经网络模型，该模型是在ResNext模型之上的SE计算层的组合，随着该方法的引入，我们已经提出了结论性的结果，减少了超参数和复杂性，并增加了学习非常复杂的功能的能力。我们相信，这种策略将是有用的其他任务中提取的强歧视性的功能。此外，批量归一化和跳过连接的使用使模型即使在较大的数据集上也具有闪电般的训练能力该模型具有较低的复杂度和较快的收敛速度，具有良好的可扩展性。使用广泛使用的Mendeley BanglaLekha-Isolated 2数据集，我们实现了99.82% 的平均准确率， 97.75% 的准确率， 97.63% 的召回率和97.62%的F1分数到目前为止我们所知的，这是在孟加拉手写体复合字符识别中性能较好的。基于实验结果，我们相信，该模型可以导致高性能的OCR数字文档的发展的突破我们计划开发一个新的复杂数据集，并将该模型应用于其他数据集，以比较结果进一步改进。资金这项研究没有收到任何资金。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Alif，M.A.R.，艾哈迈德，S.，哈桑，文学硕士，2017.用卷积神经网络识别孤立孟加拉手写字符。计算机和信息技术国际会议，孟加拉国达卡。Alom，M.Z.，Sidike，P.，哈桑，M.，塔哈，T. M.，Asari，V.K.，2018.使用最先进的深度卷积神经网络进行手写孟加拉语字符识别。计算智能和神经科学，Hindawi。文章ID6747098，13页。Mohammad Meraj Khan，Mohammad Shorif Uddin，Mohammad Zavid Parvez et al. Journal of King Saud University3365M.S. Amin，Yasir，S. M.，安贤植2020年基于深度学习的普什图语手写字符识别。传感器，MDPI 20（20），5884。Ashiquzzaman，A.，Tushar，A.K.，2017.使用深度学习神经网络进行手写阿拉伯数字识别。在：IEEE国际会议成像，视觉&模式识别（icIVPR），13-14二月。2 0 1 7 年，孟加拉国达卡，pp.一比四Ashiquzzaman，A.K.M.，Tushar，A.K.，杜塔，S.，Mohsin，F.，2017年。一种有效的方法，用于提高手写体孟加拉语复合字符的分类精度，使用DCNN与Dropout和ELU。计算智能和通信网络研究国际会议（ICRCICN），孟加拉国达卡。巴斯里河哈克先生Akter，M.，Uddin，M.S.，2020.使用深度卷积神经网络的孟加拉手写数字识别。International ConferenceComputing Advancements（ICCA 2020），Dhaka，Bangladesh（ACM DigitalLibrary）. ACM。Bhagyasree，P.V.，James，A.，萨拉瓦南角，澳-地2019.提出了一个使用DAG-CNN识别手写体英文字符的框架。信息和通信技术创新国际会议，印度钦奈。查特吉，S.，Dutta，R.K.，Ganguly，D.，Chatterjee，K.，罗伊，S.，2019.在深度卷积神经网络上使用迁移学习的孟加拉手写字符分类。智能人机交互国际会议，阿拉哈巴德，印度。Chollet ， F. ， 2017.Xception ： DeepLearningwithDependableSeparableConvolutions在线提供：1610.02357.Clanuwat，T.，Lamb，A.，Kitamoto，A.，2019. KuroNet：前现代日本Kuzushiji字符识别与深度学习。国际文件分析和识别会议（ICDAR2019），悉尼，澳大利亚。Clevert，D.A.翁特锡纳，T.，Hochreiter，S.，2016.通过指数线性单元（ELU）进行快速准确的深度网络学习在线：arXiv：1511.07289。Eltay，M.，Zidouri，A.，艾哈迈德岛，巴西-地2020.探索深度学习方法来识别手写阿拉伯语文本。IEEE Access第8卷，89882-89898。FPreferred，A.，Afroge，S.，2019.手写孤立孟加拉复合字符识别。孟加拉国科克斯巴扎尔电气、计算机和通信工程国际会议。甘，J.，王伟，卢，K.，2020.压缩用于空中手写汉字识别的CNN架构。模式n。Lett.129，190-197。https://doi.org/10.1016/j.patrec.2019.11.028网站。哈比卜，麻省理工学院，Majumder，A.，Jakaria，A.Z.M.，Akter，M.，Uddin，M.S.，艾哈迈德，F. 2020. 基于机器视觉的番木瓜病害识别。J. King Saud University. 信息科学32，300-309。Hasan，M.J.，Wahid，M.F.，Alom，M.S.，2019年。结合深度卷积神经网络和双向长短期记忆的孟加拉文复合字符识别。电子信息和通信技术国际会议，孟加拉国库尔纳。胡，J，沈，L.， Albanie，S.，孙，G.， Wu，E.， 2020. 压缩-激励网络。IEEE传输模式分析马赫内特尔42（8），2011-2023。Husnain，M.，米森，多发性硬化症，Mumtaz，S.，Jhanidr，M.Z.，Coustaty，M.，Luqman，M.M.，Ogier，J.M.，Choi，G.S.，2019.基于卷积神经网络的乌尔都语手写体字符识别。Appl. 科学， MDPI 9（13），2758。Jangid，M.，斯里瓦斯塔瓦，S.，2018.使用深度卷积神经网络和自适应梯度方法的逐层训练进行手写梵文字符识别。 J. Imaging，MDPI 4（2），41.Keserwani，P.，Ali，T.，罗伊，P.P.，2017.一种用于手写孟加拉文复合字符识别的两阶段训练卷积神经网络。第九届模式识别进展国际会议（ICAPR），印度班加罗尔。Kibria，M.R.，艾哈迈德，A.，Firdawsi，Z.，Yousuf，文学硕士，2020年。基于高级特征集的支持向量机孟加拉文复合字符识别。 IEEERegion 10 Symposium（TENSYMP），Dhaka，BangladeshY.莱昆，科尔特斯角，澳-地Burges，C.J.，2010. MNIST手写数字数据库AT& T实验室。Li，Z.，吴昆，肖，Y.，Ji

下载后可阅读完整内容，剩余1页未读，立即下载