马拉雅拉姆语手写字符图像数据库的建立与识别研究：特征描述符达到91.05%的识别准确率

148 浏览量更新于2024-01-06 收藏 1.77MB PDF 举报

图像分割算法

手写字符识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程科学与技术，国际期刊22（2019）637完整文章马拉雅拉姆文手写字符图像数据库的开发K. Manjushaa，M.Anand Kumarb，K.P.索曼aa计算工程网络中心（CEN），印度，Amrita Vishwa Vidyapeetham，Coimbatore，Amrita工程学院b信息技术部，NIT K - Surathkal，Mangalore 575025，印度阿提奇莱因福奥文章历史记录：2018年1月24日收到2018年10月14日修订2018年10月29日接受在线预订2019年保留字：马拉雅拉姆语手写字符识别手写字符图像数据库活动轮廓最小化光学字符识别A B S T R A C T本文的目的是建立一个马拉雅拉姆语手写字符图像数据库。标准的手写文档图像数据库是开发和客观评估任何语言脚本的不同手写文本识别系统的基本要求。手写马拉雅拉姆语字符识别的研究工作相当多的文献。尽管如此，没有公共领域的手写图像数据库可用于马拉雅拉姆语。目前的马拉雅拉姆语字符的独特正字法表示形式形成了不同的字符类，当前版本的数据库包含85个经常用于书写马拉雅拉姆语文本的字符类。从77个本地马拉雅拉姆语作家收集的手写数据样本。为了从手写数据表中提取字符图像，采用了基于活动轮廓模型的图像分割算法。通过采用不同的特征提取技术，对创建的字符图像数据库进行识别实验。在所考虑的特征描述符中，基于离散卷积网络的特征描述符达到最高的识别准确率91.05%。©2018 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍机器将通过成像设备捕获的手写文档转换为其等效的机器可读和可搜索文档格式的能力，通常称为脱机手写文本识别。手写体文本识别是模式识别领域中一个热门、活跃的研究领域。离线手写文档文本识别是不同现实世界应用的组成部分，例如邮政邮件分拣，银行支票处理，盲人阅读辅助和数据输入应用[1]。文档文本识别通过识别文档图像中的文本内容简化了自动数据输入应用实现任何特定语言脚本的文档识别器的首要步骤是选择合适的文档图像数据库。如果这样的数据库不可用，那么第一个任务是为该脚本创建一个新的文档图像数据库。基准数据库往往是必要的实施，评估-*通讯作者。电子邮件地址： k_manjusha@cb.amrita.edu （ K.Manjusha ），kp_soman@amrita. edu（K.P. Soman）。由Karabuk大学负责进行同行审查评估和比较不同的手写文档识别系统[2]。用于手写文档识别研究和开发的几个此类基准数据库可用于拉丁语[3，4]、阿拉伯语[5，6]、中文[7[2]语言脚本。就印度语言文字而言，现有的基准文件图像数据库数量非常有限。印度统计研究所（ISI）加尔各答已经发布了孟加拉语、梵文和奥里亚语脚本的离线手写字符图像数据库[10]。ISI数据库包括孟加拉文的孤立数字、基本字符、元音修饰符和复合字符数据集、梵文的孤立数字、基本字符数据集和奥里亚文的孤立数字数据集印度语言脚本字符图像数据库存储库的另一个主要提供商是加尔各答Jadavpur大学培训教育和研究微处理器应用中心（CMATER）[11]。CMATERdb包括孟加拉语、梵文、阿拉伯语和泰卢固语脚本的页面、行、字和字符级别的不受约束的手写文档图像。HP Labs India发布的印度手写数据集包含泰米尔语、泰卢固语和梵文脚本的在线手写字符数据的离线图像版本[12]。尽管在马拉雅拉姆语手写文档识别方面已经进行了如此多的孤立的研究工作，但缺乏https://doi.org/10.1016/j.jestch.2018.10.0112215-0986/©2018 Karabuk University.出版社：Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页：www.elsevier.com/locate/jestch638K。Manjusha等人/工程科学与技术，国际期刊22（2019）637摘要标准开源的马拉雅拉姆语文档图像数据库是每个从事马拉雅拉姆语手写体识别研究的人员不得不面对的问题之一。先前的马拉雅拉姆手写字符识别研究工作利用他们自己创建的数据库来实验和评估不同的字符识别算法。马拉雅拉姆语手写文档图像数据库的标准基准的不可用性使得马拉雅拉姆语字符识别中报告的研究工作的统一比较评估变得困难。本文是关于建立一个公共领域的马拉雅拉姆语字符图像数据库。第二部分描述了马拉雅拉姆语的手写体和手写体马来语字符识别的研究成果。第3、4节概述了文档图像的采集过程，并对所建立的马拉雅拉姆语字符图像数据库进行了统计。在第5节中描述了不同识别系统在所创建的数据库上的性能分析。第6节讨论了当前工作的总结和未来工作的范围。2. 马拉雅拉姆语文字马拉雅拉姆语是印度的古典语言之一，根据2001年印度人口普查，有超过3300万人以马拉雅拉姆语为母语。马拉雅拉姆语在印度西南部的喀拉拉邦和印度联邦领土之一的马拉雅拉姆语是印度的官方文字之一，属于达罗毗荼语系。马拉雅拉姆语与泰米尔语和梵语有着密切的联系，这些语言对马拉雅拉姆语的语法和词汇的形成产生了很大的影响[13]。因此，马拉雅拉姆文字使用Vatteluttu和Grantha文字的符号来书写音节。与大多数印度语言文字一样，马拉雅拉姆文字有字母音节的性质。该脚本是从左到右写的，没有草书，也没有小写和大写字符的概念。马拉雅拉姆语的字形通常比其他印度语言的文字更圆。直线的存在仅在27%的基本字符集的情况下被发现，并且大多数马拉雅拉姆语字符的凹面方向是向下的[14]。马拉雅拉姆语中的单词通常写为字母中的音节序列和独特的正字法单位通常被称为akshara。马拉雅拉姆文字的基本 akshara 集（ aksharamala ）包含 15 个元音（swarangal）和36个辅音（vyanganagal）符号。马拉雅拉姆语的元音有独立和从属形式。当马拉雅拉姆语单词以元音开头时，使用独立的元音形式。从属元音形式（元音修饰语）被表示为变音符号，并与辅音相连，以表明辅音后面跟着元音。除“a”以外的所有元音都有变音符号。元音特殊的变音符号马拉雅拉姆文字还包含半辅音符号（chillu），联合字符（两个或多个辅音的组合），辅音修饰语，数字和一些特殊字符。传统的马拉雅拉姆文字（旧lipi）由于存在大量的合取字符而具有大量的字符字形连读字的正字法结构比较复杂，它产生大量形状相似的字，但其正字法结构的变化很小1971年，喀拉拉邦政府引入了马拉雅拉姆文的改革版本（新lipi），其中复杂的连接字符通过辅音字符和变音符号。但改革后的汉字只是部分地改变了传统的旧汉字，随着现代文字处理机的到来，大多数旧的或传统的里皮文字重新出现在印刷品中。因此，现在的马拉雅拉姆语脚本通常是新旧lipi字符的混合。马拉雅拉姆语的独特字符字形的总数超过250个，因为在文件中存在新旧两种lipi字符其中，许多合取字符字形现在只在使用某些特定字体样式的打印文档中使用。在书写方面，现在的新隶字和一些精选的连读字只是常用的。与印度最流行的两种语言孟加拉语和梵文相比，马拉雅拉姆语手写字符识别的研究工作开始得有点晚[15]。在字符识别中，大量的字符类和字符形状之间的结构相似性使得马拉雅拉姆语字符识别成为一个具有挑战性的大型多类分类问题。在马拉雅拉姆语手写字符识别的文献中报道的大多数工作是基于结构 [16 ， 17] ，统计 [18 基于支持向量机（SVM）和神经网络（NN）的分类器在处理马拉雅拉姆语字符分类问题时是有效的[29]。在本文中，不同的特征提取技术进行了评估上创建的马拉雅拉姆手写字符图像数据库。3. 马拉雅拉姆语手写文档图像数据采集本节描述了为创建马拉雅拉姆语脚本的字符级图像数据库而进行的马拉雅拉姆语手写图像数据收集过程。3.1. 马拉雅拉姆语字符类在开始手写数据收集之前，马拉雅拉姆语字符类别是根据马拉雅拉姆语脚本中独特的正字法结构确定的。85个马拉雅拉姆语字符类代表元音，辅音，半辅音，元音修饰语，辅音修饰语和连词字符，经常使用，而写作被认为是数据库的创建。表1列出了代表所考虑的85个马拉雅拉姆语字符类的正字法符号及其Unicode表示。连读字是辅音的组合，用构成辅音的Unicode表示法和字汇表示法相结合来表示。3.2. 文档图像数据采集过程对于模式识别相关的应用，数据模式是最必要的需求之一。如果特定识别应用的数据模式不可用，则实现识别系统的首要任务是收集数据模式。在模式识别的应用中，数据采集是一项繁琐的工作.这些手写的文件是在监督下从不同的马拉雅拉姆语本地作家那里收集的。为了收集字符图像，作者被指示使用圆珠笔在页面上书写所考虑的马拉雅拉姆语字符类五次，注意每个书写字符之间的空间。对书写所用纸张和圆珠笔的类型或质量没有限制。图1显示了作为数据收集过程的一部分收集的手写数据表样本。手写数据收集自77名（60名女性和17名男性）20至60岁年龄组的马拉雅拉姆族作家K. Manjusha等人 /工程科学与技术，国际期刊22（2019）637-645639表185个马拉雅拉姆语字符类被考虑用于当前数据库创建。所有的作家都有最低的毕业学历。学习和测试数据集是根据作者而不是收集的图像划分的。在77名作者中，从59人收集的手写数据被认为是用于创建学习数据集，而从其余18人收集的手写数据被认为是用于创建测试数据集。表2显示了手写数据包含在学习和测试数据集中的作者的性别和年龄信息。数据库中的女性作家是男性作家的三倍。在学习和测试数据集中，写作者的年龄在划分的年龄组中分布不均衡。测试数据集可能更具挑战性，因为45-55岁年龄组的作者不包括在学习数据集中，但存在于测试数据集中。收集的手写数据表使用富士通图像扫描仪ScanSnap SV600进行光学扫描，具有自动检测扫描模式。4. 马拉雅拉姆语手写字符图像数据库的建立从扫描的手写数据表中，应用字符分割算法提取孤立的对分割后的字符图像进行人工标记和分类，建立字符图像数据库。本节描述了从收集的手写数据表中提取字符图像的过程，以及从这些分割图像创建的字符图像数据库的结构4.1. 字符分割对于孤立手写体字符的提取，采用基于活动轮廓模型的图像分割算法。几何活动轮廓模型是变分和偏微分模型.ðÞ ¼64万Manjusha等人/工程科学与技术，国际期刊22（2019）637Fig. 1.马拉雅拉姆语样本从一个作家收集的手写数据表。表2数据集中作者的统计数据数据集许多作家性别年龄（岁）教育水平女性男性20–2930–3940学习594514441302 00P毕业测试181503110104 02P毕业基于方程的方法，可以从输入图像中提取感兴趣的对象。这些模型利用水平集理论的思想，在图像中演化轮廓，以适应对象的边界。为了表示曲线C，水平集函数u可以表示为如等式（1）所示（1）其中曲线C在u =0处，并且dx;y;C是从点x;y到曲线C的最近距离。形象基于区域的活动轮廓模型的能量泛函的最小化用于图像的有效分割[31]。处理适合字符边界的最终轮廓以提取孤立的字符图像[30，32]。图2显示了轮廓进化的结果和基于这些轮廓拟合输入图像的边界。图2（a）显示了示例图像ux; ydx;y;C;ifx;y在C里面-dx;y;C;如果x;y在Cð1Þ包含马拉雅拉姆语文本，图2（b）显示了图像上的等高线图。用于将生成的图像转换为二进制为了使曲线随时间演化以适合图像内的对象边界，通过平均曲率运动将偏微分方程应用于水平集函数u[30]。为了在曲线到达物体边界时停止曲线的演化，利用从图像中计算的基于边缘和区域的在基于区域的活动轮廓模型中，利用曲线内外的平均灰度值拟合物体内部边界上的演化曲线表示，使用Otsu4.2. 字符图像数据库Amrita_MalCharDb的结构当前版本的马拉雅拉姆字符图像数据库包括从××K. Manjusha等人 /工程科学与技术，国际期刊22（2019）637-645641图二、基于ACM-FGM算法的字符分割收集的手写数据表使用字符分割算法。由于在书写孤立的马拉雅拉姆语字符时没有对作者施加任何约束，因此手写数据表的扫描图像内的文本部分被裁剪，以使分割更容易。分割的字符图像被手动分组到所考虑的85个马拉雅拉姆语字符类。在分组时排除破碎或严重失真的字符图像，并调整分割的字符图像的大小，32 32维。创建的字符图像数据库可用于请求 1，并以逗号分隔值（CSV）文件的形式发布。提供三个CSV文件，分别代表培训、CSV文件中的每一行都代表一个字符图像。第一列表示类别标签，其余列表示32 32图像，按列矢量化。来自59个人的孤立字符图像形成学习数据集。每个字符类中的75%的字符图像从学习数据集用于创建训练数据集，而其余25%考虑验证。来自其余18位作者的图像形成测试数据集。创建的数据库中的字符图像总数为29，302。每个类别的字符图像的数量是不相同的，因为一些图像由于字符分割后的失真或破损而被丢弃。在整个数据库中，每类的字符图像的平均数量为344，并且类之间的计数分布的标准偏差为37.96。图3显示了从6个不同的马拉雅拉姆语字符类别中提取的随机样本。训练数据集中的图像总数为17，236。对于确认数据集，总图像为5706，对于测试数据集，总图像为6360。计算训练、验证和测试数据集中的字符图像的类计数。对于训练数据集中的每个字符类，1向manjushagecpkd@gmail.com发送主题为图三.随机选择的字符图像在六个不同的马拉雅拉姆语字符类。计算图像中的对象表3显示了随机选择的20个马拉雅拉姆语字符类的类计数字符图像中ON像素的数量取决于书写者的书写风格和用于书写的资源。表3的最后两列列出了所选类别的训练数据集中ON像素的最小和最大数量。当前版本的数据库中所有85个字符类的统计信息本数据库被命名为Amrita_MalCharDb。该数据库是作为AmritaVishwa Vidyapeetham大学计算工程和网络中心进行的研究工作的一部分创建的642K。Manjusha等人/工程科学与技术，国际期刊22（2019）637表3随机选择的20个马拉雅拉姆语字符类的类明智的统计马拉雅拉姆语字符数字符图像训练数据集培训验证测试是说标准偏差最小像素最大像素数22575109249.7850.3312539123477102231.7250.3710739622073101202.0638.641233031986587204.3542.271183482006669262.4548.181593711906344269.7845.161543841986673226.9742.531253542046779221.2243.181083392197364175.1636.83892942177265189.3236.121002792217363184.9137.84902932237465177.8936.34922691715767338.3269.101945121926358140.9433.84702701906369171.8837.598527623076105214.9144.30993942076888244.4044.781483932107082241.9847.061254002026790212.9537.541343262167286231.1141.74131425数据库名称。MalCharDb代表马拉雅拉姆语字符数据库。目前的工作，只有85个经常使用的马拉雅拉姆语字符包括在内。目前的数据库可以通过收集所有使用中的有效马来-阿拉姆字符字形的手写字符样本来扩展。5. Amrita_MalCharDb性能分析使用不同的特征提取和分类算法，对Amrita_MalCharDb的基于字符的识别性能进行了评估。特征提取过程从图像中提取信息描述符，并帮助分类器估计参与类之间的决策边界。通常，用于分类的特征描述符会极大地影响底层系统的识别性能[34]。本文采用图像像素（IMG）、方向梯度直方图（HOG）、奇异值分解（SVD）、曲波变换（CT）、Gabor滤波器（GF）、游程计数（RLC）、散射卷积网络（ScatCN）和卷积神经网络（CNN）等特征描述方法，在创建的马拉雅拉姆语字符图像数据库Amrita_MalCharDb上进行了实验。IMG特征是字符图像中包含的像素强度值的矢量化表示。HOG描述符是从图像梯度方向的归一化直方图获得的局部特征描述符[35]。本文中使用的SVD特征通过[20]中的矩阵分解技术使用降维技术。基于曲波变换（CT）的特征表示是通过计算字符图像上通过曲波变换计算的粗曲线系数的垂直和水平投影轮廓来获得的[27]。对于GF特征，对输入图像应用2D Gabor滤波器组，并计算[36]. RLC特征基于字符图像的局部块上的白色像素的连续运行[22]。散射表示基于散射变换，散射变换使用小波分解、模和平均函数生成不变特征描述符[37]。散射卷积网络在级联小波分解的支持下在网络中的每个节点上生成散射系数，并用作特征 ScatCN 和ReducedScatCN[28]。CNN是大多数图像相关识别应用中的最新技术[38]。Lenet-5[38]，一种流行的CNN架构，表4在Amrita_MalCharDb上获得认可。识别器识别准确率（%）培训验证测试IMG-LinearSVM99.8088.6374.61IMG-RBFSVM100.0090.5277.22HOG-LinearSVM83.6482.6873.38HOG-RBFVM99.9995.3286.71SVD-LinearSVM97.3889.2075.30SVD-RBFSVM99.9893.3980.09GF-LinearSVM89.8277.6661.09GF-RBFSVM97.6581.5162.69CT-LinearSVM82.1075.8261.45CT-RBFSVM100.0083.7065.76RLC-LinearSVM98.9490.8979.42RLC-RBFSVM99.9493.7682.80ScatCN（Layer0，1）-LinearSVM99.8397.6990.17ScatCN（Layer0，1）-RBFSVM99.9398.0090.52ReducedScatCN-LinearSVM99.8897.9391.05ReducedScatCN-RBFSVM99.6898.2390.96LeNet-599.9995.9787.30K. Manjusha等人 /工程科学与技术，国际期刊22（2019）637-645643图四、ReducedScatCN中的错误分类使用混淆矩阵可视化二、文档识别用于马拉雅拉姆语字符识别。支持向量机（SVM）分类器具有在大规模多类分类问题中获得良好泛化性能的能力[29]。对于分类IMG、HOG、SVD、CT、GF、RLC和ScatCN特征描述符，采用SVM分类器为了实现SVM分类器，使用LibSVM工具包[39]。对于Lenet-5 CNN架构，使用Ten- sorflow[41]软件顶部的Keras工具包[40]。除了CNN特征外，所有其他特征都使用线性和非线性SVM分类器进行分类为了建立非线性SVM分类器模型，径向基函数（RBF）被用作底层核函数。基于从训练数据集中提取的特征构建分类器模型。验证数据集用于分类器参数的选择过程和建立的分类器模型的识别性能进行了评估的测试数据集。在训练、验证和测试数据集上所考虑的识别器获得的识别准确度列于表4中。在所考虑的特征描述符，IMG和SVD工作的输入图像的矢量表示。GF和CT是全局或图像级特征描述符，其从字符图像的变换域表示获得全局特征描述符，而HOG、RLC、ScatCN和Lenet-5执行块或局部区域级处理以提取信息性特征描述符。与矢量级或全局级特征描述子相比，局部区域级特征描述子在线性或非线性分类器中获得了更好的性能。局部化特征描述符在输入模式之间的可变性高的情况下更有效地捕获不变特征描述符。在训练识别精度的情况下，除了极少数识别器之外，大多数识别器获得了非常高的识别精度。测试和验证准确性决定了与训练准确性相比所构建的识别器模型的泛化能力，其余的讨论集中在测试和验证数据集上的性能。在所有考虑的特征描述符中，ScatCN的特征描述符在测试和验证数据集上获得了更高的识别准确率。与其他特征描述符（不包括Lenet-5）相比，基于ScatCN的特征在线性和RBF SVM分类器中具有几乎相当的性能。ScatCN特征具有从输入图像中捕获作为非线性模的在散射变换中采用平均函数[37]。ScatCN特征是稳定的，具有小的变形，并且这些特征的非线性性质有助于线性SVM分类器实现与RBF SVM分类器模型相当或更高的识别性能。Lenet-5 CNN架构在基于ScatCN的特征之后获得了第二高的测试和验证识别精度。在可训练滤波器组的支持下，CNN架构在从图像中学习不变特征描述符方面非常强大但在本文中，由于我们使用了与[38]相同数量的隐藏层和相同数量的卷积特征图的Lenet-5架构用于马拉雅拉姆语字符识别，因此与HOG特征描述符相比，它只能获得轻微的性能改善。CNN架构正在利用自学习的特征，并且经过良好优化和调整的CNN架构能够获得与手工制作的特征描述符相当甚至更高的识别性能。正在为Amrita_MalCharDb设计适当的CNN架构和参数。利用混淆矩阵分析了ReducedScatCN识别器在测试数据集上的误分类问题。图4示出了误分类实例的可视化，并且基于颜色格式突出显示了误分类的数量（最小误分类为无颜色，最大误分类为黑色）。在图4中，四个条目非常暗，这表示存在更大数量的误分类。表5列出了混淆矩阵中代表这四个条目的类，可以看出，发生在具有非常强的结构相似性的字符类之间。图5示出了针对N = 1、2、3和5的所有识别器的前N个识别准确度度量。对于所有识别器，当N = 2时，识别准确性的增加与3和5相比略大。前2名识别器的识别准确率平均提高了9.73%，而前3名的识别准确率平均提高了 3.71% 。这是由于数据库中存在类似形状的类。ReducedScatCN的识别准确率从91.05%2字符类标签是混淆矩阵的索引。缩放图形以更清楚地显示类别标签和错误分类值。644K。Manjusha等人/工程科学与技术，国际期刊22（2019）637表5ReducedScatCN的错误分类类当考虑到前2个班级时，为96.34%当考虑前5类时表5中列出的类的大多数错误分类在采用前5名候选项时得到解决。表5的第一行、第二行和第四行中的类在前5名候选者中完全解析。基于散射的方法具有更高的特征维数相比，在我们的实验中使用的其他特征提取方法。在考虑特征提取方法的时间复杂度时，ReducedScatCN特征由于采用了层次特征和奇异值分解技术，时间复杂度较高，但与其他方法相比，这些方法具有更高的识别性能。目前并行处理体系结构越来越流行，利用这些体系结构可以加快这些方法的训练过程。图6示出了SVM分类器中的不同识别器用于对马拉雅拉姆语手写体数据库的测试数据进行从图中可以明显看出，ScatCN和ReducedScatCN与其他特征描述符相比需要更多的计算时间，但在获得更好的识别精度方面是有效的目前的工作是建立一个基于字符的文件图像数据库的马拉雅拉姆语脚本的初步尝试。为了建立一个完整的基于字符的识别系统，数据集需要扩展，图六、Amrita_MalCharDb测试数据集的SVM分类器执行时间可能的马拉雅拉姆字符形状。通过将数据收集扩展到更多数量的作者，可以将更多的手写除了字符图像外，还可以收集包含马拉雅拉姆语文本的单词，行和页面级别的文档图像，以便研究人员可以为马拉雅拉姆语手写文本识别进行预处理，分割和后处理阶段。6. 结论由于手写体字符图像的类内和类间差异性很大，手写体字符识别是一个具有挑战性的模式识别问题。基准数据库是必要的，也是最重要图五. Amrita_MalCharDb上识别器的Top-N识别精度K. Manjusha等人 /工程科学与技术，国际期刊22（2019）637-645645实施任何识别系统的要求。缺乏标准的文档图像资源是大多数印度语言手写文档识别的难题之一。本论文的重点是实现一个字符级图像数据库的马拉雅拉姆语脚本，在印度的官方语言之一。到目前为止，没有马拉雅拉姆语的公共领域文档图像数据库。这些字符类是基于马拉雅拉姆语脚本中存在的独特正字法字符形状形成的。85个马拉雅拉姆语字符类，包括马拉雅拉姆语元音，辅音，半辅音，元音辅音修饰符和连接字符被认为是用于数据库创建。采集了77位马拉雅拉姆族作家的手写体图像数据，采用基于活动轮廓模型的最小化技术进行字符分割。目前的马拉雅拉姆语字符图像数据库Amrita_MalCharDb包含29，302个马拉雅拉姆语字符图像模式。通过使用不同的特征提取技术的Amrita_MalCharDb的识别在所考虑的技术中，基于分散卷积网络的特征可以达到91.05%的识别准确率。未来的工作包括扩展字符类集合，包括所有目前使用的有效的正字法形状在马拉雅拉姆语脚本和创建字，行和页面级别的马来语文档图像的集合，使研究人员可以专注于其他阶段的文档识别系统以及。引用[1] 诉Govindan，A.Shivaprasad，字符识别23（7）（1990）671-683。[2] D.- H.金，Y.- S.黄宗羲T.帕克，E. J.金，S.- H. Paek，S.- Y.刘文，《汉字图像数据库》，北京大学出版社，1996年，第79卷，第7期，第943-950页。[3] P.J. Grother，Nist特殊数据库19手写表格和字符数据库，国家标准与技术研究所。[4] U. V. Marti ， H. Bunke ， IAM 数据库：用于脱机手写识别的英语句子数据库，Int.J.Doc。Anal.你好5（1）（2002）39-46。[5] Y. Al-Ohali，M.谢里耶角孙文，手写阿拉伯支票识别资料库，模式识别。36（1）（2003）111-121。[6] S.A. 马哈茂德岛艾哈迈德，M。Alshayeb，W.G.哈提卜山Parvez，G.A.芬克V. Märgner，H. El Abed，Khatt：阿拉伯语离线手写文本数据库，在：手写识别前沿国际会议（ICFHR），IEEE，2012年，pp. 449- 454[7] C.- L. Liu ， F. Yin ， D.- H. 王， Q.- F. Wang ， Casia online and offlineChinesehandwriting databases ， in ： International Conference on DocumentAnalysisand Recognition（ICDAR），IEEE，2011，pp. 37比41[8] T. Su，T. Zhang，L.关，基于语料库的中文手写体离线识别数据库，国际文献分析杂志。认出来了。10（1）（2007）27。[9] T.斋藤，H.山田K.王文，《汉字输入法》第一卷第二卷第一章，第1998年第1期，第1999- 1999页。[10] ISI印度文字数据库，http://www.isical.ac.in/ujjwal/download/database。html（访问时间：2017-12-06）。[11] CMATERdb，https://code.google.com/archive/p/cmaterdb/（访问时间：2017-12- 06）。[12] HPLabsIndiaIndicHandwritingDatasets，http://lipitk.sourceforge.net/hpl-Jumets.htm（访问时间：2017-12-06）。[13] 诉戈文达拉朱湾Setlur，印度语OCR指南，Springer，2009年。[14] S.M. 奥拜杜拉角Halder，K.Santosh，N.达斯，K。Roy，Phdindic_11：用于脚本识别的11个官方indic脚本的页面级手写文档图像数据集，多媒体工具应用程序（2017）1-36。[15] 联合 B.B. Chaudhuri ， Indian script character recognition ： a survey ，PatternQuinn. 37（9）（2004）1887-1899。[16] M.A. Rahiman ， A. Shajan ， A. Elizabeth ， M. Divya ， G.M. 库马尔， M 。Rajasree，使用HLH强度模式的孤立手写马拉雅拉姆语字符识别，在：第二届机器学习和计算国际会议（ICMLC），IEEE，2010年，pp。 147- 151[17] 约翰，K。Pramod，K. Balakrishnan，基于链码直方图的脱机手写马拉雅拉姆语字符识别，电气和计算机技术新兴趋势国际会议，ICETECT 2011，IEEE，2011年，pp. 736-741[18] B.S. Moni，G. Raju，使用游程计数的手写马拉雅拉姆语字符识别的修改二次分类器，在：电气和计算机技术新兴趋势国际会议（ICETECT），IEEE，2011年，第101页。 600- 604[19] V. Vidya，T. Indhu，V. Bhadran，R.刘文，刘文，等.基于概率简化模糊ARTMAP的脱机手写体识别.北京：计算机科学出版社，2000. Inf.（2013）273-283.[20] S.S.库马尔K。Manjusha，K. Soman，基于奇异值分解的马拉雅拉姆语字符识别新方法，收录于：Recent Adv. Intell。Inf.，Springer，2014，pp. 435- 442[21] J. Jomy，K. Balakrishnan，K. Pramod，马拉雅拉姆语手写字符离线识别系统，国际图像图形信号处理杂志5（4）（2013）53。[22] G. Raju ， B.S.M.S. MoniNair ， A novel handbook character recognitionsystemusing gradient based features and run length count ， Sadhana 39（6）（2014）1333-1355.[23] G. Raju，使用小波系数的零交叉识别无约束手写马拉雅拉姆语字符，在：高级计算和通信国际会议，ADCOM 2006，IEEE，2006年，pp. 217- 221[24] R. John，G. Raju，D. Guru，1D小波变换的投影轮廓孤立手写马拉雅拉姆字符识别，国际会议上计算智能和多媒体应用，卷。2，IEEE，2007，pp. 481- 485[25] B.P. Chacko，V.V. Krishnan，G. Raju，P.B. Anto，使用小波能量和极端学习机的手写字符识别，Int.J.马赫学习. 赛博恩 3（2）（2012）149-161。[26] 约翰，K。Pramod，K.张文，基于小波变换和支持向量机分类器的手写体马来文字符识别，北京：计算机科学出版社。 30（2012）598-605。[27] M. Manuel，S. Saidas，使用曲波变换和ANN的手写马拉雅拉姆语字符识别，Int.J.Comput. Appl. 121（6）.[28] K. Manjusha，文学硕士库马尔K。索曼，马拉雅拉姆语字符识别的简化散射表示，阿拉伯文。 J. Sci. Eng. （2017）1-12。[29] N.N.V，C.V.Jawahar，字符分类方案的经验评估，在：第七届模式识别进展国际会议，IEEE计算机协会，2009年，第100页。310-313[30] K. 索曼河Ramanathan，Digital Signal and Image Processing-the Sparse Way，第一版，爱思唯尔印度。[31] T. Goldstein，X. Bresson，S. Osher，分裂Bregman方法的几何应用：分割和表面重建，J. Sci. Comput. 45（1-3）（2010）272-293。[32] K. Syama，N. George，S.塞哈尔角Neethu，M.S. Manikandan，K. Soman，基于非线性扩散的活动轮廓模型的字符分割性能研究，在：计算和通信进展国际会议（ICACC），IEEE，2012年，第102页。118-121[33] N. Otsu，一种基于灰度直方图的阈值选择方法，IEEE Trans. Cybern系统9（1）（1979）62-66.[34] - 是的Due Trier，A.K. Jain，T.特，字符识别的特征提取方法综述，模式识别。29（4）（1996）641-662。[35] N. 达拉尔湾 Triggs ， Histograms of oriented gradients for human detection ，2005IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition（CVPR '05），vol.1，IEEE，2005，pp. 886- 893[36] R. Ramanathan，A.奈尔湖Thaneshwaran，S.Ponmathavan，N.瓦利亚潘湾Soman ， Robustfeatureextractiontechniqueforopticalcharacterrecognition，ACT 2009https://doi.org/10.1109/ACT.2009.145.[37] J. Bruna，S. Mallat，不变散射卷积网络，IEEE Trans. 模式肛门。马赫内特尔35（8）（2013）1872-1886。arXiv：1203.1513。[38] Y.勒昆湖博图岛Bengio，P. Haffner，基于梯度的学习应用于文档识别，Proc. IEEE86（11）（1998）2278ar X i v ：1102.0183。[39] C.- C. Chang，C.- J. Lin，Libsvm：一个支持向量机库，ACMTrans. 内特尔系统Technol. （TIST）2（3）（2011）27.[40] F. Chollet等人，Keras，https://github.com/fchollet/keras，2015年。[41] M. Abadi，A. Agarwal，P. Barham，E. Brevdo，Z. Chen C.，马缨丹属Citro，G.S.Corrado，A. Davis，J. Dean，M. Devin，S.盖马瓦特岛Goodfellow，A. Harp，G. 欧文，M。Isard，Y.贾河约泽福维奇湖Kaiser，M. Kudlur，J. Levenberg，D.马内河蒙加，S. Moore ，D.默里角 Olah， M. Schuster ，J. Shlens， B. 施泰纳岛Sutskever， K.Talwar，P.塔克，V。Vanhoucke，V.Vasudevan，F.别加斯岛Vinyals，P.典狱长，M. Wattenberg，M. Wicke，Y. Yu，X. Zheng，TensorFlow：异构系统上的大规模机器学习，软件

下载后可阅读完整内容，剩余1页未读，立即下载