没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报分析了一种基于神经机器学习技术的手写体波兰文字符识别算法的有效性Dawid Grzelak,Krzysztof Podlaski,Grzegorz Wiatrowski波兰罗兹罗兹大学物理学和应用信息学设施阿提奇莱因福奥文章历史记录:收到2019年2019年7月17日修订2019年8月2日接受在线预订2019年保留字:机器学习深度学习卷积神经网络图像识别EMNISTMNISTA B S T R A C T提出了一种基于深度学习技术的OCR任务泛化方法本文扩展了EMNIST数据集,从而附加了两个新的波兰变音符号类“A“和"C“。使用这个新的数据集和深度学习技术,人们可以分析标准和预处理的敏感性提出了不同参数的卷积神经网络的扩展方法结果分析表明,卷积神经网络能较好地消除波兰字母与其钩形部分所留下的阴影和噪声,并能区分两个相似的字母另一方面,在没有波兰字符的数据集上训练的神经网络不处理let-正确地说是©2019作者制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍目前,计算机具有几乎无限的潜力,它们可以进行几年甚至几个月前不可能进行的计算。它们的创造者的能力是机器本身的主要限制下面将讨论的机器学习是人工智能的一个方面,并且即使该名称自20世纪50年代以来已经存在,但是由于可用的计算能力的增加,该领域直到最近才被开发和使用在例如自动驾驶车辆中 平均而言,双打每18个月,正如摩尔定律所预测的那样,这些越来越强大的计算机允许更有效地使用已知的方法。人工神经网络用于机器学习,*通讯作者。电 子 邮 件 地 址 : dawid. uni.lodz.pl ( D.Grzelak ) , podlaski@uni.lodz.pl(K.Podlaski),wiatr@uni.lodz.pl(G. Wiatrowski)。沙特国王大学负责同行审查制作和主办:Elsevier主要用于深度学习(Goodfellow et al.,2016; Lecun等人,2015;Schmidhuber,2015)。这些技术在日常生活中的新的和更广泛的应用也正在出现,这是通过利用以前由于其复杂和创新的结构而不可用的特性-图像识别(LeCun等人,1998),分类,人类行为和决策的预测,控制系统,机器人等(Schmidhuber,2015)。这一领域有着光明的未来,因为在某些方面,它可以促进决策,甚至在某些领域取代人类我们感兴趣的一个领域涉及文本识别。这项工作可以分为两个阶段:HTR和OCR。手写文本识别(HTR)处理手写文本中的单词,而不关注单个字母,而光学字符识别(OCR)独立地识别每个字母OCR是HTR中经常存在的子任务。在本文中,我们只讨论OCR。几位作者已经处理了类似的主题,例如识别手写文本(Porwal等人,2013; Rizvi等人,2019年; Zhang等人,2015; Zhang等人,2017年; Poznanski和Wolf,2016年; Alfreta等人,2015; Rao等人,2018; Maitra等人,2015年)。人工神经网络类似于生物神经网络,并且包含输入和输出数据集。换句话说,这样的网络并行地处理一组输入数据,并且不同的优先级被分配给这些值,这些值可以在学习期间根据特定方案被不同地https://doi.org/10.1016/j.jksuci.2019.08.0011319-1578/©2019作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comD. Grzelak等人/沙特国王大学学报1259×ing. 在20世纪90年代后期,Yann LeCun,Leon Bottou,YoushaBengio和Patrick Hafner创建了一种新的神经网络架构LeNet-5,用于手写和机器打印字符(LeCunet al. 1998年)。这种架构非常简单,易于理解,这就是为什么它最常用作卷积神经网络探索的第一步。LeNet-5的架构由卷积层和平均池化层组成,然后是平坦化卷积层,全连接层,最后是softmax分类器(图1)。①的人。在这份手稿中,来自MNIST的手写数字和字母的数据集(LeCun等人,1998)和EMNIST(Cohen等人,1702.第1702章将被利用应该指出的是,目前的数据集的拉丁字符是不够的,研究人员正在试图实现神经网络识别方法,为不同的集字母(例如,神经网络识别方法(Almodfer等人,2017年)。这项研究的目标是确定软件是否能够有效地识别手写字符从旧的以及新的数据集后,波兰diacrit,ICS。 这项研究是基于添加两个选定的波兰字母,A和C。本文的结构如下。在第2节中,介绍了卷积神经网络的基础知识。第3节包含了EMNIST数据集的描述以及它的波兰字母扩展。第四节总结了数值试验的结果。结论意见载于本文件最后一节2. 卷积网络这项研究是使用卷积人工神经网络和机器学习进行的(LeCun等人,1998; Raina等人, 2009年),以确认字母识别软件的有效性。计算在Mathematica(reference.wolfram.com)版本11.2中在具有16 GB RAM和NVIDIA GeForce 960 M图形的i7处理器上进行。 这项研究开始于使用MNIST(修改后的国家标准与技术研究所)从0到9的手写数字数据集(见图1)。 2)的情况。该数据集有60,000个不同的手写示例和10,000张大小为28 × 28像素的测试照片。还应注意的是,数据集中包含的图片在将它们裁剪到合适的大小后,所有文件都被水平和逆时针旋转。此外,数据集中的每张新照片都连接到一个数字。程序中使用的卷积神经网络是使用1000张图片进行教学的,具体内容如下。最初,裁剪为28 × 28像素的照片被用作卷积神经网络的前20层的输入照片。通常,网络由以下元素组成:ConvolutionLayer(由多个不同的要素地图组成的图层,每个要素地图地图允许在图片内的小区域中形成图案),斜坡(用于缩放和平移的函数),PoolingLayer(该层用于逐步减小表示的空间大小,以减少网络中的参数数量和计算数量,因此也控制过拟合),Flat- tenLayer(用于 展平 矢 量层 中 的张 量 层的 层) 、 LinearLayer ( 全连 接 层) 和Softmax(用于对概率值在0和1之间的对象进行分类的函数)。网络的架构如图3所示,计算期间的操作可描述如下。一张灰度照片(28x28)作为输入输入到我们的网络中,然后它通过第一个卷积层,并检查第一组特征。在LeNet-5的第二层中,使用滤波器大小为2x2的用于子采样的平均池化层。然后,在第二个卷积层中,在网络中,测量下一组特征。下一层是全连接层,它收集所有信息,最后一层是全连接softmax输出层,具有10个可能值,对应于从0到9.当输入数据(手写数字的照片)由神经网络处理时,结果(从最后一个softmax层获得的值)指示正确识别的概率。通常,最后一层对应的最高值表示初始照片中出现的数字。3. EMNIST数据集及其扩展在输出端,我们获得的结果允许评估学习网络的有效性,并且可以基于这些结果考虑从神经网络获得的结果平均而言,手写数字的正确识别率为93%。这一结果是使用卷积神经网络实现的,其参数如图3所示。用于识别MNIST数据集中的图像的相同网络可以用于分析由数字和字母组成的更大的数据集,EMNIST(扩展MNIST)。要将网络应用于EMNIST数据,必须将最后一个softmax层的大小从10更改为26(拉丁字母的数量)。这个数据集包含几十万张手写字母数字字符的照片,分为六个不同的子组,如图所示。 四、整个卷积神经网络的字母识别效果,即,包含前面所述的层的层约为92%。这项研究的目的是确定在添加波兰语字符后,软件是否能很好地处理插入的字母,以及网络是否能有效地适应不同的输入集。我们的研究从分组开始波兰变音字母成两类别一组包含顶部带有附加符号的字母,例如,"C“、”N“、”Z“和”Z"。第二组包含字母,Fig. 1. LeNet-5架构的方案。1260D. Grzelak等人/沙特国王大学学报EMNIST ByClass:814,255个字符。62个不平衡类。EMNIST ByMerge:814,255个字符。47个不平衡类。EMNIST平衡:131,600个字符。47个平衡的班级EMNIST信件:145,600字符。26个平衡的班级EMNIST数字:208,000个字符。10个平衡的班级EMNISTMNIST:70,000字符。10个平衡的班级图二. MNIST数据集中数字“0”的条目示例。图三. 创建的网络的架构。字符下的附加钩,例如,"A“和" E“。创建手写波兰语变音符号的完整数据集的任务超出了所提出的研究的范围,因为这些是旨在确定神经网络是否可以区分经典拉丁字母(如“A”和“C”)及其变音符号变体的蚂蚁(分别为“A“和"C“)。我们选择这两组波兰变音符号的组合。这两个字符已被添加到现有的EMNIST数据集,并使用不同的架构的LeNet5神经网络,这些字符在准备好的数据集中的识别的有效性进行了测量。数据库的扩展和此处执行的测试是为了确定是否值得执行进一步的测试。进一步的研究可以扩大在识别手写字母和单词的背景下所获得的结果。其他字母字符尚未添加到数据集中,因为它们与这两个字母有明显的相似之处。任务是确定网络如何处理波兰阿尔法的识别带有附加附加符号的betic字符。为此,一套1000个手写的10个波兰字母A和C'被创造在一起。与他们的描述。然后,将额外的波兰训练集添加到EMNIST数据集并用于此分析(最后一个softmax层也增加了2)。新数据集的一部分的示例如图所示。 五、创建的网络(称为lenet 2,如图6所示)使用两个大小为[20,5]和[50,5]的卷积网络,全连接层的大小设置为500。在此过程之后,学习的网络被保存到一个文件(与标准的出口命令),然后使用该神经网络进行识别过程。还应该注意的是,教导网络是一个连续的过程,并且神经网络的参数以及重复次数可以自由改变。良好网络的建立及其效力主要取决于见图4。EMNIST类的组件类型和划分。教学集的大小,以及重复的次数和网络的深度。更长的学习过程将提供更精确和最佳的最终结果。从EMNIST基地提取的数据见图11。7 .第一次会议。机器学习涉及对照片的选定区域进行多次扫描,并使用保存的二进制值创建照片的虚拟地图。参考照片中的黑色区域(例如,图5中的单个字母)对应于值0,而在这种情况下,白色区域是255。该网络将照片分成几部分进行分析,并为每个片段分配一个值,以便在将这些值与它识别的模式进行比较后,它可以确定图像中的字母结果以分配给集合中的每张照片的数字的形式呈现(字母A分配给数字1,数字26分配给Z),并且该值可以用于确定数字是否已被正确识别在这种情况下,代码27已经被字母A的代码是28,C的代码是28。输出示例结果示于图第8和第9条。网络学习过程以图形形式显示(图10),同时显示估计的结束时间以及网络学习活动本身的持续时间(此处不描述训练集训练后,网络的有效性为91.4% ,这是一个很好的结果(图11)。在将数据集扩展到其他字母之前,将结果与网络的有效性进行比较在向现有数据集添加200个准备好的波兰字母后,进行了计算,网络的最终有效性平均为92%,与添加波兰字符后的训练集相当。然而,在下一步中,网络的大小分别从[20,5]和[50,5]的网络大小增加到[40,7]和[54,5],并且在轮数对网络有效性没有显著影响的情况下,重复次数保持不变。将这些网络的学习过程与参数MaxTrainingRound设置为10进行比较,并在两种情况下测量字母识别的有效性。学习过程本身在较小的版本中持续了大约6分钟,在较长的版本中持续了大约半小时。 下一步是增加字母本身的集合,以便额外类(“A“字母)的大小扩展的EMNIST数据集可以在我们的网页上找到(Github网站)。4. 所得结果总结在这项研究中,对于每种情况,所考虑的数据集被分为训练集和测试集,分别包含80%和20%的数据集。训练集用于训练神经网络,测 试 集 用 于 衡 量 其 有 效 性 。 所 有 计 算 均 在 Mathematica( reference.wolfram.com ) 版 本 11.2 中 在 具 有 16 GB RAM 和NVIDIA GeForce 960 M图形的i7处理器上进行。我们使用以下步骤进行了研究-将这使我们能够选择最有希望的网络参数集和扩展数据集的大小200新字符s,包括100个字母D. Grzelak等人/沙特国王大学学报1261图五、所选波兰语字符的创建数据集示例见图6。 神经网络代码。图7.第一次会议。新扩展的EMNIST数据集的片段,包含Letters子组的28个类添加到原始EMNIST数据集,这些条目约占EMNIST数据集中条目的2%。在第二轮中,1000个图案,由500个字母"A“和”B“组成,500个 字母“C” 被 使 用 。扩 展 数 据 集 中 每 个 新 字 母 的出现率约为EMNIST数据集中原始字母的10%。数值实验表明,改变卷积层的形状会影响手写字母识别的有效性随着网络的增长和学习时间的延长,其有效性增加到92即使是人类也可能在识别所使用的数据集中的某些元素时遇到问题,因此我们不应该期望网络具有等于100%的有效性。对表1所示结果的分析提出了一组可用于实现更精确评估的参数我们选择使用[40,7]和[50,5]的网络架构进行额外的测量,并使用1000个模式扩展数据集。实验中获得的时间非常相似,因为在现实中,30分钟是相对较短且可接受的训练时间。这可以通过使用更好的计算机设备来缩短。在评估准备好的卷积神经网络如何识别波兰字符之前,我们检查了基于EMNIST的网络如何处理波兰字符。通常,如果波兰人人们将国家字符映射为拉丁字符,我们使用1262D. Grzelak等人/沙特国王大学学报图8.第八条。 识别所选字母(A;1- A,17 - Q,27 - A)的概率结果。图9.第九条。 识别所选字母(C′;5-E,25-Y,28-C′)的概率结果。见图10。机器学习过程。做同样的工作。用仅用原始EMNIST数据集教导的神经网络评估包含选定特征“A“和"C“的准备好的测试该网络只给出了43%的A和53%的C的预期答案(表2)。同样的实验是用原始EMNIST以及准备好的波兰字符训练集教授的网络进行的。特斯 结果令人满意,87%的“A”字被正确识别,只有13%的“A”字被识别为“A”。对结果的分析表明,波兰字符与他们的钩留下的阴影和噪音导致的两个添加的字母被正确识别的大部分时间,如本研究的结果所示为了改善神经网络的行为,必须将等于数据集中包含的字母数量的字母集合将字母在每个方向上旋转30度),使得网络可以学习在它们自己的基础上正确地识别字母。如果一个给定的字母是正确的方向是非常重要的(根据公式-水平旋转加上逆时针旋转90度)。如果数字图像处理不当,识别率接近30%。显示正确识别的样本结果图中的字母 12(“A”)和图。 13(“C“)和一个额外的字母"C“这是错误的识别显示below(图。 14)。在字母A 的情况下,首先正确识别字母,然后网络选择字母有趣的是,在正确识别“A“之后,选择的下一个字母是”A”。在“C”的情况下,正确的字母被最频繁地如果见图11。 衡量学习网络的有效性。D. Grzelak等人/沙特国王大学学报1263表2表1特定数据集的识别有效性。最有希望的结果用颜色表示,越深越好。波兰字符识别。原始EMNIST数据集添加A和C′后的EMNIST数据集A识别为AC被认为是C一个被认为是A的人A被认为是A的人C'被识别为C'C被认为是C百分之四十三百分之五十三87% 13%百分之九十七0%的百分比在网络的错误识别中(图14),第一个字母是“G”,其次是“E”、“K”和“Z”,正确答案“C”排在第五位。然后,我们将重点放在案件上,“C”上面的破折号不是一条长线,而是一个这对网络来说是一个差异,并且可能导致程序即使在适当的准备之后也不能正确地识别字母。该网络能够有效地识别所指示的字母,前提是它被提供了一个大的和高质量的教学集。5. 结论实验表明,原始EMNIST数据集不足以训练神经网络正确识别波兰民族字符。为了改善这种行为,需要创建一个带有波兰字符的额外数据集本文通过结果表明,当两个波兰字母对于训练集,得到的卷积神经网络给出可接受的响应。 不需要对神经网络的架构进行额外的改变,并且已知的网络配置适用于EMNIST(Cohen等人, 1702.可以直接使用在这个实验中,所用的选定字母是图12个。“A”(27 - A,17 - Q,1 - A)标识的权重。1264D. Grzelak等人/沙特国王大学学报图13岁"C“(28 - C”,25 - Y,5 - E)标识的权重。图十四岁鉴定结果不正确(7-G、5-E、11-K、26-Z、28-C′)。和在未来,我们计划创建一个包含所有波兰语变音符号的数据集。值得注意的是,这个任务需要创建一个由1000多个不同的人写的大约40,000个字符的数据集。准备这样一个数据集包含所有的波兰语diacrit-ics将需要开发一个神经网络,可以自动识别波兰语文本。此外,全文识别(HTR)还需要专门的方法将文本划分为单独的单个字母。我们还计划在不久的将来承担这项任务。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Almodfer,R.,Xiong,S.,Mudhsh,M.,段,P.,2017.多列深度神经网络用于离线阿拉 伯 手 写 体 识 别 。 在 : Lintas , A. , Rovetta , S. , Verschure , P. , Villa , A.(编), 人工神经网络和机器学习- ICANN 2017。ICANN 2017。计算机科学讲座笔记斯普林格。Cohen,G.,阿夫沙尔,S.,Tapson,J.,van Schaik,A.,2017. EMNIST:MNIST对手写信件的扩展。arXiv:1702.05373。Github 网 站 , 扩 展 了 EMNIST , 并 带 有 额 外 的 波 兰 语 变 音 符 号 :github.com/kpodlaski/Pol_EMNIST。古 德 费 洛 岛 , 澳 - 地 本 焦 , Y. , Courville , Aaron , 2016. 深 度 学 习 MIT Press ,Cambridge,MA,USA.Y.莱昆,博图湖本焦,Y.,Haffner,P.,1998年 应用于文档识别的基于一致性的学习。Proc. IE E E 86(11),2278-2323。Lecun,Y.,本焦,Y.,Hinton,G.,2015.深度学习Nature 521(7553),436-444.Maitra,D.S.,巴塔查里亚大学,Parui,S.K.,2015.基于CNN的多个脚本的手写字符识别的 通 用 方 法 art. 7333916. 在:文件分析和Recognition,ICDAR,pp. 1021- 1025波尔瓦尔大学,施,Z.,Setlur,S.,2013.第18章手写阿拉伯文本识别中的机器学习。载于:《统计手册》第31卷,C.R.拉奥目标。 University of Hyderabad Campus,Hyderabad,pp. 443- 469Poznanski , A. , 沃 尔 夫 湖 2016 年 。 CNN-N-Gram 用 于 手 写 文 字 识 别 艺 术 。 第7780622号。在:IEEE计算机协会计算机视觉和模式识别会议论文集,pp。2305- 2314Raina,Rajat,Madhavan,Anand,Ng,Andrew Y.,2009.使用图形处理器的大规模深度无监督学习。第26届机器学习国际年会论文集。 ICML '09。拉奥,Z.,Zeng,C.,中国农业科学院,吴,M.,王志,Zhao,N.,刘,M.,万,X.,2018.基于扩展非线性核残差网络的手写体字符识别算法研究。KSII Trans.互联网信息系统 12(1),413-435。Rizvi,M.,拉扎,H.,Tahzeeb,S.,Jaffry,Shan,2019年。基于光学字符识别的考试过程控制智能数据库管理系统。IEEE,巴基斯坦。Schmidhuber,J.,2015.神经网络中的深度学习:概述。神经网络61,85-117。Schmidhuber,J.,2015.神经网络中的深度学习:概述。神经网络61,85-117。Alberta,O.,Karaaba,M.F.,Schomaker,L.R.B.,Wiering,MA,2015.基于局部梯度特征描述子的手写体字符识别。工程应用产品内特尔45,405-414。软件生产商的网站https://reference.wolfram.com网站。Zhang,X.Y.,本焦,Y.,刘,C.,2017.联机和脱机手写汉字识别:全面研究和新基准。模式n。61,348-360。张,X.,赵,J,Lecun,Y.,2015.用于文本分类的更高级卷积网络。在:神经信息处理系统的进展,pp。649- 657
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功