手写英文字符的优化识别基于二值化技术与神经网络分类器的结合

55 浏览量更新于2023-12-05 收藏 771KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

© 2013年。出版社：Elsevier B.V.由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 4（2013）306 - 3122013年AASRI智能系统与控制基于二值化技术Amit Choudharya， *，Rahul Rishib，Savita Ahlawatca印度新德里Maharaja Surajmal研究所b印度罗塔克Maharshi Dayanand大学，印度理工学院。印度新德里Maharaja Surajmal Institute of Technology摘要模式分类器的选择和特征提取技术是决定光学字符识别系统识别精度和性能的主要因素。本文的主要工作是提取由二值化技术获得的特征，用于识别英文手写体字符。采用多层前馈人工神经网络作为分类器，对手写体字符图像进行了识别。采用细化、前景和背景噪声去除、裁剪和尺寸归一化等预处理技术对字符图像进行预处理，然后再进行分类。将二值化特征与多层前馈神经网络分类器相结合，对脱机草书手写体字符进行识别，取得了很好的效果。© 2013作者。由Elsevier B. V.在CC BY-NC-ND许可下开放获取。由美国应用科学研究所负责选择和/或同行评审关键词：OCR;二值化;特征提取;字符识别;反向传播算法;神经网络。1. 介绍一张纸对提高人们的记忆力的重要性不容忽视使用它* 通讯作者。联系电话：+91-991-133-5069。电子邮件地址：amit.choudhary69@gmail.com。2212-6716 © 2013作者由Elsevier B. V.在CC BY-NC-ND许可下开放获取。美国应用科学研究所负责的选择和/或同行评审doi：10.1016/j.aasri.2013.10.045Amit Choudhary等人/ AASRI Procedia 4（2013）306307用于私人（信件，笔记，地址，提醒，列表，日记等）和官方信件（银行支票、税务表格、入学表格等）。纸张在我们的日常生活中很重要，因为它便宜，可靠，容易获得，灵活的填充，安全的未来参考，易于保存。大量重要的历史资料也写在纸上。因此，有一个巨大的需求，以取代所有这些纸质文件，使世界各地的人们可以访问这些重要的知识来源。为此，手写文本的图像进行预处理和分割成单个字符，并通过神经网络分类器进行识别。从静态表面读取手写文本的过程被称为离线草书手写识别。将人脑的行为模拟到机器中（用于阅读手写或打印文本的任务）为改善人机界面开辟了创新前景。在过去的四十年里，草书和自由手写体字符的分类一直是这一研究领域的一个主要问题。2. 相关工作脱机字符识别是目前比较活跃的研究领域。正如ApurvaA. Desai [1]. 2002年，Kundu Chen [2]使用HMM识别100个邮政单词，并报告了88.2%的识别准确率。2007年，Tomoyuki等人[3]在识别实验中使用了1646个欧洲国家的城市名称，准确率达到80.2%。2006年，Gatos et al.[4]使用K-NN分类器从IAM数据库中识别3799个单词，准确率为81%。3. 手写体字符数据库的研制在数码相机的帮助下捕获手写字符图像。也可以通过使用扫描仪来扫描字符图像。这个过程被称为图像采集[5]。所有的手写字符图像都被转换为统一的图像格式，如.bmp或.jpg，以便为下一个处理步骤做好准备。纯白色背景或一些彩色（噪声）背景可用于书写/打印这些手写字符图像。这些样本可以用不同颜色墨水的不同笔书写。收集由10个不同的人（年龄15-50岁）贡献的字符图像样本，其中每个贡献者写下完整英语字母表（a-z）的5个样本。通过这种方式，1300（10×5×26=1300）字符图像样本被收集用于所提出的实验。4. 预处理预处理是为了消除脱机手写字符中存在的可变性4.1. 灰度转换在预处理的这个阶段中，通过使用MATLAB的“rgb2gray”函数将如图1（a）所示的来自本地数据库的.bmp格式的手写字符的输入图像转换为灰度格式308Amit Choudhary等人/ AASRI Procedia 4（2013）3064.2. 值化二值化是一个重要的图像处理步骤，其中像素值被分成两组;白色作为背景，黑色作为前景。只有两种颜色，白色和黑色，可以出现在一个二进制图像。二值化的目标是最大限度地减少图像中存在的不需要的信息，同时保护有用的信息。它必须保留图像中存在的最大有用信息和细节，另一方面，它必须以有效的方式消除与图像相关的背景噪声。假设文本的强度小于背景的强度，即输入图像具有黑色前景像素和白色背景像素。如果输入图像的文本强度大于背景强度，则颜色可以反转。此外，背景强度在整个图像中保持几乎均匀，并且在输入图像中的任何地方都不会急剧变化。因此，在所提出的二值化技术中，采用全局灰度强度阈值化，并且所得到的手写字符图像如图1（c）所示，其没有任何背景噪声。前景噪声去除后的字符图像样本如图1（d）所示。调整后的图像裁剪显示在图1（f）。图1. (a)输入扫描的手写字符图像;（b）灰度格式的手写字符图像;（c）二进制格式的字符图像;（d）前景噪声去除后的字符图像;（e）裁剪的字符图像;（f）调整大小的手写字符图像。5. 特征提取和训练样本准备字符“c”的二进制图像如图2（a）所示。它被调整为15 × 12矩阵，如图2（b）所示。"0“表示存在白色像素，而”1“表示存在黑色像素，如图1所示。Amit Choudhary等人/ AASRI Procedia 4（2013）306309图2（c）中字符“c”的二进制矩阵表示。然后，通过使用MATLAB的“整形”功能，以行优先的方式将大小为15 × 12的二进制矩阵整形为大小为180 × 1的二进制矩阵，如图2（d）所示。这个大小为180 × 1的列向量是字符“c”的特征向量图2. (a)字符“c”的二进制图像类似地，所有26个字符（a-z）的特征向量以每个大小为180 × 1的二进制列矩阵的形式创建。所有这26个特征向量组合成一个大小为180 × 26的二进制矩阵，如图3所示。该矩阵被称为样本。图3. 180×26输入样本的矩阵表示在该矩阵中，第一列表示字符“a”的特征向量，第二列表示字符“b”的特征向量，第三列表示字符“c”的特征向量等等。从10位投稿人那里收集了1300幅人物图像（年龄15-50岁），每个作者贡献5个完整的英语字母表（a-z）样本（10×5×26=1300）。因此，每个样本由26个英文字母组成。所有这些样本都被用来训练神经网络分类器。6. 执行输入层的大小取决于在输入处呈现的样本的大小，并且输出层的大小根据其中每个输入模式要被分类的输出类的数量来决定。在所提出的实验中，26个字符图像中的每一个的特征向量的大小为180×1。因此，在输入层中使用180个神经元，并且在输出层中使用26个神经元。310Amit Choudhary等人/ AASRI Procedia 4（2013）306神经网络分类器为了获得最优结果，隐层中保留80个神经元，采用试错法。“tansig”激活函数用于隐藏层和输出层神经元。神经网络训练过程如图4所示，并使用了自适应学习函数“traingdx”。均方误差（MSE）已被选为图4所示训练过程中的成本函数。图4.网络的培训过程在反向传播神经网络的情况下，普遍接受的成本函数来衡量泛化性能是MSE。成本函数的较低值表明神经网络能够以正确的方式映射输入和输出。MSE（成本函数值）的可接受阈值已被选择为0.001，并且当误差变得小于或等于该阈值时，神经网络的训练将结束。性能值指示网络的训练程度。低性能值（0.000865）表示网络已正确训练。在实际应用中，神经网络分类器的性能还取决于训练网络所需的训练迭代训练时期数量太少会导致Amit Choudhary等人/ AASRI Procedia 4（2013）306311由于网络拟合不足而导致训练不足的网络。另一方面，由于网络的过度拟合，太多的训练时期导致泛化能力差。网络学习迭代必须以这样一种方式选择，即网络可以以最小的泛化误差适当地收敛。如图4所示，训练过程的最大允许时期已设置为100000。如果网络不能在最大允许的epochs计数内收敛，训练将停止。7. 结果讨论每个字符图像的正好50个样本被准备用于训练过程，并被呈现给神经网络分类器。在输入层呈现的每个字符模式将仅在输出层的一个神经元处放置“1”，其中存在最高置信度。在所有剩余的神经元处放置“0”。对于输入端的每个字符模式，输出是一个26× 1的列矩阵，其中"由于样本中有26个字符，因此在输入处呈现的样本的输出是26× 26矩阵。图5.表示神经网络分类器在所提出的手写字符识别实验中，26个字符中的每一个都对神经网络进行了50次训练，即来自数据库的1300（50× 26=1300）个字符图像样本参与了学习过程。各种字符之间的识别不确定性如图5所示。字符“a”在50次中有43次被准确识别。在7个错误分类中，字符“a”分别被分类为“e”2次和“o”5次。85.62%的平均总体识别准确率对于该手写字符识别实验来说是相当好的，如图5中以矩阵的形式示出的，该矩阵表示各种英文字母之间的混淆。312Amit Choudhary等人/ AASRI Procedia 4（2013）3068. 结论和未来范围使用二值化特征以及采用反向传播算法的神经网络分类器，可提供85.62%的出色分类准确率。训练样本质量、特征提取技术和分类器是决定识别系统准确率的主要因素。所有这些技术都可以改进，因为改进的范围总是存在的。在未来，可以在识别实验中研究二值化特征与一些其他类型的特征（例如投影轮廓特征）的组合。除了MLP分类器，其他分类器，如RBF，HMM，SVM等也可以在未来进行研究。引用[1] 德赛A.一、2010.“古吉拉特语手写数字光学字符识别通过神经网络”，模式识别，43，pp。2582-2589[2] 昆杜岛H、陈美，2002.“Alternatives to variable duration HMM in handwriting recognition”，IEEE Trans Pattern Anal Mach Intell，20（11），pp. 1275-1280年。[3] Tomoyuki，H.，Takuma，A. &文平岛2007.“使用后验概率的分析字识别算法”，第9届国际文件分析和识别会议论文集，第2页。669-673[4] 加托斯湾，普拉蒂卡基斯岛&Perantonis，S. J.，2006. “Hybrid off-line cursive handwriting wordrecognition”, in proceedings of 18 998-1002[5] Choudhary，A.，Rishi河，和Ahlawat，S.，2010. “Handwritten Numeral Recognition Using ModifiedBP ANN Structure”, 56比65

下载后可阅读完整内容，剩余1页未读，立即下载