利用二值化技术提取的特征进行离线手写字符识别

79 浏览量更新于2023-08-23 收藏 12.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0AASRI Procedia 4 ( 2013 ) 306 – 31202212-6716 © 2013 作者。由ElsevierB.V.出版。负责的选择和/或同行评审由美国应用科学研究学会负责 doi:10.1016/j.aasri.2013.10.0450ScienceDirect02013年智能系统和控制的AASRI会议0使用特征的离线手写字符识别0从二值化技术中提取0Amit Choudhary a, *, Rahul Rishi b , Savita Ahlawat c0a Maharaja Surajmal Institute，新德里，印度0b UIET，Maharshi Dayanand大学，Rohtak，印度0c Maharaja Surajmal技术学院，新德里，印度0摘要0模式分类器的选择和用于特征提取的技术是评估光学字符识别（OCR）系统的识别准确性和能力的主要因素。本研究的主要重点是提取二值化技术获得的特征，用于识别英语手写字符。使用多层前馈人工神经网络作为分类器来识别手写字符图像。在对字符图像进行分类之前，还使用了一些预处理技术，如细化、前景和背景噪声去除、裁剪和尺寸归一化等。当使用二值化特征和多层前馈神经网络分类器来识别离线连写手写字符时，取得了非常有希望的结果。 © 2013.由Elsevier B.V.出版。负责的选择和/或同行评审由美国应用科学研究学会负责关键词：OCR；二值化；特征提取；字符识别；反向传播算法；神经网络。01. 引言0纸张的重要性对于改善人们的记忆不能忽视。它被用于私人信件和官方信函，并被用于重要历史数据的保存。因此，有很大的需求将所有这些纸质文件数字化，以便全世界的人民都可以访问这些重要的知识来源。为此，将手写文本的图像进行预处理和分割成单个字符，并通过神经网络分类器进行识别。0*通讯作者。电话：+91-991-133-5069。电子邮件地址：amit.choudhary69@gmail.com。0在线获取：www.sciencedirect.com0© 2013 作者。由Elsevier B.V.出版。负责的选择和0按照CC BY-NC-ND许可进行开放访问。0按照CC BY-NC-ND许可进行开放访问。 0307 Amit Choudhary等 / AASRI Procedia 4 ( 2013 ) 306 – 3120无论是私人信件（信件，便条，地址，提醒，清单，日记等）还是官方信函（银行支票，税务表格，入学表格等），纸张在我们的日常生活中都很重要，因为它便宜，可靠，易得，填写灵活，对于将来的参考是安全的，并且易于保存。大量重要的历史数据也是以书面形式保存在纸张上的。因此，有很大的需求将所有这些纸质文件数字化，以便全世界的人民都可以访问这些重要的知识来源。为此，将手写文本的图像进行预处理和分割成单个字符，并通过神经网络分类器进行识别。0从静态表面读取手写文本的过程称为离线连写手写识别。将人脑的行为模拟到机器中（用于阅读手写或印刷文本的任务）开启了改进人机界面的创新前景。在过去的四十年中，连写和非约束手写字符的分类一直是这个研究领域的主要问题。02. 相关工作0离线字符识别是当今研究的一个活跃领域。与机器打印字符识别相比，研究人员在手写字符识别领域的工作非常有限，如Apurva A. Desai [1]所述。2002年，Kundu和Chen[2]使用HMM识别100个邮政单词，并报告了88.2%的识别准确率。2007年，Tomoyuki等人[3]使用1646个欧洲国家的城市名称进行识别实验，实现了80.2%的准确率。2006年，Gatos等人[4]使用K-NN分类器识别来自IAM数据库的3799个单词，并报告了81%的准确率。03. 手写字符数据库准备0手写字符图像是用数码相机拍摄的。也可以使用扫描仪扫描字符图像。这个过程称为图像采集[5]。所有手写字符图像被转换为统一的图像格式，如.bmp或.jpg，以便使所有图像都准备好进行下一步处理。可以使用纯白背景或一些带有颜色（噪音）的背景来书写/打印这些手写字符图像。这些样本可能使用不同颜色墨水的不同笔来书写。收集10个不同人（15-50岁）贡献的字符图像样本，每个贡献者写5个完整的英文字母样本（a-z）。因此，为了进行提出的实验，收集了1300个（10×5×26=1300）字符图像样本。04. 预处理0预处理是为了消除离线手写字符中存在的变异性。04.1. 灰度转换0在预处理的这个阶段，使用MATLAB的“rgb2gray”函数将本地数据库中的以.bmp格式的手写字符输入图像转换为灰度格式，所得到的手写字符图像如图1(b)所示。 0308 Amit Choudhary等 / AASRI Procedia 4 ( 2013 ) 306 – 31204.2. 二值化0二值化是图像处理的重要步骤，将像素值分为两组：白色作为背景，黑色作为前景。二值图像中只能出现两种颜色：白色和黑色。二值化的目标是在保护有用信息的同时，尽量减少图像中的无用信息。它必须保留图像中存在的最大有用信息和细节，并且必须以高效的方式消除与图像相关的背景噪声。假设文本的强度小于背景的强度，即输入图像具有黑色前景像素和白色背景像素。如果输入图像的文本强度大于背景强度，则颜色可以反转。此外，背景强度在整个图像中几乎保持均匀，并且在输入图像的任何地方都不会发生剧烈变化。因此，在所提出的二值化技术中，采用全局灰度强度阈值化，并且所得到的手写字符图像如图1(c)所示，不含任何背景噪声。去除前景噪声后的字符图像样本如图1(d)所示。裁剪后的调整大小图像如图1(f)所示。0图1. (a) 输入扫描的手写字符图像；(b) 灰度格式的手写字符图像；(c) 二值格式的字符图像；(d) 去除前景噪声后的字符图像；(e)裁剪后的字符图像；(f) 调整大小的手写字符图像。05. 特征提取和训练样本准备0字符'c'的二值图像如图2(a)所示。它被调整为15×12的矩阵，如图2(b)所示。'0'表示白色像素的存在，'1'表示黑色像素的存在，如所示 0309 Amit Choudhary等 / AASRI Procedia 4 (2013) 306-3120字符‘c’的二值矩阵表示如图2(c)所示。然后使用MATLAB的‘reshape’函数将此大小为15×12的二值矩阵按行优先的方式重塑为大小为180×1的二值矩阵，如图2(d)所示。这个大小为180×1的列向量是字符‘c’的特征向量。0图2. (a) 字符‘c’的二值图像；(b) 字符‘c’的调整大小的二值图像；(c) 字符‘c’的二值矩阵表示 & (d) 字符‘c’的特征向量。0类似地，所有26个字符（a-z）的特征向量都以每个大小为180×1的二值列矩阵的形式创建。所有这26个特征向量组合成大小为180×26的二值矩阵，如图3所示。这个矩阵被称为样本。0图3. 大小为180×26的输入样本的矩阵表示0在这个矩阵中，第一列代表字符‘a’的特征向量，第二列代表字符‘b’的特征向量，第三列代表字符‘c’的特征向量，依此类推。为了创建样本，从10位贡献者（年龄15-50岁）收集了1300个字符图像，每位写手贡献了完整英文字母（a-z）的5个样本（10×5×26=1300）。因此，每个样本由26个英文字母组成。所有这些样本都用于训练神经网络分类器。06. 实施0输入层的大小取决于输入的样本大小，输出层的大小根据每个输入模式要分类的输出类别数量来确定。在本实验中，每个26个字符图像的特征向量大小为180×1。因此，输入层使用了180个神经元，输出层使用了26个神经元。0310 Amit Choudhary等 / AASRI Procedia 4 (2013) 306-3120神经网络分类器采用80个神经元作为隐藏层，通过试验和误差方法选择。‘tansig’激活函数用于隐藏层和输出层神经元。神经网络训练过程如图4所示，采用自适应学习函数‘traingdx’。在图4中选择均方误差（MSE）作为训练过程的成本函数。0图4. 网络的训练过程0在反向传播神经网络中，用于衡量泛化性能的通用成本函数是均方误差（MSE）。成本函数值越低，表示神经网络能够正确映射输入和输出。所选的MSE（成本函数值）的可接受阈值为0.001，当误差小于或等于此阈值时，神经网络的训练将结束。性能值表示网络的训练程度。低性能值（0.000865）表示网络已经训练良好。在实际应用中，神经网络分类器的性能还取决于训练网络所需的训练迭代次数。训练轮数过少会导致网络训练不足，性能较差。另一方面，过多的训练轮数会导致过拟合，泛化性能较差。必须以网络能够以最小的泛化误差正确收敛为目标选择网络的学习迭代次数。训练过程中允许的最大迭代次数设置为100000，如图4所示。如果网络在最大允许的迭代次数内无法收敛，训练将停止。0311 Amit Choudhary等 / AASRI Procedia 4 (2013) 306-3120为了训练过程，为每个字符图像准备了确切的50个样本，并将其提供给神经网络分类器。输入层中呈现的每个字符模式将在输出层的一个神经元上放置‘1’，该神经元具有最高的置信度。在所有其他神经元上放置‘0’。对于输入的每个字符模式，输出是一个26×1的列矩阵，其中只有一个位置上有‘1’，其余25个条目都是‘0’，例如字符‘a’的结果是(1, 0, 0 ... , 0)，字符‘b’的结果是(0, 1,0 ... ,0)，依此类推。以这种方式，输入的所有单个字符都由输出处的每个大小为26×1的列向量表示。由于样本中有26个字符，因此呈现在输入处的样本的输出是一个26×26的矩阵。07. 结果讨论0图5. 表示神经网络分类器性能的混淆矩阵0在提出的手写字符识别实验中，神经网络已经通过每个26个字符训练50次，即数据库中的1300（50×26=1300）个字符图像样本参与了学习过程。图5展示了各个字符之间的识别不确定性。字符‘a’在50次中有43次被准确识别。在7次错误分类中，字符‘a’分别被错误分类为‘e’2次和‘o’5次。整体平均识别准确率为85.62%，对于这个手写字符识别实验来说是相当不错的，如图5所示，以矩阵形式表示了各个英文字母之间的混淆。0312 Amit Choudhary等 / AASRI Procedia 4 (2013) 306-31208. 结论和未来展望0二值化特征与采用反向传播算法的神经网络分类器相结合，具有出色的85.62%的分类准确率。训练样本的质量、特征提取技术和分类器是决定识别系统准确性的主要因素。所有这些技术都可以进行改进，因为总有提升的空间。未来可以研究二值化特征与其他类型特征（例如投影轮廓特征）的结合在识别实验中的应用。除了MLP分类器，还可以在未来研究其他分类器，如径向基函数（RBF）、隐马尔可夫模型（HMM）、支持向量机（SVM）等。0参考文献0[1] Desai, A. A., 2010年。 “通过神经网络进行古吉拉特语手写数字光学字符识别”，《模式识别》, 43, pp.2582—2589。[2] Kundu, Y. H., Chen, M., 2002年。 “手写识别中与可变时长HMM的替代方法”，《IEEETrans Pattern Anal Mach Intell》，20(11), pp. 1275–1280。[3] Tomoyuki, H., Takuma, A. & Bunpei, I.,2007年。 “一种使用后验概率的分析词识别算法”，在第9届国际文件分析和识别会议论文集中，2, pp.669–673。[4] Gatos, B., Pratikakis, I. & Perantonis, S. J., 2006年。“离线连笔手写词识别的混合方法”，在第18届国际模式识别会议 (ICPR’06) 论文集中，2, pp.998–1002。[5] Choudhary, A., Rishi, R., 和 Ahlawat, S., 2010年。“使用修改的BP神经网络结构进行手写数字识别”，《计算机与信息科学的通信》(CCIS-133)，高级计算，Springer-Verlag，pp. 56-65。

下载后可阅读完整内容，剩余1页未读，立即下载