汉字识别新方法:多分类器集成与信息熵分析

4星 · 超过85%的资源 需积分: 9 8 下载量 161 浏览量 更新于2024-09-15 收藏 274KB PDF 举报
"本文主要探讨了一种新的汉字识别多分类器集成方法,旨在提高低质量文本的识别准确性和效率。文章由郭宏、丁晓青、郭繁夏和吴佑寿在清华大学电子工程系完成,属于国家‘八六三’高技术项目。" 在OCR(光学字符识别)技术领域,尽管已有许多系统能够高效识别不同字体和字号的汉字印刷文本,但面对质量较低的印刷材料,其识别率和误识率往往不尽人意。为了解决这一问题,文章提出了一个创新的解决方案,即综合识别法,这是一种多分类器集成策略。这种方法考虑了各个分类器的特性,并在保持效率的同时,显著降低了误识率和拒识率。 文章中还介绍了一种基于惩罚函数的机制,用于确定各分类器的拒识门限。此机制允许灵活调整识别率和误识率,同时避免了收集大量训练样本的繁琐工作。分类器的输出信息被分为三类,包括仅输出模式标号、输出候选集序列以及输出候选集和匹配误差。不同的集成方法利用这些不同类型的信息,例如投票法、DS法、Bordacount法和Bayes法。然而,Bayes法通常依赖于特征变量的独立性假设,这在高维特征空间中难以验证,尤其是在构建和应用多个分类器进行汉字识别时。 文中提到,多分类器集成方法在字母和数字识别上已取得显著效果,但在汉字识别领域的应用相对较少,且缺乏完善的理论支持。综合识别法的提出弥补了这一空白,通过优化分类器组合,提高了对低质量汉字文本的识别性能。这种方法对于提升OCR系统的整体性能具有重要意义,特别是在处理实际生活中可能出现的各类印刷质量和条件的挑战时。 这篇研究为汉字识别提供了新的思路,不仅关注识别准确性,还强调了效率和适应性,为未来OCR技术的改进和发展提供了有价值的参考。