汉字识别新方法：多分类器集成与信息熵分析

4星 · 超过85%的资源需积分: 9 161 浏览量更新于2024-09-15 收藏 274KB PDF 举报

"本文主要探讨了一种新的汉字识别多分类器集成方法，旨在提高低质量文本的识别准确性和效率。文章由郭宏、丁晓青、郭繁夏和吴佑寿在清华大学电子工程系完成，属于国家‘八六三’高技术项目。" 在OCR（光学字符识别）技术领域，尽管已有许多系统能够高效识别不同字体和字号的汉字印刷文本，但面对质量较低的印刷材料，其识别率和误识率往往不尽人意。为了解决这一问题，文章提出了一个创新的解决方案，即综合识别法，这是一种多分类器集成策略。这种方法考虑了各个分类器的特性，并在保持效率的同时，显著降低了误识率和拒识率。文章中还介绍了一种基于惩罚函数的机制，用于确定各分类器的拒识门限。此机制允许灵活调整识别率和误识率，同时避免了收集大量训练样本的繁琐工作。分类器的输出信息被分为三类，包括仅输出模式标号、输出候选集序列以及输出候选集和匹配误差。不同的集成方法利用这些不同类型的信息，例如投票法、DS法、Bordacount法和Bayes法。然而，Bayes法通常依赖于特征变量的独立性假设，这在高维特征空间中难以验证，尤其是在构建和应用多个分类器进行汉字识别时。文中提到，多分类器集成方法在字母和数字识别上已取得显著效果，但在汉字识别领域的应用相对较少，且缺乏完善的理论支持。综合识别法的提出弥补了这一空白，通过优化分类器组合，提高了对低质量汉字文本的识别性能。这种方法对于提升OCR系统的整体性能具有重要意义，特别是在处理实际生活中可能出现的各类印刷质量和条件的挑战时。这篇研究为汉字识别提供了新的思路，不仅关注识别准确性，还强调了效率和适应性，为未来OCR技术的改进和发展提供了有价值的参考。

qqdamo

粉丝: 0
资源: 2

汉字识别新方法：多分类器集成与信息熵分析

基于MIP神经网络分类器的OCR字符识别，内含训练图片和识别图片

基于KNN分类器的ocr(数字识别)C++源代码，参考的opencv sample

OCR文字识别与分类管理系统开发教程

ocr文字识别 天若OCR文字识别 快速

OCR文字识别资料，OCR文字识别资料

ocr文字识别 迅捷ocr文字识别软件 v6.6

OCR.rar_OCR_OCR visual basic_ocr 识别_ocr字符识别_字符识别

本地ocr文字识别软件免费版，电脑ocr识别工具，离线ocr文字识别软件pc版

Artificial_Intellegence.rar_OCR_ocr 识别_ocr图形识别_识别

OCR.rar_OCR_OCR识别_ocr office_ocr 识别_office ocr

最新资源

ocr文字识别天若OCR文字识别快速

ocr文字识别迅捷ocr文字识别软件 v6.6