汉字识别新方法:多分类器集成与信息熵分析
4星 · 超过85%的资源 需积分: 9 161 浏览量
更新于2024-09-15
收藏 274KB PDF 举报
"本文主要探讨了一种新的汉字识别多分类器集成方法,旨在提高低质量文本的识别准确性和效率。文章由郭宏、丁晓青、郭繁夏和吴佑寿在清华大学电子工程系完成,属于国家‘八六三’高技术项目。"
在OCR(光学字符识别)技术领域,尽管已有许多系统能够高效识别不同字体和字号的汉字印刷文本,但面对质量较低的印刷材料,其识别率和误识率往往不尽人意。为了解决这一问题,文章提出了一个创新的解决方案,即综合识别法,这是一种多分类器集成策略。这种方法考虑了各个分类器的特性,并在保持效率的同时,显著降低了误识率和拒识率。
文章中还介绍了一种基于惩罚函数的机制,用于确定各分类器的拒识门限。此机制允许灵活调整识别率和误识率,同时避免了收集大量训练样本的繁琐工作。分类器的输出信息被分为三类,包括仅输出模式标号、输出候选集序列以及输出候选集和匹配误差。不同的集成方法利用这些不同类型的信息,例如投票法、DS法、Bordacount法和Bayes法。然而,Bayes法通常依赖于特征变量的独立性假设,这在高维特征空间中难以验证,尤其是在构建和应用多个分类器进行汉字识别时。
文中提到,多分类器集成方法在字母和数字识别上已取得显著效果,但在汉字识别领域的应用相对较少,且缺乏完善的理论支持。综合识别法的提出弥补了这一空白,通过优化分类器组合,提高了对低质量汉字文本的识别性能。这种方法对于提升OCR系统的整体性能具有重要意义,特别是在处理实际生活中可能出现的各类印刷质量和条件的挑战时。
这篇研究为汉字识别提供了新的思路,不仅关注识别准确性,还强调了效率和适应性,为未来OCR技术的改进和发展提供了有价值的参考。
2017-09-08 上传
点击了解资源详情
2022-09-09 上传
2020-12-15 上传
2022-09-21 上传
2023-01-24 上传
2022-09-19 上传
qqdamo
- 粉丝: 0
- 资源: 2
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能