深度学习与语言模型在OCR系统中的应用——苏剑林、曾玉婷
需积分: 5 37 浏览量
更新于2024-06-18
收藏 1.53MB PDF 举报
"这篇文档是华南师范大学团队在第四届‘泰迪杯’全国数据挖掘挑战赛中的优秀作品,名为‘基于深度学习和语言模型的印刷文字OCR系统’,荣获特等奖及企业冠名奖。该系统由苏剑林和曾玉婷共同完成,旨在通过深度学习和语言模型技术实现高效的印刷文字识别。"
本文档详细介绍了如何构建一个完整的OCR(光学字符识别)系统,主要分为四个关键部分:特征提取、文字定位、光学识别和语言模型的应用。
在特征提取阶段,研究者摒弃了传统的边缘检测和腐蚀膨胀技术,转而采用灰度聚类、图层分解和去噪等步骤,提取出的文字特征既可用于文字定位,也可直接用于后续的字符识别模型,减少了额外的特征处理工作。
文字定位是通过邻近搜索和前后统计的方法,将连续的文字特征整合为单行,然后切割为独立的字符。这种方法对中英文混排的情况有很好的适应性。
在光学识别部分,团队利用卷积神经网络(CNN)构建了一个深度学习模型,以识别单个字符。他们自动生成了140万个样本进行训练,模型在训练集上的正确率达到了99.7%,测试集上的正确率为92.1%,即使在15%的图片噪声环境下,仍能保持约90%的正确率。
最后,为了进一步提高识别准确性,团队引入了语言模型。他们利用微信文本数据计算了常见汉字的转移概率矩阵,通过Viterbi算法找出最可能的识别序列,实现了从单个字符到整句的准确识别。
将这些部分综合起来,就构成了一个全面的OCR系统,该系统在印刷文字识别上表现出色,适合应用在电商、微信等平台的图片文字识别场景。关键词包括光学字符识别、特征提取、文本定位、卷积神经网络、深度学习和语言模型。
256 浏览量
2023-12-11 上传
2022-12-24 上传
152 浏览量
matlab科研助手
- 粉丝: 3w+
- 资源: 5989
最新资源
- 实战Visual C#数据库编程
- windows xp 故障恢复台
- OpenGL.Extensions.-.Nvidia
- ibatis 开发指南.pdf
- 悟透JavaScript
- ASP.NET常用代码
- Struts in Action 中文版.pdf
- 注册电气工程师2009年考试大纲
- 网络银行的现状及发展策略
- WCDMA系统网络规化技术
- EJB3.0(PDF)电子书
- Ajax3D-SIGGRAPH2006幻灯片Ajax3D The Open Platform for Rich 3D Web Applications.pdf
- C# C# C#
- TD-SCDMA通信系统呼叫处理详细过程
- oracle 与db2比较
- 线形代数同济第四版答案