深度学习与语言模型在OCR系统中的应用——苏剑林、曾玉婷
需积分: 5 96 浏览量
更新于2024-06-18
收藏 1.53MB PDF 举报
"这篇文档是华南师范大学团队在第四届‘泰迪杯’全国数据挖掘挑战赛中的优秀作品,名为‘基于深度学习和语言模型的印刷文字OCR系统’,荣获特等奖及企业冠名奖。该系统由苏剑林和曾玉婷共同完成,旨在通过深度学习和语言模型技术实现高效的印刷文字识别。"
本文档详细介绍了如何构建一个完整的OCR(光学字符识别)系统,主要分为四个关键部分:特征提取、文字定位、光学识别和语言模型的应用。
在特征提取阶段,研究者摒弃了传统的边缘检测和腐蚀膨胀技术,转而采用灰度聚类、图层分解和去噪等步骤,提取出的文字特征既可用于文字定位,也可直接用于后续的字符识别模型,减少了额外的特征处理工作。
文字定位是通过邻近搜索和前后统计的方法,将连续的文字特征整合为单行,然后切割为独立的字符。这种方法对中英文混排的情况有很好的适应性。
在光学识别部分,团队利用卷积神经网络(CNN)构建了一个深度学习模型,以识别单个字符。他们自动生成了140万个样本进行训练,模型在训练集上的正确率达到了99.7%,测试集上的正确率为92.1%,即使在15%的图片噪声环境下,仍能保持约90%的正确率。
最后,为了进一步提高识别准确性,团队引入了语言模型。他们利用微信文本数据计算了常见汉字的转移概率矩阵,通过Viterbi算法找出最可能的识别序列,实现了从单个字符到整句的准确识别。
将这些部分综合起来,就构成了一个全面的OCR系统,该系统在印刷文字识别上表现出色,适合应用在电商、微信等平台的图片文字识别场景。关键词包括光学字符识别、特征提取、文本定位、卷积神经网络、深度学习和语言模型。
2021-01-27 上传
2024-01-20 上传
2024-01-09 上传
2023-06-06 上传
2024-09-16 上传
2024-09-21 上传
2023-11-12 上传
2023-06-02 上传
matlab科研助手
- 粉丝: 2w+
- 资源: 5936
最新资源
- 前端面试必问:真实项目经验大揭秘
- 永磁同步电机二阶自抗扰神经网络控制技术与实践
- 基于HAL库的LoRa通讯与SHT30温湿度测量项目
- avaWeb-mast推荐系统开发实战指南
- 慧鱼SolidWorks零件模型库:设计与创新的强大工具
- MATLAB实现稀疏傅里叶变换(SFFT)代码及测试
- ChatGPT联网模式亮相,体验智能压缩技术.zip
- 掌握进程保护的HOOK API技术
- 基于.Net的日用品网站开发:设计、实现与分析
- MyBatis-Spring 1.3.2版本下载指南
- 开源全能媒体播放器:小戴媒体播放器2 5.1-3
- 华为eNSP参考文档:DHCP与VRP操作指南
- SpringMyBatis实现疫苗接种预约系统
- VHDL实现倒车雷达系统源码免费提供
- 掌握软件测评师考试要点:历年真题解析
- 轻松下载微信视频号内容的新工具介绍