深度学习与语言模型在OCR系统中的应用——苏剑林、曾玉婷

需积分: 5 0 下载量 37 浏览量 更新于2024-06-18 收藏 1.53MB PDF 举报
"这篇文档是华南师范大学团队在第四届‘泰迪杯’全国数据挖掘挑战赛中的优秀作品,名为‘基于深度学习和语言模型的印刷文字OCR系统’,荣获特等奖及企业冠名奖。该系统由苏剑林和曾玉婷共同完成,旨在通过深度学习和语言模型技术实现高效的印刷文字识别。" 本文档详细介绍了如何构建一个完整的OCR(光学字符识别)系统,主要分为四个关键部分:特征提取、文字定位、光学识别和语言模型的应用。 在特征提取阶段,研究者摒弃了传统的边缘检测和腐蚀膨胀技术,转而采用灰度聚类、图层分解和去噪等步骤,提取出的文字特征既可用于文字定位,也可直接用于后续的字符识别模型,减少了额外的特征处理工作。 文字定位是通过邻近搜索和前后统计的方法,将连续的文字特征整合为单行,然后切割为独立的字符。这种方法对中英文混排的情况有很好的适应性。 在光学识别部分,团队利用卷积神经网络(CNN)构建了一个深度学习模型,以识别单个字符。他们自动生成了140万个样本进行训练,模型在训练集上的正确率达到了99.7%,测试集上的正确率为92.1%,即使在15%的图片噪声环境下,仍能保持约90%的正确率。 最后,为了进一步提高识别准确性,团队引入了语言模型。他们利用微信文本数据计算了常见汉字的转移概率矩阵,通过Viterbi算法找出最可能的识别序列,实现了从单个字符到整句的准确识别。 将这些部分综合起来,就构成了一个全面的OCR系统,该系统在印刷文字识别上表现出色,适合应用在电商、微信等平台的图片文字识别场景。关键词包括光学字符识别、特征提取、文本定位、卷积神经网络、深度学习和语言模型。