深度学习与语言模型在OCR系统中的应用——苏剑林、曾玉婷

需积分: 5 37 浏览量更新于2024-06-18 收藏 1.53MB PDF 举报

"这篇文档是华南师范大学团队在第四届‘泰迪杯’全国数据挖掘挑战赛中的优秀作品，名为‘基于深度学习和语言模型的印刷文字OCR系统’，荣获特等奖及企业冠名奖。该系统由苏剑林和曾玉婷共同完成，旨在通过深度学习和语言模型技术实现高效的印刷文字识别。" 本文档详细介绍了如何构建一个完整的OCR（光学字符识别）系统，主要分为四个关键部分：特征提取、文字定位、光学识别和语言模型的应用。在特征提取阶段，研究者摒弃了传统的边缘检测和腐蚀膨胀技术，转而采用灰度聚类、图层分解和去噪等步骤，提取出的文字特征既可用于文字定位，也可直接用于后续的字符识别模型，减少了额外的特征处理工作。文字定位是通过邻近搜索和前后统计的方法，将连续的文字特征整合为单行，然后切割为独立的字符。这种方法对中英文混排的情况有很好的适应性。在光学识别部分，团队利用卷积神经网络（CNN）构建了一个深度学习模型，以识别单个字符。他们自动生成了140万个样本进行训练，模型在训练集上的正确率达到了99.7%，测试集上的正确率为92.1%，即使在15%的图片噪声环境下，仍能保持约90%的正确率。最后，为了进一步提高识别准确性，团队引入了语言模型。他们利用微信文本数据计算了常见汉字的转移概率矩阵，通过Viterbi算法找出最可能的识别序列，实现了从单个字符到整句的准确识别。将这些部分综合起来，就构成了一个全面的OCR系统，该系统在印刷文字识别上表现出色，适合应用在电商、微信等平台的图片文字识别场景。关键词包括光学字符识别、特征提取、文本定位、卷积神经网络、深度学习和语言模型。

“泰迪杯”优秀作品

6 语言模型 16

6.1 转移概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

6.2 动态规划 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

6.2.1 转移概率矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

6.2.2 Viterbi 算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

6.3 提升效果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7 综合评估 19

7.1 数据验证 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7.2 模型综述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

7.3 结果反思 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

参考文献 21

“泰迪杯”优秀作品

2 建模说明

1 研究背景

关于光学字符识别 (Optical Character Recognition, 下面都简称 OCR)，是指将图像上的文字转化为计算

机可编辑的文字内容，众多的研究人员对相关的技术研究已久，也有不少成熟的 OCR 技术和产品产生，比如

汉王 OCR、ABBYY FineReader、Tesseract OCR 等. 值得一提的是，ABBYY FineReader 不仅正确率高 (包

括对中文的识别)，而且还能保留大部分的排版效果，是一个非常强大的 OCR 商业软件.

然而，在诸多的 OCR 成品中，除了 Tesseract OCR 外，其他的都是闭源的、甚至是商业的软件，我们

既无法将它们嵌入到我们自己的程序中，也无法对其进行改进. 开源的唯一选择是 Google 的 Tesseract OCR，

但它的识别效果不算很好，而且中文识别正确率偏低，有待进一步改进.

综上所述，不管是为了学术研究还是实际应用，都有必要对 OCR 技术进行探究和改进. 我们队伍将完整

的 OCR 系统分为“特征提取”、“文字定位”、“光学识别”、“语言模型”四个方面，逐步进行解决，最终完成了一个

可用的、完整的、用于印刷文字的 OCR 系统. 该系统可以初步用于电商、微信等平台的图片文字识别，以判

断上面信息的真伪.

2 建模说明

2.1 研究假设

在本文中，我们假设图像的文字部分有以下的特征：

1. 印刷字体假设我们要识别的图像字体都是比较规范的印刷字体，如宋体、黑体、楷体、行书等；

2. 对比度文字与背景应该有比较明显的对比度；

3. 横向排版在设计模型的时候，我们假设了图片文本是横向排版的；

4. 厚度文字的笔画应该有一定的宽度，不可以太细；

5. 渐变性同一个文字的色彩应该最多是渐变的；

6. 复杂性一般文字是通过比较密集的笔画成字的，并且很多时候都具有一定的连通性.

可以看到，这些特征都是常见的电商宣传海报等的常见特点，因此这些假设都是比较合理的.

2.2 分析流程

特征

提取

⽂字

定位

光学

识别

语⾔

模型

聚类

分解

去噪

池化

碎⽚

整合

单字

切割

样本

构建

模型

训练

测试

检验

转移

概率

动态

规划

图 1: 我们的实验流程图

1 页

剩余25页未读，继续阅读

matlab科研助手

粉丝: 3w+
资源: 5989

深度学习与语言模型在OCR系统中的应用——苏剑林、曾玉婷

基于深度学习的文字识别方法及系统 .pdf

基于深度学习的OCR识别源码包

深度学习在OCR中的应用

A001-L-李上钦-基于图像处理和数据挖掘技术的车辆压双黄线检测.pdf

A001-周涛-基于电商平台家电设备的消费者需求及产品数据挖掘分析.pdf

IP-A001-A0-文件管理程序.doc

rac_basic_sample_project-图纸-A001-TitleSheet-渲染-Kitchen.dwg

a001-201303.素雅灰度_罗列式_适用于应届生_2页式_无内容_有封面.doc.zip

a001-201403.红白色_罗列式_适用于应届生_1页式_无内容_无封面.doc.zip

A001-MySQL安装、MySQL优化、innodb 锁问题监控处理、MySQL binlog日志、MySQL 基础

最新资源