深度学习驱动的场景文字检测技术综述与未来趋势

182 浏览量更新于2024-08-28 收藏 2.25MB PDF 举报

随着信息技术的飞速发展，深度学习在计算机视觉领域尤其是场景文字检测方面取得了显著突破。本文综述了2014年至2018年间基于深度学习的场景文字检测技术的最新进展，将这一技术的发展路径划分为四个主要阶段：传统区域建议方法、文字建议网络方法、基于分割的方法以及文字建议网络与分割的混合方法。 1. **传统区域建议方法**：这类方法主要依赖于滑动窗口或候选区域生成器，通过预定义的特征提取和分类器来识别文本区域。它们的优势在于计算效率较高，但可能面临误检和漏检的问题，因为依赖于固定大小和形状的区域。 2. **文字建议网络方法**：这种方法引入了卷积神经网络（CNN），如R-CNN系列，利用全卷积网络进行区域提议和文本识别，提高了检测精度，但计算成本相对较高，且网络结构复杂。 3. **基于分割的方法**：这些方法通常采用端到端的全卷积网络（FCN），直接预测每个像素是否为文本，如SegLink和TextBoxes++。分割方法可以有效减少漏检，但可能存在一定的边界精确度问题。 4. **混合方法**：为了兼顾精度和效率，研究者将文字建议网络与分割方法结合，如MCG+LSTM和CRNN，实现了更好的性能平衡，但设计和优化更加复杂。文章深入分析了这些方法的优缺点，指出传统方法易于实现但效果有限，而深度学习方法虽然精度高但计算成本较高。同时，它强调了混合方法的潜力，即通过结合不同策略来提高整体性能。对于未来发展趋势，文章预测深度学习在场景文字检测中的研究将继续深化，可能会朝着更高效的模型架构、更精细的文本区域理解和多尺度处理方向发展。此外，弱监督学习、多任务学习和迁移学习也将成为研究热点，以降低数据标注的需求并提高模型泛化能力。基于深度学习的场景文字检测技术正在朝着更高的准确性和效率迈进，而研究者们将继续探索如何在保持性能的同时优化算法的复杂性和计算需求，以满足实际应用中的挑战。

电　　子　　学　　报２０１９年

收稿日期：２０１８１０１１；修回日期：２０１９０１１４；责任编辑：马兰英

基金项目：国家自然科学基金（

Ｎｏ．６１６０１１８４，Ｎｏ．６１５６２０５８）；河南省高等学校重点科研项目（Ｎｏ．１６Ａ５２００１８）

基于深度学习的场景文字检测综述

姜　维

１

，张重生

２

，殷绪成

３

（１．华北水利水电大学信息工程学院，河南郑州４５００４５；２．河南大学计算机与信息工程学院，河南开封４７５００１；

３．北京科技大学计算机与通信工程学院，北京１０００８３）

　　摘　要：　近年来，基于深度学习的场景文字检测技术取得重要进展．本文综述了该技术在２０１４～２０１８年间的最

新工作，将其分为传统区域建议方法、文字建议网络方法、基于分割的方法以及文字建议网络与分割的混合方法，并对

各类方法的优劣进行分析．本文还展望了未来发展趋势，指出未来研究热点．

关键词：　深度学习；场景文字；检测定位

中图分类号：　ＴＰ３９１　　　文献标识码：　Ａ　　　文章编号：　０３７２２１１２（２０１９）０５１１５２１０

电子学报ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｅｊｏｕｒｎａｌ．ｏｒｇ．ｃｎ　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．０３７２２１１２．２０１９．０５．０２４

ＤｅｅｐＬｅａｒｎｉｎｇＢａｓｅｄＳｃｅｎｅＴｅｘｔＤｅｔｅｃｔｉｏｎ：ＡＳｕｒｖｅｙ

ＪＩＡＮＧＷｅｉ

１

，ＺＨＡＮＧＣｈｏｎｇｓｈｅｎｇ

２

，ＹＩＮＸｕｃｈｅｎｇ

３

（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＮｏｒｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＷａｔｅｒＲｅｓｏｕｒｃｅｓａｎｄＥｌｅｃｔｒｉｃＰｏｗｅｒ，Ｚｈｅｎｇｚｈｏｕ，Ｈｅｎａｎ４５００４５，Ｃｈｉｎａ；

２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＨｅｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｋａｉｆｅｎｇ，Ｈｅｎａｎ４７５００１，Ｃｈｉｎａ；

３．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙＢｅｉｊｉｎｇ，Ｂｅｉｊｉｎｇ１０００８３，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：　Ｉｎｒｅｃｅｎｔｙｅａｒｓ，ｄｅｅｐｌｅａｒｎｉｎｇｂａｓｅｄｓｃｅｎｅｔｅｘｔｄｅｔｅｃｔｉｏｎｈａｖｅａｃｈｉｅｖｅｄｓｉｇｎｉｆｉｃａｎｔｐｒｏｇｒｅｓｓ．Ｔｈｅｐａｐｅｒｒｅ

ｖｉｅｗｓｓｔａｔｅｏｆｔｈｅａｒｔｍｅｔｈｏｄｓｉｎｔｈｅｆｉｅｌｄｆｒｏｍ２０１４２０１８．ＷｅｃａｔｅｇｏｒｉｚｅｅｘｉｓｔｉｎｇｍｅｔｈｏｄｓｉｎｔｏｔｒａｄｉｔｉｏｎａｌＲｅｇｉｏｎＰｒｏｐｏｓａｌ

ｂａｓｅｄｍｅｔｈｏｄ

，ＴｅｘｔＰｒｏｐｏｓａｌＮｅｔｗｏｒｋｍｅｔｈｏｄ，ｓｅｇｍｅｎｔａｔｉｏｎｂａｓｅｄｍｅｔｈｏｄａｎｄｈｙｂｒｉｄｍｅｔｈｏｄｂａｓｅｄｏｎＴｅｘｔＰｒｏｐｏｓａｌＮｅｔ

ｗｏｒｋａｎｄｓｅｇｍｅｎｔａｔｉｏｎｗｉｔｈｄｅｔａｉｌｅｄａｎａｌｙｓｉｓｏｆｐｒｏｓａｎｄｃｏｎｓｆｏｒｔｈｅｆｏｕｒｍｅｔｈｏｄｓ．Ｆｉｎａｌｌｙ，ｗｅｐｏｉｎｔｏｕｔｒｅｓｅａｒｃｈｔｒｅｎｄｓａｎｄ

ｆｏｃｕｓｅｓｉｎｔｈｉｓｆｉｅｌｄ．

Ｋｅｙｗｏｒｄｓ：　ｄｅｅｐｌｅａｒｎｉｎｇ；ｓｃｅｎｅｔｅｘｔ；ｔｅｘｔｄｅｔｅｃｔｉｏｎ

１　引言

　　文字是人类最重要的信息载体，记载了几千年的

人类文明和历史

［１］

，通过计算机进行文字识别具有重

要价值．２０世纪８０年代，国内清华大学丁晓青团队开

始了文档识别的研究，取得了丰硕成果

．但是，至今自然

场景文字（简称场景文字）检测与识别问题仍尚未解

决．图１对比了传统ＯＣＲ和场景文字检测与识别的研

究对象和难点．其中，场景文字问题的难点在于如下几

个方面：（１）背景复杂；（２）文字颜色多变；（３）光照条

件的不确定性；（４）文字排列的不确定性；（５）文字类

型、字体与大小的不确定性；（６）文字位置的不确定性．

基于以上难点，２０１４年之前的方法

［２～５］

无法有效

解决问题，因此国内外研究者尝试使用深度学习技术

解决问题．本文目标是对基于深度学习的场景文字检

测成果梳理、分类和对比，进而分析该领域的发展趋势，

帮助研究者系统了解领域内相关算法与技术

．如图２所

示，本文将基于深度学习的场景文字检测方法分为传

统区域建议的方法、文字建议网络的方法、基于分割的

方法以及文字建议网络与分割的混合方法四种类型并

进行详细阐述

．

２　主要算法介绍

　　场景文字检测问题的研究大致可分为两个时期：

传统方法时期和深度学习时期．本文重点在于深度学

习时期研究成果，下面先介绍传统方法时期的主要

工作．

２１　传统方法时期

在该时期，研究者主要使用人工设计特征与传统

分类器，多数算法如图２所示包含两个阶段，即文字候

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38719475

粉丝: 2
资源: 950

深度学习驱动的场景文字检测技术综述与未来趋势

基于深度学习的场景文字检测与识别综述.pdf

基于深度学习的场景文字检测综述.pdf

基于深度学习的场景文字识别方法研究综述

基于深度学习异常检测综述

基于深度学习的车辆检测现基于深度学习的车辆检测现状状

基于深度学习的文字识别与检测算法研究

写一篇基于深度学习文字识别的综述

基于深度学习的目标检测算法

基于深度学习的人脸检测算法研究

基于深度学习的入侵检测研究意义6条

最新资源