为此,建立了一个新的文本数据集--南洋理工大学无约束文本和对
象图像数据集(NTU-UTOI)。该数据集包含22,767幅自然场景图
像,其中42类对象具有165,749个边界框,文本
1
具有
111,868个边界
框,包括英文、中文和数字。图2显示了NTU-UTOI数据集中的样本。
有关数据集的更多信息,请参见第4节。据我们所知,它是用于文本
识别的第二大真实(非合成)自然场景图像数据集。NTU-UTOI用于
训练和测试所提出的算法。此外,在评价和比较中还采用了来自三个
不同群体的三个基准:SVT
2
、MSRA-TD500
3
和COCO-Text
4
。这三个
数据库具有挑战性,因为它们的图像来自不同的环境和杂乱的背景。
本文其余部分的组织结构如下:第2节给出了一个非常简短的总结
国家的最先进的文本检测方法。第3节详细阐述了所提出的算法。第4
节报告了在三个基准数据集以及NTU-UTOI数据集上与最先进的文本
检测方法的比较结果。第5节给出了一些结论性的评论。
2
相关作品
自然场景图像中的文本检测已经研究了几十年[2,12,19,20],并且已
经提出了各种方法,这些方法可以大致分为字符区域方法和滑动窗口方
法。字符区域方法旨在将像素分割成字符,然后将字符分组为单词[12,
19-24],而滑动窗口方法确定滑动窗口中的像素是否属于文本[9,25-
27]。文本检测也可以分为基于图像处理的方法和基于深度学习的方法。
基于图像处理的方法首先对图像进行预处理,然后提取特征,最后将像
素点分类为文本和背景。深度学习方法利用深度网络自动提取特征并基
于其特征图执行检测的能力。一般来说,深度学习方法的性能更好,但
需要更多的计算资源,特别是在训练中。
Epshtein等人提出了一种用于文本检测的每像素输出变换,称为笔
划宽度变换(SWT)[12]。Neumann和Matas [24]提出了一种基于梯度
滤波器的方法来检测定向笔划,其显著优于SWT。Anthimopoulos等人
提出了一种滑动窗口方法,该方法使用动态归一化边缘作为特征和随
机森林分类器来检测自然场景图像中的文本[27]。Chen等人使用边缘
增强的最大稳定极值区域(MSER)进行文本检测
1
在NTU-UTOI中,文本一词是指英文、中文和数字。
2
http://tc11.cvc.uab.es/datasets/SVT_1
3
http://www.iapr-tc11.org/mediawiki/index.php/MSRA_Text_Detection_500_数据库_
(MSRA-TD 500)
4
https://vision.cornell.edu/se3/coco-text-2/