流形正则化T-SVM提升场景文本识别性能：84.91% ICDAR2015准确率

9 浏览量更新于2024-06-17 收藏 2.15MB PDF 举报

本文探讨了"流形正则化双支持向量机在场景文本识别中的应用"这一主题，由Leena Mary Francis和N.斯雷纳特两位学者在沙特国王大学计算机科学与工程系进行的研究。自然场景中的文本识别一直以来都是一个极具挑战性的任务，由于文本在不同环境下呈现的高度多样性，对算法的鲁棒性和准确性提出了高要求。研究人员提出的创新工作主要集中在改进Twin Support Vector Machine (T-SVM) 的泛化性能上，通过引入流形正则化技术。这种正则化策略同时考虑了环境正则项和内在正则项，旨在构建平滑的模型，减少过拟合，提高在复杂场景中的识别能力。在处理自然场景文本时，该模型不仅关注文本定位，还包含一个重新验证模块，以消除定位阶段可能产生的误报。在识别阶段，模型逐个识别文本对象中的每个字符，并将其作为输入传递给文本构建阶段，利用与对象关联的坐标信息构建最终的文本。这种方法将模型与传统的支持向量机(SVM)、T-SVM以及LST-SVM（最小二乘双支持向量机）等进行了比较，结果显示在ICDAR2015数据集上的准确率达到84.91%，在MSRA500数据集上为84.21%，而在SVT数据集上的表现更佳，达到86.21%。这些实验结果表明，流形正则化双支持向量机在场景文本识别任务中表现出良好的识别精度和性能，能有效地处理文本对象的多样性和复杂性。该研究发表在《沙特国王大学学报》上，以开放获取的形式发布，遵循CCBY-NC-ND许可证，允许在非商业且不改变作品原貌的前提下进行分享。随着信息技术的发展，计算机视觉特别是文本识别的重要性日益凸显，本文的工作为这一领域的进展提供了新的思路和技术支撑。

592
L.M. Francis
，
N.Sreenath
/
Journal of King Saud University
用于识别字符和单词的模型。类似地，字符的内在全局结构和局部外观
由（Skouraet al.，2015年）。使用这些类型的结构的缺点是复杂性增
加，因为为每个独特的字符构建不同的结构。Anand Mishra等人在
（Mishra等人，2016）提出了一种能量最小化框架，其使用条件随机
场（CRF）来识别自然场景中的单词。CRF的缺陷在于它在算法的训练
阶段具有很高的计算
Wahyono等人在（Jo等人，2015）提出了从自然场景图像检测LED
显示区域的工作。利用Canny边缘检测器检测显示区域，计算中心点和
边缘线段，利用K-近邻分类器对字符进行分类，形成具有宽度、高度、
长宽比和颜色等属性的文本行。但是使用这些类型的属性的方法需要针
对每个环境相应地调整值。
利用高斯混合模型（GMM）中的Fisher矢量建立场景识别模型。该
模型采用Fisher矢量结合线性分类器进行字符识别。该方法的局限性在
于缺乏本地描述符 对于每个字符（Shi等人， 2017年b）。 另一个
研究者使用了两个新的特征描述符，即同现HOG（Co-HOG）和卷积
Co-HOG（ConvCo-HOG），这两个特征描述符被引入到字符识别中以
提高 准 确 率。 与 使用每 个像素 的 频率的 传统直方 图（HOG）不同
（Tian等人，2016年）。即使他们试图捕捉上下文信息，他们无法捕捉
空间关系。
Xiang Bai等人在（Bai等人，2016）说明了一种称为Strokelets的
新颖的多尺度字符模型。它能够征服各种粒度的字符的子结构。在笔画
的基础上，提出了一种新的直方图特征--笔画袋特征，并将其与随机森
林分类器相结合进行字符的训练和识别。虽然strokelets能够检测字
符，但它
Chong Yu et al.
在（
Yu
等人，
2015
）已经描述了用于文本检测
和识别的基于边缘的方法。首先利用
Canny
边缘算子和
Harry
角点检
测方法将边缘从图像中分离出来形成边缘段，然后基于颜色和笔画
属性采用贪婪分层聚类方法将边缘段重新组合在一起。字符识别采
用随机森林分类器。该模型虽然取得了较好的查准率，但查全率仍
有不足。这些使用边缘检测方法的方法对噪声高度敏感，并且提取
受光的影响而受阻。
Baoguang Shi等人在（Shi等人，2017 a）提出了一种神经网络架
构 ， 用 于 从 自 然 场 景 中 识 别 文 本 ， 并 结 合 了 深 度 卷 积 神 经 网 络
（DCNN）和卷积递归神经网络（CRNN）的优点。该建筑能够拍摄不
同长度和尺寸的照片。Fenglei Wang等人在（Wang等人，2017）已经
使用DCNN在CRNN上建立了一个模型，以形成无分割的文本识别系
统。
深 度 学 习 或 卷 积 神 经 网 络 能 够 产 生 良 好 的 结 果 ， 但 François
Chollet
1
（Chollet，2018）认为这些方法在某些条件下会产生更好的结
果。在他的书中，他说深度学习方法
1
François Chollet
，
Keras
深度学习库的创建者，
TensorFlow
的贡献者，也在加利福尼
亚州山景城的
Google
工作
需要非常大量的数据样本来进行训练，这些数据样本可以运行数周来与
并行运行的众多昂贵的GPU一起训练。他甚至公开表示，即使用深度学
习来学习排序算法也会非常困难。而且在不适当的数据样本大小和给定
的百万参数下，它可能会遭受
过拟合
问题。与其他机器学习方法不同，
这种方法的训练和学习完全是黑箱（Von Neumann，2012）。近年
来，文本识别技术在计算机视觉领域的应用越来越广泛，其复杂性也给
文本识别带来了挑战。已有的研究表明，简单的方法会产生大量的误
报，复杂的方法会产生过拟合问题。通过讨论的方法的优点和缺陷，可
以推断，一个模型，可以快速工作，以及适当的推广与平衡的精度，
和召回率的需求。
2.2. T-SVM
Jayadeva等人（Khemchandani和Chandra，2007）提出了一种称
为Twin Support Vector Machine（T-SVM）的新型学习算法，该算法
解决了两个较小尺寸的QPP，而不是传统SVM中的一个复杂QPP。T-
SVM是对广义特征值支持向量机（GEPSVM）的改进，其中分类器旨
在使用两个非平行平面而不是SVM中的平行平面。T-SVM
的局限性是存
在过拟合问题，并且是针对二进制分类进行的。
Ganesh等人在（Naik
等人，2010）和Arjunan等人在（Arjunan等人，2010）已经利用了T-
SVM在生物医学领域的优势。
Divya Tomar等人在（Tomar and Agarwal，2015 a）中提出了基
于“一对一”、“一对全部”、“全部对一”和直接无环图（DAG）等原则的
多分类器。详细分析了每类分类器的复杂度。分类器的局限性在于存在
未分类的区域，并且分类器也存在类不平衡问题。Cong等人在（Cong
等人，2008）实现了T-SVM以及高斯混合模型（GMM）用于说话人识
别。该方法使用GMM来收集作为T-SVM模型的输入的特征参数。这里
还使用GMM来收集特征以作为T-SVM的输入（Yang和Wu，2009）。
Xinsheng Zhang等人（Zhang，2009）设计了Boosting T-SVM，
用于检测数字乳房X线照片中的钙化微钙化（MC），以发现乳腺癌的早
期体征。他们已经扩展了他们在检测乳房X光片方面的工作， 用于使
用 主成分分 析 （ PCA） 、 线 性 判 别分析 （LDA ） 、 张 量 判别分析
（TDA）和通用张量判别分析（GTDA）进行学习的子空间。然后在检
测过程中使用T-SVM作为分类器（Zhang和Gao，2012）。提出了一种
混合T-SVM模型用于孕妇糖尿病检测。该模型利用混合核函数与T-
SVM一起有效地处理非线性数据（Tomar和Agarwal，2014）。
Agarwal等人在（Agarwal等人，2014）使用T-SVM来检测软件缺
陷。另一项研究使用最小二乘T-SVM（LST-SVM）和F得分特征选择
方法来检测和指示软件模块中的缺陷（Agarwal和Tomar，2014）。
Kumar等人在（Kumar和Gopal，2009）中也使用LST-SVM来执行文
档分类。Nasiri等人在（Nasiri等人，2014年）设计了基于能量的LST-
SVM（ELS-T-SVM），以提高不平衡数据集的分类精度，并已在人体
动作识别领域得到证明。Yang HY等人在（Yang等人，2014）应用非
下采样Shearlet变换（NSST）与T-SVM合作对图像进行去噪。噪声图
像被分离成频率的各个子带，