用于识别字符和单词的模型。类似地,字符的内在全局结构和局部外观
由(Skouraet al.,2015年)。使用这些类型的结构的缺点是复杂性增
加,因为为每个独特的字符构建不同的结构。Anand Mishra等人在
(Mishra等人,2016)提出了一种能量最小化框架,其使用条件随机
场(CRF)来识别自然场景中的单词。CRF的缺陷在于它在算法的训练
阶段具有很高的计算
Wahyono等人在(Jo等人,2015)提出了从自然场景图像检测LED
显示区域的工作。利用Canny边缘检测器检测显示区域,计算中心点和
边缘线段,利用K-近邻分类器对字符进行分类,形成具有宽度、高度、
长宽比和颜色等属性的文本行。但是使用这些类型的属性的方法需要针
对每个环境相应地调整值。
利用高斯混合模型(GMM)中的Fisher矢量建立场景识别模型。该
模型采用Fisher矢量结合线性分类器进行字符识别。该方法的局限性在
于缺乏本地描述符 对于每个字符(Shi等人, 2017年b)。 另一个
研究者使用了两个新的特征描述符,即同现HOG(Co-HOG)和卷积
Co-HOG(ConvCo-HOG),这两个特征描述符被引入到字符识别中以
提高 准 确 率。 与 使用每 个像素 的 频率的 传统直方 图(HOG)不同
(Tian等人,2016年)。即使他们试图捕捉上下文信息,他们无法捕捉
空间关系。
Xiang Bai等人在(Bai等人,2016)说明了一种称为Strokelets的
新颖的多尺度字符模型。它能够征服各种粒度的字符的子结构。在笔画
的基础上,提出了一种新的直方图特征--笔画袋特征,并将其与随机森
林分类器相结合进行字符的训练和识别。虽然strokelets能够检测字
符,但它
Chong Yu et al.
在(
Yu
等人,
2015
)已经描述了用于文本检测
和识别的基于边缘的方法。首先利用
Canny
边缘算子和
Harry
角点检
测方法将边缘从图像中分离出来形成边缘段,然后基于颜色和笔画
属性采用贪婪分层聚类方法将边缘段重新组合在一起。字符识别采
用随机森林分类器。该模型虽然取得了较好的查准率,但查全率仍
有不足。这些使用边缘检测方法的方法对噪声高度敏感,并且提取
受光的影响而受阻。
Baoguang Shi等人在(Shi等人,2017 a)提出了一种神经网络架
构 , 用 于 从 自 然 场 景 中 识 别 文 本 , 并 结 合 了 深 度 卷 积 神 经 网 络
(DCNN)和卷积递归神经网络(CRNN)的优点。该建筑能够拍摄不
同长度和尺寸的照片。Fenglei Wang等人在(Wang等人,2017)已经
使用DCNN在CRNN上建立了一个模型,以形成无分割的文本识别系
统。
深 度 学 习 或 卷 积 神 经 网 络 能 够 产 生 良 好 的 结 果 , 但 François
Chollet
1
(Chollet,2018)认为这些方法在某些条件下会产生更好的结
果。在他的书中,他说深度学习方法
1
François Chollet
,
Keras
深度学习库的创建者,
TensorFlow
的贡献者,也在加利福尼
亚州山景城的
Google
工作
需要非常大量的数据样本来进行训练,这些数据样本可以运行数周来与
并行运行的众多昂贵的GPU一起训练。他甚至公开表示,即使用深度学
习来学习排序算法也会非常困难。而且在不适当的数据样本大小和给定
的百万参数下,它可能会遭受
过拟合
问题。与其他机器学习方法不同,
这种方法的训练和学习完全是黑箱(Von Neumann,2012)。近年
来,文本识别技术在计算机视觉领域的应用越来越广泛,其复杂性也给
文本识别带来了挑战。已有的研究表明,简单的方法会产生大量的误
报,复杂的方法会产生过拟合问题。通过讨论的方法的优点和缺陷,可
以推断,一个模型,可以快速工作,以及适当的推广与平衡的精度,
和召回率的需求。
2.2. T-SVM
Jayadeva等人(Khemchandani和Chandra,2007)提出了一种称
为Twin Support Vector Machine(T-SVM)的新型学习算法,该算法
解决了两个较小尺寸的QPP,而不是传统SVM中的一个复杂QPP。T-
SVM是对广义特征值支持向量机(GEPSVM)的改进,其中分类器旨
在使用两个非平行平面而不是SVM中的平行平面。T-SVM
的局限性是存
在过拟合问题,并且是针对二进制分类进行的。
Ganesh等人在(Naik
等人,2010)和Arjunan等人在(Arjunan等人,2010)已经利用了T-
SVM在生物医学领域的优势。
Divya Tomar等人在(Tomar and Agarwal,2015 a)中提出了基
于“一对一”、“一对全部”、“全部对一”和直接无环图(DAG)等原则的
多分类器。详细分析了每类分类器的复杂度。分类器的局限性在于存在
未分类的区域,并且分类器也存在类不平衡问题。Cong等人在(Cong
等人,2008)实现了T-SVM以及高斯混合模型(GMM)用于说话人识
别。该方法使用GMM来收集作为T-SVM模型的输入的特征参数。这里
还使用GMM来收集特征以作为T-SVM的输入(Yang和Wu,2009)。
Xinsheng Zhang等人(Zhang,2009)设计了Boosting T-SVM,
用于检测数字乳房X线照片中的钙化微钙化(MC),以发现乳腺癌的早
期体征。他们已经扩展了他们在检测乳房X光片方面的工作, 用于使
用 主成分分 析 ( PCA) 、 线 性 判 别分析 (LDA ) 、 张 量 判别分析
(TDA)和通用张量判别分析(GTDA)进行学习的子空间。然后在检
测过程中使用T-SVM作为分类器(Zhang和Gao,2012)。提出了一种
混合T-SVM模型用于孕妇糖尿病检测。该模型利用混合核函数与T-
SVM一起有效地处理非线性数据(Tomar和Agarwal,2014)。
Agarwal等人在(Agarwal等人,2014)使用T-SVM来检测软件缺
陷。另一项研究使用最小二乘T-SVM(LST-SVM)和F得分特征选择
方法来检测和指示软件模块中的缺陷(Agarwal和Tomar,2014)。
Kumar等人在(Kumar和Gopal,2009)中也使用LST-SVM来执行文
档分类。Nasiri等人在(Nasiri等人,2014年)设计了基于能量的LST-
SVM(ELS-T-SVM),以提高不平衡数据集的分类精度,并已在人体
动作识别领域得到证明。Yang HY等人在(Yang等人,2014)应用非
下采样Shearlet变换(NSST)与T-SVM合作对图像进行去噪。噪声图
像被分离成频率的各个子带,