流形正则化双支持向量机在场景文本识别中的应用

134 浏览量更新于2024-01-18 收藏 2.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于流形正则化双支持向量机的场景文本识别Leena MaryFrancis，N.斯雷纳特计算机科学与工程系，本地治里工程学院，本地治里605014，印度阿提奇莱因福奥文章历史记录：2018年9月12日收到2018年12月31日修订2019年1月28日接受在线提供2019年保留字：机器学习流形正则化多类场景文本检测场景文本识别孪生支持向量机A B S T R A C T自然场景图像中的文本识别一直是一个具有挑战性的问题，这归因于在不受约束的环境中的高度可变的外观。所提出的工作是新颖的，它通过流形正则化改进了Twin Support Vector Machine（T-SVM）的泛化能力，并进一步扩展到验证和识别自然场景图像中的文本。多类T-SVM增加了环境正则项和内在正则项，有助于形成模型的平滑函数。从自然场景中理解语篇包括对语篇的定位、识别和重构这项工作包括一个额外的模块，重新验证，丢弃在本地化阶段检测到的文本对象的误报然后，在识别阶段，为适当的类识别来自文本对象池的每个字母，并将其作为输出提供给文本构建阶段，该阶段使用与对象相关联的坐标池构建文本。该模型与支持向量机（SVM），T-SVM，LST-SVM（最小二乘双支持向量机）等传统方法以及其他同类研究进行了评估，并显示ICDAR 2015的准确率为84.91%，MSRA 500为84.21%，SVT为86.21%。实验结果表明，该模型能够识别出大部分的字符，且具有较高的识别精度。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍信息时代的到来，使信息成为当代人类的基本权利因此，计算机视觉是一个重要的研究领域，它涉及从图像中自动检索和理解信息（Gao等人，2016;Sain等人，2018; Owusu等人，2014年）。从自然场景图像中理解文本包括文本检测和文本识别两大部分。文本检测是将图像转换为机器可读片段的过程，文本识别是将文本片段转换为实际可读的文本格式的过程，该文本格式可以进一步被语音合成器用于读取文本*通讯作者。电子邮件地址： leena. pec.edu （ L.M.Francis ）， nsreenath@pec.edu（N.Sreenath）。沙特国王大学负责同行审查制作和主办：Elsevier或理解文本。文本处理利用自身来帮助具有视觉障碍的人，基于内容的图像检索（Mehmood等人，2018年）、无人驾驶车辆导航（Aguirre和González，2003年）、图像搜索、机器人导航和旅游援助（De Gavis等人，2007年）。从文本处理的进步中受益最多的是有视觉障碍的人，因为他们的日常生活本身将通过技术变得容易（Bhargava和Bansal，2018）。视力障碍者（Yi和Tian，2011年; Zhang等人，2018年）将能够阅读显示的家用电器，产品，包括药品，杂货，小册子，并将能够在街道上移动阅读名牌，只需通过他们的手机点击照片（Yi和Tian，2014年; Kumar等人， 2018年）。文本处理被认为是计算机视觉中最困难的工作（Shirai，2012），因为缺乏一致的模式。光学字符识别（OCR）已经达到了100%准确率的饱和点，因为它已经区分了前景和背景。所提出的文本压缩被称为鲁棒场景文本识别（ROSTER），因为即使给出具有噪声、模糊、变化的光强度的错误输入，系统也将能够处理。图 1显示每个问题的复杂度百分比https://doi.org/10.1016/j.jksuci.2019.01.0131319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com590L.M. Francis，N.Sreenath/ Journal of King Saud UniversityFig. 1.问题的复杂性这影响了从自然场景中识别的过程。表1列出了问题和工作，说明了与相应问题相关的重要性图 3个展品样本场景表1与问题相关的文献。问题小说家来自基准数据集，如ICDAR 2015，SVT和MSRA 500。从自然场景中识别文本场景需要实现智能化和完全自动化，为此提出了一个模型，一封信的不同风格Shi等人（2017 a）、Wang等人（2017）、Mekhalfi等人（2016年）Huang等人（2014）、Bai等人（2016）、Ye和Doermann（2015）MAnifold Twin-Support Vector Machine（MAT-SVM）是一种利用文本样本的局部几何结构而不是整个全局数据结构的智能文本识别系统。由Vapnik等人提出的支持向量机（SVM）在（Vapnik，1998）中提供了一种鲁棒且独特的解决方案，但由于它解决了一个大的二次规划问题（QPP），因此涉及高计算复杂性（Guo和Wang，2016）。因此，为了克服该限制， Javadeva 等人在（ Khemchandani 和Chandra，2007）中提出了双支持向量机（T-SVM），其使用两个非平行超平面来代替平行超平面，使得每个超平面更接近一个类并且更远离另一类，从而将一个QPP求解为两个较小尺寸的QPP。T-SVM证明了他们能够解决这个问题Yao et al. （2014），Shi et al.（2014），Mishra et al.（2016年）Sain等人（2018）、Zhu等人（2016）、Zang等人（2015年）Yao et al. （2014），Roy et al.（2015），Shi et al.（2017年b）Mekhalfi等人（2016），Zang等人（2015年）Yao et al. （2014），Wang et al.（2017），Bazazian et al.（2017年）Sain等人（2018），Yi and Tian（2014），Yu et al.（2015年）VariedFont SizesRen et al. （2017），Roy et al.（2015），Bazazian et al.（2017年）Jo等人（2015），Cun-Zhao et al.（2014年）摄影AngleShi et al.（2017a，2014），Mishra et al. （2016年）Cun-Zhao等人（2014）、Bai等人（2016）、Yu等人（2016）（2015年）比通常的SVM快四倍。但是T-SVM最小化了训练样本的经验风险，这反过来又影响了算法的泛化能力。因此，有必要对T-SVM的性能进行推广。文本识别需要识别62类文本字符，其中包括10位数字[0-9]，26个英文字符大写[A-Z]和小写[a-z]。ROSTER属于多类问题。因此，对于建议的工作，多类类-不同的文本方向文本的草书书写多种语言Yao等人（2014）、Roy等人（2015）、Mishra等人（2015）（2016年）Sain等人（2018），Ye和Doermann（2015）Wang等人（2017），Shi等人（2014，2017b）Roy等人（2018），Ye和Doermann（2015）Ren等人（2017）、Mishra等人（2016）、Bazazian等人（2017年）Tian等人（2016），Ye和Doermann（2015）Divya Tomar等人提出的T-SVM的简化在（托马尔和Agarwal，2016），它也受到与T-SVM相同的问题的困扰。为了克服这一问题，本文在传统的T-SVM方程中引入了两个正则化项，从而避免了算法通用化的障碍。这项工作是新的类型，其中generalization改进的T-SVM识别文本从自然场景图像。拟议工作的贡献是：为了提高T-SVM的泛化能力，将流形正则化项引入传统的T-SVM中，应用于场景文本识别。通过采用MAT-SVM，考虑文本样本的局部几何形状，培养更快的文本识别引入称为文本重新验证的附加阶段，通过加快从检测到的文本对象中删除误报和漏报来改进模型。使用坐标池重构词，使生成的词与场景文本匹配，而不需要任何额外的词典机制。各种光强度Shi等人（2017 a），Roy et al.（2015年）Jo等人（2015），Yi and Tian（2014）单个字母检测Shi等人（2017 a，2014），Mekhalfi等人。（2016年）Huang等人（2014），Zhu等人（2014），（2016年）为了提高算法的查全率和查准率，使该算法能够准确地识别单词，并尝试从自然场景图像中识别所有字符。文本理解的总体结构如图所示。二、这项工作的重点是文本重新验证，文本分类和文本重建阶段。图像预处理，对象检测和文本对象检测阶段采用Francis et al. in（Francis and Sreenath，2017）。本文集中在图2中虚线框中圈出的三个阶段，其中文本重新验证再次从先前的源过滤文本对象，文本分类阶段将每个字符分类到62个类别中的一个，文本重构是形成实际单词的地方。●●●●●L.M. Francis，N.Sreenath/ Journal of King Saud University591表2文本检测方法。方法名称优点限制基于边缘的方法Wakaf和Jalab（2016）在对象边缘较强的情况下，实现了正确的文本检测。对图像中的噪声非常敏感。Yu等人2015 年：主要用作腋窝方法与其他方法相结合。由于光线和阴影的影响，提取变得很麻烦。图二. ROSTER的架构基于连通分量的方法（Zhang etal.（2015年b）基于纹理的方法乌莎和02 The Dog（2016）基于笔划的方法烨和05 The Dog（2015）机器-基于学习的方法Wang et al.（2017年）对先验知识的轮廓的位置和尺度的文字可以产生良好的精度。对于清晰的纹理特征，该方法取得了令人满意的效果。对于水平对齐的文本和传统字体样式表现良好。完全原子化文本检测过程。获得文本的拓扑结构的先验知识并不是在所有环境下都可行的。分类结果对提取的成分有很高的依赖性。对文本的方向不稳定。纠缠高计算复杂度。复杂的背景给笔划检测的分割和验证带来了挑战。具有特定字体样式组的印记。涉及复杂性。图三. ICDAR 2015、SVT、MSRA 500中的场景文本图像样本。（Yin等人（2014））通用于新图像中的文本的实例。结果证明了分类器的选择。论文的系统安排如下：第二部分介绍了相关的田野调查。第3节介绍文本检测表3文本识别方法。利用现有的工作。第4节是拟议工作的概述。第5节描述了方法名称福利限制提出文本理解。关于实验设置、数据集和各种性能指标的详细信息见第6节，并在第7节中阐述了结果。最后，结论和未来的方向在第8节中给出。2. 相关作品如前所述，文本合成包括文本检测和文本识别两个主要部分文本检测分为基于边缘（Wakaf和Jalab，2016），基于连接组件，基于纹理（Usha和Ezhilarasan，2016），基于笔划和基于机器学习的方法。文本识别分为基于文本提取和基于字符检测的表2和表3列出了基于文本检测和文本识别的方法的优点和局限性。以下部分总结了文本理解和T-SVM领域的最新进展2.1. 文本识别方法Cunzhao Shi等人提出的端到端场景文本识别系统。在（Shi等人，（2014）采用树形结构文本萃取字符检测中文本分割和文本识别阶段之间的无障碍划分。避免细化过程，因为文本分割阶段会产生适当的文本对象集。没有后处理任务的开销，因此涉及的计算复杂性较低。避免了文本识别过程中采用滑动窗口策略可以实现图像的多尺度、多位置运动。注入图像金字塔利润良好的效果。在文本分割阶段，高度依赖于文本对象的提取。理解许多细化过程，并在很大程度上依赖于后处理任务。由于滑动窗口策略由于许多阶段被安排在一起，从而导致高计算复杂度。592L.M. Francis，N.Sreenath/ Journal of King Saud University用于识别字符和单词的模型。类似地，字符的内在全局结构和局部外观由（Skouraet al.，2015年）。使用这些类型的结构的缺点是复杂性增加，因为为每个独特的字符构建不同的结构。Anand Mishra等人在（Mishra等人，2016）提出了一种能量最小化框架，其使用条件随机场（CRF）来识别自然场景中的单词。CRF的缺陷在于它在算法的训练阶段具有很高的计算Wahyono等人在（Jo等人，2015）提出了从自然场景图像检测LED显示区域的工作。利用Canny边缘检测器检测显示区域，计算中心点和边缘线段，利用K-近邻分类器对字符进行分类，形成具有宽度、高度、长宽比和颜色等属性的文本行。但是使用这些类型的属性的方法需要针对每个环境相应地调整值。利用高斯混合模型（GMM）中的Fisher矢量建立场景识别模型。该模型采用Fisher矢量结合线性分类器进行字符识别。该方法的局限性在于缺乏本地描述符对于每个字符（Shi等人， 2017年b）。另一个研究者使用了两个新的特征描述符，即同现HOG（Co-HOG）和卷积Co-HOG（ConvCo-HOG），这两个特征描述符被引入到字符识别中以提高准确率。与使用每个像素的频率的传统直方图（HOG）不同（Tian等人，2016年）。即使他们试图捕捉上下文信息，他们无法捕捉空间关系。Xiang Bai等人在（Bai等人，2016）说明了一种称为Strokelets的新颖的多尺度字符模型。它能够征服各种粒度的字符的子结构。在笔画的基础上，提出了一种新的直方图特征--笔画袋特征，并将其与随机森林分类器相结合进行字符的训练和识别。虽然strokelets能够检测字符，但它Chong Yu et al. 在（Yu等人， 2015）已经描述了用于文本检测和识别的基于边缘的方法。首先利用Canny边缘算子和Harry角点检测方法将边缘从图像中分离出来形成边缘段，然后基于颜色和笔画属性采用贪婪分层聚类方法将边缘段重新组合在一起。字符识别采用随机森林分类器。该模型虽然取得了较好的查准率，但查全率仍有不足。这些使用边缘检测方法的方法对噪声高度敏感，并且提取受光的影响而受阻。Baoguang Shi等人在（Shi等人，2017 a）提出了一种神经网络架构，用于从自然场景中识别文本，并结合了深度卷积神经网络（DCNN）和卷积递归神经网络（CRNN）的优点。该建筑能够拍摄不同长度和尺寸的照片。Fenglei Wang等人在（Wang等人，2017）已经使用DCNN在CRNN上建立了一个模型，以形成无分割的文本识别系统。深度学习或卷积神经网络能够产生良好的结果，但 FrançoisChollet1（Chollet，2018）认为这些方法在某些条件下会产生更好的结果。在他的书中，他说深度学习方法1François Chollet，Keras深度学习库的创建者，TensorFlow的贡献者，也在加利福尼亚州山景城的Google工作需要非常大量的数据样本来进行训练，这些数据样本可以运行数周来与并行运行的众多昂贵的GPU一起训练。他甚至公开表示，即使用深度学习来学习排序算法也会非常困难。而且在不适当的数据样本大小和给定的百万参数下，它可能会遭受过拟合问题。与其他机器学习方法不同，这种方法的训练和学习完全是黑箱（Von Neumann，2012）。近年来，文本识别技术在计算机视觉领域的应用越来越广泛，其复杂性也给文本识别带来了挑战。已有的研究表明，简单的方法会产生大量的误报，复杂的方法会产生过拟合问题。通过讨论的方法的优点和缺陷，可以推断，一个模型，可以快速工作，以及适当的推广与平衡的精度，和召回率的需求。2.2. T-SVMJayadeva等人（Khemchandani和Chandra，2007）提出了一种称为Twin Support Vector Machine（T-SVM）的新型学习算法，该算法解决了两个较小尺寸的QPP，而不是传统SVM中的一个复杂QPP。T-SVM是对广义特征值支持向量机（GEPSVM）的改进，其中分类器旨在使用两个非平行平面而不是SVM中的平行平面。T-SVM的局限性是存在过拟合问题，并且是针对二进制分类进行的。Ganesh等人在（Naik等人，2010）和Arjunan等人在（Arjunan等人，2010）已经利用了T-SVM在生物医学领域的优势。Divya Tomar等人在（Tomar and Agarwal，2015 a）中提出了基于“一对一”、“一对全部”、“全部对一”和直接无环图（DAG）等原则的多分类器。详细分析了每类分类器的复杂度。分类器的局限性在于存在未分类的区域，并且分类器也存在类不平衡问题。Cong等人在（Cong等人，2008）实现了T-SVM以及高斯混合模型（GMM）用于说话人识别。该方法使用GMM来收集作为T-SVM模型的输入的特征参数。这里还使用GMM来收集特征以作为T-SVM的输入（Yang和Wu，2009）。Xinsheng Zhang等人（Zhang，2009）设计了Boosting T-SVM，用于检测数字乳房X线照片中的钙化微钙化（MC），以发现乳腺癌的早期体征。他们已经扩展了他们在检测乳房X光片方面的工作，用于使用主成分分析（PCA）、线性判别分析（LDA）、张量判别分析（TDA）和通用张量判别分析（GTDA）进行学习的子空间。然后在检测过程中使用T-SVM作为分类器（Zhang和Gao，2012）。提出了一种混合T-SVM模型用于孕妇糖尿病检测。该模型利用混合核函数与T-SVM一起有效地处理非线性数据（Tomar和Agarwal，2014）。Agarwal等人在（Agarwal等人，2014）使用T-SVM来检测软件缺陷。另一项研究使用最小二乘T-SVM（LST-SVM）和F得分特征选择方法来检测和指示软件模块中的缺陷（Agarwal和Tomar，2014）。Kumar等人在（Kumar和Gopal，2009）中也使用LST-SVM来执行文档分类。Nasiri等人在（Nasiri等人，2014年）设计了基于能量的LST-SVM（ELS-T-SVM），以提高不平衡数据集的分类精度，并已在人体动作识别领域得到证明。Yang HY等人在（Yang等人，2014）应用非下采样Shearlet变换（NSST）与T-SVM合作对图像进行去噪。噪声图像被分离成频率的各个子带，L.M. Francis，N.Sreenath/ Journal of King Saud University5932表4T-SVM的扩展工作领域小说家技巧Ganesh et al. Naik等人（二零一零年）Arjunan et al.阿尔朱南等人（二零一零年）T-SVM多类T-SVM扬声器识别疾病预测软件缺陷检测Cong et al. Cong et al.（二零零八年）Yang和Wu（2009）Xinsheng Zhang等人Zhang（2009）X Gao等人Zhang和Gao（2012）Tomar et al.TomarandAgarwal（2014）Agarwal et al. （ 2014年）Tomar等Agarwal和Tomar（2014）基于GMM的T-SVM提升T-SVMT-SVM与PCA，LDA，TSA，GTDA混合T-SVMT-SVM带F值特征选择的LS-T-SVMKumar et al.Kumar and Gopal（二零零九年）LS-T-SVM人体动作识别Nasiri et al. （2014年）Tomar et al. Tomar et al.（2014年）基于能量的LS-T-SVMYang HY等. Yang等人（2014年）基于T-SVM的入侵检测JHe et al.He and Zheng（2014）X Ding et al. Ding et al.（二零零八年）T-SVM改进的T-SVM见图4。 TEDLESS的各个阶段的例子定向定向因子（HOG）。因此，对象池被从该图像包括文本和非文本对象。采用最小二乘支持向量机（LS-SVM）训练模型，利用NSST进行定位，利用T-SVM进行模型Tomar等人在（Tomar等人，2014）应用多类LST-SVM将各种情绪归类为焦虑、恐慌、快乐、悲伤和愤怒。很少有研究人员扩展T-SVM来提高入侵检测领域的准确性和速度（He和Zheng，2014; Ding等人，2008年）。从调查和表4中可以看出，许多人已经将T-SVM扩展到不同的领域，并证明了算法的有效性，但T-SVM的泛化能力的基本问题没有触及，并没有将其应用于文本识别领域。第2.1节陈述了现有文本识别领域中的各种限制，这些限制需要能够对任何新的输入实例进行分类的模型，以避免过拟合问题。因此，如果泛化得到解决，它可以成为分类中的一个突出模型。MAT-SVM在文本识别领域进行了实验，这是由于该领域中问题的通用性和不断变化的输入到分类器。同时也是为了立即解决从自然场景图像中识别文本的需求。3. 先例工作为了从自然场景中检测文本对象，结合了（ Francis 和Sreenath，2017）中的先前模型TEDLESS（使用来自自然场景的最小二乘SVM的它涵盖了图像预处理，对象检测，和文本对象检测阶段。图像预处理阶段采用全变分法对输入图像进行去噪，并运用二值化技术中的大津法增强图像的对比度因此，图像质量得到改善，为进一步清晰地处理奠定了稳定的基础。用直方图提取目标的特征，可以从先前获得的对象池中预测文本对象集因此，TEDLESS从图像中提供了一组文本对象，该文本对象必须被进一步处理以识别每个文本对象并将它们分类到62个类别中的一个，并且进一步构造必须作为输出提供的单词。图4示出了ICDAR数据集上的预处理、总对象检测和文本对象检测的示例4. 拟议工作4.1. 孪生支持向量机T-SVM旨在将传统SVM中复杂的二次规划问题（QPP）简化为两个更简单的QPP它使用两个非平行超平面进行分类，而SVM（Nguyen，2017; Kowalczyk，2014）使用一个平行超平面。这两个非平行的超平面被设计成使得每个超平面尽可能地靠近一类而远离另一类超平面。让我们考虑一个用于训练的数据集DS，DS被分成两个集合，一个用于正类另一个是负类。 ds-是正类的训练集，ds-是维数为n的实（ffi）空间中的负类，（ffin）。设X是表示正样本d s;X2ffid×n的特征的矩阵，Y是表示负样本ds-; Y ffid-×n的特征的矩阵。线性T-SVM需要求解超平面Eqs。（1）和（2）将新实例定位到ffin中的相应类：xTx1b1¼01xTx2b2¼02594L.M. Francis，N.Sreenath/ Journal of King Saud UniversityTTB1在ð- 你好- -ð Þð Þ¼--一种在22）aAT A-1BTq7jjf jj <$ZjjOMfx jjdP xx16这里，x1;x2是超平面的法向量，b1;b2是偏置项。为了建立模型，T-SVM求解两个QPP另一方面，解决Eqs。多非线性T-SVM的（12）和（13）其中Eqs. （3）和（4）是属于一个minx;b;l1jjjA;DTxebjj2类和将当前类指定为远离的约束IJIJij2iij i1ij我j1ijð12Þ从另一类（Tomar和Agarwal，2015 b）。minx1;b1;l1jj Xx1e1b1jj2c1eTls：t-jAj;DTxijej1bijlijPej1;lijP0322ð Þminxji;bji;mji1jjAj;DTxjiej1bjijj2cjeTmjis：t-minx2;b2;m1jjYx2e2b2 jj2c2eTm2i1s：tjAi;DTxjiei1bjimjiPei1;ljiP04ð13Þ21s：tXx2e1b2mPe1;mP0这里，c1;c2是惩罚参数，e1;e2是适当具有值1和l;m的尺寸是松弛变量。优化变量l;m是松弛变量，c1;c2表示惩罚参数，e1;e2是包含输入的适当维度的1的向量。（3）的拉格朗日方程被捕获为：Lx1;b1;l;q;u1jj Xx1e1b1j2c1eTlq其中q;u是拉格朗日乘子。解决它，Eq。（6）得到：在上述方程中，获得了垂直于超平面的x和b偏置项所以任何一个新的实例，h由，类s hminjxTxhbhjfor rhf1;2;3. . . ：Mg14计算了新实例h到类的垂直距离。赢得“Max-Win”策略的类4.3. MAT-SVM“XT#e1100万美元1“YT#e文献显示，T-SVM遭受过度-不½X[e1]bq¼06设A为1/4/2Xe1]，B¼½Y2），1/2×1，故（6）可以改写为，AT Aa1BTq01¼-溴化铵同样，Eq。（4）求解得到，合适的问题，这冲淡了它的泛化（张和周，2016; Mo和Qian，2014; Belkin等人， 2005; Yuan等人，二〇一五年;Wang等人，2013; Cai等人，2007）能力。正则化是通过帮助模型形成平滑的学习函数来帮助克服过拟合问题的技术，并且还为此付出代价（Belkin等人，2006年）。流形正则化（Li等人，2016）是Tikhonov正则化的扩展，旨在形成平滑学习函数以及分析流形中的输入。多重框架的一般组织是：La1/4GB TB-1A T。82因此需要x1;x2向量到超平面和b1;b2偏置F ¼argmin1/1Funcxi;yi;fcAjjfjjAmcIjjfjjIn2015年条款获得，这是被雇用超过Eqs。（1）和（2）寻找超平面。对于任何新的实例，h类由下式确定，对于h/f0;1g/9g，等级为h/h/minjxTxh/bhj计算新实例h到类的垂直距离，距离小的类赢得对应类的模式。4.2.多类非线性T-SVMJavadeva等人提出的T-SVM工作在二进制分类上。由于我们的要求需要多类，并且可能处理非线性边界，因此使用了T-SVM的扩展版本（Tomar和Agarwal，2016）。如果有M个类，模型构建M个M1超平面，每个类的M1。考虑实空间（ffi）中有p个模式的训练数据集，第i类模式为正样本，第j类模式为负样本，则矩阵Ai2ffipi×n和Aj2ffipj×n分别描述了第i类和第j类模式.多类T-SVM的超平面是：jx;DTxijbij010jx;DTxjibji<$011CA 是环境正则化项，其规则函数在环境空间中，它对再生核希尔伯特空间（RKHS）中的每一个可能的解执行光滑条件。cI是内在正则化项，其规则样本概率分布的内在几何中的函数的复杂性。让虽然对于jjfjjIn存在许多选择，但最常涉及的是流形OM上的梯度，其测量目标函数的逐步光滑性。当输入数据密集时，应该有逐渐下降的步骤，换句话说，梯度OMfxx的值应该非常小，这取决于边际概率密度函数dPx x。考虑到这些约束，本征正则化子可以表述为：2 2在x2米实际上，范数不能直接计算，因为边际分布不是预先未知的。因此，拉普拉斯矩阵被用来估计边际分布。为了找到拉普拉斯矩阵，绘制最近邻图G，取输入点的子集并计算它们之间的距离。然后在图G上构造权矩阵W。现在拉普拉斯矩阵L D W，其中D是W的对角矩阵，包含沿对角线的列的行的和。权重矩阵fDi iiP/fUWij i，其中f是标记sam的集合其中，j是任何合适的核函数，D1/2Ai;Aj. . 阿]泰与ples和第一部分U是未标记样本的集合。借助光谱2i; j; 1; 2; 3.. . ：; M. 对于每个第i和第j类，用每个图论训练，jjfjj可以给出为：ð Þ2L.M. Francis，N.Sreenath/ Journal of King Saud University595X1ð Þ ¼不@LTITT不我公司简介2XX不不一在11jjf jjIn ¼2/Ufminxji;bji;mji1jjYxjiej1bjijj2cjeTmjiIJ0否则Lxij;bij;lij;ai;bi2jjXxijei1bijjjciej1lijIJi1i1我在2/U2XXT2cX2cIXXT LX Te i1XYððxxi Þ þðxxjÞ- 2xTxi xTx1W2UI1I1¼2是是一个eT XeT e2/2MAT-SVM分类器i;j¼12i1cAxTYxji þCIxTYTLYxji2ð29Þ如前所述，最近邻图的作用是形成权重矩阵（Wang等人， 2010），W. 因此，最近的邻居被表示为Adj i xi1;xi2;：：;xin，其中x是被考虑的形成邻居的样本。图的权矩阵一般为：jið/þUÞjis：tXxjiei1bjimjiPei1;mjiP0多类分类器基本上是一组二元分类器和谐地工作。用拉格朗日方法求解QPP问题。W 1/4。1当xi2Adjj或xj2Adji时ð18Þ12T TMAT-SVM，多类模型，主要是二元分类器的集合，考虑到这一点，MAT-SVM中输入空间的最近邻图是成对的，一个类图用于正T，另一个类图用于负T-保持几何结构。cTT联系我们Þ xijX LXxijaiYxijej1bijð30Þ流形的真实性（Liu等人，2016年）。对于任何一组相邻的样本，它们应符合以下条件：Adj.形容词如果xi和xj属于Posit ive类s;1 6i;j6n1g，则是1/4 f x i ; xj jai和bi是表示拉格朗日乘数的两个向量呃。关于x和b的条件被公式化为如下所示：2c ¼ ðXxijþe i1b ijÞX 2019 - 05 -22 00：00：00一2我如果x和x属于Negative类，则Adj-1/fx;xj;16i;j6ng@xij中文（简体）我我j i j1ð19Þð31Þ因此，T和T-的相似性矩阵形成为：（一）当xj2Adji 或xi2Adjj@bijei1WW-ij¼0否则1当xj2Adj-i 或xi2Adj-j0否则ð20Þ等式（31）和（32）是：XXTxijXTei1bij2cAxijX2 cI中文（简体）XT XLxijaTY<$0 33与Eqs对应。（19）和（20）我们简化为矩阵形式并重写Eq.（17）对于正平面如下：eT XxeTe bae¼ 0 ð34Þjjfjj2¼1Xfxi-fxj2Wij21S1i;j¼1S2合并等式（33）和（34）导致“#我爱你一公司简介eT X eT eIJ1/4×2/Uð22Þi1i 1i1ij j121i1jij联系我们2“XX T2cX2cIXX T L X T e#1S1S 22 2M¼A公司简介2/U11 1联系我们不1j iju¼xiji1i1ð36Þ2019 -04-22xTXD-WX124bijΣYΣ12019 -04-22xTXT LXx1磅25磅NTej1i因此，内在正则化子被定义为：C（36）其衍生）MuJiaTN<$037cIjjfjj2¼IxTXT LXx126中文（简体）类似地，环境正则化器cAjjfjj2定义为，cAjjfjj21 / 4c xTXx127在多类T-SVM方程中引入环境正则项和本征正则项。（12）和（ 13 ）。为了简单起见，我们重写了多类 T-SVM 的方程，其中X<$j<$Ai;DT<$;Y<$j<$Aj;DT<$，其中X是定义核函数的输入特征还引入了定义的正则化项，并将方程扩展为：MAT-SVM向量机minxij;bij;lij1jjXxijei1bijjj2cieTlij同样，我们可以推导出Eq。（29）也。这样就得到了所需的u值。所以任何一个新的实例，h由，类s hminjxTxhbhjfor rhf1;2;3. . . ：Jg 2013年 3 月8日计算了新实例h到类的垂直距离。赢得“Max-Win”策略的类5. ROSTER：使用MAT-SVMROSTER模型将原始图像作为输入，通过全变分等预处理技术对其进行进一步处理2j1cAxTXxij þCI xTXTLXxij2ð28Þ2我211IJJ1BþeaT¼035¼ð23Þ.596L.M. Francis，N.Sreenath/ Journal of King Saud University一种提高图像质量的方法和Otsu方法（Otsu，1979），一种二值化技术，通过计算提高对比度ij/Uij受 -Yxijej1b ijlij Pe j1;lij 均p0通过最小化类内方差来最大化类间方差，然后将特征L.M. Francis，N.Sreenath/ Journal of King Saud University597见图7。文本对象池图五. ROSTER的流程见图8。重新验证的文本对象池。通过有向分量直方图提取，给出对象池及其对应的对象位置。在分割过程中，TEDLESS采用最小二乘支持向量机对文本和非文本对象进行分割。此外，文本对象作为输入被提供给重新验证模块，该模块使用MAT-SVM进一步因此，细化的文本对象集可用于进一步的计算。文本识别模块将重新验证后的文本对象作为输入，利用MAT-SVM对文本对象进行特征识别，然后利用文本对象的坐标池对识别后的文本字符进行文本重构，将其排列成有意义的单词形式。最后，从文本重建模块的文本被赋予作为输出。图5显示了ROSTER的流程，其中图像预处理和分割模块用黄色标记，表明它们来自先前的工作TEDLESS。阶段重新验证和文本识别用蓝色标记，表示它们来自当前工作，每个阶段都有紫色标记的子阶段。本地化和文本重建从目前的工作也是紫色的。最后，输入和输出都用白色标记。5.1. 再验证重新验证过程将文本对象池用于进一步的细化过程。图图6表示来自MSRA 500数据集的样本图像，其用于说明。该模块接收文本对象，并利用MAT-SVM分析文本对象的任何误报，并丢弃伪文本对象，产生细化的文本对象池。在图图7和图8分别描绘了由分割给出的文本对象池和由MAT-SVM细化的文本对象池。5.2. 文本识别文本识别模块接收细化的文本对象池，并执行单个字母识别。其中，[A-Z]、[a-z]和[0-9]等类别MAT-SVM见图6。示例图像接受对象池并遍历它以找到每个文本对象的类最后，字母被识别并提供给下一阶段。图9表示包含单字母识别的样本。5.3. 文本重构文本重构的作用是从字母池中构建实际的单词。在本地化阶段提取的对象的坐标集合被传递到与文本对象相关联的每个阶段。执行迭代以将每个文本对象与其对应的坐标相关联。最后，识别出的字母被重新定位在与原始图像相同的坐标中，从而将它们拟合成图像中的单词。最终，文本重建模块从图像中给出所需的单词。图10表示包含实际识别的单词的样本。算法及其解释表列于附录A部分。算法2考虑了ROSTER算法中的各种模块，最终从自然场景图像中打印出单词。算法1描述了主算法中每个功能的详细信息，表A.14列出了算法中使用的各种符号及其相应描述。因此，从分割提取的文本对象重新验证，以消除误报。文本识别对标识字符的各种文本对象进行分类。最后，文本重构形成作为输出提供的单词。见图9。文本识别。见图10。最终文本形成。598L.M. Francis，N.Sreenath/ Journal of King Saud University！！！！×hi××jCji¼ 1 °C lTC！C lTC！ClTC！ClOCzagijCj我的天哪！C lTCiC lOC！ClOCzagijCji¼ 1 °C lTC！C lOCClTC！ClTCiPP6. 实

下载后可阅读完整内容，剩余1页未读，立即下载