自然场景文本检测的最小二乘支持向量机方法

152 浏览量更新于2024-01-14 收藏 1.72MB PDF 举报

文本检测

支持向量机

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报TEDLESS-Leena MaryFrancis，N.斯雷纳特计算机科学与工程系，本地治里工程学院，本地治里605014，印度阿提奇莱因福奥文章历史记录：2017年4月23日收到2017年7月25日修订2017年9月2日接受2017年9月9日在线发布保留字：文本检测支持向量机最小二乘支持向量机自然场景文本提取A B S T R A C T由于自然场景背景复杂、不同位置的光照强度不同、颜色种类繁多、字体样式和大小各异，因此自然场景中的文本检测被认为是一个具有挑战性的问题。本文的重点是从场景中检测候选文本对象。对图像进行预处理，以去除噪声并增强对比度。然后，场景的各种对象被标记和提取，形成对象池。从对象池中提取一组候选文本对象并作为输出。为了在这些对象中定位文本候选者，我们使用最小二乘支持向量机技术，该技术使用Char 74K字符数据集和CIFAR 10非文本图像数据集来训练模型。最后，训练好的模型被应用于执行文本和非文本对象的二进制分类在ICDAR 2015场景图像，MSRA 500和SVT数据集上对结果进行了评估，并与其他方法进行了比较，获得了令人鼓舞的结果。©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍信息在当今知识经济中起着至关重要的作用从环境中消耗的数据使用户能够做出最佳决策。这项研究的重点是从我们周围的资源中感知数据所有人，不论是否有残疾，都有权了解他们所生活的环境中存在不幸的是，具有视觉障碍的人发现难以阅读他们周围的文本（Leo等人， 2016年）。此外，图像中的表1列出了日常最常用的不同接口所遇到的一些困难。但随着技术的不断进步，通过计算机视觉技术，可以使视觉障碍者感知到它计算机视觉是从单个图像或图像*通讯作者。电子邮件地址：leena. pec.edu（L.M.弗朗西斯），nsreenath@pec.edu（N.Sreenath）。沙特国王大学负责同行审查制作和主办：Elsevier通过仔细检查图像并提取可进一步用于各种目的的所需信息（协会，2014）。来自自然场景图像的文本处理涉及两个主要功能，即文本检测和文本识别（Shekhar等人，2015年）。文本检测是从自然场景中提取文本对象的过程，文本识别是识别构成有意义单词的字符的过程。本文以自然场景图像中的文本检测为切入点，针对自然场景图像中由于字体、颜色、光照等因素的差异而难以实现的文本检测问题进行了研究。在许多场景图像中，文本与各种其他对象一起嵌入，并且也被扭曲，因此潜在的困难在于从其他对象中提取这些文本（丁例如， 2016年）。所以主要的动机是提取文本对象完美.文本提取的整体架构如图所示。1.一、文本提取包括图像预处理、目标检测、文本目标检测、文本分类和文本重构等步骤。虚线框中圈出的三个模块是本文的重点，它们分别对图像进行预处理，检测出嵌入图像中的所有对象，最后只检测出文本对象，而不检测出非文本对象。在场景文本检测中，首先要考虑的是识别的检测阶段，然后才能有更精细、更合适的结果。许多集中的意图被赋予检测阶段，以提高结果的整体质量（Rautaray和Agrawal，2015）。因此，为了检测和识别，有各种方法。这些方法是基于连接组件的方法，基于边缘的方法，http://dx.doi.org/10.1016/j.jksuci.2017.09.0011319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com288L.M. Francis，N.Sreenath/ Journal of King Saud University表1障碍的例子来源挑战书籍书籍有弯曲的界面小册子丰富的色彩和荒谬的字体风格和背景医药涵盖非常小的字符在不同的颜色和取向决定要做。它将预先使用样本数据集进行训练，从中分析并构建未来的模型，该模型将自动为其他情况做出决定。机器学习包括模式识别和学习理论的应用。机器学习（Rodrigues et al.，2015）研究数据集并构建模型并进行预测对于看不见的数据（约旦和米切尔，2015）。它将动态地街道名称板图片展示根据需要改变其工作流程，而不是坚持-家电LED显示计时器和信息主页产品非常小的字符和不同的方向Fig. 1.文本提取的体系结构。基于纹理的方法和基于笔划的方法（Seok和Kim，2015）。在所述方法中，通过颜色分组或通过检测边界来识别文本（Liu和Yang，2013）。上述理论不会在所有情况下都适用，因为光照条件不同，图像变形，字体风格化，并且可能不会给出最佳结果。因此，该系统需要一些能够自动化该过程的最佳方法，其中我们可以使用机器学习。随着机器学习的最新发展（Dev等人，2016），文本检测和识别可以通过训练模型和识别文本来自动产生增强的结果（Jaderberg等人，2016; Carbonell等人，1983年）。人工智能包括子字段机器学习，其中每次都没有指定什么转换为不改变其动作过程的静态指令集（Valente等人， 2015年）。本文的其余部分结构如下：第二节简要讨论了相关文献，第三节解释了以前的工作，这类及其局限性。第4节详细介绍了拟议的系统和它的小节阐明了所使用的各种技术，系统的实验装置和结果分析在第5节，结论和未来的方向给出在第6节。2. 相关作品OCR（光学字符识别）是用于从扫描文档的图像中识别文本的传统且完善的方法（Chen等人， 2004年）。扫描文档文本识别几乎达到饱和点，准确率为目前的图像都是由便携式摄像机拍摄的，具有不同的几何变化，因此从自然场景图像中识别文本是当前具有挑战性的任务。已经针对来自自然场景的文本识别进行了各种研究，对其进行了简要讨论（Ye等人， 2007年）。Zhang等人在他们对从自然场景图像中提取文本的文献调查中，已经简要地解释了各种类别：基于边缘的、基于纹理的、基于连接分量的和基于笔划的（Zhang等人，2013年）。表2简要讨论了文本检测阶段常用的每种方法的优缺点。基于边缘的方法在强边缘的场景图像上有很好的表现，这在阴影或强光的影响下是很这些方法对图像的噪声非常敏感，因此它通常与其他方法一起用作辅助方法使用基于纹理的方法的文本提取相对较慢，并且容易受到文本方向对齐的影响，并且还涉及高实现复杂性。基于连通分量（CC）的方法只有在具有文本位置和尺度的先前知识并且还高度依赖于所提取的分量的质量时才能更适当地分割文本分量。CC方法取决于文本和非文本分量之间的分类的准确性（Jung等人， 2004年）。在基于笔划的方法中，复杂的环境和相似的图像颜色使得文本的笔划很难分类，并且只能很好地检测水平方向的文本，因此基于笔划的方法也表2比较现有的文本检测方法。方法名称优点限制基于边缘的方法在具有强边缘的场景图像上完成得很好在阴影或阴影的影响下提取边缘是困难的。强光主要作为辅助方法与其他方法基于纹理的方法在保持文本纹理特征的基础更好图像的噪声不稳定比较缓慢，容易影响文字降低了实现的高度复杂性基于连接组件的方法当它拥有文本和比例分类的准确性在很大程度上决定了提取成分的质量基于笔划的方法能够在检测水平对齐文本时取得良好的效果聚集的背景通常使文本笔划检测难以进行。分段校验L.M. Francis，N.Sreenath/ Journal of King Saud University289通过基于Gabor的文本特征（Yi和Tian，2012）进行文本定位，该文本特征是从笔划宽度变换、梯度图和边界聚类中获得的。该特征是用颜色、像素和字符串计算的。笔划分割是使用ICA（推断颜色分配）检测字符的风格它执行梯度和宽度一致性来定位二值化中的像素。基于 Gabor 的文本特征采用 SVM （ Support Vec- torMachine）训练模型，检测文本候选串。该系统的缺点是它Canny边缘检测方法由Bovik（2010）使用。该算法首先对图像进行高斯平滑，然后求出图像的零交叉点和二阶导数，最后根据边缘强度对像素点进行标记。改进的Canny边缘检测方法利用梯度方向和梯度幅值计算边缘像素。Li等人采用自适应阈值法进行字符定位该方法适用于灰度图像，通过提供对比度值作为阈值来选择具有文本的区域（Li，2001）。Pan等人已经提出了一种系统，其中在预处理阶段将图像分解成形成金字塔的许多层，并且另外计算文本置信度和尺度信息并将其与原始图像进行比较（Pan等人，2011年）。候选文本区域使用尺度自适应局部二值化来捕获。CRF（Conditional Random Field）模型用于克服一元和二元属性来过滤掉非文本成分。最后，相邻的文本组件连接基于学习的MST（最小生成树）算法的文本组件组成文本行。在视觉障碍者的辅助文本阅读工作中，从复杂背景中，Yi等人在笔划方向和边缘分布的帮助下进行文本局部化（Yi和Tian，2011）。adaboost算法用于对文本和非文本块进行分类，相邻的文本块被分组在一起形成文本。然后使用OCR从局部化的文本区域执行文本识别。Yan等人使用基于机器学习的方法，其中他基于颜色聚类将图像分解为多个层，然后使用连接分量分析来获得候选文本区域，最终将其提供给Cascade Adaboost分类器以找到文本（Yan和Gao，2014）。他们还指出，所提出的系统不定位非常小的文本区域，因为当它分解成几个层时，一些边界像素被分离到另一层，CC方法将其视为不连续的笔划，然后作为噪声丢弃。这些方法涉及高的时间复杂度，因为图像被分解成几个层，每一层都必须单独处理Lee等人提出了两阶段条件随机场（TCRF）方法，以基于场景文本的属性和层次结构来找到完美分割的字符区域的相干聚类（Lee和Kim，2013）。一种是局部CRF模型，它通过修剪最明显的非文本区域并将剩余的区域作为候选字符提案来减少搜索文本区域的计算开销。另一种是整体CRF，它将所有的字符建议合并，并从第一阶段的字符建议列表中找到最合理的合格字符区域配置该提案是基于自下而上的图像处理寻找字符的建议。以Android为平台，将场景文本提取扩展到手机上实现，在像素级分析的基础上进行特征提取和文本分割。Yi等人设计了两种方案，第一种方案是一个二元分类器，用于找到图像块中文本的存在，第二种方案是训练一个模型，该模型将找出它将属于哪个字符类别。它已经使用 Harris Corner ， Maximal Stable ExtremalRegions（MSER）和Histogram of Oriented Gradient等特征描述符执行。（HOG）。他们还提出了一种定义字符布局的方法，该方法将低级特征描述符与笔画结构相结合（Yi和Tian，2014）。Seok等人建立了一个单独的框架，称为隐式形状模型（ISM），其中包含每个角色形状的各个部分的集合。ISM在一定程度上改善了性能下降的字符字符的定位通过训练的Hough森林执行，最后是基于半马尔可夫条件随机场检查的算法，用于自然场景图像中的文本行形成（Seok和Kim，2015）。该系统可以很好地处理变形的单词，但无法识别单个高度退化和高度遮挡的字符很少被识别。Yi等人通过在字符外观的基础上构建架构结构和相关性估计文本的描述符，然后执行颜色和轮廓分析以找到竞争文本字符，并最终形成文本行区域（Yi和Tian，2013）。Yao等人提出了一个从水平和近水平文本中识别文本的系统，他们使用了平稳小波变换（SWT）和聚类来获得候选文本。链级和组件级特征由随机森林树分类器处理，然后由基于Levenshtein编辑距离的字典进一步处理。他们在ICDAR 2011、CHAR 74 k、MSRA TD 500和HUST TR 400等数据集上分析的F-度量方面取得了相当大的改进。但涉及低处理速度和检测率可以大大提高（姚等人， 2014年）。通过分析现有文献可以推断，从图像中提取字符所涉及的障碍在于图像的背景环境中的属性不存在固定格式表3揭示了各种挑战性的属性和不同的工作，解决他们已经完成的挑战图像的亮度从一个图像到另一个图像变化成为不受控制的参数，因此不规则的亮度、暗度和反射将影响文本和其他对象之间的边界目前存在大量的字体样式集合，其成为下一个不受控制的参数，其中文本检测对于不寻常的字体变得非常困难，因为它成为训练分类器模型的障碍。文本在许多方向上对齐，并且具有几何失真。颜色也起着重要的作用，因为我们有大约160亿种颜色需要区分，以便在图像中找到候选文本。作为一个整体，对于分割和识别问题没有彻底的解决方案（Anagnostopoulos等人，2008年）。人们3. 先例工作通过对文献中涉及文本分割过程的各种方法的详细研究，可以得出如下结论：基于边缘的方法、基于纹理的方法、基于连通分量的方法和基于笔划的方法各有优缺点，没有一种单独的方法可以给出最好的分割结果。在TEDLESS（TExt Detection using LEast-SquareSVM fromNatural Scene）之前，我们研究了一种结合基于边缘、基于连通分量和基于笔划的方法的模型，以完成分割和识别的整个过程。我们的工作是对自然场景图像中的各种对象进行端到端文本识别的完整尝试。290L.M. Francis，N.Sreenath/ Journal of King Saud University表3基于挑战性属性的作品比较研究工作光强度变化边缘检测颜色变化文本倾向性单字母检测字体样式变化字体大小变化Li（2001）UU–––––Bovik（2010）U-U––––Pan等人（2011年）–U–––U–Yi and Tian（2011）-UU––––Yi and Tian（2012）-UU––U–李和金（2013）–U–U–U–Yi and Tian（2013）UUUU–––Yan和Gao（2014）––UU–U–Yi and Tian（2014）UUU––U–Seok and Kim（2015）UU–U––UYe和DoermannUU–UU––（2015年）Francis等人（2016年）UUU––U–利用最大稳定极值区域（MSER）对图像进行定位，然后利用Canny边缘检测方法进行边缘检测。然后利用连通分量法对文本和非文本对象进行二值分类，最后对字符进行风格分析并且公认的部署中风分析方法（Francis等人，2016年）。该模型能够从自然场景中分割和识别文本，但该系统的缺点是，在某些情况下，它是强制性的手动微调，以获得适当的结果。为了克服这个缺点，TED-LESS的发展发生了，其主要动机是使用机器学习技术来自动化文本分割的完整机制，而无需任何人为干预。为了提高文本识别阶段的精度水平，应适当地完成先行阶段的文本检测。在这项工作中，最大稳定极值区域（Shi等人， 2013）和Canny边缘检测技术来检测文本。但是边缘检测技术存在着不足。边缘检测是完美的边缘是清晰和精确的。如果边缘被模糊或平滑或具有低对比度，则难以定位边缘，从而检测变得较弱。定义细化的参数需要无限调整以获得更好的结果（Ye和Doermann，2015）。这被认为是边缘检测技术的一个主要通过该方法识别的边缘需要提取以形成完整的边缘，这是另一个额外的努力。如果角点检测错误，将导致边缘开放和节点缺失，这将是完全误导的检测。或多或少，这种方法在处理时间上比通过机器学习方法的检测相对较慢。上述这些技术需要手动微调，因此下一阶段将集中精力通过使用机器学习方法的优势来消除缺点（Martinez-de Dios和Ollero，2015）。在机器学习中，学习特征以在一些数据集上训练系统，这些数据集将学习特征，从而可以自主行动。它允许找到隐藏的含义，而无需以直接的方式定义（Hamid等人，2016年b）。一般来说，使用机器学习技术的文本检测为各种问题提供了理想的解决方案，根据前一次加入的需要调整参数4. 拟议工作为了克服传统的基于边缘、基于纹理、基于连通分量和基于笔划的文本分割方法的缺陷，将机器学习方法应用于TEDLESS中，实现文本分割过程的本文根据所做的工作和系统的需要，提出了文本识别的整体架构的一部分，从自然场景图像中检测文本图 2显示了从ICDAR2015数据集中拍摄的一些自然场景图像样本。文本检测采用最小二乘SVM（支持向量机）从自然场景（ TEDLESS ）中自动进行文本检测工作TEDLESS以自然景物为输入，对图像进行预处理，去除噪声，提高对比度。然后检测形成对象池的各种对象最后，训练一个模型，从前面步骤中检测到的对象池中找出文本对象。图图3示出了所提出的系统TEDLESS的流程。以图像作为输入，使用总变分方法进行去噪，使用Otsu方法进行对比度增强，HOG方法收集图像中的各种对象，然后使用大的训练和测试集，最小二乘支持向量机训练模型以预测未来的输入，最后网格搜索交叉验证选择适当的模型来从对象池中单独检测文本对象，从而给出作为文本对象集合的输出（图1A和1B）。 4-6）。4.1. 预处理和目标定位作为初步措施，图像需要进行预处理以消除噪声并增加对比度，随后定位图像的所有对象。图像预处理对图像的质量有着积极的影响，可以抑制图像的畸变，增强图像的特征它充当用于更准确预测的工具，并使图像准备就绪，其可以作为输入提供给进一步分析（Sonka等人， 1993年）。其他从事图像预处理的杰出研究人员Huang等人提出了一种基于高级梯度直方图均衡的对比度增强系统，并控制对比度图二、ICDAR 2015中的场景文本示例L.M. Francis，N.Sreenath/ Journal of King Saud University291¼Þ ¼2图三. TEDLESS的建筑见图4。图像预处理和字符本地化。图五. 场景中对象的总池为了增强对比度，TEDLESS采用了Otsu方法，观察图像中有两类像素，这两类像素是用双峰直方图分离前景和背景像素后得到的，并找到分离这两类像素的最佳阈值，使类内方差最小，从而使类间方差最大。Otsu方法集中搜索使类内方差最小化的阈值。在对图像进行清理后，利用计算机视觉中常用的目标检测方法--有向直方图（HOG），在场景中找到候选目标它涉及各种步骤，首先计算梯度，第二步形成细胞直方图，然后在重叠的空间块上归一化梯度强度（Dalal和Triggs，2005）。在此阶段之后，图像被清理，并识别候选对象池。4.1.1. 全变差法如前所述，自然场景作为输入，必须作为第一步进行预处理，需要解决噪声问题，在此过程中采用了总变分方法用于去除图像的噪声以及重建图像（Caselles等人， 2015年）。通常称为去噪图像称为总变分去噪或总变分正则化，以丢弃图像的噪声。数学上的总变差是指沿y轴的波的位移的测量，表示从起点到当前位移的变化的测量。在去噪中，图像中可能存在的伪信息具有高度的变化，需要加以解决。因此，基于该规则，去除与原始信号变化太大的信号，同时保留图像的边缘细节（Wang等人，2008年）。它呈现出许多优点，比其他技术，如中值滤波或线性平滑，这是能够平滑的边缘，从而失去边缘的细节。而通过总变分方法进行的去噪仅平滑平坦区域，从而保留重要的细节，例如边缘。数字信号dsn的总变差（TV）被表征为：电视机dsXjdsn1-dsnj1n给定输入信号n，去噪的动机将是检查出称为dsn的值，该值是最接近具有非常小变化的值n（即）的值平方误差和用于通过以下方式找到接近度SEn;ds1Xn-dsn22n见图6。候选文本对象池。使用正弦直方图校正（Huang等人，2015年）。Lin等人已经使用流水线方法通过直方图平均和直方图重映射来校正颜色失真（Lin等人，2015年）。TEDLESS管道降噪和对比度增强作为图像预处理步骤。去噪是通过应用总变差方法（TVA）来完成的，也称为总变差正则化，它基于具有更大和可能的虚假细节的信号具有总变差的事实根据这一规则，减少信号的总变化，使其接近原始信号，去除不必要的信息，并保留重要的细节，如边缘。因此，总变分去噪的最终形式是minSEn;dskTVds 3k是正则化参数，当k0时，没有去噪，并且结果与输入信号相同。k的优选值给出了将从图像中去除多少噪声的决定因素。4.1.2. Otsu法随后从图像中去除噪声是强制性的，以提高图像的对比度来实现，使得对象局部化过程可以平滑。模糊控制基本上定义了基于固定阈值将图像的像素分成不同类别（Sindhuri和Anusha，2016），它表征了一个将图像分成两个类别C（x，y）的函数，该函数通过固定目标函数Oa;ba的DS292L.M. Francis，N.Sreenath/ Journal of King Saud UniversityyXð ;bg ¼1i¼1X01我我0我12我J哦。1 ifCx;yPL0ifC x y6LSVM分类器采用训练集fvi;mignvn和等价类标号m1其中输入是;i2Ri2 f-;Otsu方法通过计算最优阈值来扩展阈值，使得类内方差总是在较低的一侧，而类间方差总是在较高的一侧。r2小时24小时0小时24小时25小时1小时25小时26小时4小时表示q0和q1的权重是由阈值h分开的两个类的基本概率，并且两个类的方差是r2和r2。根据Vapnik以下条件：W·vi-bP18vi2mi¼16W·v-b618v2m¼-1mm 7mm这两个条件被整合为一个单一的约束：miW·vi-bP18i 1至n8r2hq0hq1hl0h -l1h]25类概率为q，方差为r，类平均值为l。权重向量W表示最大边缘超平面。约束优化问题表示为：最少12Otsu方法首先计算直方图，计算图像的每个强度级别的概率W;b2jWj服从miW·vi-bP1;8i1到n9迟概率和平均值类以上可以转录为：假设的阈值，从而找到最佳阈值，使类内方差最小化，并使类间方差最大化。类方差（Vala和Baxi，2013）。因此，Otsu方法清楚地显示了minW;b122jW j不受任何限制;b在类强度之间着色，给出图像对比度的良好改善。4.1.3. 方向梯度作为预备措施，消除了噪声，并且通过提高对比度来提高图像的质量。首先利用方向梯度¼1-miW·vi-b60;8i1至n10它并不总是必要的，点落在正确的边缘，有时它oiW;b1-miW·vi-b-wi60;8i1至n11上述方程可以通过构造拉格朗日函数来求解。（猪）。它是一种特征描述符方法，用于检测在计算机视觉领域的物体实际上，12X X感兴趣的区域并汇集该特定区域中梯度取向的出现（Tian等人， 2013年）。工作亲-2012年12月2日我1/1n我1/1HOG的核心是将图像划分为更小的链接区域（单元），并且对于每个单元，计算方向并将其分配给角度仓。相邻单元的集合一起形成块，并且这些块被归一化，从而形成有助于描述符（Dénizwig1/1展开拉格朗日函数，导出二次规划问题：N N例如， 2011年）。所获得的描述符将被进一步使用，用于执行分类的机器学习技术。maxZia1Xaiajmimjv;vXai13i;j¼11/14.2. 文本对象对图像进行预处理，修改图像，以便可以细致地进行局部化TEDLESS作为最后一步，将被认为是描述符的对象池该模型被赋予一个大的文本和非文本图像集作为输入，它经历了一个训练过程，在这个过程中，它做出预测，并在形成的预测错误时得到纠正，模型继续学习，直到它在训练数据上达到所需的准确度水平（Brownlee，2013）。然后将候选对象池提供给训练后的模型，该候选对象池确定可能的文本对象集。TEDLESS使用最小二乘SVM和网格搜索交叉验证其中，v是核函数，a是正则化参数r，b是平均值。4.2.2. 最小二乘支持向量机最小二乘支持向量机是支持向量机的最小二乘解释LS-SVM仔细检查数据并在数据中找到可用于分类和回归分析的模式（Kurtulmu，s和Kavdir，2014）。最小二乘法用于找到一组数据的最佳拟合。该方法最小化每个单一方程的结果中产生的误差的平方和，以确定模型的最佳拟合线（Wang等人，2015年）。LS-SVM不是求解凸二次规划，而是通过求解线性方程组来形成解，从而提供问题的更简单的代表（Suykens等人， 2002年）。用于优化管道的超参数，包括HOG和LS-SVM。经过训练的模型的乘积执行二进制算法1：自然场景图像的文本分割文本和非文本对象的分类。4.2.1. 支持向量机支持向量机是一种可以应用于分类和回归问题的机器学习技术（Hamid等人，2016年a）。支持向量机（Mahmoud和Hadad，2015）的工作原理是找到一个超平面，它将最大化两个类之间的间隔（Wang，2005）。支持向量机可以应用于可分集和不可分集数据（Nguyen，2017）。对于单独的数据分类：L.M. Francis，N.Sreenath/ Journal of King Saud University29311/2]1/2]2W;b;e 1/2j2c;i22我我¼TN0B0ðN1/11/1LS-SVM版本通过将最小化问题重构为：minJlWj2<$nXe2;第一节第二节 . N141/1偶然场景文本图像被附加到生成的数字、聚焦场景文本和视频中的文本（Karatzas等人，2015年）。地面真值表被更广泛地阐述，并附加到ICDAR 2015数据集。TEDLESS将注意力集中在图像中的文本，而不是视频。在平等约束条件下，算法2：TEDLESSyi½W·xi-b]¼1-ec;i第一卷;第二卷;。 . . N1500通过构造拉格朗日函数，N N1jWj2cXe2-Xaif½W·xi-b] ei-yg16求解上述方程产生线性系统而不是二次规划问题。R2“Q-1N1 N#a2017年12月其中，是单位矩阵，Yisy1/2y1;y2. . ：y2]T;1N是1 N1; 1;... 1 T; a是a1; a2;. aNT和QRN×N核矩阵。算法1阐述了TEDLESS算法中涉及的各个步骤，并叙述了图像上文本分割的动作流程算法2中阐述了TEDLESS中包含的功能的详细描述表4简要表示了算法中使用的符号及其比例描述。5. 实验设置和结果讨论TEDLESS已经在Linux操作系统的Ubuntu发行版上用Python实现，Python是科学编程语言在本节中，给出了所使用的各种数据集的详细信息，并提到了用于计算机视觉评估的性能指标这些表格比较了各种测量方法在数据集和算法中受到的影响，以及不同研究人员在文本分割中使用的方法（Fürnkranz和Flach，2003）。5.1. 数据集5.1.1. ICDAR 2015ICDAR （ International Conference on Document Analysis andRecognition） 2015 数据集是对已经存在的数据集 ICDAR 2003 、ICDAR 2005和ICDAR 2011的补充，其中，表4TEDLESS算法中使用的符号。5.1.2. MSRA 500MSRA 500数据集包含仅使用手持相机拍摄的室内和室外自然图像。它是分割和识别理解英语和中文字符的多方向文本的基准数据集（Yao，2017）。MSRA 500数据集包含500张图像，其中300张图像用于训练，200张图像用于测试目标。TED-LESS擅长在水平方向上分割英文文本，除了多方向和中文字符之外，这超出了当前实现的范围。5.1.3. SVTSVT（街景文本）数据集来自谷歌街景，包含249张图片中的647个单词和3796个字母。由于其在不同方向上封闭文本的狂野性质，字体风格，大小的差异以及具有较低分辨率的图像，这些图像也很嘈杂（Google Street View，0000），因此它更像是一个抽象的概念。¼Þ符号描述符号描述ConEn对比度增强RI原始图像GI灰度图像F强度等级Q强度等级概率Lq上的平均值H最佳阈值n类间方差u类间方差EI对比增强图像任去除噪声x（n）信号K正则化参数电视全变差Pi预处理的图像L10N定位Gi梯度Pi像素X角仓目标（n）多个物件U训练模型TS训练集LSVM最小二乘支持向量ACC精度机BU最佳模型W重量S10N分割MRI主原始图像梅主增强图像MPI主要预处理图像MObj主-对象池FObj最终物体294L.M. Francis，N.Sreenath/ Journal of King Saud University¼¼¼¼！！！ΣΣ¼ðÞ！¼¼联系我们×ðÞTEDLESS能够对SVT数据集的水平文本进行合理的公正处理。5.1.4. CIFAR-10TPRTx！ TX你好！ Tx Tx！ NTx系列5.2.6. 真阴性率ð18 ÞCIFAR（Canadian Institute for Advanced Research）10是机器学习领域中用于对象识别的计算机视觉数据集。拥有60，000张32× 32彩色图像，TNR表示图像中正确分类的非文本对象的比例的特异性尺度NTx NTx10个对象类，每个类 6000个图像（Krizhevsky等人，2014年）。TEDLESS使用CIFAR-10来训练算法，以从图像中删除非文本对象，从而减少假阳性和假阴性。TNR！你好！NTx NTx！Tx5.2.7. 假阳性率ð19 Þ5.1.5. 碳74KChars 74K数据集用于训练和测试英语和卡纳达语字符。它包含用于indi的训练集-FPR测量显著性水平，该显著性水平缩放在分类过程中被解释为文本对象的非文本对象的比例。vidual字符。该数据集容纳64个类，包含0- 9，A-Z，a-z，7705个来自自然图像的字符，3410个手绘字符和62，992个来自计算机字体的合成字符（de Campos等人， 2009年）。TEDLESS使用Chars 74 k数据-FPRNTx！ TX你好！Tx！NTx系列5.2.8. 假阴性率ð20 Þ设置为训练英文字体的算法5.2. 性能度量FNR缩放在分类过程中被解释为非文本对象的文本对象的比例。图 7显示混淆矩阵，主要用于评估机器学习算法的性能。和其他各种指标，以便评估FNRTx！NTX你好！ NTx T-Tx！ Tx5.2.9. 精度ð21 Þ更好的计算机视觉算法（Batista等人， 2004年）。5.2.1. 真阳性TxTx-这是对被正确视为文本对象的文本对象的估计。5.2.2. 真阴性NTxNTx-这是对被正确视为非文本对象的非文本对象的估计。5.2.3. 假阳性NTxTx-这是对被错误地视为文本对象的非文本对象的估计。5.2.4. 假阴性准确性是衡量业绩的第一步，它定义了正确预测总数与预测总数之间的比率。准确度高！Tx！NTx22Tx！Tx！NTxNTx！TxTx！NTX5.2.10. 精确度、召回率F-测量精确宣扬精确，回忆谈论完整。准确率和召回率都决定了系统的准确性，而准确性并不能解释错误的结果。F测度研究查准率和查全率来决定分数。它的调和平均值超过了精确度和召回率。（Powers，2011年）TxNTx-这是对被错误地视为非文本对象的文本对象的估计。5.2.5. 真阳性率TPR表示灵敏度并缩放图像中正确分类的文本对象的比例。精密Tx！TX你好！ Tx！Tx召回Tx！TX你好！ Tx Tx！NTx系列ð23 Þð24ÞF测量2精确度×召回率25精确度和召回率5.3. 讨论见图7。混淆矩阵。为了训练TEDLESS，使用了两个数据集，即Char 74K数据集和CIFAR 10数据集。为了评估所提出的模型，使用了ICDAR 2015Robust Reading数据集、MSRA 500和SVT数据集（Karatzas等人，2013年）。在图像的文本和非文本对象的同一性处理中，从Char 74K数据集中取出50 K图像并将其标记为1，从CIFAR 10数据集中取出50K图像并将其标记为0，完整的数据集包含100 K混洗图像。CIFAR数据集包含训练样本和测试样本，每个样本包含大约33 K图像，并且由于这些是非文本图像，因此被标记为零。Char 74 K包含62个子数据集，包含训练字符A-Z，a-z和0-9的样本。还提供了包含字符、数字L.M. Francis，N.Sreenath/ Journal of King Saud University295严重失真的形式和包含字符的良好图像样本，良好形式的数字（Zhao等人， 2015年）。培训后的TEDLESS需要通过多种绩效指标进行评估，以整理其实习情况。表5和Fig. 对数据集ICDAR 2015、MSRA 500和SVT的8个结果进行了准确性、TPR、TNR、FPR和FNR分析。TEDLESS能够在数据集上很好地识别文本对象和非文本对象，并且在SVT数据集上具有更高的对象可区分率，尽管它能够很好地识别文本对象，但误报率略有增加。TEDLESS报告了来自非文本对象的更好的文本对象，MSRA 500优于考虑所有措施的其他数据集图8给出了测量的比较的更好的可视化。表6和Fig. 9研究了TEDLESS在ICDAR 2015数据集上的能力以及其他研究人员的能力，包括（Pan等人，2011; Yan和Gao，2014;Tian等人， 2016和Seok和Kim，2015）。该模型能够从场景图像中提取文本对象，但需要改进以从图像中挖掘所有文本对象，从而提高召回率。图图13展示了ICDAR 2015的样本检测，其中左上角是来自ICDAR 2015数据集的图像，下一个图像显示为806040200精确召回Feng等Yan等Zhao等Hyun等TEDLESSF-measure播放预处理的图像，其中对象被标记在矩形中。下面的图片包含了所有可能的见图9。与ICDAR 2015的比较。表5TEDLESS性能指标跨数据集的比较FNRFPRTNRTPR精度20 40 60 80百分比图8.第八条。TEDLESS上各种估计的比较表6ICDAR 2015上的文本检测方法比较候选对象，并且最底部包含可能的文本候选。虽然TEDLESS能够检测文本字符，但也包括错误的候选者。在目前的研究中，单个字符的检测似乎是最困难的，TEDLESS已经在单个字符的识别方面做了一些努力，但仍然没有解决场景文本中所有类型的单个字符检测问题。虽然在图14中检测到字母X，但也存在错误候选，这必须进一步改进。TEDLESS在ICDAR 2015上进行了评估，但许多其他研究人员已经在包括ICDAR 2003 在内的其他ICDAR变体上评估了他们的工作（Lucas et al.，2003年）、ICDAR 2005年（Lucas，2005年）、ICDAR 2011 年（ Karatzas 等人， 2011 年）和 ICDAR 2013 年（Stamatopoulos等人，2013年）。如前面在数据集5.1节中所述，ICDAR 2015是ICDAR 2003、ICDAR 2005、ICDAR 2011和ICDAR2013的扩展，其中ICDAR 2015包括比先前版本的ICDAR数据集更多种类和更难处理的图像。除了表6中指定的工作外，还有其他研究人员使用ICDAR数据集的版本。研究人员（Cho等人， 2016）在ICDAR 2013上对它们的范式进行了估计，获得了86.26%的准确率、78.45%的召回率和82.17%的F-测度。Yin等人（2014）对ICDAR 2011进行了检查，获得了86%的精确度，68%的召回率和76%的F-测量。同样，Tian等人（2016）在ICDAR 2013和ICDAR 2015上进

下载后可阅读完整内容，剩余1页未读，立即下载