基于边界语义感知和自举的场景文本检测技术研究

57 浏览量更新于2023-10-13 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于边界语义感知和自举薛楚辉[0000−0002−3562−3094]、卢世建[0000−0002−6766−2506]、詹方能[0000−0003−1502−6847]南洋理工大学xuec0003@e.ntu.edu.sg网站，{shijian.lu，fnzhan}@ ntu.edu.sg抽象。本文提出了一种场景文本检测技术，利用自举和文本边界语义准确定位的文本场景。设计了一种新的Bootstrapping技术，该技术简单地实现了多个训练序列的子序列选择，有效地解决了训练数据有限的问题。同时，对文本的子框执行的复制改进了预测文本特征图的结构，这对于预测长单词或文本行的单个完整框而不是多个破框是至关重要的。此外，语义感知的文本边界检测技术的设计，产生四种类型的文本边界段的每个场景的文字。利用语义感知的文本边界，场景文本可以通过回归单词或文本行的末端周围的文本像素而不是所有文本像素来更准确地定位，这在处理长单词或文本行时通常导致不准确的定位。大量的实验证明了所提出的技术的有效性，并在几个公共数据集，如。G. 80.1 MSRA-TD 500的f评分，ICDAR 2017-RCTW的f评分为67.1等。关键词：场景文本检测，数据增强，语义感知检测，深度网络模型1介绍场景文本检测和识别由于其在多语言翻译、自动驾驶等方面的广泛应用，近年来在计算机视觉和深度学习研究领域引起了越来越多的兴趣。作为场景文本识别的前提，场景文本检测在整个场景文本理解过程中起虽然研究了多年，但场景中文本的准确和鲁棒检测仍然是一个非常开放的研究挑战，近年来越来越多的基准测试竞赛，如ICDAR2015-Incidental [19]，ICDAR 2017-MLT [30]等。随着卷积神经网络的快速发展近年来，两种基于CNN的场景文本检测方法已经被研究，它们将单词或文本行视为通用对象，并将通用对象检测技术应用于表示学习和对象检测。的2薛楚辉，石建路，方能展图1：所提出的场景文本检测技术的概述：对于每个训练图像，提取一组增强图像和语义感知文本边界，并将其馈送到多通道全卷积网络以训练场景文本检测器（如虚线上方所示）。给定测试图像，场景文本检测器预测文本特征图和四个文本边界（以四种颜色突出显示）以用于准确的场景文本检测（如虚线下方所示）。场景文本检测任务。一种方法是基于间接回归的[25，23，7，17]，它采用Faster-RCNN [34]和SSD [24]等对象检测器，首先生成建议或默认框，然后回归到准确的对象框。这些技术实现了最先进的性能，但需要不同长度、角度和形状的多个方案另一种方法是基于直接回归的[11，52]，其适用于场景文本检测任务的DenseBox [14]这种方法不需要建议，并且能够检测不同方向和长度的单词和文本行，但是在处理长单词或文本行时，它通常具有低定位精度。因此，直接和间接回归的方法都面临着三个共同的约束，同时适用于场景文本检测任务。第一个是断开检测，其中一个文本行被检测为多个断开的文本段。其原因是文本行由于其在场景中的较大空间覆盖而与字符或单词相比经常遭受更多变化。G. 文本行内的不同单词可以具有不同的颜色、字体、环境照明等。第二种是不准确的定位，其中回归由于缺少文本的某些部分或包括某些相邻背景而无法产生准确的文本框。不准确的定位主要是由于文本行的长形状，其中文本行中心周围的回归文本像素距离文本边界框顶点所在的文本行末端非常远。三是训练数据有限。需要大量的注释来捕获场景文本内的丰富变化，但是现有的数据集通常具有有限的训练图像，例如。MSRA-TD500 [44]中的300个训练图像，ICDAR 2013 [20]中的229个训练图像等。基于边界和自举的3我们设计了两种新的技术来解决三个国家的最先进的场景文本检测技术的限制。首先，我们设计了一种新的基于自举的场景文本采样技术，该技术重复地从注释文本中提取不同长度的文本片段，如图所示。1. 基于自举的采样从两个方面提供帮助。首先，它通过利用现有的场景文本注释来增加训练数据并减轻数据注释约束。其次，对不同长度的文本段进行重复采样有助于解耦不同类型的图像退化，并有效地降低训练数据的G.在同一文本行内具有不同照明的场景文本可以由具有较小变化的不同文本线段来采样，如图1B所示。2.因此，所提出的基于自举的场景文本采样技术有助于提高所产生的文本特征图的一致性和回归的性能，这对于检测长单词或文本行的完整而不是多个破框是至关重要的重复采样的思想已经被利用在训练通用对象检测器中，通过在感兴趣的注释对象周围裁剪多个样本。其次，我们设计了一种新的语义感知文本边界检测技术，用于准确定位场景中的文本。特别地，四个文本边界段由一对长边边界和一对短边边界定义，其可以基于文本注释框自动提取，如图1A和1B所示。1和4.通过将四个文本边界段标记为四种类型的对象，经训练的场景文本检测器能够分别检测四种类型的文本边界段，如图1所示。1（四种颜色仅用于说明）。四个文本边界段的区分有助于从两个方面提高文本定位精度首先，文本边界框可以通过使用位于文字或文本行两端周围的文本像素（其可以通过使用短边文本边界段来识别）来更准确地回归，与位于文本行中间周围的文本像素相比，这些文本像素更接近文本边界框顶点。其次，可以利用长边文本边界段来分离相邻的文本行，特别是当它们彼此接近时。2相关工作场景文本检测在文献[53，46]中已经报道了相当多的场景文本检测技术，并且根据它们是否直接检测字符，单词或文本行，它们可以大致分为第一类采用自下而上的方法，首先检测字符[39，2，47]或文本组件[40，35]，然后将它们分组为单词或文本行。早期的作品使用各种手工制作的特征来检测字符，例如笔画宽度变换（SWT）[44，4]，最大稳定极值区域（MSER）[2，31，15，18]，边界[28]，FAST关键点[1]，定向梯度直方图（HoG）[39]，笔画对称性[49]等。随着深度神经网络的快速发展，CNN已被广泛用于检测场景中的角色，无论是通过适应通用对象检测方法[40，35]还是采用4薛楚辉，石建路，方能展使用语义图像分割方法[50，45，9]。此外，已经开发了不同的技术，通过使用TextFlow [39]，长短期记忆（LSTM）[50]等[16，45，26]将检测到的字符连接到单词或文本行第二类将单词视为一种特定类型的对象，并通过采用各种通用对象检测技术来直接检测它们该类别下的方法可以进一步分为两类。第一类利用Faster-RCNN [34]、YOLO [33]和SSD [24]，并设计用于场景文本检测的文本特定建议或默认框[25，23，7，17，5，38]。第二类采用直接回归方法[11，52]，首先检测感兴趣区域（ROI），然后在像素级回归ROI周围的文本框。第三类通过利用已成功应用于语义图像分割的全卷积网络（FCN）[27]直接检测文本行。例如，He等人。 [8]提出了一种由粗到细的FCN，通过提取文本区域和文本中心线来检测场景文本。在[42，32]中，FCN被用来学习文本边界图，其中通过查找具有文本标签的连接组件来检测文本行。我们提出的技术采用直接回归方法[11，52]，直接从文本像素回归单词和文本行框。另一方面，我们检测具有特定语义的多个文本边界段（而不是如[42，32]中的整个文本边界），这有助于大大提高场景文本定位精度，更多细节将在第二节3.2.数据增强在深度网络训练中被广泛采用，作为一种避免过度拟合的正则化。对于各种计算机视觉任务，例如图像分类和对象检测，它通过平移、旋转、裁剪和翻转图像或感兴趣的注释对象来广泛实现，以创建更大量的训练数据[22，37，6]。近年来提出了一些更复杂的增强方案G.使用遮罩来隐藏对象的某些部分，以模拟各种遮挡实例[51]。数据增强已经成为深度学习中的一种常规操作，这是由于其在训练更准确和更鲁棒的深度网络模型方面的有效性。我们的基于自举的场景文本采样属于数据增强的范畴它类似于图像裁剪，但涉及通过迎合文本特定形状和结构的创新设计通过解耦长单词或文本行中的图像变化，它有助于产生更一致的场景文本特征，这在预测单词或文本行的单个完整框而不是多个破框中是至关重要的第3.1条3方法我们提出了一种新的场景文本检测技术，利用自举数据增强和语义感知的文本边界段准确基于边界和自举的5图2：基于自举的场景文本采样的图示：给定具有由绿色框注释的文本行的图像，提取三个示例文本线段，如由红色框突出显示的，其中采样窗口的中心沿着文本行的中心线（黄色的收缩部分）随机地取得。采样窗口之外的其余文本区域通过图像修复填充。场景文本本地化。对于每个训练图像，所提出的技术提取一组自举训练样本和两对文本边界段，如图2所示。1，并将它们（与原始场景文本注释一起）馈送到多通道全卷积网络以训练场景文本检测模型。基于自举的采样提高了所产生的文本特征图的一致性，这极大地有助于预测单个完整的而不是长单词或文本行的多个破框检测到的文本边界段的语义极大地帮助回归场景中的单词或文本行的更准确的定位框，如图1B所示。1.一、3.1基于Bootstrapping的图像增强我们设计了一种基于自举的图像增强技术，该技术重复对每个文本注释框（TAB）的文本线段进行采样，如图中左上角绿色框所示。2.在L表示TAB长度的情况下，TAB的中心线（如由虚线突出显示的）首先收缩0。1 *L从两个TAB结束，这给出了黄色线段，如图所示。2.然后沿着收缩的中心线随机地取多个点用于文本段采样。每个采样文本段的长度从0的情况。2*L至采样点与TAB较近端之间距离的两倍此外，采样文本段之外的TAB的其余部分通过修复来填充[42]，如图所示二、按照所述的取样过程如上所述，可以通过从每个文本框采样的文本段的数量来控制增强图像的数量本文提出的基于自举的场景文本图像增强技术大大提高了预测文本特征图的一致性和回归性能。3.第三章。对于图中的示例图像图3a，图3b。图3b和3d示出了由基线产生的文本特征图6薛楚辉，石建路，方能展(a)（b）（c）（d）（e）图3：包括增强图像改进了场景文本检测：在训练中包括增强图像的情况下，与由（b）和（c）中所示的基线模型（仅使用原始训练图像训练）产生的那些相比，如（d）和（e）中所示，产生更一致的文本特征图和更完整的场景文本检测。文本特征图中的颜色显示了回归量预测的距离信息（蓝色表示短距离，红色表示长距离）。模型（通过使用原始训练图像训练）和增强模型（通过进一步包括增强样本图像训练）（训练细节将在第3.3节中描述文本特征映射中的颜色图图3c和3e分别示出了相应的检测框，其中红色框示出了错误检测，绿色框示出了正确检测。可以看出，包括增强图像有助于产生更一致的文本特征图以及更平滑的几何距离图（用于文本框的回归），这导致更完整而不是破碎的场景文本检测。3.2语义感知的文本边框我们为每个场景文本注释提取两对语义感知的文本边界段，如图所示。4.用W和L表示文本注释框（TAB）的宽度和长度，可以沿着TAB的两个长边提取一对绿色和蓝色的长文本边框段，如图所示。图4中示出了根据图1至图4中所示的方法，其中段长度被设置为L，并且段宽度根据经验被设置为0。[2]W.此外，两个长文本边框段的中心线与TAB的长边缘完全重叠，以便文本边框段捕获从文本到背景的过渡，反之亦然。一对短文本边界段也可以基于TAB来提取，如图1所示4.第一章特别是，沿TAB宽度的尺寸被设置基于边界和自举的7图4：语义感知文本边界检测：针对每个文本注释框自动提取四个文本边界段，包括黄色和红色的一对短边文本边界段以及绿色和蓝色的一对长边文本边界段。四种类型的文本边界片段被视为四种类型的对象并用于训练深度网络模型，并且经训练的模型能够检测四种类型的文本边界片段，如图2所示。5c.第二个问题。在0。8*W，正好位于两个长文本段之间沿着TAB长度的另一维度被设置为与W相同，利用W，经训练的文本边界检测器可以检测要在文本边界框回归中使用的一定量的文本像素。类似地，短文本边框段的中心线（沿着TAB宽度）与TAB短边缘完全重叠，使得所提取的文本边框段捕获从文本到背景或从背景到文本的过渡。语义感知文本边界的使用有助于极大地提高经训练的场景文本检测模型的定位精度（训练细节将在第2节中描述）3.3）。利用如图5c所示的所识别的文本边界语义因此，文本边界框可以通过使用位于文本行端部周围的文本像素来回归，这通常导致如图1所示的准确的文本定位。5便士原因是文本中间周围的文本像素远离长单词或文本行的文本框顶点，这可能容易引入回归误差并导致不准确的定位，如图1B所示。5b.在另一端，长文本边界段也有助于更好的场景文本检测性能。特别地，当相邻文本行彼此靠近时，可以利用长文本边界段来分离文本行。3.3场景文本检测原始场景文本注释，连同增强图像和提取的语义感知文本边界，如Sect.3.1和3.2是8薛楚辉，石建路，方能展(a)（b）（c）（d）图5：使用语义感知文本边界改进了场景文本检测：利用如（c）中所示的所识别的文本边界语义信息，与如（b）中所示的不使用边界语义信息的检测相比，如（d）中所示的场景文本可以被更准确地定位。绿框表示正确检测，红框表示错误检测。提供给多通道FCN训练场景文本检测模型。训练旨在最小化以下多任务损失函数：L=Lcls+λloc<$Lloc+λbrd<$Lbrd（1）其中Lcls、Lloc和Lbrd分别指文本特征（每个像素是文本像素的置信度分数）、回归（从每个像素到文本边界的四个边的参数λloc和λbrd是相应损失的权重，在我们的系统中根据经验将其设置为1.0。对于回归损失Lloc，我们在训练中采用IoU损失[48]。对于分类损失Lcls和Lbrd，我们使用Dices Coefficient [29]，这是在图像分割任务中广泛使用的。给定真实区域G和预测区域P，骰子系数由下式定义：2∗ |G ∩ P|Lbrd=|+的|P|（二）|(2)给定一个测试图像，我们训练的场景文本检测器产生三个映射，包括文本特征映射，文本边界特征映射和回归量。文本边界特征图具有四个通道，其给出一对短文本边界段和一对长文本边界段，如图1所示5c.第二个问题。的基于边界和自举的9算法1文本包围盒检测。1：输入：回归器R、文本区域映射T和文本边界区域映射B2：输出：文本边界框BB3：使用B中的长文本边框区域描绘T中的文本行t4：通过描绘的t与B中的两个短文本边界区域之间的重叠来确定左侧和右侧回归文本像素pl和pr5：通过对pl和pr进行回归来导出两组文本框BBl和BBr6：BB ←Φ7：对于BBl和BBr中的每个框，do8：如果两个框从相同t的文本像素回归，则9：合并两个框，并将合并后的框添加到BB10：如果结束11：结束12：将NMS应用于BB回归器还具有四个通道，其分别预测到上、下、左和右文本边界的距离，如图1和2所示。图3c和图3e（其示出了到左侧文本边界的一个通道距离）。算法1示出了如何从经训练的场景文本检测器的输出导出文本边界框给定文本特征图和文本边界特征图，首先通过全局阈值化来确定文本区域图和四个文本边界区域图（作为算法输入），其中通过相应特征图的平均值来简单地估计阈值。然后可以确定文本区域图和四个文本边界区域图之间的重叠。因此，可以通过移除文本区域映射和两个长文本边界区域映射之间的重叠来描绘文本行。此外，可以通过分别回归与左侧和右侧文本边界区域图重叠的文本像素来预测左侧和右侧文本行末端处的文本边界框顶点。最后，通过合并回归的左侧和右侧文本框顶点来确定文本边界框4实验4.1数据集和评估指标MSRA-TD 5001 [44]包括300个训练图像和200个测试图像，其中场景文本以中文或英文打印。对于每个训练图像，提供单词或文本行级别的注释，其中每个注释由矩形框和对应的框旋转角度组成。由于训练图像的数量非常少，HUST-TR 400中的400个训练图像2[43]已纳入培训。1http://tc11.cvc.uab.es/datasets/MSRA-TD50012http://mclab.eic.hust.edu.cn/UpLoadFiles/dataset/HUST-TR400.zip10薛楚辉，石建路，方能展表1：MSRA-TD 500和ICDAR 2013数据集上不同场景文本检测方法的召回率（R），精度（P）和f-得分（F）MSRA-TD500ICDAR2013方法RPF方法RPFKang等人[18个国家]62.0 71.0 66.0He等人[第十一届]81.0 92.0 86.0Yin等人[47个]63.0 81.0 71.0Tian等人[38个]83.1 91.1 86.9Zhang等人 [50]67.0 83.0 74.0He等人[七]《中国日报》 86.0 88.0 87.0He等人[第十一届]70.0 77.0 74.0Zhou等人[五十二]82.7 92.6 87.7Yao等人[45个]75.3 76.5 75.9Jiang等人[17个]82.6 93.6 87.7Zhou等人[五十二]67.4 87.3 76.1He等人[10个国家]83.0 93.0 88.0Shi等人[ 35]第三十五届 70.0 86.0 77.0Tian等人[第四十届]87.0 88.0 88.0Wu等人[ 第四十二届]78.0 77.0 77.0Hu等人[12个]87.5 93.3 90.3基线（ResNet）73.4 70.3 71.8基线（ResNet）79.3 86.9 83.0边界（ResNet）72.0 76.4 74.3边界（ResNet）84.5 85.4 84.9八月（ResNet）71.1 77.7 74.3八月（ResNet）86.7 83.8 85.28月+边界（ResNet） 73.3 80.7 76.88月+边界（ResNet） 86.9 87.8 87.48月+边界（DenseNet）77.4 83.0 80.18月+边界（DenseNet）87.1 91.5 89.2ICDAR20133 [20]由229张训练图像和233张测试图像组成，其中包含英文文本。文本注释处于单词级别，并且不提供旋转角度，因为大多数捕获的场景文本几乎是水平的。我们还在训练中包含ICDAR2015的训练图像。ICDAR 2017-RCTW4 [36]包括8，034张训练图像和4，229张测试图像，场景文本以中文或英文打印图像被从不同的来源，包括街景，海报，屏幕截图等捕捉多方位的话和文本行使用四边形注释。ICDAR 2017-MLT5包含7，200张训练图像，1，800张验证图像和9，000张测试图像，文本以9种语言打印，包括中文、日语、韩语、英语、法语、阿拉伯语、意大利语、德语、印度语. 大多数注释都是在单词级别，而非拉丁语（如中文）的文本与ICDAR 2017-RCTW类似，该数据集中的文本也是多方向的，使用四边形注释文本对于MSRA-TD 500，我们使用[41]中的评估协议。对于ICDAR 2013、ICDAR 2017-RCTW和ICDAR 2017-MLT，我们执行通过使用由相应的数据集创建者提供的在线评估系统来评估。具体而言，采用一对多（一个矩形对应于多个矩形）和多对一（多个矩形对应于一个直角）匹配以更好地评估ICDAR 2013数据集。3http://rrc.cvc.uab.es/? ch=2& com=简介4http://www.icdar2017chinese.site:5080/dataset/5http://rrc.cvc.uab.es/? ch=8基于边界和自举的11表2：ICDAR 2017-RCTW和ICDAR 2017-MLT数据集上不同检测方法的召回率（R）、精确度（P）和f评分（F）ICDAR2017-RCTWICDAR2017-MLT方法RPF方法RPFGMH [36]57.8 70.6 63.6Sensetime OCR [30] 69.4 56.9 62.6NLPR PAL [36]57.3 77.2 65.8SCUT DLVClab [30] 54.5 80.3 65.0免费WiFi [36]59.5 74.4 66.1NLPR PAL [11]57.9 76.7 66.0基线（ResNet） 52.2 66.6 58.5基线（ResNet）60.9 64.5 62.6边界（ResNet）58.5 74.2 65.4边界（ResNet）60.6 73.9 66.6边界（DenseNet）58.8 78.2 67.1 边界（DenseNet） 62.1 77.7 69.04.2实现细节该网络由Adam [21]优化器优化，起始学习率为10- 4，批量大小为16。图像以0.5，1，2或3的比例随机调整大小，并在训练之前裁剪为512 x512，而不交叉文本。通过使用所提出数据扩充技术整个实验在Nvidia DGX-1上进行。我们所有的模型都是使用Ima-geNet数据集[3]从预先训练的模型中进行微调的。实施了两个基础网络，包括ResNet [6]和DenseNet [13]多尺度评价是通过将测试图像的长边扩展到256、512、1024、2048像素来实现的。4.3实验结果定量结果。表1示出了MSRA-TD 500和ICDAR 2013数据集上的定量实验结果以及与现有技术的比较。如表1所示，五个模块包括：1）“B as eline（R es Ne t）”，其通过使用Res Ne t - 50和S ec中描述的或原始的图像来实现。4.1 ，2）“B或d e r（R e s Ne t）”是通过在S ec中定义的包含x t b或d e r s e g m e n t来实现的。 3.2，3）' Au g. （ResNet）这是通过在S ec中定义的计算所确定的。3.1，4）' Au g. +B或der（ResNet）t h t in g b e r e g e r e gm e n t e t i n g b e r e g e r e gm e n t e d i m g e n g e d i mi n g e d i m g e d i n g e d i m g e g e d i n g e d i m g e d i n g e g i n g e g in+B或der（DenseNet）通过使用D e n s e Ne t - 121来实现，同时在A h e 'Au g处实现了该过程。+B或der（ResNet）'。如表1所示，使用语义感知文本边界或增强图像或两者的检测模型一致地优于基线模型此外，同时使用文本边框和增强图像的模型优于单独使用文本边框或增强图像的模型。此外，当使用DenseNet-121时，训练的模型明显优于最先进的方法，证明了所提出的技术的优越性能。我们观察到，与ICDAR 2013数据集的较高召回率相比，MSRA-TD 500数据集的性能改善主要来自较高的这种不一致主要是由于12薛楚辉，石建路，方能展(a)（b）（c）（d）图6：所提出的场景文本检测技术的图示：从四个研究数据集中挑选样本图像的成功检测，包括（a）MSRA-TD 500、（b）ICDAR 2013、（c）ICDAR 2017-RCTW和（d）ICDAR2017-MLT。两个数据集的评估方法，即MSRA-TD 500的评估遵循一对一（一个矩形对应于一个矩形）匹配，而ICDAR 2013的评估遵循一对多和多对一。如[42]所述，与实际值相比，ICDAR2013在线评估系统通常产生较我们推测，我们的方法的实际精度应该高于表1中所示的精度。还在两个最近的大规模数据集上评估了所提出的技术，包括ICDAR 2017-RCTW和ICDAR 2017-MLT。由于这两个数据集都有大量的训练图像，我们只评估了提出的语义感知文本边界如表2所示，语义感知文本边界的使用有助于明显提高ICDAR 2017-RCTW数据集的检测召回率和检测精度，其中创建了单词级和文本行级注释对于ICDAR2017-MLT数据集，改进主要来自更高的精确度，因为该数据集中的大多数注释处于单词级别。此外，当使用DenseNet时，对于两个数据集，所提出的技术优于最先进的方法（包括ICDAR 2017-RCTW和ICDAR 2017-MLT基准竞赛论文[30，36]中报告的基线和获胜方法）。定性结果。图6示出了通过使用所提出的技术的几个样本图像和对应的检测，其中所有样本图像是从包括图1和图2中的几个图像的四个研究的数据集中3和基于边界和自举的13(a)(b)（c）第（1）款图7：包括语义感知文本边界和基于自举的增强有助于极大地提高场景文本定位准确度，另外，包括基于自举的增强也导致快速学习和收敛，如MSRA-TD 500数据集上的（b）和（c）所示。5.如图6所示，所提出的技术能够检测具有不同特性并且遭受不同类型的降级的场景文本。特别地，包括基于自举的增强有助于产生更完整的检测，尽管文本可能无法准确地定位，如图1B所示。3.另一方面，包含语义感知文本边界有助于产生更准确的场景文本定位，尽管文本可以由如图1B所示的多个虚线框检测。5.基于自举的增强和语义感知文本边界的组合克服了两个约束（破损检测和不准确定位）并且产生更完整和准确的文本检测，如图1B所示六、讨论所提出的技术是能够产生准确的场景文本定位，这是至关重要的相关场景文本识别任务。这可以在图中观察到。图7a显示了当在评估中使用不同的IoU（Intersection over Union）时，所提出的模型（语义感知文本边界和增强图像包括在训练中）与基线模型（训练仅使用原始图像）的f分数。如图7a所示，当IoU阈值从5.0增加到15.9时，f分数差距稳定地从5.0增加到15.9。0.5到0.8，通过所提出的技术证明了更准确的场景文本定位。另一个有趣的观察是，包含增强图像通常会加速训练收敛，如图2所示。7b.在MSRA-TD 500数据集上训练超过40，000次迭代（批量大小为16）时，使用增强图像的这可以通过检查训练损失与训练迭代次数来进一步验证，如图所示。7c.在其他数据集上的实验显示出类似的收敛模式，如图1和图2所示。7b和7c。乍一看，这是没有意义的，因为增强将训练图像的数量增加了20倍（2014薛楚辉，石建路，方能展图图8：所提出的场景文本检测技术的失败案例的说明：样本图像来自四个研究的数据集，其中绿色框是我们的方法的正确输出，红色框是错误检测，黄色框给出了真实的缺失检测。对每个训练图像采样增强图像我们推测，更快的收敛在很大程度上是由于增强的文本线段比原始文本行更短，因此解耦了不同类型的图像变化，从而导致更快的学习和模型收敛。所提出的技术可能会失败，在几个典型的情况下，如图所示。8.首先，它可能在处理大尺寸的场景文本时引入误报，这主要是由于如第一图像中所示的NMS错误。第二，当文本行具有如第二图像中所示的大空白时，它可能产生不正确的断开检测这种失败通常是由于注释不一致造成的，其中一些具有大空白的长文本行由单个框注释，而一些由多个框注释。第三，当垂直文本也可以被解释为水平时，它可能会被混淆，反之亦然，如第三幅图所示。在没有文本语义信息的情况下，很难区分它是两个垂直的文本行还是五个水平的单词。5结论本文提出了一种新的场景文本检测技术，利用语义感知的文本边界和基于自举的文本段增强。语义感知的文本边界的使用有助于检测具有不同语义的文本边界段，从而大大提高了场景文本定位的增强文本线段的使用有助于提高预测特征图的一致性，这导致更完整而不是破碎的场景文本检测。在四个公共数据集上的实验表明了所提出的技术的有效性。6确认这项工作是由新加坡教育部资助的，在项目“一种半监督学习方法，用于准确和强大的文本检测”（RG 128/17（S））。基于边界和自举的15引用1. Busta，M.，诺伊曼湖Matas，J.：Fastext：Efficient unconstrained scenetext detector （ 2015 ） .IEEE International Conference on Computer Vision（ICCV）卷12. Cho，H.，Sung，M.，Jun，B.：Canny文本检测器：快速、鲁棒的场景文本局部化算法。In：Proceedings of the IEEE Conference on Computer VisionandPatternRecognition. pp. 35663. Deng，J.，Dong，W.，索赫尔河Li，L.J.，Li，K.，李菲菲：Imagenet：一个大规模的分层图像数据库。在：计算机视觉和模式识别，2009年。CVPR2009。 IEEEConfencen。pp. 248-255 02TheDog（2009）4. Epshtein，B.，Ofek，E.，Wexler，Y.：基于笔画宽度变换的自然场景中文字检测。 In ： Computer Vision and Pattern Recognition （ CVPR ）， 2010IEEEC〇nferenceon. pp. 2963- 2970年。IEEE（2010）5. Gupta，A.，Vedaldi，A.，齐瑟曼，A.：用于自然图像中文本定位的合成数据IEEE计算机视觉与模式识别会议（CVPR）（2016年6月）6. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习在：IEEE计算机视觉和模式识别会议论文集。pp. 7707. 他，P.，黄伟，他T朱庆国，Qiao，Y.，李X：具有区域注意力的单次文本检测器在：IEEE计算机视觉国际会议（ICCV）（2017年10月）8. 他T黄伟，Qiao，Y.，Yao，J.：基于级联卷积文本网络的自然图像文本精确定位arXiv预印本arXiv：1603.09423（2016）9. 他T黄伟，Qiao，Y.，Yao，J.：文本注意力卷积神经网络，用于搜索和识别。IEEEtransactio nso nimage processi ng25（6），252910. 他T田志黄伟，Shen，C.，Qiao，Y.，Sun，C.：一个端到端的textspotter，具有明确的对齐和注意力。In：Proceedings of the IEEE Conference on C〇mputerVis i sinandPater nRec 〇 gnit i tin. pp. 502011. 他WZhang，X.Y.，Yin，F.，Liu，C.L.：用于多方向场景文本检测的深度直接回归在：IEEE计算机视觉国际会议（ICCV）（2017年10月）12. Hu，H.，张，C.，Luo，Y.，（1996年），美国，王玉，汉，J.，Ding，E.：Wordsup：利用单词注释进行基于字符的文本检测。在：IEEE计算机视觉国际会议（ICCV）（2017年10月）13. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。在：IEEE计算机视觉和模式识别会议论文集第1卷，第3页（2017年）14. 黄湖，加-地杨，Y.，邓，Y.，Yu，Y.：Densebox：将地标定位与端到端对象检测统一起来。arXiv预印本arXiv：1509.04874（2015）15. 黄伟，Qiao，Y.，唐X：基于卷积神经网络诱导mser树的鲁棒场景文本检测。欧洲计算机视觉会议。pp. 497-511 Springger（2014）16. Jaderberg，M.，Vedaldi，A.，齐瑟曼，A.：文本定位的深层功能。In：Europeanconferenceoncomputervision. pp. 512-528 02TheDog（2014）17. 江，Y.，Zhu，X.，王，X.，杨，S.，李伟，王，H.，傅，P.，Luo，Z.：R2cnn：用于方向鲁棒场景文本检测的旋转区域cnn。arXiv预印本arXiv：1706.09579（2017）16薛楚辉，石建路，方能展18. 康湖，加-地李，Y.，Doermann，D.：自然图像中的方向鲁棒文本行检测。在：IEEE计算机视觉和模式识别会议论文集中。pp. 403419. Karatzas，D.戈麦斯-比戈达湖Nicolaou，A.，Ghosh，S.，Bagdanov，A.，岩村，M.，Matas，J.，诺伊曼湖钱德拉塞卡V.R.Lu，S.，等：Icdar2015 稳健阅读竞赛。 In ： Document Analysis and Recognition（ICDAR），201513thInternatio nalCo nfere nceo n.pp. 1156IEEE（2015）20. Karatzas，D.Shafait，F.，Uchida，S.，Iwamura，M.i Bigorda，L.G.，Mestre，S.R.，Mas，J.，Mota，D.F.，Almazan，J.A.，De Las Heras，L.P.：Icdar 2013稳健阅读比赛。In：Document Analysis and Recognition（ ICDAR ）， 2013 12th Inter-nationalCo nfere nceo n.pp. 1484 爱的力量（2013）21. Kingma，D. Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）22. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展。pp. 109723. Liao，M.，施，B.，Bai，X.，王，X.，刘伟：Textboxes：一个快速的文本检测器，具有简单的设计。In：AAAI.pp. 416124. 刘伟，Anguelov，D.，Erhan，D.，塞格迪角Reed，S.，Fu，C.Y.，Berg，A.C.：Ssd：单发多盒探测器。在：欧洲计算机视觉会议。pp. 21-37 02TheFamousFamous（2016）25. Liu，Y.，Jin，L.：深度匹配先验网络：更紧密的多方向文本检测。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）26. 刘志，林，G.，杨，S.，冯杰，林伟，Goh，W.L.：用于场景文本检测的学习马尔可夫IEEE计算机视觉与模式识别会议（CVPR）（2018）27. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：IEEE计算机视觉和图像处理会议论文集中。pp. 343128. Lu，S.，陈，T.，Tian，S.，Lim，J.H.，Tan，C.L.：基于边缘和支持向量回归的场景文本提取。International Journal on Document Analysis and R e c og n i t ion（I J D A R）18（2），125 - 135（2015）29. Milletari，F.，Navab，N.，Ahmadi，S.A.：V-net：用于体积医学图像分割的全卷积神经网络。 In ： 3D Vision （ 3DV ）， 2016 Fourth Inter nationalConferenceon. pp. 565-571 IEEE（2016）30. Nayef，N. Chazalon，J.，Khlif，W.，Luqman，M.M.，Burie，J.C.，Liu，C.l.，Ogier，J.M.，Yin，F.，比济德岛Choi，H.，等：Icdar2017多语言场景文本检测和脚本识别鲁棒阅读挑战赛。2017年第14届IAPR文件分析与识别国际会议（ICDAR）。pp. 1454我的（2017）31. 诺伊曼湖Matas，J.：实时场景文本定位与识别。计算机视觉与模式识别（CVPR），2012年IEEE会议。pp. 3538-3545 IEEE（2012）3

下载后可阅读完整内容，剩余1页未读，立即下载