基于字符区域感知的文本检测方法

48 浏览量更新于2023-10-18 收藏 1.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于字符区域感知的文本检测Youngmin Baek，Bado Lee，Dongyoon Han，Sangdoo Yun，andHwalsuk Lee- Clova AI Research，NAVER Corp.{白敏，李百道，韩东允，sangdoo.yun，李华硕}@ navercorp.com摘要基于神经网络的场景文本检测方法是近年来出现的，并取得了良好的效果。以前的方法训练与刚性单词级边界框表现出限制，以任意形状表示文本区域。本文提出了一种新的场景文本检测方法，通过对每个字符和字符之间的相似度的研究，有效地检测出文本区域。为了克服单个字符级注释的缺乏，我们提出的框架利用合成图像的给定字符级注释和由学习的临时模型获取的真实图像的估计字符级地面实况。为了估计字符之间的亲和度，用新提出的亲和度表示来训练网络。在六个基准测试上进行的大量实验，包括TotalText和CTW-1500数据集，这些数据集包含自然图像中高度弯曲的文本，表明我们的字符级文本检测显着优于最先进的检测器。实验结果表明，该方法在检测复杂场景文本图像（如任意方向、弯曲或变形的文本）时具有1. 介绍场景文本检测由于其在即时翻译、图像检索、场景解析、地理定位、盲导航等方面的广泛应用而在计算机视觉领域最近，基于深度学习的场景文本检测器已经显示出有前途的性能[7，40，20，3，9，8，10，11，16，23，24，31，25]。这些方法主要训练网络定位单词级的边界框。然而，它们可能会在困难的情况下受到影响，例如弯曲，变形或非常长的文本另外，当通过自下而上的方式连接连续字符来处理具有挑战性的文本时，字符级意识具有许多优势。不幸的是，*通讯作者。(a)（b）第（1）款图1.使用CRAFT实现字符级检测的可视化(a)我们提出的框架预测的热图（b）各种形状文本的检测结果。现有的大部分文本数据集都没有提供字符级的标注，而且获取字符级的基本事实所需的工作成本太高。在本文中，我们提出了一种新的文本检测器，本地化的个别字符区域和链接检测到的字符的文本实例。我们的框架，被称为CRAFT字符区域意识文本检测，设计与卷积神经网络产生的字符区域得分和亲和力得分。区域分数用于定位图像中的单个字符，而亲和度分数用于将每个字符分组到单个实例中。为了弥补字符级注释的缺乏，我们提出了一个弱监督学习框架，该框架在现有的真实单词级数据集中估计字符级的基本事实。图. 1是CRAFT在各种形状文本上的结果的可视化。通过利用字符级的区域意识，各种形状的文本很容易表示。我们在ICDAR数据集上进行了大量的实验[13，12，27]来验证我们的方法，并且实验结果表明，9365任意水平弯曲9366图像（高×宽×3）VGG16-BN区域评分（h/2× w/2×1）亲和力评分（h/2× w/2×第四阶段阶段3Stage2Stage1：Concat上转换块（高/16×宽/16×256）上采样（2x）上转换块（高/8×宽/8×128）上采样（2x）上转换块（高/4×宽/4×64）上采样（2x）上转换块（h/2×w/2×32）转换阶段6（高/32×宽/32×512）转换阶段5（高/32×宽/32×512）转换阶段4（高/16×宽/16×512）转化阶段3（h/8×w/8×256）转化阶段2（h/4×w/4×128）转化阶段1（h/2×w/2×64）上转换块Batch_normConv[3×3×out_ch]Batch_normConv[1×1×（out_ch×2）]实验结果表明，该方法优于现有的文本检测器。此外， MSRA-TD 500 ， CTW-1500 和 TotalText 数据集[36，38，2]上的实验表明，所提出的方法在复杂情况下具有很高的灵活性，例如长，弯曲和/或任意形状的文本。2. 相关工作在深度学习出现之前，场景文本检测的主要趋势是自下而上，其中手工制作的特征大多被用作最近，已经通过采用流行的对象检测/分割方法（如SSD [19]，Faster R-CNN [29]和FCN [22]）提出了基于深度学习的文本检测器。基于回归的文本检测器已经提出了各种文本检测器，这些文本检测器使用从流行的对象检测器改编的框回归。与一般的物体不同，文本通常以具有各种长宽比的不规则形状呈现。为了解决这个问题，TextBoxes [17]修改了卷积核和锚框，以有效地捕获各种文本形状。DMPNet [21]试图通过引入四边形滑动窗口来进一步减少问题。最近，提出了旋转敏感回归检测器（RSDD）[18]，其通过主动旋转卷积滤波器来充分利用旋转不变特征。然而，当使用这种方法时，捕获存在于野外的所有可能形状存在结构限制。基于分割的文本检测器另一种常见的方法是基于处理分割的作品，其目的是在像素级上寻找文本区域这些通过估计词边界区域来检测文本的方法，例如多尺度FCN [6]、整体预测[37]和PixelLink [3]，也是使用分割作为其基础提出的。SSTD [7]试图通过使用注意力机制来增强文本相关区域，从而在特征水平上减少背景干扰，从而从回归和分割方法最近，TextSnake [23]被提出通过预测文本区域和中心线以及几何属性来检测文本实例端到端文本检测器端到端方法同时训练检测和识别模块，以便通过利用识别结果来提高检测准确性FOTS[20]和EAA [8]将流行的检测和识别方法串联起来，并以端到端的方式对其进行训练。Mask TextSpotter [24]利用其统一模型将识别任务视为语义分割问题。很明显，使用识别模块进行训练有助于文本检测器对类似文本的背景杂波更具鲁棒性。图2.网络架构示意图。大多数方法以单词为单位检测文本，但是定义单词的范围以进行检测是不平凡的，因为单词可以通过各种标准来分离，例如含义，空格或颜色。此外，分词不能被严格定义，所以分词本身没有明确的语义。单词注释中的这种模糊性削弱了回归和分割方法的基础事实的意义。Zhang et al.[39]提出了一个字符级检测器，使用MSER [26]提取的文本块候选。它使用MSER来识别单个字符的事实限制了它在某些情况下的检测鲁棒性，例如具有低对比度、曲率和光反射的场景Yao等人[37]使用了字符的预测图以及需要字符级注释的文本词区域和链接方向的图。Seglink [31]不是明确的字符级预测，而是搜索文本网格（部分文本片段），并将这些片段与额外的链接预测相关联。尽管Mask TextSpotter[24]预测了一个字符级的概率图，但它被用于文本识别，而不是识别单个字符。这项工作的灵感来自WordSup [10]的想法，它使用弱监督框架来训练字符级检测器。然而，Wordsup的缺点是字符表示是在矩形锚中形成的，使得它容易受到由变化的相机视点引起的字符的透视变形的影响。此外，它还受到骨干结构性能的约束（即，使用SSD并且受到锚盒的数量及其大小的限制）。Conv[1×1×16]转换[3×3×16]转换[3×3×32]转换[3×3×32]9367亲和盒生成字符框亲和框三角形的中心字符框每个地区评分GT字符框Affinity盒子框亲和力评分GT图3.在我们的框架中地面实况生成过程的说明。我们从具有字符级注释的合成图像生成地面实况标签。3. 方法我们的主要目标是精确地定位自然图像中的每个个体字符为此，我们训练了一个深度神经网络来预测字符区域和字符之间的亲和力。由于没有公开的字符级数据集可用，因此模型以弱监督的方式进行训练。3.1. 架构采用基于VGG-16 [33]的完全卷积网络架构和批量归一化作为我们的骨干。我们的模型在解码部分具有跳过连接，这与U-net [30]相似，因为它聚合了低级特征。最终输出有两个通道作为分数图：区域分数和亲和性分数。网络架构在图1中示意性地示出。二、3.2. 培训3.2.1地面实况标签生成对于每个训练图像，我们为区域分数和具有字符级边界框的亲和度分数生成地面真实标签区域分数表示给定像素是字符中心的概率，而亲和度分数表示相邻字符之间的空间的中心概率与离散标记每个像素的二进制分割图不同，我们用高斯热图对字符中心的概率进行编码。这种热图表示已用于其他应用中，例如在姿态估计工作[1，28]中，因为它在处理没有严格边界的地面实况区域时具有很高的灵活性我们使用热图表示来学习区域得分和亲和度得分。图图3概括了用于合成图像的标签生成流水线直接为边界框内的每个像素计算高斯分布值非常耗时-消耗由于图像上的字符边界框通常经由透视投影而失真，因此我们使用以下步骤来近似并生成区域分数和亲和度分数两者的地面实况：1）预处理2维各向同性高斯映射; 2）计算高斯图区域与每个字符框之间的透视变换; 3）将高斯贴图变形到矩形区域。对于亲和度分数的地面真值，亲和度框使用相邻的字符框来定义，如图1B所示3 .第三章。通过绘制对角线连接每个字符框的对角，我们可以生成两个三角形-然后，对于每个相邻的字符框对，通过将上三角形和下三角形的中心设置为框的角来生成亲和框。所提出的地面实况定义使模型能够充分检测大或长长度的文本实例，尽管使用小的感受野。另一方面，以前的方法，如箱回归，在这种情况下需要一个大的接收场我们的字符级检测使卷积过滤器可以只关注字符内和字符间，而不是整个文本实例。3.2.2弱监督学习与合成数据集不同，数据集中的真实图像通常具有单词级注释。在这里，我们以弱监督的方式从每个单词级注释生成字符框，如图所示。4.第一章当提供具有单词级注释的真实图像时，学习的临时模型预测裁剪的单词图像的字符区域分数以生成字符级绑定框。为了反映临时模型的预测的可靠性分数生成模块转化A框2D高斯2D高斯透视变换每个亲和力9368第10期Charbox裁剪分裂字符（6/6）（5/7）（5/6）置信度图真实图像伪GT合成图像合成GT损失用合成图像训练真实图像生成伪GT训练损失图4.所提出的方法的总体训练流的图示训练是以弱监督的方式使用真实图像和合成图像进行的ing训练。图6示出了用于分割字符的整个过程。首先，从原始图像中裁剪单词级图像。第二，训练到最新的模型预测区域分数。第三，使用分水岭算法[35]来分割字符区域，该算法用于使字符边界框覆盖区域。最后，使用来自裁剪步骤的逆变换将字符框的坐标变换回用于区域分数和亲和度分数的伪地面真值（伪GT）可以通过图1中描述的步骤生成。3使用所获得的四边形字符级边界框。当使用弱监督训练模型时，我们被迫使用不完整的伪GT进行训练。如果Wordbox时期#1时期#2第3个时期第4个时期图5.训练过程中的字符区域得分图并且图像的逐像素置信度图Sc被计算为，.sconf（w）p∈R（w），如果使用不准确的区域分数训练模型，则输出可能在字符区域内模糊。为了防止这种情况Sc（p）=（二）1否则，我们测量由模型生成的每个伪GT的质量。幸运的是，有一个非常强烈的暗示，其中p表示区域R（w）中的像素。客观L定义为，文本注释，即单词长度。在大多数数据集中，提供了单词的转录，ΣL=S（p）·.||2个以上||S（p）− S（p）||2 Σ，||2Σ,可以使用单词来评估伪GT的置信度C RR2Ap一个2（三）对于训练数据的词级注释样本w其中，S（p）和S（p）表示伪地面真值re。R a设R（w）和l（w）为边界框区域，样本长度W。通过字符分裂过程，我们可以得到估计的字符包围盒及其对应的字符长度lc（w）。然后，样本w的置信度得分sconf（w）被计算为，l（w）− min（l（w），|l（w）− l c（w）|）gion score和affinity map，以及Sr（p）和Sa（p）分别表示预测区域分数和亲和度分数。当使用合成数据进行训练时，我们可以获得真实的地面实况，因此将Sc（p）设置为1。随着训练的进行，CRAFT模型可以更准确地预测字符，并且置信度也逐渐增加。图5示出了训练期间的字符区域分数图在培训的早期sconf（w）=、（1）l（w）自然图像中的陌生文本。模型学习ap-......9369字符分割裁剪解除变形单词级批注词框区域分数分水岭标注字符框图6.从单词级注释实现字符级注释的字符拆分过程：1）裁剪单词级图像; 2）预测区域分数; 3）应用分水岭算法; 4）获得字符边界框; 5）解扭曲字符边界框。新文本的可能性，例如不规则字体，以及与SynthText数据集具有不同数据分布的合成大小的文本如果置信度得分s conf（w）小于0。5.估计的字符包围盒在训练模型时会产生不利影响，应忽略。在这种情况下，我们假设单个字符的宽度是恒定的，并通过简单地将单词区域R（w）除以字符数l（w）来计算字符级预测。然后，将s conf（w）设置为0。5.学习看不见的文本。3.3. 推理扫描方向QuadBox多边形：字符区域：沿着扫描方向的：局部最大值：控制点的线（从局部最大值倾斜）：文本多边形的控制点在推理阶段，可以交付最终输出：Polygon文本实例以各种形状，例如字框或字符框，更多的多边形对于像ICDAR这样的数据集，评估协议是词级交并（IoU），因此在这里我们描述如何从预测的Sr和Sa生成词级边界框QuadBox。用于寻找边界框的后处理总结如下。首先，覆盖图像的二进制映射M被初始化为0。如果Sr（p）> τr或Sa（p）> τa，则将M（p）设置为1，其中τr是区域阈值，τa是亲和度阈值。其次，在M上执行连接分量标记（CCL）。最后，通过找到一个旋转的矩形来获得QuadBox，该矩形具有包围与每个标签相对应的连接组件的最小 OpenCV 提供的 connectedComponents 和minAreaRect等函数可用于此目的。请注意，CRAFT的优点是它不需要图7.任意形状文本的多边形生成。任何进一步的后处理方法，如非最大值抑制（NMS）。因为我们有由CCL分隔的单词区域的图像斑点，所以单词的边界框简单地由单个外接矩形定义。另一方面，我们的字符链接过程是在一个像素级，它不同于其他基于链接的方法[31，10]依赖于显式搜索文本组件之间的关系。此外，我们可以在整个字符区域周围生成一个多边形，以有效地处理弯曲的文本。多边形生成的过程如图所示7 .第一次会议。第一步是沿着扫描方向找到字符区域的局部极大值线，如图中蓝色箭头所示局部极大值线9370方法IC13（DetEval）IC15IC17MSRA-TD500FPSRPHRPHRPHRPHZhang等人[39]第三十九届788883437154---6783740.48Yao等人[37]第三十七届80.288.884.358.772.364.8---75.376.575.91.61SegLink [31]83.087.785.376.873.175.0---70867720.6SSTD [7]868988738077------7.7[第10话]87.593.390.377.079.378.2------1.9[40]第四十话---78.383.380.7---67.487.376.113.2He等人[9]第一章819286808281---7077741.1R2CNN [11]82.693.687.779.785.682.5------0.4[23]第二十三话---80.484.982.6---73.983.278.31.1[16]第十六话86928978.587.882.9------2.3监管局[8]878888838483-------[24]第二十四话88.194.191.081.285.883.4------4.8PixelLink [3]87.588.688.182.085.583.7---73.283.077.83.0[18]第十八话86928980.088.083.8---73877910Lyu等人[25]84.492.088.079.789.584.370.674.372.476.287.681.55.7FOTS[20]--87.382.088.885.357.579.566.7---23.9CRAFT（我们的）93.197.495.284.389.886.968.280.673.978.288.282.98.6表1.四边形数据集的结果，如ICDAR和MSRA-TD 500。*表示基于多尺度测试的结果斜体的方法仅是端到端模型检测的结果，以进行公平比较。R、P和H分别指的是查全率、查准率和最佳分数以粗体突出显示。FPS仅供参考，因为实验环境不同。我们报告了最好的FPS，每一个都在原始论文中报告。以防止最终的多边形结果变得不均匀。连接局部最大值的所有中心点的线称为中心线，以黄色显示然后，将局部最大图像线旋转到垂直于中心线，以反映字符的倾斜角度，如红色箭头所示局部极大值线的端点是文本多边形的控制点的端点。为了完全覆盖文本区域，我们沿着局部最大值中心线向外移动两条最外倾斜的局部最大值线，形成最终控制点（绿点）。4. 实验4.1. 数据集ICDAR 2013（IC13）是在ICDAR 2013年稳健阅读竞赛期间发布的，用于聚焦场景文本检测，由高分辨率图像组成，229张用于训练，233张用于测试，包含英文文本。注释是在字级使用矩形框。ICDAR2015（IC15）是在ICDAR 2015 Robust ReadingCompetition中引入的，用于附带场景文本检测，由1000张训练图像和500张测试图像组成，两者都有英文文本。注释在单词级别使用四边形框。ICDAR2017（IC17）包含7，200张训练图像，1，800张验证图像和9，000张测试图像，包含9种语言的文本，用于多语言场景文本检测。与IC15类似，IC17中的文本区域也由4方法TotalText公司简介RPHRPH[38]第三十八话---69.8 77.4 73.4MaskSpotter [24]55.0 69.0 61.3---[23]第二十三话74.5 82.7 78.485.3 67.9 75.6CRAFT（我们的）79.9 87.6 83.681.1 86.0 83.5表2.基于XML类型数据集的结果，例如TotalText和CTW-1500。R、P和H指的是查全率、查准率和H均值、查准率。最佳分数以粗体突出显示。四边形的顶点MSRA-TD 500（TD 500）包含500幅自然图像，分为300幅训练图像和200幅测试图像，使用袖珍相机在室内和室外收集。图像包含英文和中文脚本。文本区域由旋转的矩形进行注释。最近在ICDAR 2017上展示的TotalText（TotalText）包含1255个训练图像和300个测试图像。它特别提供了弯曲的文本，这些文本由多边形和单词级别的transmittance注释CTW-1500（CTW）由1000个训练图像和500个测试图像组成。每个图像都有弯曲的文本实例，这些文本实例由具有14个顶点的多边形注释。4.2. 培训战略训练程序包括两个步骤：我们首先使用SynthText数据集[5]训练网络5万次，然后采用每个基准数据集进行微调9371该模型通过将s conf（w）设置为0，ICDAR 2015和ICDAR 2017数据集中的一些我们在所有训练过程中使用ADAM [15]优化器对于多GPU训练，训练GPU和监督GPU被分离，并且由监督GPU生成的伪GT被存储在存储器中。在微调期间，还以1：5的比率使用SynthText数据集，以确保字符区域确实分离。为了过滤掉自然场景中的纹理类文本，在线硬负挖掘[32]以1：3的比例应用此外，应用基本数据增强技术，如裁剪、旋转和/或颜色变化。弱监督训练需要两类数据;用于裁剪单词图像的四边形注释和用于计算单词长度的转录。满足这些条件的数据集是 IC13 、 IC15 和 IC17 。 MSRA-TD 500 、TotalText和CTW-1500等其他数据集MSRA-TD 500不提供透明，而TotalText和CTW-1500只提供多边形注释。因此，我们只在ICDAR数据集上训练了CRAFT，并在其他数据集上进行了测试，没有进行微调。使用ICDAR数据集训练两个不同的模型。第一个模型在IC15上训练，仅评估IC15。第二个模型在IC13和IC17上一起训练，用于评估其他五个数据集。没有额外的图像用于训练。用于微调的迭代次数被设置为25k。所有实验均使用NAVER智能机器学习（NSML）平台进行[14，34]。4.3. 实验结果四边形类型数据集（ICDAR，和MSRA-TD 500）所有实验均以单一图像分辨率进行。IC 13、IC 15、IC17和MSRA-TD 500中图像的长边分别调整为960、2240、2560和1600。表1列出了各种方法在ICDAR和MSRA-TD 500数据集上的实验结果为了与端到端方法进行公平的比较，我们通过参考原始论文来包括它们的仅检测结果。我们在所有数据集上实现了最先进的性能。此外，CRAFT在IC13数据集上的运行速度为8.6FPS，由于简单而有效的后处理，速度相对较快。对于MSRA-TD 500，在行级别提供注释，包括框中单词之间的空格因此，应用用于组合词框的后处理步骤。如果一个框的右侧和另一个框的左侧足够近，则将这两个框合并在一起。即使没有对TD500训练集进行微调，CRAFT也优于所有其他方法，如表1所示。多边形类型数据集（TotalText，CTW-1500）直接在TotalText和CTW上训练模型是一种挑战。方法IC13IC15IC17[24]第二十四话91.786.0-监管局[8]9087-FOTS [20]92.889.870.8CRAFT（我们的）95.286.973.9表3.与端到端方法的H均值比较。我们的方法不是以端到端的方式训练的，但显示出可比较的结果，甚至优于流行的方法。1500，因为它们的注释是多边形的，这使得在弱监督训练期间分割字符框的文本区域裁剪因此，我们仅使用来自IC13和IC17的训练图像，并且不进行微调来学习这些数据集提供的训练图像。在推理步骤中，我们使用了从区域得分的多边形生成后处理来处理所提供的多边形类型的注释。这些数据集的实验也是以单一图像分辨率进行的。TotalText和CTW-1500中图像的长边大小多边形类型数据集的实验结果如表 2 所示。与其他方法相比，CRAFT的个人字符定位能力使我们能够在检测任意形状的文本方面实现更强大和更优越的性能。特别地，TotalText数据集具有各种变形，包括如图1所示的弯曲文本。8，其中基于四边形的文本检测器的充分推理是不可行的。因此，可以在这些数据集上评估的方法数量非常有限。在CTW-1500数据集的情况下为了在这种情况下帮助CRAFT，我们将一个小型链接细化网络（我们称之为LinkRefiner）与CRAFT结合使用。LinkRefiner的输入是CRAFT的区域分数、亲和度分数和中间特征图的串联，并且输出是针对长文本调整的细化的亲和度分数为了组合字符，使用细化的亲和度分数而不是原始亲和度分数，然后以与TotalText相同的方式执行多边形生成。只有LinkRefiner在CTW-1500数据集上训练，同时冻结CRAFT。LinkRefiner的详细实现在手册材料中进行了说明如表2所示，所提出的方法实现了最先进的性能。4.4. 讨论对尺度方差的鲁棒性我们只对所有数据集进行了单尺度实验，即使文本的大小这与大多数其他方法不同，这些方法依赖于多尺度测试来处理9372图8.TotalText数据集上的结果第一行：每列显示输入图像（顶部）及其各自的区域分数图（左下）和亲和度图（右下）。第二行：每列仅显示输入图像（左）及其区域分数图（右）。规模差异问题这种优势来自于我们的方法本地化单个字符，而不是整个文本的属性。相对较小的感受野足以覆盖大图像中的单个字符，这使得CRAFT在检测尺度变化的文本时具有鲁棒性。多语言问题IC17数据集包含孟加拉语和阿拉伯语字符，这些字符不包括在合成文本数据集中。此外，这两种语言都很难单独分割成字符，因为每个字符都是草书。因此，我们的模型无法区分孟加拉语和阿拉伯语字符，以及拉丁语，韩语，中文和日语。在东亚字符的情况下与端到端方法的比较我们的方法仅使用地面真值框进行训练以进行检测，但它与其他端到端方法相当，如表所示。3 .第三章。通过对失败案例的分析，我们希望我们的模型能够从识别结果中受益，特别是当地面真值词由语义而不是视觉线索分离时。泛化能力我们的方法在3个不同的数据集上实现了最先进的性能，无需额外的微调。这表明我们的模型能够捕捉文本的一般特征，而不是过度拟合特定的数据集。5. 结论我们提出了一种新颖的文本检测器，称为CRAFT，它可以检测单个字符，即使字符级注释没有给出。所提出的方法提供的字符区域得分和亲和力得分，一起，完全覆盖各种文本形状在自下而上的方式。由于提供字符级注释的真实数据集很少见，我们提出了一种弱监督学习方法，该方法可以从临时模型生成伪地面真值。CRAFT在大多数公共数据集上显示了最先进的性能，并通过显示这些性能而无需微调来展示泛化能力作为我们未来的工作，我们希望以端到端的方式用识别模型训练我们的模型，看看CRAFT的性能，鲁棒性和可推广性是否可以转化为更好的场景文本识别系统，可以应用于更一般的设置。鸣谢。作者要感谢Beomyoung Kim，Daehyun Nam和Donghyun Kim帮助进行广泛的实验。9373引用[1] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，第1302-1310页中IEEE，2017年。3[2] C. K. Chng和C. S.陈Total-text：用于场景文本检测和识别的综合数据集。载于《国际荒漠化公约》，第1卷，第935-942页。IEEE，2017年。2[3] D. Deng， H. Liu，X. Li和D.菜Pixellink：通过实例分割检测场景文本。在AAAI，2018。一、二、六[4] B. Epshtein，E.Ofek和Y.韦克斯勒基于笔画宽度变换的自然场景中文字检测见 CVPR ，第 2963- 2970 页。IEEE，2010。2[5] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。在CVPR中，第2315- 2324页，2016年。6[6] D. 他，X。杨角，澳-地Liang，Z.Zhou，G.亚历山大岛奥罗比亚，D. Kifer和C. L.贾尔斯多尺度fcn与级联的立场感知分割任意定向词当场在野外。在CVPR中，第474-483页，2017年。2[7] P. He，W. Huang，T.他，Q。Zhu，Y.乔和X.李具有区域注意力的单次文本检测器InICCV，volume 6，2017.一、二、六[8] T. 他，Z。田，W.黄角沈，Y.Qiao和C.太阳一个端到端的textspotter，具有明确的对齐和注意力。在CVPR中，第5020-5029页，2018年。一、二、六、七[9] W.他，X。- Y. Zhang，F. Yin和C.- L.刘某面向多方向场景文本检测的深度直接回归。在CVPR中，第745-753页，2017年。1、6[10] H. Hu，C. Zhang， Y. Luo，Y. Wang，J. Han，and E.丁Wordsup：利用单词注释进行基于字符的文本检测。InICCV，2017. 一、二、五、六[11] Y. Jiang，X.Zhu，X.Wang，S.杨，W.Li，H.Wang，P.Fu和Z.罗R2cnn：旋转区域cnn，用于方向鲁棒场景文本检测。arXiv预印本arXiv：1706.09579，2017。1、6[12] D. 卡拉察斯湖 Gomez-Bigorda，A. Nicolaou，S. 高希A. Bagdanov，M. Iwamura，J. Matas，L.诺伊曼，V.R.Chandrasekhar，S. Lu，et al. Icdar 2015 competition onro-bust reading.见ICDAR，第1156-1160页。IEEE，2015年。1[13] D.卡拉察斯F. Shafait，S.内田，M。岩村湖G. i Big-orda，S.R. Mestre，J.Mas，D.F. Mota，J.A. Almazan，以及L. P. De Las Heras Icdar 2013稳健阅读比赛。载于ICDAR，第1484-1493页。IEEE，2013。1[14] H. 金，M。Kim，D.Seo，J.Kim，H.帕克，S。帕克，H。乔K.金，Y。Yang，Y. Kim等人，Nsml：通过一个真实的案例研究来了解 mlaas 平台。 arXiv 预印本 arXiv ：1810.09957，2018。7[15] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2015年，国际会议。7[16] M.廖湾，澳-地Shi和X。柏文本框++：一种面向单镜头的场景文本检测器。图像处理，27（8）：36761、6[17] M. 廖湾，澳 - 地 Shi ， X.Bai ， X.Wang 和 W. 刘某Textboxes：一个具有单个深度神经网络的快速文本检测器在AAAI，第4161-4167页29374[18] M.廖，Z. Zhu，B.施，G.- S. Xia和X.柏面向场景文本检测的旋转敏感回归。在CVPR中，第5909-5918页，2018年。二、六[19] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。里德角，澳-地Y. Fu和A. C.伯格。Ssd：单发多盒探测器。在ECCV中，第21-37页。施普林格，2016年。2[20] X. Liu，L.Liang，S.Yan，杨氏D.Chen，Y.Qiao和J.燕.Fots：通过统一的网络快速定位文本。在CVPR中，第5676-5685页一、二、六、七[21] Y. Liu和L.晋深度匹配先验网络：面向更紧密的多方向文本检测。在CVPR中，第3454- 3461页，2017年。2[22] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在CVPR，第34312[23] S. Long，J. Ruan，W. Zhang，X.他，W。Wu和C.耀TextSnake：一种灵活的表示方法，用于检测任意形状的文本.arXiv预印本arXiv：1807.01544，2018。一、二、六[24] P. 柳，M。廖角，澳-地Yao，W.Wu和X.柏掩码文本点- ter：一个端到端的可训练神经网络，用于识别任意形状的文本。 arXiv 预印本 arXiv ： 1807.02242 ，2018。一、二、六、七[25] P. Lyu，C. Yao，W. Wu，S. Yan和X.柏基于角点定位和区域分割的多方向场景文本检测。在CVPR中，第7553-7563页，2018年。1、6[26] J. Matas，O. Chum，M. Urban和T.帕杰拉鲁棒的宽基线立体声从最大稳定的极值区域。图像与视觉计算，22（10）：761-767，2004. 2[27] N. Nayef，F.因岛，菲-地Bizid，H.崔，Y。Feng，L.卡拉扎斯Z. Luo 、乌桕 U. 帕尔角 Rigaud ， J. Chazalon ， et al.Icdar2017多语言场景文本检测和脚本识别鲁棒阅读挑战赛。载于ICDAR，第1卷，第1454-1459页IEEE，2017年。1[28] A. Newell，K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络参见ECCV，第483施普林格，2016年。3[29] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：以利用区域建议网络进行实时对象检测。PAMI，（6）：1137-1149，2017。2[30] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络在MIC-CAI，第234-241页。施普林格，2015年。3[31] B. Shi，X. Bai和S.贝隆吉通过链接段检测自然图像中的有向文本。在CVPR中，第3482- 3490页。IEEE，2017年。一、二、五、六[32] A.什里瓦斯塔瓦A. Gupta和R.娘娘腔。利用在线硬示例挖掘训练基于区域的对象检测器。在CVPR，第761-769页，2016年。7[33] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议。3[34] N. Sung，M.Kim，H.Jo，Y.杨，J.金湖，澳-地Lausen，Y.金姆，G. Lee，D.郭氏W. Ha，et al.NSML：一个机器学习平台，使您能够专注于模型。 arXiv 预印本 arXiv ：1712.05902，2017。79375[35] L. Vincent和P.索耶数字空间中的流域：一种基于沉浸模拟的高效算法。PAMI，（6）：583-598，1991. 4[36] C. Yao、X. Bai，W. Liu，Y.妈，还有Z。涂。在自然图像中检测任意方向的文本。在CVPR中，第1083-1090页。IEEE，2012。2[37] C. Yao、X. Bai，N. Sang，X. Zhou，S. Zhou和Z.曹通过整体、多通道预测进行场景文本检测。arXiv预印本arXiv：1606.09002，2016. 二、六[38] L. Yuliang，J.Lianwen，Z.Shuaitao和Z.盛检测野外曲线文本：新数据集和新解决方案。arXiv预印本arXiv：1712.02170，2017。二、六[39] Z. Zhang C.，中国古猿科Zhang，W.申角Yao，W.刘，和X。柏使用完全卷积网络的多方向文本检测。在CVPR中，第4159-4167页，2016年。二、六[40] X. Zhou C.，中国青冈C.Yao，H.温，Y.Wang，S.Zhou，W.他和J. Liang. East：一个高效、准确的场景文本检测器。在CVPR中，第2642-2651页，2017年。1、6

下载后可阅读完整内容，剩余1页未读，立即下载