分段连接：一种基于卷积神经网络的文本检测方法

186 浏览量更新于2023-10-16 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2550基于分段连接的宝光石1香白1香白SergeBelongie21华中科技大学EIC学院2康奈尔理工大学计算机科学系shibaoguang@gmail.comxbai@hust.edu.cnsjb344@cornell.edu摘要大多数最先进的文本检测方法是特定于水平的拉丁文本，并且对于实时应用来说不够快我们介绍了段链接（SegLink），一个面向文本检测方法。其主要思想是将文本分解为两个局部可检测的元素，即分段和链接。段是覆盖单词或文本行的一部分的定向框;链接连接两个相邻的段，表示它们属于同一个单词或文本行。这两个元素都是通过端到端训练的全卷积神经网络在多个尺度上密集检测的。通过组合由链路连接的段来产生最终检测。与以前的方法相比，SegLink在准确性，速度和易于训练方面都有改进。它在标准ICDAR 2015偶发事件（挑战4）基准测试中达到了75.0%的f值，大大超过了之前的最佳水平。它在512 ×512 图像上运行超过 20 FPS 。此外，无需修改，SegLink能够检测非拉丁文文本的长行，例如中文。1. 介绍在自然图像中阅读文本是一项具有挑战性的任务。它由许多现实世界的应用程序驱动，例如照片OCR[2]，地理位置和图像检索[9]。在文本阅读系统中，文本检测，即用词或文本行的边界框定位文本，通常是具有重要意义的第一步在某种意义上，文本检测可以被看作是应用于文本的对象检测，其中单词/字符/文本行作为检测目标。因此，最近出现了一种新的趋势，即最先进的文本检测方法[9，6，22，30]在很大程度上基于先进的通用对象检测或分割技术，例如[4，5，15]。尽管以前的工作取得了巨大的成功，但我们认为，一般的检测方法并不适合*通讯作者。(a)(b)（c）第（1）款（d）（e）（f）图1. SegLink概述。上面一行显示了具有不同尺度和方向的两个单词的图像。(a)在图像上检测到片段（黄色框）。(b)在相邻线段对之间检测到链接（绿线）。(c)由链接连接的片段被组合成完整的单词。(d-f)SegLink能够检测长行的拉丁文和非拉丁文文本，例如中文。用于文本检测，主要有两个原因。首先，单词/文本行边界框具有比一般对象大得多的纵横比。（快速/更快）R-CNN [5，4，19]或SSD [14]类型的检测器可能由于其提案或锚盒设计而难以生产此类盒子。此外，一些非拉丁文本在单词之间没有空格，因此更大的绑定框纵横比使问题变得更糟。其次，与一般对象不同，文本通常具有明确的方向定义[25]。对于文本检测器来说，产生定向框是很重要的。然而，大多数一般的对象检测方法不是设计用于产生定向盒。为了克服上述挑战，我们从一个新的角度来解决文本我们建议将长文本分解成两个较小的和局部可检测的元素，即段和链接。如示于图1，段是一个有方向的盒子，覆盖了一个词的一部分2551=1=2=3=4=5=6组合段3x3转换预测因子VGG16通过pool5Convconv7（fc7ConvConvConv10_2Conv1122564256851216102432102464512输入图像（512x512）1024，k3s11024，k1s1256，k1s1512，k3s2128，k1s1256，k3s2128，k1s1256，k3s2256，k3s2检测图2. 网络架构。该网络由卷积特征层（显示为灰色块）和卷积预测器（细灰色箭头）组成。卷积滤波器以“（#filters），k（kernel size）s（stride）”的格式指定。多行过滤器规范意味着中间有一个隐藏层。分段（黄色框）和链接（未显示）由多个特征层上的卷积预测器检测（由l = l索引）。. . 6）通过合并算法合并成整字。(for清晰度我们在这里和后面使用“单词”，但是分段也可以无缝地工作在包含多个单词的文本行上）;链接连接一对相邻的片段，表明它们属于同一个词。在上述定义下，一个词是由多个片段定位的，这些片段之间有链接。在检测过程中，通过卷积神经网络在输入图像上密集地检测段和链接。然后，根据链接将片段组合成整个词。这种方法的主要优点是，由于两个基本元素都是本地可检测的，因此现在可以在本地检测到长的和有方向的文本：检测片段不需要观察整个单词。并且链接也没有，因为两个段的连接可以从局部上下文推断。此后，我们可以以极大的灵活性和效率检测任何长度和方向的文本。具体来说，我们提出了一个卷积神经网络（CNN）模型，以完全卷积的方式同时检测段和链接。该网络使用VGG-16 [21]作为其骨干。一些额外的功能层添加到它。卷积预测器被添加到6个特征层以检测不同尺度的段和链接。为了处理冗余检测，我们引入了两种类型的链路，即层内链路和跨层链路。层内链接将线段连接到同一层上的相邻线段。另一方面，跨层链路将段连接到其在较低层上的邻居。通过这种方式，我们连接了相邻位置的片段以及规模。最后，我们用深度优先搜索（DFS）算法找到连接的片段，并将它们组合成完整的单词。我们的主要贡献是新颖的片段链接解，检测方法通过实验，我们表明，所提出的方法具有几个显着的优势，比其他国家的最先进的方法：1）鲁棒性：SegLink以简单而优雅的方式对定向文本的结构进行建模，具有针对复杂背景的鲁棒性。我们的方法在标准数据集上取得了非常有竞争力的结果。特别是，在ICDAR 2015 Incidental（挑战4）基准点[12]上，它在f-测量（75.0% vs 64.8%）方面的表现远远超过了最好的SegLink; 2）效率：由于其单通道，全卷积设计，SegLink非常高效。它每秒可以处理20多张512 x512大小的图像;3）通用性：无需修改，SegLink能够检测非拉丁文本的长行，例如中文。我们在多语言数据集上展示了这种能力。2. 相关工作在过去的几年里，大量的研究工作已经投入到文本检测问题[24，23，17，17，25，7，8，30，29，2，9，6，22，26]。基于基础-sic检测目标，以前的方法大致可以分为三类：基于字符、基于字和基于行的。基于字符的方法[17，23，24，10，7，8]检测单个字符并将其分组为单词。这些方法通过对区域提取算法提取的候选区域进行分类或对滑动窗口进行这种方法通常涉及将字符分组为单词的后处理步骤。基于单词的方法[9，6]直接检测单词边界框。它们通常具有与最近基于CNN的通用对象检测网络类似的流水线虽然实现了出色的检测精度，但这些方法可能遭受2552当应用于一些非拉丁文本（如中文）时，性能会下降基于线的方法[29，30，26]使用一些图像分割算法找到文本区域。它们还需要一个复杂的后处理步骤的字分割和/或假阳性删除。与以前的方法相比，我们的方法预测段和链接联合在一个单一的前向网络通过。管道更简单、更清洁。此外，网络是端到端可训练的。我们的方法在精神上类似于最近的一项工作[22]，该工作通过与递归神经层相结合的CNN查找和分组一系列精细文本提案来检测文本行相比之下，我们只使用卷积层来检测定向分段，从而获得更好的灵活性和更快的速度。此外，我们使用相同的强CNN特征显式地检测链接目标检测是计算机视觉中的一个基本问题，文本检测是一般目标检测的一个特例。大多数最先进的检测系统要么对一些类不可知的对象进行分类，更深的特征和更大的感受野。它们的结构如图所示。二、在6个特征层（conv4 3、conv7、conv8 2、conv92、conv10 2和conv11）上检测到段和链接。这些特征层提供不同粒度的高质量具有3×3内核的卷积预测器被添加到6层中的每一层以检测段和链路。我们通过l= l，. . . ，6。段检测段也是定向框，由s=（xs，ys，ws，hs，θs）表示。我们通过估计输入图像上的一组默认框[14]的置信度得分和几何偏移来检测片段。每个默认框与特征图位置相关联，并且其分数和偏移量是从该位置处的特征预测的。为了简单起见，我们只将一个默认框与特征映射位置相关联。考虑第l个特征层，其特征图大小为wl×hl。此地图上的位置（x，y）对应于图像上以（xa，ya）为中心的默认框，其中使用CNN [5，4，19]或直接从一组预设框（例如锚框）[18，14]回归对象边界框。x=wIawl（x +0。5）;y=hI阿hl（y +0。（5）（1）我们的网络架构继承了SSD [14]的架构，SSDSSD提出了用卷积预测器在多个特征层上检测对象的思想。我们的模型还以非常相似的方式检测段和尽管模型相似，但我们的检测策略截然不同：SSD直接输出对象边界框。另一方面，我们采用自下而上的方法，通过检测单词或文本行的两个组成元素并将它们组合在一起。3. 分段链接我们的方法使用前馈CNN模型检测文本。给定大小为wI×hI的输入图像I，默认框的宽度和高度都设置为康斯特湖卷积预测器产生用于段检测的7个通道。其中，2个通道被进一步软最大归一化以得到（0，1）中的分段分数。其余5个是几何偏移。考虑到地图上的位置（x，y），我们将沿着深度的该位置处的向量表示为（xxs，xys，xws，xhs，xθs）。然后，通过下式计算该位置处的段：xs=alxs+xa（2）ys=alys+ya（3）ws=alexp（ws）（4）hs=alexp（hs）（5）输出固定数量的线段和链接，然后通过他们的置信度得分进行过滤，θs=θs（六）整个单词边界框。边界框是一个旋转的矩形，表示为b=（xb，yb，wb，hb，θb），其中xb，yb是中心的坐标，wb，hb是宽度和高度，θb是旋转角度。3.1. CNN模型图2显示了网络架构。我们的网络使用预训练的VGG-16网络[21]作为其骨干（conv 1到pool 5）。在[14]之后，VGG-16的全连接层被转换为卷积层（fc 6到conv 6; fc 7到conv 7）。它们后面是一些额外的卷积层（conv8 1到conv11），它们甚至可以提取2553W这里，常数al控制输出段的比例它应该根据第l层的感受野大小来选择。我们使用经验公式来选择此大小：al =γ wI，其中γ= 1。五、L层内链接检测一条链接连接一对相邻的段，表明它们属于同一个字。在这里，相邻段是在相邻特征图位置处检测到的那些段。链接不仅对于将片段组合成完整的单词是必要的2554SSN={s}，（8）(a) 层内链接(b) 跨层链路图3. 层内链路和跨层链路。（a）conv8 2（黄色块）及其8个连通邻居（有填充和无填充的蓝色块）上的位置。检测到的层内链路（绿线）连接同一层上的一个段（黄色框）及其两个相邻段（蓝色框）。(b)跨层链路连接conv9 2上的一个网段（黄色框）和conv8 2上的两个网段（蓝色框）。我们明确地检测使用相同的功能检测段之间的链接段。由于我们在特征图位置处仅检测到一个片段，因此片段可以通过它们的图位置（x，y）和层索引l来索引，由s（x，y，l）表示。如示于图3.a，我们定义一个段的层内邻居为它的 8-连通下采样层（最大池化或步幅-2卷积）。请注意，仅当所有要素图层的大小均为偶数时，此属性才有效。在实践中，我们通过使输入图像的宽度和高度都可被128整除来例如，将1000×800的图像调整为1024×768，这是最接近的有效大小。如示于图3.b，我们将段的跨层邻居定义为c（x′，y′，l−1）（x，y，l）2x≤x′≤2x+1，2y≤y′≤2y+1它们是在前一层上的片段每个分段有4个跨层邻居。通过两个层之间的双倍大小关系来确保对应性。同样，跨层链路由卷积预测器检测。预测器输出8个通道用于跨层链路。每2个通道被softmax归一化以产生跨层链路的分数。在特征层l = 2上检测到跨层链路。. . 6，但不是在l= l（conv4 3）上，因为它没有前面的特征层。使用跨层链接，可以连接并随后组合不同比例的线段。与传统的非最大值抑制方法相比，跨层连接提供了一种可训练的冗余连接此外，它与我们的链接策略无缝契合，并且易于在我们的框架下实现。同一要素图层上的相邻要素：分段得分段偏移层内链接得分跨层链接得分w′ ′N（x，y，l）={s（x，y，l）}x−1≤x′≤x+1，y−1≤y′≤y+1\s（x，y，l）（七）当局部检测片段时，一对相邻片段也在输入图像上相邻。链接也由卷积预测器检测。预测器输出16个信道用于到8个连接的相邻段的链路。每2个通道被softmax归一化以获得链路的分数。跨层链路检测在我们的网络中，在不同的特征层上以不同的尺度检测段。每一层处理一个比例范围。我们使这些范围重叠，以免错过其边缘的尺度。但作为结果，同一个单词的片段可以同时在多个层上被检测到，从而产生冗余。为了解决这个问题，我们进一步提出了另一种类型的链接，称为跨层链接。跨图层链接将两个要素图层上的线段与相邻索引连接起来。例如，在conv4 3和conv7之间检测到跨层链路，因为它们的索引是l= 1，l= 2。这种对的一个重要属性是第一层的大小总是第二层的两倍，因为图4. 卷积预测器的输出通道。该框示出了深度为31 的wl×hll= 1的预测器不输出用于跨层链路的信道。卷积预测器的输出把事情放在一起，图。4示出了卷积预测器的输出通道。预测器由卷积层和随后的一些softmax层来实现，这些softmax层分别归一化分段和链路分数。此后，我们网络中的所有层都是卷积层。我们的网络是完全卷积的。3.2. 将线段与链接在前馈之后，网络产生多个段和链路（数量取决于图像大小）。在组合之前，通过它们的置信度得分过滤输出段和链接。我们为段和链接设置不同的过滤阈值，分别为α和β。conv9_282x尺S16conv8_216conv8_2L2 5168布里尔2555i=1S22√Hs s llNS字包围盒默认框ℎ箱形顶尖从经验上讲，我们的模型的性能对这些阈值不是很敏感任一阈值与其最佳值的0.1偏差以过滤后的线段为节点，过滤后的链接为边，我们在它们上构造一个图。然后，在图上执行深度优先搜索（DFS）以找到其连接组件。每个构件都包含一组由链接连接的线段。用B表示连接的组件，此组件内的段正的并且与具有最接近大小的词匹配即，在等式的左手侧具有最小值的那个。9 .第九条。按照Alg中的程序组合。1.一、算法1合并分段(1) 默认框、单词边界框和默认框的中心（蓝点）(2) 沿默认框的中心顺时针旋转wordGroundTruths区段1：输入：B={s（i）}|B|是一组线段，斯，斯伊什其中s（i）=（x（i），y（i），w（i），h（i），θ（i））。Ss 你好，2：求平均角θb1|B|θ（i）。第三章：对于一条直线（tanθb）x+b，求出最小的b最小化到所有线段中心(3) 裁剪单词边界框以删除默认框左右两侧的部分(4) 沿默认框的中心逆时针旋转裁剪框（x（i），y（i））。图5.计算给定的地面实况片段的步骤S s4：找出所有线段中心在直线上的垂直投影。5：从投影点中找出距离最远的两个用（xp，yp）和（xq，yq）表示它们。6：xb：=1（xp+xq）7：yb：=1（yp+yq）8：wb：=（xp−xq）2+（yp−yq）2+1（wp+wq）默认框和单词边界框。在正默认框上计算偏移。首先，我们按照图2所五、然后，我们解决Eq。2、Eq。6以获得地面真相偏移。链路（层内或跨层）标记为积极的iff 1）两个默认的盒子连接到它是1Σ9：h b：= |B|2（一）BS标记为阳性; 2）两个默认框匹配到十： b：=（xb，yb，wb，hb，θb）十一：输出：b是组合边界框。4. 培训4.1. 分段和链接同一个词4.2. 优化目的通过同时最小化段分类、偏集回归和链接分类的损失来训练网络模型。总的来说，损失函数是三个损失的加权和：该网络通过直接监督地面真相部分和链接来训练。groundtruths包括所有默认框的标签（即它们的对应框的标签）。L（y，c，y，c，s，s）=1NsL（y，c）+λ1conf% s % s %1%N% s1Lloc（s，s）响应段）、它们到默认框的偏移以及所有层内和跨层链接的标签。我们从groundtruth词边界框中计算出它们。+λ2Lconf（yl，cl）L（十）首先，我们假设只有一个地面实况词给你，ys是所有线段的标签。 y（i）= 1，如果第i个在输入图像上。默认框标记为正iff1) 所述框的中心在所述词边界框内2) 框大小al和单词高度h满足：max（al，h）≤ 1。五（九）h al否则，默认框将标记为负数。接下来，我们考虑多个单词的情况。如果一个默认框不满足上述任何单词的条件，则该框被标记为否定。否则，它被标记为：=B2556默认框标记为正数，否则为0。就像- wise，yl是链接的标签。L_conf是预测的段和链路分数上的softmax损失，分别为c_s和c_l。Lloc是在预测的分段几何形状和地面实况上的平滑L1回归损失[ 4 ]。分部分类和回归损失是正常的-由Ns化，这是正默认框的数量。链路分类的损失通过正链路的数量Nl来归一化。权重常数λ1和λ2在实践中均被设置为12557在线硬负挖掘对于分段和链接，负占了大部分训练样本。因此，为了平衡正样本和负样本，需要进行硬负挖掘.我们遵循[20]中提出的在线硬否定挖掘策略，以保持否定和肯定之间的比例最多为3：1。对段和链接分别执行硬负挖掘。数据增强我们采用与SSD [14]和YOLO [18]类似的在线增强管道。训练图像被随机裁剪成具有最小Jaccard重叠为o的面片，该面片与任何地面实况词在加载到批之前将作物的大小调整为相同的大小。对于定向文本，在单词的轴对齐边界框上执行增强。重叠0是从0（无约束）、0中随机选择的。1，0。3，0。5，0。7，0。9个样品。从[0]中随机选择裁剪大小。1，1]的原始图像大小。训练图像不水平翻转。5. 实验在本节中，我们在三个公共数据集上评估了所提出的方法，即ICDAR 2015附带文本（挑战4），MSRA-TD 500和ICDAR 2013，使用每个数据集的标准评估协议5.1. 数据集SynthText in the Wild（SynthText）[6]包含800，000个合成训练图像。它们是通过将自然图像与以随机字体、大小、方向和颜色呈现的文本混合而创建的文本被渲染和对齐到精心选择的图像区域，以获得逼真的外观。该数据集为字符、单词和文本行提供了非常详细的注释。我们只使用数据集来预训练我们的网络。ICDAR 2015附带文本（IC15）[12]是ICDAR 2015稳健阅读竞赛的挑战4。这个挑战的特点是谷歌眼镜拍摄的附带场景文本图像，而不考虑定位，图像质量和视角。因此，该数据集在文本方向、规模和分辨率方面表现出很大的变化，这使得它比以前的IC-DAR挑战要困难得多。该数据集包含1000张训练图像和500张测试图像。注释以单词四边形的形式提供。MSRA-TD 500（TD 500）[25]是第一个专注于定向文本的标准数据集。该数据集也是多语言的，包括中文和英文文本。的数据集由300幅训练图像和200幅测试图像组成。与IC15不同的是，TD500是在文本行级别进行注释的。ICDAR 2013（IC13）[13]包含的文本大多是横向的，有些文本稍微有方向性。该数据集已被广泛采用，用于评估文本检测方法。它由229张训练图像和233张测试图像组成。5.2. 实现细节我们的网络在SynthText上进行了预训练，并在真实数据集上进行了微调（稍后指定）。该算法采用标准SGD算法进行优化，动量为0。9 .第九条。对于预训练和微调，图像在随机裁剪后被调整为384×384。由于我们的模型是完全卷积的，我们可以在一定的大小上训练它，并在测试过程中将其应用到其他批次大小设置为32。在预训练中，前60k次迭代的学习设置为10−3，然后在其余30k次迭代中设置为10−4在微调过程中，学习率固定为10−4，迭代次数为5-10k微调迭代的次数取决于数据集的大小由于精确度-召回率的权衡以及数据集之间评估协议的差异，我们选择最佳阈值α和β来优化f-度量。除IC15外，阈值是通过网格搜索在不同的数据集上分别选择的。1个步骤在保持验证集上。IC15不提供离线评估脚本，因此我们唯一的方法是向评估服务器提交多个结果。我们的方法使用TensorFlow [1] r0.11实现所有实验均在具有Intel Xeon 8核CPU（2.8GHz）、4个Titan X图形卡和64GB RAM的工作站上进行。在4个GPU上并行运行，训练一个批处理大约需要0.5秒。整个培训过程不到一天。5.3. 有向英文文本首先，我们评估IC15上的SegLink。预训练模型在IC15的训练数据集上进行了10测试图像的大小调整为1280×768。我们将段和链接的阈值设置为0。九比零。7，分别。性能由官方的中央子任务服务器（http://rrc.cvc.uab.es/? ch=4）。为了满足提交格式的要求，将面向输出的矩形转换为四边形。表1列出并比较了所提出的方法和其他现有技术方法的结果。从在线排行榜中获得了一些结果SegLink的表现远远优于其他人。在f-测量方面，它比第二好的表现高出10.2%。考虑到一些方法具有接近甚至高于SegLink的精度，2558召回率=1.0 精密度=0.86 F评分=0.92回忆=1.0 精密度=1.0 F评分=1.0回忆=1.0精密度=0.88 F评分=0.93召回率=1.0 精密度=1.0 F评分=1.0回忆=0.88 精密度=0.88 F评分=0.88回忆=1.0精密度=1.0 F评分=1.0图6. IC15的示例结果。绿色区域是正确检测到的文本区域。红色代表假阳性或假阴性。灰色的检测，但忽略了评价算法。可视化由中央提交系统生成。黄色帧包含放大图像区域。表1.ICDAR 2015附带文本方法精度召回F-measureHUST MCLAB47.534.840.2NJU文本72.735.848.0StradVision-277.536.749.8MCLAB FCN [30]70.843.053.6CTPN [22]51.674.260.9Megvii-Image++72.457.063.8Yao等人[26日]72.358.764.8SegLink73.176.875.0改进主要来自召回。如图6，我们的方法能够区分文本与非常杂乱的背景。此外，由于其明确的链接预测，SegLink正确地分离彼此非常接近的单词。5.4. 长文本我们进一步证明了SegLink在非拉丁语脚本中检测长文本TD500被用作本实验的数据集，因为它由定向和多语言文本组成。TD500的训练集只有300个图像，这不足以微调我们的模型。我们将TD500的训练集与IC15的训练集混合在一起，每个批次都有一半的图像来自每个数据集。预训练的模型被微调了8k次迭代。测试图像的大小调整为768×768。阈值α和β被设置为0。九比零。5的比例。人均得分由官方发展工具包计算。根据表2，SegLink在精度和f度量方面SegLink得益于其全卷积设计，运行速度为8.9 FPS，表2. 关于MSRA-TD 500的方法精度召回F-measureFPSKang等人 [第十一届]716266-Yao等人[25日]6363600.14Yin等人 [27日]8163740.71Yin等人 [28日]7161651.25Zhang等人 [30个]8367740.48Yao等人[26日]7775761.61美元SegLink8670778.9速度比其他人快得多SegLink还享有简单性。SegLink的推理过程是检测网络中的单个前向传递，而之前的方法[25，28，30]涉及复杂的基于规则的分组或过滤步骤。TD 500包含许多混合语言（英语和中文）的长文本行。图7示出了SegLink如何处理这样的文本。可以看出，沿着文本行密集地检测到它们导致很难从常规对象检测器获得的长尽管英文和中文文本在外观上存在很大差异，但SegLink能够同时处理它们，而无需对其结构进行任何修改5.5. 检测水平文本最后，我们评估了水平文本数据集的SegLink的性能。预训练模型在IC13和IC15的组合训练集上进行了5k次迭代的微调。由于IC13中的大多数文本具有相对较大的尺寸，测试图像的大小被调整为512 ×512。阈值α和β被设置为0。6和0。3所示。为了匹配提交格式，我们转换检测到的定向框2559图7. TD500的示例结果。第一行显示检测到的线段和链接。层内链路和跨层链路分别用红线和绿线表示。分段显示为不同颜色的矩形，表示不同的连接组件。第二行显示组合框。到它们的轴对齐的边界框中。表3将SegLink与其他最先进的方法进行了比较。分数由中央分任务系统使用“Deteval”评估协议计算。SegLink在f-测量方面取得了非常有竞争力的结果。只有一种方法[22]在f测量方面优于SegLink。然而，[22]主要是为检测水平文本而设计的，并不适合定向文本。在速度方面，SegLink在512 ×512图像上的运行速度超过20 FPS，比其他方法快得多。表3. IC13的结果。P、R、F分别代表查准率、查全率和f-measure。* 这些方法仅根据“ICDAR 2013”评估协议进行评估，其余方法根据“Deteval”进行评估。这两个协议通常产生非常接近的分数。方法PRFFPSNeumann等人[16]81.872.477.13Neumann等人[17]第十七话82.171.376.33Busta等人[3]84.069.376.86Zhang等人 [29日]887480<0.1Zhang等人 [30个]887883<1Jaderberg等人 [9]第一章88.567.876.8<1Gupta等人 [6]美国92.075.583.015Tian等人 [22日]93.083.087.77.1SegLink87.783.085.320.65.6. 限制SegLink的一个主要限制是需要手动设置两个阈值α和β。在实践中，通过网格搜索找到阈值的最佳值。简化参数将是我们未来工作的一部分。另一个缺点是SegLink无法检测字符间距非常大的文本。图8.a、b示出了两种这样的情况。检测到的链接连接相邻的段，但不能链接远距离的段。(a)（b）（c）图8. TD500上的故障案例。红框是假阳性。（a）（b）SegLink无法链接字符间距较大的字符。(c)SegLink无法检测弯曲文本。图8.c显示SegLink无法检测弯曲形状的文本但我们认为，这并不是线段连接策略的限制，而是线段组合算法目前只能产生矩形。6. 结论我们提出了SegLink，一种新的文本检测策略，通过简单高效的CNN模型实现。在水平、定向和多语言文本数据集上的卓越性能充分证明了SegLink的准确性、快速性和灵活性。在未来，我们将进一步探索其在检测变形文本（如弯曲文本）方面的潜力此外，我们有兴趣将SegLink扩展为端到端识别系统。确认这项工作得到了中国国家自然科学基金（61222308和61573160）、Google Focused Research Award、AWSCloud Credits for Research、Microsoft Research Award和Facebook设备捐赠的部分支持。作者也感谢中国国家留学基金管理委员会对本研究的支持.分段和链接组合2560引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.妈妈，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛Sutskever，K. Talwar，P. Tucker，V. Vanhouc k e，V. Vasud ev an，F. Viegas，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。6[2] A.比西斯托湾Cummins，Y. Netzer和H.没有Pho- toocr：在不受控制的情况下阅读文本。InICCV，2013. 一、二[3] M.布斯塔湖Neumann和J.马塔斯Fastext：高效的无约束场景文本检测器.在ICCV，2015年。8[4] R. B.娘娘腔。快速R-CNN。在ICCV，2015年。一、三、五[5] R. B.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。第1、3条[6] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。在CVPR，2016年。一、二、六、八[7] W. Huang，Z. Lin，J. Yang，and J.王.基于笔划特征变换和文本协方差描述子的自然图像文本定位。InICCV，2013. 2[8] W. Huang，Y.黄氏Y.乔和X.唐基于卷积神经网络诱导MSER树的场景文本2014年，在ECCV。2[9] M. Jaderberg，K. Simonyan、A. Vedaldi和A.齐瑟曼。使用卷积神经网络在野外阅读文本IJCV，116（1）：1-20，2016. 一、二、八[10] M. Jaderberg，A. Vedaldi和A.齐瑟曼。文本定位的深层功能。2014年，在ECCV。2[11] L.康，Y。Li和D. S.多尔曼自然图像中的方向鲁棒文本CVPR，2014。7[12] D.卡拉察斯湖Gomez-Bigorda，A. Nicolaou，S. K. 高希A. D. Bagdanov，M. Iwamura，J. Matas，L.诺伊曼，V.R. Chandrasekhar，S. Lu，F. Shafait，S. Uchida，E.瓦-维尼。ICDAR 2015年关于稳健阅读的竞赛ICDAR2015，2015年。二、六[13] D.卡拉察斯F. Shafait，S.内田，M。岩村湖G. iBig-orda，S. R. Mestre，J. Mas，D. F. Mota，J. Almaza' n，以及L.德拉斯赫拉斯。 ICDAR 2013年稳健阅读竞赛。InICDAR 2013，2013. 6[14] W. Liu，L.安格洛夫，D。埃尔汉角塞格迪，S。E. 里德C. Fu和A. C.伯格。 SSD：单次触发多盒探测器。在ECCV，第21-37页，2016年。一、三、六[15] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。1[16] L. Neumann和J.马塔斯高效的场景文本定位和识别与本地字符细化。ICDAR，2015年。8[17] L. Neumann和J.马塔斯实时无词典场景文本定位和识别。PAMI，38（9）：1872二、八2561[18] J.雷德蒙，S. K.迪夫拉河，巴西-地B. Girshick和A.法哈迪。只需查看一次：统一的实时物体检测。CoRR，abs/1506.02640，2015。三、六[19] S. Ren ， K. 赫利河 B. Girshick 和 J. 太阳更快的 R-CNN：朝向使用区域建议网络的实时对象检测。2015年，在NIPS中。第1、3条[20] A.什里瓦斯塔瓦A. Gupta和R. B.娘娘腔。利用在线硬样本挖掘训练基于区域的目标检测器。在CVPR，2016年。6[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。二、三[22] Z. 田，W.Huang，T.他，P。他和Y。乔基于连接主义文本建议网络的自然图像文本检测在ECCV，2016年。一、二、三、七、八[23] K. Wang和S. J·贝隆吉在野外发现单词。在ECCV，2010年。2[24] T. Wang，中国山杨D.J. Wu，中国茶条A.Coates和A.Y. Ng. 使用卷积神经网络进行端到端国际公民权利委员会，2012年。2[25] C. Yao、X.Bai，W.Liu，Y.妈，还有Z。涂。在自然图像中检测任意方向的文本CVPR，2012。一、二、六、七[26] C. Yao、X. Bai，N. Sang，X. Zhou，S. Zhou和Z.曹通过整体、多通道预测进行场景文本检测。CoRR，abs/1606.09002，2016。二、三、七[27] X.殷，W. Pei，J. Zhang，and H.浩基于自适应聚类的多方向场景文本检测。 PAMI ， 37 （ 9 ）： 1930-1937，2015. 7[28] X. 阴、X。Yin，K.Huang和H.浩自然场景图像中的鲁棒文本检测PAMI，36（5）：970-983，2014. 7[29] Z. Zhang，W.申角么，还有X。柏自然场景中基于对称性的文本行检测。CVPR，2015。二、三、八[30] Z. Zhang C.，中国古猿科Zhang，W.申角Yao，W.刘，和X。柏使用完全卷积网络的多方向文本检测。在CVPR，2016年。一、二、三、七、八

下载后可阅读完整内容，剩余1页未读，立即下载