没有合适的资源?快使用搜索试试~ 我知道了~
1基于级联实例感知分割的多尺度FCN任意方向词识别何大方1,肖扬2,陈亮1,周子涵1,Alex G Ororbia1,Daniel Kifer2,C.Lee Giles11宾夕法尼亚州立大学2计算机科学与技术,宾夕法尼亚州立大学摘要场景文本检测是近年来研究的热点。 文本潜在地存在于各种各样的图像或视频中,并且在理解场景中起着重要作用。 本文提出了一种新的文本检测算法,该算法由两个步骤组成:(1)提出了一种多尺度全卷积神经网络(FCN)来提取文本块区域;(2)设计了一种新颖的实例(单词或行)感知分割,以进一步去除假阳性并获得单词实例。该算法可以在任意方向上精确定位单词或文本行,包括许多其他框架无法处理的弯曲文本行。我们的算法在ICDAR 2013(IC13),ICDAR 2015(IC15)和CUTE80和街景文本(SVT)基准数据集上实现了最先进的性能1. 介绍从场景图像中读取文本有助于许多应用,如图像,视频索引和视障人士的阅读系统。因此,近年来受到越来越多的关注.然而,从场景图像中读取任意方向的文本行仍然是困难的,并且仅部分解决。如[41]所述,阅读多方向文本行比只考虑水平文本行要困难得多,阅读多方向甚至弯曲文本的能力在许多情况下都很重要然而,现有的面向多个方向的文本检测算法的性能与实际应用的这可以从ICDAR 2015竞赛的结果中看出[1]。场景文本检测的研究主要分为两类:(1)基于滑动窗口的文本检测方法[5,18,33],(2)基于区域提议的文本检测方法[5,18,33],(3)基于区域提议的文本检测方法[5,18,33],(4)基于区域提议的文本检测方法[5,18,33]。检测方法[25,7,13,14,10]。在早期阶段,基于滑动窗口的方法受到更多的关注。他们打-通常具有高的计算成本,因为不同尺度的窗口基于区域的提案生成方法由于其快速的提案生成速度和较高的提案召回率而受到越来越多的关注。卷积神经网络被证明在从图像中提取高级特征方面是有效的,也已被纳入场景文本检测[18,17,14,41,31,10]。CNN在提取高级特征表示方面的能力大大提高了准确性。结合区域建议和卷积神经网络的一些工作在水平或接近水平方向的文本定位方面取得了良好的性能[14,10]。它们通常遵循与生成一组提议相同的方案,然后对每个提议进行分类以获得潜在的个体字符。然后应用自底向上的分组算法将字符分组到文本行中.然而,这种方案有其内在的问题:(1) 它假设可以识别单个字符。(2) 只能检测到水平线。这是因为当考虑多方向文本行时,传统的分组算法很容易找到不正确的行。近年来,一些研究工作在场景文本检测方面取得了很大的突破。在[40]中,Zhang et al.提出了将FCN应用于场景文本检测,实现了多方位场景文本检测的突破Tian[31]采用了使用CNN来生成最初在[8]中提出的目标检测建议的想法。然而,它不能处理弯曲的文本行和接近垂直方向的文本行,因为它们使用启发式建议连接机制。本文提出了一种将FCN应用于场景文本检测的算法。该算法以级联的方式运行,可以处理真正的任意方向的文本。我们有两个级联级别。在整个图像层次上,我们采用多尺度的FCN来提取图像的代表性特征,并去除大部分负区域,35193520、、、、、、、图1.我们提出的系统已成功检测到的场景文本图2.我们提出的算法的流水线与演示的两个级别的级联。我们首先使用多尺度FCN提取文本块然后,对于每个提取的文本块,我们通过所提出的TL-CNN预测文本中心线。在提取所有文本行之后,我们使用IA-CNN来提取每个实例词。我们的管道可以提取任意方向的文本行。获取文本块。在文本块层次,我们设计了一个文本实例分割网络,从文本块中获取每个文本我们将具有挑战性的文本实例分割任务以级联的方式分为两个更容易的子任务[6]:(1)我们首先通过训练预测每个实例单词中心线的FCN来找到文本中心线(2)然后,我们从前面的输出中提取每个文本中心线(3)最后,将提取的文本行信息附加到文本块图像上,进一步分别提取每个文本行分割。只需要简单的低级处理,以实现实例级(单词或文本行)分割。图1显示了端到端结果的几个示例我们的管道,其中包含文本块FCN和单词实例分割,如图所示。二、更多的结果是在补充材料上。总之,我们的贡献如下:1. 我们设计了一个独特的, 基于实例用于获取词实例的模型。我们将实例分割的任务分解为更容易的任务,从而在级联方式中分离单词实例时实现了良好的性能。文本实例分割模型相对于传统方法(包括基于提议网的方法)具有若干优点:(1)方向不变(2)即使在字符连接时也能够找到文本实例(3)能够分离彼此接近或甚至接触的文本行。文本实例的获取对于端到端的文本阅读也是至关重要的,因为当前的场景文本阅读方法只能读取单个单词或行。该算法作为设计场景文本检测实例分割模型的第一次尝试,具有一定的研究价值。2. 提出了一种多尺度FCN模型用于场景文本块检测。它可以帮助识别具有大规模差异的文本块区域,并且还可以为每个预测组合更多的上下文信息文本块FCN旨在通过提取多尺度特征表示来去除大多数假阳性区域。它是级联框架的第一步。3. 我们对几个基准数据集进行了全面的评估,包括具有挑战性的IC15和基于CUTE80的曲线文本。结果表明,我们的模型达到国家的最先进的性能。我们以下列方式组织其余章节:我们首先简要介绍了相关的工作在第二节。2. 节中3、提出了多尺度、共享网络的FCN模型。节中4、描述了我们的分词模型。实验和结论在第二节中给出5,Sec. 6,分别。2. 相关工作场景文本检测是一项具有挑战性的任务。 它在几个关键方面不同于传统的对象检测:(1)图像中的文本在其尺度方面变化很大。即使是非常小的文本行也有望被检测到。(2)文本行或3521期望提取单词而不是单个字符。在传统方法中,这通常意味着将字符分组到文本行中的进一步步骤。(3)单个字符的特征通常不足以将其与一些背景噪声区分例如,来自单个字符“I”的特征不能很好地与垂直砖的特征区分开。[10]也有类似的说法。这三个属性使得场景文本检测成为一个独特的问题。在场景文本检测的早期作品中[5,18,33],重新搜索者主要集中于使用基于滑动窗口的方法。这样的方法通常在计算中效率不高。后来,基于区域建议的方 法 , 其 中 , 极 端 区 域 ( ER ) 或 最 大 极 端 区 域(MSER)占主导地位,引起了极大的关注[25,7,13,14,10]。它们在计算上是高效的,并且还实现了高召回率。然而,基于区域建议的方法往往失败时,字符连接或笔画分离。此外,将单个字母分类为文本或不分类是错误修剪. 许多类似于笔画的背景噪音很难被识别。被删除.这些误报也导致检测多方向场景文本的极端困难。多方向文本检测也已经在几个作品中提出[36,35,34,41]。它们大多遵循与传统方法类似的方案,将字符组件分组到文本行中。他们遭受了上述同样的问题,无法在具有挑战性的图像中实现高性能。除了这些方法外,第三代[16,9]也取得了很大的进展,并推动了基于深度学习的场景文本检测模型。在本文中,我们还使用了[9]中提出的合成数据集,该数据集包含80万个合成图像,这些图像完全用文本边界框标记。合成图像上的文本遵循其背景的透视变换,因而更加真实。这项工作与张在el. [41个]因为我们都使用FCN并将检测问题视为分割问题。然而,我们在几个关键方面与他们不同,这使得我们的算法更加强大和通用:(1)本文设计了一种新的实例分割方案,取代了传统的建议和低水平的行方向估计。我们不对每个文本块中的文本方向做任何假设,只需要几个低级别的处理步骤。我们的模型可以处理任意方向的文本行,包括弯曲的文本行,不能处理张的方法。(2)我们使用一个多尺度,共享网络的FCN捕获更大的上下文信息和文本的尺度变化,这导致更好的文本块检测结果。我们的工作也属于文本检测的级联方法[12,43]。我们提出了两级cas-cad解决方案的任务是新颖的和强大的。图3. 我们的多尺度FCN的架构。输入被下采样到输入图像尺度的0.5和0.25。通过联合考虑三个尺度的特征进行预测。卷积部分的参数在所有三个分支之间共享。3. 多尺度、共享网络FCN3.1. 设计原理完全卷积神经网络(FCN)最初在[23]中提出用于场景标记,最近已被[41]用于场景文本检测。需要仔细考虑的一个问题是对象的规模,并且已经提出了几种变体来解决问题[22,37]。在[41]中,Zhang et al.尝试使用具有跳网模型的单分支FCN来捕获图像中的多尺度信息。然而,仍然存在疑问的是,在其相对于图像的大小方面可能变化很大的文本可以在没有更大的上下文信息的情况下被很好地捕获在IC15训练集中,我们计算文本行的相对比例,它被定义为其定向边界框的较短长度除以图像的高度。相对标度可在0.005至0.78之间变化。这意味着一个强大的算法应该能够捕获各种尺度的文本。如果我们假设测试中的输入图像具有500像素的高度。然后,文本行的高度可以从5(0. 01×500)至160(0. 32×500)。我们认为,一个单一的FCN是不足以准确地捕捉如此大的文本差异。除了尺度问题外,背景上下文可以有效地提高场景文本定位的精度。[10,42]中提出了类似的想法,其中将背景纳入了区域提案框架。在这里,我们有相同的假设,并声称这也是有帮助的FCN为基础的场景文本检测方法,并将提高性能的像素标记问题。3522图4. 多尺度、共享网络的FCN与单分支FCN的比较。左:输入图像。中:单分支FCN。右:共享网络,多尺度FCN。基于以上两点,我们设计了一个多尺度、共享网络的FCN,它具有更大的感受野,可以捕获更多有用的上下文信息。它提高了文本块检测的性能。3.2. 架构我们模型的架构如图3所示。有三个分支具有共享的卷积参数。在两个解池层[3]之后,编码的信息被合并以产生最终结果。对于最终输出中的每个预测,它是来自所有三个分支的联合预测。通过联合预测,它可以捕获更大的上下文信息,并给出更准确的预测。在图4中,我们展示了与单分支FCN相比,我们的FCN模型我们可以看到,更大的上下文有助于消除误报和获得更好的文本响应。3.3. 每标度损失的训练我们通过随机缩放和旋转来增强IC13,IC15训练集和[9]的合成数据集。所有这些数据都用于训练我们的FCN模型。请注意,训练数据包含尺度变化很大的文本这是为了模拟我们在测试中可能遇到的情况。训练多规模、共享网络的FCN比训练单个FCN相对更难。我们遵循几个作品[21,19,4],这些作品使用每尺度损失,这可以使来自多个尺度的学习特征更具鉴别力,从而加速训练并提高性能。损失函数如公式1所示。ΣP-NLL(θ,D)= −logP(Y = y k|x k,θ)+K图5. 我们的实例分割模型的结果。它可以在各种情况下以任意方向捕获单词或文本行实例。分割结果可以直接阈值化得到最终的边界框。然后逐渐减小它们的值并集中于联合预测的训练。4. 级联文本实例分割给定一个文本块,其中可能包含多个相邻的单词实例,我们专门设计了一个实例分割模型来分割每个单词实例。实例分割在计算机视觉领域引起了越来越多的关注[20,27,39,6]。这是一个比语义分割更困难的任务,因为它必须分离出同一个类的不同实例。在场景文本检测中,我们定义一个实例为一个单词或一个文本行,这是不可分离的纯视觉。这里,输入是从文本块FCN获得的裁剪文本块图像,它可能包含几行或几个单词,我们提出了两个级联网络来解决这个问题:文本线CNN(TL-CNN)和实例感知CNN(IA-CNN)。TL-CNN产生对应于每个文本行中心的分割。IA-CNN通过将输入作为文本中心线之一,在该文本行实例上生成分割掩码。这一步是至关重要的,不仅用于检测性能的评估,而且用于将文本识别组合到端到端系统中,因为识别的输入通常是单个单词或文本行。除了分解每个文本块的能力之外,该组件还用作去除误报的进一步步骤。两个子网都能够进一步去除一些负面检测。从文本块图像中提取实例的一些ΣMΣ-αi ×(l logP(Y=yj|xj,θ))(一)可见于图五、我我i=1jM代表我们使用的尺度数。αi表示第i个刻度的重量。xj、yj分别表示输出和地面实况。我们将αi初始化为更大,以便学习每个尺度的区分特征我们4.1. 架构实例分割网络的架构如图所示。六、除了第一个卷积层和所有全卷积层之外,有两个分支具有共享的CNN参数。左边的分支是TL-CNN。网络已3523图6.TL-CNN和IA-CNN的架构可视化(左)和细节(右)TL-CNN(左分支)用于产生实例级单词中心线。IA-CNN(右分支)用于对每个单词实例进行一次分割。它们的输入具有不同数量的通道,因为IA-CNN需要4通道张量。为了简单起见,我们忽略了ReLU层和批量归一化[15]训练嵌入“实例”信息,因为它必须找出每个单词的中心在哪里。这里我们只考虑超过2个字符的单词实例,因为它们更容易区分。然而,我们没有给出一个去除检测到的少于3个组件的文本行的硬阈值[41],而是让网络学习对应于单词实例的特征我们假设,这种实例感知功能是互补的功能,例如,由以前的文本块FCN。从文本块FCN中提取的特征更像传统的“文本”特征。这些特征只捕获给定区域是否看起来像文本,但没有嵌入实例信息,因此可能会被一些背景噪声误导。图8,我们展示了几个例子,文本块FCN很容易预测为阳性,但被TL-CNN拒绝。右分支是实例感知分割(IA-CNN)分支,其输入是具有大小的4通道张量。4×h×w。h和w分别对应于输入文本块图像的高度和宽度。对于输入张量,前3个通道是文本的R、G、B通道块图像。第四个通道是文本中心线通道,对应于我们希望网络分割的实例。联合起来,我们可以以级联的方式使用两个网络产生实例级分割。4.2. 管道所提出的实例分割的流水线如图所示。7.第一次会议。它将实例分割的硬任务分解为级联任务。给定从通过对文本块FCN输出进行阈值化而生成的原始图像裁剪的文本块B。我们通过TL-CNN生成概率图BL。BL中的每个像素pl表示其是否属于一个文本实例的中心线的概率。一旦获得输出,我们只需对输出进行图8. 文本块FCN可能无法删除的图像示例。相反,我们的TL-CNN可以删除它们。为了节省空间,我们只显示第一张图像的TL-CNN输出图其他人的输出是类似的(完全黑色)。我们不能从中提取文本行,因此可以删除它们。其中T是基于稍后将讨论的评估来选择的,并且进行形态学闭合操作,随后对其进行连接分量分析。我们提取每个分量C并进行以下操作:(1)丢弃高度和宽度小于文本块的高度和宽度的0.1的那些分量,因此,(2)丢弃从其提取的文本行到定向文本块边界框的总覆盖小于0.6的文本块对得到的文本行连通分量Cs进行分离,得到一系列文本行图像Ils,每幅图像Ils具有-128值背景和128值对应的文本行。该通道与原始文本块一起填充到4通道张量中。然后这个张量将被用作IA-CNN分支的输入输出是对应于输入文本中心线图像的单个文本行实例分割Ii请注意,当两个提取的实例具有高度重叠时,我们需要将它们的并集作为后处理步骤。即使很少,当TL-CNN在一个实例中输出两条断开的线路在这种情况下,我们的管道将提取两条文本中心线并生成两个实例。然而,所提出的IA-CNN分段将知道它们实际上指向相同的实例,并且输出将具有高重叠。这可以被视为IA-CNN部分中的错误处理方式,稍后将讨论 在我们完成合并这样的实例之后,我们简单地将每个实例分割概率图I i的阈值设为0.5以获得边界框。图5显示了更多的结果。在测试中,对于每个裁剪的图像块,我们将其较大的尺寸调整为100到150像素的范围选择该范围有两个原因:(1)图像尺寸过小会导致文本行实例不清晰,难以分离。(2)我们的FCN用VGG- 16初始化,具有大于200的感受野。因此,对于输出中的每个像素,它都有决定“在哪里”所需的所有上下文3524图7. 我们的实例分割方法。它试图将实例分割的困难任务分解为更容易的子任务。首先,我们使用TL-CNN生成文本中心线标记。然后,我们简单地从概率图中分解一组文本行。这些文本行中的每一行都将与原始输入图像一起生成IA-CNN的输入。然后,我们可以产生一个准确的实例分割的每一个文本行与任意方向。一个例子是”。这对于TL-CNN找到每个文本行并给出良好的预测至关重要。4.3. 优化在训练中,我们使用一个简单的迭代方案,在训练TL-CNN 和 训 练 IA-CNN 之 间 进 行 迭 代 。 对 于 TL-CNN,所有卷积层都使用VGG-16模型初始化[3]。对于IA-CNN,共享的CNN部分也使用VGG-16模型初始化。所有其他层初始化为零均值和标准差0.1,高斯分布。两个分支的输入均归一化为零均值。输入值的范围为-128到128。127.在优化中,我们迭代地优化损失函数2。Σ而不是完美。可能存在线宽的差异,并且预测的线可能没有很好地居中。线的两个端点可能与两侧的中心有小的偏移为了使模型具有鲁棒性,我们在训练数据中随机添加噪声。具体来说,我们随机改变线宽,以及每条线的两个端点的位置在一定的约束条件下,我们可以获得噪声训练样本,并使模型在测试中更强大。图9说明了我们如何创建噪声训练样本。在插图图像中,L2表示沿定向词框的短边从p1到q1的偏移,L1表示沿长边从p1到q1L1和L2的长度以及文本中心线的宽度W在下面的等式中定义。从p2到q2的偏移量也以同样的方式处理NLL(θ1,θ2,D)=−α×llogP(Y=yj|xj,θ1)−JΣ(二)从p1到q1。通过对训练集进行这种随机化,我们可以训练出一个更健壮的模型。几个培训前-(1−α)×logP(Y = yi|x1,θ2)我图10中示出了示例。请注意,我们也随机在文本块的背景区域上的样本负文本中心对于这些文本中心线,在等式中,α控制网络正在接受训练它只能等于0或1。xi、yi分别表示预测和地面实况。注意,θ1和θ2的一部分是共用的。当两个分支的损失变得稳定时,我们开始以相同的迭代方式微调具有较小学习率的共享卷积部分4.4.实例感知分段错误处理是实例感知分段网络获得鲁棒性能的重要组成部分。这是因为在预测中,提取的文本行可以响应地面实况是所有背景标签的掩码。训练集来自合成文本blcok数据集,也来自[9]。行信息也可以被看作是一个提示,告诉网络在哪里找到实例,因此它不需要是完美的5. 实验5.1. 弯曲文本弯曲文本通常会在场景文本检测中造成很多麻烦[41],并且许多作品没有考虑弯曲文本,因为它们假设文本行是直的。3525图9. 为IA-CNN网络创建噪声训练集的说明。单词的边界框是为了说明的目的。长度1和长度2分别是单词补丁的长边和短边的长度。P1、P2和相应的绿线表示地面实况中心线。q1、q2和相应的红线表示偏移的噪声线。L1和L2分别是沿长边和短边从p1到q1的偏移量。图10. 在上面的两行中,我们展示了一些用于实例感知分割的噪声训练数据的示例。输入行图像在图像中显示为与单词交叉的黑线。在这里,我们只显示一个实例行每个图像的说明目的。在最后两行中,我们展示了一些示例,证明了增强噪声训练数据的有效性。从左至右:输入文本块图像,使用高质量数据训练模型的实例结果,使用噪声数据训练模型的实例结果。有关此类错误处理的更多结果请参见补充材料。然而,标志或徽标中的许多文本都是弯曲的,阅读弯曲文本的能力非常重要,将有助于许多应用。我们的模型可以通过TL-CNN和IA-CNN的联合力量有效地捕获弯曲文本在图11中,我们展示了CUTE80数据集上的一些弯曲文本测试结果[26]。图11. 我们的实例分割模型在几个弯曲文本块上的结果。我们可以从很多不同的场景中准确地捕捉弯曲的文本。从左至右:(1)输入图像。(2)(3)对这些曲线数据的实例我们可以看到,即使在极端曲率下,我们的模型也可以成功地估计文本中心线,并进一步推断出每个文本行的实例掩码。另一个令人惊讶的事实是,我们我们假设这是因为模型学习了实例线的内在表示,而不依赖于它是否是直的。5.2. 实例分割的评价为了评估TL-CNN和下面的IA-CNN模块的性能,我们从IC 13和IC 15训练集中收集了1500张裁剪的它们包含每个图像中1-5行的文本块。请注意,这种评估是有意义的,因为两个网络的训练数据是合成图像,因此这些公共训练集被用作验证目的。图图12显示了查准率和查全率曲线。我们可以看到,T的选择对性能的影响很小。该评估基于[24]中的度量。请注意,这种评估框架人为地降低了召回率。我们发现,相对较低的召回率通常是由于我们的模型通常预测一行作为一个实例,当有较少的视觉提示来区分每个单词时。这对端到端性能的影响很小,因为当前最先进的识别模型[11]可以直接读取一行,因此不会损害端到端场景35260.980.960.940.920.900.880.860.84图12.精确召回率 F-测度方法精确度(红色)和召回率(绿色)曲线与1300随机裁剪文本块图像上T0.820.800.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.951.00不来自IC13、IC15训练集表2.ICDAR 2015数据集的本地化性能(%)粗体数字优于其他方法。有些方法没有引用。方法精度召回F-measure诺伊曼[25]7365695.5.街景文本和CUTE80Shi[29]836372SVT数据集[32]包含从街景拍摄的图像Baiet[2]796873CUTE80数据集[26]包含弯曲的文本[38]第三十八话867077形状它们代表了场景文本Tian[30]857680检测,也是高度面向应用的。 两张[40]887480数据集存在未完全注释的问题。[41]第四十一话897883所以这里我们只评估我们的方法在两个田[31]938388数据集。结果示于表3中。我们的模型937985表1.ICDAR 2013数据集的本地化性能(%)粗体数字优于其他方法。文本阅读。我们使用0.85作为进一步的T评估。我们在四个广泛使用的基准数据集上彻底评估了我们的算法:IC 13-聚焦文本检测,IC 15-场景文本检测,CUTE 80和SVT。我们选择他们基于两个标准:它们被广泛地用于评估和比较,或者对实际应用感兴趣。我们分别给出了每个数据集的简要描述和性能5.3. ICDAR 2013ICDAR 2013数据集可能是使用最广泛的数据集。它包含251个测试图像,除了所有文本行都是水平或接近水平之外,这些图像具有各种各样的多样性。我们通过将结果提交到IC-DAR系统中进行评估 评价方案基于[24]。结果如表1所示。5.4. ICDAR 2015ICDAR 2015数据集是一个相对较新发布的数据集,包含500张测试图像。它们是用手机拍摄的,所以运动模糊在数据集中很常见。它的文本具有任意性取向,对场景文本检测算法提出了很大的挑战。请注意,为了去除检测到的中文,我们进一步对提取的单词补丁运行二进制英语文本非文本分类器以去除一些误报。我们还在ICDAR系统中评估了我们的算法,结果如表2所示。请注意,有些结果来自ICDAR网站,因此还没有参考表3. SVT(左)和CUTE80(右)数据集上的文本定位评价(%)。我们只在这些数据集上评估召回率,因为它们只是部分注释。5.6. 限制该算法可以处理文本检测在许多不同的和具有挑战性的场景。然而,在某些情况下,我们目前的框架将失败。图第13章失败的结果极低的对比度,太模糊的文本或文本行与分散的字符将导致问题,在我们的框架。图13. 我们的算法无法正确检测的示例图像。蓝色矩形意味着我们无法本地化文本。6. 结论本文提出了一种新的场景文本检测算法。我们将多尺度FCN与一种新颖的级联式实例分割相结合,用于端到端场景文本检测,并在基准数据集中取得了最先进的结果。我们证明了实例分割,这是越来越多的关注,在计算机视觉社区,也是有助于端到端的文本阅读系统。精度召回查准率/查全率方法召回Tan[31]60他[10]56[26]第二十六话68我们的模型73华中科技443841StradVision1534650StradVision2773750[41]第四十一话714354田[31]745261我们的模型765463方法召回亚德尔伯格[17]71他[10]75我们的模型7835277. 确认这项工作得到了NSF基金CCF 1317560和NVIDIA硬件基金的支持。引用[1] ICDAR 健 全 的 阅 读 比 赛 。 http : //rrc.cvc.uab.es/网站。[2] B. Bai,F. Yin和C. L.刘某基于梯度局部相关的场景文本定位。在文献分析和识别(ICDAR),国际会议上,第1380- 1384页IEEE,2013。[3] K. Chatfield,K. Simonyan、A. Vedaldi和A.齐瑟曼。魔鬼的回归细节:深入研究卷积网。在2014年英国机器视觉会议[4] L- C. Chen,Y. Yang,J. Wang,W. Xu和A. L.尤尔。注意秤:尺度感知的语义图像分割。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,2016年6月。[5] X. Chen和A. L.尤尔。在自然场景中检测和读取文本。在计算机视觉和模式识别,CVPR。 IEEE计算机协会会议录,第2卷,第II-366页。IEEE,2004年。[6] J. Dai,K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,2016年6月。[7] B. Epshtein,E.Ofek和Y.韦克斯勒基于笔画宽度变换的自然 场景 中文 字检 测在 计算 机视 觉和 模式 识别 ,CVPR。IEEE计算机协会会议论文集,第2963-2970页。IEEE,2010。[8] R.娘娘腔。快速R-CNN。IEEE国际计算机视觉会议,第1440-1448页,2015年[9] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定 位的 合成 数据 。在 计算 机视 觉和 模式 识别 ,CVPR。IEEE计算机协会会议论文集,2016年6月。[10] D.他,X。杨,Z. Zhou,等,中国藓类D. Kifer和L.贾尔斯聚合- ING准确的场景文本检测本地上下文。在亚洲计算机视觉会议上,第91-105页[11] P. He,W. Huang,Y.黄氏Y.乔C. Loy和X.唐读取深度卷积序列中的场景文本在AAAI人工智能会议上。2016年。[12] T.他,W。Huang,Y.黄氏Y. Qiao和J.耀使用级联卷积文本网络在自然图像中精确定位文本。arXiv预印本arXiv:1603.09423,2016年。[13] W. Huang,Z.Lin,J.Yang和J.王. 使用笔划特征变换和文本协方差描述符的自然图像文本定位在IEEE计算机视觉国际会议论文集,第1241-1248页[14] W. Huang,Y.黄氏Y.乔和X.唐基于卷积神经网络的多树文本检测算法。第11届欧洲计算机视觉,第497-511页。Springer,2014.[15] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移 来 加 速 深 度 网 络 训 练 。 arXiv 预 印 本 arXiv :1502.03167,2015。[16] M. jaderberg,K. Simonyan、A. Vedaldi和A.齐瑟曼。合成数据和人工神经网络用于自然场景文本识别。arXiv预印本arXiv:1406.2227,2014。[17] M. Jaderberg,K. Simonyan、A. Vedaldi和A.齐塞-曼。用卷积神经网络在野外阅读文本。International Journalof Computer Vision,116(1):1[18] M. Jaderberg,A. Vedaldi和A.齐瑟曼。文本定位的深层功能。第11届欧洲计算机视觉集,第512Springer,2014.[19] C.- Y. 李,S。Xie,山核桃P.Gallagher,Z.zhang和Z.涂。深层监控网。在AISTATS,第2卷,第6页,2015中。[20] K. 李湾,澳-地Hariharan和J.马利克迭代实例分割。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,2016年6月。[21] X. Liang,Y. Wei,X.沈军,杨立. Lin和S.燕.用于实例级 对 象 分 割 的 无 建 议 网 络 。 arXiv 预 印 本 arXiv :1509.02636,2015年。[22] W. Liu , 中 国 粘 蝇 A. Rabinovich 和 A. C. 伯 格 。Parsenet:看得更宽,看得更好。arXiv预印本arXiv:1506.04579,2015。[23] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,第3431-3440页,2015年。[24] S. M. Lucas,A.帕纳雷托斯湖Sosa、A.Tang,S.黄,以及R. 年轻 2003年全 民阅 读比赛 。在 文档 分析 和识别(ICDAR),国际会议上,第682页。IEEE,2003年。[25] L. Neumann和J.马塔斯实时场景文本定位与识别。在计算机视觉和模式识别,CVPR。 IEEE计算机协会会议录,第3538-3545页。IEEE,2012。[26] A. 里斯努马万山口希瓦库马拉角S. Chan和C.L. Tan.一个 鲁 棒 的 自 然 场 景 图 像 任 意 文 本 检 测 系 统 .ExpertSystems with Applications,41(18):8027[27] B. Romera-Paredes和P. H.乇循环实例分段。arXiv预印本arXiv:1511.08250,2015年。[28] B. Shi,X. Wang,P. Lyu,C.么,还有X。柏具有自动校正功能的鲁棒场景文本识别。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition中,第4168-4176页[29] C.施角,澳-地王湾,澳-地肖氏Y. Zhang和S.高.基于最大 稳 定 极 值 区 域 的 图 模 型 场 景 文 本 检 测 Patternrecognition letters,34(2):107[30] S.田氏Y.潘角,澳-地Huang,S. Lu,K. Yu和C.林丹文本流:自然场景图像中的统一文本检测系统。IEEEInternational Conference on Computer Vision , 第 4651-4659页,2015年[31] Z. 田,W.Huang,T.他,P。他和Y。乔基于连接主义文本建议网络的自然图像文本检测第11届欧洲计算机视觉,第56-72页。施普林格,2016年。3528[32] K. Wang和S.贝隆吉在野外发现单词。第11届欧洲计算机视觉,第591-604页。Springer-Verlag,2010.[33] T. Wang,中国山杨D.J. Wu,中国茶条A.Coates和A.Y.Ng. 使用卷积神经网络进行端到端模式识别(ICPR),2012 年 第 21 届 国 际 会 议 , 第 3304-3308 页 。 IEEE ,2012。[34] C. Yao、X. Bai和W.刘某一个面向多个方向的文本检测与 识 别 的 统 一 框 架 。 IEEE Transactions on ImageProcessing,23(11):4737[35] C. Yao、X. Bai,W. Liu,Y.妈,还有Z。涂。在自然图像中检测任意方向的文本。在计算机视觉和模式识别,CVPR。IEEE计算机学会会议论文集,第1083-1090页。IEEE,2012。[36] X.- C.尹,W.- Y. Pei,J. Zhang和H.- W.浩自适应聚类的多 方 向 场 景 文 本 检 测 。 IEEE transactions on patternanalysis and machine intelligence,37(9):1930[37] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。ICLR 2016,2016.[38] A. 赞贝莱蒂湖诺斯和我加洛基于快速特征金字塔和多分辨率最大稳定极值区域的文本定位在计算机视觉-ACCV 2014工作室,第91-105页Springer,2014.[39] Z. Zhang,S. Fidler和R.乌塔松具有深度密集连接mrfs的自动驾驶实例级分割。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,2016年6月。[40] Z. Zhang,W.申角么,还有X。柏自然场景中基于对称性的文本行检测 在计算机视觉和模式识别中,CVPR。IEEE计算机协会会议论文集,2015年6月。[41] Z. Zhang C.,中国古猿科Zhang,W.申角Yao,W.刘,和X。柏使用完全卷积网络的多方向文本检测。在计算机视觉和模式识别,CVPR。IEEE计算机协会会议论文集,2016年6月。[42] A. 朱河,巴西-地Gao和S.内田场景上下文是否有利于场景文本检测?Pattern Recognition,58:204[43] S. Zhu和R. Zanibbi一个基于卷积特征学习和级联分类的自然场景文本检测系统。在IEEE计算机视觉和模式识别会议论文集,第625-632页,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功