没有合适的资源?快使用搜索试试~ 我知道了~
1305任意形状文本检测的自适应边界建议网络张世学1,朱晓斌1,杨春1,王宏发3,尹旭成1,2,41北京科技大学计算机与通信工程学院2科大讯飞人工智能联合实验室3腾讯科技(深圳)有限公司北京科技大学人工智能研究所zhangshixue111@163.com,{zhuxiaobin,chunyang,xuchengyin}@ ustb.edu.cn,hongfawang@tencent.com摘要由于场景文本的高度复杂性和多样性,任意形状的文本检测是一项具有挑战性的任务。在这项工作中,我们提出了一种新的自适应边界建议网络工作的任意形状的文本检测,它可以学习直接产生准确的边界为任意形状的文本没有任何后处理。该方法主要由边界建议模型和一种新的自适应边界变形模型组成。采用多层扩张卷积构造的边界建议模型产生先验信息(包括分类图、距离场和方向场)和粗边界建议。自适应边界变形模型是一个编解码器网络,其中编码器主要由图卷积网络(GCN)和递归神经网络(RNN)组成。它的目的是在边界建议模型的先验信息的指导下,以迭代的方式进行边界变形,以获得文本实例的形状。通过这种方式,我们的方法可以直接,有效地生成准确的文本边界,而无需复杂的后处理。公开可用的数据集上的大量实验证明了我们的方法的最先进的 性 能 。 代 码 可 在 网 站 上 获 得 :https://github.com/GXYM/TextBPN。1. 介绍场景文本检测已经广泛应用于在线教育、产品搜索、视频场景解析等领域。得益于深度学习的快速近年来,任意形状文本检测因其能够很好地适应实际应用而受到越来越多的关注。尽管任意形状文本检测方法[2,12,*通讯作者。图1.边界提议变形过程的图示:(a)边界提议;(b)在边界上采样;(c)提取节点特征矩阵;(d)通过自适应边界变形模型学习采样顶点的偏移41]近年来已经取得了很大的进步,但由于场景文本具有挑战性的特点,包括多变的形状,纹理,尺度等,仍然有许多问题需要解决。基于分割的方法[37,33,12]已经引发了任意形状文本检测的新浪潮,其通过像素级预测来定位文本区域以增强对形状变化的鲁棒性。然而,仍有两个主要问题有待探讨。一个问题是,基于分割的方法往往在分离图像中的相邻文本实例时失败。为了解决这个问题,现有的方法[19,34,30,40]通常将注释边界收缩为内核(例如,文本中心[34],文本中心区域[19])来区分不同的文本实例。为了重建一个完整的文本,这些方法通常需要通过预定义的扩展规则或辅助信息(例如,相似性向量[34])。然而,[37,33]中的合并过程总是通过像素到像素来执行,这是复杂且低效的。另一个问题是,现有的基于分割的方法,最终检测到的文本轮廓通常包含大量的缺陷和噪声。这是因为现有的基于分割的方法[4,12,33,34]的性能在很大程度上依赖于轮廓检测的准确性,忽略了自适应地调整检测到的轮廓。与一般对象实例不同,文本实例通常1306粗粒度边界注释中的大量背景噪声像素。这将产生不可预测的像素结果,尤其是边界附近的像素,导致分割结果中的噪声和缺陷。为了解决上述问题,我们提出了一种用于任意形状文本检测的自适应边界建议网络,该网络可以学习直接为任意形状文本产生准确的边界,而无需任何后处理。自适应边界建议网络主要由边界建议模型和自适应边界变形模型组成。边界预测模型由多层扩张卷积组成,其将基于共享卷积预测分类图、距离场和方向场。受RPN [25]的启发,我们采用距离场和像素分类图来生成粗略的边界建议,如图所示。第1(a)段。这些粗糙的边界提议-ALS可以粗略地定位文本,并且很好地分离相邻的文本,因为在我们的方法中,它们总是比它们的绑定注释更细。为了细化粗糙的建议,我们采用了一种创新的自适应边界变形模型,执行迭代边界变形的先验信息(分类图,距离场和方向场)的指导下,生成准确的文本实例形状。为了充分挖掘和利用每个边界建议中的拓扑和序列上下文,自适应边界变形模型采用编码器-解码器结构,其中编码器主要由GCN和RNN(B-LSTM)组成。值得注意的是,所提出的方法是具有迭代优化的统一的端到端可训练框架大量的实验表明,我们的方法在几个公开可用的数据集上实现了最先进的性能。总之,本文的主要贡献有三个方面:我们提出了一个新的统一的端到端可训练框架的任意形状文本检测,它可以直接生成精确的边界的任意形状文本,而无需任何后期处理。我们提出了一种自适应的边界变形模型,它可以执行迭代的边界变形来细化文本边界。在公共数据集上的大量实验证明了我们方法的最新性能。2. 相关工作基于回归的方法这种类型的方法依赖于具有单词级和行级先验知识的基于盒回归的对象检测框架[22,10,13,42,40,8]。与一般对象不同,文本通常以具有各种纵横比的不规则形状到在处理这个问题时,RRPN [22]和Textboxes++ [10]通过预测锚点的偏移来定位文本框。与这些通过在预定义锚点上实现细化来定位文本区域的方法不同,EAST[42]和DDR [7]直接回归从边界或顶点到当前点的偏移,虽然基于回归的方法在四边形文本检测中取得了很好的效果,但它们往往基于CC的方法。基于连通分量(CC)的方法[39,26,5,2,41]通常首先检测单个文本部分或字符,然后是用于生成最终文本的链接或组后处理过程。CRAFT [2]通过探索字符之间的亲和力来检测文本区域TextDragon [5]首先检测文本的局部区域,然后根据它们的几何关系将它们分组。Zhang等人[41]使用图卷积神经网络(GCN)来学习和推断文本组件的链接关系,从而对文本组件进行分组。虽然基于CC的方法具有更灵活的表示,可以很好地适应不规则形状的文本,但用于将文本组件分组以完成文本的复杂的后处理总是耗时且不令人满意。基于分割的方法。这种类型的方法[33,37,34,12,20]主要从语义分割方法中汲取灵感,并通过估计单词边界区域来检测文本。为了有效地区分相邻文本,PSENet [33]采用渐进缩放算法来逐步扩展预定义的内核。在[34]中,Wanget al.提出了一种高效的任意形状文本检测器,命名为像素聚合网络(PAN),它配备了一个低计算成本的分割头和可学习的后处理。DB [12]在分割网络中执行自适应二值化过程,这简化了后处理并提高了检测性能。然而,这些方法的性能受到分割精度的质量的强烈影响。基于轮廓的方法。除了上述方法之外,基于轮廓的方法也吸引了许多研究者[21,35,32,36]。Yao等人[21]通过预测文本的角来检测文本,以及Lyuet al. [35]采用了与SSD [16]类似的架构,并使用预测的角点重建文本。Wang等人[32]提出了一种端到端的任意形状文本识别方法,该方法提出了一种边界点检测网络来定位文本建议区域中的文本边界。Contour-Net [36]用一组轮廓点表示文本区域,它采用局部正交纹理感知模块(LOTM)在两个正交方向上对建议特征的局部纹理信息进行建模,以生成轮廓点。然而,与基于分割的方法相比,基于轮廓的方法在没有识别信息的情况下,在检测性能和速度上都有很大的差距。···1307V..pV/∈其中−B−→p表示B之间的距离图2.我们方法的框架我们的网络主要由共享卷积,边界建议模型,和自适应边界变形模型,这是一个统一的端到端可训练的迭代优化框架。3. 该方法3.1. 概述我们的方法的框架如图所示二、采用ResNet-50 [6]提取特征。为了保持空间分辨率并充分利用多级信息 ,我 们 采用 了多 级 特征 融 合策 略 (类 似于 FPN[14]),如图所示3.第三章。由多层扩张卷积组成的边界提议模型使用共享特征进行文本像素分类,生成距离场和方向场[37]。然后,我们使用这些信息来产生粗略的边界建议。每个边界建议由N个点组成,代表一个可能的文本实例。为了细化粗糙的文本边界,提出了一种自适应边界变形模型,在先验信息(分类图、距离场和距离场)的指导下进行迭代边界变形,以获得更精确的文本边界安装字段)。3.2. 自适应边界建议网络3.2.1边界建议生成边界建议模型由多层膨胀卷积组成,包括两个不同膨胀率的3×3卷积层和一个1×1卷积层,图3.共享卷积的体系结构,FS表示共享特征,并且FP表示先验信息(分类图、距离场和方向场)。测试文本边界上的像素B p,如图所示。5.然后,从文本像素p指向Bp的二维单位向量gt(p)可以公式化为:−B−→pp/. −B→pp。、p∈T如图2. 它将使用提取从骨干网生成分类图,距离场图和方向场图。类似于其他文本检测方法[42,19,41],Vgt(p)=..(0,0),p/∈Tp(一)和文本分类图包含每个像素(文本/非文本)的分类置信度。如在[37,31]中,方向场图(V)由二维单位向量(-x,-y)组成,其指示边界中的每个文本像素到其边界上的最近像素的方向对于文本实例T内的每个像素p,我们将找到其附近的像素P和T表示像素P中的文本实例的总集合。一个形象对于非文本区域(pT),我们用(0,0)表示这些像素。单位向量gt(p)不仅直接编码p在T中的近似相对位置并突出显示相邻文本实例之间的边界[37],而且还提供方向指示信息。1308DDD/∈图4.边界建议生成的图示。相邻文本实例之间的距离,而且还提供了用于边界变形的相对距离信息。使用距离场图(),我们可以通过使用预测距离的固定阈值(th d)来生成候选边界建议,如图所示。第4(b)段。然而,这些候选边界建议不可避免地包含错误检测。因此,我们根据分类图计算每个候选边界提议的平均置信度,以去除其中一些具有低置信度(th s)的候选边界提议,如图1B所示。第4条(c)和(d)款。图5.边界提议模型的地面真值的图示,并且(e)和(f)中的单位向量t或(→x,→y)是(c)中方向场的向量表示边界变形的信息。对于边界变形,相对位置距离信息与方向信息同样重要。在这项工作中,距离场图()是归一化的距离图,并且文本像素p到文本边界上最近的像素Bp的归一化距离被定义为: 没关系−B−→pp。/L,p∈T3.2.2自适应边界变形受对象分割方法[1,15]和实例分割方法[23]的交互式注释的启发,我们通过变形来执行任意形状的文本检测一个更精确的文本边界的边界建议。具体而言,我们将边界作为输入的基础上CNN特征,并预测指向文本边界的每顶点偏移。在[1]中,作者使用递归神经网络来对描绘对象的多边形的2D顶点的序列进行建模。之后,他们提出了一种方法[15],将每个控制点的位置视为连续随机变量,并学习通过将图像证据作为输入的图神经网络来预测这些变量。受[1,15]的启发,DeepSnake [23]通过将初始轮廓变形为对象边界来执行对象分割。Dgt(p)=0,p/∈T(二)ary与循环卷积,它由具有1×N核大小的多层一维卷积组成。但这些对于非文本区域(pT),我们用0表示这些像素的距离。L表示像素p所在的文本实例T的比例,定义为L=max(Dgt(p));p∈T,(3)gt(p)不仅直接编码p在T内部,进一步突出了AD之间的边界方法只考虑单个拓扑上下文或se-序列上下文,这对于文本检测不是很令人满意。由于文本的独特性,拓扑上下文和序列上下文在文本检测中是非常重要的。对于每个边界建议,我们将均匀地采样N个控制点,以便于批处理。如图2、采样的控制点形成封闭的多边形1309--LLLLDLDL×√||L联系我们}−−××ΣL×∈∈Σ×L=L+,(7)pp2不pp我S我 我p我 我S我 我其中拓扑上下文和序列上下文共存。为了充分利用边界拓扑和序列上下文,我们引入了一个自适应边界变形模型结合GCN和RNN,它可以有效地执行特征学习和迭代边界变形细化粗文本边界。令cp i= [xi,yi]T表示第i个控制点的位置,并且p=p〇,p1,…pN−1是所有控制点的集合。对于具有N个控制点的边界建议,我们首先为每个控制点构造特征向量。控制点cp,i的输入特征fi是由CNN主干获得的32-D共享特征Fs和4-D先验特征Fp(例如,像素分类、距离场和方向场)。因此,控件的功能从F中的对应位置提取点:其中Bp是边界提议模型的损失,Bd是自适应边界变形模型的损失;eps表示训练的最大时期,i表示训练中的第i个时期。在我们的实验中,λ被设置为0.1。由方程式在图7中,LBp被计算为LBp=Lcls+αLD+LV,(8)其中cls是用于像素分类的交叉熵分类损失,并且是用于距离场的L2[27]第27话:cls和其中负和正之间的比率被设置为3:1。为了平衡LBp中的损失,权重α被设置为3.0。与[31]类似,LV由L2-范数距离和角度方向场V的距离:LV=Σw(p)V−V+1Σ(1−cos(V,V)),(九)f=concat{F(x,y),F(x,y)}。这里,F(x,y)和p∈Ωp∈TFp(xi,yi)通过双线性插值计算在获得特征矩阵X(大小:NC)、边界建议,我们采用了自适应变形模型的基础上的编码器-解码器架构,执行有效的特征学习和迭代边界变形。编码器模型结合GCN和RNN进行特征学习,可以充分利用和融合边界拓扑和序列上下文。如图2,编码器模型可以被公式化为X'=RNN(X)GCN(X)Conv1×1(X)(4)其中re Ω表示图像域;像素p处的权重(w(p)= 1/GT_p)与包含p的地面实况片段GT_p的大小的平方根倒数成比例。Bd是一个类似于[15]的点匹配损失 在这项工作中,预测和地面实况控制点集具有相等的大小和相似的顺序(逆时针),表示为p =p〇,p 1,p 2,p 3,p4,p 5,p 6,p 7,p 8,p 9,p 10,p 11,p 12,p13,p 14,p 15,p 16,p 17,p 18,p 19,p,p N1,和p′ =p′0,p′1,,p′N1(N是点数)。因此,匹配p和p′的损失定义为N−1其中L(p,p')=minΣsmoothL1(pi,p'(j+i)%N),(10)由一层B-LTSM构成,隐层长度为128;Conv11由具有128个维度的一层11个卷积层组成,其形成类似RestNet[6]的残差连接; GCN由四个图卷积组成。j∈[0···,N−1]i=0由于图像中通常有多个文本实例,因此LBd定义为由ReLU激活的层,我们方法中的图卷积层被公式化为LBd =1不p∈T(p,p’),(11)Xg=ReLU((XGX)W),(5)G=D~−1/2A~ D~−1/2,(6)其中X是输入/输出特征的维度,并且N是控制点的数量; G是大小为NN的对称归一化拉普拉斯算子; W是层特定的可训练权重矩阵;A~=A+IN是具有添加的自连接的局部图的邻接矩阵;IN是单位矩阵,并且D~是对角线。其中T表示图像中的所有文本实例,p表示文本实例T(T∈T)的控制点集。4. 实验4.1. 数据集Total-Text:它由1255个训练图像和300个测试图像组成,包括水平、多方向和带有多边形和单词级注释的弯曲文本。矩阵D~ii=P控制点jA~ij。我们通过连接每个CTW-1500:包括1000次培训和500次测试图像和弯曲文本实例通过面进行注释四个邻居。自适应变形模型中的解码器由具有ReLU的三层11卷积组成,其将学习预测控制点与目标点之间的偏移。为了获得更精确的文本边界,我们执行迭代边界变形,如图所示。二、3.3. 优化在这项工作中,总损耗L可以用公式表示为λLBdBp1 +e(i−eps)/eps1310有14个顶点MSRA-TD 500:它由500个训练图像和200个测试图像组成,包括英文和中文文本,其中包含多语种的多方位长文本。SynthText:它包含800k个合成图像,这些图像是通过将自然图像与人工文本混合而生成的,这些文本都是单词级注释的。ICDAR 2017-MLT:它由7,200张训练图像,1,800张验证图像和9,000张测试图像组成,带有由四边形注释的多语言(9种1311××−表1.Total-Text和CTW-1500上变形模型的烧蚀实验最佳分数以粗体突出显示。方法全文公司简介召回精度F-measureFPS召回精度F-measureFPSFC81.5690.1685.659.5278.3285.0381.5411.13RNN83.3187.7185.9311.1581.2686.0083.5612.22循环卷积82.8089.7386.139.3380.3584.8882.5510.89图卷积82.7489.9486.1910.4280.3186.1283.1211.94自适应变形83.3090.7686.8710.5680.5787.6683.9712.084.2. 实现细节在我们的实验中,我们首先在SynthText上对网络进行了一个epoch的预训练,其中图像被随机裁剪并调整大小为512 512。在预训练中,Adam [9]优化器以固定的学习率0应用。001,并且将小批量设置为16。在微调中,我们随机地裁剪文本区域,并将其调整为640640,用于使用小批量12训练模型。采用Adam [9]优化器,其中初始学习率为0的情况。001,下降到0。每50个时期后,原始的9个。数据增强包括:具有角度的随机旋转(通过高斯分布采样(60◦,60◦))、随机裁剪和随机翻转。在推理中,我们保持测试图像的宽高比,然后重新调整大小并将它们填充到相同的大小进行测试。代码是用PyTorch 1.7和python 3实现的。在单个GPU(RTX-3090 ) 上 执 行 培 训 , 在 单 个 GPU ( GeForce RTX-2080 ) 上 执 行 测 试 , 配 备 英 特 尔 至 强 Silver 4108CPU@1.80GHz。4.3. 消融研究在消融实验中,我们仅在相应的真实世界数据集上训练模型660个时期,而不进行预训练,其他训练设置与第4.2节中的微调过程相同。在测试中,图像的短边被缩放到640,并确保长边不超过1,024。阈值th_d和th_s设置为0.3 分别为0.8自适应变形模型的有效性。为了验证自适应变形模型的有效性,我们在Total-Text和CTW-1500上进行了消融实验我们的变形模型包括一个编码器和一个解码器。为了公平的比较,我们使用一个轻量级的全连接网络(FC)结构作为解码器,我们采用四种类型的编码器,即,FC与Conv1×1、RNN、循环卷积和图卷积(GCN),用于进行比较实验。如表中所列。1,我们的自适应变形模型实现了最好的性能相比,其他四种方法在Total-Text和CTW-1500,实现了0的改进。与RNN相比,Total-Text的F-测量值为94%,并且0。与GCN相比,Total-Text的F-测量值为85%。此外,我们的自适应变形模型图6.控制点数(N)的实验结果。控制点数量(N)的影响。我们研究了控制点数N的影响,控制点数N从12到32,间隔为4。在Total-Text和CTW- 1500上对模型进行了评估。从图6中,我们可以发现,当N太大或太小时,F测度下降。特别是,控制点太少这是因为当控制数目太小时,检测边界往往不能正确地覆盖整个文本。此外,我们的模型在两个数据集上都实现了最佳检测因此,在我们的实验中,控制点的数量固定在20。表2.CTW-1500上不同迭代的实验结果Iter 1Iter 2Iter 3F-measure82.2483.3383.97速度(fps)13.6812.8312.08迭代次数的影响 为了充分验证迭代次数的影响,我们进一步比较了具有不同推理迭代的模型。如表中所列。2、随着迭代次数的增加,模型的检测性能逐渐提高,但推理速度逐渐下降。当迭代次数从2到3时,检测性能的提高不是很明显。考虑到速度和性能的平衡,在我们的实验中,迭代次数默认设置为3。如图随着迭代次数的增加,检测边界变得更加准确。1312(a) 边界建议(b)第1条(c)第2条(d)第3图7. 不同迭代的可视化结果。蓝色轮廓是边界建议,绿色轮廓是迭代变形后的检测边界。表3. Total-Text上分类图(cls)、距离场(dis)和方向场(dir)的消融研究CLSdisdir召回精度F-measureCCCC×C×C×76.9681.9783.3083.0188.9590.7679.8785.3286.87先验信息的影响我们在Total-Text上进行消融研究以验证每个先前信息的重要性(例如分类图、距离场和方向场)。如表中所列。3、仅使用分类图时检测性能不理想。引入距离场和方向场后,性能得到了显著改善,F测度提高了5. 45%和1。分别为55%表4.不同分辨率FPN的Total-Text实验结果。“R”, “P”, and “F”represent Recall, Precision, and F- measure,方法RPFFPSFPN-P1(1/1)83.3090.7686.8710.56FPN-P1(1/2)82.6390.7586.5012.68FPN-P2(1/4)82.9989.5186.1315.17不同分辨率FPN的影响 我们已经在没有任何预训练的情况下进行了实验,以探索使用不同分辨率的FPN层作 为 共 享 特 征 的 影 响 。 在 选 项 卡 中 。 4 、 FPN-P2(1/4)是指我们使用FPN-P2层作为共享特征(FPN-P2的分辨率是原始文档图像的1/4)。从Tab。4,我们可以看到FPN-P1和FPN-P2都在Total-Text上实现了最先进的性能。4.4. 与最新技术水平的我们比较了我们的方法与以前的国家的最先进的方法上的Total-Text,CTW-1500和MSRA-TD 500。在测试中,图像的短边被缩放到640,并且表5.Total-Text 的实验 结果 'Syn'/'MLT'表示使用SynthText或ICDAR 2017-MLT数据集进行预训练,'MLT+'表示除了MLT之外还有其他预训练数据。方法ExtRPFFPS[19]第十九话ATTR [35]MSR [38]CSE [18][5]第五话文本字段[37]PSENet-1s [33][28]第二十八话LOMO [40]工艺[2]DB [12]潘[34][36]第二十六话:我的世界DRRG [41]边界[32]Syn-SynMLTMLT+SynMLTSynSynSynSyn-MLTSyn74.576.285.279.775.779.977.9680.979.379.982.581.081.883.984.9385.082.780.973.081.485.681.284.0282.187.687.687.189.388.886.986.5488.978.478.578.680.280.380.680.8781.583.383.684.785.085.285.485.7387.0-10.04.30.42-6.03.9-4.4-32.039.6-3.8--我们我们的我们的-SynMLT83.3084.6585.1990.7690.2790.6786.8787.3787.8510.5610.2810.69长边将在1024中被抑制。用于获得具有距离场的候选边界提议的阈值th_d被固定为0.3。全文本在测试中,阈值ths被设置为0.825。定量结果见表1。5.从Tab。5,我们可以发现我们的方法达到了87.在 SynthText 上 预 训 练 时 , F- 测 量 值 为 37% , 而 在SynthText上预训练时为87。在MLT 17上进行预训练时,在F-测量项中的得分为85%显然,我们的方法显着优于其他方法具有很大的利润。从图中可见的结果8(a)和图如图8(b)所示,我们可以观察到我们的方法可以精确地检测单词级不规则文本。1313(a) 全文(b)全文(c)CTW-1500(d)CTW-1500图8. 视觉实验结果。蓝色轮廓是边界建议,绿色轮廓是最终检测边界。表6.CTW-1500上的实验结果方法ExtRPFFPS[19]第十九话[35]第35话:我的世界[28]第二十八话[33]第三十七话:我的世界DB [12]工艺[2][5]第五话潘[34]ContourNet [36]DRRG [41][24]第二十四话SynMLT同步系统 -同步MLT同步同步MLT+Syn-MLTSyn85.376.176.580.279.879.879.079.780.281.182.881.284.183.0281.967.978.785.780.182.883.084.184.886.986.084.586.483.785.9387.575.677.480.880.181.381.481.582.283.483.583.683.783.984.4584.6-0.384.4--6.04.33.922.0--39.84.5--我们我们的我们的-SynMLT80.5781.4583.6087.6687.8186.4583.9784.5185.0012.0812.1512.21CTW-1500在测试中,阈值ths被设置为0.8。代表性的可见结果示于图1中。图8(c)和(d),这表明我们的方法精确地检测具有行级的长弯曲文本的边界。定量结果见表1。6.与以前的最先进的方法[12,34,36]相比,我们的方法实现了两个精度(87. 81%)和F-测量(85. 0%)。具体而言,我们的方法在CTW-1500上的F-测量项中大大超过TextSnake [19]和DB [12] 9。4%和1. 6%,分别。MSRA-TD500。在测试中,阈值ths被设置为0.925。与该数据集上其他方法的定量比较列于表1中。7.从Tab。7,我们可以得出结论,我们的方法成功地检测任意方向和大小的长文本行。值得注意的是,我们的方法实现了85。57%,优于其他最先进的方法,如DB[12],DRRG [41]等。表7. MSRA-TD 500上的实验结果方法RPFFPSSegLink [26]70.086.077.08.9PixelLink [4]73.283.077.8-[19]第十九话73.983.278.31.1文本字段[37]75.987.481.35.2MSR[38]76.787.481.7-联系我们[3]77.187.682.0-伦敦经济学院[30]81.784.282.9-工艺[2]78.288.282.98.6MCN [17]798883-ATRR[35]82.185.283.6-潘[34]83.884.484.130.2DB[12]79.291.584.932.0DRRG [41]82.3088.0585.08-我们的(Syn)80.6885.4082.9712.68我们的(MLT)84.5486.6285.5712.315. 结论本文提出了一种新的自适应边界提议网络,用于任意形状文本检测,该网络采用边界提议模型生成粗边界提议,然后采用自适应边界变形模型结合GCN和RNN进行迭代边界变形,以获得更准确的文本实例形状.大量实验表明,该方法能够在复杂数据集上精确检测任意形状文本的边界在未来的研究中,我们有兴趣在现有工作的基础上,开发一个实时的方法,任意形状的文本。鸣谢。这项工作是支持国家重点研发计划( 2020AAA09701 ) 、 国 家 自 然 科 学 基 金(62006018,62076024)等项目。1314引用[1] David Acuna,Huan Ling,Amlan Kar,and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR中,第859-868页[2] Youngmin Baek、Bado Lee、Dongyoon Han、SangdooYun和Hwalsuk Lee。用于文本检测的字符区域感知。在CVPR中,第9365-9374页[3] 戴宇晨、黄正、高玉婷、徐佑宣、陈凯、郭杰和邱卫东。融合文本分割网络的多方向场景文本检测。在ICPR,第3604-3609页[4] Dan Deng , Haifeng Liu , Xuelong Li , and Deng Cai.Pix- elLink:通过实例分割检测场景文本。在AAAI,第6773-6780页[5] Wei Feng,Wenhao He,Fei Yin,Xu-Yao Zhang,andCheng-Lin Liu.Textdragon:一个用于任意形状文本定位的端到端框架在ICCV,第9075-9084页[6] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[7] 何文豪,张旭尧,尹飞,刘成林。面向多场景文本检测的深度直接回归。在ICCV,第745-753页[8] Jie-Bo Hou,Xiaobin Zhu,Chang Liu,Kekai Sheng,Long-Huang Wu , Hongfa Wang , and Xu-Cheng Yin.HAM:用于场景文本检测的隐藏锚机制 IEEE传输图像处理。,29:7904[9] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[10] Minghui Liao,Baogang Shi,and Xiang Bai.文本框++:一种面向单镜头的场景文本检测器。IEEE Trans。图像处理,27(8):3676[11] Minghui Liao , Baogang Shi , Xiang Bai , XinggangWang,and Wenyu Liu.Textboxes:一个具有单个深度神经网络的快速文本检测器在AAAI,第4161-4167页[12] 廖明辉,万兆义,姚聪,陈凯,白翔.可微分二值化的实时场景文本检测。在AAAI,第11474-11481页[13] Minghui Liao , Zhen Zhu , Baogang Shi , Gui-SongXia,and Xiang Bai.面向场景文本检测的旋转敏感回归。在CVPR中,第5909-5918页[14] 放 大 图 片 作 者 : 林 宗 毅 , 彼 得 · 多 尔 , 罗 斯 ·B.Girshick,KaimingHe,Bharath Hariharan,and Serge J.贝隆吉用于对象检测的特征金字塔网络。在CVPR中,第936-944页,2017年。[15] Huan Ling,Jun Gao,Amlan Kar,Wenzheng Chen,and Sanja Fidler.用curve-gcn实现快速交互式对象标注。在CVPR中,第5257-5266页[16] 刘伟,Dragomir Anguelov,Dumitru Erhan,ChristianSzegedy , Scott E. Reed , Cheng-Yang Fu , andAlexander C.伯格。SSD:单次触发多盒探测器。在ECCV,第21-37页[17] Zichuan Liu , Guosheng Lin , S.Yang , Jiashi Feng ,Weisi Lin,and Wang Ling Goh.用于场景文本检测的学习马尔可夫聚类网络。在CVPR中,第6936-6944页1315[18] Zichuan Liu,Guosheng Lin,Sheng Yang,FayaoLiu,Weisi Lin,and Wang Ling Goh.走向强大的曲线文本检测与条件空间扩展。在CVPR中,第7269-7278页[19] Shangbang Long,Jiqiang Ruan,Wenjie Zhang,Xin He,Wenhao Wu,and Cong Yao. Textsnake:一个灵活的表示,用于检测任意形状的文本。在ECCV,第19-35页[20] Pengyuan Lyu , Minghui Liao , Cong Yao ,Wenhao Wu,and Xiang Bai.掩码TextSpotter:一个端到端的可训练神经网络,用于识别任意形状的文本。参见ECCV,第71-88页[21] Pengyuan Lyu , Cong Yao , Wenhao Wu ,Shuicheng Yan,and Xiang Bai.基于角点定位和区域分割的多方向场景文本检测。在CVPR中,第7553[22] Jianqi Ma,Weiyuan Shao,Hao Ye,Li Wang,Hong Wang,Yingbin Zheng,and Xiangyang Xue.通过旋转建议的任意定向场景文本检测 IEEETrans. Multimedia,20(11):3111 -3122,2018.[23] 彭思达、姜文、皮怀金、李秀丽、鲍虎军、周晓伟。用于实时实例分割的深蛇。在CVPR中,第8530-8539页。IEEE,2020年。[24] 梁乔、唐三立、成湛湛、徐云露、牛一、蒲世良、吴飞。文本感知器:走向端到端任意形状的文本定位。在AAAI,第11899- 11907页[25] 任少卿,何开明,Ross B.Girshick和Jian Sun。更快的R-CNN:用区域建议网络进行实时目标检测。IEEE传输模式分析马赫内特尔,39(6):1137[26] Baoguang Shi,Xiang Bai,and Serge J.贝隆吉通过链接段检测自然图像中的定向文本。在CVPR中,第3482-3490页[27] Abhinav Shrivastava、Abhinav Gupta和Ross B.娘娘腔。训练基于区域的对象检测器与在线硬示例挖掘。在CVPR,第761-769页[28] Jun Tang , Zhibo Yang , Yongpan Wang , QiZheng,Yongchao Xu,and Xiang Bai.Seglink++:通过实例感知组件分组检测密集和任意形状的场景文本。模式识别,96,2019。[29] 智天、黄伟林、童鹤、盘鹤、玉巧。用连接主义文本建议网络检测自然图像中的文本ECCV,第56-72页,2016年[30] Zhuotao Tian , Michelle Shu , Pengyuan Lyu ,Ruiyu Li,Chao Zhou,Xiaoyong Shen,and JiayaJia.用于场景文本检测的学习形状感知嵌入。在CVPR中,第4234- 4243页[31] Jianqiang Wan,Yang Liu,Donglai Wei,XiangBai,and Yongchao Xu.Super-bpd:用于快速图像分割的超级边界到像素在CVPR中,第9250-9259页。IEEE,2020年。[32] Hao Wang,Pu Lu,Hui Zhang,Mingkun Yang,Xiang Bai , Yongchao Xu , Mengchao He , YongpanWang,and Wenyu Liu.你需要的只是边界:走向任意形状的文本定位。在AAAI,第12160-12167页1316[33] Wenhai Wang,Enze Xie,Xiang Li,Wenbo Hou,TongLu,Gang Yu,and Shuai Shao.基于渐进尺度扩展网络的形状鲁棒文本检测。在CVPR中,第9336[34] 王文海、谢恩泽、宋晓歌、臧宇航、王文佳、路通、余刚、沈春华.基于像素聚集网络的任意形状文本检测。在ICCV,第8439-8448页[35] Xiaobing Wang,Yingying Jiang,Zhenbo Luo,Cheng-Lin Liu,Hyunsoo Choi,and Sungjin Kim.具有自适应文本区域表示的任意形状在CVPR中,第6449-6458页[36] Yuxin Wang,Hongtao Xie,Zheng-Jun Zha,MengtingXing,Zilong Fu,and Yongdong Zhang.Co
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功