没有合适的资源?快使用搜索试试~ 我知道了~
基于形状感知的场景文本检测方法
4234学习形状感知嵌入的场景文本检测Zhuotao Tian< $,Michelle ShuShu <$,Pengyuan Lyu<$,Ruiyu Li<$,Chao Zhou<$,Xiaoyong Shen<$,Jiaya Jia <$,<$,香港中文大学、约翰霍普金斯大学、腾讯优图实验室{zttian,leojia}@ cse.cuhk.edu.hk,mshu1@jhu.edu,{pengyuanlv,royryli,brycezhou,dylanshen}@ tencent.com摘要我们解决的问题,检测场景文本在任意形状,这是一个具有挑战性的任务,由于高度多样性和复杂的场景。我们把文本检测看作是实例分割,并提出了一个基于分割的框架,它把每个文本实例作为一个独立的连接组件来提取。为了区分不同的文本实例,我们的方法将像素映射到嵌入空间,其中鼓励属于相同文本的像素彼此靠近,反之亦然。此外,我们引入了形状感知的损失,使训练自适应地适应各种长宽比的文本实例,甚至它们之间的微小差距。一个新的后处理管道产生精确的边界框预测。三个具有挑战性的数据集( ICDAR 15 [20] , MSRA-TD 500 [55] 和 CTW 1500[32])证明我们工作的有效性。1. 介绍作为光学字符识别(OCR)系统中不可缺少的一部分,场景文本检测对后续的文本识别至关重要。高性能的场景文本检测作为一种基本工具,具有广泛的应用前景,包括多语言图像翻译、人机交互、环境理解等。然而,由于自然图像中的各种属性,例如图像模糊程度、照明条件和宽高比,这项任务是具有挑战性的由于复杂的文本形状和纵横比,尽管现有的基于回归的方法[30,53,60,49,15]在由矩形或四边形边界框注释的基准数据上取得了令人印象深刻的结果,但它们很难推广到CTW1500 [32]或TotalText [3]中的弯曲文本数据最近,Long等人[34]通过将文本实例建模为具有不同半径的圆盘序列来处理弯曲文本。该方法依赖于可能导致精度下降的半径回归。到目前为止,对于基于密集回归的方法(如EAST[60]),预测各种尺度和纵横比的文本框是具有挑战性的,因为回归距离是连续的。(a)(b)(c)第(1)款图1.给定输入图像(a),我们的模型学习将文本区域(b)中的像素映射到嵌入空间(c)中,在嵌入空间(c)中,属于同一实例的像素被拉到一起,来自不同实例的像素被彼此推开。对训练作物大小进行微调,使得模型难以在推断期间预测长(或大)实例,如表4所示,其中EAST预测的扩张中心区域(标记为因此,我们的目标是一个无回归的解决方案,以绕过缺点。现有的文本检测领域的无回归算法主要基于分割框架,算法在重新覆盖相应的文本实例之前生成前景模板。具体而言,Yaoet al. [56] Zhanget al.[58]链接候选项以形成文本实例。但由于缺乏处理自然场景中非常常见的微小间隔的能力,它们无法分离紧密的文本在卷积神经网络(CNN)中下采样后,小空间也很容易被忽视Wu等[51]预测文本屏蔽文本边界,模型依赖于边界来隔离各个文本区域。然而,长文本实例通常具有细边框,如果没有正确显示文本边框,则可能导致不准确的结果。在这项工作中,我们从[1]中获得灵感,并提出了一种替代的基于分割的方法来缓解上述问题。如图1所示,我们的模型将每个文本实例视为一个集群,并学习将像素映射到嵌入空间,鼓励属于同一文本实例的像素显示为接近。通过约束同一文本区域内像素的嵌入特征以共享相似的属性,我们的模型能够学习内在表示,即。嵌入的特点,分离的实例,而不是简单地依赖于间隔和不明确的边界。此外,为了进一步4235为了提高对微小间隔和各种形状的鲁棒性,我们引入了形状感知损失,可以根据文本实例的尺度和相邻性自适应地调整嵌入特征上的拉力和推力。最后,我们的新调整管道产生高质量的边界框,因为它有效地利用了由我们提出的网络的两个并行分支生成的嵌入空间和分割空间的信息我们在三个具有挑战性的数据集上进行实验我们的结果证明了我们的新设计的优越性。我们的贡献有三方面。• 我们提出了一个形状感知损失,以减轻分离广告jumper实例和检测大的实例。• 我们提出了一个新的文本检测管道,检测任意形状的文本实例。• 我们的方法在三个有代表性的场景文本数据集上实现了有竞争力的性能。2. 相关工作2.1. 场景文本检测场景文本检测长期以来一直是热门的研究课题,提出了许多解决方案[2,60,30,6,32,26,15、50、36、33、52、34、53、49、35、18、17、14、42]。早期文本检测器[8,40,39,37,57]使用基于文本特征的手工特征,例如笔画宽度变换(STW)[8],最大稳定极值区域(MSER)[37]和对称特征[57]。最近,提出了几种基于深度神经网络的方法,这些方法可以实现更准确的文本检测。这些方法可以分为两类,即,基于回归和基于分割的方法。基于回归的方法通过从锚点或像素预测边界框偏移来生成文本框。 在[25,59,11]中,在SSD [29],更快的R-CNN [44]和YOLO [43]之后,直接检测文本框。在[46]和[49]中,为了有效地检测长文本,Shiet al.和Tian等人.提出了SegLink和CTPN,它们预测文本片段,然后将这些片段链接到文本框。为了处理长的和有方向的文本的检测,Lyuet al. [36]获取文本的角点,并将它们分组到框中。与这些从锚点回归候选框/段/角的方法不同,Zhou等人。[60],Heet al. [17] Longet al.[34]通过预测文本区域中像素的偏移量来执行框回归。尽管基于回归的方法已经实现了最先进的性能,但在各种尺度和纵横比下回归文本框仍然具有挑战性。基于分割的方法推断候选文本框从分割图。与基于回归的方法相比,它们更容易检测任意形状的文本,但要处理重叠的预测文本区域。为了将文本区域彼此分离,在[58,56]中,使用字符本地化和文本方向。在[7]中,预测了像素与其相邻像素之间的链接关系以便将属于同一实例的像素分组。Wu等[51]引入了一个边框类,并获得了直接由文本边框分隔的文本区域。与现有的回归方法不同,该方法利用嵌入特征来提供实例信息,并取得了较好的性能。2.2. 实例分割有几种实例分割方法[4,5,24,12,28,10,1,22]。其中,无提案方法与我们的工作关系最大。在[10]中,基于种子性(如果它是分割的好种子的度量在[1]中,提出了区分损失,以将像素集中在同一实例内,并将来自不同实例的像素在[22]中引入了递归分组模型,以将像素嵌入映射到n球空间上。我们的方法不同于经典的无命题实例分割,因为文本实例是对象的特殊情况因此,为了更好地捕捉文本实例的特征,我们提出了有效的形状感知损失(SA损失)来处理这种差异。此外,我们的新的聚类处理方法,与嵌入特征训练的SA损失,生成建议的文本的任意形状。3. 我们的方法3.1. 网络结构我们的方法是一个基于分割的框架,它通过嵌入聚类生成任意形状的文本实例的预测。给定一个输入图像,我们的网络首先产生嵌入特征和文本前景蒙版,随后对其进行处理以获得最终的预测文本框。我们的网络的整体结构如图2所示。它具有FPN的镜像对称性[27]。首先,我们从ResNet50的中间层提取特征[13]。接下来,在每个特征合并模块中,我们使用类似的特征合并策略作为PANet的自适应特征池[28],通过上采样和逐像素添加来组合从不同层提取的特征。不涉及池化,它需要保持相同数量的通道。与其他使用单个模块设计的多任务网络不同[60,30,53],我们使用两个独立的特征合并模块来形成一对独立但互补的分支。其中一个分支产生每个像素具有8通道嵌入特征的嵌入图,用于区分文本实例,而另一个分支被设计为产生两个文本前景掩码用于分割。通过分解权重共享,我们的单阶段网络允许这两个完全不同的任务相互受益。与双分支设计相关的分析和实验在第4.4.3节中给出。4236图2.我们的网络的整体架构是为场景文本分割而设计的。3.1.1形状感知嵌入动机场景文本实例不同于正常对象,因为文本笔划经常融入背景中。虽然重叠可能发生在两个对象实例之间,但它并不经常发生。 一般约束-两个普通对象实例之间的变量是清楚的,因此比文本实例的变量更容易确定更糟糕的是,文本实例的纵横比可能会有所不同γ表示方差损失和距离损失的边际,我们将它们设置为0。5和1. 5的比例。与文献[1]不同的是,我们包括两个平衡权WScale(j),且WDist(j,k)以适应不同的文本形状和相邻关系,maxside(j)很大程度上是从一个很小的词到整个图像上的一个很长的句子,这使得检测文本变得更加困难-W标度(j)=e2 max(h,w),−(4+min(距离j,k)<$10)姿态为了克服这些困难,我们建议学习形状感知嵌入的文本实例,accomo-西区(j,k)=(1−20emax(h,w))的情况。(二)日期不同的长宽比和不精确的边界。设计嵌入分支从一个特征合并模块接收特征,以及由x和y坐标表示的附加2通道位置信息[41]。我们将来自特征合并模块的特征与位置信息连接起来,并将它们通过三个连续的3×3卷积层,分别具有32,16和8个输出通道。最终输出是每个像素的8通道嵌入特征。损失函数。给定一组文本实例和每个文本区域内像素的嵌入特征,我们提出了一种新的嵌入算法。由方程式max(h,w)是输入图像的较长边缘。四边形文本的maxside(j)对于弯曲文本(带有多边形注释 ) , 它 是 多 边 形 顶 点 之 间 的 最 长 距 离 。 min(Distance j,k)是文本实例I j和I k之间的最短距离。为了避免一个规模损失的优势,我们根据经验设置了这两个权重 WScale(j)的取值范围是(1,1. 65),WDist(j,k)的取值范围大致为(0. 63,1),其缩放比与WScale(j)相当,以平衡它们对梯度的影响。为了使SA Loss自适应于尺度和邻接,我们使用以下公式设计两个权重一种是“知”,一种是“知”,一种是“知”。从相同的像素中收集像素嵌入的方差损失Lvar第W标度(j)与文本实例文本实例和距离损失Ldist以推动不同实例的像素的嵌入分开。它们表示为我... AlargeWScale(j) 使Lvar(Ij)显著,这带来了强大的力来将像素拉得尽可能靠近Lvar(Ij)较低。WDist(j,k)与最短的Lvar(Ij)=1挪威克朗j最大值(W刻度∗|µj−xi|−η,0),两个实例Ij和Ik之间的距离,其结果为一个额外的力量来推动嵌入两个接近的文本-NJ i=1(j)站得更远。 与WScaleW(j),一个较小的Ldist(Ij,Ik)=max(γ−WDist(j,k)<$|µj−µk|、0)、(1)其中µj和µk分别是文本实例Ij和Ik x i是像素i的嵌入特征,N j是I j内的像素数。 η和4237距离(j,k) (Ij和Ik之间的短距离)使Ldist(Ij,Ik)较大。因此,当我们最小化Ldist(Ij,Ik)时,较小的WDist(j,k)使模型更好地移动不同实例的像素。给定图像中的N个文本实例,4238(a)(b)(c)(d)(e)图3.大(上)和小(下)文本上的SA损失和圆盘损失比较(a)输入图像。(b)-(c)通过SA Loss训练的模型的检测结果和嵌入可视化;(d)-(e)通过Disc Loss训练的模型的检测结果和嵌入可视化。采取的形式是1ΣN图4.群集处理的图示。左:三个clus-ters CFi(i = 1,2,3)从全地图输出,小clus- tersCij内是从中心地图。右:根据x和c ij之间的最短嵌入距离,将每个像素x(x∈CFi,x∈/cij )分配给cij。然后,我们形成不同颜色的文本实例(cijpcij)。 Pcij表示分配给cij的像素集合x。文本,而中心地图仅捕获中心区域LSA=Nj=11Lvar(Ij)ΣNΣN允许空间上接近的文本实例的分离,并为以后的像素聚类提供合理的起始点。+N(N−1)j=1k=1,kL dist(I j,I k).(三)J损失函数。Full Map和Center Map都是通过最小化Diceloss [38]来训练的。分析. SA Loss包含两个平衡权重,用于根据文本实例的大小和相邻程度来调整拉力和推力。利用这两个权值,对大样本进行像素聚类,分离紧密文本实例变得容易得多,即使两个接近的文本实例之间的距离仅由一个或两个像素组成图3显示了检测结果和嵌入vi-LD=1 −D(P,Q),(4)其中P和Q分别表示预测和地面实况。D(,)是Dice系数,其公式为Σ2天x,y Px,yQx,y通过不同的损失函数训练的模型在-包括辨别损失(Disc Loss)[1]。视觉化-D(P,Q)=0x为oh2x为ohΣ+x,y2x为oh.(五)通过使用主成分分析(PCA)将原始8D嵌入特征投影到2D空间上来创建。比较图3(c)-(e),来自同一实例的像素的嵌入这意味着SA Loss提供了更精确的实例信息和更准确的检测结果。为了更好地说明SA Loss可以帮助检测大型实例。我们在TD500上进行实验,其中实例是大而长的文本。结果列于表4中。3.1.2分割掩模分割分支提供两个分割掩码来指导聚类处理。在我们的设计中,它连接2D空间(分割掩码)和嵌入空间(形状感知嵌入)以产生更好的结果。设计分割分支通过对上一模块产生的特征应用两个单独的3×3卷积运算,生成两个单通道分割图,即全图和中心图。虽然这两种分割图都告诉像素是属于背景还是文本,但它们的用途不同。全图显示了分割分支的最终损失是两个映射的加权组合,由λ∈(0,1)平衡,如下:LSeg=λLCenterMap+(1 − λ)LFullMap。(六)在我们的实验中,我们将λ设置为0。5,分配相等的重要性,两个地图。 请注意,中心图中的文本实例与全图中的实例相比以缩小比率r缩小。通常,r被设置为0。7、和东方一样。我们将文本实例保留在Full Map中,而不会缩小以减少搜索空间,并确保在有效的文本区域内执行以下聚类。3.1.3总损失函数用于训练的总损失函数为L=LSA+LSeg,(7)其中LSA是嵌入分支的SA损失,LSeg是分割分支的损失。PQ42393.2. 集群处理如 前 所 述 , 我 们 的 模 型 预 测 三 个 地 图 : Em-bedding地图,全地图和中心地图。嵌入映射由每个像素的8通道嵌入组成4240IJIJIJ“完整地图”包含原始大小的文本区域和二进制值(1表示文本,0表示背景)。中心图中的文本实例由全图的收缩区域表示,收缩率为r。在这里,我们利用这三个地图的信息进行像素聚类。特别地,我们的算法首先使用DBSCAN [9]来获得两组聚类(来自Full Map的C F i和CCi=(图中的)。然后,我们将CFi内部和CCi外部的每个像素el分配给最近的聚类cij∈CCi根据以下逻辑。将分配给cij的像素表示为pcij,如果pix el和聚类ci j∈CCi之间的最小嵌入距离仍然小于阈值σ,则将该pix el分配给最接近的聚类cij作为pcij的一部分。否则,将忽略此像素换句话说,每个像素基于像素嵌入与属于中心图的每个聚类c ij(c ij∈CC Ci∈C Fi)的像素的平均嵌入之间的嵌入距离来分配。在处理了聚类C_F_i中的所有像素之后,生成新的聚类C_F_i。′= c ij<$p c形成。我们继续应用这门课程直到所有的中心clus,他们被处理。最后,对于每个新的聚类c′,我们生成相应的最小边界框作为输出。4. 实验4.1. 数据集我们在三个具有挑战性的数据集上进行实验。它们是定向场景文本数据集ICDAR 15 [20],长定向场景文本数据集MSRA-TD 500 [55]和弯曲场景文本CTW 1500[32]。我们使用SynthText [11]预训练我们的模型,然后在其他数据集上对其进行微调。SynthText包含超过80万张合成图像,近800万个文本实例。SynthText的文本实例在string(line)、word和char上进行注释。演员水平。我们只在预训练阶段使用单词级注释。ICDAR 15包括1,000个训练图像和500个测试图像,其中文本实例通过四边形的4个顶点在单词级别上进行注释ICDAR15数据集中的图像由Google Glass在自然场景中拍摄。- -从运动模糊和其他问题被标记为“不关心”。在我们的训练中,我们只是忽略了这些例子。TD500 由 300 幅 训 练 图 像 和 200 幅 测 试 图 像 组 成 。MSRA-TD 500中的文本包含中文和英文。它们在字符串(行)级别上进行注释由于MSRA的规模TD 500训练图像很小,我们从HUST-TR 400 [54]中额外增加了400张训练图像用于训练。CTW 1500是一个弯曲的文本数据集,其中包括1,000个训练图像和500个测试图像,超过1万个沙文本注释。它包含水平和多方向文本实例.CTW1500中的文本实例由多边形的14个顶点表示。4.2. 实现细节我们网络的骨干是ResNet50 [13],在ImageNet数据集 [23] 上 进 行 了 预 训 练 。 对 于 每 个 分 支 , 我 们 在ResNet50的四个特征图上应用四个初始模块[48](在最大池化之后),具有128个输出通道。使用数据增强。我们首先将输入图像的较长边缘随机重新缩放为640的长度到2560。然后执行随机旋转、转置和翻转。最后,我们从旋转图像中随机裁剪640×640块作为训练图像。最佳-我们用来训练的mizer是亚当[21]。我们的实现还包括批量归一化[19]和OHEM [47],其阳性和阴性样本的比例为1:3。所有模型都在SynthText上进行了预训练[11],初始学习率为1e-4。期间 推理, 那里 是 五个超参数阈值σ和τ分别用于测量嵌入图上的嵌入距离和在后处理中从分割图中获取置信像素。IoU阈值δ用于NMS[45],而eps和MinSamples用于DBSCAN。在所有实验中,我们使用相同的设置,其中σ为1.0,τ为0.7,δ为0.5,(eps ,MinSamples )在全图上聚类时为(5 ,8),在中心图上聚类时为(1,3)4.3. 与艺术4.3.1四边形文本我们首先在ICDAR 15和MSRA-TD 500上评估我们的方法。根据[20]和[55]中提出的评价标准,我们在表1和表2中报告了结果。对于ICDAR 15,类似于[46,60,25,34,16,36],我们使用原始图像大小(720×1,280)评估我们的模型。由于IC-DAR 15中有许多小文本实例,因此我们也使用更大的大小来评估我们的模型如[49,26,6,30,53]所示,通过将输入图像的较长边调整为1,760,固定纵横比,进行公平比较。 当以原始比例进行评估时,我们的方法达到召回率,准确率和H-平均率为84。5%,85。1%,84。8%,超过之前的冰毒-ods [46,60,25,34,16,36]在原始规模下测试并且与[30,53]在更大分辨率输入上测试的那些相当。当在更大的规模上进行评估时,我们的方法达到了新的最先进水平。至于MSRA-TD 500,因为大多数文本实例都很长,很大,较大的输入并没有多大的因此,我们只需将测试图像的长边重新调整为800,以适应我们的模型。如图所示在表2中,我们的方法实现了82. 9%的H均值,这与之前的最佳表现(82. 9%vs.83. 0%)。总的来说,我们的方法产生了显着的改善ICDAR 15和MSRA-TD 500的召回率,因为我们的方法中的两个分割图是关键因素。我们C4241方法召回精度H均值方法召回精度H均值Zhang等人[58个]67.083.074.0Yao等人[56个]75.376.575.9东[60]67.487.376.1SegLink [46]70.086.077.0RRD [26]73.087.079.0ITN [50]72.390.380.3Lyu等人[36个]76.287.681.5[6]77.187.682.0[53]第五十三话79.087.583.0我们的(W/O)76.877.277.0我们的(W/O,1280)79.183.681.3我们的(W/O,1760)82.985.884.3我们的(1280)84.585.184.8我们的(1760)85.088.386.6表1.ICDAR15的结果我们不包括多尺度测试和集成的结果不对包括识别在内的结果进行比较。‘W/O’ represents the resultby only enlarging boxes generated by the Center方法在精度方面也很好。与FOTS和IncepText相比,我们的方法是基于分割的,它偶尔会受到文本结构上的微小像素簇的影响,这会导致精度损失。请注意,标有“W/O”的结果4.3.2弯曲文本我们评估我们的模型CTW1500证明我们的方法来检测弯曲的文本的能力。我们遵循评估规则[32]并将输入图像的长边设置为800。结果如表3所示,这是最新的技术水平。与以往最好的方法TextSnake相比,我们的表现出的优势,在精度和H-均值的相对改善达到14。8%和4.5%。我们在图6中给出了几个检测结果。4.4. 消融研究我们评估了为文本检测设计的形状感知损失文中还对提出的两种分割图和双分支设计进行了讨论。4.4.1形状感知损失为了验证我们提出的形状感知损失(SA损失)的有效性,我们将SA损失与判别(圆盘)损失进行比较[1]。为了公平比较,我们训练一个新模型我们81.784.282.9表2. MSRA-TD 500上的结果。‘W/O’ denotes the result byonly enlarging minimum bounding boxes generated by the方法召回精度H均值[49]第四十九话53.860.456.9东海岸[60]49.178.760.4[31]第三十一话56.069.962.2CTD [32]65.274.369.5[32]第三十二话69.874.373.4[34]第三十四话85.367.975.6我们77.882.780.1表3. CTW1500上的结果。用“”标记的结果来自[32]。方法召回精度H均值形状感知损失81.784.282.9光盘损失率80.381.981.1东海岸66.272.169.0EAST(无回归)74.967.370.9表4.与TD500比较。重新生成标记为“否”的结果。“光盘损失”[1 ]的结果[1],并保持其他设置固定。这两个模型都只在ICDAR15数据集上训练,并在原始图像尺度上进行评估SA损失产生召回率79.6,精确度84.9和H均值82.2。与原始Disc Loss相比,召回率和准确率分别提高了4.4%和3.9%(召回率75.2,准确率81.0和H-mean 78.0),证明了SA Loss在建模文本实例方面的有效性此外,如表4所示,TD 500上的结果,SA Loss也可以更好地检测大型实例。SA Loss产生的平均帧内嵌入距离为0.4,帧间嵌入距离为1.9,而Disc Loss分别产生0.5和1.7。它解释了为什么SA损失有助于产生更好的结果。CTPN [49]74.251.660.9SegLink [46]73.176.875.0东[60]73.583.678.2Lyu等人[36个]70.794.180.7[25]第二十五话76.787.281.7RRD [26]79.085.682.2[34]第三十四话84.980.482.6监管局[16]83.084.083.0Lyu等人[35]第三十五届81.285.883.4[6]80.088.684.1FOTS [30]82.088.885.3[53]第五十三话80.690.585.34242(a)(b)(c)(d)(e)(f)(g)图5.聚类方法的比较。从左到右分别是地面实况(a),DBSCAN的嵌入掩码和框结果(b和c),MeanShift(d和e)和我们提出的方法(f和g)。(a)(b)(c)(d)图6.ICDAR 15(上)、MSRA-TD 500(中)和CTW 1500(下)的结果(a)和(c)是通过嵌入形成的簇。(b)以及(d)是检测到的边界框的结果。(b)和(d)中的一些检测到的文本区域在(a)和(d)中未着色,(c)直接来自全图的聚类,其中没有使用嵌入信息4.4.2集群处理的有效性我们通过回答下面两个问题来验证我们提出的聚类处理方法的有效性为什么不直接在嵌入上集群?在文献[1]中,实例掩码是通过对被分割掩码掩盖的然而,与直接聚类相比,我们的解决方案更好。首先,如图4所示,当对每个实例进行聚类时,Full Map中的CFi将搜索空间从100CFi减少到CFi,这大大提高了效率我们的解决方案。然后,在后处理中,来自CenterMap的cij类似于枢轴,提供准确的平均嵌入,保证聚类结果的一般精度。相比之下,直接应用聚类算法可能会大大降低最终的性能。一方面,前景蒙版不可能100%准确。因此噪声在文本和背景之间的边界上,很难避免,导致嵌入空间中的不准确的质心,用于以后的聚类处理。另一方面,我们提出的后处理流水线在2-D空间(分割映射)和嵌入空间(Em- bedding映射)之间建立了一座桥梁,通过这座桥梁,两个分支变得互补。我们注意到分割分支通过分离容易的实例来减少搜索空间,并在2D空间提供准确的质心,而嵌入分支有助于分离紧密和困难的实例。我们与直接将聚类算法应用于Embedding Map(由Full Map屏蔽)的策略(如DBSCAN和MeanShift)进行比较,并在图5和图7中显示。虽然我们的算法在进行标签分配以生成实例之前使用DBSCAN从两个分割图(Full Map和Center Map)生成聚类,但是当改变距离阈值时,DBSCAN(绿色)和我们的(蓝色)曲线显示出不同的趋势(DBSCAN的eps,我们的al-出租m的σ这证明了在2D空间(分割图)和嵌入空间(嵌入图)之间存在间隙。简单地将聚类算法应用于Em-bedding Map(由Full Map掩蔽)会忽略2D空间中的有用信息,从而导致性能降低。为什么不直接扩张中心区域? 直接扩大由中心地图的中心区域生成的最小边界框以覆盖原始文本区域似乎是一种可行的解决方案。但是,它可能会在以下情况下失败两个案子。第一种情况发生在存在毛刺中心区域如图8所示,对于大的或薄的文本实例,预测的中心区域有时被分成几个部分。在这种情况下,扩展这些区域生成的框可能会将真实区域撕裂。因此,性能显著下降。尽管如此,由于我们的管道建立了桥梁,可以通过嵌入式集群来修复裂缝。与图8(a)和(b)类似,来自中心图的冗余聚类被来自嵌入的正确聚类包围4243图7.在MSRA-TD 500上比较了直接将聚类算法(MeanShift和DBSCAN)应用于嵌入图和我们提出的流水线。x轴改变用于测量嵌入距离的阈值(MeanShift的带宽、DBSCAN的eps和我们的算法的σ),y轴是H均值。(a)(b)(c)(d)图8.我们的管道和直接扩张的最小包围盒之间的比较每个聚类都用随机颜色标记。(a)从我们的管道集群。 (b)最小包围盒 在(a)中的集群。(c)从地图中心的集群。(d)(c)中聚类的最小边界框因此,错误的预测稍后会被NMS删除秒失败源于扩展率的不确定性,其中预测的中心区域并不总是覆盖原始文本区域的70%。当使用恒定的膨胀比1.43(收缩比0.7),从中心区域扩大的框有时小于或大于地面实况框。虽然基于IoU可以容忍轻微的不准确性,但此解决方案对于现实世界的OCR应用程序并不是最佳的。为 了 更 清 楚 地 进 行 比 较 , 我 们 对 ICDAR 15 和MSRA-TD 500数据集上的中心区域生成的框执行直接膨胀。结果显示在表1和表2中。放大最小边界框的结果标记为(W/O)。所有结果表明,从我们的嵌入聚类生成框是更强大和有效的。4.4.3网络设计全图和中心图的重要性。 Full Map首先分离更明显的文本/非文本区域,以帮助Center Map专注于分离接近的文本区域并减少计算开销。中心地图UTI-(a)(b)(c)第(1)款图9.失败案例的示例图像。缺失的地面实况框用黄色表示,错误的预测用红色圈出。lizes意味着嵌入以改进后处理。由Center Map生成的直接膨胀框可能会产生许多错误的预测,如表1和表2所示。用扩张的中心标测图替换全标测图是不可行的,因为很难估计每个实例的扩张率(ICDAR 15上的召回率为如图7所示,在Full Map上直接应用基于嵌入距离的聚类并不理想。因此,这两张地图都是不可或缺的。双分支网络的有效性。为了体现镜像双分支设计的有效性,我们将分割分支和嵌入分支合并为一个分支。在这种情况下,三个输出地图是通用的-由共享特征合并模块来执行。请注意,如果其他部分保持不变,两个分支的组合将减少一半的参数。为了消除参数个数不同带来的影响,在单分支模型中,从ResNet50中间层提取的每个特征有256个通道,比双分支设计中的通道数(128)增加了一倍。在ICDAR 15上使用单个分支的结果是召回率77.2,精度81.4,H-mean 79.2。4.5. 限制由于我们的流水线需要执行两次聚类,因此在单个NVIDIA TITAN X Pascal GPU上,ICDAR 15的720P图像的推理速度平均为3FPS。此外,故障情况的示例图像如图9所示,其中错误抑制的小词、文本状结构和硬实例导致性能降低。5. 结论我们提出了一个新的框架检测场景文本的任意形状。我们的模型有两个独立的分支,可以同时生成文本掩码和嵌入功能。我们引入了一个形状感知损失和一个新的集群处理管道,以区分具有不同长宽比和小间隙的文本实例。在基准数据集上的实验证明了该模型的有效性和鲁棒性。未来可能的工作包括将我们的研究结果扩展到文本识别任务,并进一步缩短运行时间。4244引用[1] B. D. Brabandere,D. Neven和L. V.Gool基于判别损失函数的语义实例分割。arXiv预印本arXiv:1708.02551,2017。一二三四六七[2] M.布斯科莱塔湖Neumann和J.马塔斯深度文本分析器:一个 端到 端可 训练 的场 景文本 定位 和识 别框 架。InICCV,2017. 2[3] C. K. Chng和C. S.陈Total-text:用于场景文本检测和识别的综合数据集。在IAPR,2017年。1[4] J. Dai,K.他,Y. Li,S. Ren和J. Sun.实例敏感的全卷积网络。在ECCV,2016年。2[5] J. Dai,K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR,2016年。2[6] Y.戴,加-地Huang,Y.黄氏Y. Gao和K.尘融合文本分割网络用于多方向场景文本检测。InICPR,2018. 二、五、六[7] D. Deng, H. Liu,X. Li和D.菜 Pixellink:通过实例分割检测场景文本。arXiv预印本arXiv:1801.01315,2018。2[8] B. Epshtein,E.Ofek和Y.韦克斯勒基于笔画宽度变换的自然场景中文字检测CVPR,2010。2[9] M.埃斯特,H. P. Kriegel,J. Sander和X.徐基于密度的聚类发现算法是一种在有噪声的大型空间数据库中发现聚类的算法。在第二届知识发现和数据挖掘,KDD'96,1996年。5[10] A. Fathi,Z. Wojna,V. Rathod,P. Wang,H. O. 歌、S. Guadarrama和K. P·墨菲基于深度度量学习的语义实例分割。arXiv预印本arXiv:1703.10277,2017。2[11] A.古普塔A。Vedaldi和A.齐瑟曼。用于自然图像中的文本定位的合成数据。在CVPR,2016年。二、五[12] K. 他,G. Gkioxari,P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。InICCV,2017. 2[13] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。二、五[14] P. He,W. Huang,T.他,Q。Zhu,Y.乔和X.李具有区域注意力的单次文本检测器。InICCV,2017. 2[15] T. 他,Z。田,W.黄角沈,Y.Qiao和C.太阳一个端到端的textspotter,具有明确的对齐和注意力。在CVPR,2018年。一、二[16] T. 他,Z。田,W.黄角沈,Y.Qiao和C.太阳一个端到端的textspotter,具有明确的对齐和注意力。在CVPR,2018年。五、六[17] W. 他,X。Zhang,F.Yin和C.刘某用于多方向场景文本检测的深度直接InICCV,2017. 2[18] H. Hu,C. Zhang, Y. Luo,Y. Wang,J. Han,and E.丁Wordsup:利用单词注释进行基于字符的文本检测。InICCV,2017. 2[19] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。ICML,2015。5[20] D.卡拉察斯湖Gomez-Bigorda,A. Nicolaou,S. K. 高希A. D. Bagdanov,M. Iwamura,J. Matas,L.诺伊曼,V.R. Chandrasekhar , S.Lu , F.Shafait , S.Uchida ,E.Valveny 。 ICDAR 2015 年 关 于 稳 健 阅 读 的 竞 赛 。ICDAR,2015年。一、五[21] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[22] S. Kong和C. C.福克斯用于实例分组的递归像素嵌入。在CVPR,2018年。2[23] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。5[24] Y. Li,H. Qi,J. Dai,X. Ji和Y.伟.完全卷积的实例感知语义分割。在CVPR,2017年。2[25] M.廖湾,澳-地Shi和X。柏文本框++:一种面向单镜头的场景文本检测器。 IEEE Trans. 图像处理,2018年。二、五、六[26] M.廖,Z. Zhu,B.施,G.- S. Xia和X.柏面向场景文本检测的旋转敏感回归。在CVPR,2018年。二、五、六[27] T. Lin,P.多尔河B. 格希克角他,B.Hariharan和S. J· 贝 隆 吉 用 于 目 标 检 测 的 特 征 金 字 塔 网 络 。 在CVPR,2017年。2[28] S.柳湖,加-地Qi,H. Qin,J. Shi,and J.贾用于实例分段的路径聚合网络。在CVPR,2018年。2[29] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。E. 里德C. Fu和A. C.伯格。 SSD:单次触发多盒探测器。在ECCV,2016年。2[30] X. Liu,L. Liang,S. Yan,杨氏D. Chen,Y. Qiao和J.燕.FOTS:快速定向文本定位与统一的网络。在CVPR,2018年。一、二、五、六[31] Y. Liu和L.晋深度匹配先验网络:面向更紧密的多方向文本检测。在CVPR,2017年。6[32] Y.柳湖,加-地Jin,S. Zhang和S.张某检测野外曲线文本:新数据集和新解决方案。arXiv预印本arXiv:1712.02170,2017。一、二、五、六[33] Z. Liu,G. Lin,S.杨建峰,王伟。Lin和W.凌高学习马尔可夫聚类网络用于场景文本检测。在CVPR,2018年。2[34] S. Long,J. Ruan,W
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功