没有合适的资源?快使用搜索试试~ 我知道了~
多尺度双向级联网络在边缘检测中的应用及其性能评估
13828用于感知边缘检测的何建中1,张世良1,杨明2,单彦虎2,黄铁军1,3北京大学1,地平线机器人公司2,鹏程实验室3。{jianzhonghe,slzhang.jdl,tjhuang}@ pku.edu.cn,m-yang4@u.northwestern.edu,yanhu. horizon.ai摘要利用多尺度表示是提高不同尺度下物体边缘检测的关键。为了在显著不同的尺度上提取边缘,我们提出了一种双向级联网络(BDCN)结构,其中单个层由其特定尺度上的标记边缘监督,而不是直接对所有CNN输出应用相同的监督。此外,为了丰富BDCN学习 的 多 尺 度 表 示 , 我 们 引 入 了 尺 度 增 强 模 块(SEM),该模块利用扩张卷积来生成多尺度特征,而不是使用更深的CNN或显式融合多尺度边缘图。这些新方法鼓励学习不同层中的多尺度学习规模专用层还导致具有一小部分参数的紧凑网络。我们在三个数据集上评估我们的方法,即,BSDS 500、NYUDv 2和Multicue,并实现ODS F-测量值0.828,比BSDS 500上的当前最新技术水平高1.3%。代码已可用1.1. 介绍边缘检测的目标是从自然图像中提取物体边界和感知上显著的边缘,保留图像的主旨,忽略非预期的细节。S.因此,它对各种中级和高级视觉任务非常重要,例如图像分割[1,41],目标检测和识别[13,14]等。得益于从利用具有手工特征的低级视觉线索[4,22,1,28,10]到最近的深度模型[3,30,23,47]的研究努力,边缘检测的准确性得到了显著提升。例如,在Berkeley Segmentation Data Set and Benchmarks 500(BSDS 500)[1]上,ODS F-测量中的检测性能已从0.598 [7]提升至0.815 [47]。然而,仍然有一些开放的问题值得研究。如图1,一个图像干中的边缘1 https://www.pkuvmc.com/dataset.html。图1. BSD-S500数据集中的一些图像及其地面实况边缘图。一幅图像中的边缘尺度变化很大,就像人体和手的边界一样。从对象级边界和有意义的局部细节两者,例如,人体的轮廓和手势的形状。边缘尺度的多样性使得利用多尺度表示进行边缘检测变得至关重要。最近的基于神经网络的方法[2,42,49]利用卷积神经网络(CNN)学习的层次特征为了生成更强大的多尺度表示,一些研究人员采用非常深的网络,如ResNet50 [18],作为边缘检测器的骨干模型。更深层次的模型通常涉及更多的参数,使得网络难以训练,推断成本高昂。另一种方式是构建图像金字塔并融合多级特征,这可能涉及冗余计算。换句话说,我们是否可以使用浅层或轻型网络来实现相当甚至更好的性能?另一个问题是关于用于边缘检测的CNN训练策略,即,通过一个通用地面实况边缘图监督不同网络层的预测[49,30]。例如,HED [49,50]和RCF [30]计算每个中间CNN输出的边缘预测,以不同尺度发现边缘,即较低的层被期望检测更多的局部图像模式,而较高的层捕获具有较大接收场的对象级信息。由于不同的网络层参与描述不同尺度的模式换句话说,现有的作品[49,50,30]强制CNN的每一层预测所有尺度的边缘,而忽略了一个特定的中间层只能关注某些尺度的边缘。Liu等人。 [31]建议使用具有层特定尺度的Canny [4]检测器来放松对中间层的监督然而,很难通过人为干预来决定特定于层的尺度。13829Groundtruth边缘地图深到浅池化步幅:2池化步幅:2池化步幅:2池化步幅:1浅入深Groundtruth边缘地图ID块ID块ID块ID块ID块图2.BDCN的总体架构ID块表示增量检测块,它是B-DCN的基本组成部分.每个ID块都由双向级联结构中的层特定监督进行训练。该结构训练每个ID块以适当的比例发现边缘。ID块的预测被融合为最终结果。为了充分利用浅层CNN的多尺度线索,我们引入了一个尺度增强模块(SEM),它由具有不同膨胀率的多个并行卷积组成。如图像分割[5]所示,扩张卷积有效地增加了网络神经元的感受野的大小。通过涉及多重扩张卷积,SEM捕获多尺度空间上下文。与以往的战略相比,即SEM引入更深层次的网络,明确融合多个边缘检测,不会显著增加网络参数,避免了图像金字塔上的重复边缘检测。为了解决第二个问题,CNN中的每一层都应通过适当的层特定监督进行训练,例如:训练浅层以集中于有意义的细节,并且深层应当描绘对象级边界。我们提出了一种双向级联网络(BDCN)架构,以实现有效的特定于层的边缘学习。对于BDCN中的每一层,其特定于层的监督由双向级联结构来实现,该结构将其相邻的较高层和较低层的输出进行传播,如图所示。二、换句话说,BD-CN中的每一层都以相对于尺度递增的方式预测边缘。因此,我们将BDCN中的基本块称为增量检测块(ID块),该基本块是通过将几个SEM插入到VGG型块中而构造的这种双向级联结构强制每一层专注于特定的规模,从而实现更合理的训练过程。通过结合SEM和BDCN,我们的方法在三个广泛使用的数据集上实现了一致的性能,即、BSDS500、NYUDv2和Multicue。它实现了ODS F-测量值0.828,比BSDS 500上当前最先进的CED [47]高1.3%。仅使用BSDS 500的trainval数据进行训练,它就达到了0.806,并且优于人类的感知(ODS F-measure 0.803)。据我们所知,我们是第一个通过仅在BSDS500的训练值数据上进行训练来超越人类识别的公司。更多-此外,与依赖于更深模型的现有方法相比,我们在模型紧凑性和准确性之间实现了更好的折衷使用浅CNN结构,我们获得了与一些众所周知的方法相当的性能[3,42,2]。例如,我们仅使用其参数的1/6就优于HED [49]。这表明了我们提出的SEM的有效性,丰富了C-NN的多尺度表示。本文的工作也是研究一种合理的边缘检测训练策略的一项创新性工作。,采用B-DCN结构来训练具有层特定监督的每个CNN层。2. 相关工作这项工作涉及边缘检测,多尺度表示学习,网络级联结构。我们分别对这三条路线的作品作一简要回顾。边缘检测:大多数边缘检测方法可以分为三类,即:传统的边缘算子、基于学习的方法和最近的深度学习。传统的边缘算子[22,4,45,34]通过发现强度,颜色,纹理等的突然变化来检测边缘。基于学习的方法通过利用监督模型和手工特征来发现边缘。例如,Doll a'retal. [10]提出了结构化边缘,其联合学习地面实况边缘的聚类和图像补丁到聚类标记的映射。基于深度学习的方法使用CNN来提取多级分层特征。Bertasius等人。 [2]采用CNN生成候选轮廓点的特征。Xie等人。 [49]提出了一种利用输出的端到端检测模型- 从不同的中间层与跳跃连接。Liu等人。 [30]通过连接来自所有卷积层的特征,进一步学习更丰富的深度表示。Xu等人。 [51]引入了一个分层深度模型来提取多尺度特征,并引入了一个门控条件随机场来融合它们。多尺度表示学习:多尺度特征的提取和融合对于许多视觉任务来说是基础和关键的,例如。,[19,52,6].多尺度表示可以从多个重新缩放的图像构建[12,38,11],即图像金字塔,通过在每个尺度上独立计算特征[12]或使用一个尺度的输出作为下一个尺度的输入[38,11]。最近,创新作品DeepLab [5]和PSPNet [55]使用扩张卷积和池化来实现图像分割中的多尺度特征学习。Chen等人。 [6]提出了一种注意力机制,用于对每个像素位置处的多尺度特征进行软加权。像其他图像模式一样,边缘在尺度上变化很大。Ren等人 [39]表明考虑多尺度线索确实提高了边缘检测的性能。多尺度线索也用于许多方法[48,39,24,50,30,34,51]。大多数方法都是探索规模-13830SS边缘的间隔,例如,在多个尺度上使用高斯平滑[48]或从不同尺度的图像中提取特征。以Ns(X)为输入,设计了一个检测器Ds(·)来检测边缘尺度。给出了Ds(·)的训练损失公式年龄[1]。 最近的基于深度的方法采用图像pyra-as中层和层次特征。例如,Liu等人。 [30]将多个重新缩放的图像独立地转发到CNNLs= ΣX∈T|、(二)|,(2)然后求平均值我们的方法遵循类似的直觉,然而,我们构建SEM以有效的方式学习多尺度表示,这避免了对多个输入图像的重复计算。网络级联:网络级联[21,37,25,46,26]是许多视觉应用的有效方案,如分类[37],检测[25],姿态估计[46]和语义分割[26]。 例如,Murthy[37]用不同的网络处理简单和困难的样本,以提高分类精度。Yuan等人 [54]集成了一组具有不同复杂性的模型来处理具有不同难度的样本。Li等人 [26]提出在浅层网络中对容易的区域进行分类,并训练更深层的网络来处理硬区域。Lin等人 [29]提出了一种具有横向连接的自上而下的架构-将深层语义特征传播到浅层。与以往的网络级联不同,BDCN是一种双向伪级联结构,它允许一种创新的方式来单独监督每一层,以进行特定于层的边缘检测。据我们所知,这是一个早期的和原始的尝试,采用级联架构,其中Ps=Ds(Ns(X))是尺度s处的边缘预测。因此,最终检测器D(·)被定义为从尺度1到S学习的检测器的集合。用EQ进行训练。(2)可能的,需要Ys将地面实况边缘图Y手动分解成不同尺度并不容易,使得难以获得第s层的层特定监督Ys一种可能的解决方案是基于地面实况标签Y和在其他层预测的边缘来近似Y s,即、ΣYs Y −Pi.(三)I s然而,Y在等式中计算。(3)不是一个适当的层具体的监督。在下面的段落中,我们简要地解释一下原因。根据等式(3)对于一幅训练图像,其在s层的预测值Ps应接近YS,即:e. ,PsY− i sPi.换句话说,我们可以通过其他层的预测到层s以用于训练,从而产生等式Lent formulation,即,YiPi. 培养目标边缘检测因此可以变为L=L(Y≠ ,Y),其中Y≠Σ=P。的3. 提出方法我我梯度w.r.t层s的预测Ps是3.1. 制剂令(X,Y)表示训练集T中的一个样本,(L)=(Ps)(L(Y =(Ps)(L(Y(Y)(Y)·(四)(Ps)其中X={x,j,j=1,···,|X|}是原始输入图像,并且Y={y,j , j=1,· · ·,|X|},yj∈{0,1}是对应的根据等式(4),对于任意两个点处的边缘预测Ps,Pi,层s和i,sl=i,它们的损耗梯度相等,因为响应地面实况边缘地图。考虑到边缘可能在一个图像中变化很大,我们分解(Y)(Ps)(Y)(Pi)=1时。 这意味着,与Eq。(3)、将Y中的边缘根据其所描绘的对象的比例分成S个二进制边缘图,即,、ΣSY=Ys,(1)培训过程不一定区分尺度由不同的层描述,使其不适合我们的层特定规模的学习任务。为了解决上述问题,我们用两个近似Ys=1其中Ys包含与比例对应的注释边S.注意,我们假设边缘的比例与其所描绘的对象的大小成比例。我们的目标是学习一个边缘检测器D(·),能够去补充监督。人们忽略了边缘,缩放比s小,另一个忽略缩放比s大的边。这两个监督在每个尺度上训练两个边缘检测器。我们将这两种监督定义为Σ不同尺度的保护边缘。设计D(·)的一种自然方法是训练一个深度神经网络,其中不同的层对应于不同大小的感受野。具体来说,我们可以用S个卷积层构建一个神经网络N。池化层使相邻的卷积层Ys2d=Y−Yd2s=Y−I sΣi>sPis2d,Pid2s,(五)以不同的比例描绘图像图案。对于一个训练图像X,假设第s个卷积层生成的特征映射为Ns(X)∈ Rw×h×c.其中上标s2d表示从浅层到深层的信息传播,d2s表示从深层到浅层的传播。=13831输入3x 3 -32转换3x3-32convr= r 0 ... r = K · r01x1-21转换输出SSSEM从浅层到深层的边缘预测为第s个块Ps2d用监督Ys2dcom训练,S s图3. BDCN和SEM的详细架构。对于插图,我们只显示了3个ID块和从浅到深的级联。我们网络中的ID块数量可以灵活地在Eq.(五)、Pd2s也是以类似的方式训练的。最后通过使用1×1卷积在融合层中融合那些中间边缘预测来计算边缘预测。尺度增强模块被插入到每个ID块中,以丰富其中的多尺度表示。SEM的灵感来自Ch en 提出 的扩张卷积[5]图像分割。对于输入2-具有卷积的维特征映射x∈RH×W从2到5(见图)第9段)。滤波器w∈Rh×w′ ′,输出y∈ RH×W扩张的卷积,对于尺度s,预测的边缘Pss2d和Psd2s分别近似于Ys2d和Ysd2s他们的组合是位置(i,j)处的解计算如下:Σh,w一个合理的近似Ys,即、 ΣΣPss2d+Psd2s2Y−Pis2d−Pid2s,(6)yij=m,nx[i+r·m,j+r·n]·w[m,n],(7)i s i>s其中在尺度1处预测的边缘被压低。因此,我们使用Pss2d+Psd2s来插值尺度s处的边缘预测。由于不同的卷积层描述不同的尺度,神经网络的深度决定了它可以建模的尺度范围。浅层网络可能无法检测所有S个尺度的边缘。然而,在这方面,大量的卷积层涉及太多的参数,使得训练变得困难。为了使用浅网络实现不同尺度的边缘检测,我们建议使用尺度增强模块(SEM)增强每个卷积层SEM的详细信息将在第2节中介绍3.2.3.2. BDCN的体系结构基于等式(6),我们提出了一种双向级联网络(BDCN)架构,以实现特定于层的边缘检测训练。如图2,我们的网络由多个ID块组成,每个ID块都是通过双向级联结构推断出的不同监督来学习的。具体而言,该网络基于其中r是扩张率,指示sam的步幅输入特征图。标准卷积可以被视为r=1的特殊情况。当量(7)表明,扩张卷积扩大了神经元的感受野,而不会降低特征图的分辨率或增加参数。如图右侧所示。3,对于每个SEM,我们应用具有不同膨胀率的K个膨胀卷积。对于第k次扩张卷积,我们将其扩张率设为rk=max(1,r0×k),其中涉及两个参数,SEM:膨胀率因子r0和卷积数,层K.在Sec. 四点三。3.3. 网络训练我们网络中的每个ID块都使用两个特定于层的侧监督进行训练。除此之外,我们将中间边缘预测与融合层融合作为最终结果。因此,BDCN用三种类型的损失进行训练。我们将总损失L公式化为,L=w侧·L侧+w保险丝·L保险丝(P,Y),(8)ΣSVGG16 [44]通过移除其三个完全连接的层L侧=L(Pd2s,Yd2s)+L(Ps2d,Ys2d),(9)最后一个pooling layer。然后将VG-G16中的13个卷积层划分为5个块,每个块都遵循一个池化层,以逐步扩大下一个块中的接收场通过插入若干SEM,VGG块演变成ID块。我们在图中说明了B-DCN和SEM的详细架构。3 .第三章。ID Block是我们网络的基本组件。每个ID块产生两个边缘预测。 如图在图3中,ID块由几个卷积层组成,每个卷积层后面都有一个SEM。多个输出SEM被融合并馈送到两个1×1卷积层中,以分别生成两个边缘预测Pd2s和Ps2d。图中所示的级联结构3传播s s s ss=1其中W_side和W_fuse分别是侧损耗和熔损的权重P表示最终边缘预测。函数L(·)在每个像素xel处相对于其边缘注释计算因为边缘/非边缘像素的分布严重偏置,所以我们采用类平衡交叉项损失作为L(·)。由于不一致的cy注释之间的不同注释,我们还介绍用于损失计算的阈值γ 对于基真值Y =( yj ,j=1,..., |Y|),yj∈(0,1),我们定义Y+={yj ,yj>γ}和Y−={yj ,yj=0}。在损失计算中仅考虑对应于Y+和Y-的像素。我们因此ID块13x3-64conv3x3-64convID Block 2 ID Block 33x3-128 3x3-128 3x3-2563x3-256 3x3-256convconvconvconvconv扫描电镜扫描电镜Z Z Z1x1-11x1-1 1x1-1conv转换转换Z1x1-1conv起Z1x1-1convPd2s1Pd2sPs2d2Pd2s1Ps2d3Z1x1-1向上转ْ◌3损失Ps2d损失ْ◌2损失图像2x2游泳2x2游泳13832IDB-1IDB-2IDB-5Ps2dP d2sP s2dP d2sP s2dP d2s通过随机缩放、缩放和旋转训练图像来增强训练集。Multicue[35]包含100个具有挑战性的自然场景。每个场景具有分别从左视图和右视图获取的两个帧序列。左视图序列的最后一帧用边缘和边界注释。在[35,30,50]之后,我们将100个带注释的帧随机分为80个和20个图像,分别用于训练和测试。我们也用[49]中相同的方式增加训练数据。4.2.实现细节图4.由不同ID块(简称IDB)检测的边缘的示例每个ID块分别生成两个边缘预测,Ps2d和Pd2s.定义L(·)为我们使用PyTorch实现我们的网络。在ImageNet [8]上 预 训 练 的 VG- G16 [44] 用 于 初 始 化 主 干 。 对 于BSDS500,用于损失计算的阈值γ被设置为0.3。对于多边界和边缘数据集,γ分别设置为0.3和0.4。NYUDv2.ΣLY ,Y=−α Σj∈Y−log(1−yj)−βΣj∈Y+log(yj),(10)提供了二进制注释,因此不需要为损失计算设置γ。在[30]之后,对于BSDS500和Multicue,我们将参数λ设置为1.1,对于NYUDv2,将λ设置为1.2。其中,Y=(y=1,., |Y |),y∈(0,1)表示a采用SGD优化器对网络进行训练在B-jj SDS500和NYUDv2,我们将所有的批大小设置为10预测边缘图,α=λ·|Y+|(|Y+|+的|Y−|), β=|(|Y+|+的|Y−|)平衡边缘/非边缘像素。|)balancetheedge/non-edgepi x els. λ控制阳性样本相对于阴性样本的重量图4示出了由不同ID块检测到的边缘。我们观察到,不同的ID块检测到的边缘对应于不同的尺度。浅ID块对局部细节产生强烈的响应,而较深ID块对较大尺度的边缘更敏感。例如,斑马和黄油斑马的身体上的细节边缘可以由浅ID块检测到,但是被较深ID块抑制以下部分测试BDCN和SEM的有效性。4. 实验4.1. 数据集我们在三个公共数据集上评估了所提出的方法:BSDS500 [1]、NYUDv2 [43]和Multicue [35]。BSDS500包含200个用于训练的图像、100个用于验证的图像和200个用于测试的图像。 每个图像 由多个注释者手动注释。最终的地面实况是注释者的平均注释。我们还利用[49,30,47]中的策略通过随机缩放,缩放和旋转图像来增强训练和验证集。在这些工作之后,我们还采用PASCAL VOC上下文数据集[36]作为我们的训练集。NYUDv2由1449对对齐的RGB和深度图像组成。它分为381个训练图像,414个验证图像和654个测试图像。NYUDv2最初用于场景理解,因此也用于先前作品中的边缘检测[15,40,49,30]。通过这些工作,我们实验初始学习率、动量和权重衰减分别设置为1e -6、0.9和2 e-4在每10k次迭代之后,学习率降低10倍我们为BSDS500和NYUDv2训练了40k次迭代,为多UE边界和边缘训练了2k和4k次迭代。w 侧和w 熔断器分别设置为0.5和1.1,活泼地由于Multicue数据集包含高分辨率图像,因此我们在训练中从每张图像中随机裁剪500×500个补丁所有的实验都是在具有11GB内存的NVIDIA GeForce1080TiGPU上进行的我们遵循以前的工作[49,30,47,51],并执行标准的非最大值抑制(NMS)以产生最终的边缘图。为了与其他工作进行公平的比较,我们报告了我们的边缘 检 测 性 能 与 常 用 的 评 估 指 标 , 包 括 平 均 精 度(AP),以及F-措施在最佳数据集规模(ODS)和最佳图像规模(OIS)。对于BSDS500和Multicue数据集,边缘预测和地面实况注释之间正确匹配所允许的最大容差设置为0.0075,并且对于NYUDv2数据集设置为0.011,如以前的工作[30,35,50]。4.3. 消融研究在本节中,我们将在BSDS500上进行实验,以研究参 数 的 影 响 并 验 证 网 络 中 的 每 个 组 件 。 我 们 在BSDS500训练集上训练网络,并在验证集上进行评估首先,我们测试了SEM中参数的影响,即。,扩张的数量卷积K和膨胀率因子r0。实验结果总结于表1中。表1(a)显示了r0=4时K的影响。请注意,13833精度KODSOISAP0.7728.7881.80931.7733.7845.81392.7738.7876.81693.7748.7894.81704.7745.7896.8166r10的率ODSOISAP01,1,1.7720.7881.811611,2,3.7721.7882.812422,4,6.7725.7875.813244,8,12.7748.7894.817088,16,24.7742.7889.8169表1. SEM参数对BSDS500验证集上边缘检测性能的影响。(a)显示了r0=4时K的影响。(b)显示了K =3时r 0的影响。表3.在BSDS500测试集上与其他方法进行比较。†表示使用额外的PASCAL上下文数据进行训练。融合结果表示多尺度图像的融合结果(a)(b)第(1)款表2.BDCN中组件在BSDS500验证集上的有效性(a)测试不同的级联架构。(b)说明了SEM和双向级联结构的有效性。(a)(b)第(1)款架构ODSOISAP方法ODSOISAP基线.7681 .7751 .7912基线.7681 .7751 .7912S2d.7683 .7802 .7978SEM.7748 .7894 .8170D2s.7710 .7816 .8049S2D+D2S.7762 .7872 .8013S2D+D2S(BDCN不含SEM).7762.7872 .8013(BDCN不含SEM)BDCN.7765 .7882 .8091K=0表示直接复制输入作为输出。结果表明,当K值大于1时,系统性能得到明显改善.然而,太大的K并不能不断地提高性能。原因可能是,大K产生高维输出,并且使得从这样的高维数据中提取边缘变得困难。表1(b)还表明,较大的r0改善了性能。但是,当r 0太大时,性能开始下降,例如。、r=8。在下面的实验中,我们固定K=3,r=4。10.90.80.70.60.50 0表2(a)显示了不同情况下的比较cade体系结构,即从浅层到深层的单向级联(S2D)、从深层到浅层的双向级联(S2D+D2S),即从深层到深层的双向级联。,BDCN w/o SEM。请注意,我们使用没有完全连接层的VGG16网络作为基线。可以观察到,S2D和D2S结构都优于基线。这表明了级联结构在网络训练中的有效性。这两种级联结构的组合,即,、S2D+D2S,可获得最佳性能。我们进一步测试了结合SEM和S2D+D2S的性能,并在表2(b)中总结了结果,这表明SEM和双向级联结构一致地改善了性能。0.40.30.20.1000.10.20.30.40.50.60.70.80.9 1召回图5.在BSDS 500测试集上给出了该方法和其他方法的查准率-查全率曲线。轮廓[42]和传统的边缘检测方法,包括SCG [40]、PMI[20]和OEF [17]。表3和图5分别总结了与BSD 500的证明基线的性能,例如,改进ODS F-分别上升百分之零点七及百分之零点八。结合SEM和S2D+D2S产生最佳性能。我们可以得出结论,在我们的方法中引入的组件是有效的,在提高边缘检测性能。4.4. 与其他作品的在BSDS500上的性能:我们将我们的方法与最近的基于深度学习的方法进行了比较,包括CED [47],RCF [30],DeepBoundary [23],DCD [27],[2019 - 03- 19][2019 - 03 -04][2019 - 03][2019 - 03 -04][2019 - 01] 19 - 01实验结果表明,该方法在单尺度输入下的F测度ODS为0.820,在多尺度输入下的F测度ODS为0.828,均优于其他方法。使用单尺度输入,我们的方法仍然优于最近使用多尺度输入的CED [47]和Deep-Boundary[23]我们的方法在F-测量ODS中也优于人类感知2.5%。我们的方法的F-测量OIS和AP也高于其他方法。在NYUDv2上的性能:NYUDv2有三种类型的输入,即、RGB、HHA和RGB-HHA。福尔-[F=.803]人[F=.828]我们的:[F=.820]我们的[F=.815] CED:[F=.811]区域合作框架:[F=.806] RCF[F=.793] COB[F=.788] HED[F=.767] HFL[F=.757]DeepContour[F=.753] DeepEdge[F=.746] OEF[F=.743] SE[F=.729] gPb-UCM[F=.717] ISCRA[F=.614] EGB[F=.611]精明[F=.598] MShi0t方法ODSOISAP人类.803.803–SCG [40].739.758.773PMI [20].741.769.799OEF [17].746.770.820[42]第四十二话.757.776.800HFL [3].767.788.795HED [49].788.808.840CEDN [53]†.788.804–[32]第三十二话.793.820.859丹麦克朗[27].799.817.849AMH-Net [51].798.829.869RCF [30].798.815–区域合作框架[30].806.823–RCF [30].811.830–[23]第二十三话.789.811.789[23]第二十三话.809.827.861[23]第二十三话.813.831.866CED [47].794.811.847CED [47].815.833.889LPCB [9].800.816–LPCB [9]†.808.824–LPCB [9].815.834–BDCN.806.826.847BDCN†.820.838.888公司简介.828.844.89013834表4.与NYUDv2上最近的作品比较。方法ODSOISAPgPb-UCM [1].632.661.562gPb+NG [15].687.716.629OEF[17]RGB.651.667–SE [10].695.708.679SE+NG+[16].706.734.738RGB.720.734.734HED [49]HHA.682.695.702RGB-HHA.746.761.786RGB.729.742–RCF [30]HHA.705.715–RGB-HHA.757.771–RGB.744.758.765[51]第五十一话HHA.716.729.734RGB-HHA.771.786.802RGB.739.754–LPCB [9]HHA.707.719–RGB-HHA.762.778–COB-ResNet50[33]RGB-HHA.784.805825RGB.748.763.770BDCNHHA.707.719.731RGB-HHA.765.781.81310.90.80.7表5.与最近的作品比较多。融合结果表示多尺度图像的融合结果。目录方法ODSOISAP人类[35]0.760(0.017)––[35]第三十五话0.720(0.014)––边界HED [50]RCF [30]0.814(0.011)0.817(0.004)0.822(0.008)0.825(0.005)0.869(0.015)–RCF [30]0.825(0.008)0.836(0.007)–BDCN0.836(0.001)0.846(0.003)0.893(0.001)公司简介0.838(0.004)0.853(0.009)0.906(0.005)人类[35]0.750(0.024)––[35]第三十五话0.830(0.002)––边缘HED [50]RCF [30]0.851(0.014)0.857(0.004)0.864(0.011)0.862(0.004)––RCF [30]0.860(0.005)0.864(0.004)–BDCN0.891(0.001)0.898(0.002)0.935(0.002)公司简介0.894(0.002)0.901(0.004)0.941(0.005)0.6图像GT边界BDCN -边界GT-EdgeBDCN-Edge0.50.40.3图7.我们的边缘检测结果的例子之前,非最大值抑制多数据集。0.20.1000.10.20.30.40.50.60.70.80.91召回0.830.80.770.740.71ODS0.850.80.75OIS0.9AP0.860.820.780.74图6.我们的方法的查准率-查全率曲线和0.685 4 320.75 4 320.75 4 3 2适用于NYUDv2。在前人工作的基础上,我们对它们进行了实验。RGB-HHA的结果是通过对RGB和HHA上检测到的边缘进行平均来获得的。表4显示了我们的方法与几种最近的方法 的 比 较 , 包 括 gPb-ucm [1] , OEF [17] , gPb+NG[15],[2019- 04 -16][2019 - 04 - 05][2019 - 05] 1Net [51].图6显示了我们的方法和其他竞争对手的准确率-召回率曲线。所有的评估结果都是基于一个单一的尺度输入。如表4和图4所示 6.我们的业绩是有竞争力的,即:,优于除AMH-Net外的大多数比较作品[51]。请注意,AMH-Net应用deep-er ResNet 50来构建边缘检测器。对于较浅的网络,我们的方法在RGB图像上仍然优于AMH-Net,即。,我们的0.748与0.744的AMH-Net在F测量ODS中。与以前的工作相比,我们对现有工作的改进实际上是更实质性的,例如。,在NYUDv2上,我们在ODS中的RCF [30]和HED [49]增益分别为0.019和0.028,高于[ 47]第二十七话:我的世界,我的世界[47]图8.当我们将ID块的数量从5减少到2时,边缘检测精度的比较。用VGG16学习的HED表示为实线以进行比较。[30]第49话:我的心多路性能:Multicue由两个子数据集组成,即多小区边界和多小区边缘。正如在RCF [30]和HED [50]的最新版本中所做的那样,我们将三个独立实验的得分平均作为最终结果。 我们在表5中显示了与最近工作的比较,其中我们的方法实现了比RCF [30]和HED [49]更高的性能。对于边界检测任务,我们优于RCF和HED的1.3%和2.4%,分别在F-测量ODS。对于边缘检测 任 务 , 我 们 的 性 能 分 别 比 RCF 和 HED 高 3.4% 和4.3%。此外,我们的方法的性能预测比这两种方法小得多,这意味着我们的方法提供了更稳定的结果。我们的方法在Multicue上产生的一些边缘检测结果如图所示。7 .第一次会议。讨论内容:上述实验表明,[F= 0.765] 我们的[F=0.757]区域合作 框 架 [F=0.741][F=.706] SE+NG+[F=.695] SE[F=.687] gPb+NG[F=.651] OEF[F=.631] gPb-UCM精度13835120100800.8280.820.8120.7960.8150.8130.8110.7990.7980.793119.60.7880.830.820.810.8表6.对BDCN中各层的性能(ODS)进行了分析,CF [30]和HED [49]在BSD 500测试集上。60402016.3 16.308.690.76621.42.260.2814.714.814.70.78828.82214.70.7670.757200.380.790.780.770.760.750.74图9.与其他方法的参数和性能比较。“BDCN”后面的数字表示IDBlock的编号。多尺度表示多尺度结果。我们提出的方法的竞争力。我们进一步测试了我们的方法在学习多个方面的能力[47]第四十七话:我的世界RCF [29]CED [45]BDCN使用浅网络缩放表示。 我们测试我们方法和不同网络深度的区域合作框架,即采用不同数目的卷积块来构造边缘检测模型。图8呈现了B-SDS500上的结果。如图8,RCF [ 30 ]的性能下降比我们的方法更大,因为我们减少了网络的深度。这验证了我们的方法在检测浅网络边缘时更有效。我们还展示了我们的方法没有SEM和BDCN结构的性能这些消融表明,去除BDCN或SEM会降低性能。还有趣的是观察到,在没有SEM的情况下,我们的方法的性能大幅下降。因此,这验证了SEM对浅网络中多尺度表示学习的重要性。图9进一步示出了参数vs.我们的方法与其他基于深度网络的方法在BSDS500上的性能。在VGG16中有5个卷积块,HED [49],RCF [30]和我们的方法使用类似数量的参数,即约16M。当我们将ID块的数量从5减少到 2 时 , 我 们 的 参 数 数 量 急 剧 减 少 , 分 别 下 降 到8.69M、2.26M和0.28M。我们的方法仍然实现了0.766的F-测量ODS仅使用两个ID块与0.28M参数。它还优于HED和RCF,具有更浅的网络,即。,分别具有3个和4个ID块。例如,它在3个ID块和仅HED的 1/6参数的情况下比HED好0.8%因此,我们得出结论,我们的方法可以实现有前途的边缘检测精度,即使是一个紧凑的浅网络。为了进一步显示我们方法的优势,我们通过不同的中间层评估了边缘预测的性能,并在表6中显示了与HED [49]和RCF [30]的比较。可以观察到,我们的网络的中间预测也始终超出-图10. BSDS500测试集上边缘检测结果的比较。所有结果都是在非最大值抑制之前使用单个尺度输入计算的原始边缘图分别执行HED和RCF中的操作。使用5个ID块,我们的方法以大约22fps的速度进行边缘检测,与大多数基于DCNN的方法相当。使用4、3和2个ID块,它分别加速到29 fps、33 fps和37 fps。图10比较了我们的方法和几个最近的边缘检测结果。5. 结论本文提出了一种用于边缘检测的双向级联网络。通过引入双向级联结构来强制每一层专注于特定规模,BDCN用特定于层的监督来训练每个网络层。为了丰富用浅网络学习的多尺度表示,我们进一步引入了尺度增强模块(SEM)。我们的方法在三个数据集上与超过10种边缘检测方法进行了比较,在BSDS 500上实现了0.828的ODS F-测量,比当前最先进的方法高1.3%。我们的实验还表明,学习规模专用层导致紧凑的网络与一小部分的参数,例如。,我们的方法在HED [49]中仅使用其参数的1/6。6. 确认本 工 作 得 到 了 北 京 市 自 然 科 学 基 金 的 资 助 .JQ18012 , 国 家 自 然 科 学 基 金 项 目 , 批 准 号 :61620106009, 61572050, 91538111. 我们我还要感谢NVIDIA参数ODS层ID。HED [49]RCF [30]BDCN10.5950.5950.72720.6970.7100.76230.7500.7660.77140.7480.7610.80250.6370.7580.815保险丝0.7900.8050.82013836引用[1] P. Arbelaez,M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE Trans.模式分析马赫内特尔,33(5):898-916,2011. 一、三、五
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功