深度类别感知语义边缘检测模型及其在标准数据集上的性能优势

24 浏览量更新于2023-10-15 收藏 4.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5964CASENet：深度类别感知语义边缘检测卡内基梅隆大学yzhiding@andrew.cmu.edu陈锋刘明宇<$Srikumar Ramalingam<$三菱电机研究实验室（MERL）网址：cfeng@merl.com，mingyul@nvidia.com，网址：www.example.com，srikumar@cs.utah.edu摘要边界和边缘线索在改善各种视觉任务中非常有益，例如语义分割、对象识别、立体和对象建议生成。最近，边缘检测的问题已经被重新审视，并且深度学习已经取得了重大进展。虽然经典的边缘检测本身是一个具有挑战性的二元问题，但类别感知的语义边缘检测本质上是一个更具挑战性的多标签问题。我们模型的问题，使每个边缘像素可以与一个以上的类，因为他们出现在轮廓或交界处属于两个或更多的语义类。为此，我们提出了一种基于ResNet的新型端到端深度语义边缘学习架构和一种新的跳过层架构，其中顶部卷积层的类别边缘活动共享并融合了同一组底层特征。然后，我们提出了一个多标签损失函数来监督融合激活。我们表明，我们提出的架构有利于这个问题，lem具有更好的性能，我们优于目前最先进的语义边缘检测方法的标准数据集，如SBD和Cityscapes的大幅利润。1. 介绍图1显示了来自Cityscapes数据集[8]的道路场景图像，其中包含几个对象类别，如建筑物，地面，天空和汽车。特别是，我们研究了同时检测边缘像素并根据与一个或多个对象类别的关联对其进行分类的问题[18，42]。例如，位于分隔建筑物和柱的轮廓上的边缘像素可以与这两个对象类别相关联在图1中，我们可视化了边界，并列出了典型类别组合的颜色，如在我们的问题中，每一个边缘像素都用一个向量来表示，这个向量的各个元素表示像素的关联强度*作者贡献相等。[2]这项工作是在与MERL合作期间完成的。(a) 输入图像（b）地面实况(c)CASENet输出图1. 边缘检测和分类与我们的方法。给定一幅街景图像，我们的目标是同时检测边界，并为每个边缘像素分配一个或多个语义类别。(b)以及（c）是由HSV进行颜色编码的，其中色调和饱和度一起表示类别的组成和相关联的强度。最好用彩色观看。不同的语义类别。虽然大多数边缘像素将仅与两个对象类别相关联，但在交叉点[37]的情况因此，我们不限制像素可以关联的对象类别的数量，并将我们的任务制定为多标签学习问题。在本文中，我们提出了CASENet，一个能够检测类别感知语义边缘的深度网络。给定K个定义的语义类别，网络基本上产生K个单独的边缘图，其中每个图指示某个类别的边缘概率。图2中给出了测试图像上的单独可视化边缘图的示例。边缘检测的问题已被证明是有用的一些计算机视觉任务，如分割，建筑+杆路+人行道道路人行道+建筑建筑+交通标志建筑+汽车公路+汽车建筑+植被道路+灯杆+天空杆+车建筑+人杆+植被5965图2.测试图像和与边界框区域对应的缩放边缘图的示例可视化的边缘图分别属于人、车和道路的类别。绿色和蓝色表示正确检测到的边缘像素和遗漏的边缘像素。tation [1，3，4，6，52]、object proposal [3]、3D shaperecovery [27]和3D reconstruction [44]。通过更好地理解边缘类并将其用作先验或约束，可以合理地期望这些任务中的一些通过一点外推，不难看出，在没有任何附加信息的情况下，近乎完美的语义边缘可以解决语义分割、深度估计[21，38]、基于图像的定位[24]和对象检测[13]。我们认为，这是重要的，以提高- prove语义边缘检测的准确性，在一定程度上走向整体场景的解释。早期的工作倾向于将边缘信息视为低级线索以增强其他应用程序。然而，大量训练数据的可用性和深度学习方法的进步使得边缘检测问题在过去几年中取得了重大进展。特别是，有更新的数据集[18]。大规模语义分割数据集[8]的可用性也可以很容易地处理以获得语义边缘数据集，因为这两个问题可以被视为对偶问题。1.1. 相关作品随着时间的推移，边界或边缘检测的定义已经从低级发展到高级特征：简单的边缘过滤器[5]，深度边缘[17]，对象边界[40]和se-mantic轮廓[18]。从某种意义上说，边缘检测算法的演变捕捉了计算机视觉从简单的卷积滤波器（如Sobel [29]或Canny [5]）到完全开发的深度神经网络的进展。早期的边缘检测方法使用简单的卷积滤波器，如Sobel[29]或Canny [5]。深度边缘一些以前的工作集中在将轮廓标记为凸面，凹面和遮挡轮廓，这些轮廓来自合成线条图[38]和限制设置下的真实世界图像[14，17]。室内布局估计也可以被看作是凹边界（线折叠墙壁，天花板和地面）的识别[20]。通过恢复遮挡边界[22]，可以获得场景中不同层的深度排序。感知边缘各种各样的方法被驱动朝向感知边界的提取[40]。多尔-拉尔等人 [9]在不同的补丁上使用提升决策树来提取边缘图。Lim等人。 [33]使用随机森林计算草图令牌，这些令牌是对象边界补丁。其他几种边缘检测方法包括统计边缘[31]、多尺度边界检测[43]和逐点互信息（PMI）检测器[25]。最近，Dollar和Zitnick [10]提出了一种使用结构化随机森林的实时快速边缘检测方法。使用深度神经网络的最新方法[3，30，50，51]将检测性能推向了最先进的水平。语义边缘语义边缘检测的起源可能被精确定位到[42]。作为一项高级任务，它也被隐式或显式地用于与分割[49]和重建[21]相关的许多问题中。在某种意义上，所有语义分割方法[7，8，12，16，35，36，41，45，48]都可以被松散地视为语义边缘检测，因为人们可以很容易地从分割结果中获得边缘，尽管不一定是准确的边缘。有论文专门将问题陈述表述为二进制或类别感知语义边缘检测[3，4，13，18，28，39，42，51] 。 Hariharan 等人 [18] 介绍了语义边界数据集（SBD），并提出了反向检测器，它结合了自底向上的边缘和自顶向下的检测器信息来检测类别感知的语义边缘。HFL [3]首先使用VGG [47]来定位二进制语义边缘，然后使用深度语义分割网络（如FCN [36]和DeepLab [7]）来获得类别标签。然而，由于分离的预测过程，该框架不是端到端可训练的用于边缘检测的DNN深度神经网络最近在边缘检测中变得流行。相关工作包括基于稀疏编码的SCT[37]、N4字段[15]、深轮廓[46]、深边缘[2]和CSCNN [23]。一种值得注意的方法是整体嵌套边缘检测（HED）[50]，它训练和预测图像到图像的边缘，并执行端到端训练。1.2. 贡献我们的工作是有关HED在采用嵌套的architec- ture，但我们的工作扩展到更困难的类别感知语义边缘检测问题。我们在本文中的主要贡献总结如下：59661 1 2 2K• 为了解决边分类问题，我们提出了一个多标签学习框架，它允许比传统多类框架改进的• 我们提出了一种新的嵌套架构，无需对ResNet进行深度监督[19]，其中底部特征仅用于增强顶部分类。我们证明了深度监管对我们的问题可能没有好处• 我们在SBD和Cityscapes数据集上的表现优于以前最先进的方法。2. 问题公式化给定一幅输入图像，我们的目标是计算与预定义类别相对应的语义边缘图。更正式地说，对于输入图像I和K定义的语义类别，我们感兴趣的是获得K个边缘图{Y1，···，YK}，每个具有与I相同的大小。对于具有参数W的网络，我们表示为Yk（p|I，W）∈[0，1]作为网络输出，指示像素p处的第k个语义类别上的计算边缘概率。2.1.多标记损失函数可能是由于语义分割的多类性质，一些关于类别感知的语义边缘检测的相关工作或多或少地从多类学习的角度研究了这个问题。我们的直觉是，这个问题本质上应该允许一个像素同时属于多个类别，并且应该通过多标签学习框架来解决。因此，我们提出了多标签损失。假设每个图像I具有一组标签图像{Y<$1，···，Y<$K}，其中Y<$k是指示第k个图像的基础真值的二进制图像。类语义边缘。多标记损失公式化为：ΣL（W）=Lk（W）（1）K分析与之相关的问题，并通过提出CASENet架构来解决这些问题。3.1. 基础网络我们在全卷积网络框架下解决边缘检测问题。我们采用ResNet-101，去掉了原来的平均池和全连接层，保留了底层卷积块。我们进一步修改基础网络，以便更好地保留低级别的边缘信息。我们改变第一个和第五个卷积块的步幅（3）在ResNet-101中从2到1。我们还将膨胀因子引入后续卷积层，以保持与原始ResNet相同的感受野大小，类似于[19]。3.2. 基本架构一个非常自然的架构可能是图1所示的基本架构。第3（a）段。在基础网络之上，我们添加了一个分类模块（图1）。3（d））作为1×1卷积层，随后进行双线性上采样（由K分组的去卷积层实现）以产生一组K个激活图{A 1，···，AK}，每个激活图具有与图像相同的大小。然后，我们使用由Yk（p）=σ（Ak（p））给出的S形单元来对属于第k类边缘的像素的概率进行建模，该S形单元在等式中给出。（一）. 注意，Yk（p）不是互斥的。3.3. 深度监督架构整体嵌套边缘检测（HED）网络[50]的显著特征之一是具有深度监督的嵌套架构[32]。其基本思想是除了顶部网络损耗之外，还将损耗施加到底部卷积侧。此外，融合边缘地图是通过监督的线性组合的侧激活。注意，HED仅执行二进制边缘检测。我们扩展了此架构，以处理K通道，ΣΣ={−βY<$k（p）log Yk（p|I; W）输出和K通道的最终输出。我们称这就是深度监督网络（DSN），如KP-（1 −β）（1−Y<$k（p））log（1−Yk（p|I;W））}，图3（b）。在这个网络中，我们连接上述分类模块的输出的每一个堆栈的残油，其中β是图像中非边缘像素的百分比，以说明样本数的偏斜度，类似于[50]。3. 网络架构我们提出了CASENet，一种端到端的可训练卷积神经网络（CNN）架构（如图所示）。3（c））以解决类别感知的语义边缘检测。在描述CASENet之前，我们首先提出了两种可供选择的网络架构，其中一种可以直接给出关于边缘检测和语义分割的丰富的先前文献。虽然这两种架构也可以解决我们的任务，但我们将双块，产生5个侧分类激活图{A（1），. . . ，A（5）}，其中它们中的每一个具有K通道。然后，我们通过切片连接层融合这5个激活图（图中颜色表示通道索引）。3（g））以产生5K通道激活图：Af={A（1），. . . ，A（5），A（1），. . . ，A（5），. . . ，A（5）}（2）一个f被送入我们的融合分类层，它执行K-分组的1×1卷积（图1）。3（f））以产生K通道激活图A（6）。最后，在{A（1），. . . ，A（6）}来提供对该网络的深度监督。59675KKKKKK第4面分类第5面分类融合分类102425664面1分类侧2分类面3分类res3res24KK111第5面分类融合分类102425664Side1特征提取res3res2Side2特征提取第三面特征提取Res51024Res4kkkk2048 20481024102410241024res3256256256res264 64 643数据res13数据res13数据res1(a) 基础网络(b) 深度监控网络（DSN）(c) CASENetK上采样Ki x 1卷积(d) 分类1上采样1i x 1卷积(e) 侧特征(f) 融合分类(g) 切片连接(h) 共享级联图3. 本文设计的三种CNN架构如（a）-（c）所示。实心矩形表示CNN层的复合块。其宽度的任何减小指示该块的输出特征图的空间分辨率下降箭头旁边的数字表示块的输出特征的通道数蓝色实心矩形是ResNet块的堆栈紫色实心矩形是我们的分类模块。一个红色的虚线表示块灰色实心矩形是我们的侧面特征提取模块。深绿色实心矩形是我们的融合分类模块执行的K-分组1× 1卷积。（d）-（h）描绘了（a）-（c）中使用的各种模块的更多细节，其中轮廓矩形示出了输入和输出特征图。最好用彩色观看。请注意，我们结合分组卷积而不是相应的常规操作执行切片级联的原因如下。由于5个侧激活是受监督的，因此我们隐式地约束这些侧激活的每个通道以携带与相应类最相关的信息利用切片级联和分组卷积，像素p的融合激活由下式给出A（6）（p）=WT[A（1）（p）T，···，A（5）（p）T]（3）这基本上将来自不同尺度的相应类别特异性激活整合为最终融合的激活。我们的实验经验支持这种设计选择。3.4. CASENet架构在回顾Basic和DSN架构时，我们注意到类别感知语义边缘检测任务中的几个潜在相关问题首先，底侧的感受野是有限的。因此，考虑到上下文信息在语义分类中起着重要作用，要求网络在早期阶段执行语义分类可能是不合理的。我们认为语义分类应该发生在用高级信息编码特征的顶部。第二，底部特征有助于增强顶部分类，抑制非边缘像素，并提供详细的边缘定位和结构信息。因此，在边缘检测中应考虑它们我们提出的CASENet架构（图3（c））的目的是解决上述问题。该网络采用了嵌套式架构，在某种程度上与DSN相似，但也包含几个关键的改进。我们这些改进总结如下：1. 将底部的分类模块替换为特征提取模块。2. 将分类模块和实施监督仅放在网络的顶部。3. 执行共享级联（图3（h））而不是分片级联。侧特征提取与侧分类的区别在于前者只输出单通道特征图F（j）而不是K类激活。的2048Res51024Res4分类Res51024Res41111x1conv 1x1conv1x1转换3334483191共享并置分片级联共享并置分片级联5968共享连接复制底部特征F ={F（1），F（2），F（3）}，以分别与K个顶部激活中的每一个Af={F，A（5），F，A（5），F，A（5），. . . ，F，A（5）}.（四）4.3. 实现细节我们使用Caffe库[26]训练和测试了CASENet、HED[50]和1 2 3K所得到的级联激活图再次被馈送到具有K分组卷积的融合分类层中以产生K通道激活图A（6）。一般来说，CASENet可以被认为是一个联合边检测和分类网络，让较低级别的特征参与，并通过跳层架构增强更高级别的4. 实验在本文中，我们将CASENet1与以前的最先进方法进行了比较，包括InvDet [18]，HFL [3]，弱监督对象边界[28]以及几种基线网络架构。4.1. 数据集我们在SBD [18]上评估了这些方法，这是一个用于基准语义边缘检测的标准除了SBD，我们还将评估扩展到Cityscapes [8]，这是一个流行的语义分割数据集，具有像素级高质量注释和具有挑战性的街景场景。据我们所知，我们的论文是第一个工作，正式报告语义边缘检测结果在这个数据集上。SBD数据集由来自PAS- CAL VOC 2011 [11]训练集的11355张图像组成，分为8498张训练图像和2857张测试图像2。该数据集具有标记有20个Pascal VOC类之一的语义边界。该数据集包含5000张图像，分为2975张训练图像、500张验证图像和1525张测试图像。由于测试图像的标签目前不可用，因此我们将验证图像作为实验中的测试集。4.2. 评价方案在SBD和Cityscapes上，使用官方基准代码和来自[18]的地面实况评估每个类别的边缘检测精度。我们将所有设置和参数保持为默认值，并报告最佳数据集规模（ODS）下的最大F-度量（MF）和每个类的平均精度（AP）。请注意，对于城市景观，我们完全按照[18]生成具有单个像素宽度的地面实况边界以进行评估，并考虑到评估速度，将地面实况和预测边缘图的大小沿每个维度减少一半。1源代码可从以下网址获得：http://www.merl.com/research/许可证#CASENet。2对数据集进行了清理，图像编号略有变化我们还报告了相应更新的InvDet结果。训练标签考虑到人的注释和真正的边缘，以及标签ambigu-边界附近的像素数，我们生成略厚的地面真实边缘用于网络训练。这可以通过查看像素的邻居并寻找分割标签中的任何差异来完成。如果存在这种差异，则该像素被视为边缘像素在我们的论文中，我们设置邻域的最大范围为2。在多标签框架下，来自不同类别的边可以重叠。基线由于几种主要的比较方法，由于HFL和HED使用VGG或基于VGG的体系结构进行边缘检测和分类，因此我们也采用CASENet和VGG上的其他基线体系结构（简称为CASENet-VGG）。特别是，我们删除了conv 4之后的最大池化层，并保持conv 5，fc 6和fc 7的分辨率与conv 4相同（输入的1/8）。与[7]类似，fc 6和fc 7都被视为卷积层3×3和1×1卷积，维度设置为1024。膨胀因子2和4应用于conv5和fc6。为了将我们的多标签框架与多类进行比较，我们生成了每个类的非重叠边缘的地面真值，重新加权softmax损失，类似于我们的论文，并将顶部替换为21类重新加权的softmax损失。在我们的实验中，我们在 CASENet 中初始化ResNet/VGG的卷积块，并将所有比较基线与在MSCOCO上预训练的模型进行比较[34]。超参数我们将所有比较方法的超参数统一在同一个基础网络上，并按照HED设置大部分超参数。特别地，我们以10的迭代大小执行SGD，并将损失权重固定为动量0.9，重量衰减0.0005。对于使用ResNet的方法，我们将学习率、步长、gamma和裁剪大小设置为1e −7/5e − 8，10000/20000，0。1/0。2和SBD和Cityscapes分别为352×352/472×472对于VGG，学习率设置为1e−8，而其他学习率与SBD上的ResNet相同。对于具有软-最大损失，学习率设置为0.01，而其他参数保持不变。SBD和Cityscapes的迭代次数根据经验设置为22000和40000。在训练期间，我们在SBD和Cityscapes上启用随机镜像和裁剪。我们还通过使用缩放因子{0.5，0.75，1.0，1.25，1.5}对每个图像进行缩放来增强SBD数据，而没有这种增强是在城市景观上进行的。59694.4. 关于SBD表1示出了在SBD上执行按类别边缘检测的不同方法的MF分数，其中CASENet优于先前的方法。在使用[18]中的基准代码时，我们注意到曲线的召回分数不是单调增加的，主要是由于在测量精度和召回率时在阈值化之后进行后处理。这是合理的，因为我们没有对获得的原始边缘图进行任何我们只报告了关于SBD的MF，因为在这种情况下AP没有很好地定义。读者可以参考分类精确查全率曲线的相关资料。3400320030002800260024002200200010000 15000 20000 25000 30000 35000迭代多标签还是多类别？我们比较了所提出的多标签损失与基本架构下的重新加权softmax损失。可以看到，使用softmax会导致VGG和ResNet的性能显著下降，这支持了我们将任务制定为多标签学习问题的动机，而不是以多类方式解决它的广为接受的概念。深度监管有必要吗？我们将CASENet与基线网络架构（包括图1中所示的Basic和DSN）进行了比较。3.第三章。结果从经验上支持了我们的直觉，即对底部的深度监管可能没有必要。特别是，CASENet经常在每类MF以及最终平均MF得分上获胜。我们的观察结果是，注释质量在一定程度上影响了网络学习行为和评估，导致不同方法之间的性能差异较小。这种区别在城市景观中变得更加明显。高层监督有必要吗？人们可能会进一步质疑在CASENet中对Side-5激活实施监督的必要性我们使用CASENet−来表示在训练期间没有Side-5监督的相同CASENet架构。在添加Side-5监督后的改进表明，对更高级别的Side激活的监督是有帮助的。我们的直觉是，Side-5监督有助于Side- 5更多地关注语义类的分类，而与底层交互的影响较小。可视化侧激活我们在测试图像上可视化了CASENet、CASENet −和DSN的结果，如图2所示。五、总体而言，CASENet实现了比其他两个更好的检测。我们进一步显示了这个测试示例的侧激活，如图11所示。6，从中可以看出，侧面1、侧面2和侧面3上的DSN的激活比CASENet特征更模糊。这可能是由于对这些层强加分类要求造成的，考虑到有限的接收域，这似乎有点咄咄逼人图4. CASENet的不同变体的训练损失SBD数据集。损失分别由8000的核长度移动平均。所有曲线均表示最终熔断损耗，CASENet-side 5除外，它表示Side-5的输出损耗请注意，CASENet损耗始终是最小的。和信息，并可能导致性能下降。此外，人们可能会注意到CASENet −和CASENet之间的“Side 5-Person”和“Side 5-Boat”的差异从ResNet到VGG表1中的CASENet-VGG显示了与HFL-FC 8相当的性能。在CRF后处理的帮助下，HFL-CRF的实验结果在一定程度上表明了我们的学习框架的有效性，因为HFL分别使用两个VGG网络进行边缘定位和分类。我们的方法也显著优于[28]的HED基线，MF/AP为44/41，检测为49/45其他变体我们还研究了其他几种架构。例如，我们在“res1”中保持步幅为2。这降级的性能较低的输入分辨率和灰。另一种变体是使用相同的CASENet架构，但是在侧1-3（在图1中表示为CASENet边缘）上施加二进制边缘损失（其中，只要像素属于至少一个类的边缘，就认为像素位于边缘上）。4）.然而，我们发现，这样的监督似乎是一个分歧的语义分类在侧5。4.5. Cityscapes的结果我们还使用ResNet作为Cityscapes上的基础网络来训练和测试DSN和CASENet。与SBD相比，Cityscapes具有相对更高的注释质量，但包含更具挑战性的场景。该数据集包含更多的重叠对象，这导致更多的情况下，多标签语义边界像素，从而可以更好地测试所提出的方法。在表1中，我们提供基本DSNCASENet边缘CASENetCASENet侧5CASENet−损失5970度量类别航空法自行车鸟船瓶汽车猫椅子牛表狗马姆比凯人植物羊沙发列车电视装置InvDet41.546.715.617.136.542.640.322.718.926.912.518.235.429.448.213.926.911.121.931.427.9基线HFL-FC871.659.668.054.157.268.058.869.343.365.833.367.967.562.269.043.868.533.957.754.858.7HFL-CRF73.961.474.657.258.870.461.671.946.572.336.271.173.068.170.344.473.242.662.460.162.5基本Softmax67.655.350.444.942.364.661.063.937.443.125.357.957.160.072.033.053.530.954.447.751.1MF（ODS）VGG基本CASENet70.072.558.661.562.563.850.254.551.252.365.465.460.662.666.967.239.742.647.351.831.031.460.162.059.461.960.262.874.475.438.041.756.059.835.935.860.059.753.850.755.156.8基本Softmax74.064.164.852.552.173.268.173.243.156.237.367.468.467.676.742.764.337.564.656.360.2基本82.574.280.262.368.080.874.382.952.973.146.179.678.976.080.452.475.448.675.868.070.6ResNetDSN81.675.678.461.367.682.374.682.652.471.945.979.278.376.280.151.974.948.076.566.870.3CASENet−83.074.779.661.567.780.774.182.853.375.044.579.880.476.280.253.277.347.775.666.370.7CASENet83.376.080.763.469.281.374.983.254.374.846.480.380.276.680.853.377.250.175.966.871.4表1. SBD基准的结果。所有MF评分均以%衡量。度量方法道路人行道建筑壁围栏极交通灯交通标志植被地形天空人骑手车卡车总线火车摩托车自行车意味着MF（ODS）DSNCASENet85.486.676.478.882.685.151.851.556.558.966.570.162.670.872.174.680.683.561.162.976.079.477.581.566.371.384.586.952.350.467.369.549.452.056.061.376.080.268.571.3APDSNCASENet78.077.776.078.683.987.647.949.053.156.967.972.857.970.375.978.979.985.160.263.175.078.475.483.061.070.185.889.550.646.967.870.042.548.851.459.672.078.966.470.8表2.Cityscapes数据集上的结果所有MF和AP评分均以%衡量DSN-Boat DSN-Person CASENet−CASENetDSN CASENet− CASENet图5. SBD数据集上的示例结果。第一行：类别的输入和地面实况图像和颜色代码。第二行：不同边缘类别的结果，其中使用与图1中相同的颜色代码。1.一、第三行：仅人边缘的结果。最后一行：仅船边的结果绿色、蓝色、红色和白色分别表示真阳性、假阴性、假阳性和真阴性像素，阈值为0.5。最好用彩色观看。比较方法的MF和AP。据我们所知，这是第一篇定量报告的Cityscapes类别明智的语义边缘的检测性能。可以看到，CASENet在所有类别中始终优于DSN，并且具有显著的优势。除了定量的结果，我们还可视化图中的一些结果。七是质量比较。5. 总结发言在本文中，我们提出了一种用于类别感知语义边缘检测的端到端深度网络。我们表明侧1侧2侧3侧4侧5-人Side 5 Side 5-船图6. 在图1的输入图像上的侧激活。五、前两列分别显示与船和人的类别对应的DSN最后两列显示侧面特征和分类激活分别为CASENet−注意，每个图像的像素值范围被分别归一化为[0，255在其相应的侧激活输出内进行可视化。所提出的嵌套架构，CASENet，显示出在边缘检测和分割中流行的一些现有架构的改进。我们还表明，所提出的多标签学习框架导致更好的学习行为的边缘检测。我们提出的方法比以前的国家的最先进的方法具有显着的利润率。在未来，我们计划将我们的方法应用于其他任务，如立体和语义分割。船+人船人5971建筑+植被路道路+交通标志建筑建筑+电杆道路+人行道建筑+交通标志交通标志极植被建筑+人人行道人行道+植被人行道+杆杆+植被植物+自行车建筑+交通灯人行道+人人行道+交通标志公路+自行车人骑手+自行车自行车交通标志+植被植被+骑手建筑+自行车建筑+骑手杆+交通标志人+自行车人行道+自行车图7. 城市景观的示例结果。从左到右的列：输入、地面实况、DSN和CASENet。CASENet在具有挑战性的对象上显示出更好的检测质量，而DSN在非边缘像素上显示出更多的误报最好用彩色观看5972引用[1] P. 阿尔贝尔·阿埃斯，M. 迈尔角 Fowl k es和J. 马利克轮廓检测与分层图像分割。IEEE Trans.PAMI，33（5）：898-916，2011. 2[2] G. Bertasius，J. Shi和L.托雷萨尼Deepedge：一个多尺度分叉深网络，用于自顶向下的轮廓检测。CVPR，2015。2[3] G. Bertasius，J.Shi和L.托雷萨尼高对低，低对高：从深层物体特征进行有效的边界检测及其在高级视觉中的应用。在ICCV，2015年。二、五[4] G. Bertasius，J.Shi和L.托雷萨尼边界神经场语义分割在CVPR，2016年。2[5] J. 精明边缘检测的计算方法IEEE Trans. PAMI，（6）：679-698，1986年。2[6] L- C.陈建堂<英>来华传教士。，1939--人Barron，K. M.G. Papandreou和A. L.尤尔。基于cnn和区分训练域变换的特定任务边缘检测语义图像分割在CVPR，2016年。2[7] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。2015年，国际会议。二、五[8] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒Cityscapes数据集用于语义城市场景理解。在CVPR，2016年。一、二、五[9] P.Dollar，Z. Tu和S.贝隆吉边缘和对象边界的监督学习。CVPR，2006。2[10] P.Dollar和C.齐特尼克用于快速边缘检测的结构化森林。InICCV，2013. 2[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2011（VOC2011）http://www.pascal-network.org/challenges/VOC/voc2011/workshop/index.html啊5[12] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。IEEE Trans. PAMI，35（8）：1915-1929，2013年。2[13] V. Ferrari，F. Jurie和C.施密特从图像到形状模型，用于物体检测。 Int. Journal of Computer Vision，87（3）：284-303，2010。2[14] D. F. Fouhey，A.Gupta，和M。赫伯特展开一个室内折纸世界。2014年，在ECCV。2[15] Y. Ganin和V. Lempitsky N × 4-字段：用于图像变换的神经网络最近邻场。InACCV，2014.2[16] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。2[17] S. 古普塔山口 Arbel a'ez和J. 马利克rgb-d影像室内场景的感知生成与识别。CVPR，2013。2[18] B. 哈里哈兰山口阿尔韦湖 Bourd ev，S. Maji和J. 马利克从反向检测器的语义轮廓见ICCV，2011年。一、二、五、六[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。35973[20] 诉Hedau，D.Hoiem和D.福赛斯恢复杂乱房间的空间ICCV，2009年。2[21] D. Hoiem，A. A. Efros，和M。赫伯特从一个单一的图像几何背景。载于ICCV，2005年。2[22] D. Hoiem，A.A. Efros，和M。赫伯特从图像中恢复Int.Journal of Computer Vision，91（3）：328-346，2011.2[23] J. 黄和T.-L. 刘某用于轮廓检测的逐像素深度学习2015年，国际会议。2[24] S. L.使用全景图像的城市景观。S.拉马林加姆和南布阿齐兹山口斯图尔姆山品牌InIROS，2010. 2[25] P. Isola，D. Zoran，D. Krishnan和E. H.阿德尔森基于逐点互信息的清晰边界检测。2014年，在ECCV。2[26] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACM Multimedia，2014年。5[27] K. Karsch，Z. Liao，J. Rock，J. T. Barron和D.霍伊姆三维物体形状恢复的边界线索CVPR，2013。2[28] A. 霍雷瓦 R. 本纳森， M. 奥姆兰， M. 海因和B.席勒弱监督对象边界。在CVPR，2016年。二、五、六[29] 基特勒。Sobel边缘检测器的精度研究。Image andVision Computing，1（1）：37-42，1983. 2[30] I. Kokkinos使用深度学习推动边界检测的边界。2016.2[31] S. Konishi，A.L. Yuille，J.M. Coughlan和S.C. 竹统计边缘检测：学习和评估边缘线索。IEEE Trans. PAMI，25（1）：57-74，2003年。2[32] C.- Y. 李，S。Xie，山核桃P.Gallagher，Z.zhang和Z.涂。深度监管网。InAISTATS，2015. 3[33] J. Lim，C. Zitnick和P.美元.草图标记：用于轮廓和对象检测的学习中级表示。CVPR，2013。2[34] T.- Y.林，M。迈尔，S。贝隆吉湖D.布尔代夫河B.格希克，J。Hays，P. Perona，D. Ramanan，P. Dollar，C. L. 齐特尼克Microsoft COCO：上下文中的通用对象CoRR，abs/1405.0312，2014。5[35] M. Y. Liu，S. Lin，S. Ramalingam和O.图泽尔街景图像的分层解读。在RSS，2015. 2[36] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。2[37] M.迈尔，S。X. Yu，and P. Perona.用于轮廓检测和语义标记的重构稀疏代码传输。InACCV，2014. 一、二[38] J·马利克解释弯曲物体的线条图。 Int.Journal of Computer Vision，1（1）：73-103，1987。2[39] K. K. Maninis，J.Pont-Tuset，P.Arbela' ez和L.V. 好极了面向卷积的边界。在ECCV，2016年。2[40] D. R. 马丁角，澳-地C. Fowlkes和J.马利克学习使用局部亮度、颜色和纹理线索检测自然图像边界。IEEETrans. PAMI，26（5）：530-549，2004年。2[41] P. Pinheiro和R.科洛伯特用于场景标记的递归卷积InICML，2014. 25974[42] M.普拉萨德A.Zisserman，A. Fitzgibbon，M. P. Kumar，以及P. H. 乇学习特定类别的边缘，用于对象检测和分割。在计算机视觉，图形和图像处理。2006. 一、二[43] X.仁多尺度改进了自然图像中的边界检测。ECCV，2008年。2[44] Q. 珊 B. 没有卷发 Y. 古川 C. 埃尔南德斯，还有S. 塞茨遮挡多视图立体的轮廓CVPR，2014。2[45] A. Sharma，O.Tuzel和M.Y. 刘某用于语义场景标注的递归上下文在NIPS，2014。2[46] W. Shen，X. Wang，Y. Wang，X. Bai和Z.张某深轮廓：深度卷积特征

下载后可阅读完整内容，剩余1页未读，立即下载