深度卷积神经网络的清晰边界预测方法

44 浏览量更新于2023-10-13 收藏 1.65MB PDF 举报

深度卷积神经网络

边缘检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

学习预测清晰的边界Ruoxi Deng1，Jiang，Chunhua Shen2，Shengjun Liu1，Huibing Wang3，Jiang，Xinru Liu11中国中南大学;2澳大利亚阿德莱德大学;3大连⋆中国科技大学抽象。基于深度卷积神经网络（CNN）的边界或边缘检测的最新方法通常会遇到预测边缘较厚的问题，并且需要进行后处理以获得清晰的边界。训练数据中边界与背景类别的高度不平衡在这项工作中，目标是使CNN产生清晰的边界，而无需后处理。我们引入了一种新的边界检测损失，这对于分类不平衡数据非常有效，并允许CNN产生清晰的边界。此外，我们提出了一个端到端的网络，采用自底向上/自顶向下的架构来解决这个任务。所提出的网络有效地利用层次特征，并产生像素精确的边界掩模，这是重建边缘图的关键。我们的实验表明，直接做出清晰的预测不仅可以提升CNN的视觉效果，而且还可以在BSDS500数据集（ODS F分数为.815）和NYU深度数据集（ODS F分数为.762）上获得更好的结果。关键词：边缘检测，轮廓检测，卷积神经网络1介绍边缘检测是计算机视觉中的一项长期任务[1，2]。在早期，目标被定义为找到强度图像中不连续性的突然变化[3]。如今，人们期望定位语义上有意义的对象边界，这在许多计算机视觉任务中起着基础和重要的作用，例如图像分割 [4在过去的几年中，深度卷积神经网络（CNN）主导了边缘检测的研究基于CNN的方法，如DeepEdge [10]、Deep-Contour [11]、HED [12]和RCF [13]，利用其显著的分层特征学习能力，并在BSDS 500 [5]和NYUDv 2 [14]等基准测试中表现出最先进的虽然基于CNN的方法擅长产生语义上有意义的轮廓，但我们观察到一个共同的行为，即它们的预测比经典方法的结果厚得多例如，在图1中，我们分别示出了来自Sobel检测器[15]和HED检测器的两个部分工作是在R. Deng和H.王在阿德莱德大学访问。2Deng等人(a)（b）（c）（d）图1：（a）是来自BSDS500数据集[5]的示例图像（b）是Sobel检测器的结果[15]。这里（c）是HED检测器[12]的输出（d）是我们提出的方法的输出所有预测都不应用后处理。我们在HED结果上的虚线矩形中突出显示的北极熊的边缘注意，厚预测的行为不仅在HED的结果上，而且可以在许多最近的代表性工作中找到，例如RCF [13]，Casenet [16]和CEDN [17]。现有的文献很少讨论预测边界过厚的问题一个可能的原因是边缘检测方法通常应用边缘细化后处理以在生成初始预测之后获得一个像素宽的结果。因此，初始预测的宽度似乎没有区别。然而，这种行为引起了我们的注意，我们相信这是值得找出背后的原因，这反过来又提高了预测的质量。[45]中的工作通过提出用于实现crips边缘的细化架构（编码器-解码器）来正如我们在实验中所示，它只是稍微改善了HED的结果。我们没有修改卷积网络进行边界检测，而是通过研究损失函数来解决在这项工作中，我们探索和解决基于CNN的边界预测的厚度问题我们提出了一个端到端的全卷积网络，它是准确，快速和方便地执行图像到边界的预测。我们的方法由两个关键组成部分组成，一个是自底向上/自上而下架构的完全卷积神经该方法可以自动学习丰富的层次特征，解决预测中的模糊性，预测清晰的结果，而无需后处理。图1给出了我们的方法和HED检测器之间的边缘质量改善的示例。更多的例子可以在第4节中找到。我们证明，解决厚度问题对于CNN执行清晰的边缘检测至关重要，这改善了视觉结果，并提高了边界检测评估指标的性能。我们在BSDS500数据集上实现了最先进的性能，ODSF分数为0.815，我们的方法的快速版本在30 FPS的速度下实现了0.808的ODS F分数学习预测清晰的边界32相关工作边缘检测已经研究了四十多年。相关的作品很多，这里我们只突出几个有代表性的作品。早期的边缘检测器专注于计算图像梯度以获得边缘[18-21]。例如，Sobel检测器[18]在灰度图像上滑动3×3滤波器，以计算响应边缘像素的图像梯度。Canny检测器[19]更进一步，通过去除输出图上的噪声并采用非最大值抑制来提取一个像素宽的轮廓。这些传统方法通常用作许多计算机视觉应用中的基本特征之一[4，22，23]。基于学习的方法[24，5，25，26]通常集成不同的低级特征并训练分类器以生成对象级轮廓。尽管这些方法与trans-mapping方法相比实现了很好的性能，但是它们依赖于手工制作的特征，这限制了它们的改进空间。用于边缘检测的最新方法[12，13，27]建立在深度卷积神经网络[28，29]上。DeepEdge [10]提取边缘候选点周围的多个补丁（由Canny检测器提取），并将这些补丁馈送到多尺度CNN中以决定它是否是边缘像素。DeepContour [11]也是一种基于补丁的方法，它首先将图像划分为许多补丁，然后将这些补丁放入网络中以检测补丁是否具有轮廓。与这些工作不同的是，HED检测器[12]是一个端到端的完全卷积神经网络，它将图像作为输入并直接输出预测。它提出了加权交叉熵损失，并采用跳过层结构从预训练的VGG模型[30]的每个块进行独立预测并对结果进行平均RCF [13]也利用了跳层结构和HED的类似损失，但它从VGG模型的每个卷积层进行独立预测CEDN[17] 采用编码器-解码器网络，并在Pascal VOC数据集的额外数据上训练网络。CASENet [16]提出了一种新的任务，该任务将每个边缘像素分配给一个或多个语义类，并通过利用类似于HED的端到端系统来解决该任务。总结基于深度学习的方法的发展，我们发现HED检测器非常受欢迎，并启发了许多后续方法，如RCF，CASENet和论文[31]中提到的工作然而，我们凭经验观察到，由HED检测器采用的加权交叉熵损失可能导致所得到的边缘变厚。我们将在下一节中验证这一点。在这项工作中，我们开发了一个端到端的边缘检测方法。我们的主要贡献如下。我们的目标是使用深度学习来检测图像中的清晰边界我们探讨了预测边缘过厚的问题，这几乎可以在所有最近的基于CNN的方法中找到我们提出了一种方法，设法解决厚度问题。它允许基于CNN的方法来预测清晰的边缘，而无需求助于后处理。此外，我们的实验表明，我们的方法优于以前的国家的最先进的方法在BSDS500和NYUDv2数据集。4Deng等人(a)(b)（c）第（1）款图2：对类平衡权重β的简单测试。从左至右：（a）是来自BSDS500数据集的原始图像。(b)是使用标准交叉熵损失的结果，即，β = 0。5.(c)是使用加权交叉熵损失的结果。3该方法在本节中，我们描述所提出的方法的细节。损失函数是端到端密集预测系统中最重要的组成部分，因为其损失对预测质量的影响最大。因此，我们首先重新审视在以前的国家的最先进的方法中使用的加权交叉熵损失。然后，我们提出了我们的边缘检测系统，包括基于图像相似性的损失和网络的自底向上/自顶向下结构。3.1再论加权交叉熵损失边缘检测以前基于全卷积网络（FCN）的边缘检测方法通常采用HED检测器所采用的加权交叉熵损失。众所周知，交叉熵损失用于解决二进制分类。然而，边缘/非边缘像素具有高度不平衡的分布（大多数像素是非边缘的），因此直接使用交叉熵损失将无法训练网络。为了解决这个问题，HED使用加权交叉熵损失，它写道：L（W，w）=−βΣj∈Y+l〇 gPr（yj=l|X;W，w）−（1−β）Σj∈Y−l〇 gPr（yj=0|X;W，w），（一）其中Y+和Y-分别表示边缘像素集和非边缘像素集β= |Y−|/|Y|和d1−β= |Y+|/|Y|. X是存储设备和Pr（yj|X，W，w）被计算为在像素j处的子集。类别平衡权重β和1−β用于保持和抑制分别来自边缘像素和非边缘像素类的损失。这一个简单的解决方案可以帮助CNN更好地训练网络。我们执行在相同HED网络结构上使用标准交叉熵损失和加权损失的比较测试，证明了权重β的有效性。测试结果如图2所示正如我们所看到的，标准损失无法训练网络，因为结果（图2b）不是边缘图，而是边缘图。学习预测清晰的边界5我一个人的一生。然而，如果我们充分地观察它的细节，我们能够找到具有合理厚度并且比加权损失的结果更薄的犀牛的轮廓（图2c）。这很可能表明，尽管类平衡权重β和1−β设法使CNN成功训练，但这会导致它的错误。该发现的示例中，诸如RCF和Casenet之类的方法往往会输出过厚的边缘。这两种方法采用了相同策略的交叉熵损失，即，在边缘/非边缘像素上设置权重以平衡损失。为了使网络可训练并同时输出清晰的预测，我们将需要替代解决方案。3.2边缘检测我们已经表明，边缘图的一个明显特点是，数据是高度偏置的，因为绝大多数的像素是非边缘。这种高度偏置的问题将导致学习无法找到清晰的边缘，而清晰的边缘是罕见的。与我们的任务类似，许多应用程序（如欺诈检测，医学图像处理和文本分类）正在处理类别不平衡数据，并且这些任务有相应的解决方案[32-36]。受[37]使用Dice系数[38]解决类别不平衡问题的工作的启发，我们提出使用Dice系数进行边缘检测。给定输入图像I和地面实况G，激活图M是由全卷积网络F处理的输入图像I。我们的目标是得到一个预测P。损失函数L由下式给出：ΣNp2+ΣNg2L（P，G）=Dist（P，G）=我Σi2我Npigii，（2）其中pi、gi分别表示预测图P和地面实况G上的第i通过S形函数从激活图M计算预测图P。损失函数L是Dice系数的倒数。因为Dice系数是两个集合的相似性的度量我们的损失是比较两个集合P，G的相似性，并最小化它们在训练数据上的距离。我们不需要考虑的问题，平衡的边缘/非边缘像素的损失，通过使用建议的损失，并能够实现我们的目标，使网络可训练和预测清晰的边缘在同一时间。我们应该强调在小批量中计算我们的总损失的方法。给定一小批训练样本及其相应的地面实况，我们的总损失由下式给出ΣML（MP，MG）=我Dist（MPi，MGi），（3）其中MP和MG分别表示小批量预测及其地面实况。M是小批量中训练样本的总数。以来6Deng等人我们的损失函数基于每个图像-地面实况对的相似性，我们的小批量的总损失是所有对上的总距离的总和。为了实现更好的性能，我们建议结合交叉熵损失和建议的骰子损失。Dice损失可以被认为是集中于两组图像像素的相似性的图像级交叉熵损失集中在像素级差异上，因为它是预测与地面实况之间的每个对应像素对的距离的总和因此，组合损失能够分层地最小化从图像级到像素级的距离我们的最终损失函数由下式给出Lfinal（P，G）=αL（P，G）+βLc（P，G），（4）其中L（P，G）是等式2;Lc（P，G）是正常交叉熵损失，L（P，G）=−<$N（glogp+（1−g）（1− logp））。N是总像素数cjj j j j一个图像。α和β是控制两种损耗影响的参数。在实验中，我们设置α = 1和β = 0。001.我们还尝试使用加权交叉熵损失（等式1）代替Lc，并且没有观察到改进。为了计算小批量中的总损失，我们使用等式3，其中Dist（P，G）被L_final（P，G）代替。我们强调，提出的骰子损失L（P，G）是产生清晰边缘的基石仅使用提出的Dice损失，我们在BSDS500数据集上实现了.805的ODS F分数。公式（4）可以微分，得到梯度ΣNL2pp g−g（Np2+ΣNg2）2g− 1最终k=αpki=1i i k ΣN2（i=1i=1ipigi）2i=1我− β kPK（五）相对于预测的第k在下一小节中，我们将描述我们的网络结构。3.3网络架构我们试图选择具有多个阶段的网络结构来有效地捕获层次特征，并能够融合不同层次的特征，从而生成语义上有意义的轮廓。HED的成功在本文中，我们研究了另一种先进的结构，即自底向上/自顶向下架构[39]，以获得更好地利用层次特征的灵感。[39]的方法通过提出新颖的自顶向下细化方法来实现对象分割的改进的准确性我们假设，这种结构也可以很好地工作，因为我们的任务是与对象分割的边缘检测。我们遵循网络的设置[39]以应用VGG-16模型[30]作为恢复特征的分辨率期间的数据库和数据库的结构然而，我们在细化模块处进行了以下修改，以使其适用于边缘检测：（i）为了更好地从VGG-16的每个阶段提取侧特征，我们使用ResNeXt [40]块学习预测清晰的边界7图3：拟议网络的概述。蓝色立方体指示自下而上路径上的特征，而黄色立方体指示自上而下路径上的掩码编码。我们网络的骨干是VGG-16模型，其中删除了最后一个池化层和所有全连接层来自conv53层的掩码编码重复通过所提出的细化模块以恢复其分辨率。在细化模块中，掩码编码与侧输出特征融合，然后将其通道减少2倍并将其分辨率加倍，以准备下一个细化模块中的融合。以分别连接每个侧输出层conv12、conv22、conv33、conv43和conv53。因此，来自每一侧输出的特征首先经过ResNeXt块，然后与来自自顶向下路径的掩码编码融合(ii)用1× 1的卷积层代替原模块的3× 3卷积层通过这样做，我们发现性能随着模型复杂度的降低而提高;（iii）我们使用学习的deconv层将融合特征的分辨率提高一倍特别地，解卷积层被分组。组号等于融合特征的通道号。分组的deconv层允许我们的模型以更低的模型复杂度保持性能。修改后的精炼模块是完全反向可扩展的。我们在图3中显示了整体结构，在虚线矩形中显示了我们的细化模块我们的网络是简单的，但非常有效的边缘检测。我们强调，这是至关重要的边缘检测网络，以提高模型复杂性的降低，特征提取的能力。与原始结构相比，我们的网络具有使用更少的参数来实现更好的性能的优点。更具体地说，我们的网络具有 15.69M 参数，并在BSDS500数据集上实现了.808的ODS没有修改8Deng等人如（ii）和（iii）中所述，参数数增加到22.64M，但性能降低到0.802的ODS。这种现象背后的原因可能是由于过拟合，因为用于边缘检测的数据集具有有限数量的训练样本（例如，BSDS 500数据集只有200个训练图像）。在实验中，我们尝试了一些更复杂的自下而上/自上而下的网络，如Refinenet [41]，但由于训练数据有限，未能实现更好的性能使用ResNeXt块也是出于同样的原因。它将内部conv层分组以降低模型复杂度。我们还测试了ResNet块[42]以提取侧面特征，用于与ResNeXt 块进行性能比较我们发现它们都有助于提高性能，而ResNeXT块的性能略好，ResNet块的复杂度约4实验在本节中，我们首先介绍实现细节以及对数据集的简要描述。我们的实验开始与所提出的方法的消融研究。然后，我们对HED进行了比较研究，以证明所提出的损失对预测的清晰度的有效性我们进一步比较我们的方法与国家的最先进的边缘检测器，并证明了优势。4.1实现细节我们使用Pytorch [43]实现我们的方法。我们在伯克利分割数据集（BSDS500）和纽约大学深度数据集（NYUD）上评估边缘检测器，这些数据集在以前的作品中被广泛使用[10-13，17]。我们模型的超参数包括：minibatch 大小（ 36 ），输入图像分辨率（ 480 ×320 ），权重衰减（1e−4），训练时期（30）。我们使用ADAM求解器[44]进行优化。除了超参数之外，以下几个关键问题值得注意：数据增强数据增强是在训练数据量有限时提高性能的有效方法。我们首先随机缩放图像标签对（0.7到1.3）。然后，我们将这些对旋转到16个不同的角度，并裁剪旋转角度中最大的矩形最后，我们翻转裁剪的图像，这导致从200张图像到超过10万张图像的增强训练集上采样方法我们在后向细化路径中采用学习的去卷积来逐步增加特征图的分辨率。尽管双线性上采样在HED中被证明是有用的，但在我们的方法中被放弃我们在实验中观察到，双线性上采样可能会使预测在一些位置处不连续，并导致性能略有下降。学习预测清晰的边界9(a)（b）（c）（d）（e）（f）（g）图4：消融研究的定性结果以及应用HED的拟定损失的图示。从左至右：（a）BSDS 500数据集中的输入图像;（b）地面实况;（c）、（d）、（e）分别是消融研究中Ours-w/o-rN-w/o-FL、Ours-w/o-FL和Ours方法的预测值;（f）、（g）分别是比较研究中HED-BL和HED-FL方法的预测值。我们的方法，特别是提出的损失，显示出明显的优势，在产生尖锐的边界。多尺度边缘检测受作品[13，45]的启发，在测试期间，我们使用多尺度边缘检测来进一步提高性能。我们首先将输入图像调整为三种不同的分辨率（0. 5×，1. 0×和1。原始尺寸的5倍然后，我们将输出调整回原始大小，并对它们进行平均以获得最终预测。4.2BSDS500数据集Berkeley Segmentation Dataset（BSDS 500）[5]包含200个训练图像，100个验证图像和200个测试图像。每个图像由多个用户注释我们使用训练集（200个训练图像）进行训练，并使用所有的地面实况标签来准备训练数据。也就是说，如果图像有五个注释，我们首先创建图像的五个副本。每个副本分别对应于注释中的一个。然后，我们将这五个图像注释对应用于数据增强。这将在地面实况对中引入模糊性，因为不同的注释器可能对于少量像素彼此不一致。然而，在这种情况下，我们能够获得更多的注释用于数据增强。与此同时，我们观察到引入某些模糊性可以防止训练过度拟合。消融研究我们首先进行一系列的消融研究，以评估所提出的方法中的每个组件我们的第一个实验是10Deng等人表1：所提出的方法在BSDS500数据集上的消融研究。NMStandsfornon-max imumsuppression. “我们-我们方法ODS（NMS之后/之前） OIS（NMS之后/之前）Ours-w/o-rN-w/o-FL0.797/0.671.815 /.678Ours-w/o-FL0.798/0.674.815 /.679我们0.800/0.6930.816/0.700表2：HED的比较研究。HED-BL是指通过平衡的交叉熵损失训练的HED。HED-FL是指经由所提出的融合损失训练的HED。方法ODS（NMS之后/之前） OIS（NMS之后/之前）HED-BL.781 /.5830.798/0.598HED-FL.783 /.635.802 /.644以检查基本编码器-解码器网络（Ours-w/o-rN- w/o-FL）对于该任务的有效性。为此，我们的基线模型是删除向后细化路径中所有ResNeXt块的拟议网络。我们使用平衡的交叉熵损失来训练这个基线。此外，我们分别通过平衡的交叉熵损失（Ours-w/o-FL）和建议的融合损失（Ours）训练了所提出的网络的两个版本。预测的准确性通过两个标准测量来评估：固定轮廓阈值（ODS）和每图像最佳阈值（OIS）。以前的作品往往只检查预测的正确性，因为他们应用一个标准的非最大抑制（NMS）预测的边缘图之前的评估。而在本研究和以下比较研究中，我们希望对每个模型进行两次评价（NMS之前和之后）。通过这样做，我们可以检查正确性和清晰度，因为低清晰度预测容易达到低ODS分数，而无需NMS的帮助。我们知道CED [45]和PMI [46]通过改变匹配距离参数来应用不同的方法来衡量预测然而，我们认为直接评价非NMS结果更简单，但对于相同的目的有效。定量结果列于表1中，两个定性实例示于图4（c）、（d）和（e）中。从结果中，我们观察到三个发现。首先，每个组件都能够提高性能;其次，与HED的网络相比，卷积编码器-解码器网络可以更胜任该任务。我们可以看到，基线（Ours-w/o-rN-w/o-FL）达到了0.797的ODS得分，这显著优于HED（在BSDS 500数据集上为0.790最后，定量和定性的结果都证明了所提出的融合损失的有效性通过简单地使用建议的融合损失，我们的网络的ODS f-分数（NMS之前）增加学习预测清晰的边界11(a)输入图像（b）GT（c）Ours（d）RCF [13]（e）CED [45]图5：BSDS500的最新技术水平比较。从左至右：（a）原始图像，（b）地面实况，（c）所提出的方法的预测，(d) RCF检测器的结果，（e）CED检测器的结果。请注意，所有预测都是端到端的输出，没有经过后处理。从0.674到0.693，并且在图4（d）和（e）中也可以观察到边界锐度的改善。10.90.80.70.60.50.40.30.20.10BSDS500[F=.803]人[F=.815] Ours-MS[F=.811] RCF-MS[F=.808]我们的[F=.806] RCF[F=.788] HED[F=.767] HFL[F=.757] DeepContour[F=.753] DeepEdge[F=.743] SE[F=.729] gPb-UCM[F=.611]精明00.10.20.30.40.50.60.70.80.91召回表3：BSDS500数据集的结果。MS是指多尺度测试。VOC-aug是指使用额外的PASCAL VOC上下文数据进行训练。†表示GPU时间。图6：BSDS 500数据集上的精确度/召回率曲线。我们的方法ahieves 最好的结果（ ODS=0.815）。如第3.2节中所提到的，所提出的融合损耗在我们的方法中在生成尖锐边界方面起着关键作用精度方法ODSOISFPS[第19话].611.67628gPb-UCM.729.7551/240中文（简体）.743.7632.5DeepContour [11].757.7761/ 30†DeepEdge [10].753.7721/1000†HFL [47].767.7885/ 6†HED [12].788.80830†CEDN [17].788.80410MIL+G-DSN+MS+NCuts [27] .813.8311RCF-VOC-aug [13].806.82330†RCF-MS-VOC-aug [13].811.83010†CED [45].794.81130†CED-MS [45].803.82010†CED-MS-V0C-aug [45].815 .83310†我们.800.81630†Ours-VOC-aug.808.82430†Ours-MS-VOC-aug.815 .83410†12Deng等人aries，这在消融研究中得到证实。有人可能会问一个问题：融合损失是否仅在卷积编码器-解码器网络上起作用？它是否也可以允许不同的方法，如HED，以改善脆度？为了回答这个问题，我们对HED边缘检测器进行了比较研究。与消融实验类似，我们评估了两种版本的HED：一个是通过建议的融合损失的方式来训练，另一个是应用平衡的交叉熵损失。这两种方法都使用深度监督进行训练。请注意，与HED [31]相比，我们的BSDS 500训练数据是以不同的方式生成的，因此重新实现的HED的性能与原始论文略有不同。我们在表2中总结了定量结果，并在图4（f）和（g）中显示了两个定性示例计算结果与烧蚀实验结果一致。通过使用所提出的损失，HED-FL将非NMS结果比HED-BL提高了几乎9%，这在边界脆性上是显著的增加。在本小节中，我们将进一步比较性能最好的边缘检测器。待评估的方法由两类组成：第一类是基于深度学习的，包括HED [12]，RCF [13]，DeepContour [11]，DeepEdge [10]，CED [45]，HFL [47]，CEDN [17]，MIL+G-DSN+MS+NCuts [27]和我们的方法;第二类包含SE [26]、gPb-UCM[5]和Canny检测器[19]。我们也遵循的作品[17，13，27，45]来采用来自PASCAL VOC上下文数据集的额外训练数据[48]。结果示于图5、图6和表3中。我们首先查看图5中的定性结果。RCF和CED是目前比较前沿的边缘检测器。特别是，CED与我们的方法有着共同的目的，即解决边界的脆度问题。与其他方法相比，我们的方法显示出明显的优势，在边缘映射的质量，其中hicarecleaner和sarper。请在第二个磁盘上显示“COW”。我们的方法是能够精确地匹配其轮廓，而RCF和CED产生更多的模糊和嘈杂的边缘。定性比较表明，我们的方法产生更清晰的边界。定量结果总结于表3中。图6示出了所有方法的精确度-召回率曲线请注意，所有结果在评价前均已进行后处理（使用NMS）在没有额外训练数据和多尺度测试的情况下，我们的方法已经优于大多数最先进的边缘检测器。通过额外的训练数据，我们的单尺度模型实现了ODS f分数从.800到.808的显着改善。通过多尺度测试，我们的方法达到了与CED相同的最高性能然而，CED同时采用训练集和验证集进行训练，而我们只使用训练集。除此之外，我们还评估了CED的非NMS结果（单尺度，没有额外的训练数据），并获得了0.655的ODS f-评分，0.662的OIS f-评分的性能结果远远落后于我们的单尺度非NMS性能（ODS f-得分为.693）。我们的方法的另一个优点是我们的检测器能够实时运行单刻度检测器可在30 F-学习预测清晰的边界13(a) 输入图像（b）GT（c）Ours（d）RCF [13]图7：NYUDv2的最新技术水平比较从左到右：（a）是原始图像，（b）是地面实况，（c）是所提出的方法的预测，（d）是RCF检测器的结果注意，RCF和所提出的方法的预测仅在RGB数据上训练不应用后处理GTX980 GPU上的PS由于我们的方法简单，有效且非常快速，因此很容易与图像分割等高级视觉任务一起使用。纽约大学10.90.80.7表4：NYUDv2数据集的结果。†表示GPU时间。0.60.50.40.30.20.1000.10.20.30.40.50.60.70.80.91召回图8：NYUDv 2数据集上的精确度/召回率曲线。我们的方法在RGB数据和H-HA特征上进行训练，获得了最佳结果（ODS=.762）。[F=.803]人类[F=.762]我们的[F=.757] RCF[F=.741] HED[F=.706] SE+NG+[F=.695] SE[F=.687] gPb+NG[F=.651] OEF[F=.631] gPb-UCM精度方法ODS OIS FPSOEF [49].651 .6671/2gPb-UCM.631 .661 1/360gPb+NG [50].687 .716 1/375中文（简体）.695 .7085SE+NG+[51].706 .734 1/15HED-RGB [2].720 .73420†HED-HHA [1].682 .69520†HED-RGB-HHA [1].746 .76110†RCF-RGB [3].729 .74220†RCF-HHA [3].705 .71520†RCF-RGB-HHA [1].757 .77110†我们的-RGB.739 .75430†我们的-HHA.707 .71930†我们的-RGB-HHA.762 .77815†14Deng等人4.3NYUDv2数据集NYU深度数据集[14]是室内场景的大型深度基准，由Microsoft Kinect传感器收集它有一个密集标记的数据集（每个像素都有一个深度注释），其中有1449对对齐的RGB和深度图像。Gupta等人[50]处理数据以生成边缘注释，并将数据集分成381个训练图像、414个验证图像和654个测试图像。我们遵循他们的数据分割设置，并改变我们的训练方法的几个超参数： mini-batch 大小（ 26 ），图像分辨率（ 480×480）。在评估中，边缘预测的正确匹配所允许的最大容差从.0075增加到.011，如[31，13，26]中所我们比较了最先进的方法，包括OEF[49]，gPb-UCM [5]，gPb+NG [50]，SE [26]，SE+NG+ [51]，HED [12]和RCF [13]。受以前的工作[12，13]的启发，我们利用深度信息来提高性能。我们采用HHA特征[51]，其中深度信息被编码到三个通道中：水平视差、离地高度以及与重力的角度。使用HHA特性的方法是非常直接的。我们简单地训练了两个版本的网络，一个是RGB数据，另一个是HHA特征图像。通过直接平均RGB模型和HHA模型的输出来生成最终预测我们在表4中显示了定量结果，在图8中显示了精确度-召回率曲线。我们的方法实现了最佳性能的ODS F-分数。762.图7中的定性结果显示与BSDS 500上的实验的那些一致的性能。我们的预测产生了更清晰的边界对领先的竞争对手RCF，这表明了我们的方法的有效性5结论在这项工作中，我们已经提出了一个简单而有效的方法，边缘检测和灰，达到国家的最先进的结果。我们已经表明，使用精心设计的损失函数和简单的卷积编码器-解码器网络可以实现出色的边界检测结果。在未来的工作中，我们计划将边缘检测器的使用扩展到目标检测和光流等具有边界清晰度和快速处理速度要求的任务。确认本工作得到国家留学基金委（批准号：201506370087）、国家自然科学基金（批准号：61572527、61628211、61602524）的资助引用1. Marr，D.，Hildreth，E.：边缘检测理论。伦敦皇家学会会报B：生物科学207（1167）（1980）187学习预测清晰的边界152. 冈萨雷斯，R.C.Wood，R.E.：数字图像处理3. Torre，V.，Poggio，T.A.：关于边缘检测。IEEE模式分析与机器智能汇刊（2）（1986）1474. Senthilkumaran，N.，Rajesh，R.：图像分割的边缘检测技术-软计算方法综述。国际工程新趋势杂志1（2）（2009）2505. Arbelaez，P.， Maire，M.，福克斯角 Malik，J.：轮廓检测和分层化学图像分割IEEE Transactions on Pattern Analysis and Machine Intelligence 33（5）（2011）898-9166. Chen，L.C.，巴伦J.T.帕潘德里欧，G.，墨菲KYuille，A.L.：语义使用CNN和区分训练的域变换的具有任务特定边缘检测的图像分割。IEEE计算机视觉和模式识别会议论文集。（2016）45457. Bertasius，G.，施，J.，Torresani，L.：边界神经场语义分割。IEEE计算机视觉和模式识别会议论文集。（2016）36028. Ren，X.：光流的局部分组。In：Computer Vision and Pattern Recognition，2008.CVPR 2008。IEEE会议，IEEE（2008）19. Revaud，J.，Weinzaepfel，P.，Harchaoui，Z. Schmid，C.：Epicflow：光流对应的边缘保持插值。IEEE计算机视觉和模式识别会议论文集。（2015）116410. Bertasius，G.，施，J.，Torresani，L.：Deepedge：一个用于自顶向下轮廓检测的多尺度分叉深度网络。IEEE计算机视觉和模式识别会议论文集。（2015）438011. Shen，W.，王，X.，王玉，Bai，X.，张志：深轮廓：一种通过正共享损失学习的深度卷积特征，用于轮廓检测。在：Proceedings的IEEE会议上的计算机视觉和模式识别。（2015）3982-399112. Xie，S.，图，Z.：整体嵌套边缘检测。IEEE计算机视觉国际会议（2015）139513. Liu，Y.，郑女士Hu，X.，Wang，K.，白X：更丰富的卷积特征用于边缘检测。arXiv预印本arXiv：1612.02103（2016）14. Nathan Silberman Derek Hoiem P.K. Fergus，R.：rgbd图像的室内分割与支持推理In：ECCV.（2012年）15. 索贝尔，I.：相机模型和机器感知。斯坦福大学计算机科学系技术报告（1970）16. 于志，Feng，C.，中国农业科学院，Liu，M.Y. Ramalingam，S.：Casenet：深度类别感知的语义边缘检测。ArXiv电子打印（2017）17. 杨杰，普莱斯B Cohen，S.，李，H.， Yang，M.H.：使用全卷积编码器-解码器网络的对象轮廓检测。IEEE计算机视觉和模式识别会议论文集。（2016）19318. Kittler，J.：Sobel边缘检测器的精度研究。图像与视觉计算1（1）（1983）3719. 坎尼，J：边缘检测的计算方法IEEE Transactions on模式分析与机器智能（6）（1986）67920. Fram，J.R.，Deutsch，E.S.：边缘检测方案的定量评价及其与人类表现的比较。计算机IEEE Trans-actions onC-24（6）（1975）61621. Perona，P.，Malik，J.：使用各向异性扩散的尺度空间和边缘检测IEEE Transactions on pattern analysis and machine intelligence12（7）（1990）629- 63916Deng等人22. Lowe，D.G.：从尺度不变的关键点中提取独特的图像特征。国际计算机视觉杂志60（2）（2004）9123. Siddiqui，M.， Medioni，G.：从单个视点的人体姿态估计，实时距离传感器在：计算机视觉和模式识别研讨会（CVPRW），2010年IEEE计算机学会会议，IEEE（2010）124. 马丁，D.R.，C.C.福克斯Malik，J.：学习使用局部亮度、颜色和纹理线索检测自然图像边界。IEEE模式分析与机器智能汇刊26（5）（2004）53025. Dollar，P.，Tu，Z.，Belongie，S.：边缘和对象边界的监督学习白羊座在：计算机视觉和模式识别，2006年IEEE计算机学会会议上。第二IEEE（2006）196426. Doll'ar，P.， Zitnic k，C. L. ：Fasted g edete c tio n u s t e d e ti o nu s t e t i o n u stetIEEEtrans-actions on pattern analysis and machine intelligence37（8）（2015）155827. 科基诺斯岛：使用深度学习推动边界检测的边界arXiv预印本arXiv：1511.07386（2015）28. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的图像网分类。在：神经信息处理系统的进展（2012）109729. LeCun，Y.，Boser ，B.E.，Denker ，J.S.，Henderson，D. Howard，R. E.，Hubbard，W. E.，Jackel，L.D.：基于反向传播网络的手写体数字识别。在：神经信息处理系统的进展。（1990年）39630. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）31. Xie，S.，图，Z.：整体嵌套边缘检测。国际计算机视觉杂志125（1-3）（2017）332. 顾，J.，Zhou，Y.，（1996年），中国科学院，左X：使阶级偏见有用：学习的策略不平衡数据智能数据工程与自动化学习-IDEAL 2007（2007）28733. 唐湖，加-地Liu，H.：文本分类中高度偏斜数据的偏差分析。在：数据挖掘，第五届IEEE国际会议上，IEEE（20

下载后可阅读完整内容，剩余1页未读，立即下载