丰富卷积特征的准确边缘检测器

27 浏览量更新于2023-10-15 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3000用于边缘检测的刘云1程明明1胡晓伟1王凯1向白21南开大学2华中科技大学https://mmcheng.net/rcfEdge/摘要在本文中，我们提出了一个准确的边缘检测器，使用更丰富的卷积特征（RCF）。由于自然图像中的物体具有不同的尺度和长宽比，学习丰富的层次表示是边缘检测的CNN已被证明是有效的，为这项任务。此外，随着接收域的增加，CNN中的卷积特征逐渐变得粗糙根据这些观察，我们试图在这样一个复杂的视觉任务中采用更丰富的卷积特征。所提出的网络充分利用对象的多尺度和多级信息，通过以整体方式组合所有有意义的卷积特征来执行图像到图像的预测使用VGG16网络，我们在几个可用的数据集上实现了最先进的性能。当在著名的BSDS500基准测试上进行评估时，我们实现了0.811的ODS F测量，同时保持了较快的速度（8FPS）。此外，我们的快速版本的RCF达到ODS的F-措施0.806与30FPS。1. 介绍边缘检测的目的是从自然图像中提取视觉上显著的边缘和物体边界，几十年来一直是计算机视觉的主要挑战之一它通常被认为是一种低级技术，各种高级任务都大大受益于边缘检测的发展，例如目标检测[17，55]，目标建议[9，54，60分割[1，3，8，56]。通常，传统方法首先提取亮度，颜色，梯度和纹理的局部线索，或其他手动设计的特征，如Pb [40]，gPb[2]和Sketch to- kens [36]，然后使用复杂的学习范例[14，57]虽然近年来使用低层特征的边缘检测方法已经取得了很大的进步[33]，但它们的局限性是M.M.程（cmm@nankai.edu.cn）为通讯作者。(a)原始图像 (b)地面实况（c）conv3 1（d）conv3 2（e）conv3 3（f）conv4 1（g）conv4 2（h）conv4 3图1：我们基于VGG16构建了一个简单的网络[50]以产生conv3 1、conv3 2、conv3 3、conv4 1、conv42和conv4 3的侧输出。可以清楚地看到，卷积特征逐渐变得粗糙，并且中间层conv3 1，conv3 2，conv4 1和conv4 2包含许多其他层中不存在的有用的精细细节也很明显。例如，边缘和边界通常被定义为语义上有意义的，然而，很难使用低级线索来表示对象级信息。在这种情况下，gPb [2]和Structured Edges [14]试图使用复杂的策略来尽可能多地捕获全局特征。在过去的几年中，卷积神经网络（CNN）通过大幅推进各种任务的最新技术水平，在计算机视觉领域变得流行，包括图像分类[31，50，52]，对象检测[20，21，34，43]和语义分割[7，38]等。由于CNN具有自动学习自然图像的高级表示的强大能力，因此最近有一种使用卷积网络来执行边缘检测的趋势一些著名的基于CNN的方法大大推动了这一领域的发展，例如3001如 DeepEdge [4] ， N4-Fields [19] ， CSCNN [26] ，DeepCon- tour [47]和HED [58]。我们的算法也属于这一类。为了查看边缘检测中不同卷积（即conv）层获得的信息，我们构建了一个简单的网络，使用VGG 16 [50]产生中间层的侧输出，该网络具有五个conv阶段。图1示出了示例。我们发现卷积特征逐渐变粗，中间层包含大量有用的细节。另一方面，由于更丰富的卷积特征对许多视觉任务非常有效，因此许多研究人员努力开发更深的网络[25]。然而，由于消失/爆炸梯度和训练数据短缺（例如，用于边缘检测），当深入时，很难使网络那么我们为什么我们的动机是基于这些观察。与先前的CNN方法不同，所提出的新颖网络使用所有卷积层的CNN特征来以图像到图像的方式执行逐像素预测，并且因此能够获得不同尺度的对象或对象部分的准确表示。具体地说，我们试图在一个统一的框架中利用来自所有卷积层的CNN特征，该框架通过仔细设计一个通用的策略来结合层次CNN特征，我们的系统在边缘检测方面表现得非常好。当在BSDS 500数据集[2]上评估所提出的方法时，我们实现了有效性和效率之间的最佳权衡，ODS F-度量为0.811，8FPS的速度它甚至超过了胡的结果人的感知（ODS F-测量0.803）。此外该最后给出了RCF的快速版本，在30FPS的帧速率下，达到了0.806的ODS F值。2. 相关工作自边缘检测被确定为计算机视觉中最基本的问题之一以来[15，18，46]，研究人员在这方面进行了近50年的努力，并涌现出大量的材料。一般来说，我们可以将这些方法大致分为三类：早期的开创性的，基于学习的使用手工制作的功能和基于深度学习的。本文简要回顾了近几十年来发展起来的一些有代表性的方法早期的开创性方法主要集中在强度和颜色梯度的利用上。Robinson [46]讨论了选择颜色坐标以提取视觉上重要的边缘和边界的定量措施[39，53]提出了基于过零理论的算法。Sobel [51]提出了著名的Sobel算子来计算图像的梯度图，然后通过对梯度图进行阈值化来产生边缘。一个扩展的版本-Sobel的Canny [6]提出了一种新的边缘提取算法，该算法将高斯平滑作为预处理步骤，并使用双阈值来提取边缘。这样，Canny对噪声具有更强的鲁棒性事实上，由于其显著的效率，它现在仍然在各种任务中非常受欢迎。然而，这些早期的方法似乎具有较差的准确性，因此难以适应今天后来，研究人员倾向于使用强度、梯度和纹理等低级线索手动设计特征，然后采用复杂的学习范式对边缘和非边缘像素进行分类[13，44]。Konishi等人。 [30]通过学习对应于两组边缘滤波器的响应的概率分布，提出了第一个数据驱动方法Martin等人。 [40]将亮度，颜色和纹理的变化制定为Pb特征，并训练分类器以组合来自这些特征的信息。阿贝尔·阿埃斯等人 [2]通过使用标准归一化切割[48]将Pb发展为gPb，以将上述局部线索结合到全球化框架中。Lim [36]提出了新的特征，可以用于表示中间层信息的草图标记。 Doll a'r等. [14]采用随机决策森林来表示局部图像块中呈现的结构。输入颜色和梯度特征，结构化森林输出高质量的边缘。然而，所有上述方法都是基于手工特征开发的，其具有有限的能力来表示用于语义上有意义的边缘检测的高级信息。近年来，随着深度学习的蓬勃发展，出现了一系列基于深度学习的方法。Ganin等人。 [19]提出了将CNN与最近邻搜索相结合的N4-Fields。 Shen等人 [47]将轮廓数据划分为子类，并通过学习模型参数来拟合每个子类。 Hwang等人。 [26]将轮廓检测视为逐像素分类问题。他们采用DenseNet [27]提取每个像素的特征向量，然后使用SVM分类器将每个像素分类为边缘或非边缘类。 Xie等人 [58]最近开发了一种有效和精确的边缘检测器HED，它执行图像到图像的训练和预测。这种整体嵌套架构将其侧输出层（由一个内核大小为1的conv层、一个deconv层和一个softmax层组成）连接到VGG 16 [50]中每个阶段的最后一个conv层。最近，Liu等人。 [37]使用由自下而上边缘生成的松弛标签来指导HED的训练过程，并取得了一些改进。Li等人。 [35]提出了一种用于边缘检测的无监督学习的复杂模型，但性能比在有限的BSDS 500数据集上进行训练更差。上述基于CNN的模型已经大大提高了最先进的水平，但在将像素分类为边缘或非边缘类时，它们都丢失了一些有用的分层CNN特征这些方法通常只采用3002丢失/乙状结肠丢失/乙状结肠丢失/乙状结肠丢失/乙状结肠丢失/乙状结肠concat代诺夫代诺夫代诺夫代诺夫∑1×1-1转换1×1-21转换1×1-21转换RCFCNN特征来自每个conv阶段的最后一层。为了解决这种情况，我们提出了一个全卷积网络来有效地组合每个CNN层的特征我们将在下面详细介绍我们的方法。3. 更丰富的卷积特征（RCF）3.1. 网络架构受先前深度学习文献的启发[20，38，43，58]，我们通过修改 VGG16 网络 [50] 来设计我们的网络。VGG16网络由13个卷积层和3个全连接层组成，在各种任务中达到了最先进的水平，例如图像分类[50]，对象成像阶段1检测[20，21，43]等。它的conv层分为五个阶段，其中每个阶段后连接一个池化层每个卷积层捕获的有用信息随着其感受野大小的增加而变得粗糙不同层的详细感受野大小可见于表1.1.一、使用这种丰富的层次信息是hypothesized帮助很大。我们网络设计的起点就在这里。表1：标准VGG16网的详细感受野和步幅大小[50]。2×2合并液阶段23×3-128转换器3×3-128转换器2×2合并液阶段33×3-256转换器3×3-256转换器3×3-256转换器2×2合并液阶段43×3-512转换器3×3-512转换器3×3-512转换器2×2合并液阶段53×3-512转换器3×3-512转换器3×3-512转换器融合1×1-1转换丢失/乙状结肠我们提出的新网络如图所示。二、与VGG16相比，我们的修改可以描述如下：• 我们切掉了所有的全连接层和pool5层。一方面，我们删除了全连接层，因为它们与我们的全卷积网络设计不一致。另一方面，增加pool5层会增加两倍的步长，这对边缘定位是有害的• VGG16中的每个conv层都连接到一个内核大小为1× 1，通道深度为21的conv每个阶段的结果层使用elwise层进行累积，以获得混合特征。• 每个elwise层后面都有一个1 × 1 − 1conv层。然后，去卷积层用于对该特征图进行上采样。• 交叉熵损失/S形层连接到每个阶段中的上采样层。• 所有上采样层都是级联的。然后使用1 × 1conv层来融合每个阶段的特征图最后，遵循交叉熵损失/S形层以获得融合损失/输出。因此，我们将来自所有转换层的分层特征组合到一个整体框架中，其中所有参数都是自动学习因为感受野的大小图2：我们的RCF网络架构。输入是任意大小的图像，我们的网络输出相同大小的边缘可能性图。由于VGG16中的conv层各不相同，我们的网络可以学习多尺度的信息，包括低层和目标层，这些信息对边缘检测很有帮助我们表明∑1×1-1转换1×1-21转换1×1-21转换∑1×1-21转换1×1-1转换1×1-21转换1×1-21转换∑1×1-21转换1×1-1转换1×1-21转换1×1-21转换∑1×1-21转换1×1-1转换1×1-21转换1×1-21转换3×3-64转换器3×3-64转换器层 conv1 1 Conv12pool1 conv2 1 conv2 2池2射频尺寸356101416步幅112224层 conv3 1 Conv32conv3 3 游泳池3conv4 1 conv4 2射频尺寸243240446076步幅444888层 conv4 3池4conv5 1 conv5 2 conv5 3 pool53003我标记为α·log(1−P(Xi;W))ifyi=0l（Xi;W）=00，如果0

下载后可阅读完整内容，剩余1页未读，立即下载