基于像素差分网络的高效边缘检测

178 浏览量更新于2023-10-13 收藏 2.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5117基于像素差分网络的有效边缘检测Zhuo Su1，*Wenzhe Liu2，*Zitong Yu1Dewen Hu2Qing Liao3QiTian4MattiPietik aíinen1LiLiu2，1，†1芬兰奥卢大学机器视觉与信号分析中心2中国国防科技大学3哈尔滨工业大学（深圳）4西安电子科技{zhuo.su，zitong.yu，marti.pietikainen，li.liu} @ oulu.fi{liuwenzhe15，dwhu} @ nudt.edu.cn，liaoqing@hit.edu.cn，wywqtian@gmail.com摘要近年来，深度卷积神经网络（CNN）可以实现人类水平的边缘检测性能，丰富和抽象的边缘表示能力。然而，基于CNN的边缘检测的高性能是通过大的预训练CNN骨干来实现的，这是存储器和能量消耗的。此外，令人惊讶的是，以前的智慧从传统的Roberts算子Sobel算子LoG算子(a) 用于边缘检测的精心设计的传统算子中的核CNN中的核~~~- 一零一(b) 语义强但难以强调边缘信息的(Fig2，顶行）+(c) PDC受益于两个世界（图2，底行）边缘检测器，如Canny，Sobel和LBP，在快速发展的深度学习时代很少被研究。为了解决这些问题，我们提出了一个简单的，轻量级的，但有效的架构命名为像素差网络（PiDiNet）的高效边缘检测。PiDiNet采用了新颖的像素差卷积，将传统的边缘检测算子集成到现代CNN中流行的卷积在BSDS500、NYUD和Multicue上的实验证明了该方法的有效性，以及较高的训练和推理效率。令人惊讶的是，当仅使用BSDS 500和VOC数据集从头开始训练时，PiDiNet可以超过人类感知的记录结果（0.807 vs. 0.803（ODS F-测量值），具有100FPS和小于1 M的参数。具有小于0.1M参数的更快版本的PiDiNet仍然可以在200 FPS的最新技术中实现相当的性能。NYUD和Multicue数据集的结果显示了类似的观察结果。代码可在https://github.com/zhuoinoulu/pidinet上获得。1. 介绍边缘检测一直是计算机视觉中一个长期存在的基本低级问题[5]。边和对象*平等捐款。 †通讯作者：http://lilyliliu.com图1. PDC从传统运营商和现代CNN的适当集成中受益。边界在各种更高级别的计算机视觉任务中起着重要的作用，例如对象识别和检测[29，11]，对象建议生成[6，54]，图像处理[6，54]，图像处理[6，54]编辑[10]和图像分割[41，4]。因此，最近，由于深度学习的复兴，边缘检测问题也被重新审视并注入了新的活力[2，23，47，60，55，31]。边缘检测的主要目标是识别急剧的图像亮度变化，例如强度、颜色或纹理的不连续性[53]。传统上，基于图像梯度或导数信息的边缘检测器是流行的选择。早期的经典方法使用一阶或二阶导数（例如，，Sobel[50]，Prewitt [46]，Laplacian of Gaussian（LoG），Canny [5]等。）用于基本边缘检测。稍后基于学习的方法[16，9]进一步利用各种梯度信息[59，37，12，15]来产生更准确的边界。由于能够自动学习具有分层抽象级别的丰富数据表示，深度CNN为包括边缘检测在内的各种计算机视觉任务带来了巨大的进步，并且仍在快速发展。早期基于深度学习的边缘检测模型构建CNN架构作为分类器来预测输入图像的边缘概率+1个00-1个0+1个-10传统运营商vanilla CNN卷积PDC+1个0-1+2个0-2+1个+2个+1个000-1-2-1-1 +2个-1+2个-4 +2个+1个+1个+1个+1个-8 +1个5118×输入vanilla卷积由像素差卷积输出图2. 配置有像素差卷积（PDC）的PiDiNet与vanilla convolution的基线。这两个模型都只使用BSDS 500数据集进行训练。与普通卷积相比，PDC能更好地捕捉图像的梯度信息，便于边缘检测。表1.比较我们的和一些领先的边缘检测模型的效率和准确性。基于200 × 200图像计算乘法累积（MAC），在BSDS500测试集上评估FPS和ODSF-测量HED[60] RCF [31]BDCN [18] PiDiNetPiDiNet（tiny）Params14.7M14.8M16.3M710K型73KMacs22.2G16.2G23.2G3.43G270M吞吐量78FPS67FPS47FPS92FPS215FPS预训练ImageNet ImageNetImageNet没有没有ODSF测度0.7880.8060.8200.8070.787补丁[2，47，3]。HED [60]建立在完全卷积网络[33]的基础上，通过利用具有由深度监督指导的丰富分层信息的多级图像特征来执行端到端边缘检测，并实现最先进的性能。其他类似的作品包括[62，23，36，55，61，31，8，18]。然而，很少研究传统边缘检测器与现代CNN的集成。在一些现有的方法中，前者仅用作提取候选边缘点的辅助工具[3，2]。直观地，边缘表现出不同的特定图案，如直线、拐角和一方面，传统的边缘算子，如图1所示。1的启发，这些直觉，并基于梯度计算，编码重要的梯度信息的边缘检测，通过显式计算像素差。然而，这些手工制作的边缘算子或基于学习的边缘检测算法通常由于其浅结构而不够强大另一方面，现代CNN可以学习丰富和分层的图像表示，其中香草CNN内核用作探测局部图像模式。然而，CNN内核是通过从随机初始化开始来优化的，其没有针对梯度信息的显式编码，使得它们难以聚焦于边缘相关特征。我们相信可以导出一种新型的卷积运算首先，它可以容易地捕获图像的梯度信息，有利于边缘检测，和CNN模型可以更集中的负担，在处理许多不相关的图像特征的释放。其次，仍然可以保留深度CNN的强大学习能力，以提取语义上有意义的表示，这导致鲁棒和准确的边缘检测。在本文中，我们提出了像素差异卷积（PDC），其中首先计算图像中的像素差异，然后与内核权重卷积以生成输出特征（参见图11）。（3）第三章。我们表明PDC可以有效地提高输出边缘图的质量二、另一方面，领先的基于CNN的边缘检测器遭受如表1中所示的缺陷：在大模型尺寸的情况下消耗存储器，在高计算成本的情况下消耗能量，在低吞吐量的情况下运行效率低下，以及在需要对大规模数据集进行模型预训练的情况下标记效率低下这是由于以下事实：可用于训练边缘检测模型的注释数据是有限的，并且因此需要良好预训练例如，广泛采用的例程是使用在大规模ImageNet数据集上训练的大型VGG16 [49]架构[7]。为了在边缘检测的准确性和效率之间取得更好的平衡，开发一种轻量级的结构是很重要的。受[19，20]的启发，利用像素差异卷积，我们构建了一种新的端到端架构，即像素差异网络（PiDiNet），以一次性解决上述问题。具体地，PiDiNet由有效的主干和有效的任务特定的侧结构组成（参见图1）。5）能够以高效率进行鲁棒且准确的边缘检测。5119ΣΣ××≤×--×P2. 相关工作使用传统边缘检测器帮助深度CNN模型进行边缘检测。 [5]《明史》卷159边缘检测器通常用于在应用CNN模型进行轮廓/非轮廓预测之前提取候选轮廓点[2，3]。候选点也可以用作辅助松弛标签，以更好地训练CNN模型[32]。PDC不是依赖于来自手工制作的检测器的边缘信息，而是直接将梯度信息提取过程集成到卷积操作中，这是更紧凑和可学习的。边缘检测的轻量级架构。最近，已经努力设计用于有效边缘检测的轻量级架构[56，57，45]。其中一些可能不需要基于大规模数据集的预训练网络[45]。虽然紧凑和快速，这些网络的检测精度是不能令人满意的。可替代地，用于其他密集预测任务[13，58，43，25，38，63]和多任务学习的轻量级架构也可以像素差卷积基于中心差异（CPDC）w1 w2 w3卷积W40周6w7 w8 w9像素差卷积基于角差的输入特征映射输出特征图像素差卷积基于径向差异的图3.从扩展的LBP描述符导出的像素差卷积的三个实例[28，30，52]。可以通过设计像素对的拾取策略来导出其他实例。vanilla卷积和PDC的函数可以写为：k×ky=f（x，θ）=wi·xi（vanilla卷积）（1）i=1ing [24，26]也可以有益于边缘检测。然而，引入的复杂的基于多分支的结构可能导致运行效率低下。相反，我们建立了一个骨干y=f（▽x，θ）=（xi，x′i）∈Pwi·（xi−x′i），（PDC）（2）结构，其仅使用简单的捷径[19]作为卷积块的第二分支。整合传统运营商。所提出的PDC主要与最近的中心差分卷积（CDC）[66，65，64，67]和局部二进制卷积（LBC）[21]相关，其中两者都源自局部二进制模式（LBP）[42]并且涉及在卷积期间计算像素差LBC使用一组预定义的稀疏二进制滤波器来推广传统的LBP，专注于降低网络的复杂度。CDC进一步提出使用可学习的权重来捕获图像梯度信息以用于鲁棒的面部反欺骗。 CDC 可以被视为所提出的 PDC 的一个实例（即，，中央PDC），其中考虑中央方向，如我们将在第3节中介绍的。像CDC一样，PDC使用可学习的过滤器，同时更加通用和灵活，可以捕获丰富的梯度信息进行边缘检测。另一方面，Gabor卷积[34]通过将卷积核与一组Gabor滤波器相乘来编码卷积核中的方向和尺度信息，而PDC更紧凑，没有任何辅助的传统特征滤波器。3. 像素差卷积像素差卷积（PDC）的过程非常类似于普通卷积的过程，其中当进行卷积操作时，由卷积核覆盖的局部特征图块中的原始像素被像素差替换的制剂其中，x i和x′i是输入像素，w i是权重在的Kk卷积核。=（x1，x′1），（x2，x′2），…，（x m，x′m）是从当前局部块中拾取的像素对的集合，并且m k k。为了捕获丰富的梯度信息，可以根据不同的策略来选择像素对，这可以从众多的传统特征描述符中得到启发。在这里，我们利用来自[42，30，52]中的工作的想法，其中局部二进制模式（LBP）及其鲁棒变体，扩展LBP（ELBP）用于从不同方向（角度和径向）编码像素关系。具体地，通过首先计算局部块（来自m个像素对）内的像素差异，得到像素差异向量，然后将向量二进制化以创建m长度的0/1代码，来获得ELBP。然后，通常使用词袋技术[27]来计算代码分布（或直方图），将其视为图像表示。在ELBP中，将证明角度和径向方向有助于编码潜在的区别性图像线索，并补充增加各种计算机视觉任务的特征表示能力，例如纹理分类[30，28]和面部识别[52]。通过将ELBP与CNN卷积集成，我们导出了三种类型的PDC实例，如图所示。3中提出的三种PDC分别称为中心PDC（CPDC）、角PDC（APDC）和径向PDC（RPDC）。局部补片中的像素对易于理解。例如，对于内核大小为3的APDC3，我们创建8对在3 × 3局部片中的角方向（因此m=8），则从所述对获得的像素差是一致的。5120×××我× ××我我我通过与内核权重进行逐元素乘法，然后求和，与内核进行卷积，以生成输出特征图中的值。基于ELBP的衍生PDC实例可以看作是ELBP的扩展，具有更好的灵活性和可学习性。原始ELBP码虽然功能强大，但具有离散性，代表能力有限。虽然PDC中的像素关系的有用编码将被保留在经训练的卷积核中，如在CNN的训练过程期间，但卷积核将被鼓励具有与那些重要编码的更高内积，以便创建更高的激活响应1。通过从丰富的数据中进行训练，PDC能够自动学习任务的丰富的代表性编码。*图4.APDC中像素对的选择和卷积将PDC转换为香草卷积。根据等式2中，可以注意到PDC的计算成本和存储器占用与普通对应物相比加倍然而，一旦已经学习了卷积核，PDC层就可以通过根据所选择的像素对的位置而替代地保存模型中的核权重的差来转换为普通卷积层。以这种方式，在推理期间保持效率以APDC为例（图4），用以下等式进行转换：y= w 1·（x 1 − x 2）+w 2·（x 2 − x 3）+w 3·（x 3 − x 6）+...=（w1 − w4）·x1+（w2 − w1）·x2+（w3 − w2）·x3 +...=w1·x 1 +w2·x 2 +w3·x 3 +. =Σwi·xi.（三）值得一提的是，我们还可以使用这种调整来加快训练过程，其中首先计算内核权重的差异，然后使用未触及的输入特征图进行卷积。我们在附录中说明了更多的细节。4. PiDiNet架构正如一些先前的工作[56，45，57]所尝试的那样，我们相信通过构建具有小模型大小和高运行效率的架构来一次性解决第1节中提到的低效问题是必要和可行的，并且可以使用有限的数据集从头开始训练以实现有效的训练。主动边缘检测我们用高效的骨干。背骨的建造原则因此，我们不考虑为许多其他任务提出的复杂的多分支轻量级结构[13，38，63]，因为它们可能不适合并行实现[35]，导致边缘检测任务的效率不令人满意。受[19]和[20]的启发，我们使用可分离的深度卷积结构，具有快速推理和易于训练的捷径。整个主干具有4个阶段，并且最大池化层在其中用于下采样。每个级具有4个残差块（除了具有初始卷积层和3个残差块的第一级每个块中的残差路径依次包括深度卷积层、ReLU层和逐点卷积层。每个阶段中的通道数量合理地小以避免大的模型尺寸（阶段1、2、3和4分别为C、2C、4C和4C高效的侧面结构。为了学习丰富的分层边缘表示，我们还使用如[60]中的边结构来分别从每个阶段生成边缘图，基于该边缘图，使用地面实况图计算边损失以提供深度监督[60]。为了细化特征图，从每个阶段的末尾开始，我们首先建立一个基于压缩膨胀卷积的模块（CDCM）来丰富多尺度边缘信息，该模块以nC通道，并在输出中产生M（M< C）个通道以减轻计算开销，随后是紧凑空间注意模块（CSAM）以消除背景噪声。在此之后，11卷积层进一步将特征体积减小到单个通道图，然后将其内插到原始大小，然后使用S形函数来创建边缘图。用于测试的最终边缘图通过将4个单通道特征图与级联、卷积层和Sigmoid函数融合来创建。详细的结构信息可以在图1中看到。注意，为了简单，我们不使用任何归一化层，因为训练图像的分辨率不均匀。所获得的架构是我们的基线。通过将vanilla卷积重新放置在33深度方向卷积中，在残余块体中的旋转层与PDC，我们得到提出了PiDiNet。损失函数。我们对每个生成的边缘图（包括最终边缘图）采用[31]中提出的注释器鲁棒损失函数对于具有值pj的第j个边缘图中的第i个像素，损失计算为：α·log(1−pj)ifyi=0lj=0if0

下载后可阅读完整内容，剩余1页未读，立即下载