多尺度交互网络显著目标检测

127 浏览量更新于2023-10-25 收藏 1.7MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9413多尺度交互网络显著目标检测庞有为1 <$，赵晓琪1<$，张立和1张，卢沪川1，21大连理工大学，中国2彭城实验室{lartpang，zxq}@ mail.dlut.edu.cn，{zhanglihe，lhchuan}@dlut.edu.cn摘要基于深度学习的显著对象检测方法取得了很大进展。然而，显著对象的规模可变性和类别未知性一直是显著对象识别的一大挑战这些都与多层次、多尺度特征的利用密切相关在本文中，我们提出了聚合交互模块，以集成的功能，从相邻的水平，其中较少的噪声引入，因为只使用小的上/下采样率。获得更多图像GTMINet AFNetCPDPAGR从集成特征中提取有效的多尺度特征自交互模块嵌入在每个解码器单元中。此外，尺度变化引起的类不平衡问题因此，我们利用一致性增强损失来突出前/背景差异，并保持类内的一致性。五个基准数据集上的实验结果表明，该方法没有任何后处理表现良好，对23个国家的最先进的方法。源代码将在https://github.com/lartpang/MINet上公开。1. 介绍显著目标检测（SOD）的目的是区分视觉上最明显的区域。它在数据驱动的深度学习方法的帮助下迅速发展，并已应用于许多计算机视觉领域，如视觉跟踪[24]，图像检索[10]，非真实感渲染[28]，4D显着性检测[33]，无参考合成图像质量评估[38]等。尽管目前已经取得了很大的进展，但如何从尺度变化的数据中提取更有效的信息以及如何提高这种情况下预测的空间一致性仍然是需要关注的两个问题。由于显著区域的不同尺度，基于CNN的方法[2]这些作者对这项工作的贡献相当。*通讯作者。图1.几个具有大小变化对象的可视化示例及其由建议的MINet，AFNet [9]，CPD [41]和PAGR [53]方法生成的预测。ods由于重复的子采样而缺乏必要的详细信息，因此很难始终如一地准确分割不同尺度的显著对象（图2）。1）。此外，由于卷积运算固有的局部性和交叉熵函数的像素级特性，难以实现对象的均匀高亮。对于第一个问题，现有方法的主要解决方案是逐层集成较浅的特征。一些方法[23，53，4，9，40，41，27，37]通过传输层将编码器中相应级别的特征连接到解码器（图11）。2（a、c、e））。单层次特征只能表征尺度信息。在自顶向下的路径中，由于更深特征的不断积累，浅特征中的细节的表示能力被削弱。为了利用多层次特征，一些方法[51，13，34]以完全连接的方式或启发式方式组合来自多个层的特征（图11）。2（b，f，g））。然而，融合过多的特征和缺乏不同分辨率之间的平衡容易导致计算成本高、噪声大和融合困难，从而干扰后续自顶向下路径的信息恢复。此外，atrous空间金字塔池化模块大中间小9414（一）（b）第（1）款（c）第（1）款（e）（f）第（1）款（g）增强损失（CEL）的训练阶段，这是不敏感的对象的规模。同时，由于CEL的梯度具有保持类内一致性和扩大类间差异的特点，因此能够更好地处理空间一致性问题，在不增加额外参数的情况下均匀突出显著区域我们的贡献可归纳为三个方面：• 我们建议MINet有效地满足规模的挑战，在SOD任务。总的相互作用（d）（h）图2.不同架构的插图。绿色块、或- ange块和灰色块分别表示编码器、传输层和解码器中的不同左栏：编码器和传输层之间的连接模式;右栏：传输层和解码器之间的连接模式。（a，e）FCN [22];（b）Amulet [51];（c）BMPM [48];（d）目标管理系统（第（f）安保部[13];(g) [34]第34节：第一节3.3）。（ASPP）[3]和金字塔池化模块（PPM）[55]用于提取多尺度上下文感知特征并增强单层表示[6，32]。然而，现有的方法通常将这些模块装备在编码器之后，这导致其网络由于顶层特征的低分辨率的限制而错过对于第二个问题，一些经验模型[41，27]主要采用特定的分支或附加网络来细化结果。然而，这些方法都面临着计算冗余和训练困难的问题，不利于进一步的应用。受张等提出的相互学习思想的启发[54]，我们提出了一种聚合交互策略（AIM），以更好地利用多层次特征，避免因分辨率差异过大而对特征融合造成的干扰（图2）。第2段（d）分段）。我们协作学习知识指导，以有效地整合来自相邻决议的上下文信息。为了进一步从提取的特征中获得丰富的尺度特定信息，我们设计了一个自交互模块（SIM）（图1）。第2（h）段）。两个不同分辨率的交互分支被训练以从单个卷积块学习多尺度特征。AIMs和SIMs有效地提高了SOD任务中处理尺度变化的与[54]中的设置不同，在这两个模块中，相互学习机制被纳入特征学习中。通过交互式学习，每个分支可以更灵活地整合来自其他决议的信息。在AIM和SIM中，主分支（图中的B1）4和B0在图中。5）以辅助支为补充，进一步提高了鉴别力。此外，多尺度问题也导致数据集中前景和背景区域之间的严重不平衡，因此我们嵌入了一致性-模块通过相互学习的方式有效地利用相邻层的特征，自交互模块使网络能够自适应地提取数据的多尺度信息，更好地处理尺度变化。• 我们利用一致性增强的损失作为替代，以推动我们的模型，以统一突出的实体，轮胎的显著区域，并更好地处理像素不平衡的问题所造成的前，背景区域的各种规模的对象，没有任何后处理或额外的参数。• 我们将所提出的方法与五个数据集上的23种最先进的SOD方法进行了比较。它实现了不同评价指标下的最佳表现。此外，该模型在GPU上的正向推理速度为86.1 FPS。2. 相关工作2.1. 显着物体检测早期的方法主要是基于手工制作的pri- ors [5，39，49，47]。它们的推广和有效性是有限的。早期的深度显著对象检测（SOD）方法[57，16]使用多层感知来预测图像的每个处理单元的显著性得分。这些方法计算效率低，并且破坏了潜在的特征结构.有关传统和早期深层方法的更多详细信息，请参见[2，35]。最近，一些方法 [20 ， 53] 引入了全卷积网络（FCN）[22]并取得了有希望的结果。此外，Liu等人[20]分层地将全局和局部上下文模块嵌入到自上而下的路径中，该路径为每个像素构建信息上下文特征。Chen et al. [4]提出了自上而下路径中的反向注意力来指导剩余显着性学习，从而驱动网络发现补充对象区域和细节。尽管如此，上述方法仅在每个解码器单元中采用单独的分辨率特征，这对于处理复杂的和各种尺度问题不是足够有效的策略2.2. 尺度变化尺度变化是SOD任务中的主要挑战之一受局部卷积运算的限制，9415i=0时i=0时i=0时i=0时元素加法上采样CNN特征辅助特征增强特征监督图3.提出的模型的总体框架每个彩色框代表一个特征处理模块。我们的模型需要RGB图像（320×320×3）作为输入，并利用VGG-16 [29]块{Ei}4来提取多层次特征。这些功能集成在目标（{AIMi}4然后，通过使用SIM（{SIMi}4）逐渐组合输出的特征）和融合单元（{Fi}4）以生成由地面实况G监督的最终预测P。子采样操作，CNN很难处理这个问题。一方面，不同分辨率的特征所包含的目标信息量随目标尺度的变化而一个直截了当的策略是大致整合所有功能。另一方面，每个卷积层只具有处理特定尺度的能力。因此，我们需要通过建立一个多路径特征提取结构，从一个单一的层来表征多尺度信息。多层次信息。Zhang等人[51]简单地将所有级别特征组合到传输层中。这种粗融合容易产生信息冗余和噪声干扰。在[48]中，利用门函数来控制消息传递速率，以优化层间信息交换的质量。然而，多重选通处理导致来自其它层的信息的严重衰减，这限制了网络的学习能力。与这些方法不同的是，我们只融合了相邻层的特征，因为它们的抽象程度更接近，并同时获得了丰富的尺度信息。多尺度信息。空间金字塔池（ASPP）[3]和金字塔池模块（PPM）[55]是多尺度信息提取的两种常见选择，通常固定在网络的最深层[6，32]。由于深层特征包含的小尺度目标信息较少，尤其是顶层特征，这些方法不能有效地处理大尺度变化。此外，在[37]中，金字塔注意力模块可以通过对所有位置的多次下采样和softmax操作来获得多尺度注意力But such a softmaxseverely suppresses non-maximum values and is more sen-sitive to noise.它并没有很好地改善规模问题。到避免误判小对象，我们提出了一个多尺度处理模块，其中两个分支交互学习功能。通过数据驱动的训练，双路径结构可以学习丰富的多尺度表示。此外，过大和过小的物体会导致前景和背景样本之间的不平衡，从而削弱像素级监控的效果。我们引入一致性增强损失（CEL）作为交叉熵损失的辅助。CEL对对象的大小不敏感。它可以克服监管的困难，在面对大规模变化时表现得非常好。2.3. 空间相干性为了提高显着图的空间一致性和质量，一些非深度方法通常集成过分割过程，该过程生成区域[44]，超像素[45]或对象建议[11]。对于基于深度学习的方法，Wu et al.[41]提出了一种具有两个分支的级联部分解码器框架，并直接利用由注意分支生成的注意图来细化来自显著性检测分支的特征。Qin等人。[27]采用残差细化模块结合超损失来进一步细化预测，这显著降低了推理速度。在本文中，CEL更注重预测的整体效果它有助于获得更均匀的显著性结果，并且是效果和速度之间的更好权衡。3. 该方法针对显著性目标检测（SOD）任务中普遍存在的尺度变化问题，提出了一种融合多层次、多尺度特征信息的交互式集成网络。整个网络结构如图所示3.第三章。编码器块，ag-Simse0级320*320*64E1160*160*128E280*80*256E340*40*512E420*20*512+U++++UUUUF0320*320*32F1160*160*32F280*80*64F340*40*64F420*20*64旨在FUS9416i=0时联系我们--i=0时e目的eee目的eeee=1集合交互模块（AIM），自我交互模块，单元（SIM）和融合单元（FU）表示为{Ei}4，AIMi 4i=0时SIMi4i=0时 4.{f}分别表示3.1. 网络概述我们的模型建立在FCN架构上，以预训练的VGG-16[29]或ResNet-50 [12]作为骨干，两者都只保留特征提取网络。具体来说，我们删除了VGG-16的最后一个最大池化层，以保留最终卷积层的细节。因此，对于VGG-16，输入以因子16进行子采样，对于ResNet-50，以因子32进行子采样。我们使用主干提取多级特征和抽象，然后每个AIM（图1）。4）利用相邻层的特征作为输入，有效利用多层次信息，为当前分辨率提供更相关、更有效的补充。接下来，在解码器中，每个SIM（图1）。5）之后是FU，其是卷积层、批归一化层和ReLU层的组合。SIM可以自适应地提取多尺度信息。信息由FU进一步整合并馈送到较浅的层。此外，我们引入一致性增强损失作为辅助损失来监督训练阶段.在本节中，我们将详细介绍这些模块。为了简化描述，所有后续模型图4.聚合交互模块（AIM）的图示 Bi：第i个分支B i中的所有操作。元素加法同时，B1分支也调整其分辨率，并分别合并为B0和B2分支。最后，三个分支通过随后的卷积层融合在一起为了有效地训练AIM并增加fi的权重以确保其他分支仅起补充作用，介绍了学习策略输出的特征表示为fi∈RNi×Hi×Wi×Ci ，其中 C0=32 ， Ci=0=64 。 F 或AIM0和AIM4，它们的输入仅包含f0，f1和f3，f4，相应地（图1）。4（a，c））。的参数基于VGG-16骨架。整个工艺流程如下：3.2. 聚合交互模块fi= Ii（fi）+Mi（fi），目标目标e目的AB在特征提取网络中，不同级别的控制，Σ21.2j=1i，jAIM（fj-1）如果i=0，（一）渐进层对应于不同程度的特征抽象。多层次集成可以增强不同分辨率特征的表示能力：1）我ABj=0j=0i、j目的i、j目的（fi+j−1）如果i=1，2，3，（fi+j−1）如果i=4，在浅层，可以进一步加强细节信息，抑制噪声; 2）在中层，同时兼顾语义和细节信息，并根据网络自身的需要，自适应地调整不同抽象信息在特征中的比例，从而实现更灵活的特征利用; 3）在最上层，当考虑相邻分辨率时，可以挖掘更丰富的语义信息。特别是，我们提出了聚合交互模块（AIM）（图1）。（4）采用互动学习策略，整合特征。第i个AIM表示为AIMi，其输入由来自编码器的特征fi−1、fi和fi+1组成其中I（·）和M（·）表示单位映射，branchme ring，respect i vel y. Bi，j（·）是第j个分支的总体操作（即，B j）在AIMi.由于空间限制，请参考图。4为每个分支内部的计算细节。3.3. 自交互模块AIM旨在实现层间卷积特征的有效利用，而自交互模块（SIM）被提出来从层内特征产生多尺度表示。SIM卡的细节可以在图中看到。5. 同样，我们也将转换-交互-融合策略应用于e e e如图第4（b）段。经过最初的改造通过单个卷积层的组合，通过使用归一化层和ReLU层，减少了这些特征的通道数。在交互阶段，通过池化、邻域插值和卷积运算对B0分支和B2分支进行调整，然后通过SIM卡。具体来说，分辨率和维数首先，通过卷积层来减少输入特征。在每个分支中，SIM执行初始转换以适应以下交互操作：我们对低分辨率特征进行上采样，并对高分辨率特征进行子采样，使其分辨率与另一个分支的特征相同。高血压和高血糖之间的相互作用+B1+B2B0++（++B1+B2++（+b0的（+B1++BBFB9417SIMSIM添加SIM我添加+B0+B1++图5.自我互动模块（SIM）的插图Bi：第i个分支Bi中的所有操作。具有不同通道数的低分辨率特征可以获得关于各种尺度的大量知识，并且以低参数数量保持高分辨率信息为了便于优化，还采用了剩余连接，如图所示。5.在上采样、归一化和非线性处理之后，使用FU来融合特征。其中l〇 g（·）也是逐元素操作。G∈{0，1}N×H×W×1表示地面实况。为了解决由各种原因引起的前/背景不平衡问题，尺度上，损失函数至少需要满足两个要求：1）它更关注前景而不是背景，并且对象尺度上的差异不会导致计算损失的大幅波动; 2）当预测的前景区域与地面实况区域完全不相交时，应该有最大的惩罚。基于这两点，我们考虑区域之间的拓扑关系来定义CEL如下：|FP+FN|LCEL=|FP+2TP+FN|从SIM和剩余分支的双路径的图将SIM卡集成到解码器中，Σ（p-pg）+sup（g-pg）（六）==以自适应地处理训练阶段中不同样本的尺度变化。整个过程写为：p+g其中TP， FPFN代表真阳性假阳性我SIM我添加.我SIMi，0SIM我添加i，1SIMΣ添加）、分别为阳性和假阴性 |·|计算面积。FP+FN表示两个变量之间的差集，其中f（二）是S IMi的产物。M（·）表示预测的前景区域和地面实况区域的并集和交集，而FP+2TP+FN表示分支合并，Bi，j表示第j个分支中的操作分支（即 B j），并且输入特征fi是计算如下：发送并集和交集的和。当{p|p>0，p∈P}n{g|g=1，g∈G}=0时，损失达到最大值，即LCEL=1。由于p是连续的，LCEL我添加.我目的我目的+ Ui+1（Fi+1（Fi+1）），如果i=0，1，2，3，如果i=4，（三）关于p是可微的。因此，网络可以以端到端的方式进行培训。为了比较LCEL和LBCEL，我们分析了它们的梯度对网络预测的直接影响. 他们的其中Ui+1（·）和Fi+1（·）表示第（i+1）个上采样导数表示如下：自上而下路径中的操作和融合单元。有关SIM卡的更多详细信息，请参见图。五、BCEL布吕普G=−+p Σ1−g1−p 、（7）3.4. 一致性增强损失简体中文1 -2克（p+g−2pg）在SOD任务中，广泛使用的二进制交叉熵函数只对整批图像中每个像素的损失进行累加，没有考虑像素间的关系，不能显式地促使模型尽可能平滑地突出前景区域，也不能很好地处理样本不平衡问题。为此，我们提出了一致性增强损失（CEL）。首先，最终预测计算如下：=−。（八）p（p+g）[（p+g）]2可以观察到，BCEL/BCLP仅依赖于对个体位置的预测。虽然CEL/CEL/CLP p与预测P和地面中的所有像素相关，真理G 因此，CEL被认为是执行全局约束的预测结果，这可以pro-产生更有效的梯度传播。在Equ. (8)除了分子项1-2g是位置特定的，其它项是图像特定的。这个分子是P=S形（Conv（F0（f0）），（4）与二进制地面实况密切相关，这导致类间导数具有较大差异，其中P ∈RN×H×W×1表示一批中的N个显著图，N是批大小。 0p <∈

下载后可阅读完整内容，剩余1页未读，立即下载