共显著性检测的总结与搜索

29 浏览量更新于2023-10-13 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4167总结和搜索：学习一致性动态卷积的共显著性检测倪张1韩俊伟1刘念2*凌少21西北工业大学2人工智能{nnizhang.1995，junweihan2010，liunian228} @ gmail.com，ling. ieee.org摘要人类通过首先对整个组中的共识知识进行求和，然后在每个图像中搜索对应的对象来执行共显性检测。以前的方法通常缺乏第一过程的鲁棒性、可扩展性或稳定性，并且简单地将一致性特征与图像特征融合用于第二过程。在本文中，我们提出了一种新的共识感知的动态卷积模型，明确和有效地执行“总结和搜索”的过程。为了总结共识图像特征，我们首先使用有效的池化方法总结每个单个图像的鲁棒特征，然后通过自注意机制聚合通过这样做，我们的模型满足可扩展性和稳定性的要求。接下来，我们从共识特征生成动态内核来对总结的共识知识进行编码。两种类型的核以补充的方式生成，以分别总结细粒度的图像特定的一致性对象线索和粗的组明智的共同知识。然后，我们可以有效地执行对象搜索，采用动态卷积在多个尺度。此外，还提出了一种新的和有效的数据合成在四个基准数据集上的实验我们的代码和显著性图可在https://github.com/nnizhang/CADC获得。1. 介绍共显对象检测（Co-SOD）模仿人类视觉系统来区分观看一组相关图像时的共同和显著对象。虽然已经提出了各种Co-SOD方法，但让我们从人类的角度来回顾这个问题。给定一组图像，人类无法直接分割出每幅图像中的共显对象。相反，他们需要首先观察所有图像并总结关于以下内容的共识知识：*通讯作者。汇总计算器内核建设搜索动态卷积自适应核函数公共内核图1.我们提出的方法的主要思想。这群人关注的是什么样的东西然后，他们回头看每个图像并搜索相应的对象。我们将此过程称为类似的解释也可以在[48]中找到。因此，我们可以这样一种直观的方式来建立Co-SOD模型，首先总结共识知识，然后在每个图像中搜索共识对象。以前的模型也可以从这一点来解释对于共识知识总结，早期的传统方法采用图模型[18]或聚类方法[7，39]来学习常见模式。然而，他们的模型缺乏端到端的学习，从而限制了模型的性能。一些最近的深度模型[36，35，27]选择连接和卷积所有图像特征，以总结共识知识。然而，卷积只能聚合不同图像之间相同位置处的信息，而共同显着对象通常在不同图像中显示尺度和位置的变化。因此，这些模型可能容易在共识总结中失败。使用非局部依赖性[34]来总结共识线索是另一种选择[8]。然而，这种方法缺乏可扩展性，因为它是计算上禁止处理大量的图像。其他的工作[17]采用递归网络逐步总结一致性线索。然而，递归模型定义了图像序列的输入顺序，因此缺乏模型稳定性，因为不同的输入顺序将导致不同的结果。对于共识对象搜索，许多作品[36，35，17，32，40，27，47]直接融合了共识特征4168通过求和或连接操作来处理图像特定特征。[46]以及[5]通过逐元素乘法将共同注意力图与图像特定信息融合。这些简单的方法通过线性信息融合进行目标搜索，不能充分利用总结的共识知识的指导。此外，[48]基于其与共识表示的相似性，为每个单个图像特征我们认为，直接的空间搜索可能更准确，更容易学习。在本文中，我们提出了一个新的共识意识的动态卷积（CADC）模型直接从“求和和搜索”的角度来看首先对整个群体的图像特征接下来，通过使用内核对图像特征进行卷积以获得最终结果来执行搜索步骤，如图1所示然而，对Co-SOD采用动态卷积需要精细的模型设计。我们建议通过首先总结每一幅图像的特征，然后整合跨图像的一致性特征来总结对于第一步，我们提出使用多尺度最大池化模块来实现位置和尺度鲁棒特征。对于第二步，我们利用自我注意机制[31]。通过这种方式，我们的模型可以满足可扩展性和稳定性的需求。对于共识感知的动态内核生成，我们建议同时构建图像自适应内核和一个共同的内核。前者是为每个图像单独生成的，以捕获细粒度的图像特定的线索，而后者是为整个组生成的，以总结粗略的组常识。从理论上讲，后者可以作为前者的补充和规范，以避免他们过于关注图像的特定信息。我们还生成了高效的大动态核，以进一步考虑空间结构和扩大搜索范围。此外，针对Co-SOD领域缺乏训练数据的问题，提出了一种新颖有效的数据合成方法，通过两种不同的方式融合普通对象和不相关的显著对象来模拟真实世界的场景。与以往的方法相比，该方法能大大提高Co-SOD的性能我们的主要贡献可归纳如下。• 从“总结与检索”的生成动态核来总结共识知识，并使用动态卷积执行对象搜索• 我们建议结合多尺度最大池和自注意力模型，以获得具有模型可扩展性和稳定性的共识特征• 我们构建了两种类型的动态内核，以补充的方式来捕获图像特定的线索和组明智的共同知识，分别。• 我们开发了一种新的，更有效的数据合成方法来模拟现实世界中具有挑战性的情况下，Co-SOD模型的训练。• 我们的CADC网络实现了最先进的Co-SOD结果。2. 相关工作2.1. 共显著性检测早期的Co-SOD方法[7，18]通常致力于基于不同的低级图像特征来设计手工制作的特征。最近的工作将深度学习技术引入Co-SOD并获得了有希望的性能。一堆作品[44，46]将深度学习功能与其他传统方法相结合。然而，这种单独的学习方案没有以数据驱动的方式充分利用CNN的相比之下，另一批作品采用端到端的深度模型来学习相关图像的常见模式。[36，35，27]连接并卷积所有图像特征以生成一致性特征，该一致性特征对对象位置和尺度的变化敏感。相比之下，我们提出了一个多尺度最大池模块来提取位置和尺度鲁棒特征。此外，一些著作[36，35，17，32，40，27，47]采用了求和或在线性空间中将一致特征与单个图像特征因此，他们不能探索更有效的指导，从consen- sus的知识，从而执行不令人满意的对象搜索。相比之下，我们学习两种类型的共识意识的动态内核执行多样化和补充性的共识总结和执行动态卷积的lution有效的对象搜索。一些其他现有模型探索长距离依赖性以检测共显对象，诸如[8，17]。然而，[8]仅通过非局部网络[34]探索了一对图像之间的相互作用，这对于获得共同特征是脆弱的，因为类似的无关对象也可能出现在两个图像中并导致分心。此外，该方法还缺乏可扩展性，因为它在计算上禁止处理大量图像。[17]利用循环网络逐步探索所有可用图像的相互作用。然而，重现模型具有顺序问题，并且可能导致模型不稳定。相比之下，我们采用的多尺度最大池化模块可以首先降低每个图像的特征维数，这进一步使我们能够通过自注意机制从所有图像中总结共识知识。因此，我们可以有效地捕获全局共识，同时具有模型的可扩展性和稳定性。4169111111⃝⃝×n=1×∈∈××2∈2××∈--C图2.我们的CADC网络框架。和D分别表示动态卷积和我们的解码器模块。S表示空间注意力。2.2. 动态卷积作为元学习的指定方法，动态卷积使用预测的核来执行卷积运算，这不同于具有一旦训练就固定的滤波器的传统卷积。Xu等[15]提出了一种动态滤波器网络来学习不同输入样本的自定义参数。这个想法被广泛采用来解决少次学习问题[1，9]，其中学习者首先在基础类别的大量可用训练数据集上进行训练，然后用于生成用于分类新类别的随后，一些作品[26，30]将动态卷积引入实例分割任务。然而，它们中的大多数仅学习了具有11大小的一个动态内核，并且由于所涉及的大计算成本而没有考虑学习大空间内核Pang等人[23]引入了针对RGB-D SOD的具有不同膨胀率的大的3× 3动态核。然而，他们为每个图像中的每个像素生成了不同的内核，这具有显著大的计算成本。与以往的方法不同，我们设计了特定于组和特定于图像的动态内核来学习Co-SOD的多样性和补充性Meta知识。通过使用深度可分离机制[12]，我们的动态卷积在计算上也是3. 该方法图2显示了我们的Co-SOD的总体管道我们提出了CADC模型的共识总结和对象搜索，其中前者是由共识特征聚合和共识意识的内核结构。我们将该模型嵌入到U形[28]模型中，并在多个特征级别中进行分层对象搜索。同时，我们提出了一种新的和有效的数据合成方法来训练所提出的网络。3.1. 共识特征聚合给定一组N个相关图像InN，我们首先使用我们的编码器提取它们的编码特征映射XRN×H ×W ×C，其中H，W和C分别表示其高度，宽度和通道数。我们遵循[22]稍微修改原始的VGG-16 [29]主干，并在其之后插入修改后的DASPP模块[38]作为我们的编码器。然后，如图3所示，我们在X上使用具有三个目标尺度的自适应最大池化层，并获得空间大小为1的输出特征第1、3条3和6 6，分别。然后，将这些输出要素展平并连接以生成要素FRN×46×C。为在每个图像中，所获得的特征概括了多个尺度上的主要对象特征，因此对于共同显著对象的位置和尺度变化都是鲁棒的多尺度最大池化模块从HW到46，从而为我们提供了通过自我关注从所有图像中总结全局共识按照[31]，我们首先应用线性变换将F投影到具有C通道的查询、键和值空间然后，通过查询矩阵与关键矩阵的矩阵相乘，计算出一个亲和度矩阵AR46N×46N，它表示了所有图像的46N个由于一个特征通常与同一图像中的其他特征比其他图像中的特征更相似，因此我们将在每个相同图像内计算的A中的自相似元素重置为非常小的值，以避免图像内相似性支配亲和矩阵。然后，采用二维归一化的方法得到注意力矩阵，再与注意力矩阵相乘生成聚集特征YR46N×.接下来，通过线性变换将Y重新投影到C通道，然后重新整形为形状N×46×C。最后，将其添加到原始图像上SDSD*D*D*D*CKCCKCCKCConsesus特征聚合（CFA）共识感知核构造（CKC）CFACFACFAconv1conv2conv3conv4conv5FC6fc7DASPP4170∈×∈×× × × ×∈××× × ×∈∈1图3.我们提出的CADC的共识总结和对象搜索的管道。我们生成两种类型的核，即，自适应核和公共核，分别用于每个图像和整个组。“SA”是指自我关注模块。和分别表示深度可分离卷积和级联。特征图F，用于提供残差信号以生成一致性特征Z∈RN×46×C。3.2. 共识感知核构造基于一致性特征Z，我们为每个图像组生成两种核来编码求和的一致性知识。由于共现显著对象在不同图像中可能具有各种外观和尺度，因此我们首先为每个图像构造自适应内核以编码细粒度的图像特定的一致性对象信息。还为整个组生成公共核以捕获粗略的后者可以看作是前者的补充和规范，避免了前者过于关注图像的特异性信息而忽略了共性信息。为此，生成这两种类型的核将特定于图像的一致性对象信息和分组方式的共同对象知识的学习分开，从而更好地符合Co-SOD的本质并促进它们之间的潜在关系探索。此外，这样做模仿了CNN中广泛使用的多分支架构，这增加了变换复杂度和模型能力。(1) 1×1大小的香草动态内核我们首先遵循大多数传统的动态卷积方法[26，30]来生成具有11大小的动态内核，这是直接且易于实现的。具有11大小的自适应内核。我们利用Z生成不同图像的自适应内核。首先，我们将Z平坦化为RN ×46C，并通过以下方式学习特征注意力α ∈ RN ×46：α=FC（ReLU（BN（FC⑵），（1）其中α通过softmax运算沿着第二维度进一步归一化，以选择每个图像的所有46个特征中哪一个是最具区分性中间FC层有1024个节点。然后，Z沿第二维被α加权求和以生成关注特征FaRN×C。最后，从Fa学习11个通过：Ka=FC（PReLU（BN（FC（Fa），（2）其中K aRN× C1C，并进一步整形为形状NC1C11 .一、这里，C1是动态卷积运算的期望输出信道号，并且中间FC层具有C个节点。我们采用ParametricReLU（PReLU）[11]激活函数来生成内核，因为它们通常具有正激活和负激活。大小为1 1的通用内核。我们的目标是使用一个注意力权重WRN×46来聚集Z中沿前两个维度的所有图像特征，并生成一个组式公共特征FcRC。如[2]中所讨论的，不同查询的计算的自注意力都倾向于突出显示同一组最具区分性的关键元素。因此，我们可以从自注意矩阵softmax（A）中找到哪些特征是最具鉴别力的。具体地，我们可以通过沿第一维度对该矩阵求平均来获得权重W。然后，可以通过使用W沿着前两个维度对Z进行加权和来获得FC最后，可以通过以下方式学习公共内核：Kc=FC（PReLU（FC（Fc），（3）其中，KcRC1C和被进一步重新整形为形状C1C11作为逐组核。中间FC层也有C节点。 ��SA...1**��×�� ×��1��×�� ×��×�� ×��46 ��46 ��146 ��...**46 ��46 ��.... . .4171×××∈{X}×∈∈××∈××∈∈×∈∈×××≪(2) 高效的大型动态内核具有11大小的vanilla动态内核只能对信道一致性知识进行编码，而忽略空间线索。此外，它们只能在11范围内进行对象搜索，导致搜索能力有限。为了给一致性知识引入空间线索并扩大搜索范围，我们提出生成大空间动态核。然而，如果直接使用与普通动态核相同的方法，则会产生很大的计算成本和大量的FC参数例如，如果我们想要生成空间大小为3 3的动态内核，则Ka和Kc将大9倍，用于生成它们的FC层的参数这也是大多数动态卷积方法不学习大空间内核的原因。我们克服了这个问题通过连续使用α1和α2沿“C”和“46”维聚合Z中的信息，可以将α3的信息转换为α 1最后，我们在α3上应用softmax并将其用于加权和Z以消除第一维度。作为结果，我们可以获得特征FdcRC×46，其用于通过以下方式生成Kdc：Kdc=FC（PReLU（BN（FC（Fdc），（6）其中中间FC层具有46个节点，Kdc∈RC×9，并进一步整形为C×3 ×3的形状。3.3. 基于动态卷积的在获得共识感知的动态核之后，我们对原始特征图采用动态卷积[12]《易经》中的“阴阳”。nNn=1 以执行显式对象搜索。香草味的第我们以这种形式构造自适应内核和具有3 ×3大小的公共内核，如下所示。自适应内核，大小为33。我们分解3将3个自适应核Kla分解为深度自适应核KdaRNX CX3X3和逐点自适应核KpaRNX CIX C XIXI。后者可以以与Ka相同的方式构造。为了构建Kda，我们变换Z中的46-d特征中的每一个，以生成每个通道和每个图像的3 - 3我们首先将Z置换为形状RNC×46，并采用FC层，如下所示：Kda=FC（PReLU（BN（FC⑵），⑷其中中间FC层具有46个节点，Kda∈RNC×9，并且它被进一步整形为形状N× NC×3 ×3。3 3大小的普通内核。我们也分解将3 3共核转换为深度共核K dcRC×3×3 点态公共核KpcRC1× C ×1×1。注意，Kpc的构造也与Kc相同。为了构建Kdc，我们需要在一致性特征Z中聚合N个图像的信息。为此，我们利用注意力α3RN来聚合具有N个注意力权重的图像特征。为了学习α3，我们首先将Z展平为RN×46C的形状，然后通过以下方式生成两个注意力α1RN×C和α2RN×46：11个核，我们直接使用它们来卷积每个Xn。对于有效的大内核，下面的深度可分离卷积[12]中，我们首先使用depressive核分别对每个通道进行3 3组卷积，然后采用逐点核进行常规1 1卷积。对于每个图像，我们使用其自适应内核和公共内核来同时执行动态卷积，然后通过级联和卷积将两个响应映射融合到Cl通道，如图3所示。我们使用建议的CADC连接的编码器-解码器对在我们的U形网络在多个级别，因此执行分层对象搜索在不同的尺度，可以有效地提高搜索精度。具体来说，我们在前四个解码器模块中执行分层对象搜索在每个解码器模块中，我们首先对编码器特征图执行CADC。然后，我们将搜索响应图与先前的解码器特征图连接起来，并使用两个3 - 3Conv层来融合它们。BN [14]层和ReLU也在Conv层之后使用对于最后两个解码器模块，我们不再使用CADC。相反，我们简单地使用先前的解码器特征来生成空间注意力图，以过滤当前的编码器特征，如图2所示。3.4. 计算成本分析在本节中，我们将讨论共识特征聚合和共识感知内核构建的计算成本在前者中，我们的多尺度最大池化模块大大减少了每幅图像的特征数从H×W到46，从而使其有可能ag-α1=FC（ReLU（BN（FC（Z），α2=FC（ReLU（BN（FC⑵），（五）一组图像聚集在一起，而原来的自我关注导致了大的计算成本。例如，给定N个图像，使用自注意的其中，α1和α2的中间FC层具有1024个节点。然后，α1和α2通过下式进一步归一化：softmax沿着第二维。接下来，我们可以获得在原始特征图和我们的池化特征图上的时间复杂度分别为O（（NWH）2）和O（（46N）2），其中46WH.对于共识感知的内核构造，4172×提出了一种反向合成策略，使用上述相同的合成方法在无关图像的背景上复制和混合最后，我们结合正常和反向策略来训练我们的模型。与[48]相比，我们提出的方法可以实现更自然的合成结果，并保留对象的合理形状，因此更适合于训练Co-SOD模型。图4显示了我们提出的方法生成的一些合成示例。图4.我们提出的数据合成方法的例子。第一列和第二列示出了原始图像和正常合成的最后一列显示的是合成后的图像。模型通过引入深度可分离卷积，在不显著增加计算量的情况下扩大了搜索范围它将构造的核的大小从C1×C×3×3减小到C×3×3+C1×C.4. 新的数据合成策略许多先前的模型[44，10，19，17]组合了各种数据集来训练其Co-SOD模型。我们遵循[16]使用COCO数据集[20]的子集，其中包含65组的9213张图像来训练我们的模型。然而，该数据集突出显示属于与地面实况相同类别的所有对象为此，[16]不得不使用现成的SOD模型[49]在DUTs上训练[33]作为预先计算的显着性先验。因此，我们在模型训练中也利用了DUTs [33]。为了使DUTS数据集适合Co-SOD任务，[48]根据显着对象的类别将其图像分为不同的组，获得DUTS类数据集，其中包含291组的8250张图像。然而，该数据集中的每个图像仅包含没有干扰的目标显著对象。为此，[48]通过使用拼图策略合成了用于模型训练的此方法将目标类的每个图像与其他类的图像拼接在一起。虽然该策略可以模拟Co-SOD中无关显著对象的干扰，但仍存在拼接结果不自然，且当合成图像调整为固定形状进行网络训练时，对象会产生较大的失真相反，我们提出了一种基于泊松混合的复制和混合合成策略[25]。对于目标类的每一幅图像，我们从其他类中随机选择一幅图像，然后将其显著对象复制并混合在目标图像背景上作为干扰，以生成合成大小的图像。然而，对于以这种正常方式合成的图像，目标对象通常比复制的无关对象更显著因此，训练的模型很容易降级到只学习检测显着对象，而不是共同显着对象。为了解决这个问题，我们也5. 实验5.1. 数据集和评估指标我们在四个共显性基准数据集上评估我们提出的方法，如下所示。收集MSRC[37]用于识别对象，并且我们遵循[43，7]从MSRC中选择7组的233幅图像进行评估。公司简介[42]和CoSOD3k[6]是两个大规模数据集，分别包含50组2015张图像和160组3316张图像。CoCA[48]是最新和最具挑战性的与其他数据集不同的是，CoCA中的每幅图像至少包含一个无关的显著对象，因此更适合于真实世界的应用和评价Co-SOD方法的性能。我们采用了四个广泛使用的评价指标来比较我们提出的方法与国家的最先进的方法。最大 F- 度量（maxF）考虑通过最佳阈值二值化的共显着图的精确度和召回率。结构度量Sm[3]考虑对象感知和区域感知的结构相似性。增强的对齐度量Eξ[4]考虑全局信息和局部细节。平均绝对误差（MAE）计算预测的共显著性图和地面实况之间的平均绝对每像素差。5.2. 实现细节在我们的数据合成策略中，对于DUTS类中的每个原始图像，我们使用正常策略生成三个合成图像，使用反向策略生成另外三个合成图像。我们遵循[21]进行数据扩充和使用256 256作为训练和测试大小。我们采用交叉熵损失作为训练损失，并为每个解码器模块部署深度监督。随机梯度下降被用作我们的优化算法。我们从每组中选择最多14个图像作为每个小批，并将总迭代步骤设置为40，000。初始学习率被设置为0.01，并分别在第20，000次和第30，000我们的代码是使用Pytorch [24]实现的。4173表1.我们提出的模型的不同设置的定量结果。“VAK” and“VCK” mean vanilla adaptive kernels and “ML”图像GT +LAK +VAK表2.使用不同培训策略的量化结果培训策略Sm↑古柯maxF↑Eξ↑MAE↓COCO-sub0.6280.4670.7070.171+DUTS class [48]0.6450.4940.7200.165+拼图策略[48]0.6690.5370.7400.149+常规策略0.6530.5040.7250.157+逆向策略0.6530.5100.7350.155+双向战略0.6810.5480.7440.1325.3. 消融研究我们对最具挑战性和最新的Co-SOD数据集CoCA进行消融研究[48]。CADC的有效性。表1中的第一行表示我们的基线模型，即，采用UNet和DASPP，具有五个简单的解码器。该模型退化为不考虑图像间一致性信息的纯SOD模型。接下来，我们在基线中分别使用vanilla自适应内核（+VAK）和vanilla通用内核（+VCK）来合并共识总结。可以看出，与基线相比，香草果仁明显获得了改进。此外，通过采用有效的大动态核，大自适应核函数（+LAK）和大公共核函数（+LCK），与普通核函数相比，可以进一步提高模型的性能。图5还表明，较大的内核可以更好地搜索共同出现的对象，而普通内核可能容易受到干扰对象的干扰或错过完全分割整个对象。结合这两种内核（+LAK+LCK）可以带来更多的性能增益，这表明共识对象搜索可以以补充的方式更好地执行图6还指示自适应内核和公共内核可以提供补充信息。此外，我们在多个层次（+LAK+LCK+ML）上进行分层对象搜索，即在前四个解码器中。我们可以发现，在多级特征映射上使用动态卷积可以显著地带来性能的改进。因此，我们使用此设置作为我们的图5.“+LAK”和“+VAK”之间的目视比较图像GT+LAK+LCK+LCK +LAK图6.“+LAK”、“+LCK”和“+LAK+LCK”之间的视觉比较。最终CADC网络。我们的数据综合战略的有效性。表2显示了在不同数据上训练我们的模型的比较结果。我们首先在COCO子集上训练我们的模型，COCO-sub。然后，我们分别添加原始DUTS类数据集，使用Jig-saw策略[48]合成的图像，仅使用我们的正常合成策略合成，仅使用我们的反向合成策略合成，以及使用我们的双向合成策略（正常和反向）。实验结果表明，与仅使用COCO-sub数据集相比，添加原始DUTS类图像可以带来性能上的提升，说明显著性属性的补充是必要的。此外，仅使用我们的正常或反向策略可以获得比使用原始DUTS类数据稍好的结果然而，同时使用这两种方法可以获得很大的性能提升，并且优于拼图策略.因此，我们的正常和反向合成策略提供了互补的线索，他们都是不可或缺的有效的模型训练。5.4. 与最新方法的我们比较了我们提出的模型与其他11个国家的最先进的方法，即 CBCS [7]、DIM [41]、CODW [42]、MIL [45] 、 IML [27] 、 SP-MIL [44] 、 GONet [13] 、CSMG[46][47]、GCAGC [48]、GICD [48]和ICNet [16]。我们在表3中说明了定量比较结果。一般来说，我们的模型在所有四个数据集上都达到了最佳性能。在最具挑战性的数据集CoCA上，我们的模型在maxF方面比第二好的方法提高了3.8%我们还展示了质量-设置Sm↑古柯maxF↑ Eξ↑MAE↓基线0.6330.4510.7070.165+VAK0.6570.4950.7290.153+VCK0.6550.4970.7110.151+LAK0.6610.5080.7350.146+LCK0.6590.4980.7220.147+LAK+LCK0.6650.5110.7310.144+LAK+LCK+ML0.6810.5480.7440.1324174平板表3.在4个基准数据集上对我们提出的模型与其他11种SOTA Co-SOD方法进行定量比较。红色和蓝色分别表示最佳和次佳结果数据集指标CBCS[七]《中国日报》昏暗[41个]CODW[第四十二届]密耳[45个]IML[27日]SP-MIL[第四十四届]GONet[13个国家]CSMG[46个]GCAGC[47个]GICD[48个]ICNet[16个]我们Sm↑CoCAmaxF↑E↑[48]MAE↓0.5260.3150.6380.175------------------------0.6320.5080.7350.124----0.6580.5100.7120.1250.6510.5060.6980.1480.6810.5480.7440.132Sm↑CoSOD3kmaxF↑E↑[6]MAE↓0.5280.4660.6370.2280.5590.4950.6620.327--------0.7200.6520.7730.164--------0.7110.7090.8040.157----0.7780.7440.8310.0890.7800.7440.8320.0970.8010.7590.8400.096Sm↑CoSal2015maxF↑E↑[42]MAE↓0.5440.5320.6560.2330.5920.5800.6950.3120.6480.6670.7520.2740.6730.6200.7200.210--------0.7510.7400.8050.1600.7740.7840.8420.1300.8220.843-0.0890.8420.8400.8850.0710.8560.8550.9000.0580.8660.8620.9060.064Sm↑MSRCmaxF↑E↑[37]MAE↓0.4800.6300.6760.3140.6570.7050.7250.3090.7130.7840.8200.2640.7200.7680.80.2160.7810.8400.8560.1740.7690.8240.8550.2180.7950.8460.8630.1790.7220.8470.8590.190----0.6650.6920.7260.1960.7310.8050.8220.1600.8210.8730.8950.115蚂蚁海豚面包圈喷壶图7.我们提出的模型与其他国家的最先进的方法的定性比较比较结果见图7。可以看出，我们的模型可以更好地搜索和分割的共同出现的显着对象在许多具有挑战性的场景，而其他方法往往是由其他无关的显着对象的干扰。具体来说，对于蚂蚁类，我们的模型可以准确地搜索到与背景相似的目标，而其他方法要么会丢失目标，要么会受到其他显著目标的干扰。6. 结论在本文中，我们提出了一个共识感知的动态卷积模型，明确地执行“总结和搜索”过程中的共同显着性检测。两种类型的有效的大动态核构造在一个超级这是分别捕获图像特异性共识对象线索和组知识的补充方式。我们通过在多个级别执行动态卷积操作来分层搜索共显对象。我们还提出了一种新的数据合成方法，以有效地模仿在现实世界中的无关对象的分心。大量的实验结果表明，我们所提出的方法的有效性。致谢：这项工作得到了中国国家重点研发计划基金&2018YFB1402600 ，中国国家科学基金基金62027813，62036005，U20B2065，U20B2068的部分支持。CBCS CSMG GICD ICNet我们GT图像4175引用[1] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。CVPR，第4080-4088页，2018年[2] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。在ICCV研讨会，2019年。[3] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4548-4557页[4] Deng-Ping Fan ， Cheng Gong ， Yang Cao ， Bo Ren ，Ming-Ming Cheng，and Ali Borji.用于二值前景图评估的增强对齐度量。在IJCAI，第698-704页[5] Deng-Ping Fan，Tengpeng Li，Zheng Lin，Ge-Peng Ji，Ding-wen Zhang ， Ming-Ming Cheng ， Huaju Fu ， andJianbing Shen.重新思考共显对象检测。TPAMI，2021年。[6] Deng-Ping Fan ， Zheng Lin ， Ge-Peng Ji ， DingwenZhang，Huazhu Fu，and Ming-Ming Cheng.深入了解共同显着对象检测。在CVPR中，第2919-2929页，2020年。[7] 傅华珠，曹晓春，涂卓文。基于聚类的共显性检测。TIP，22（10）：3766[8] Guangshuai Gao ， Wenting Zhao ， Qingjie Liu ， andYunhong Wang. 基于共注意全卷积网络的共显著性检测IEEE Transactions on Circuits and Systems for VideoTechnology，31（3）：877[9] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR中，第4367- 4375页[10] Junwei Han，Gong Cheng，Zhenpeng Li，and DingwenZhang.基于统一度量学习的共显性检测框架。IEEETransactionsonCircuitsandSystemsforVideoTechnology，28（10）：2473[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，第1026- 1034页[12] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[13] 许光瑞，蔡中奇，林燕玉，钱小宁，庄永玉。基于无监督cnn的图形优化协同显著性检测。参见ECCV，第485-501页[14] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页[15] Xu Jia，Bert De Brabandere，Tinne Tuytelaars，and LucV Gool.动态过滤网络。在NIPS，第667-675页，2016中。[16] Wen-Da Jin，Jun Xu，Ming-Ming Cheng，Yi Zhang，and Wei Guo. Icnet：用于协同显著性检测的显著性内相关网络。NIPS，2020年。[17] 李波、孙正兴、唐吕、孙云汉、石金龙。基于递归共同注意神经网络的鲁棒共同显著性在IJCAI，第818-825页[18] 李宏亮和颜王。图像对的共显著性模型。TIP，20（12）：3365[19] Min Li，Shizhong Dong，Kun Zhang，Zhifan Gao，XiWu，Heye Zhang，Guang Yang，and Shuo Li.深度学习图像内和图像间特征，用于共显性检测。在BMVC，第291卷，2018年。[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV，第740-755页[21] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在CVPR中，第3089-3098页[22] 刘念，张霓，韩俊伟。rgb-d显著性检测中的选择性自我相互注意学习。在CVPR中，第13756-13765页[23] Youwei Pang，Lihe Zhang，Xiaoqi Zhao，and HuchuanLu.用于rgb-d显著目标检测的分层动态滤波网络。在ECCV，第235-252页[24] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al.Pytorch：一个操作风格的高性能深度学习库。NIPS，32：8026[25] 帕特里克·佩雷斯、米歇尔·冈内特和安德烈·W·布莱克。泊松图像编辑。ACM SIGGRAPH 2003论文，第3132003年。[26] Lu Qi，Yi Wang ，Yukang Chen ，Ying-Cong Chen，Xiangyu Zhang，Jian Sun，and Jiaya Jia. Pointins：基于点的实例分割。TPAMI，2021年。[27] 任静茹、刘智、周小飞、白丛、孙广陵。通过集成多层卷积特征和图像间传播的共显着性检测。神经计算，371：137[28] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI，第234-241页[29] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。[30] 智天，春华，陈昊。实例分割的条件卷积在ECCV，第282[31] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。参见NIPS，第5998[32] Chong Wang，Zheng-Jun Zha，Dong Liu，and HongtaoXie.具有组语义的鲁棒深度共显性检测。在AAAI，第33卷，第8917-8924页[33] Lijun Wang ， Huchuan Lu ， Yifan Wang ， MengyangFeng，Dong Wang，Baocai Yin，and Xiang Ruan.学习使用图像级监督来检测显著对象。在CVPR，第136-145页4176[34] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在CVPR中，第7794- 7803页[35] Lina

下载后可阅读完整内容，剩余1页未读，立即下载