伪装目标的频域检测方法及其性能优势

133 浏览量更新于2023-10-25 收藏 2.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4504沪ICP备05000000号-10.891 0.9280.931Sα↑0.8690.8930.882w0.8880.8830.9180.9290.796 0.806方法SINet LSR PFNetUGTRUNet伪装目标的频域检测钟一杰1李波2吕唐1邝森云3吴双2丁守宏21同济大学、2优图实验室、腾讯、3西南交通大学dun. gmail.com、libraboli@tencent.comsyKuang@my.swjtu.edu.cn、ericshding@tencent.comcalvinwu@tencent.comluckybird1994@gmail.com摘要伪装目标检测（COD）旨在识别完美嵌入其环境中的目标，其在医学，艺术和农业等领域具有各种下游应用。然而，利用人眼的感知能力来识别遮挡的物体是一项极具挑战性的任务。因此，我们主张COD任务的目标不仅仅是在单个RGB域中模仿人类的视觉能力，而是超越人类的然后，我们引入频域作为一个额外的线索，以更好地检测伪装的对象从背景。为了很好地将频率线索引入CNN模型，我们提出了一个功能强大的网络，具有两个特殊的组件。我们首先设计了一种新的频率增强模块（FEM），以在频域中它包含离线离散余弦变换，然后是可学习的增强。然后，我们使用一个特征对齐，融合从RGB域和频域的特征。此外，为了进一步充分利用频率信息，我们提出了高阶关系模块（HOR）来处理丰富的融合特征。在三个广泛使用的COD数据集上的综合实验表明，该方法的性能明显优于其他最先进的方法。1. 介绍以检测和分割完美嵌入环境中的对象为目标，伪装对象检测（COD）在计算机视觉领域已经变得普遍[9，17，59]。作为初步步骤，COD在各种视觉系统中起着重要作用，例如息肉分割[10]、肺部感染分割[11]和娱乐艺术[3]。*所有作者对本文的贡献都是一样的†通讯作者。这项工作得到了中央大学基础研究基金的支持。表1. 粗体数字表示最佳结果，下划线表示第二佳结果。我们将普通的U-net作为该表中U-Net的网络结构。并采用常用的加权BCE损失和加权IoU损失进行训练。它显示了与最先进的SINet [9]、LSR [33]、PFNet [8]和UGTR [58]相比的竞争性能。COD10K测试（2026 images）[9]Sα↑Eφ↑Fw↑βM↓0.7710.8060.5510.0510.7930.8680.6630.0410.8000.8770.6600.0400.8180.8500.6670.0350.8030.8730.6550.039CAMO测试（250张图片）[22]Sα↑Eφ↑Fw↑βM↓0.7510.7710.6060.1000.7930.8260.6960.0850.7820.8420.6950.0850.7850.8590.6860.0860.7930.8480.6970.081CHAMELEON（76 images）[42]M↓0.0440.0330.0330.0310.032Avg. 秩52.62.82.52.1传统方法[17，37，41]通过利用手工制作的低级特征来检测隐藏的最近，随着深度卷积神经网络（CNN）的应用，基于CNN的方法将COD的性能推向了一个新的水平。一些方法[8，40]尝试设计纹理增强模块或采用注意机制来引导模型关注伪装区域。方法尝试在额外边缘信息的帮助下准确定位被隐藏的对象[59]。在[33]中，引入了新的监督数据用于分割摄像对象。最近的作品[35]试图将分割伪装对象视为两阶段过程。放弃这些复杂的技术，我们简单地使用具有Res2Net [13]和ResNet 50 [16]骨干的类似U-Net的网络，4505×像素指数（0~63）(a)（b）第（1）款（c）第（1）款图1.频率感知的线索，为被困对象检测。我们应用离散余弦变换（DCT）在每8 8补丁。(a)该方法包括：（a）背景区域为深色的RGB输入图像;（b）所选图像块（目标对象和背景）的频率信号的统计结果;（c）DCT后的Y、Cb、Cr空间的系数。来探测隐藏的物体从表1中可以看出，与现有的最新技术水平（SOTA）方法相比，仅使用U-Net网络就已经可以实现有竞争力的性能，特别是在较大的数据集上（在3个度量中实现SOTA性能），这表明现有的SOTA方法可能不能很好地解决COD任务。所有这些SOTA COD方法都有一个共同的特点：它们只是通过复杂的技术来增强图像的RGB域信息。然而，根据生物学和心理学的研究[36]，捕食者频率依赖性捕食在将目标动物从其背景中分离时利用其与特定特征相结合的视觉滤波器[21]。当处理视觉场景时，动物比人类具有更多的波段，这使得人类视觉系统（HVS）很难发现伪装的物体[4，43]。在这项研究中，我们声称COD任务的目标不仅仅是模仿人类在单一RGB域的视觉能力，而是超越人类的生物视觉。因此，为了更好地从背景中检测隐藏的对象，需要图像中的一些其他线索（例如，频域中的线索）。如之前的工作[51]所述，CNN有潜力利用人类无法感知的各种频率图像分量。本文解决的第一个问题是如何将频率感知线索引入CNN模型。为了在频域中获取更多的统计信息，增强被测对象的线索，我们设计了一个频域增强模块（FEM）。它包括一个离线离散余弦变换和一个在线可学习的增强，然后是特征对齐，以融合来自RGB和RGB的特征。和频域。此外，我们提出了一种新的频率损失，直接限制在频率和引导网络更专注于频率信号。如在图1（a）中可以看到的，“红色框”表示目标对象，“绿色框”表示背景。目标物体在背景中是透明的。在RGB域中，目标对象很难看到。然而，在频域图1（c）中，可以帮助区分目标对象和背景的当图像中存在噪声对象时，可以将它们与所捕获的对象一起提取。为了区分真实的非线性对象，我们提出了高阶关系模块（HOR）。由于目标和噪声对象总是共享相似的结构信息，低阶关系不足以获得区分性特征。主要贡献概述如下：据我们所知，我们是第一个声称COD任务应该超越RGB域并引入频率线索以更好地检测隐藏对象的人。我们提出了一个强大的网络COD任务与增强的频率线索。为了更好地利用频域信息进行密集预测，我们设计了一个具有频率感知损失的频率增强模块（FEM）和一个高阶关系模块（HOR）。在CHAMELEON、CAMO-Test和COD 10-Test三个常用COD数据集上的综合实验表明，该方法的性能明显优于其他方法。2. 相关工作2.1. 伪装目标检测伪装对象检测（COD）任务[23，33，35]通过将一般/显著对象检测[15，28，29]的边界推向与其周围环境混合的隐藏对象，提出了新的挑战Fan等人。 [9]提出了SINet，通过首先粗略地搜索已存储的对象，然后执行分割来解决这一挑战。 Yan 等人。 [57] 引入MirrorNet来使用实例分割和对抗攻击来进行COD。最近，Zhai等人 [59]提出了一种基于图的模型，通过对多级关系进行并行推理，来并行执行隐藏对象检测和[40]考虑伪装对象和背景之间的细微纹理差异。与以前的作品不同，我们的新颖之处在于，我们引入频域信息，以提高性能的COD任务。使用纹理、边界等因为在复杂的情况下线索可能无法检测伪装的物体。因为这些信息是信号强度···4506i、j8×i、ji、jOHWi、j∈Ofreqfreq{|联系我们××192∈∈∈与人类视觉系统所观察到的相同，并且很容易被欺骗或误导。2.2. 显着物体检测显著对象检测（SOD）旨在识别图像中最引人注目的对象，然后分割其像素级轮廓[19，31，47在过去的几十年中，已经提出了数百种基于图像的SOD方法[6，24早期的方法主要是基于手工制作的低级别功能以及启发式先验知识。最近，深度卷积神经网络在显著对象检测方面取得了新的进展。由于特征增强的有效性，注意力机制[50，54]被应用于显著性检测[2]。此外，利用边缘/边界线索来细化显着图[38，44]。然而，将SOD方法应用于伪装对象分割可能不合适，因为术语“显著”本质上与“伪装”相反（突出与伪装）。浸没）。2.3. 频域频域中的压缩表示包含用于图像理解任务的丰富模式。[14]从频域提取特征以分类图像。[5]提出了一种模型转换算法，将空间域CNN模型转换为频率域CNN模型。[56]避免了复杂的模型转换过程，并使用SE-Block来选择频率信道。[39]设计了一种频道注意网络。尽管以前的方法在频率上取得了成就有限元RGB流阶段1频率流解码器1FA阶段2解码2FA阶段3Decode 3FA阶段4解码器4FA HOR转换块网络架构空间监督频率监督频率增强模块FEM图2.建议的网络概述。特征图在跳过连接中被处理并且以自底向上的方式被解码。每个解码块由两个卷积层组成，后面是BN和ReLU。3.2.频率增强模块离线离散余弦变换。该部分首先对输入的RGB图像进行DCT变换处理，充分利用图像中的频率信息。将xrgb转换为YCbCr空间（表示为x ycbcrRH× W ×3）。然后，我们可以获得pc1i、jH通过将xycbcr分成一组88个补丁（在幻灯片窗口上密集地进行DCT成像是频率处理常见操作，域，如何建模JPEG压缩之间的交互关系）。pc∈R8×8表示a的频域和RGB域进行密集预测，确定颜色通道。每个块通过DCT处理成几乎没有探索过。与以往不同的是，本文设计了一个可学习的增强模块，并将RGB域和频域进行了对齐。因此，我们的方法可以更好地利用来自不同领域的丰富信息。频谱直流R8×8，其中每个值对应于-响应于特定频带的强度。为了将相同频率的所有分量分组到一个通道中，我们将频谱平坦化并对其进行整形以形成新的输入，遵循补丁索引：x freq=3. 方法3.1. 网络概述图2示出了所提出的网络。RGB输入被转换到频域，并通过频率增强模块（FEM）进行增强。然后将输入的RGB和频率分别以RGB流和频率流的形式送入网络。特征对齐（FA）被用来融合这些特征从RGB和频率域。为了在特征中找到更多细微的差异设x rgbRH×W ×3表示RGB输入，其中H，W是图像的高度和宽度以及骨干网每层最后一个残差块的特征图可以看作是{X1，X2，X3，X4}。那么所有这些xi， j=flatten（d i ，j），其中xo∈R 88和di，jR8×8×3表示所有dc的级联。在这样，我们将锯齿形排列的信号重新排列在一个贴片中，并且x个频率的每个信道属于一个频带。因此，原始颜色输入被变换到频域。在线学习增强。图3描绘了频域变换过程，其中图像被映射到频域并由可学习模块增强，以发现隐藏在频率空间中的伪装对象的线索在实际应用中，存在各种伪装对象和复杂背景，固定的离线DCT可能无法很好地处理这一点。我们还需要一个适应性学习过程来适应复杂的场景。因为在JPEG压缩等预处理过程中信息会丢失我们需要加强自由-4507i=1FⓈⓈS∈LH我2我1 23∈×∈1图3.我们提出的FEM包含两个步骤：离线DCT过程和神经网络在线增强频率信号因此，我们引入在线学习增强来增加信号的适应性。我们从单个补丁内部和补丁之间建立增强模块。遵循传统方法[45]，我们首先增强局部频带中的系数。我们对信号进行下采样和分区信号分为低x频率和高x频率两部分，伪装的物体RGB特征具有更大的感受野，并且可以补偿频率特征。由于之前的处理确保xrgb和xfreq空间对齐，因此我们在此部分中仅将频域与RGB域对齐由于CNN模型对低频更敏感，通道，我们首先应用过滤器来提取有用的部分R96×k2，其中k表示尺寸。为了增强信号相应的频带，我们将它们分别馈送到两个多头自注意（MHSA）[50]中，并将它们的输出连接起来以恢复原始形状。然后，另一个MHSA调和所有不同的频带，并且新形成的信号表示xfreq。MHSA是从COD的x freq得到X freq。根据图1中的可视化，我们可以看到较高频率下的差异我们设计了一个二进制基滤波器f基，它覆盖了高频，频段，并添加三个可学习的过滤器{f i}3为F能够捕捉每个项目之间的丰富的相关性，输入要素。此时，图像的不同频谱完全相互作用。对于DCT变换，图像块是相互独立的，上述过程只增强了单个图像块。为了帮助网络识别伪装对象的位置，我们需要在补丁之间建立连接因此，我们首先将xfreq整形为xfreq∈ Rk2× C. 然后我们使用MHSA来模拟这种关系-Y、Cb、Cr颜色空间。过滤是一个点积在频率响应和组合滤波器之间fbase+σ（fi），其中σ（y）=1−exp（−y）。针对输入1+exp（−y）频域特征x freq，网络可以通过以下方式自动聚焦于最重要的频谱：X freq=x freq[f base+σ（f i）]，其中是元素乘积。最后，我们将它们重新组合在一起：Xfreq=Concat（[X freq，X freq，X freq]）。船在所有的补丁。最后，我们可以上采样并得到增强的频率信号xfreq。xrgb和xfreq都输入网络。由于我们在每一个地方使用单层MHSA，并且频率信号的大小在一个小的范围内，它不会带来很高的计算成本。要素对齐。我们引入了频率信息，以帮助区分从背景或干扰对象的隐藏对象。我们应该建立一个其他模块来融合RGB域和信号域的特征，因为它们不对齐，如图4（a）所示特征对齐是一个相互加强的过程。频率特征对凸轮有鉴别力然后，分别从空间域和频率域计算两个信号的变换由于X i具有不同的大小，因此X freq需要缩放到其相应的大小。我们将X i和X freq连接起来，然后将其馈送到具有4n个输出通道的Conv层，其输出为T。我们取TjRH×W×n（j=1，2，3，4）的第三个维度-然后将它们重新塑造为HW n。因此，我们得到融合矩阵T1RHW×HW用于RGB域，T2对于频域，T =T1（T2）T，T =T3（T4）T。其次，我们可以对齐特征图。乘以变换和学习向量vR1×C以调整每个通道的强度，每个通道的对齐特征步骤1.离线离散余弦变换⋯⋯分割面片⋯⋮⋮⋮DCT⋯⋮ ⋮⋮⋯你好，你好波段聚集⋰输入⋯你好，你步骤2.在线学习增强高频带中文（简体）��⋯C��×��C小时/8RR⋯R公司简介低频带中文（简体）��⋯KK波段增强空间增强R重塑MHSA多头自注意下采样上采样MHSAMHSAConcatenateMHSAMHSA4508SS2S×∈特征(a) 特征对齐（b）高阶关系模块图4.特征对齐和高阶关系模块的图示。a）特征对准：融合RGB域和频域的特征。b）HOR：联合位置和通道关系，选择语义通道和频带。域可以定义为：Xi=TXivi，3.3. 高阶频道选择借助频域信息，rbg2s1RGB（一）已经可以通过内部提高网络性能Xfreq 2 s = T 2 Xfreq vfreq.最后，将两者可见的线索然而，如果我们打算更好地区分被标记的对象与其他非被标记的对象，我们需要深入挖掘不同对象之间的关系域特征：Xi我rbg2s +Xfreq2s . 这样一来在Xi中输入像素。具体来说，真正的“大数据”和我们可以利用鉴别频率信息来发现隐藏的对象，同时保持CNN线索以确保对象的完整性和细节频率感知丧失。为了进一步捕捉与人类感知不同的频率，我们引入了一种新的损失来约束网络。除了在RGB域中直接计算损耗外，我们还打算在频域中提供网络的监督。一方面，常用的损耗在频域中可能不会对网络产生有效的指导，并且会导致关键线索的丢失。另一方面，我们假设的预测应该是正确的，不仅在每个像素位置，而且在DCT后的系数时，他们对原始图像的作用。由于DCT是一种基于块的操作，我们可以在这里得到粗略的预测，其主要集中在伪装对象的定位上。从使用像素损失出发，我们在DCT之后的频域中计算损失，并且可以引导网络在频域中挖掘更多的信息。给定输入RGB图像x，对应的地面真值掩码M和预测掩码Y，我们可以如下定义损失：Lf（Y，M，x）= ||DCT （x <$Y）− DCT（x<$M）||2/q，（2）干扰对象可以在频域信息的帮助下与背景一起分离。然而，真正的干扰物和干扰物具有极其相似的结构信息，频域线索几乎无法区分细微的差异。一种直观的方法是引入注意力机制（例如，通常使用的自注意力模型[52]）来探索特征X1内的不同像素的关系，这可以帮助区分轻微的差异。然而，常用的注意机制只能捕捉到低阶关系，不足以发现这种细微的差异。因此，我们提出了一个高阶关系模块（HOR）来解决这个问题。因此，我们提出了高阶关系模块（HOR）以最大限度地利用频率信号中的信息，如图4（b）所示。通过采用位置感知的门控操作来构建结构关系，为进一步的信道交互和判别谱选择提供高阶空间增强。设XRC×H ×W表示输入特征，我们首先将其重塑为C HW。由于频率响应来自局部区域，因此有必要对具有位置重要性的原始特征进行编码，以将被捕获的对象与其他对象区分开。位置注意力权重可以表示为：其中，q是量化表，并且q表示元素。W= softmax（X T（X））∈RHW× HW。（三）明智的产品特别地，Y和M将首先被复制并扩展到与x相同的大小。此外，不同的网络层在不同的尺度上呈现潜在的信息，其中后者具有X X过滤级联12转型对准添加功能：X轴XH*WCXH位置注意权重W位置感知功能渠道感知关系电子邮件（X）X投影XCWHH*W=X4509ΣG∈G→β∈--×LRGB更大的感受野利用跨层语义还增强了多尺度学习的表示。这里ψ（X）表示比X更后的层。因此，W用作注意力权重以找到跨不同层的RGB和频率然后，位置权重加强原始特征，并随后通过自适应选通操作，以在出现不同样本时选择最有用的特征：不其中M表示地面真值标签，i表示网络的第i最后，总损失函数为：4L整体=2（1− i）Li。（七）i=14. 实验A=G（W）·（WX）+X，（4）其中（W）RHW 表示选通权重生成器，由FC层提供，可以将其视为功能：RHWR1. 门控操作是基于空间感知生成的，以形成位置感知特征。非局部注意力与我们的模型最相关然而，它可以被隐含地描述，使用针对每个通道的重新加权机制。这种注意力机制可以被视为去噪或高通滤波操作。PFNet[35]将两个这样的模块用于信道和空间。这使他们彼此独立。类似地，虽然特征A保持其原始形状RH×W×C，但是省略了跨不同语义通道和频带的关系矩阵。因此，我们建议随后生成丰富的关系感知表示。在获得位置增强特征A之后，可以通过类似的操作来构建信道感知关系矩阵：H=softmax （ A T （ X ））） ∈RC×C ，（5）其中C表示位置感知特征的信道维度通道感知关系中的每个张量对于对应于原始特征通道和频谱的语义和频率映射具有相同的C维度。最后，我们将此关系矩阵应用于X，以获得有利于伪装对象的所选信息X输出=整形（HX）RH× W × C。然后将特征X_out馈送到解码过程中。3.4. 监督如图2所示，令D1、D2、D3、D4表示从解码的每个阶段提取的特征块我们做了四个预测{P i}4不同4.1. 实验装置数据集。我们在三个基准数据集上评估我们的方法：[22]第二十二章：一个人的生活[23]CHAMELEON [42]有76张图片。CAMO [22]包含1，250张覆盖不同类别的图像，分为1，000张训练图像和250张测试图像。COD10K [9]是目前最大的基准数据集，其中包括3，040张用于训练的图像和2，026张用于测试的图像。我们的训练集是CAMO和COD10K后续工作[9]的训练集的组合。NC4K数据集[33]也被广泛用于评估伪装目标检测。评估指标。我们使用四个广泛使用的标准指标来评估我们的方法：结构测度（S α）[7]、平均E测度（E φ）[12]、加权F测度F w[34]和平均绝对误差（M）。实作详细数据。我们使用PyTorch框架来实现我们的方法。如果没有特别提到，我们将Res2Net [13]作为主干。我们还用ResNet50训练了一个模型，以与使用相同主干的其他方法进行比较我们使用Adam [20]优化器，β1=0。5和β2=0。999 权重衰减设置为5e-4用于损耗优化。学习率初始化为1 e-4. 它在20个历元时下降到一半，在40个历元后（总共100个历元）设置为1 e-5。在训练阶段，批量大小被设置为32。对于数据扩充，我们执行简单的随机裁剪和翻转。图像最终被调整为416 416，随后是颜色失真。比较方法。在这里，我们将我们的网络与19种最先进的方法进行比较。它包含多个-不同任务的多种型号：目标检测方法FPN [30];语义分割方法PSPNet [61];在-在我们的网络中，i=14}站姿分割方法掩模RCNN [15]，HTC [1]，Yii=1从卷积-在每个FA之后的层每个Pi和Y i首先被重新缩放到输入图像大小。我们通过频率感知损失f在频率域对网络进行监督.我们还提供了一个监督，在共同的RGB做-主要，以确保细节.在[8]之后，我们将加权BCE损失lbce和加权IoU损失liou结合起来[53]把注意力集中在分心区域损失函数定义为：Li=Lbce（Pi，M）+Liou（Pi，M）+Lf（Yi，M，x），（6）[18]《明史》：医学图像分割方法ods UNet++ [65] 和 PraNet [10]; 显着对象检测方法PiCANet [32]，BASNet [38]，CPD [55]，PFANet [63]和EGNet [62];和离散对象分割方法SINet [9]，SINet-V2[8]，LSR [33]，[35][36][37][39][ 为公平地比较，上述方法的所有预测图要么由公共网站提供，要么通过使用开放源代码重新训练模型来产生。此外，所有的预测图用相同的代码评估。4510ββββ表2.在三个基准数据集上比较了我们提出的方法和相关领域的其他18种最先进的方法。Sα、Eφ和Fw越大，M越小，性能越好。对于Res2Net主干，最佳结果以粗体标记。对于ResNet50，最好的三个结果是红色，蓝色和绿色字体。COD 10 K-测试（2026张图片）CAMO-测试（250张图片）CHAMELEON（76张图片）方法Sα↑Eφ↑Fw↑M↓Sα↑Eφ↑Fw↑M↓Sα↑Eφ↑Fw↑M↓FPN0.6970.6910.4110.0750.6840.6770.4830.1310.7940.7830.5900.075PSPNet0.6780.6800.3770.0800.6630.6590.4550.1390.7730.7580.5550.085Mask RCNN0.6130.7480.4020.0800.5740.7150.4300.1510.6430.7780.5180.099UNet++0.6230.6720.3500.0860.5990.6530.3920.1490.6950.7620.5010.094PiCANet0.6490.6430.3220.0900.6090.5840.3560.1560.7690.7490.5360.085HTC0.5480.5200.2210.0880.4760.4420.1740.1720.5170.4890.2040.129MSRCNN0.6410.7060.4190.0730.6170.6690.4540.1330.6370.6860.4430.091Basnet0.6340.6780.3650.1050.6180.6610.4130.1590.6870.7210.4740.118CPD0.7470.7700.5080.0590.7260.7290.5500.1150.8530.8660.7060.052PFANet0.6360.6180.2860.1280.6590.6220.3910.1720.6790.6480.3780.144EGNet0.7370.7790.5090.0560.7320.7680.5830.1040.8480.8700.7020.050PraNet0.7890.8610.6290.0450.7690.8240.6630.0940.8600.9070.7630.044SINet0.7710.8060.5510.0510.7510.7710.6060.1000.8690.8910.7400.044LSR0.7930.8680.6630.0410.7930.8260.6960.0850.8920.9280.8120.033PFNet0.8000.8770.6600.0400.7820.8420.6950.0850.8820.9310.8100.033R-MGL0.8140.8520.6660.0350.7750.8120.6730.0880.8920.9180.8130.030JCOD0.8090.8840.6840.0350.8000.8590.7280.0730.8910.9430.8170.030UGTR0.8180.8500.6670.0350.7850.8590.6860.0860.8880.9180.7960.031Ours-R500.8330.9070.7110.0330.8280.8840.7470.0690.8940.9500.8190.030SInet-V20.8150.8870.6800.0370.8200.8820.7430.0700.8880.9420.8160.030Ours-R2N0.8370.9180.7310.0300.8440.8980.7780.0620.8980.9490.8370.027GT Ours SINetV2 UGTR PFNet MGL JCOD PraNet SINet MSRCNN PSPNet FPN图5.通过最先进的方法产生的伪装对象检测图的视觉比较。我们的方法可以更好地识别隐藏的对象比所有比较的方法。4.2. 与最先进技术的定量结果。对于定量评估，我们在表2中报告了四个流行的指标。基线是具有加权BCE损失和加权IoU损失的vanilla U-Net。请注意，无论应用哪种骨干网络，我们的网络都可以在这些数据集上实现具有竞争力的性能。目视比较。在图5中，我们提供了验证示例。与其他方法相比，主要在以下几个方面实现了更具竞争力的视觉表现（a）更准确的被摄物体定位。该方法可以更全面、更准确地检测出伪装目标。当伪装目标与背景相似时，利用识别频率信息也可以很容易地找到伪装目标（b）更强的噪音物体抑制。我们的方法可以解决更复杂的背景干扰，如显着但非伪装的区域。4511LY Cb Cr Y Cb Cr01无基滤波器的带基础滤波器的图6.模型中Y、Cb和Cr组件的热图。左侧不使用基础滤波器fbase，网络可以自由学习关注哪些波段对于右边，我们给出了基础滤波器，使其更关注高频（大于16的频带，后面是[56]）。表3.消融研究的定量结果。“频率信息”表示频率信息。关闭. 和On分别表示有限元法的两个步骤。模型频段Info.CHAMELEON（76张图片）Sα↑Eφ↑Fw↑M↓βCAMO测试（250张图片）Sα↑Eφ↑Fw↑M↓βCOD 10 K-测试（2026图像）Sα↑Eφ↑Fw↑M↓β基线+HOR--0.8840.8880.9310.9320.8090.8150.0320.0310.8200.8240.8790.8840.7430.7500.0720.0700.8150.8190.8840.8890.6800.6900.0370.036基线和频率关闭.关闭。+吧关闭。+吧关闭。+吧关闭。+吧0.8860.8870.8910.8940.8980.9300.9340.9410.9430.9490.8120.8260.8290.8330.8370.0310.0300.0290.0290.0270.8260.8310.8340.8370.8440.8770.8840.8900.8930.8980.7440.7560.7680.7740.7780.0710.0690.0670.0640.0620.8180.8310.8340.8360.8370.8900.9020.9030.9060.9180.6850.7210.7270.7290.7310.0360.0330.0310.0310.030+FEM+Lf+FEM+Lf+FA+FEM+Lf+FA+自我注意+FEM+Lf+FA+HOR（我们的）有些场景有许多不同的对象，很容易发现，目标对象隐藏在其中。我们需要以抑制不属于所拍摄对象的一部分的噪声对象。只有我们的方法才能有效地突出被摄物体并抑制干扰。此外，由于我们的方法能挖掘出被覆盖对象与其他区域的细微差别，因此显示出优越性4.3. 消融研究频率滤波器的可视化。首先，我们探讨了哪些频段对COD更有效。我们在没有基础过滤器的情况下训练模型。图6左侧显示了可学习过滤器的选择谱的热图在[56]之后，我们将大于16的频带视为高频谱信号。大多数频带具有低响应，并且在热图中高频谱更重要。其次，我们用基础滤波器fbase训练模型。通过这种方式，我们明确地告诉网络关注更高频率的信息。如图6的右侧所示，网络还可以找到更少数量的特定的、有区别的频带。建议的模块对我们网络的重要性。为了研究这个问题，我们依次删除了每个模块。在表3中，模型结果之间的比较已经显示了我们提出的具有f的频率增强模块、特征对齐和高阶关系生成模块的有效性从第2行和第7行，我们可以发现，HOR使网络性能更好。然而，如果没有频率信息的帮助，简单地应用类注意模型不能达到完全的性能从行3可以看出，在没有其他处理的情况下直接将频率信号添加到网络通过比较第4行和第5行模型的结果，我们观察到融合两个域的特征可以更多地利用频域信息。从第6行，它表明，与我们的HOR相比，仅通过自我注意模块构建低阶关系是次优的。5. 结论在本文中，我们利用图像的频率信息来帮助检测伪装对象。利用频率增强模块对所有频带的系数进行增强，从而提取识别线索。我们进一步对齐空间域（RGB）和频域，以获得融合特征。此外，通过建立图像内特征之间的高阶关系实验表明，我们提出的网络实现了更好的性能比国家的最先进的COD方法在三个基准。综合消融研究也验证了我们的贡献。这项工作将有利于研究人员探索在计算机视觉社区的各个领域利用不同频率线索0156141527282471316262942381217253041439111824314044531019233239455254202233384651556021343747505659613536484957586263015614152728247131626294238121725304143911182431404453101923323945525420223338465155602134374750565961353648495758626301561415272824713162629423812172530414391118243140445310192332394552542022333846515560213437475056596135364849575862630156141527282471316262942381217253041439111824314044531019233239455254202233384651556021343747505659613536484957586263015614152728247131626294238121725304143911182431404453101923323945525420223338465155602134374750565961353648495758626301561415272824713162629423812172530414391118243140445310192332394552542022333846515560213437475056596135364849575862634512引用[1] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin.用于实例分段的混合任务级联。在CVPR中，第4974-4983页[2] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意在ECCV，第11213卷，第236-252页[3] 朱洪国，徐维新，Niloy J. Mitra，Daniel Cohen-Or，Tien-Tsin Wong，and Tong-Yee Lee. 伪装图像。TOG，29（4）：51：1[4] I. C.卡希尔伪装。动物学杂志，308，2019。[5] 麦克斯·埃利希和拉里·戴维斯JPEG变换域中的深度残差学习。2019年IEEE/CVF计算机视觉国际会议，ICCV2019，韩国首尔，2019年10月27日至11月2日，第3483-3492页。IEEE，2019。[6] Deng-Ping Fan ， Ming-Ming Cheng ， Jiangjiang Liu ，Shanghua Gao，Qibin Hou，and Ali Borji.杂乱中的显著对象：将显著对象检测带到前景。在ECCV，第11219卷，第196-212页[7] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4558-4567页[8] 范登平，季戈鹏，程明明，凌少。隐藏物体检测。CoRR，abs/2102.10274，2021。[9] Deng-Ping Fan ，Ge-Peng Ji， Guolei Sun，Ming-MingCheng，Jianbing Shen，and Ling Shao.伪装物体探测。在CVPR中，第2774-2784页[10] 范登平，季戈鹏，周涛，陈耿，傅华柱，沈建兵，邵凌。Pranet：用于息肉分割的并行反向注意力网络。在MICCAI，第12266卷，第263-273页[11] 范登平，周涛，季戈鹏，周毅，陈耿，傅华柱，沈建兵，邵凌。Inf-net：CT图像中的自动COVID-19肺部感染分割。TMI，39（8）：2626[12] 范登平，季戈鹏，秦学斌，程明明。受认知视觉启发的对象分割度量和损失函数。中国科学信息出版社，2021年。[13] 高尚华，程明明，赵凯，张新宇，杨明轩，菲利普H。S. 乇Res2net：一种新的多尺度骨干网架构。PAMI，43：652-662，2021。[14] Lionel Gueguen、Alex Sergeev、Ben Kadlec、RosanneLiu和Jason Yosinski。更快的神经网络直接从JPEG。在NIPS，第3937-3948页[15] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。在ICCV，第2980-2988页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[17] 简秦尹彦斌汉文帝侯和金平李。伪装色背景下机动目标的检测基于光流场的动态背景。Procedia Engi-neering，15：2201[18] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.掩模评分R-CNN。在CVPR中，第6409-6418页[19] Laurent Itti，Christof Koch，and Ernst Niebur.

下载后可阅读完整内容，剩余1页未读，立即下载