没有合适的资源?快使用搜索试试~ 我知道了~
�HMUsImage��SIUsTopBottomSupervision�������������×××++=Pred�LastCBR�����BCELUALL=� − |�� − �|�0100.51� = ���� + �����21600放大和缩小:一种混合尺度三元组网络用于伪装物体检测0庞有伟1†,赵晓琦1†,向天柱3,张立和1*和陆虎川1,201 大连理工大学,中国 2 鹏城实验室,中国 3Inception人工智能研究所,阿联酋0{lartpang, zxq}@mail.dlut.edu.cn,tianzhu.xiang19@gmail.com,{zhanglihe, lhchuan}@dlut.edu.cn0摘要0最近提出的伪装物体检测(COD)试图分割在视觉上融入其周围环境的物体,这在现实场景中极其复杂和困难。除了伪装物体与其背景之间的高内在相似性外,这些物体通常在尺度上多样化,在外观上模糊甚至严重遮挡。为了解决这些问题,我们提出了一种混合尺度三元组网络ZoomNet,模拟了人类在观察模糊图像时的行为,即放大和缩小。具体而言,我们的ZoomNet采用放大策略,通过设计的尺度集成单元和分层混合尺度单元学习区分性的混合尺度语义,充分探索候选物体与背景环境之间的不可察觉的线索。此外,考虑到由于难以区分的纹理而产生的不确定性和模糊性,我们构建了一个简单而有效的正则化约束,即不确定性感知损失,以促使模型在候选区域中准确产生更高置信度的预测。没有花哨的东西,我们提出的高度任务友好型模型在四个公共数据集上始终超过现有的23种最先进的方法。此外,我们在SOD任务上对最近的前沿模型的优越性能也验证了我们模型的有效性和普适性。代码将在https://github.com/lartpang/ZoomNet上提供。01. 引言0伪装物体通常通过改变外观、颜色或图案,将自己“无缝地”融入环境中,以避免被发现,例如变色龙、乌贼和比目鱼。这主要是由于它们在恶劣的生活环境中的自我保护机制。0† 这些作者对本文贡献相同。* 通讯作者。0图1.ZoomNet的示意图。基于放大策略,我们的模型在不同的“缩放”尺度上提取不同的特征。然后我们设计了SIU来筛选和聚合尺度特定的特征,以及HMU来重新组织和增强混合尺度特征。在BCEL和提出的UAL的监督下,模型产生准确可靠的伪装物体预测。请注意,BCEL是基于真实值计算的,而UAL不是。f:特征图;A:注意力图。LastCBR:预测之前的最后一个“Conv-BN-ReLU”层。l/m/s:不同的输入尺度。白色区域表示更大的激活响应。0广义上说,伪装物体也指那些尺寸极小、与背景高度相似或被严重遮挡的物体。它们巧妙地隐藏在周围环境中,很难被发现,例如穿着伪装制服的士兵和藏在草丛中的狮子。伪装物体检测(COD)比传统的显著物体检测或其他物体分割更加复杂和具有挑战性。最近,它在计算机视觉界引起了越来越多的研究兴趣,并促进了许多有价值的现实应用,如搜救[6],物种发现[36]和医学图像分析[8, 9, 12, 18,55]。最近,已经提出了许多基于深度学习的方法并取得了重要进展。然而,由于伪装物体的视觉无关性和尺度、外观的高度多样性,它们仍然难以准确可靠地检测伪装物体。21610通过观察我们的实验,发现当前的COD检测器容易受到背景环境的干扰。因此,很难挖掘出伪装对象的有区分度和微妙的语义线索,导致无法清晰地将伪装对象从混乱的背景中分割出来,并且对一些不确定(低置信度)区域的预测。考虑到这些问题,在本文中,我们将COD问题总结为两个方面:1)在不显眼的外观和各种尺度条件下如何准确定位伪装对象?2)如何抑制背景的明显干扰,更可靠地推断伪装对象?直观地说,为了在场景中准确找到模糊或伪装的对象,人们可能会尝试通过缩放图像来参考和比较不同尺度上的形状或外观的变化。人类的这种特定行为模式激发了我们通过模拟缩放策略来识别伪装对象的想法。0在这个启发下,本文提出了一种混合尺度三元组网络ZoomNet,显著提高了现有的伪装对象检测性能。首先,为了准确的对象定位,我们采用尺度空间理论[23, 24,43]来模拟缩放策略。具体而言,我们设计了两个关键模块,即尺度整合单元(SIU)和分层混合尺度单元(HMU)。如图1所示,我们的模型使用三元组架构在不同的“缩放”尺度上提取差异化的伪装对象特征,然后采用SIUs来筛选和聚合尺度特定的特征,并利用HMUs进一步重新组织和增强混合尺度特征。因此,我们的模型能够在混合尺度下挖掘对象和背景之间的准确和微妙的语义线索,并产生准确的预测。此外,我们采用了共享权重策略,实现了效率和效果的良好平衡。其次,这与复杂场景中的可靠预测有关。虽然对象被准确地定位,但难以区分的纹理和背景很容易给模型学习带来负面影响,例如预测不确定/模糊区域,这大大降低了检测性能,不能忽视。这可以在附图6(第3行和第4行)和附图1中看到。为此,我们设计了一种基于不确定性的损失(UAL)来指导模型训练,它仅基于一个好的COD预测应该具有明确的极化趋势的先验知识。它的GT独立特性使其适用于增强GT基于BCE损失。这种有针对性的增强策略可以迫使网络在训练过程中优化对不确定区域的预测,使我们的ZoomNet能够可靠地区分不确定区域并分割伪装对象。0我们的贡献可以总结如下:1)0对于COD任务,我们提出了一种混合尺度三元组网络ZoomNet,它可以通过表征和统一不同“缩放”尺度上的尺度特定外观特征和有目的的优化策略,可可靠地捕捉复杂场景中的对象。2)为了获得伪装对象的有区分度的特征表示,我们设计了SIUs和HMUs来提取、聚合和加强尺度特定和微妙的语义表示,以实现准确的COD。3)我们提出了一种简单而有效的优化增强策略UAL,可以显著抑制背景的不确定性和干扰,而不增加额外的参数。4)我们的模型在四个COD数据集上的七个指标下大大超过了最近的23种最新方法。此外,它在SOD任务中表现出良好的泛化性能,并与现有的SOD方法相比具有卓越的性能。02. 相关工作0伪装物体。伪装研究在生物学中有着悠久的历史。这种自然界生物的行为可以看作是自然选择和适应的结果。事实上,在人类生活和社会的其他部分,它也有着深远的影响,例如艺术、流行文化和设计。更多细节可以参考[40]。在计算机视觉领域,对伪装物体的研究通常与显著物体检测(SOD)相关,SOD主要处理场景中那些显著且容易观察到的物体。一般来说,显著性模型是为了一般的观察范式(即寻找视觉上突出的物体)而设计的。它们不适用于特定的观察范式(即寻找隐蔽的物体)。因此,有必要建立基于任务的基本要求和特定数据的模型,以学习特殊的知识。伪装物体检测(COD)。与传统的SOD任务不同,COD更加关注不可检测的物体(主要是由于尺寸过小、遮挡、隐藏或自我伪装)。由于感兴趣物体的属性差异,这两个任务的目标也不同。COD的困难和复杂性远远超过SOD,因为物体与环境之间的相似性很高。近年来已经进行了一些有价值的尝试。最近的工作[19,29,48]在伪装物体的预测过程中构建了多任务学习框架,并引入了一些辅助任务,如分类和边缘检测。一些不确定性感知方法[20,47]被提出来对数据注释或COD数据本身中的不确定性进行建模和处理。在另外两种方法[31,41]中,上下文特征学习也起着重要的作用。还有一些受生物启发的方法,例如[7,46]。它们通过模仿猎人的行为过程或改变场景的视角来捕捉伪装物体。尽管我们的方法也可以在����������HMU5HMU4HMU3HMU2HMU1���.�×���.�×���.�×���.�×���.�×��.�×SIU5SIU4SIU3SIU2SIU1��.�×��.�×��.�×���.�×���.�×���.�×���.�×���.�×��.�×���.�×���.�×���.�×���.�×���.�×��.�×21620分层混合尺度解码器02×02×02×02×0SIUs0尺度合并层02×0预测0GT0BCE0UAL0监督0三元特征编码器0E-Net0输入0C-Net01.5×00.5×0主尺度:� �.� ×0辅助尺度:� �.� × &� �.� ×0� ×:双线性插值0图2.整体框架。共享的三元特征编码器用于提取与不同输入“缩放”尺度相对应的多级特征,它由E-Net和C-Net组成,用于提取和压缩特征。在尺度合并层的不同级别上,采用SIUs来筛选和聚合来自不同尺度的关键线索。然后,通过分层混合尺度解码器中的自顶向下上采样路径逐渐集成融合特征。HMUs通过在特征内部构建多路径结构进一步增强特征的区分度。最后,可以得到与输入图像对应的伪装物体的概率图。在训练阶段,使用二元交叉熵和我们提出的UAL作为损失函数。0与上述方法不同,我们的方法模拟人类的行为,通过缩放策略来理解复杂图像。所提出的方法在混合尺度下探索尺度特定和不可感知的语义特征,以实现准确的预测,并在BCE和我们提出的不确定性感知损失的监督下。因此,我们的方法实现了对场景的更全面的理解,并能够准确而稳定地从复杂背景中分割出伪装的物体,甚至可以有效而平滑地转移到SOD任务中。0尺度空间整合。尺度空间理论旨在促进对图像结构的最佳理解,它是一种极其有效且理论上完备的框架,用于解决自然发生的尺度变化。其思想已广泛应用于计算机视觉领域,包括图像金字塔[2]和特征金字塔[22]。由于不同尺度上的结构和语义差异,相应的特征发挥不同的作用。然而,常用的倒金字塔状特征提取结构[13,52]往往导致特征表示丢失过多的纹理和外观细节,这对于强调区域和边缘完整性的密集预测任务[27,38]是不利的。因此,一些最近的基于CNN的目标检测方法[3, 7, 31, 41, 48]和显著目标检测方法[14-17, 21, 25, 34,35, 53, 54,56]探索了层间特征的组合策略,以增强特征表示。这些方法为准确的目标定位和分割带来了一些积极的收益。然而,对于目标检测任务,现有方法忽视了由数据本身的结构信息的不确定性引起的性能瓶颈,这使得单一尺度下很难完全感知目标。与它们不同的是,0我们模仿缩放策略,同时考虑多个尺度上目标和背景之间的差异化关系,从而充分感知伪装目标和混乱场景。此外,我们还进一步探索了通道之间的细粒度特征尺度空间。03. 提出的方法0在本节中,我们首先详细介绍了ZoomNet的整体架构,然后介绍了每个模块和不确定性感知损失的细节。03.1. 整体架构0ZoomNet的整体架构如图2所示。受到人类在观察混乱场景时的缩放策略的启发,我们认为不同的缩放尺度通常包含它们特定的信息。聚合不同尺度上的差异化信息将有助于探索混乱场景中不显眼但有价值的线索,从而促进目标检测。为了实现这一点,我们直观地采用了图像金字塔。具体而言,我们基于单一尺度输入自定义了一个图像金字塔来识别伪装目标。这些尺度分为一个主尺度(即输入尺度)和两个辅助尺度。后者通过对前者进行重新缩放来模拟缩放操作。我们利用共享的三元特征编码器在不同尺度上提取特征,并将它们馈送到尺度融合层。为了整合这些包含丰富尺度特定信息的特征,我们设计了一系列基于注意力感知滤波机制的尺度整合单元(SIUs)。因此,这些辅助尺度被整合到主尺度中,即“缩放操作”的信息聚合。这将大大增强模型对关键语义线索的提取。𝑓𝑖1.5×𝑓𝑖0.5×𝑓𝑖1.0×Down SamplingMaxPoolingAvgPoolingConvBNReLUConvBNReLUAddConvBNReLUUp SamplingBilinearConvBNReLUConvBNReLUCat𝑓𝑖FusionAttention GeneratorMulAddConvBNReLUConvSoftmaxConvBNReLUConvBNReLUSplitA𝑖0.5×, A𝑖1.0×,A𝑖1.5×መ𝑓𝑖ConvBNReLUPoolConvReLUConvSoftmax···𝑔1′1𝑔2′1𝑔𝐺−1′1𝑔1𝑔2𝑔𝐺−1𝑔𝐺𝛼ሚ𝑓𝑖AddMul···[{𝑔𝑗′3}𝑗=1𝐺]···[{𝑔𝑗′2}𝑗=1𝐺]Ai = softmax(Ψ(�U(f 0.5i), f 1.0i, D(f 1.5i)�, ϕ)),fi = A0.5i· U(f 0.5i) + A1.0i· f 1.0i+ A1.5i· D(f 1.5i),(1)21630尺度整合单元0尺度变换0选择性尺度整合0图3. 规模整合单元(SIU)的示意图。0捕获困难检测伪装目标的关键和信息丰富的语义线索。然后,我们构建了分层混合尺度单元(HMUs),以自上而下的方式逐渐整合多层次特征,增强混合尺度特征表示。它进一步增加了感受野范围,并在模块内部使特征表示多样化。捕获到的细粒度和混合尺度线索促使模型在混乱场景中准确分割伪装目标。此外,为了克服由于数据本身的复杂性引起的预测不确定性,我们设计了一种不确定性感知损失(UAL)来辅助BCE损失,使模型能够区分这些不确定区域并产生准确可靠的预测。03.2. 三元特征编码器0我们首先通过共享的三元特征编码器提取组内输入的深度特征,该编码器由特征提取网络和通道压缩网络组成,即E-Net和C-Net。为了在效率和效果之间取得平衡,主尺度和两个辅助尺度被经验性地设置为 1 . 0 × , 1 . 5 × 和 0 . 5 ×。E-Net由常用的ResNet-50 [ 11]组成,其“layer4”之后的结构被移除。C-Net被级联以进一步优化计算并获得更紧凑的特征。有关更多详细信息,请参见补充材料。因此,产生了与三个输入尺度对应的三组64通道特征图,即 { f k i } 5 i =1 , k ∈ { 0 . 5 , 1 . 0 , 1 . 5}。接下来,这些特征被依次输入到尺度合并层和分层混合尺度解码器进行后续处理。03.3. 尺度合并层0我们设计了基于注意力的SIU来筛选(加权)和组合尺度特定的信息,如图3所示。多个这样的单元组成了尺度合并层。通过过滤和聚合,不同尺度的表达自适应地突出显示。在尺度整合之前,首先将特征 f 1 . 5 i 和 f 0 . 5 i调整为与主尺度特征 f 1 . 0 i 分辨率一致。具体而言,对于f 1 . 5 i ,我们使用了“最大池化”0分层混合尺度单元0分割0图4.分层混合尺度单元(HMU)。我们采用分组交互和通道调制的方式来探索不同通道中的有区别的和有价值的语义信息。请注意,每组特征从上到下依次执行。后一个特征在特征变换之前整合了前一个特征的一部分。0+平均池化”来对其进行下采样,这有助于保留高分辨率特征中伪装对象的有效和多样化响应。对于 f 0 . 5 i,我们直接通过双线性插值进行上采样。然后,这些特征被输入到“注意力生成器”中,通过一系列卷积层计算出一个三通道特征图。经过softmax激活层后,可以得到与每个尺度相对应的注意力图 A k ( k ∈ { 0 . 5 , 1 . 0 , 1 . 5 } ),并用作最终整合的相应权重。该过程的公式如下:0其中 Ψ( �, ϕ )表示注意力生成器中堆叠的“Conv-BN-ReLU”层,ϕ表示这些层的参数。[ � ] 表示连接操作。D 和 U分别指的是上述混合池化和双线性插值操作。请注意,为了简洁起见,公式1中未显示采样操作之前和之后的一些操作,但可以在图3中看到。这些设计旨在选择性地聚合尺度特定的信息,以探索不同尺度上微妙但关键的语义线索,提升特征表示。03.4. 分层混合尺度解码器0在SIU之后,辅助尺度的信息被整合到主尺度分支中。与多尺度情况类似,不同通道也包含有区别的语义信息。因此,有必要挖掘不同通道中包含的有价值线索。为此,我们设计了HMU来在解码器中进行信息交互和特征细化,从粗粒度的组间迭代到细粒度的通道间调制,如图4所示。HMU i的输入 ˆ f i 包含了多尺度融合特征NLDF [28]0.6650.4950.1230.5640.7900.7980.6520.0630.7140.8930.7010.4730.0590.5390.8190.7380.5860.0830.6560.846PiCANet [26]0.7010.5100.1250.5730.7990.7650.5520.0850.6180.8460.6960.4150.0810.4890.7880.7580.5700.0880.6400.835BASNet [37]0.6150.4340.1240.5030.7270.8470.7710.0440.7950.8940.6610.4320.0710.4860.7490.6950.5460.0950.6100.785CPD [44]0.7160.5560.1130.6180.7960.8570.7310.0480.7710.9230.7500.5310.0530.5950.8530.7870.6450.0720.7050.866PoolNet [25]0.7300.5750.1050.6430.8190.8450.6900.0540.7490.9330.7400.5060.0560.5750.8440.7850.6350.0730.6990.865EGNet [51]0.7320.6040.1090.6700.8200.7970.6490.0650.7020.8840.7360.5170.0610.5820.8540.7770.6390.0750.6960.864F3Net [42]0.7110.5640.1090.6160.7800.8480.7440.0470.7700.9170.7390.5440.0510.5930.8190.7800.6560.0700.7050.848SCRN [45]0.7790.6430.0900.7050.8500.8760.7410.0420.7870.9390.7890.5750.0470.6510.8800.8300.6980.0590.7570.897CSNet [10]0.7710.6410.0920.7050.8490.8560.7180.0470.7660.9280.7780.5690.0470.6340.8710.7500.6030.0880.6550.793SSAL [50]0.6440.4930.1260.5790.7800.7570.6390.0710.7020.8560.6680.4540.0660.5270.7890.6990.5610.0930.6440.812UCNet [49]0.7390.6400.0940.7000.8200.8800.8170.0360.8360.9410.7760.6330.0420.6810.8670.8110.7290.0550.7750.886MINet [35]0.7480.6370.0900.6910.8380.8550.7710.0360.8020.9370.7700.6080.0420.6570.8590.8120.7200.0560.7640.887ITSD [57]0.7500.6100.1020.6630.8300.8140.6620.0570.7050.9010.7670.5570.0510.6150.8610.8110.6790.0640.7290.883PraNet [8]0.7690.6630.0940.7100.8370.8600.7630.0440.7890.9350.7890.6290.0450.6710.8790.8220.7240.0590.7630.888MGL-R [48]0.7750.6730.0880.7260.8420.8930.8120.0310.8330.9410.8140.6660.0350.7100.8900.8330.7390.0530.7820.893PFNet [31]0.7820.6950.0850.7460.8550.8820.8100.0330.8280.9450.8000.6600.0400.7010.8900.8290.7450.0530.7840.898UJSC⋆ [20]0.8000.7280.0730.7720.8730.8910.8330.0300.8470.9550.8090.6840.0350.7210.8910.8420.7710.0470.8060.907UGTR [47]0.7840.6840.0860.7350.8510.8880.7940.0310.8190.9400.8170.6660.0360.7110.8900.8390.7460.0520.7870.89921640表1. 在COD数据集上的不同方法的比较。最好的三个结果用红色、绿色和蓝色突出显示。“—”:不可用;�:使用更多数据集。0CAMO CHAMELEON COD10K NC4K 模型 S m ↑ F ω β ↑ MAE ↓ F β ↑ E m ↑ S m ↑ F ω β ↑ MAE ↓ F β ↑ E m ↑ S m ↑ F ω β ↑ MAE ↓ F β ↑ E m ↑ S m ↑ F ω β ↑ MAE ↓ F β ↑ E m ↑0显著目标检测/医学图像分割0伪装目标检测0ANet SRM [ 19 ] 0.682 0.484 0.126 0.541 0.722 — — — — — — — — — — — — — — SINet [ 7 ] 0.745 0.644 0.092 0.702 0.829 0.872 0.806 0.034 0.827 0.946 0.776 0.631 0.043 0.679 0.874 0.8080.723 0.058 0.769 0.883 SLSR [ 29 ] 0.787 0.696 0.080 0.744 0.854 0.890 0.822 0.030 0.841 0.948 0.804 0.673 0.037 0.715 0.892 0.840 0.766 0.048 0.804 0.9070MirrorNet [ 46 ] 0.785 0.719 0.077 0.754 0.850 — — — — — — — — — — — — — — C 2 FNet [ 41 ] 0.796 0.719 0.080 0.762 0.864 0.888 0.828 0.032 0.844 0.946 0.813 0.686 0.036 0.723 0.9000.838 0.762 0.049 0.795 0.9040我们的方法 0.820 0.752 0.066 0.794 0.892 0.902 0.845 0.023 0.864 0.958 0.838 0.729 0.029 0.766 0.911 0.853 0.784 0.043 0.818 0.9120从SIU i获取的特征fi和从HMU i+1获取的特征˜fi+1:0ˆfi = fi + U(˜fi+1). (2)0组间迭代。我们采用1×1卷积来扩展特征图ˆfi的通道数。然后将特征按通道维度分成G组{gj}Gj=1。组间特征交互以迭代方式进行。具体而言,第一组{g1}在卷积块之后被分成三个特征集{g′k1}3k=1。其中,g′11用于与下一组进行信息交换,另外两个用于通道调制。在第j(1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功