没有合适的资源?快使用搜索试试~ 我知道了~
4713分段、放大和重复:检测摄像对象的艰难之路大连理工大学信息科学工程学院{jiaqi,liuyu8824,xin.fan,rsliu,zxluo}@ dlut.edu.cn,水莲Yao@mail.dlut.edu.cn摘要从高度相似的环境中准确地检测出隐藏的物体是具有挑战性的现有的方法主要利用单阶段检测方式,而忽略具有低分辨率精细边缘的小物体,这需要比大物体更多的操作。为了解决隐藏对象检测(COD),我们受到人类注意力的启发,结合从粗到精的检测策略,从而提出了一个迭代细化框架-阶段-1第二阶段第三阶段N阶段SegMaR是一种多阶段检测方式,它集成了Segment、Magnify和Reiterate特别地,我们设计了一种新的判别掩模,使模型关注于注视点和边缘区域。此外,我们利用一个基于注意力的采样器来逐步放大目标区域,而不需要放大图像的大小。大量的实验表明,我们的SegMaR实现了显着的和一致的改进,比其他国家的最先进的方法。特别是在小尺寸物体的平均超标准评价指标上,我们分别超过两种竞争方法7.4%和20.0%广告研究提供了更有前途的见解Seg-MaR,包括其有效性的歧视性掩码和推广到其他网络架构。代码可在https://github.com/dlut-dimt/SegMaR上获得。1. 介绍摄像机目标检测(COD)是一项旨在识别隐藏在背景中的任何目标的任务[8,22,29]。它通常用于不同领域的许多应用[9,38],包括农业(例如,蝗虫检测以防止入侵),艺术(例如,逼真的混合和娱乐艺术)和医学诊断(例如,息肉分割)。生物学和心理学研究表明,各种伪装策略很容易欺骗人类COD的主要困难是*通讯作者图1.我们的SegMaR(Segment,Magnify和Reiterate)框架用于隐藏对象检测的插图。在框架中迭代地执行多个阶段。每个阶段包括两个主要步骤:分割被摄体(实线)和放大被摄体(虚线)。如何准确区分图像中目标物体与背景之间的细微差别与传统方法不同[5,29,51],最近的作品[4,7,8,20,28,45],通过使用索菲-先进的深度学习技术[3,43,53]在所有COD基准上都实现了新的最先进性能。尽管最新方法的定量性能看起来很有希望(例如,0.80Sα在COD 10K测试集上的应用[8],但COD的几个难题仍有待解决。特别地,当一个特定的伪装对象占整个图像的非常小的比例时,检测对象周围的准确边缘变得更加困难。例如图1中第一列的螃蟹,它的大小比背景中的海滩小得多。不幸的是,现有的COD方法无法准确地检测小的伪装对象。它们的检测和分割结果对低分辨率和小目标有很高的一个主要原因是这些方法采用单级检测方式,但许多隐藏的目标很难在第一时间检测到。事实上,当人不能清楚地看到场景中的任何目标物体时,他们会有意识地向目标靠近,直到目标的分辨率足够大以进行视觉识别。我们希望每一个人在前面的……4714屏幕是用这样的方式来观察图中的小螃蟹。1.一、 受这种人类行为的激励,我们的工作旨在解决研究问题:如何利用更多的阶段来逐渐发现更准确的预测对象?为此,我们提出了一种新的迭代细化框架,称为SegMaR,它通过多阶段检测方式集成了Segment,Magnify和Reiterate,请参见图2。首先,我们的方法建立了一个新的分层分割网络来生成一个初始的掩码预测。接下来,对象放大步骤将原始图像和掩模预测两者作为输入,并且利用基于注意力的采样器来自适应地放大被放大的对象。可以观察到,图像尺寸保持不变,而被捕获的对象在图像中占较大的比例。此外,我们通过将具有放大对象的图像传递回同一网络并微调网络参数来运行迭代细化。经过更多的细化阶段,SegMaR能够细化和丰富检测到的细节,特别是对于小物体。重要的是,SegMaR是一个统一的通用框架,适用于各种不同的分段网络。考虑到目标定位和边缘提取的重要性,本文提出了几种特殊的分割网络设计,以进一步提高COD的性能特别是,我们引入了一个分心模块来解开前景和背景特征,以捕捉更准确的边缘。此外,我们提出了一个新的和非二进制的地面真值称为歧视性掩模,它结合了固定和边缘注释在一起。除了基于二进制掩码的原始地面真值之外,我们的判别掩码使网络更多地关注与隐藏对象相关的最重要的纹理这项工作的贡献有三方面:• 框架贡献:我们提出了SegMaR,这是第一个利用迭代细化框架来进行图像对象检测的方法。这项工作提高了意识的重要性,完成COD的多阶段检测的方式。• 网络贡献:我们实现了一个有效的摄像机分割网络,它引入了一个distraction模块来解开更好的对象特征。此外,我们提出了一个新的判别掩码,使网络参加最重要的对象区域。• 经验贡献:我们的SegMaR在三个COD基准测试中实现了最先进的性能,特别是对于小的存储对象。此外,复杂的COD网络易于应用于SegMaR,并见证了显着的精度提高。2. 相关工作伪装物体检测。由于其与背景环境的细微差异,隐蔽或隐藏的物体[7,18,29,51]几乎无法检测到。为了克服这一困难,越来越多的近期作品[8,20,25,28,36]致力于采用索菲-应用SOD技术[3,42,43,53]解决COD。例如,SINet[8]建立在级联部分解码器[ 43 ]之上,级联部分解码器[43]已广泛用于SOD。[25]中的工作引入了反向注意[3],以捕捉更多的空间细节。此外,其他一些作品[24,49]关注于如何提取伪装对象周围更准确Zhai等[49]建立了一个边约束图推理模块,以指导存储对象的特征表示学习。然而,这些现有的方法对于一些更具挑战性的实际情况,特别是当被摄对象非常小时,不具有鲁棒性。与以往的单阶段框架不同,我们的SegMaR在多阶段框架中迭代地细化和丰富了图像检测结果迭代细化。这是一种常见且有效的学习过程,适用于各种面向视觉的应用,如对象检测[1,12],语义分割[34,50]和对象定位[32,35]。一方面,一些研究[2,11,23,34]在一个单一的神经网络内从浅层到深层迭代地执行细化步骤例如,[34]中的工作使用细化模块解决了语义分割,并将这些模块依次堆叠成自上而下的细化过程。同样,Linet al. [23]提出了一种多路径细化网络,其有效地结合了高级语义和低级特征以生成高分辨率分割图。另一方面,一些研究工作[47,50]通过将上一次训练迭代的结果传递到下一次迭代中来迭代地重新训练相同的网络代表性地,CANet [50]提出了一个迭代优化模块,以细化少数镜头语义分割的预测结果尽管迭代精化方法有显著的改进此外,我们的SegMaR框架旨在逐步放大放大的对象,直到捕获更准确的结果。对象放大。为了提高目标对象的分辨率,一些任务[14,17,21,30,40,41,48]以更精细的尺度将原始图像裁剪或采样为子区域,并循环训练神经网络。为了减少由子区域引起的昂贵和冗余的计算成本,Marin等人。[27]提出了一种内容自适应下采样技术,对目标对象的语义边缘附近的位置进行采样。然而,背景分辨率的增加是无用的。为此,[54]的方法提供了一种基于注意力的采样器,以放大-4715伪装物掩模预测放大对象Camera-AgedSegmentation物体放大模块基于注意力的采样器迭代细化图2.我们的SegMaR框架的管道。放大模块在不增加图像尺寸的情况下,放大对象的比例,同时压缩背景的比例。由于篇幅有限,我们只展示了第一阶段,而下面的阶段重复了相同的过程。详情请参阅第3节。在保持图像大小不变的前提下,降低背景分辨率一个与我们类似的工作是[44],他们为SOD引入了基于注意力的采样器[54与求解SOD不同的是,我们的工作为被放大的对象增加了更多的放大步骤,从而实现了性能的进一步提升。3. 分段、放大和重复概况. 本节介绍为COD设计的SegMaR框架。如图2所示,可以观察到SegMaR是以多阶段方式训练的迭代细化框架首先,将输入图像馈送到伪装分割网络中以生成关于伪装对象的掩模预测。然后将输入图像与其掩模组合成一个基于注意力的物体放大模块,从而在保持图像尺寸不变的情况下放大物体。接下来,我们reit- erate的分割过程作为输入的图像放大的对象。因此,被遮蔽的物体变得越来越容易从背景环境中被检测到(图1)。1)。下面,我们将详细介绍框架中的步骤3.1. Camera-Aged Segmentation Network与大多数相关工作一样[8,43],我们的分层分段网络构建在双分支网络架构之上,参见图3中的左侧。(1)对于第一个分支(以蓝色显示),它由四个卷积块和一个产生掩码预测Pdis的判别解码器组成。(2)第二个分支(以绿色示出)在第一个分支中的第一个块之后添加三个新的卷积块。二进制解码器负责推断COD的最终二进制掩码P仓。此外,鼓励使用第一分支来帮助改进第二分支的学习过程为了做到这一点,我们通过使用整体注意力(HA)模块[43]将第一分支中的第二卷积块和判别解码器的特征图与第二分支合并判别式解码器和二进制解码器具有相同的网络结构,见图3右侧。输入特征图首先跟随有空间金字塔池化(ASPP)组件[46],分别具有扩张率Dr=3、6、12、18。其目的是实现图像中的多尺度感受野。然后将池化图连接在一起并传递到分散模块(DM)[55]。 DM是一种有效的技术,可以将先前的特征图分解为前景和背景特征。 我们发现这种能力对于识别被摄物体和背景环境之间的细微差别特别重要。与[55]不同的是,我们通过添加两个并行的残留信道注意块(RCAB)[52]来定制DM模块,这使得模块更专注于信息信道和高频信息(例如,边缘、纹理)。然后,我们使用逐元素减法来反转背景特征,并使用逐元素加法来增强前景特征。牵引操作的输出特征fd由下式表示:fd=BR(βfa+BR(−αfb)),(1)其中,BR是批量归一化和ReLU的组合,fa和fb分别表示前景和背景特征α和β是两个可学习的参数,初始化为1。最后,在DM之后增加了一个ASPP组件,使其具有输出特性.识别面具在野外,像面部或四肢这样的固定区域是捕食者能够快速定位猎物的关键线索。此外,边缘区域也可能泄漏被隐藏对象的位置,例如,动物的毛发。因此,固定区域和边缘区域对于使伪装对象可检测是重要的。通常,二进制掩码(即,255:对象,0:背景)通常用作训练COD模型的基础事实,这意味着对象的所有区域权重相等。然而,这种方式忽略了与对象相关联的一些重要区域尽管最近的一项工作[25]除了二进制掩码之外还添加了新的注视注释,但它们的注视注释具有一些错误区域溢出对象区域。4716IOU公元前IOU公元前·鉴别解码器鉴别掩码HA二进制掩码2美元$$二进制解码器牵引模块(DM)解码器ASPP前景特征β伊萨RCAB输出要素布吕ASPPBRASPPCASPPRCAB布雷布BR反向C级联ASPP背景特征BRBN+ReLUPP图3.我们的分层分割网络(左)及其解码器(右)。第一分支的预测Pdis用我们提出的判别掩码来监督,而第二分支的预测Pbin用原始二进制掩码来训练。HA是整体注意力,ASPP是空间金字塔池化,RCAB是剩余通道注意力块。(b)固定注释(e)二进制掩码255(a) 原始图像(b) 注意力地图(c)采样点(d)磁共振图像图5.注意力放大过程。(c) 扩张的边缘(d)加法掩模0图4.我们的判别掩码的计算过程。在这里,我们使用颜色映射表来实现更清晰的可视化。损失函数通过两个损失项来端到端地训练分级分割网络:判别损失L dis和二进制损失L bin。Ldis表示Pdis和Gdis之间的损失成本,Lbin是Pbin和Gbin之间的损失成本。我们采用文献[42]中的结构损失来计算L_dis和L_bin。结构损失Lstr(P,G)增加了一个为了解决这个问题,我们提出了一个更丰富和非-加权二进制交叉熵损失Lw还有一张借条二进制地面实况注释称为判别掩码。除了原始的二进制掩码之外,我们的判别掩码监督网络更多地关注固定,损失Lw通过L应力(P,G)=Lw(P,G)+Lw(P,G)。(三)边缘区域。对于任何一幅图像,我们都是先利用二值掩模捕捉其边缘,然后利用高斯算子对边缘进行扩张。扩张的边缘捕获对象边界周围的更多信息。然后,我们合并固定注释和扩张边缘,从而产生附加遮罩。最后,我们使用二进制掩码来减去溢出固定区域。我们的判别掩码Gdis通过下式计算:Gdis=Gbin<$(Gfix<$A(σ,λ,Gedge)),(2)其中A()是具有高斯模糊σ的高斯函数= 15和内核大小λ= 25。Gbin基于二进制掩码Ground truth、Gfix和Gedge是固定和边缘注释。由于Gfix是非二进制的,因此Gdis是范围从0到255的非二进制掩码。图4描述了计算判别掩码的过程我们在图6中举例说明了一些区分性掩模实例,其在重要区域上呈现更强的注意力。(a)图像(f)鉴别掩模⊂⊂4717这种结构损失有利于保持预测与地面实况之间的像素和全局限制。最后,我们的总损失函数为L total = L dis +L bin = L str(P dis,G dis)+L str(P bin,G bin)。(四)3.2. 基于注意力的物体放大伪装目标通常只占整个图像的很出于人类总是更接近目标以便更清楚地观察它的事实,我们建议在压缩背景信息的同时放大伪装五、给定预测掩码Pbin,我们通过以下方式将其进一步扩展为注意力图D:D=扩张(σ,λ,Pbin),(5)4718∈←−···×斌斌其中高斯模糊σ= 15并且核大小λ= 75。扩张操作的目的是扩大原始预测区域,增强目标区域的完整性。在图5的第二图像中,注意力图完全覆盖对象。然后,我们采用基于注意力的采样器al-出租m [54]来基于注意力图D放大被放大的对象。注意力图用于计算原始图像和采样图像的坐标之间的映射函数,并且具有较大的算法1通过迭代细化训练SegMaR输入:第i阶段的输入图像I(i),二进制掩码(Gbin),判别掩码(Gdis),N阶段输出:COD网络(Net)1:对于每个阶段i[1,N],执行2://分段步骤3:Net(i)列车网络,其中I(i)为等式(4);第四章: //放大步骤5:D(i)←− Dilation(σ,λ,G(i))as Eq.(五)注意力值更有可能被采样。我们先去-将注意力地图合成为两个维度,6:I(i+1)←−采样器(I(i))斌D(i))如等式(七)7:G(i+1)←−采样器(G(i),D(i)),如等式(七)x轴和y轴上的注意力图D为8:G(i+1)←−采样器(G(i),D(i)),如等式(七)dis9://重复步骤disDx=maxDi,Dy=maxDi,(6)10:初始化下一阶段Net(i+1)←−Net(i)1≤i≤w1≤j≤h11:结束其中w和h是D的宽度和高度。给定原始图像I,采样函数Sampler(I,D)被定义为:采样器(I,D)i,j=ID−1(i),D−1(j),(7)X y其中D−1()表示D()的反函数。图5表明,在注意力图中具有高值的区域被密集采样并放大,其形状不变。3.3. 迭代细化SegMaR的主要优点是通过以多级方式重放Segment和Magnify步骤进行迭代优化。如图1所示,在各个阶段中,随着分辨率的增加,蟹类变得更容易被检测到。在训练期间,所有阶段共享相同的网络参数。此外,我们使用相同的超参数,如高斯模糊和内核大小的对象放大。当两个连续阶段之间的损耗差异变得细微时,迭代细化将终止算法1总结了SegMaR框架中的训练步骤。在测试周期方面,我们需要将最终的掩模预测Pbin恢复到原始对象大小,以便它可以与测试图像的地面真实 值对齐 。我们 利用Eq.(7 ), 表示为 Rsampler()。恢复的掩模预测是表示为R采样器(P仓)。4. 实验结果4.1. 设置和评估数据集。我们在三个广泛使用的数据集上评估了我们 的 方 法 : CHAMELEON [37] , CAMO [19] 和COD10K [8]。CHAMELEON [37]包括76张高分辨率图像,这些图像是通过使用“动物老化”作为关键字从互联网上收集的图6.从上到下:原始图像,判别掩模和色彩图可视化。可以看出,注视和边缘区域具有更强的关注。CAMO [19]是一个包含1250张图像的8个类别的集合。COD10K [8]是目前最大的基准,包含从摄影网站收集的10,000张图像,包括10个超类和78个在前人工作的基础上,我们的训练集包括1000幅CAMO数据集的图像和3040幅COD10K数据集的图像,测试集融合了2026幅COD10K数据集的图像、76幅CHAMELEON数据集的图像和250幅CAMO数据集的图像。除了基准测试中提供的基于基础事实的二进制掩码之外,我们还在训练网络时使用了判别掩码六、实作详细数据。ImageNet数据集[ 16 ]上的预训练ResNet50 [13]被用作我们的分段网络的骨干。将所有输入图像的大小调整为352 352,并且将输出预测的大小调整回原始对象大小以与其二进制地面实况进行比较图像插值采用双线性插值我们采用亚当优化器[15]与学习率通过计算的最大值的边际分布4719−−方法COD 10 K-测试(2,026图像)CAMO测试(250张图片)CHAMELEON测试(79图像)Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓CPD [43]0.7520.8200.5570.0490.7120.8130.5610.1080.8600.9080.7530.044PraNet [9]0.7680.8360.5990.0470.7380.8140.6130.0980.8640.9180.7840.038MINet-R [31]0.7590.8320.5800.0450.7490.8350.6350.0900.8440.9190.7460.040SINet [8]0.7710.8070.5650.0480.7420.8340.6010.1010.8690.9030.7490.041[25]第二十五话0.7670.8610.6110.0450.7120.7910.5830.1040.8460.9130.7670.046[第28话]0.8000.8680.6600.0400.7820.8520.6950.0850.8820.9420.8100.033[39]第39话0.8100.8750.6740.0380.7910.8630.7060.0830.8860.9310.8240.032MGL [49]0.8110.8650.6660.0370.7750.8470.6730.0880.8930.9230.8130.030SegMaR(第1阶段)0.8130.8800.6820.0350.8050.8640.7240.0720.8920.9370.8230.028SegMaR(第2阶段)0.8300.8900.7180.0340.8080.8630.7390.0740.9020.9440.8510.027SegMaR(第3阶段)0.8330.8920.7250.0340.8100.8700.7450.0730.9050.9470.8580.027SegMaR(第4阶段)0.8330.8950.7240.0330.8150.8720.7420.0710.9060.9540.8600.025表1. 在Sα(越大越好)、αE(越大越好)、wF(越大越好)和M(越小越好)三个基准上将我们的方法与其他最先进的方法进行比较。阶段-i(i= 1,2,3,4)表示我们的多阶段框架的迭代阶段。以粗体突出显示的最佳分数表明我们的SegMaR通过实现新的最佳准确性而优于其他方法图像阶段1阶段2阶段3阶段4 GT图7。我们的多阶段检测框架的视觉比较。第一阶段有一个粗略的轮廓,而下面的阶段细化它。请放大查看细节。为2. 5e5,衰减率为0。9 .第九条。我们使用PyTorch工具箱[33]在GPU Tesla V100上进行每个训练阶段大约需要6个小时,批量大小为24和50个epoch。评估指标。 我们采用四种评估方法-rics,包括平均绝对误差(M)、结构测度(Sα)[6]、自适应E测度(αE)[10]和权重F测度(wF)[26]。M被定义为预测图和二进制地面实况之间的元素差异Sα定义为Sα=αSO+(1α)Sr,其中SO表示对象感知的结构相似性,Sr表示区域感知的结构相似性.αE同时评估像素级相似性和图像级统计量,这与人类的视觉感知有关。wF是精确率和召回率的综合度量,最近的工作[6,10]表明wF比F-度量更可靠。4.2. 与最新技术水平的我们将我们的SegMaR模型与八种最先进的COD方法进行了比较,包括CPD [43],PraNet [9],MINet[31],SINet [8],LSR [25],PFNet [28],C2FNet [39][49]《明史》:为了进行公平的比较,这些方法的结果直接由其作者提供,或者由其原始的训练模型,我们用相同的评估协议测试它们对于我们的SegMaR模型,我们发现两个连续阶段之间的损失差异在所有三个基准的四个阶段内。为了验证多阶段学习框架,我们在四个阶段中列出了所提出的SegMaR的性能,并将其与表1中的其他方法进行了比较。我们可以看到SegMaR的性能随着训练阶段的增加而逐步提高,证明了对象放大和迭代细化有助于模型实现更强的检测能力。除了定量结果外,图7还定性地比较了四个阶段的检测结果。与上一列中的地面实况相比,我们已经可以在第一阶段获得粗略的区域。在后续阶段,随着细节的增加,检测结果逐渐得到改善。从表1中报告的结果来看,我们的第一阶段的性能已经优于其他方法,这验证了我们的分级分割网络的优势此外,我们的第四阶段在三个基准上实现了新的最先进的性能。具体来说,SegMaR在最具挑战性的数据集COD10K上的表现远远优于以前的方法,例如超过MGL [49] 3。5%的αE,和8。7%的wF。我们的表现优于MGL 2。在CAMO数据集上的所有指标上平均为0%,以及2. 在CHAMELEON数据集上平均为4%。此外,图。8显示了我们的方法与其他方法的定性比较我们可以看到,我们的检测结果是最接近地面实况注释,不仅在大的图像对象(例如,第一行),但是也可以是小的(例如,最后四行)。这主要是因为区分性掩模可以提供被覆盖对象的初始位置,并加强对轮廓的注意。此外,得益于多阶段训练中的放大过程,我们的方法可以捕获4720(a) Image(b)GT(c)Ours(d)SINet(e)LSR(f)MGL(g)PFNet图8.所提出的SegMaR与最近最先进的方法的视觉比较。与其他方法相比,该方法可以更清晰地区分被遮挡物体的边缘。详细的干扰信息,并因此具有精细地分割具有复杂结构的被干扰对象该方法在对青蛙的手指、蜘蛛的腿和螃蟹4.3. 消融研究我们进行消融研究,以验证我们专门为准确COD定制的关键组件,包括识别掩模、小物体检测、分心模块(DM)和泛化分析。识别面具的有效性表2比较了第一阶段中基于四种不同类型的地面实况的训练SegMaR的性能,包括固定注释、边缘注释、二进制掩码和我们的区分掩码。请注意,这些地面实况用于训练我们的分割网络中的判别解码器,而二进制解码器始终使用二进制掩码进行训练,以便与以前的作品进行一致的比较我们的判别掩码在所有指标上都超过了固定注释和二进制掩码。边缘标注有时会获得更好的性能,但仍然低于我们的判别掩码。小目标检测。可以预期,它对分割具有细粒度的小尺寸物体由有限像素组成的边缘,例如生物的毛发或腿。为了验证SegMaR在小目标上的有效性小子集包含1084幅图像,其中对象占据小于图像大小的1/4,并且左侧924幅图像属于 如表4所示,我们比较了我们在第4阶段的性能与两种竞争方法,即。SINET和MGL。在小测试集上,该方法比两种方法有显著的改进,超过了SINet 8。0%的S α,16。8%的αE,35。4%,跑赢MGL 7。在三个指标上平均为4%分心模块(DM)的有效性。为了进一步研究我们的伪装分割网络的定制组件的有效性,表3比较了有和没有我们的分心模块的性能。具体地,添加DM获得4。在COD10K测试集上,wF性能提高2%这验证了我们设计的合理性,从注意力输入功能中学习分心。SegMaR框架的推广分析。我们声明,SegMaR是一个统一的通用框架,应适用于其他分布式分段网络。为了验证其泛化能力,我们在SINet上重新执行了分割、放大步骤[8]4721SegMaR(第1阶段)COD 10 K-测试(2,026图像)凸轮 O-试验(250图像)CHAMELEON测试(76图像)Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓固定0.8060.8710.6690.0370.7840.8550.6930.0830.8840.9310.8080.032边缘0.8090.8820.6790.0360.7960.8630.7120.0750.8900.9440.8220.030二进制0.8100.8770.6800.0360.7990.8570.7190.0750.8870.9200.8180.031判别0.8130.8800.6820.0350.8050.8640.7240.0720.8920.9370.8230.028表2.使用不同的地面实况注释来训练网络的消融分析。“固定”和“边缘”指示固定和边缘注释。'Binary'表示二进制掩码,而'discriminative'是我们的判别掩码。总体而言,我们的判别掩码在几乎所有评估指标上都达到了最佳性能。SegMaR(第1阶段)COD 10 K-测试(2,026图像)CAMO测试(250张图片)CHAMELEON测试(76图像)Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓Sα↑αE↑wF↑M↓无DM0.7990.8660.6540.0390.7950.8650.7060.0770.8810.9260.7990.033与DM0.8130.8800.6820.0350.8050.8640.7240.0720.8920.9370.8230.028表3.我们的分心模块(DM)的消融分析及其对SegMaR框架的影响。总的来说,引入DM在数据集和指标上带来了相当大的性能提升。由于空间有限,我们仅在第1阶段显示结果,而其他阶段则见证了一致的改进。方法COD10K(2,026图像)小(1,084张图片)非小(924图像)Sα↑ αE↑wF↑Sα↑ αE↑wF↑SINet [8]MGL [49]0.743 0.5000.796 0.823 0.5980.779 0.881 0.6392009年12月31日阶段-10.852 0.6200.832 0.913 0.753SegMaR 阶段-2第3阶段0.821 0.866 0.6670.825 0.871 0.6772017年12月31日2017年12月31日第4阶段0.825 0.868 0.6772019年12月31日表4.小型和非小型测试集的性能结果。‘Small’我们展示了SegMaR在第4阶段的结果粗体显示的最佳性能表明我们的方法大大优于SINet和MGL,特别是对于小对象。方法阶段COD 10 K-测试(2026图像)Sα↑αE↑wF↑M↓SINet [8]使用SegMaR框架阶段-1第二阶段第三阶段第四阶段0.7710.7950.8010.8050.8070.8470.8620.8690.5650.6390.6580.6670.0480.0430.0410.041表5.通过将多级迭代细化应用于SINet [8],对所提出的SegMaR框架进行推广分析。这是该领域最新的竞争基准 比较表5中从阶段1到阶段4的结果,SINet增益4。4%,7. 7%,18。在Sα、αE和wF方面的改进为0%,验证了我们的潜力和对其他替代方案的强大4.4. 限制和讨论我们讨论了这项工作中的两个潜在限制Q1:为什么整个SegMaR框架不是端到端的?结束可训练。主要原因是我们引入的物体放大模块是一种非参数化的方法。另外,我们确实考虑利用神经网络来实现放大模块。然而,该解决方案需要关于放大对象的新的地面实况注释。否则,很难对放大网络进行监管,也很难达到预期的效果。我们将致力于学习一个无监督的放大网络,不需要额外的注释。Q2:何时终止迭代细化阶段。这里,当两个连续阶段之间的损失差异很小时,我们终止迭代细化。结果,我们的SegMaR仅在四个阶段后达到饱和。这种训练过程简单,但缺乏理论依据。相反,设计新的算法来优化多阶段训练过程,从而重复更多的阶段并获得更好的性能是有希望的。5. 结论为了模拟人类的注意力,以粗到细的方式分割伪装对象,我们提出了一个迭代细化框架SegMaR,以集成分段,放大和重复在一个多阶段的检测fash- ion。设计了一种新的判别掩码和差分模块,使网络分割出更多的目标区域。大量的实验已经证明了我们在三个基准测试上的最佳性能,特别是对于小的嵌入式对象。在未来,研究更复杂的放大算法是有希望的。鸣谢。这项工作得到了中国国家科学基金会的部分资助 。 61876030 、 61733002 、 61572105 、 61922019 、62027826和62102061。4722引用[1] Sayanti Bardhan。通过上下文细化的显著对象检测。在CVPR中,第1464-1472页,2020年。2[2] ArantxaCasanova,GuillemCucurull, MichalDrozdzal,Adriana Romero,and Yoonge Bengio.关于语义分割的稠密连接表示层的迭代精化。在CVPR研讨会上,第978-987页,2018年。2[3] Shuhan Chen,Xiuli Tan,Ben Wang,and Xuelong Hu.显著对象检测的反向注意在ECCV,第11213卷,第236-252页一、二[4] 博东、诸葛明晨、王永雄、毕弘博、庚辰。用混合卷积和 交 互 式 融 合 实 现 精 确 的 图 像 目 标 CoRR ,abs/2101.05687,2021。1[5] Hui Du,Xiaogang Jin,and Xiaoyang Mao.使用双尺度分解的数字摄像图像。Comput.Graph. Forum,31(7):2203-2212,2012. 1[6] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li,and Ali Borji.Structure-measure:一种评估前景图的新方法在ICCV,第4558-4567页,2017年。6[7] 范登平,季戈鹏,程明明,凌少。隐藏物体检测。CoRR,abs/2102.10274,2021。一、二[8] Deng-Ping Fan ,Ge-Peng Ji, Guolei Sun,Ming-MingCheng,Jianbing Shen,and Ling Shao.伪装物体探测。在CVPR中,第2774-2784页,2020年。一二三五六七8[9] 范登平,季戈鹏,周涛,陈耿,傅华柱,沈建兵,邵凌。Pranet:用于息肉分割的并行反向注意力网络。在医学影像计算和计算机辅助干预,MIC-CAI,第12266卷,第263-273页,2020年。1、6[10] 范登平,季戈鹏,秦学斌,程明明。受认知视觉启发的对象分割度量和损失函数。《中国科学信息》,51(9),2021年。6[11] Golnaz Ghiasi和Charless C.福克斯用于语义分割的拉普拉斯金字塔重构与精化。在Bastian Leibe、Jiri Matas、Nicu Sebe和Max Welling,编辑,ECCV,第519-534页2[12] 季成公、赵昭、李。通过迭代改进改进多阶段目标检测.在BMVC中,第223页,2019年。2[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[14] Chen Jin , Ryutaro Tanno , Moucheng Xu , ThomyMertzanidou,and Daniel C.亚历山大用于超高分辨率图像分割的视觉聚焦。CoRR,abs/2007.15124,2020。2[15] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议。5[16] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。神经信息处理系统进展,第1106-1114页,2012年。5[17] Jason Kuen、Zhenhua Wang和Gang Wang。用于显著性检测的递归注意网络。在CVPR中,第3668-3677页,2016年。2[18] 哈拉·兰道阿尔、杨查理、谢伟迪和安德鲁·兹瑟曼。被运动背叛:通过运动分割发现摄影机拍摄的对象。在Hiroshi Ishikawa , Cheng-LinLiu , Toma' sPajdla 和JianboShi,编辑,亚洲计算机视觉会议,ACCV,第488-503页,2020年2[19] Trung-Nghia Le , Tam V. Nguyen , Zhongliang Nie ,Minh-Triet Tran,and Akihiro Sugimoto.用于伪装目标分割的 一个分 支网络 。Comput. 目视 图像Underst。 ,184:45-56,2019. 5[20] Aixuan Li,Jing Zhang,Yunqiu Lv,Bowen Liu,TongZhang,and Yuchao Dai. 不确定性感知的显著目标和隐藏目标联合检测。在CVPR中,第10071- 10081页,2021年。一、二[21] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。在CVPR中,第5455-5463页,2015年。2[22] 李丽媛,黄伟民,Irene Y. H.顾、齐天。用于前景目标检测的复杂背景的统计建模 IEEE Trans. 图像处理。,13(11):14591[23] Guosheng Lin,Anton Milan,Chunhua Shen,and Ian D.里德Refinenet:用于高分辨率语义分割的多路径细化网络。在CVPR中,第5168- 5177页,2017年。2[24] Jiawei Liu,Jing Zhang,and Nick Barnes.基于置信度感知 学 习 的 隐 藏 目 标 检 测 。CoRR , abs/2106.11641 ,2021。2[25] Yunqiu Lv , Jing Zhang , Yuchao Dai , Aixuan Li ,Bowen Liu ,Nick Barnes ,and Deng-Ping Fan.同时定位,分割和排序的伪装对象。在CVPR中,第11591-11601页,2021年。二、三、六[26] Ran Margolin、Lihi Zelnik-Manor和Ayellet Tal。如何评估前景贴图。在CVPR,第248-255页,2014年。6[27] Dmitrii Marin , Zijian He , Peter Vajda , PriyamChatterjee,Sam S. Tsai,Fei Yang,and Yuri Boykov.高效分割:学习语义边界附近的下采样在ICCV,第2131-2141页,2019年。2[28] Haiyang Mei , Ge-Peng Ji , Ziqi Wei , Xin Yang ,Xiaopeng Wei,and Deng-Ping Fan.基于分心挖掘的伪装目标在CVPR,第8772-8781页,2021年。一、二、六[29] 安德鲁·欧文斯、康奈利·巴恩斯、亚历克斯·弗林特、哈努曼特·辛格和威廉·T·弗里曼。从多个视点拍摄一个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功