没有合适的资源?快使用搜索试试~ 我知道了~
金字塔嫁接网络的一级高分辨率显著性检测
11717××基于金字塔嫁接网络的一级高分辨率显著性检测谢晨曦1、夏昌群*2、马明灿1、赵志瑞1、陈小武1、2、李佳1、21北京航空航天大学虚拟现实技术与系统国家重点实验室2深圳鹏程实验室{xiechenxi,mingcanma,zhiruizhao,chen,jiali} @ buaa.edu.cn,xiachq@pcl.ac.cn摘要最近基于深度神经网络的显著对象检测(SOD)方法取得了显着的性能。然而,由于采样深度和感受野大小之间的矛盾,现有的低分辨率SOD模型针对这一矛盾,提出了一种新的一阶段框架--金字塔嫁接网络(Pyramid Grafting Network,PGNet),该框架利用Transformer和CNN主干分别从不同分辨率的图像中提取特征,然后将Transformer分支上的特征嫁接到CNN分支上。提出了一种基于注意力的跨模型移植模块(CMGM),使CNN分支能够在解码过程中以不同的源特征为指导,更全面地组合破碎的详细信息。此外,我们设计了一个注意力引导损失(AGL)来明确地监督CMGM产生的注意我们贡献了一个新的超高分辨率显着性检测数据集UHRSD,包含5,920张4K-8 K分辨率的图像据我们所知,它是目前最大的数据集,在数量和分辨率的高分辨率SOD任务,可以用于训练和测试在未来的研究。在UHRSD和广泛使用的SOD数据集上的足够的实验证明,我们的方法实现了与最先进方法相比更优越的性能1. 介绍显著对象检测(SOD)[1,5]旨在识别和分割特定场景中最吸引人的对象。作为一种预处理步骤,它被广泛应用于var.*信件请寄至夏昌群(电子邮件:xi-achq@pcl.ac.cn)。代码和数据集可在github.com/iCVTEAM/PGNet上获得。图1.比较不同方法的结果。(a)输入图像。(b)地面真相面具。(c)直接输入到基于Resnet- 18的FPN。(d)下采样然后输入到基于Swin Transformer的FPN。(e)我们的了各种计算机视觉任务,如光场分割[21,41],实例分割[47]和视频对象分割[13,42]。最近,基于深度神经网络的显著对象检测方法取得了显著成就[3,9,14,19,26,29]。然而,大多数现有的SOD方法在特定的输入低分辨率范围内表现良好(例如,224 二二四,三百八十四384)。随着图像捕获设备(例如,智能手机),分辨率(例如,1080p、2K和4K)的显著性已经远远超出了现有显著性检测方法可以直接适用的范围。如图1(c)所示,我们将高分辨率图像直接馈送到以Resnet-18为主干的常用网络中,并将地面实况与图1(b)进行比较,结果表明分割结果不完整,许多细节区域丢失。为了减少计算消耗和内存使用,现有方法通常对输入图像进行下采样11718然后对输出结果进行上采样以恢复原始分辨率,如图1(d)所示。这一挑战是由于大多数低分辨率SOD网络都是以编码器-解码器风格设计的,并且随着输入分辨率的急剧增加,提取的特征的大小也会增加,但由网络确定的接受域是固定的,使得相对接受域变小,最终导致无法捕获对SOD任务至关重要的全局语义由于直接处理无法应对高分辨率带来的挑战,近年来出现了许多专门为高分辨率输入设计的方法。有两种代表性 的 高 分 辨 率 SOD 方 法 ( HRSOD [40] , DHQSOD[30]). HRSOD将整个过程分为全局阶段、局部阶段和重组阶段,其中全局阶段对局部阶段和作物过程提供指导DHQSOD将SOD任务分解为分类任务和回归任务,这两个任务通过他们提出的三图和不确定性损失连接起来它们生成具有清晰边界的相对良好的显着性图。然而,上述两种方法都使用多阶段架构,将SOD分为语义(低分辨率)和详细(高分辨率)阶段。这就导致了两个新的问题:(1)不同阶段之间的语境语义转换不一致。前几个阶段得到的中间图被输入到最后一个阶段,而错误也被传递。而且,由于没有足够的语义支持,最后一个阶段的细化很可能会继承甚至放大以前的错误,这意味着最终的显着图严重依赖于低分辨率网络的性能。(2)耗时。与单阶段方法相比,多阶段方法不仅难以并行,而且存在参数数量增加的潜在问题,这使得其速度变慢。基于现有高分辨率方法的上述缺陷,我们提出了一种新的观点,即由于单个网络中的特定特征不能同时解决感受域和细节保持的悖论,因此我们可以分别提取两组不同空间大小的特征,然后将信息从一个分支移植到另一个分支在本文中,我们重新思考了双分支架构,并设计了一种用于高分辨率显著性检测的新型一 级 深 度 神 经 网 络 , 称 为 金 字 塔 嫁 接 网 络(PGNet)。如图1(e)所示,我们使用Resnet和Transformer作为编码器,并行提取具有双重空间大小的特征。transformer分支首先以FPN风格解码特征,然后在两个分支的特征图具有相似空间大小的阶段将全局语义信息传递到Resnet分支。我们称这个过程为特征嫁接.最后,Resnet分支用嫁接的特征完成解码过程。与经典FPNs,我们以较低的成本构建了一个更高的特征金字塔。为了更好地实现两类模型间的特征考虑到有监督的深度学习方法需要大量高质量的数据,我们提供了迄 今 为 止 数 量 最 多 的 4K 分 辨 率 SOD 数 据 集(UHRSD),以推动未来高分辨率显著对象检测的研究。我们的主要贡献可归纳如下:• 我们提出了第一个用于高分辨率显著对象检测的单阶段框架PGNet,该框架使用交错连接来捕获连续语义和丰富细节。• 我们引入跨模型移植模块将信息从Transformer分支传递到CNN分支,这使得CNN不仅可以继承全局信息,而且可以弥补两者共同的缺陷。此外,我们还设计了注意力引导丢失,以进一步促进特征嫁接。• 我们贡献了一个新的具有挑战性的超高分辨率显着性检测数据集(UHRSD),其中包含超过4K分辨率的各种场景的5,920张图像和相应的逐像素显着性注释,这是最大的高分辨率显着性数据集。• 在现有数据集和我们的数据集上的实验结果表明,我们的方法在准确性和速度方面优于最先进的方法。2. 相关工作在过去的几十年中,已经提出了大量的传统方法来解决显著性检测问题[12,38,39]。然而,这些方法只关注底层特征,而忽略了丰富的语义信息,导致在复杂场景中性能不稳定。2.1. 基于深度学习的显著性检测最近,由于深度神经网络的应用,显着性检测取得了显 着进展[18,33 ,36, 37,44]。 Hou等人 [11]Chenet al. [4]使用深度卷积网络作为编码器来提取多级特征,并设计各种模块以FPN风格融合它们。Ma等人[23]和Xuet al. [37]通过使用各种特征连接路径进行实验,在抑制细节丢失的同时避免语义淡化。此外,Weiet al.[33]第33话我的世界11719××边界通过明确地监督边缘像素。在视觉中广泛使用的显着性检测也导致了新的进展。Liu等[20]使用T2 T-vit作为骨干,并设计具有纯Transformer架构的多任务解码器来执行RGB和RGB-D显著性检测。然而,这些方法是针对低分辨率场景设计的,不能直接应用于高分辨率场景。2.2. 高分辨率SOD如今,专注于高分辨率SOD方法已经是趋势。Zeng等人[40]提出了一种使用GSN提取语义信息的高分辨率显著对象检测范例,APS引导LRN优化局部细节,最终GLN进行预测融合。他们还贡献了第一个高分辨率显着对象检测数据集(HRSOD)。Tang等人[30]建议将显著对象检测分解为两项任务。他们首先设计LRSCN以低分辨率捕获足够的通过引入不确定性损失,所设计的HRRN可以对第一阶段使用低分辨率数据集生成的三重图进行精化。然而,它们都使用多级架构,这导致推理速度缓慢,难以满足一些真实的应用场景。更严重的问题是网络之间的语义不连贯。因此,我们的目标是设计一个一级深度网络来摆脱上述缺陷。3. UHR显著性检测数据集可用的SOD数据集。现有的常见SOD数据集通常是低分辨率的(低于500 500)。更重要的是,它们在训练高分辨率网络和评估高质量分割结果方面存在以下缺点。首先,图像的低分辨率导致细节信息不足。其次,注释的边缘质量很差[40]。最后,注释的更高级别令人失望,特别是对于硬情况注释,其处理敷衍了事,如图2(f)所示。已知唯一可用的高分辨率数据集是HRSOD [40]。然而,HRSOD中的高分辨率图像的数量是有限的。UHRSD数据集。对于监督学习,训练数据显然很重要。在此之前,唯一可用的高分辨率训练集只有1,610张图像,我们实验发现,仅在其上训练很容易过度拟合其数据分布,这会显著影响模型如果将低分辨率数据集混合在一起进行训练,则会引入大量噪声,影响高分辨率模型的性能。为了缓解SOD高分辨率数据集 的 缺 乏 , 我 们 贡 献 了 超 高 分 辨 率 显 着 性 检 测(UHRSD)数据集,共有5,920张图像(a)(b)(c)(d)其他事项(e)(f)第(1)款图2. 比较不同方法的结果(a)我们的UHRSD和HRSOD之间的边缘像素数量的对数的比较。(b)我们的UHRSD和HRSOD之间的对角线长度比较[40](c)来自我们的UHRSD的样本。(d)从人权特别组织取样(e)我们的UHRSD样本(f)样品来自DUTS-TE。最好放大观看。4K(3840 2160)或更高分辨率,包括4,932张训练图像和988张测试图像。总共有5,920张图片是从网站上手动选择的(例如,Flickr Pixabay)免费版权。我们的数据集在图像场景方面是多样的,具有各种大小的复杂和简单显著对象的平衡。在构建过程中有多个参与者,以确保显著注释的准确性。图2说明了我们的UHRSD的优越性。如直方图图2(a)(b)所示,UHRSD数据集比HRSOD数据集大得多,据我们所知,它是可用的最大数据集。在训练高分辨率深度神经网络时,大规模的训练大大简化了上述问题。此外,直方图Fig. 2(b)显示UHRSD中图像的大小远远超过现有的高分辨率数据集。不仅如此,图2(a)显示了我们图像边缘的像素数量也远远超过了现有的高分辨率数据集,这意味着UHRSD具有更丰富和更具挑战性的边缘细节。最后,通过对图1和图2的比较如图2(c)-(f)所示,UHRSD对于困难情况也具有比现有高分辨率数据集和低分辨率数据集更精细的注释水平。11720×{|}×我××2我2我56×56 ×(64 ×2i)2i−1× × ××.Σ图3.金字塔嫁接网络的概述。双支路分别使用Resnet和Swin Transformer作为编码器。DBn是具有n个输入特征的解码器块,具体结构如右侧所示两个辅助监控用于监控第2节中提到的RP和SP 4.44. 方法4.1. 交错嫁接框架拟议的网络架构如图所示3 .第三章。可以看出,网络由两个编码器和一个解码器组成。为了更好地执行两个编码器的各自任务,Swin Transformer和Resnet-18被选为编码器。该组合的选择是出于平衡效率和有效性的考虑。一方面,Transformer编码器能够在低分辨率情况下获得准确的全局语义信息,而卷积编码器可以在高分辨率输入下获得丰富的细节。另一方面,由不同模型提取的特征的可变性可以是互补的,以更准确地识别显著性。在编码过程中,两个编码器被馈送不同分辨率的图像,以便并行地分别捕获全局语义信息和详细信息解码阶段可以分为三个子阶段,首先是Swin解码,然后是嫁接特征解码,最后是交错结构的Resnet解码在第二子阶段中解码的特征从跨模型移植模块(CMGM)产生,其中,全局语义信息从Swin分支嫁接到通过两个较低的金字塔构造较高的特征金字塔,使用交错连接结构,如图所示1.一、换句话说,该网络以较低的计算成本实现更深的采样深度,以适应高分辨率输入带来的挑战。4.2. 特征提取器为了应对高分辨率输入产生的大量计算消耗和内存使用,我们选择Resnet-18 [10]和Swin-B [22]作为我们的骨干,以平衡性能和效率。 对于Resnet-18编码器,将生成五个特征映射,我们将其表示为R。 由top77层提取的特征图提供有限的性能增益,但消耗巨大的计算工作量,特别是对于高分辨率输入。因此,R中所利用的特征可以表示为Rii = 2,3,4,5。由于在每一级中的下采样,对于输入大小HW , 特 征 R 的 大小 为 HW ( C2i−1 ) ,其 中(C2i)是特征的通道。我们去除了最后一个阶段,同时采用Swin Transformer的补丁嵌入特征,其生成4个特征,表示为{Si|i=1,2,3,4}。由于嵌入dim在Transformer中是固定的,因此输入大小为224 ×224S中的特征尺寸为2i−1为Resnet分支。 CMGM还处理一个名为CAM将被监督。 回顾整个过程,我们i= 1,2,3和1414512对于S4。R5的空间大小接近于S2,因此我们选择在这里移植特征。欧苏DB1Swin流DB2Sup解码器流程UAGLossC解码器流程欧苏DB3Resnet流量Resnet流量Swin流量解码器流跨模型移植模块C级联此外U上采样转换+BN+ReluRBlockSBlockDBlockResnet块Swin块解码器块DB2Swin流解码器流程SBlockSBlockSBlockRBlockSBlockRBlockRBlockRBlockDB1DB2DB2DB3DB2DB211721R×|−|∈×XYRF·SXYF图4.通过CMGM消除错误的示例。(a)(b)是图像和地面真实掩模。(c)和(d)分别是从Transformer分支和Resnet分支生成的(e)显示了CMGM生成的错误映射。图5.跨模型移植模块的体系结构。如下所示:Y=softmax(fq×fkT),(1)4.3. 跨模型移植模块我们提出了跨模型移植模块(CMGM)来移植由两个不同的编码器提取的特征fR5和fS2。对于特征fS2,由于Transformer在相比之下,CNN在提取局部信息方面表现良好,因此fR5具有相对丰富的细节。然而,由于特征尺寸和接收场之间的矛盾,在fR5中,背景中会有许多噪声。对于某个区域的显著预测,由不同特征生成的预测可以大致概括为三种情况:(a)两者都对,(b)其中一些是对的,(c)两者都错。现有的融合方法,使用元素的操作,如加法和乘法可以工作的前两种情况。然而,逐元素操作和卷积操作只关注有限的局部信息,导致融合方法对常见错误难以补救。与特征融合相比,CMGM重新计算Resnet特征和Transformer特征之间的逐点关系,将全局语义信息从Transformer分支转移到Resnet分支,从而弥补常见错误。我们通过E = G计算误差图P[0,1],其中G是地面实况,P是显著预测图gen。Z=Y×fv,(2)然后,我们将Z输入到线性投影层,并在输入到卷积层之前将其重新整形为3H×W×C的大小。 如图所示,在该过程中进行了两次快捷连接。 五、此外,在交叉注意过程中,我们基于Y生成交叉注意矩阵,可以表示为:CAM=ReLU( BN( Con v(Y+YT),(3)CAM的详细用法见第4.44.4. 注意力引导损失为 了 使 CMGM 更 好 地 实 现 从 Transformer 分 支 向Renset分支传递信息的目的,我们设计了注意力引导损失来显式地支持交叉注意力矩阵我们认为交叉注意力矩阵应该类似于从地面真相生成的注意力矩阵,因为显著特征应该具有更高的相似性,换句话说,点积应该具有更大的激活值。如图6所示,给定一个大小为H W的显着映射M,我们首先将其映射为大小为1HW的M ′。 然后对M′进行乘法运算,得到相应的注意力矩阵Ma.该过程可以表示为Ma=(M),并且Ma的值可以表示为由不同的分支或CMGM鉴定。如图 4、a=M′T×My′,(4)CMGM如预期的那样纠正了共同错误。特别是, 在 CMGM公司 它 第一 将fR5∈然后我们使用transformation()来构造Ga,RPa,SPa,其中G是地面实况图,RP和H×W×C至fR′对fSSP是从特征R5得到fS′。受多头自注意机制的启发分别求出fq,fv和fk。得到Z和S2。我们提出了基于加权二进制交叉熵的注意力引导丢失算法,监督从以下各项生成的交叉注意矩阵CAMR R SMX211722通过矩阵乘法,该过程可以表示为图5所示的CMGM。BCE [6]可以写成:1172300.51βLIJΣΣΣΣ|LLb+iL LLΣ Σ·=++(),(8)变平0自矩阵乘法05. 实验5.1. 数据集和评估指标高分辨率数据集。高分辨率0 0 00 1H00.50 0W0 00.50HW0.2500 0可用的数据集是UHRSD(4,932张用于训练的图像和988张用于测试的图像),HRSOD [40](1,610张用于训练的图像和400张用于测试的图像)。其次[30,40],我们也使用DAVIS-S进行评估。低分辨率数据集。 DUTS-TR [31]用于HW训练模型。此外,我们还评估了我们的方法,1个广泛使用的基准数据集:ECSSD [38],1,000图6.注意力矩阵的构建。该操作用于为建议的AGL创建目标和权重。图像,DUT-OMRON [39]有5,168张图像,PASCAL-S [17]有850张图像,DUTS-TE [31]有5,019张图像,HKU-IS [16]有4,447张图像。评估指标。我们使用以下指标来评估所有方法的性能首先,平均Ab-l(G, P)=.log(Pxy)Gxy=1,(5)溶质误差(MAE),定义为等式。 (9)其中P是公元前xyxylog(1−Pxy)Gxy=0预测图和G是地面真相。 第二是最大F-测度 (F Max), 其可以通过以下公式计算其中,Gxy是像素(x,y)的地面真值标签,并且F=(1+β2)·精确度·召回率,其中β2被设置为0.3,如图所示。P是预测图中的预测概率,ββ2·查准率·查全率XY其中,[0,1]为区间。那么我们的AG可以表示为:在[2]中。然后,我们采用结构相似性测度(Sm)[7]和E-测度(E_m)[8]以及许多其他方法[23,32]。最后,为了更好地评估边界质量,H在高分辨率显著性检测中,LAG= −(1 +βωij)lbce(Ga,CAMij)i=1j=1H W(1+βωij)i=1j =1、(6)在[30,40]中,我们采用边界位移误差(BDE)来评估高分辨率数据集的结果,其中较低的值意味着更好的边界质量。H W其中β是用于调整权重ωEq.(七)、在Eq。在等式(6)中,每个像素上的lbce被分配有权重βω ij。权值ω的使用有两个目的:(1)由于矩阵乘法,正负样本不平衡程度被平方(2)作为MAE =1PH ×Wi=1j=15.2. 实现细节-Gij |.(九)描述在SEC。4.3,我们希望纠正两个分支的常见错误。当βω等于0时,等式(6)成为通常的二进制交叉熵损失BCE。 权重ω可以通过下式计算:01-02-2013张世荣(|(G a− RP a)|+的|(G a− SP a)|)+1,(7)我们使用Pytorch [25]来实现我们的模型,并使用两个RTX 2080Ti GPU来加速训练。我们选择Resnet-18[10]和Swin-B 224 [22]作为卷积分支和Transformer分支重建的骨干。整个网络使用随机梯度下降(SGD)进行端到端训练。我们设定了最大-ij2ij ij ijij ijSwin主干的最小学习率为0.003,其中RPa和SPa是RP的注意力矩阵,SP定义如上。What’s[24]如[ 27 ]所建议的那样,更加关注图像的全球结构。欠条损失可参见补充资料。最后,我们的总损失可以表示为:P1 辅助L总计Lb+iLAG8Lb+i其中b+i=bce+iou,并且 助剂b+i应用于RP和SP。00.51IJ010.5011724×为他人在训练过程中,学习率首先增加,然后衰减,而且动量和权重衰减分别设置为0.9和0.0005。批量大小设置为16,最大历元设置为32.对于数据增强,我们使用随机缩放,裁剪和多尺度输入图像[27,30,44]。为了进行公平的比较并充分展示UHRSD的属性,我们采用三种可用数据集的组合来训练我们的模型 : ( 1 ) DUTS-TR ( 2 ) DUTS-TR+HRSOD-TR(3)UHRSD-TR+HRSOD-TR。在测试期间,每个图像被调整大小为1024 1024,然后在没有任何后处理的情况下被馈送到网络中(例如,通用报告格式[15])。11725表1.在五个基准数据集上与最先进的SOD模型进行定量比较,包括最大F-测量,MAE,E-测量,S-测量和BDE。最好的两个结果分别以红色和绿色显示。D:接受DUTS-TR培训,HD:接受DUTS-TR和HRSOD-TR培训,UH:接受UHRSD-TR和HRSOD-TR培训。最好的两个结果是红色和绿色字体。方法HRSOD-TEDAVIS-SUHRSD-TEDUT-OmronDUTS-TEFMaxβMaeESMBDEFMaxβMaeESMBDEFMaxβMaeESMBDEFMaxβMaeESMFMaxβMaeESMCPD19.867.041.891 .881 62.066.871.029.921 .893 33.971.894.055.884 .878 32.587.797.056.866 .825.865.043.887 .869SCRN19.880.042.887 .888 75.696.893.027.911 .902 46.592.904.051.880 .887 40.176.811.056.863 .837.888.040.888 .885DASNet20.893.032.925 .897 69.310.902.020.949 .911 26.761.914.045.892 .889 35.044.827.050.877 .845.895.034.908 .894F3Net20.900.035.913 .897 65.757.915.020.940 .914 44.760.909.046.887 .890 39.612.813.053.871 .838.891.035.902 .888GCPA20.889.036.898 .898 74.900.922.020.934 .929 39.160.912.047.886 .896 35.947.812.056.860 .839.888.038.891 .891ITSD20.896.036.912 .898 87.946.899.022.922 .909 68.256.911.045.895 .897 41.174.821.061.863 .840.883.041.895 .885LDF20.904.032.919 .904 58.714.911.019.947 .922 35.447.913.047.891 .888 33.775.820.051.873 .838.898.034.910 .892CTD21.905.032.921 .905 63.907.904.019.938 .911 42.832.917.043.898 .897 33.835.826.052.875 .844.897.034.909 .893PFS21.911.033.922 .906 63.537.916.019.946 .923 30.612.918.043.896 .897 37.387.823.055.875 .842.896.036.902 .892HRSOD-DH19.905.030.934 .896 88.017.899.026.955 .876 44.359-----.743.065.831 .762.835.050.885 .824DHQSOD-DH21.922.022.947 .920 46.495.938.012.947 .920 14.266-----.820.045.873 .836.900.031.919 .894我们的PGNetOurs-D.931.021.944 .930 46.923.936.015.947 .935 34.957.931.037.904 .912 32.300.835.045.887 .855.917.027.922 .911Ours-DH.937.020.946 .935 45.292.950.012.975 .948 14.463.935.036.905 .912 32.008.835.046.887 .858.919.028.925 .912我们的.945.020.946 .938 57.147.957.010.979 .954 12.725.949.026.916 .935 30.019.772.058.884 .786.871.038.897 .859Image GTOurs-UHCPD CTD DASNet F3Net GCPA ITSD LDF PFS SCRNImageGTOurs-UH DHQSOD HRSOD CPD CTD DASNet F3Net GCPA ITSD LDF图7.我们的方法和SOTA方法之间的视觉比较前四行来自我们的UHRSD-TE,接下来的两行来自HRSOD-TE。最好放大观看。5.3. 与最新技术水平的我们将我们提出的PGNet与11种SOTA方法进行比较,包括CPD [34],SCRN [35],DASNet [43],F3 Net[32],GCPA [4],ITSD [46],LDF [33],CTD [45],PFS [23],HRSOD [40],DHQSOD [30],其中HRSOD和DHQ-SOD是专为高分辨率显着物体检测。上述所有方法都使用Resnet-50 [10]作为主干,除了HRSOD使用VGG16 [28]。和所有这些都是在DUTS-TR [31]数据集上训练的,除了标记的HRSOD-DH和DHQSOD-DH,它们是在混合数据集(HRSOD [40]和DUTS-TR)上训练的。为了公平比较,我们使用可用的实现或作者提供的显着图。值得注意的是,Tab中的空行。1是由于其中一个到目前为止还不可用,另一个与我们的测试环境不一致。11726组合物HRSOD-TE−表2.不同架构和组成的比较。FMaxβMaeESM基线ResNet-18.878.051.875.871基线Swin.915.027.937.921基线R+S+CMGM.940.023.944.936基线公司简介.945.020.946.938定量比较。如上所述,为了公平比较,我们使用三种火车设置。可以在Tab中看到。1,仅在DUTS-TR或DUTS-TR和HRSOD-TR的混合上训练的结果在高分辨率和低分辨率测试集上都大大超过SOTA。当使用混合数据集DUTS- HRSOD时,我们的方法在高分辨率数据集上有了显著的改进。高分辨率和低分辨率数据的分布可能存在差异。UHRSD-HRSOD混合数据集的训练结果进一步支持了这一点,其中高分辨率数据集的性能得到了显着改善,尤其是对于UHRSD-TE。这说明高分辨率数据集不同于低分辨率数据集的标注偏差对有监督的高分辨率显著性检测方法有促进作用,这也是高分辨率训练数据需要高质量标注的原因.目视比较。为了展示高分辨率数据集的特性和我们的方法在其上的优越性,图7显示了我们相对于其他人的视觉对比的代表性示例。可以看出,我们的方法可以很好地捕捉细节,并产生清晰的边界元(行1和2)。除了高质量边界之外,高分辨率SOD的另一个重要方面是能够分割在低分辨率情况下容易忽略的小结构对象(第3、5和6行)。这也证明了我们的方法使过程一步完成的优越性更重要的5.4. 消融研究为了更好地说明所提出的高分辨率图像方法的性质,消融研究基于Ours-UH的设置,Ours-UH是在混合数据集UHRSD-TR和HRSOD-TR上训练的组合物的烧蚀研究。为了证明所提出的特征嫁接方法的有效性,包括CMGM和AGL,我们报告的定量性能表。 二、基线Resnet-18和基线Swin分别代表广泛使用的具有Resnet-18主干和Swin主干的U形网络。从第3行可以看出,我们提出的交错架构和交叉-表3.具有嫁接的不同性能特点。 Ri定义了在第二节中定义的R的第i个特征。 4.2,与Si相似。特征对HRSOD-TEUHRSD-TEFMaxβMaeEFMaxβMaeER5−S4R5−S3R5−S2R5−S1.913.939.945.937.029.022.020.022.922.937.946.935.935.947.949.947.031.026.026.026.907.912.916.910模型移植模块继承了两个模块的优点。在AGL的指导下,业绩得到了进一步的移植物位置的消融研究。为了研究嫁接位置对网络性能的影响,我们使用不同的嫁接特征对进行了一系列实验。如Tab.所示。3,从两个编码器的最后一级的对齐开始,性能随着交错层的数量增加而逐渐改善,直到在对R 5处达到最佳S2。这可能这是由于特征图的空间大小当尺寸当两个模型的特征接近时,从两个模型中提取的特征中的空间信息相互对应,这反过来又促进了特征嫁接。6. 限制我们的方法对于一阶段高分辨率显著性检测来说是简单快速的,但是训练过程对GPU内存使用仍然相当苛刻,导致训练成本很高。此外,虽然我们的方法已经有一个优越的输入分辨率相比,繁琐的SOD方法,输入分辨率是不是无限的对于4K等过高分辨率,图像需要在输入前首先进行下采样。7. 结论在本文中,我们提出了一个阶段的高分辨率显著对象检测的金字塔嫁接所提出的交错移植模式有效地利用了现有的两种不同编码器中的每一种此外,提出的跨模型移植模块和注意力引导损失相互合作,继承CNN和Transformer的优点并弥补其共同的缺陷值得注意的是,我们贡献了第一个4K分辨率的SOD数据集,用于推进未来的高分辨率SOD研究。大量的实验表明,我们的方法不仅优于国家的最先进的方法,但也能够产生高分辨率的显着性预测快速,准确。鸣谢:本工作得到国家自然科学基金项目62132002、61922006和62102206的资助。11727引用[1] Ali Borji、Ming-Ming Cheng、Qibin Hou、Huaizu Jiang和Jia Li。显着对象检测:一个调查。计算视觉媒体,第1-34页,2019年。一、二[2] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测:一个基准。IEEE transactions on imageprocessing,24(12):5706-5722,2015。6[3] Shuhan Chen,Xiuli Tan,Ben Wang,and Xuelong Hu.显著对象检测的反向注意。在欧洲计算机视觉会议(ECCV)的会议记录中,第234-250页,2018年。1[4] 陈祖尧,徐倩倩,丛润民,黄庆明.用于显著对象检测的全局上下文感知渐进聚合网络。arXiv预印本arXiv:2003.00651,2020。二、七[5] Ming-Ming Cheng , Niloy J Mitra , Xiaolei Huang ,Philip HS Torr,and Shi-Min Hu.基于全局对比度的显著区域 检测 。IEEE Transactions on Pattern Analysis andMachine Intelligence,37(3):569-582,2014. 1[6] Pieter-Tjerk De Boer,Dirk P Kroese,Shie Mannor,andReuven Y Rubinstein.关于交叉熵方法的教程。Annals ofOperations Research,134(1):195[7] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li,and Ali Borji.Structure-measure:一种评估前景图的新方法在IEEE计算机视觉国际会议论文集,第4548-4557页,2017年。6[8] Deng-Ping Fan , Cheng Gong , Yang Cao , Bo Ren ,Ming-Ming Cheng,and Ali Borji. 增强的对齐措施,确保 二 进 制 前 景 地 图 评 价 。 arXiv 预 印 本 arXiv :1805.10421,2018。6[9] 范小平,翟英杰,阿里·博尔吉,杨巨峰,邵凌。Bbs-net:使用分叉骨干策略网络的Rgb-d显着对象检测。欧洲计算机视觉会议,第275-292页。Springer,2020年。1[10] K He,X Zhang,S Ren和J Sun。用于图像识别的深度残差学习2016年IEEE会议计算机访问记录。2016:770-778 https://doi. org/10.1109。CVPR,2016年。四、六、七[11] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , AliBorji,Zhuowen Tu,and Philip HS Torr.具有短连接的深度监督在IEEE计算机视觉和模式识别会议论文集,第3203-3212页,2017年。2[12] Laurent Itti,Christof Koch,and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE Transactions onpattern analysis and machine intelligence,20(11):1254-1259,1998. 2[13] Ge-Peng Ji , Keren Fu , Zhe Wu , Deng-Ping Fan ,Jianbing Shen,and Ling Shao.视频对象分割的全双工策略。在IEEE/CVF国际计算机视觉会议集,第49221[14] Wei Ji,Jingjing Li,Shuang Yu,Miao Zhang,YongriPiao,Shunyu Yao,Qi Bi,Kai Ma,Yefeng Zheng,Huchuan Lu,等人,Calibrated rgb-d显着对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集,第9471-9481页,2021年。 1[15] 菲利普·p·K·r·aühenbuühl和弗拉德伦·科尔通。具有高斯边势的全连通crfs中的有效推理在Advances in neuralinformation processing systems,第1096[16] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。在IEEE计算机视觉和模式识别会议论文集,第5455-5463页,2015年。6[17] Yin Li,Xiaodi Hou,Christof Koch,James M Rehg,and Alan L Yuille.显着对象分割的秘密。在Proceedingsof the IEEE Conference on Computer Vision and PatternRecognition,第280-287页6[18] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。2[19] 刘江江,侯启斌,程明明。同时检测显著目标、边缘和骨 架 的 动 态 特 征 集 成 。 arXiv 预 印 本 arXiv :2004.08595,2020。1[20] 刘念,张倪,万开元,凌少,韩俊伟。视觉显著性Transformer。IEEE/CVF计算机视觉国际会议论文集,第4722-4732页,2021年。3[21] 刘念,赵王波,张鼎文,韩俊伟,凌少。基于双局部图学习和交互指导的光场显着性检测。在IEEE/CVF计算机视觉国际
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功