基于Transformer的图像显着性检测方法

198 浏览量更新于2023-10-14 收藏 867KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4722视觉显著性Transformer刘念1*张倪2*万开元2凌少1韩俊伟2†1人工智能初始研究院2西北工业大学{liunian228，nnizhang.1995，kaiyuan.wan0106，junweihan2010} @ gmail.com，ling. ieee.org摘要现有的最先进的显着性检测方法严重依赖于基于CNN的架构。或者，我们从无卷积的序列到序列的角度重新考虑这个任务，并通过建模长程依赖关系来预测显着性，这是卷积无法实现的。具体来说，我们开发了一种新的统一模型的基础上的纯Transformer，即视觉显着性变换器（VST），RGB和RGB-D显着对象检测（ SOD ）。它以图像块作为输入，并利用Transformer在图像块之间传播全局上下文。与传统的架构中使用的视觉Transformer（ViT），我们利用多级令牌融合，并提出了一种新的令牌上采样方法下的变压器框架，以获得高分辨率的检测结果。我们还开发了一个基于令牌的多任务解码器，通过引入任务相关的令牌和一个新的补丁任务注意机制，同时执行显着性和边界检测。实验结果表明，我们的模型优于现有的方法在RGB和RGB-D SOD基准数据集。最重要的是，我们的整个框架不仅为SOD领域提供了一个新的视角，也为基于变换的稠密预测模型提供了一个新的范例。代码可在https://github.com/nnizhang/VST获得。1. 介绍SOD旨在检测吸引人们眼睛的物体[58、19]。最近，RGB-D SOD也获得了越来越多的兴趣与额外的空间结构信息的深度数据。当前最先进的SOD方法在RGB和RGB-D数据上由卷积架构[28]主导它们通常采用编码器-解码器CNN架构[47，57]，其中编码器将输入图像编码为多级特征，解码器集成提取的特征以预测最终的显着图。基于这种简单的架构，*同等贡献。†通讯作者。已经做出了大部分努力来构建用于预测更好的显著性结果的强大解码器。为此，他们介绍了各种注意力模型[37，80，7]，多尺度特征集成方法[24，49，16，43]和多任务学习框架[67，77，82，69，25]。RGB-D SOD的附加要求是有效地融合交叉模态信息，即，外观信息和深度提示。现有的工作提出了各种模态融合方法，例如特征融合[22，4，16，18，89]，知识蒸馏[53]，动态卷积[48]，注意力模型[31，78]和图形神经网络[43]。因此，基于CNN的方法已经取得了令人印象深刻的结果[66，88]。然而，所有以前的方法都是有限的学习全局长程依赖关系。长期以来，全局上下文[21，83，56，44，37]和全局对比度[75，2，8]已经被证明对于显着性检测至关重要。然而，由于CNN在局部滑动窗口中提取特征的固有限制，以前的方法很难利用关键的全局线索。尽管一些方法利用全连接层[36，22]、全局池化层[44，37，65]和非局部模块[38，7]来合并全局上下文，但它们仅在某些层中这样做，并且标准的基于CNN的架构保持不变。最近，Transformer [61]被提出来为机器翻译的单词序列之间的全局长程依赖关系建模。其核心思想是自我注意机制，它利用查询键相关性来关联序列中的不同位置。Transformer在编码器和解码器中多次堆叠自注意层，因此可以在每个层中建模长距离依赖关系。因此，将Transformer引入SOD是很自然的，始终利用模型中的全局线索在本文中，我们第一次重新思考SOD从一个新的序列到序列的角度来看，并开发了一种新的统一模型的RGB和RGB-D SOD的基础上一个纯粹的Transformer，这是命名为视觉显着性转换器。我们遵循最近提出的ViT模型[12，74]将每个图像划分为补丁，并在补丁序列上采用Transformer模型然后，Trans-former在图像块之间传播长程依赖性然而，在这方面，4723对SOD应用ViT并不简单。一方面，如何执行基于纯Transformer的密集预测任务仍然是一个悬而未决的问题。另一方面，ViT通常将图像标记为非常粗略的尺度。如何使ViT适应SOD的高分辨率预测需求也不清楚。为了解决第一个问题，我们设计了一个基于令牌的Transformer解码器，通过引入任务相关的令牌来学习决策嵌入。然后，我们提出了一种新的补丁任务的注意力机制，以产生密集的预测结果，这提供了一个新的范式使用Transformer在密集的预测任务。受利用边界检测来提高SOD性能的先前SOD模型[82，87，79，25]的启发，我们构建了一个多任务解码器，通过引入显著性令牌和边界令牌来同时进行显著性和边界检测。该策略通过简单地学习与任务相关的令牌简化了多任务预测工作流程，从而在获得更好结果的同时大大降低了计算成本。为了解决第二个问题，受令牌到令牌（T2T）变换[74]的启发，该变换减少了令牌的长度，我们提出了一种新的反向T2T变换，通过将每个令牌扩展为多个子令牌来对令牌进行上采样然后，我们逐步上采样补丁令牌，并将它们与低级别令牌融合，以获得最终的全分辨率显着图。此外，我们还使用交叉模态Transformer来深入探索RGB-D SOD的多模态信息之间的最后，我们的VST优于现有的国家的最先进的SOD方法具有相当数量的参数和计算成本，RGB和RGB-D数据。我们的主要贡献可概括如下：• 首次，我们设计了一种新的统一模型的基础上的RGB和RGB-D SOD的纯Transformer架构，从一个新的角度序列到序列建模。• 我们设计了一个多任务Transformer解码器，通过引入任务相关令牌和补丁任务注意力来联合进行显著性和边界检测。• 我们提出了一种新的令牌上采样方法的变压器为基础的框架。• 我们提出的VST模型在RGB和RGB-D SOD基准数据集上都取得了最先进的结果，这证明了它的有效性和基于变换的SOD模型的潜力。2. 相关工作2.1. 基于深度学习的SOD基于CNN的方法已经成为RGB和RGB-D SOD的主流大多数方法[24，65，49，84，16]通过使用UNet来杠杆化多级特征融合策略[57]或HED式[71]网络结构。一些作品引入了注意力机制来学习更多的区分特征，包括空间和通道注意力[52，80，16，7]或像素上下文注意力[37]。其他作品[36，64，11，42，6]试图设计循环网络来逐步完善显着图。此外，一些著作还引入了多任务学习，例如固定预测[67]，图像字幕[77]和边缘检测[54，82，69，79，25]，以提高SOD性能。对于RGB-D超氧化物歧化酶，许多方法设计了各种模型来融合RGB和深度特征，并取得了显著的效果。一些模型[4，5，18]采用简单的特征融合方法，即，级联、求和或乘法。其他一些[81，30，52，31]利用深度线索来生成空间或通道注意力，以增强RGB特征。此外，动态卷积[48]，图形神经网络[43]和知识蒸馏[53]实现了多模态特征融合。此外，[38，39，7]采用交叉注意机制来传播RGB和深度线索之间的长距离交叉模态相互作用。与以往的基于CNN的方法不同，我们首次从序列到序列的角度重新思考SOD，并提出了一个基于RGB和RGB-D SOD的纯Transformer的统一模型在我们的模型中，我们遵循[54，82，69，79，25]来利用边界检测来提高SOD性能。然而，与这些基于CNN的模型不同，我们设计了一种新的基于令牌的多任务解码器，以实现Transformer框架下的这一目标2.2. 计算机视觉中的变压器Vaswani等人[61]首先提出了一种用于机器翻译的Transformer最近，越来越多的工作将Transformer模型引入到各种计算机视觉任务中，并取得了优异的效果。一些工作将CNN和变压器结合到混合架构中，用于对象检测[3，91]，全景分割[62]，车道形状预测[40]等。通常，他们首先使用CNN来提取图像特征，然后利用Transformer来合并长期依赖关系。其他作品设计了纯Transformer模型，从序列到序列的角度处理图像。ViT[12]将每幅图像分成一系列平坦的2D块，然后采用Transformer进行图像分类。Touvron等人[60]引入了师生策略，以提高数据效率的ViT和王等。[68]提出了一个金字塔架构，以适应密集的预测任务的ViT。T2 T-ViT [74]采用T2 T模型对局部结构进行建模，从而生成多尺度to- ken特征。在这项工作中，我们采用T2 T-ViT作为骨干，并提出了一种新的多任务解码器和反向4724RT2T公司简介显著性令牌312RT2TRT2T3边界令牌编码器转换器解码器21×个∈×个图1.我们提出的RGB和RGB-D SOD的VST模型的整体架构。它首先使用编码器从输入图像块序列中生成多级令牌。然后，采用转换器将补丁令牌转换到解码器空间，并对RGB-D数据进行跨模态信息融合。最后，解码器同时预测的显着性图和边界图，通过建议的任务相关的令牌和补丁任务注意机制。还提出了一种RT2T变换来逐步上采样补丁令牌。虚线表示RGB-D SOD的专有组分。T2T令牌上采样方法。值得注意的是，我们对任务相关令牌的使用与以前的模型不同在[12，60]中，通过在令牌嵌入上采用多层感知器，将类令牌直接用于图像分类。然而，我们不能直接从单个任务令牌中获得稠密的预测结果。因此，我们建议在补丁到kens和任务令牌之间执行补丁任务注意，以预测显着性和边界图。我们相信我们的策略也将启发未来的转换模型用于其他密集预测任务。另一个与我们相关的工作是[86]，它将Transformer引入语义分割任务。作者采用视觉Transformer作为主干，然后将令牌序列重塑为2D图像特征。然后，他们使用卷积和双线性上采样预测全分辨率分割图他们的模型仍然属于混合架构类别。相比之下，我们的模型是一个纯粹的Transformer架构，不依赖于任何卷积运算和双线性上采样。3. 视觉显著性Transformer3.1.1代币到代币给定来自前一层的长度为l的补丁令牌序列T’，T2 T-ViT迭代地应用由重构步骤和软分裂步骤组成的T2 T模块来对T’中的局部结构信息进行建模并获得新的令牌序列。重组。如图2（a）所示，首先使用Transformer层对令牌T’进行变换，以获得新令牌T∈ R1×c：T=MLP（ MSA（T′）），（1）其中MSA和MLP分别表示原始Transformer [61]中的多头自注意和多层感知器。注意，层归一化[1]在每个块之前应用。然后，T被重塑为2D图像IRh×w×c，其中l=h w，以恢复空间结构，如图2（a）所示。软分裂。在重新结构化步骤之后，I首先被分割成k个k块，其中s重叠。还利用P零填充然后，图像补丁图1显示了我们提出VST模型主要部件包括基于T2 T-ViT的Transformer编码器、变压器转换器、控制器、数据采集器和数据采集器。被展开为令牌序列T0序列长度L0被计算为：∈R10×ck2，其中将补丁令牌从编码器空间转换到解码器l=h×w= h +2p −k+1 ×w +2p −k+1。空间和多任务Transformer解码器。o o ok−sk−s（二）3.1. Transformer编码器类似于其他基于CNN的SOD方法，其中使用预训练的图像分类模型，如VGG [59]和ResNet [23]作为其编码器的主干来提取图像特征，我们采用预训练的T2 T-ViT [74]模型作为我们的主干，如下所述与ViT [12]不同，T2 T-ViT中采用的重叠块分裂在相邻块内引入了局部对应，从而带来了空间先验。T2T变换可以迭代地进行多次。在每一次中，重新结构化步骤首先将先前的令牌嵌入转换为新的嵌入RT2T补丁任务注意力补丁任务注意力Transformer层×L1Transformer层× L2Transformer层× L3Transformer层交叉模态TransformerTransformer层Transformer层×LTransformer层×L4725一个5二个三个4重塑12 3四、五、六4二九展开1个854项目29 倍181、2、3个四、五、六一个二个三个重塑46Transformer l r--×个∈∈∈∈1442881616∈ ∈∈∈五个七、八、九6七、八、九五个六个5Aye5六个七个七个八个八个九个（一）（b）第（1）款九个图2.（a）T2T模块将相邻令牌合并成新令牌，从而减少令牌的长度（b）我们提出的反向T2T模块通过将每个令牌扩展为多个子令牌来对令牌进行上采样。并且还在所有to-kens内集成了长范围依赖性。然后，软拆分操作将每个k k邻居中的令牌此外，当设置s k1时，令牌的长度可以逐渐减小。我们遵循[74]，首先将输入图像软分割成补丁，然后采用T2T模块两次。在这三个软分割步骤中，补丁大小被设置为k =[7，3，3]，重叠被设置为s=[3，1，1]，并且填充大小被设置为p =[2，1，1]。因此，我们可以得到多层次的令牌T1Rl1×c，T2Rl2×c和T3Rl3×c. 给定输入图像的宽度和高度为H和W，则l=H×W，l=H×W，并且（CMT），其由LC交替的跨模态注意层和自我注意层组成。跨模态注意。在纯Transformer架构下，我们修改标准自注意力层以传播图像与深度数据之间的长程跨模态依赖性，从而获得跨模态注意力，其详述如下。首先，与[61]中的自我注意类似，通过三个线性投影将 TrE 嵌入到查询 QrRl3×d 、键 KrRl3×d 和值VrRl3×d。类似地，我们可以从TdE获得深度查询Qd、键Kd和值Vd。l3=H× W。我们遵循[74]设置c = 64并使用线性T3上的投影层将其嵌入维数从c转换为d=384。3.1.2具有T2 T-ViT主干的编码器从另一种模式。然后，输出被计算为值的加权和，公式为：Attention（Qr，Kd，Vd）= softmax（QrK/√d）Vd，√（3）最后的令牌序列T3与正弦信号T2相加。位置嵌入[61]以编码2D位置信息。第然后，利用LETransformer层对T3之间的长程依赖关系进行建模，提取出功能强大的补丁到肯嵌入TERl3×d.对于RGB SOD，我们采用单个Transformer编码器从每个输入RGB图像获得RGB编码器块令牌TrERl3×d对于RGB-D SOD，我们遵循双流架构以进一步使用另一个Transformer编码器来以类似的方式从输入深度图中提取深度编码器补丁令牌TdE，如图1所示3.2. Transformer转换器我们在Transformer编码器和解码器之间插入一个转换器模块来转换编码器补丁令牌TE从编码器空间到解码器空间，从而得到转换后的补丁令牌TC∈Rl3×d.3.2.1RGB-D转换器我们在RGB-D转换器中融合TE和TE以集成Attentio n（Qd ，Kr ， Vr ）=softmax （ QdKr/d）Vr。我们遵循[61]中的标准Transformer架构，并在交叉模态注意中采用多头注意机制。还使用了相同的位置前馈网络，残差连接和层归一化[1]，形成了我们的CMT层。在每次采用建议的CMT层之后，我们在每个RGB和深度补丁令牌序列上使用一个标准Transformer层，进一步增强其令牌嵌入。在交替地使用 CMT 和TransformerL_C次之后，我们通过级联来融合所获得的RGB令牌和深度令牌，然后将它们投影到最终的经转换的令牌T_C，如图1所示。3.2.2RGB转换器为了与我们的 RGB-D SOD 模型对齐，对于 RGBSOD，我们简单地使用TrE上的LC标准Transformer层来获得转换后的补丁令牌序列TC。3.3. 多任务Transformer解码器研发RGB和深度数据之间的互补信息。为此，我们设计了一个跨模态Transformer我们的解码器旨在将补丁令牌TC解码为显着图因此，我们提出了一种新的令牌upsam-Transformer层接下来，我们计算[61]在一个模态的查询与键D4726×个--我不是×个×−×个×个十六十六4×个b b b1具有多级令牌融合的组合方法和基于令牌的多任务解码器。3.3.1令牌上采样和多级令牌融合我们认为，直接从T_C预测显著图不能获得高质量的结果，因为T_C的长度相对较小，即I3=Hff，其对于密集预测是有限的。因此，我们建议首先将补丁上采样到-kens，然后进行密集预测。大多数基于CNN的方法[84，82，38，18]采用双线性上采样来恢复大规模特征图。另外，我们提出了一个新的令牌上采样方法下的Transformer框架。受T2T模块[74]的启发，该模块聚集相邻令牌以减少令牌的长度。3.3.2基于令牌的多任务预测受现有的纯Transformer方法[74，12]的启发，该方法在图像分类的补丁令牌序列上添加了一个类令牌，我们还利用任务相关的令牌来预测结果。然而，我们不能通过直接在任务令牌嵌入上使用MLP来获得密集的预测结果因此，我们建议在补丁令牌和任务相关令牌之间执行补丁任务注意以执行SOD。此外，受SOD模型中广泛使用的边界检测的启发[82，69，79，25]，我们还采用多任务学习策略来联合执行显着性和边界检测，从而使用后者来帮助提高前者的性能。为此，我们设计了两个与任务相关的令牌，即一因此，我们提出了一种反向T2T（RT2T）变换。通过将每个令牌扩展为多个令牌来上采样令牌。显著性标记ts∈R1×d和一个边界记号tb∈R1×d.如图2（b）所示。具体来说，我们首先投影输入补丁令牌，以将其嵌入维数从d=384减少到c=64。然后，我们使用另一个线性投影将嵌入维数从c扩展到ck2。接下来，类似于T2T中的软分割步骤，每个令牌被视为k个图像块，并且相邻块具有s个重叠。然后我们在每个解码器级别i处，我们将显著性令牌和边界令牌 ts 和 tb 添加到补丁令牌序列 TiD 上，然后使用LDiTransformer层来处理它们。因此，两个任务令牌可以从与补丁令牌的交互中学习图像依赖的任务相关嵌入。在这之后我们将更新的补丁令牌作为输入，并执行（4）中的令牌上采样和多级融合过程获得上采样的补丁令牌TiD . 接下来，我们重用可以使用p零填充将令牌折叠为图像。的输出图像尺寸可以使用（2）反向计算，即，更新1ts和tb在下一级i-1中进一步更新给定输入补丁令牌的长度为ho×wo，他们和D−1个. 我们重复这个过程，直到我们到达1外部图像的空间大小为hW. 最后，我们重塑将图像返回到大小为10，c的上采样令牌，其中10=h，w。通过设置s k1，RT2T变换可以增加令牌的长度。受T2 T-ViT的启发，我们使用RT 2 T三次，并设置k=[3，3，7]，s=[1，1，3]，p=[1，1，3]。因此，补丁令牌的长度可以被逐渐上采样到Hff，等于输入图像的原始大小。此外，基于多层次特征融合在现有SOD方法最后一个解码器级别，4级。对于显著性和边界预测，我们在最终解码器补丁令牌T1D与显著性和边界令牌ts和tb之间执行补丁任务注意。对于显著性预测，我们首先将T1D嵌入到查询QDs中∈Rl1×d和嵌入ts到一个密钥Ks∈R1×d和一个值Vs∈R1×d.类似地，对于边界预测，我们将T1D嵌入到QDb，并将Tb嵌入到Kb和Vb。然后，我们采用patch-task-attention来获得与任务相关的补丁令牌：D D√D[24，49，84，16，43]，我们利用低级别代币Ts=S形（QsKs/d）Vs+T1，（五）来自T2 T-ViT编码器的较大长度，即，T1和T2以提供准确的局部结构信息。为RGB 和 RGB-D SOD ，我们只使用来自 RGBTransformer编码器的低级令牌。具体而言，我们逐步融合T2和T1与上采样补丁令牌TD= sigmoid（QDK/√d）Vb+ T D。在这里，我们使用sigmoid激活用于注意力计算，因为在每个等式中，我们只有一个密钥。由于TsD和TbD处于1标度，因此我们采用第三通过连接和线性投影。然后，我们领养一个Transformer 层以获得每个级别i 处的解码器令牌TiD，其中i=2，1。整个过程公式化为：TiD=MLP（ MSA（线性（[RT2T（TiD+1），Ti]）），⑷其中[，]表示沿着令牌嵌入维度的级联。“Linear”meanslinearprojectiontoreducetheembeddingdimension after the concatenation to 最后，我们使用另一个线性投影将TiD的嵌入维数恢复回d。RT2T转换，以将其上采样至全分辨率第最后，我们使用sigmoid激活应用两个线性变换将它们投影到[0，1]中的标量，然后将它们分别重塑为2D显着图和2D整个过程如图1所示。4. 实验4.1. 数据集和评估指标对于RGB SOD，我们在六个广泛使用的基准数据集上评估了我们的VST模型，包括ECSSD[72]4727ξ×个×个表1.我们提出的模型的消融研究。“Bili”表示双线性上采样。“F”表示多级令牌融合。“TMD” denotes最佳结果以蓝色标记。设置Sm↑NJUD [26]maxF ↑ Emax↑ξMAE↓Sm↑[52]第五十二话maxF ↑ Emax↑ MAE↓ξSm↑[46]第四十六话maxF ↑ Emax↑ξMAE↓ Sm↑LFSD [33]maxF ↑ Emax↑ξMAE↓基线0.8690.8620.9310.0730.8890.8870.9420.0620.8680.8530.9270.0750.8420.8450.8930.103+CMT0.8730.8670.9340.0720.8890.8900.9420.0630.8690.8540.9280.0750.8490.8550.9000.100+CMT+Bili0.9060.9020.9440.0450.9260.9300.9610.0320.8890.8770.9390.0510.8560.8580.8950.081公司简介0.9150.9150.9510.0390.9340.9400.9640.0280.8960.8890.9430.0460.8670.8730.9030.073+CMT+RT2T+F0.9230.9230.9540.0350.9360.9430.9630.0280.9100.9030.9470.0400.8760.8800.9090.067+CMT+RT2T+F+TMD0.9220.9200.9510.0350.9430.9480.9690.0240.9130.9070.9510.0380.8820.8890.9210.061+CMT+RT2T+F+C2D0.9220.9210.9540.0360.9410.9470.9680.0260.9110.9060.9490.0400.8740.8780.9090.069（1，000 images），HKU-IS[32]（4，447 images），PASCAL-S[34]（850张图像）、DUT-O[73]（5，168张图像）、SOD[45]（300张图像）和DUTS[63]（10，553张训练图像和5，019张测试图像）。对于RGB-D SOD，我们使用九个广泛使用的基准数据集：STERE [46]（1，000图像对）、LFSD [33]（100图像对）、RGBD 135[9]（ 135 个图像对）、 SSD[90]（ 80 个图像对）、NJUD[26]（1，985个图像对）、NLPR[51]（1，000个图像对）、 DUTLF-Depth[52] （ 1 ， 200 个图像对）、SIP[15]（929个图像对）和ReDWeb-S[39]（3，179个图像对）。我们采用了四个广泛使用的评价指标，全面评估我们的模型性能。具体地，结构测量Sm[13]评估区域感知和对象感知的结构相似性。最大F-测量（maxF）在最佳阈值下联合考虑精确度和召回率。最大增强对准测量Emax[14]同时考虑像素级误差和图像级误差。平均绝对误差（MAE）计算逐像素平均绝对误差。为了评估模型的复杂性，我们还报告了乘法累积运算（MAC）和参数（Params）的数量。4.2. 实现细节为了公平比较，我们遵循大多数以前的方法，使用DUTS的训练集来训练我们的VST用于RGB SOD，并使用来自NJUD的1，485张图像，来自NLPR的700张图像和来自DUTLF-Depth的800张图像来训练我们的VST用于RGB-D SOD。我们遵循[82]使用sober operator从GT显着图生成边界地面实况对于深度数据预处理，我们将深度图归一化为[0，1]，并将它们复制到三个通道。最后，我们将每个图像或深度图调整为256 - 256像素，然后随机裁剪224 - 224图像区域作为模型输入，并使用随机翻转作为数据增强。我们使用预训练的T2 T-ViTt-14 [74]模型作为我们的骨干，因为它具有与ResNet 50 [23]相似的计算复杂度。该模型在T2 T模块中使用有效的Per-former [10]和c=64，并设置L_E=14。在我们的转换器和解码器r中，我们设置LC=LD3 =4和LD2 =LD1 =2。我们将批处理大小设置为11和8，总的训练步骤为对于RGB和RGB-D SOD，分别为40，000和60，000。两个人都是亚当的后裔。最小化器和二进制交叉熵损失被用于显著性和边界预测。初始学习率设置为0.0001，并分别在总步长的一半和四分之三处减小10倍。深度监督也用于促进模型训练，其中我们使用补丁任务注意力来预测每个解码器级别的我们使用Pytorch [50]实现了我们的模型，并在GTX 1080 TiGPU上进行了训练。4.3. 消融研究由于我们的RGB-D VST是通过基于我们的RGBVST再添加一个变压器编码器和附加CMT来构建的在四个RGB-D SOD数据集上的实验结果表明，表1中给出了NJUD、DUTLF-深度、STERE和LFSD。我们从作为基线模型的RGB-D VST中删除了Transformer转换器和解码器具体地，它使用双流Transformer编码器来提取RGB编码器补丁令牌 TrE和深度编码器补丁令牌TdE，然后直接将它们连接起来，并通过使用每个补丁令牌上的MLP来预测具有1/16尺度的显著性图。CMT的有效性。对于跨模态信息融合，我们将我们提出的CMT部署在变换器编码器之后，以替代基线模型中的级联融合方法，如表1中的“+CMT”所示与基线相比，CMT带来了性能增益，特别是在NJUD和LFSD数据集上，因此证明了其有效性。RT2T的有效性基于“+CMT”模型，我们进一步简单地使用双线性上采样（“+CMT+Bili”）来逐步上采样令牌到全分辨率，然后预测显着图。结果表明，采用双线性上采样提高显著图的分辨率，可以大大提高模型的性能。然后，我们用我们提出的RT2T令牌上采样方法（“+CMT+RT2T”）替换双线性上采样我们发现RT2T导致明显的性能改善相比，使用双线性上采样，这验证了它的有效性。多级令牌融合的有效性。我们在解码器中逐步融合T1和T2（4728表2.在9个基准数据集上对我们提出的VST与其他14种SOTA RGB-D SOD方法进行了定量比较红色和蓝色分别表示最佳和次佳结果。‘-’ indicates the code or result is not数据集指标A2dele[五十三]JL-DCF[18个国家]SSF-RGBD[79个]UC-Net[76个]S2MA[38个]PGAR[6]美国达内[八十五]CMMS[29日]ATST[78个国家]CMW[三十一]Cas-Gnn[四十三]HDFNet[48个]CONET[25日]BBS-Net[16个]VSTMAC（G）参数（M）41.8630.34211.06143.5246.5632.9316.1631.26141.1986.6544.6516.266.2526.68134.7792.0242.1732.17208.0385.65--91.7744.1520.8943.6631.249.7730.9983.83Sm↑NJUDmaxF↑Emax↑ξ[26]MAE↓0.8710.9020.8990.8970.8940.9090.8990.900 0.885 0.8700.9110.9080.8960.9210.9220.8740.9040.8960.8950.8890.9070.8980.897 0.893 0.8710.9160.9110.8930.9190.9200.9160.9440.9350.9360.9300.9400.9350.936 0.930 0.9270.9480.9440.9370.9490.9510.0510.0410.0430.0430.0540.0420.0460.044 0.047 0.0610.0360.0390.0460.0350.035Sm↑NLPRmaxF↑Emax↑ξ[51]MAE↓0.8990.9250.9150.9200.9160.9170.9200.919 0.909 0.9170.9190.9230.9120.9310.9320.8820.9180.8960.9030.9020.8970.9090.904 0.898 0.9030.9060.9170.8930.9180.9200.9440.9630.9530.9560.9530.9500.9550.955 0.951 0.9510.9550.9630.9480.9610.9620.0290.0220.0270.0250.0300.0270.0270.028 0.027 0.0290.0250.0230.0270.0230.024Sm↑DUTLF maxF↑- 深度E最大↑ξ[52]MAE↓0.8850.9060.9150.8710.9040.8990.8990.912 0.916 0.7970.9200.9080.9230.8820.9430.8910.9100.9230.8640.8990.8980.9040.913 0.928 0.7790.9260.9150.9320.8700.9480.9280.9410.9500.9080.9350.9330.9390.940 0.953 0.8640.9530.9450.9590.9120.9690.0430.0420.0330.0590.0430.0410.0420.036 0.033 0.0980.0300.0410.0290.0580.024Sm↑ReDWeb-SmaxF↑Emax↑ξ[39]MAE↓0.6410.7340.5950.7130.7110.656-0.699 0.679 0.634-0.7280.6960.6930.7590.6030.7270.5580.7100.6960.632-0.677 0.673 0.607-0.7170.6930.6800.7630.6740.8050.7100.7940.7810.749-0.767 0.758 0.714-0.8040.7820.7630.8260.1600.1280.1890.1300.1390.161-0.143 0.155 0.195-0.1290.1470.1500.113Sm↑STEREmaxF↑Emax↑ξ[46]MAE↓0.8790.9030.8370.9030.8900.8940.9010.894 0.896 0.8520.8990.9000.9050.9080.9130.8800.9040.8400.8990.8820.8800.8920.887 0.901 0.8370.9010.9000.9010.9030.9070.9280.9470.9120.9440.9320.9290.9370.935 0.942 0.9070.9440.9430.9470.9420.9510.0450.0400.0650.0390.0510.0450.0440.045 0.038 0.0670.0390.0420.0370.0410.038Sm↑SSDmaxF↑Emax↑ξ[90]MAE↓0.8030.8600.7900.8650.8680.8320.8640.857 0.850 0.7980.8720.8790.8510.8630.8890.7770.8330.7620.8550.8480.7980.8430.839 0.853 0.7710.8630.8700.8370.8430.8760.8620.9020.8670.9070.9090.8720.9140.900 0.920 0.8710.9230.9250.9170.9140.9350.0700.0530.0840.0490.0530.0680.0500.053 0.052 0.0850.0470.0460.0560.0520.045Sm↑RGBD135maxF↑Emax↑ξ[9]MAE↓0.8860.9310.9040.9340.9410.8860.9240.934 0.917 0.9340.8940.9260.9140.9340.9430.8720.9230.8850.9300.9350.8640.9140.928 0.916 0.9310.8940.9210.9020.9280.9400.9210.9680.9400.9760.9730.9240.9660.969 0.961 0.9690.9370.9700.9480.9660.9780.0290.0210.0260.0190.0210.0320.0230.018 0.022 0.0220.0280.0220.0240.0210.017Sm↑LFSDmaxF↑Emax↑ξ[33]MAE↓0.8250.8530.8510.8560.8290.8080.8410.845 0.845 0.7760.8380.8460.8480.8350.8820.8280.8630.8630.8600.8310.7940.8400.858 0.859 0.7790.8430.8580.8520.8280.8890.8660.8940.8920.8980.8650.8530.8740.886 0.893 0.8340.8800.8890.8950.8700.9210.0840.0770.0740.0740.1020.0990.0870.082 0.078 0.1300.0810.0850.0760.0920.061Sm↑SIPmaxF↑Emax↑ξ[15]MAE↓0.8290.8800.7990.8750.8720.8380.8750.872 0.849 0.705-0.8860.8600.8790.9040.8340.8890.7860.8790.8770.8270.8760.876 0.861 0.677-0.8940.8730.8840.9150.8900.9250.8700.9190.9190.8860.9180.911 0.901 0.804-0.9300.9170.9220.9440.0700.0490.0910.0510.0580.0730.0550.058 0.063 0.141-0.0480.0580.0550.040提供低级细粒度信息。我们发现，这种策略进一步提高了模型的性能。因此，在Transformer中利用低级令牌与在基于CNN的模型中融合低级特征一样重要。多任务Transformer解码器的有效性。基于结果表明，使用边界检测可以在四个数据集中的三个数据集上为SOD带来进一步的性能增益。为了非常我们的基于令牌的预测方案的有效性，我们尝试直接使用传统的双流解码器（C2D）通过使用该模型在表1中表示为TMD的参数和MAC与C2D为17.22 M vs.2

下载后可阅读完整内容，剩余1页未读，立即下载