基于不确定性引导的Transformer推理用于伪装物体检测

55 浏览量更新于2023-10-13 收藏 16.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…[Mask][Mask][Mask]、41460基于不确定性引导的Transformer推理用于伪装物体检测0Fan Yang 1 , ‡ Qiang Zhai 2 , ‡ Xin Li 1 * Rui Huang 2 Ao Luo 3 Hong Cheng 1 Deng-Ping Fan 401 AIQ 2 UESTC 3 Megvii 4 IIAI0‡ 相等贡献0摘要0发现在视觉上适应其环境的物体对于人类和人工智能来说都是具有挑战性的。传统的通用/显著物体检测技术对于这个任务来说并不理想，因为它们往往只能发现易于识别的物体，而忽视了由于无法区分的纹理而产生的难以检测的物体的固有不确定性。在这项工作中，我们提出了一种新颖的方法，使用概率表示模型与Transformer相结合，明确地在不确定性下进行推理，即基于不确定性引导的Transformer推理（UGTR），用于伪装物体检测。核心思想是首先学习骨干网络输出的条件分布，以获得初始估计和相关的不确定性，然后通过注意机制对这些不确定区域进行推理，产生最终的预测。我们的方法结合了贝叶斯学习和基于Transformer的推理的优点，使模型能够通过利用确定性和概率信息来处理伪装物体检测。我们通过实验证明，我们提出的方法在CHAMELEON、CAMO和COD10K数据集上的准确性比现有的最先进模型更高。代码可在https://github.com/fanyang587/UGTR上获得。01. 引言0伪装物体检测（COD），也称为解脱伪装，旨在从给定场景中发现隐藏的目标。它不仅是一个重要的科学问题，用于理解视觉感知和伪装之间的关系，而且还可以促进许多现实生活应用，如图像合成[4]，物种发现[41]和医学图像分析[13]。然而，伪装物体的身体颜色、图案和其他形态适应会显著降低它们被检测、识别或瞄准的概率，使得解脱伪装对于人类和机器来说都变得困难。几十年来，研究人员一直试图构建能够看穿伪装的机器智能[45，49]。早期的COD尝试使用手工制作的特征以无监督的方式，例如颜色和强度特征[21]，3D凸度[40]和运动边界[18]。最近，卷积神经网络（CNN）已被用于解决COD问题。为了解决由于无法区分的纹理而引起的歧义，与通用/显著物体检测模型（例如[9，16，31，32，35，43，59，61]）不同，当前的COD方法通常从共享上下文中提取额外的特征（例如用于识别[12]、分类[29]和边界检测[57]的特征）并将它们结合起来进行联合表示学习。通过跨模态融合技术。尽管取得了一些进展，但这些方法都没有明确考虑到伪装策略引起的不确定性，使得COD的表示学习不够有针对性，甚至容易受到误导，更不用说辅助任务和主任务特征之间固有的模态差异的负面影响了。经验上，我们发现现有技术不能正确识别那些完美隐藏轮廓的伪装大师。为了获得更好的解脱伪装性能，我们将贝叶斯学习引入基于Transformer的推理中，0*通讯作者：Xin Li（xinli uestc@hotmail.com）0变压器0（a）图像0（b）不确定性0（c）特征0在训练期间0（d）基于不确定性的Transformer推理0（e）输出0�(�, �)0位置编码0特征0重塑0图1：我们的想法是将物体解脱伪装视为概率-确定性过程的混合。概率表示模型用于捕捉不确定性（虚线），并且基于Transformer的模型通过利用挖掘的不确定性来克服歧义（实线）。0伪装物体检测几十年来，研究人员一直试图构建能够看穿伪装的机器智能[45，49]。早期的COD尝试使用手工制作的特征以无监督的方式，例如颜色和强度特征[21]，3D凸度[40]和运动边界[18]。最近，卷积神经网络（CNN）已被用于解决COD问题。为了解决由于无法区分的纹理而引起的歧义，与通用/显著物体检测模型（例如[9，16，31，32，35，43，59，61]）不同，当前的COD方法通常从共享上下文中提取额外的特征（例如用于识别[12]、分类[29]和边界检测[57]的特征）并将它们结合起来进行联合表示学习。通过跨模态融合技术。尽管取得了一些进展，但这些方法都没有明确考虑到伪装策略引起的不确定性，使得COD的表示学习不够有针对性，甚至容易受到误导，更不用说辅助任务和主任务特征之间固有的模态差异的负面影响了。经验上，我们发现现有技术不能正确识别那些完美隐藏轮廓的伪装大师。为了获得更好的解脱伪装性能，我们将贝叶斯学习引入基于Transformer的推理中，41470提出了不确定性引导的Transformer推理（简称UGTR）作为一种新的学习范式。也就是说，我们首先通过概率表示模型[23, 24,51]获得初始估计并量化相应的不确定性。然后，我们使用transformer [7,50]推理上下文以推断难以检测（不确定）的区域。因此，如图1所示，我们的UGTR将确定性映射[12, 29, 55,57]的学习转化为更复杂的、不确定性引导的上下文推理过程。我们期望我们精心设计的UGTR能够在不确定性条件下推理上下文信息，并通过利用确定性和概率信息可靠地推断出隐藏的对象。具体而言，我们的UGTR由三个主要组件组成：i）不确定性量化网络（UQN），ii）不确定性引导的transformer（UGT）和iii）辅助原型transformer（PT）。为了获得不确定性地图，我们借鉴了贝叶斯概率理论[1, 23,25, 26,62]，并将我们的UQN设计为概率表示模型，该模型学习概率分布而不是像素估计。我们从学习的分布中抽取K个样本来产生初始估计并测量不确定性。然后，我们的UGT通过注意机制全面利用更丰富的上下文来推断难以检测（不确定）的区域。此外，为了使transformer专注于不确定的区域，我们引入了一种不确定性引导的随机遮罩算法（UGRM），该算法在训练过程中自动为不确定的区域分配更高的被遮罩的概率。因此，transformer通过利用上下文信息来高效地推断和恢复不确定区域中的内容。最后但并非最不重要的是，我们还引入了一个辅助transformer，称为原型transformer（PT），以协助UGT挖掘更高级的语义。我们为UGTR设计了多个损失函数，使所有组件（即UQN、UGT和PT）从原始数据中共同学习。我们的UGTR在CHAMELEON[46]、CAMO [29]和COD10K[12]上取得了最先进的性能，而不需要任何额外的信息（例如固定或边界）。此外，通过明确建模不确定性，我们的UGTR还增加了COD模型的可解释性，并促进了对视觉伪装的进一步分析和研究。我们的贡献有三个方面：0•伪装物体检测的一种新的学习范式。据我们所知，这是首次尝试将贝叶斯学习引入基于Transformer的伪装物体检测中。它将传统COD模型的确定性映射过程转化为一种不确定性引导的上下文推理过程。通过明确量化携带关键信息的不确定性，它能够实现有针对性的上下文推理。0通过推理来克服伪装分析中的所有困难。0•一种新颖的不确定性引导的Transformer推理模型用于伪装物体检测。我们提出了不确定性引导的Transformer推理模型（UGTR），它在统一的端到端框架中集成了所有新颖的组件，如不确定性量化网络（UQN）、原型transformer（PT）和不确定性引导的transformer（UGT）。需要注意的是，我们提出的UGRM算法作为一个硬例挖掘模块，利用不确定性引导来增强UGT在训练过程中的上下文推理能力。0•在广泛使用的基准测试中取得了最先进的结果。我们的全面装备的UGTR在各种基准测试中都取得了最先进的性能，包括CHAMELEON [46]，CAMO [29]和COD10K[12]，并且在很大程度上优于现有的COD模型。02. 相关工作0伪装目标检测。伪装目标检测（COD）是一项将伪装目标与背景区分开的任务，已被广泛应用。先驱性工作使用手工特征以无监督的方式区分目标与背景，例如颜色和强度特征[21]，3D凸度[40]和运动边界[18]。最近，基于深度学习的方法尝试以数据驱动的方式解决COD问题，并在识别/检测伪装目标方面取得了令人印象深刻的结果。为了更好地处理无法区分的纹理（或边界），现有方法侧重于探索辅助信息，例如注视点[36]，边界[57]，图像级标签[12，29]，以进行联合表示学习。与这些方法不同，我们将贝叶斯学习和基于Transformer的推理的优点结合起来，作为一种新的学习范式。我们的方法将主流的确定性映射过程重新构建为一种更可靠的、以不确定性为导向的上下文推理过程，在所有基准测试中取得了新的记录。贝叶斯深度学习。贝叶斯神经网络（BNN）[1，15，24，37，44]以在神经网络中建模不确定性而闻名。BNN的关键思想是学习网络权重[1]或特征[56]的分布，而不是输出单个固定值。现代深度学习中贝叶斯方法的显著工作包括[1，15，24，37，44]。最近，Gal等人[14，15]将dropout视为对网络权重的近似贝叶斯推断。Kendall等人[23]表明，通过在测试时使用dropout进行蒙特卡洛采样可以生成像素类标签的后验分布。这些技术已成功应用于语义分割/场景解析[19，23]、人员重新识别[56]和医学图像分析[28]的不确定性建模。………………………………………ℱ'()41480骨干网络0概率性0模块0多头0注意力0残差模块0前馈0残差模块0多头0自注意力0残差模块0前馈0残差模块0多头0交叉注意力0残差模块0训练：不确定性引导的随机遮挡0测试：无遮挡0前馈0残差模块0前馈0残差模块0输出0GT0原型制作损失0比较距离0样本不确定性0输入位置编码0比较距离0原型制作0（b）原型Transformer（第3.3节）0（c）不确定性引导的Transformer（第3.4节）0（a）不确定性量化0网络（第3.2节）0�(�, �)0损失0图2：我们提出的基于不确定性引导的Transformer推理模型（UGTR）的概述。我们的UGTR包括三个主要组件，即UQN，PT和UGT，分别标记为（a）-（c）。更多细节请参见第3节。最佳观看效果为彩色。0受这些工作的启发，我们构建了不确定性量化网络（UQN）作为一种概率表示模型，用于捕捉伪装目标检测的不确定性。据我们所知，这是首次尝试明确建模不确定性并充分利用它来提高伪装目标检测的可靠性。视觉Transformer。Transformer最初由[50]引入，用于处理机器翻译领域的序列数据。最近的工作尝试将Transformer应用于各种视觉任务，如目标检测[2，5，66]，图像识别[8，47]，多目标跟踪[39，48]，语义分割[64]和人体姿势和网格重建[30]。这些工作证明了图像可以以序列到序列的方式进行学习。重要的是，随机遮挡技术通过注意机制（即多头注意力）强制Transformer在推理过程中对上下文进行推理，从而大大提高了模型的推理能力。在本文中，我们提出了两个新颖的Transformer——不确定性引导Transformer（UGT）和原型Transformer（PT）。UGT通过上下文推理实现像素级预测，而PT作为辅助Transformer挖掘高级语义。重要的是，引入了一种新颖的不确定性引导随机遮挡（UGRM）算法，它作为连接我们的不确定性量化和Transformer推理的桥梁，使UGT在训练过程中专注于困难（不确定）区域。03.我们的方法03.1.准备工作0任务设置和符号表示。根据[12, 29, 36,57]，我们将COD视为一个独立于类别的像素级分割任务。形式上，令I∈RH×W×3和C∈RH×W×1分别表示输入图像和输出伪装图。给定这样的一对大量的数据{Ii, Ci}Ni=1，0我们的任务是学习一个由权重Θ参数化的映射函数FΘ，可以正确地将新输入转换为相应的伪装图。对于每个像素（位置）po∈[1, H×W]，估计的分数cpo∈[0,1]反映了COD模型的预测，其中分数为'1'表示它属于伪装对象，反之亦然。我们的想法。与之前的方法[12, 29, 36,57]简单地将映射FΘ视为确定性过程不同，我们将其表述为概率-确定性过程的混合。我们认为，即使对于人类感知来说，去伪装过程通常充满不确定性，因此建模COD问题需要同时使用概率和确定性信息进行推理。方法概述。为了验证我们的想法，我们提出了一种新颖的不确定性引导变压器推理模型（UGTR）。如图2所示，UGTR包括三个主要组件：0• 不确定性量化网络（§3.2）。我们的不确定性量化网络（UQN），表示为Fθ，包含两个部分：特征提取器（骨干网络）Fθ1和概率模块Fθ2。对于Fθ1，它以RGB图像I∈RH×W×3作为输入，并产生特征嵌入F∈Rh×w×c：IFθ1→F。然后，Fθ2将骨干网络输出的方差建模为不确定性的度量。根据[24, 56]，我们将像素级分布建模为由均值图μ∈Rh×w×1参数化的高斯分布0和方差图σ∈Rh×w×1：FFθ2→(μ,σ)，并从分布中抽取K个样本（伪装图）以生成不确定性图。0• 原型变压器（§3.3）。我们的原型变压器（PT）Fδ作为一个辅助模块，用于学习和推理高级语义。它将F转换为t个语义原型：FFδ→X，其中X={x1,...,xt}∈Rt×c表示学习到的原型集合。我们期望我们全面挖掘的Sampleℱ!!ℱ!"3.2. Uncertainty Quantiﬁcation NetworkDistribution Modeling. We build our uncertainty quantiﬁ-cation network (UQN) Fθ as a probabilistic representationalmodel to measure uncertainty. Therefore, in this stage, whatFθ delivers for each pixel (e.g. the pixel p) is a distribu-tion parameterized by mean µp and variance σp instead of ascalar (e.g., a score). Following [23], we model the distribu-tion of outputs at each pixel as Gaussian. That is to say wethink of our UQN’s prediction as a random variable. We ex-pect that the camouﬂage score at the position p can be drawnfrom the learned distribution: cp ∼ N(µp, σp), where µpand σp are produced by UQN. As already observed by ex-isting works [15, 23, 24, 56], when we use random sampleto train Fθ, the error will not be propagated back from theoutput. To solve this problem, inspired by [26], we decom-pose the direct sampling operation into a trainable part anda random part. Speciﬁcally, we ﬁrst draw a sample ϵp fromthe standard Gaussian distribution N(0, I) randomly, i.e.,ϵp ∼ N(0, I), and then obtain the sample by computingµp + ϵpσp. By doing so, the gradients can be propagatedbackward to optimize the parameters θ.Network Architecture.To instantiate the formulationabove by neural network, we design our UQN by buildingtwo separate branches upon the underlying feature extractor(backbone) for µ and σ, respectively. As shown in Figure 3,our UQN includes two major parts: backbone Fθ1 and prob-abilistic module Fθ2. Concretely, given the input imageI ∈ RH×W ×3, the backbone Fθ1 is employed to obtain c-dimensional feature embeddings: F = Fθ1(I) ∈ Rh×w×c.Then, a two-branch probabilistic module Fθ2 further trans-fers F to µp and σp:µ = Fθ2µ(F),σ = Fθ2σ(F),(1)where µ ∈ Rh×w×1 and σ ∈ Rh×w×1 denote the meanmap and variance map, respectively. Moreover, a standardGaussian distribution N(0, I) is attached to make the entireprocess end-to-end differentiable.Distribution Learning Loss LDLL. To train our UQN,we design the following loss function LDLL, which isa weighted combination of a standard BCE loss and aKullback-Leibler (KL) divergence [26]:LDLL = LBCE(c(k), Cgt) + η · D(N(µ, σ) ∥ N(0, I))(2)where η means the combination weight which is set to be0.1 to emphasize model’s prediction, c(k) means a samplerandomly drawn from the learned distribution and Cgt de-notes the ground truth 1.Uncertainty Quantiﬁcation. To measure pixel-wise uncer-tainty, we can sample K initial camouﬂage maps from thelearned distribution, denoted as Cinit = {c(1), . . . , c(K)}.According to Bayesian probability theory [1,23,25,26], wecan simply treat Cinit as empirical samples from an approx-imate predictive distribution and measure how conﬁdent themodel is in its prediction by computing the variance:U = Norm(Var(Cinit)),(3)where U ∈ Rh×w×1 means the uncertainty map, Norm(·)is the mean-max normalization operation and Var(·) de-notes the operation of computing variance.3.3. Prototyping TransformerIn addition to the uncertainty, the high-level, global con-text information also plays a critical role in decamouﬂag-ing. However, for the task of camouﬂaged object detection,1 To promote diversity, we only draw one example to compute the loss.41490�(0, �)0�(0, �)0�(�, �)0�0�0量化0初始0估计0骨干0乘以0逐元素求和0图3：UQN的说明。UQN作为不确定性量化的概率模型，由骨干网络和概率模块组成。有关详细信息，请参见§3.2。0X可以用于辅助最终推理。0• 不确定性引导变压器（§3.4）。最后，我们的不确定性引导变压器（UGT）Fφ将F、X和U作为输入，并以序列到序列的方式生成COD的精炼特征˘ F∈R(h×w)×c：0(F, X,U)Fφ→˘F。为了增强上下文推理能力，特别是对于困难（不确定）区域，我们引入了一种基于不确定性引导的随机遮罩算法（UGRM）。它嵌入在UGT中，并由U引导，以确保在训练过程中更容易遮蔽掉难以检测的区域。因此，UGT被训练以增强其推断不确定信息的能力（通过充分探索上下文特征）。0所有以上组件共同工作，对上下文进行完全推理，并交付最终表示˘F，使整个去伪装过程涉及概率和确定性程序。为了实现最终的预测，˘ F可以通过一个读出函数Fout: ˘ F Fout →C轻松映射到C，该函数由一个重塑层、一个1×1卷积层和上采样层组成。在接下来的章节中，我们将详细介绍每个主要组件。Feed ForwardAdd & NormN×…Feed ForwardAdd & NormN×…XinitF෰𝐅…𝑽𝑲…the conventional techniques, such as global average pool-ing, are not reliable due to texture similarities between cam-ouﬂaged objects and the background. Thus, we tackle thisproblem using metric learning, and design a prototypingtransformer (PT), denoted as Fδ, to obtain representativeand discriminative prototypes X = {x1, . . . , xt} ∈ Rt×c.Generally, our PT is implemented in a visual transformerframework [8,47], as shown in Figure 4 (Top). The noveltyof PT lies in its prototyping procedure under the supervisionof a prototyping loss LPL. Importantly, unlike ACT [63]that groups the features using Locality Sensitive Hashing(LSH) to reduce the computation cost, our PT clusters allfeatures in an iterative manner to overcome ambiguity.Prototyping.Since our PT is based on transformer ar-chitecture, given feature embeddings F ∈ Rh×w×c, weﬁrst collapse the spatial dimensions of F into one dimen-sion, i.e., a c × hw feature map, and encode the posi-tional information with ﬁxed positional encodings [2] (de-noted as PF = {pf 1, . . . , pf hw}).Then, let us denoteV = {v1, . . . , vt} as a set of t learnable visual atomsstored in an external memory.Inspired by the expecta-tion–maximization (EM) algorithm [6], we employ an iter-ative strategy to get the initial prototypes Xinit. That is, weﬁrst ﬁx Xinit (initially, we set X(0)init = V), and computethe afﬁnity map A by:Ap,t =κxTf(6)41500�0�0�0加和和归一化0多头0自注意力0�0X0��0�0多头0自注意力0多头0交叉注意力0U~0~ 取反0乘法0图4：PT和UGT的示意图。PT捕捉高级语义，而UGT在底层特征上进行推理，以学习COD的最终表示。为简洁起见，未包含位置编码。有关详细信息，请参阅第3.3节和第3.4节。0e κx T t f p，(4)0x t =0其中 f p ∈ F表示第p个特征样本，x t ∈X表参并0� hw p =1 A p,t。 (5)0上述两个操作（方程4和方程5）将重复多次以找到聚类中心作为 X init。需要注意的是，视觉原子 V也通过反向传播训练进行优化。0Q i = X init W Q i，K i = X init W K i，V i = X init W V0第i个头 = 注意力(Q i, K i, V i)，0MH(Q, K, V) = Concat(Head 1, ..., Head M)，0多头自注意力。在前一步骤之后，我们可以得到表示给定场景的全局上下文的 t 个初始原型 Xinit。为了使这些原型更具辨别性，我们按照[66]的方法使用基于多头（自）注意力的多个变压器块2进行表示增强：0p xt =0在我们的实现中，使用了8个头，其中 W Q i ， WK i 和 W V i 是第i个头的可学习参数，Q i ， K i 和V i分别表示查询特征，键特征和值特征。注意，我们通过重新使用关联图 A 来计算原型级别的位置特征0将编码的原型位置添加到每个多头自注意力层的输入中，以学习最终的原型特征 X ∈ Rc ×T，其中携带重要的全局语义信息。原型损失 LPL。我们发现在PT的训练过程中使用辅助损失函数对原型进行推开是有帮助的。因此，我们定义了以下原型损失 L PL：0L PL = 0x i，x j ∈ X max((m − dist(x i，xj))，0)，(8)0其中m是预设阈值。LPL作为无监督的目标函数来训练我们的PT。03.4. 不确定性引导的Transformer0到目前为止，我们已经获得了初始特征F（§3.2），不确定性（困难）图U（§ 3.2）和判别原型X（§3.3）。现在，我们希望利用所有这些信息来学习COD的最终表示。为了实现这个目标，我们设计了一个新颖的模块，即不确定性引导的Transformer（UGT），充分利用所有信息并提供最终的表示。一般来说，如图4（底部）所示，我们的UGT与Transformer的标准架构一致，使用多头自注意力机制和交叉注意力机制来处理特征˘ F。形式上，我们的0每个transformer块由一个多头自注意力模块和一个前馈网络（FFN）组成。(9)LUGTR = LDLL + ηLPT + ωLBCE(10)41510CHAMELEON [46] CAMO-Test [29] COD10K-Test [12]0方法 S α ↑ E φ ↑ F w β ↑ M ↓ S α ↑ E φ ↑ F w β ↑ M ↓ S α ↑ E φ ↑ F w β ↑ M ↓02017 FPN † [31] 0.794 0.783 0.590 0.075 0.684 0.677 0.483 0.131 0.697 0.691 0.411 0.075 2017 MaskRCNN † [16] 0.643 0.778 0.518 0.099 0.574 0.715 0.430 0.1510.613 0.748 0.402 0.080 2017 PSPNet † [58] 0.773 0.758 0.555 0.085 0.663 0.659 0.455 0.139 0.678 0.680 0.377 0.080 2018 UNet++ † [65] 0.695 0.762 0.501 0.0940.599 0.653 0.392 0.149 0.623 0.672 0.350 0.086 2018 PiCANet † [34] 0.769 0.749 0.536 0.085 0.609 0.584 0.356 0.156 0.649 0.643 0.322 0.090 2019 MSRCNN † [20]0.637 0.686 0.443 0.091 0.617 0.669 0.454 0.133 0.641 0.706 0.419 0.073 2019 PoolNet † [33] 0.776 0.779 0.555 0.081 0.702 0.698 0.494 0.129 0.705 0.713 0.4160.074 2019 BASNet † [42] 0.687 0.721 0.474 0.118 0.618 0.661 0.413 0.159 0.634 0.678 0.365 0.105 2019 PFANet † [60] 0.679 0.648 0.378 0.144 0.659 0.622 0.3910.172 0.636 0.618 0.286 0.128 2019 CPD † [54] 0.853 0.866 0.706 0.052 0.726 0.729 0.550 0.115 0.747 0.770 0.508 0.059 2019 HTC † [3] 0.517 0.489 0.204 0.1290.476 0.442 0.174 0.172 0.548 0.520 0.221 0.088 2019 EGNet † [59] 0.848 0.870 0.702 0.050 0.732 0.768 0.583 0.104 0.737 0.779 0.509 0.056 2019 ANet-SRM [29] ‡‡ ‡ ‡ 0.682 0.685 0.484 0.126 ‡ ‡ ‡ ‡ 2020 MirrorNet [55] ‡ ‡ ‡ ‡ 0.741 0.804 0.652 0.100 ‡ ‡ ‡ ‡ 2020 PraNet [13] 0.860 0.898 0.763 0.044 0.769 0.833 0.663 0.0940.789 0.839 0.629 0.045 2020 SINet [12] 0.869 0.891 0.740 0.044 0.751 0.771 0.606 0.100 0.771 0.806 0.551 0.0510UGTR（我们的）0.888 0.918 0.796 0.031 0.785 0.859 0.686 0.086 0.818 0.850 0.667 0.0350表1：不同基准数据集上的定量结果。'†'表示GOD和SOD的SOTA方法。'↑'（或'↓'）表示数值越大（或越小）越好。最佳分数以粗体突出显示。0UGT F φ 接受 F ∈ R c × hw，U ∈ R 1 × hw和X ∈ R c × T0作为输入并产生˘ F ∈ R c ×hw作为输出。与PT的主要区别在于，我们将具有不确定性意识的特征F U = F � (1 −U)馈送到transformers中（�逐元素相乘），并在每个transformer块中添加交叉注意力层，以便将X用于表示学习：0˘ Q i = F U W ˘ Q i，˘ K i = X W ˘ K i，˘ V i = XW ˘ V i，˘ Head i = Attention (˘ Q i，˘ K i，˘ Vi)，˘ MH (Q, K, V) = Concat (˘ Head 1,..., ˘ HeadM)，0其中 ˘ Q i ，˘ K i 和 ˘ V i是可学习的参数。高层语义由交叉注意力层编码，以辅助逐像素的表示学习。不确定性引导的随机遮罩。我们引入了一种不确定性引导的随机遮罩（UGRM）算法，在训练过程中诱导我们的UGT专注于不确定（困难）区域。我们不采用广泛使用的随机遮罩技术，而是根据U为那些难以检测的区域分配更高的遮罩概率。形式上，我们将R表示为R ∈ R 1 ×hw。0作为一个随机概率图，其中 r p ∈ [0,1]。我们屏蔽掉那些与不确定性分数 u p 相关联的特征 f p∈ F U ，其中 u p > r p：u p > rp。UGRM比广泛使用的随机屏蔽策略[ 50]更可靠，因为它增加了训练样本的难度和多样性。通过这种方式，不确定性信息也被纳入到学习过程中，使我们的UGT能够更好地处理困难（不确定）区域。最后，UGT（˘F）的输出通过使用一个简单的读出函数 F out映射到最终的预测结果，该函数由一个reshape层、一个1×1卷积层和上采样层组成。我们完全装备的UGTR的损失函数是多个损失函数的组合：0其中 η 和 ω 是组合权重，L BCE 是UGT的标准BCE损失。04. 实验04.1. 实验设置0数据集。性能评估使用了三个公共基准数据集。CHAMELEON [ 46 ]是一个小型数据集，包含了76张高分辨率图像和像素级标签。CAMO [ 29 ]包含了2500张自然和人工伪装对象的图像，分为8个类别。COD10K [ 12 ]是最具挑战性的COD数据集，包含了10000张图像，有10个超类和78个子类，提供了图像级别和像素级别的注释。在我们的方法中，只使用像素级别的标签进行模型训练。评估指标。根据[ 12 , 29 , 36]，我们的实验使用了四个常用的评估指标：平均绝对误差（MAE），平均E度量（E φ）[11 ]，平均S度量（S α）[ 10 ]和F度量（F w β）[ 38]。训练设置。在训练过程中，底层骨干网络F θ 1 使用在ImageNet [ 27]上预训练的ResNet-50 [ 17 ]进行初始化，其余模块（即概率模块F θ 2 ，原型变换器F δ和不确定性引导变换器F φ ）进行随机初始化。根据常规实践[ 12 , 29]，我们对每个训练样本进行随机裁剪、左右翻转和缩放（范围为[0.75,1.25]）。我们使用随机梯度下降（SGD）和“poly”学习率策略训练UGTR模型：lr =base lr × (1 - iter/max iter)power。我们将UGRM仅用于训练阶段，以增强UGT在上下文推理方面的能力，以更好地处理不确定区域中的模糊性。测试设置。一旦训练完成，我们的UGTR可以应用于0max iter ) power。我们经验性地将基础学习率 base lr

下载后可阅读完整内容，剩余1页未读，立即下载