密集交叉查询和支持度注意力加权掩码聚合：少镜头分割的关键信息利用

184 浏览量更新于2023-12-01 收藏 5.41MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文用于少镜头分割的密集交叉查询和支持度注意力加权掩码聚合Xinyu Shi1人，Dong Wei2人，Yu Zhang1人，Donghuan Lu2人，Munan Ning2人，Jiashun Chen1人，Kai Ma2人，Yefeng Zheng2人东南大学计算机科学工程学院，计算机网络信息集成教育部中国南京{shixinyu，zhang yu，jiashunchen} @ seu.edu.cn腾讯Jarvis实验室，深圳，中国{donwei，caleblu，masonning，kylekma，yefengzheng} @ tencent.com抽象的。少镜头语义分割（ Few-Shot Semantic Segmentation ，FSS）的研究引起了人们的极大关注，其目标是在给定目标类的少量标注支持图像的情况下，从查询图像中分割出目标对象。完成这一具有挑战性的任务的关键是充分利用信息在支持图像中通过利用查询和支持图像之间的细粒度相关性。然而，大多数现有方法要么将支持信息压缩到几个类式原型中，要么使用部分支持信息（例如，仅前景），导致不可忽略的信息损失。在本文中，我们提出了密集像素交叉查询和支持的注意力加权掩模聚集（DCAMA），其中前景和背景支持信息都充分利用，通过多层次的像素之间的相关性，成对的查询和支持功能。在Transformer体系结构中，DCAMA采用缩放的点积注意力，将每个查询像素作为一个标记，计算其与所有支持像素的相似度，并将其分割标签预测为所有支持像素基于DCAMA的独特配方，我们进一步提出了高效和有效的一次推理的n镜头分割，其中所有支持图像的像素被收集的掩模聚合一次。实验表明，我们的DCAMA在PASCAL-5i，COCO-20i和FSS-1000的标准FSS基准测试中显着提高了最先进的水平，例如，与之前的最佳记录相比，1次注射mIoU的绝对改善分别为3.1%、9.7%和3.6%。消融研究也验证了DCAMA的设计关键词：少镜头分割·密集交叉查询和支持注意力·注意力加权掩码聚合。同等贡献，工作在腾讯Jarvis实验室完成†通讯作者。arXiv：2207.08549v1 [cs.CV] 2022年7+v：mala2255获取更多论文2倍。Shi等人1引言近年来，深度神经网络（DNN）在语义分割方面取得了显着进展[25，37]，这是计算机视觉的基本任务之一。然而，DNN的成功在很大程度上依赖于大规模的数据集，其中丰富的训练图像可用于每个目标类别进行分割。在极低数据的情况下，由于泛化能力差，DNN相反，人类能够在低数据场景中快速学习新任务，利用从生活经验中积累的先验知识[16]。少镜头学习（FSL）[11，12]是一种机器学习范式，旨在模仿人类学习者的这种泛化能力，其中模型可以快速适应仅给出几个示例的新任务。具体地说，支持集包含新的类与有限的样本给出了模型的适应，这是随后评估的查询集包含相同的类的样本。FSL在计算机视觉领域得到了积极的探索，例如图像分类[42]、图像检索[39]、图像字幕和视觉问题回答[8]以及语义分割[7，20，23，24，26，33，35，38，43，44，45，46，48，49，50]。在本文中，我们解决了少镜头语义分割（FSS）的问题。FSS的关键挑战是充分利用包含在小的支持集的信息。大多数以前的作品遵循原型的概念-ing[33]，其中支持图像中包含的信息通过类平均池化[44，48，50]或聚类[20，45]抽象为类原型，查询特征与之匹配以进行分割标签预测。最初提出的图像分类任务，但是，原型可能会导致在已经稀缺的样本中包含的宝贵信息的巨大损失时，应用于FSS。鉴于分割任务的密集性质，[24，43，47]最近提出探索查询特征和前景支持特征之间的像素相关性，避免原型设计中的信息压缩。然而，这些方法完全忽略了支持图像的背景区域所包含的丰富信息。Zhang等人[49]在计算像素级相关性时也考虑了背景支持特征;但他们只考虑了均匀采样支持像素的稀疏相关性，导致另一种潜在的信息丢失。因此，没有以前的工作已经充分研究了查询特征与前景和前景两者的密集像素相关性。FSS的后台支持功能在这项工作中，我们提出了密集像素交叉查询和支持注意加权掩码聚合（DCAMA）的FSS，它充分利用了所有可用的前景和背景特征的支持图像。如图1所示，我们做了一个关键的观察，查询像素的掩码值可以通过支持掩码值的加法聚合来预测，按其与相应支持图像像素的相似性按比例加权这是直观的：如果查询像素在语义上接近前景支持像素，则后者将投票支持前景作为前者的掩码值，反之亦然-度量学习的一个实施例-+v：mala2255获取更多论文关注重量小聚集大用于少镜头分割的密集注意加权掩码聚合3Fig. 1. 我们方法的概念概述。查询掩码是直接预测的支持掩码值，加权密集的交叉查询和支持的注意力，按像素加性聚合。ing [15]。此外，我们注意到，查询图像的所有像素的DCAMA计算流水线可以很容易地用Transformer架构[40]中的点积注意机制来实现，其中每个像素被视为令牌，所有查询像素的扁平化特征组成查询矩阵Q，所有支持图像像素的扁平化特征组成关键矩阵K，并且支持掩码像素的扁平化标签值组成值矩阵V。然后，查询掩码可以通过softmax（QKT）V容易且有效地计算。对于实际实现，我们遵循多头注意力[40]和多尺度[18]和多层[24]特征相关的常见实践;此外，将聚合掩码与跳过连接支持和查询特征混合，用于细化查询标签预测。正如我们将展示的那样，所提出的方法不仅比以前的最佳性能方法[24]具有更好的性能，而且在训练中也表现出更高的效率。此外，以前采用像素级相关性流水线的工作很少关注从1次分割到少数分割的扩展：他们要么执行单独的1次推断，然后进行集成[24]，要么使用均匀采样的支持像素的子集进行推断[49]。这两种解决方案都导致了像素级信息的丢失，这是由于在集成之前的独立推断和潜在有用像素的下降。相反，我们充分利用支持集，通过使用所有支持图像和掩码的所有像素来分别组成K和V同时，我们使用相同的单次训练模型在不同的少次设置中进行测试。这不仅在计算上是经济的，而且也是合理的，因为模型实际上从训练中学习的只要很好地学习了度量空间，从1次拍摄扩展到几次拍摄只是从更多支持像素聚合查询掩码。总之，我们做出了以下贡献：- 我们创新性地将FSS问题建模为密集像素交叉查询和支持注意力加权掩码聚合（DCAMA）的新范例，其充分利用了前景和背景支持，1注意：不要将FSL中的查询与Transformer中的查询混淆。+v：mala2255获取更多论文4倍。Shi等人阵本质上是度量学习的一个体现，该范式在掩码聚合中是非参数的，并且有望很好地推广。– 为了简单和高效，我们在Transformer中使用了开发良好的点积注意力机制来实现新的FSS范例。– 基于DCAMA，我们提出了一种方法，以n-镜头推理，不仅充分利用了可用的支持图像在像素级，但也是计算经济的，而不需要训练n-特定的模型为不同的几个镜头设置。在PASCAL-5 i [31]、COCO-20 i [26]和FSS-1000 [17]三个标准FSS基准上的比较实验结果表明，我们的DCAMA在所有三个基准以及1次和5次拍摄设置中设置了新的艺术状态。此外，我们进行了彻底的烧蚀实验，以验证DCAMA的设计。2相关工作语义分割语义分割是计算机视觉中的一项基本任务，其目标是将图像中的每一个像素划分到预定义的目标类别中。在过去的十年中，随着DNN的进步，已经取得了令人印象深刻的进展[25，37]。基石全卷积网络（FCN）[22]提出用卷积层取代分类网络中的全连接输出层，以有效地输出用于语义分割的像素级密集预测从那时起，流行的分段DNN模型[3，30，52]已经发展到由具有通用编码器-解码器架构的FCNs主导，其中通常采用跳过连接[30]和多尺度处理[4，52]最近，受VisionTransformer（ViT）[9]成功的启发，我们见证了将Transformer架构应用于语义分割的积极尝试激增[34，53]。值得注意的是，Swin Transformer是一种通用计算机视觉骨干，具有分层架构和移位的Win-Bit，在ADE20 K语义分割基准测试中实现了新的最先进（SOTA）性能[21]。尽管这些方法在大量训练数据的情况下证明了它们的能力，并启发了我们的工作，但它们都无法推广到低数据状态。少枪学习少样本学习[11]是一种旨在提高低数据下机器学习模型泛化能力的范式政权受开创性工作ProtoNet[33]的启发，大多数关于FSS的早期作品[7，20，44，45，48，50]都遵循度量学习[7]管道，其中包含支持图像被压缩成抽象原型，查询图像在度量空间中根据与原型的距离进行分类Dong和Xing[7]扩展了FSS的原型概念，通过对掩码支持图像的特征进行全局平均池化来计算类式原型。PANet[44]没有掩蔽输入图像，而是对用于原型设计的掩蔽支持特征执行平均池化，并引入原型对齐作为正则化。CANet[48]还依赖于掩码特征池+v：mala2255获取更多论文用于少镜头分割的密集注意加权掩码聚合5但遵循关系网络[36]使用DNN学习深度度量。PFENet[38]进一步提出了一个免训练的先验模板以及一个多尺度特征富集模块。意识到单个原型的有限表示能力，[5，20，45，46]都提出用多个原型表示一个类这些基于原型的方法共同推进了FSS的研究;然而，将支持图像中所有可用的信息压缩到仅仅一个或几个集中的原型中必然导致大量的信息丢失。最近，研究人员开始利用像素级信息进行FSS，以更好地利用支持信息并与任务的密集性保持一致。PGNet[47]和DAN[43]使用图形注意力[41]对查询和支持图像之间的像素到像素密集连接进行建模，而HSNet[24]构建了4D相关张量来表示查询和支持图像之间的密集对应关系。值得注意的是，HSNet提出了用于高效高维卷积的中心枢轴4D卷积，并在三个公共FSS基准上实现了SOTA性能。然而，这些方法都掩盖了支持图像中的背景区域，从而忽略了丰富的信息。相比之下，我们的DCAMA平等地利用了前期和背景信息。此外，通过多头注意力实现直接的度量学习[40]，我们的DCAMA比HSNet更容易训练，在更少的时期和更少的时间内收敛到更高的性能。最后，DCAMA不是单独的1-shot推断[24]的集合或训练n-特定模型[48]用于n-shot推断，而是用所有支持图像和掩模的像素构建键和值矩阵，并且仅重复使用1-shot训练模型进行一次推断。用于 FSS 的 Vision Transformers 受最近计算机视觉中 Trans-former架构的成功启发[9，21]，研究人员最近也开始探索其在FSS中的应用。Sun等人[35]提出采用标准多头自注意Transformer块进行全局增强。Lu等人。[23]设计了分类器权重Transformer（CWT），以动态适应每个查询图像的分类器然而，他们仍然遵循原型管道，因此没有充分利用细粒度的支持信息。周期一致性Transformer（CyCTR）[49]可能是与我们的工作最相关的工作：（i）使用点积注意机制的像素级交叉查询和支持相似性计算，以及（ii）使用前景和背景支持信息。主要区别在于，CyCTR使用相似性来指导从支持特征重构查询特征，然后通过传统的FCN将其分类为查询标签。相比之下，我们的DCAMA可以直接预测查询标签通过aggre- gating支持标签加权这种相似性，这是度量学习，并预计推广以及其非参数形式。另一个区别是，CyCTR对支持像素进行子采样，因此受到取决于采样率的潜在信息丢失的影响，而我们的DCAMA充分利用了所有可用的支持像素。+v：mala2255获取更多论文TDD dd转换块Conv Groupnorm ReLu混合器块转换ReLUConvReLu6倍。Shi等人按位置添加图二、拟议框架的管道，以1次拍摄设置显示。DCAMA：密集交叉查询和支持注意加权掩码聚合。3方法在本节中，我们首先介绍了少镜头语义分割（FSS）的问题设置。然后，我们描述了我们的密集交叉查询和支持Atten- tion加权掩码聚合（DCAMA）框架在1-shot设置。最后，我们扩展了n-shot推理的框架.3.1问题设置在形式定义中，1路n次FSS任务T包括支持集S={（Is，Ms）}，其中Is和Ms分别是支持图像及其地面真实掩码，以及|S|=n;类似地，查询集合Q={（I q，M q）}，其中S和Q是从同一类中采样的。目标是学习一个模型来预测给定支持集S的每个Iq的Mq，其中n对于少数镜头是小的。对于方法开发，假设我们有两个图像集D训练和测试，分别用于模型训练和评估，其中训练和测试在类中不重叠。我们采用了广泛使用的元学习范式，称为情景训练[42]，其中每个情景都旨在通过对训练集中的类和图像进行子采样来模拟目标任务具体来说，我们从模型训练中重复采样新的情景任务。使用片段有望使训练过程更忠实于测试环境，从而提高泛化能力[29]。为了测试，训练好的模型也是用情景任务进行评估，但从D测试中取样。3.2DCAMA单次学习概况. 我们的DCAMA框架的概述如图2所示。为了简单起见，我们首先描述我们的单次学习框架。框架的输入是查询图像、支持图像和掩码。首先，查询和支持图像都由预训练的特征提取器处理，产生多尺度查询和支持特征。与此同时，被下采样到与图像特征匹配的多个尺度。二是查询图像查询多层DCAMA块预训练特征提取器可·Y值共享权重支持图像查询预训练特征提取器关键多层DCAMA块值支撑掩模查询查询掩码关键多层DCAMA块混合器值上采样下采样转换块x3转换块x3转换块x3转换块x3上采样转换块x3跳过连接Concatenate跳过连接上采样Concatenate混频器块上采样混频器块上采样混频器块+v：mala2255获取更多论文我--联系我们∈∈∈我，我4我，我81632Q用于少镜头分割的密集注意加权掩码聚合7每个尺度下的查询特征、支持特征和支持掩码被输入到与Q、K和V相同尺度的多层DCAMA块，用于多头注意[40]和查询掩码的聚合。在多个尺度上聚合的查询掩码被处理并与卷积、上采样（如果需要）和逐元素添加相结合。第三，前一级的输出（多尺度DCAMA）通过跳过连接与多尺度图像特征级联，随后由混合器混合以产生最终的查询掩码。在下文中，我们将依次描述这三个阶段中的每一个，重点放在第二个阶段，这是我们的主要贡献。特征提取和掩模准备。首先，查询图像和支持图像都被输入到预训练的特征提取器以获得它们的多尺度多层特征图{F}和{Fs}，其中i是特征图相对于输入图像的比例，1111四、八、十六、三十二对于我们使用的特征提取器，并且l1，. . . ，L i是索引的所有层的特定规模i.与大多数以前的作品只使用每个比例尺的最后一层特征图，即，F i，Li，我们遵循Min等人[24]，也充分利用所有中间层特征。同时，通过双线性插值从原始支撑掩码生成不同尺度Ms查询特征、支持特征和尺度i∈{1，1，1}的支持掩码被输入到多层DCAMA块2，如下所述。多尺度多层交叉注意加权掩码聚合。缩放的点产品注意力是Transformer[40]架构的核心并且被公式化为：Attn（Q，K，V）=softmax.QKT（1）第一章其中Q、K、V是打包成矩阵的查询、键和值向量的集合，d是查询和键向量的维度。在这项工作中，我们采用Eqn。（1）跨查询和支持特征计算密集的逐像素注意力，并且随后用注意力值对来自支持掩码的查询掩码聚合过程进行加权。在不失一般性的情况下，我们用一对通用查询和支持度特征图Fq，Fs来描述该机制Rh×w×c，其中h、w和c分别是高度、宽度和通道数，以及相同大小的通用支持掩码MsRh×w×1。如图3所示，我们首先将二维（2D）输入平坦化以将每个像素视为令牌，然后在添加位置编码和线性投影之后从平坦化的Fq和Fs生成Q和K矩阵。我们遵循原始的Transformer[40]使用不同频率的正弦和余弦函数进行位置编码，并采用多头注意力。对于支撑掩模，只需要将其展平即可构成V形。在此之后，在Eqn中标准缩放点积注意力。（一）可以很容易地计算每个头部。最后，我们将多个hea ds的输出平均为ea ch到ken，并将张量重新分配到2D以获得MqRh×w×1，这是聚合查询掩码。备注。DCAMA过程的物理意义值得解释。对于特定的查询像素，QKT测量其与所有支持像素的相似性，并且随后与V相乘将其掩码值从2由于硬件限制，1尺度特征没有交叉参与+v：mala2255获取更多论文支持掩码[h，w，1]支持掩码[h，w，1]支持掩码[h，w，1]我我328我我，我816328倍。Shi等人图三. 密集交叉查询和支持注意力加权掩码聚合（DCAMA），用于通用n次拍摄设置（n≥ 1）。支持掩码，通过相似性加权。直觉上，如果它更相似-如果像素比背景像素更大（更接近）前景，则加权聚合过程将为像素的前景投票，反之亦然。通过这种方式，我们的DCAMA利用所有支持像素-前景和背景-进行有效的度量学习。在实际实现中，我们对查询支持单独进行DCAMA特征对（Fs，Fq）的所有中间层和最后一层的特定我，我，我缩放i，并连接独立聚合的查询掩码的集合以得到Mq=concat{Mq|l=1，. . . ，Li}。DCAMA对全层特征的评价一个特定的规模，其次是级联组成一个多层DCAMA块（见图。2），我们有三个这样的块尺度i ∈ {1，1，1}，分别为-蒂韦莱然后，通过逐渐增加其从L1到128的通道号，通过双线性插值进行上采样，通过逐元素加法与一次更大比例的对应物组合，并且再次由恒定通道号的另外三个Conv块进行处理。前三个组件使Mq能够与第二个三个Conv块的大尺度该过程重复从i=1到1，产生中间查询掩码的集合，与跳跃连接的图像特征融合以用于最终预测。面具功能混音器。受通用语义分割中跳过连接设计成功的启发[30，52]，我们还建议通过级联将图像特征跳过连接到前一阶段的输出（需要时进行上采样）（图1）。2）。具体来说，我们跳过连接最后一层要素，1和1尺度基于我们的经验实验（包括在柔软，4 8材料）。然后，连接的中间查询掩码和图像特征由三个掩码-特征混合器块融合，每个块包含两个系列的卷积和ReLU操作。混合器块逐渐减小正性编码查询特征[h，w，c]n支持特征Su[hp，pwor，tcf]特征正性编码S[hp，pwor，tcf]特征S[hp，pwor，tcf]特征Su[hp，pwor，tcf]特征[h，w，n支持掩码[h，w，1]支持掩码[h，w，1]输出[h，w，1]展平[n*h*w，展平[h*w，展平[n*h*w，线性（c，c）线性（c，c）重复[heads，重塑[heads，n*h*w，c/heads]重塑[heads，h*w，c/heads]V【人头，n*h*w，1】Q[heads，h*w，c/heads]K[heads，n*h*w，c/heads]关注权重Q·KT【头，h*w，n*h*w】Malmul[heads，平均值[h*w，重塑[h，w，1]+v：mala2255获取更多论文用于少镜头分割的密集注意加权掩码聚合9将输出通道数设置为2（分别用于前景和背景），以进行单路分割，并使用两次交错上采样操作将输出大小恢复为输入图像的大小。3.3n-镜头推理的扩展到目前为止，我们已经介绍了我们的DCAMA框架的1杆分割，下一步我们扩展它的n杆设置，太。虽然可以为每个不同的n值开发和训练特定的模型（例如，[48]），这在计算上是禁止的。相比之下，许多先前的工作扩展了用于n次推理的1次训练模型，而没有再训练[24，38，46]。最常见的方法是分别对每个支持图像执行n个单次推理，然后对单个推理进行一定的集成[24，46]。然而，这种方法不可避免地丢失了跨支持图像的像素级细微线索，因为它独立地处理每个支持图像以进行推断。在这项工作中，为了计算效率，我们还将1次训练的模型用于n次推理，但同时在推理过程中同时利用所有支持图像的所有像素由于DCAMA的问题公式化，扩展是直接的。首先，我们获得多尺度图像特征和所有支持图像的掩模。接下来，我们简单地将额外支持特征和掩码中的额外像素视为K和V中的更多标记，并对张量进行适当的整形（图3）。然后，整个DCAMA过程（交叉注意，掩模聚集等）保持与单次拍摄设置相同。这是可行的，因为DCAMA的核心是Eqn中的缩放点积注意力。（1），它是无参数的。因此，DCAMA过程实际上是n不可知的，并且可以应用于具有任意n的推理。3直观地，查询像素的标签由所有可用的支持像素一次共同确定，而不管支持图像的确切数量这种一遍推理与个体推理的集合不同，在个体推理中，首先独立地利用每个支持图像获得图像级预测它也不同于一些基于原型的n次拍摄方法[7，45]，其中所有支持图像的特征被同时处理，但被压缩到一个或几个原型中，从而失去像素级粒度。最后，次要的调整是跨支持图像最大池化跳过连接的支持特征，使得图2中所示的整个DCAMA框架变得适用于通用的n次拍摄设置，其中n≥1。4实验和结果数据集和评估。我们在三个标准FSS基准上评估了所提出的方法：PASCAL-5 i[31]，COCO-20 i[26]和FSS-1000 [17]。PASCAL-5i由PASCAL VOC 2012[10]和SDS[13]数据集创建它包含203尽管如此，训练n个特定模型以n >1，考虑到时间和GPU内存因素。+v：mala2255获取更多论文D使用熵损失：LBCE=−1L[ylogp+（1−y）log（1−p）]，其中N是N10X. Shi等人类，这是均匀分为四折，即，每折五节课COCO-20i是从COCO[19]数据集创建的更大且更具挑战性的基准它包括80个类，再次平均分为四个折叠。对于PASCAL-5 i和COCO-20 i，通过交叉验证进行评估，其中依次选择每个折叠作为D测试，其他三个折叠作为D训练;从测试中随机抽取1，000个测试事件进行评估[24]。FSS-1,000 [17]包括1,000个类，分别分为520、240和240个类的训练、验证和测试部分，从测试部分中抽取2,400个测试集进行评估[24]。对于度量，我们采用联合平均交集（mIoU）和前景-背景IoU（FB-IoU）[24]。对于PASCAL-5i和COCO-20i，报告了单个折叠上的mIoU以及折叠上的平均mIoU和请注意，我们试图遵循以前的作品[24，26，38，49]采用的常见做法进行公平比较。实施细节。所有实验都是使用PyTorch进行的。[28]框架（ 1.5.0）。对于主干特征提取器，我们使用 ResNet-50和ResNet-101[14]在ImageNet[6]上预训练，因为它们在以前的作品中普遍采用。4此外，我们还使用在ImageNet-1 K[21]上预训练的基础SwinTransformer模型（Swin-B）进行了实验，以评估我们的方法在非卷积主干上的推广我们使用三个多层分别为1、1和1级的DCAMA阻滞，导致三个锥体8 16 32交叉注意加权掩码聚合的水平除非另有说明，1和1尺度的最后一层特征是跳跃连接的。的输入大小4 8b.支持和查询图像的像素数为384×384。平均二元交叉-像素的总数，y∈ {0， 1}是像素标签（0表示背景，1表示背景）。对于前景），并且p是预测概率。我们只对最终输出施加BCE来训练我们的模型，并冻结主干参数。使用SGD优化器，学习率、动量和权重衰减分别设置为10−3、0.9和10−4PASCAL-5 i、COCO-20 i和FSS-1000的批量大小分别设置为48、48和40。我们遵循HSNet [24]在没有数据增强的情况下训练我们的模型，直到收敛，以便与以前的最佳性能方法进行公平比较。训练是在四个NVIDIA Tesla V100 GPU上完成的，推理是在NVIDIA Tesla T4 GPU上完成的。我们的代码可在https://github.com/pawn-sxy/DCAMA.git上获得。4.1与最新技术在表1和表2中，我们分别比较了我们提出的DCAMA框架与自2020年以来在PASCAL- 5i，COCO-20i和FSS-1000上发布的FSS SOTA方法的性能除非另有说明，其他方法的报告数量来自原始论文;当有不同骨架的结果时，我们报告更高的方法只是为了节省空间。4虽然有几个作品（例如，[38]）报告了ResNet-50和ResNet-101的优越性能，VGG-16[32]在之前的FSS工作中大多产生了比ResNet系列更差的性能因此，我们在实验中不包括VGG-16+v：mala2255获取更多论文用于少镜头分割的密集注意加权掩码聚合11表1. PASCAL-5 i（上图）和COCO-20 i（下图）上的性能。HSNet：我们基于官方代码的重新实现; HSNet：实现点积注意力的方法[40]。粗体和带下划线的数字分别突出每个骨架的最佳和次佳性能（如果需要）。PASCAL-5i[31]骨干方法类型单次拍摄5次射击折叠-0折叠-1折叠-2折叠-3MiouFB-IoU 折叠-0折叠-1折叠-2折叠-3MiouFB-IoUResNet-50PPNet[20]PMM[45]RPMM[45]RePRI[2]PEFNet[38]标准普尔[46][35]第三十五话原型52.752.055.259.861.763.062.962.867.566.968.369.570.070.757.451.552.662.155.456.556.547.749.850.748.556.357.757.555.2（5.6）55.2（7.2）56.3（6.3）59.7（7.2）60.8（5.6）61.8（5.3）61.9（5.6）----73.371.9-60.355.056.364.663.164.565.070.068.267.371.470.770.971.269.452.954.571.155.857.355.560.751.151.059.357.958.760.965.1（4.6）56.8（6.7）57.3（6.1）66.6（5.0）61.9（5.7）62.9（5.4）63.2（5.7）----73.972.8-DCAMA（Ours）逐像素 67.572.359.659.064.6（5.6）75.770.573.963.765.868.5（4.0）79.5ResNet-101[23]第二十三话DOG-LSTM[1]原型56.957.065.267.261.256.148.854.358.0（6.1）58.7（5.0）--62.657.370.268.568.861.557.256.364.7（5.2）60.9（4.8）--丹麦[43][49]第四十九话HSNet[24]DCAMA（Ours）逐像素54.769.367.365.468.672.772.371.457.856.562.063.251.658.663.158.358.2（6.4）64.3（6.9）66.2（4.1）64.6（4.7）71.9-77.677.657.973.571.870.769.074.074.473.760.158.667.066.854.960.268.361.960.5（5.3）66.6（7.2）70.4（2.9）68.3（4.4）72.3-80.680.8Swin-B[24]第二十四话DCAMA（Ours）逐像素67.972.274.073.860.364.367.067.167.3（4.9）69.3（3.8）77.978.572.275.777.577.164.072.072.674.871.6（4.8）74.9（1.8）81.282.9COCO-20i[26]ResNet-50PPNet[20]PMM[45]RPMM[45][35]第三十五话RePRI[2]原型36.529.329.531.831.226.534.836.834.938.126.027.128.936.433.319.727.327.031.433.027.2（6.0）29.6（3.1）30.6（3.7）33.6（2.1）34.0（2.6）-----48.933.033.835.438.531.440.642.041.746.236.030.333.042.340.030.633.333.336.143.636.7（7.3）34.3（3.8）35.5（3.7）38.9（3.1）42.1（3.0）-----[49]第四十九话DCAMA（Ours）逐像素38.941.943.045.139.644.439.841.740.3（1.6）43.3（1.5）-69.541.145.948.950.545.250.747.046.045.6（2.9）48.3（2.3）-71.7ResNet-101[23]第二十三话标准普尔[46]PEFNet[38]原型30.336.436.836.638.641.830.537.538.732.235.436.732.4（2.5）37.0（1.2）38.5（2.1）--63.038.538.940.446.740.546.839.441.543.243.238.740.542.0（3.3）39.9（1.2）42.7（2.6）--65.8丹麦[43]HSNet[24]DCAMA（Ours）逐像素-三十七点二41.5-44.146.2-四十二点四45.2-41.341.324.4（-）41.2（2.5）43.5（2.2）62.369.169.9-四十五点九48.0-53.058.0-51.854.3-47.147.129.6（-）49.5（3.0）51.9（4.5）63.972.473.3Swin-B[24]第二十四话DCAMA（Ours）逐像素43.649.549.952.749.452.846.448.747.3（2.5）50.9（1.8）72.573.250.155.458.660.356.759.955.157.555.1（3.2）58.3（2.0）76.176.9最重要的是，我们的方法非常有竞争力：它在mIoU和FB-IoU方面实现了几乎所有骨干网络（ResNet-50，ResNet-101和Swin-B）组合的最佳性能，并且在所有三个基准数据集上进行了少量设置（1次和唯一的例外是使用 ResNet-101 的 PASCAL-5i ，其中我们的 DCAMA 和HSNet[24]在1次和5次拍摄设置中共享mIoU和FB-IoU的前两名，具有相当的性能。当采用Swin-B作为主干特征提取器时，DCAMA在所有三个基准上的系统级SOTA都比之前的三个基准SOTA HSNet（ResNet-101）有显著的进步，例如，在PASCAL-5i上分别增加3.1%（1次注射）和4.5%（5次注射），在COCO-20i上分别增加 9.7%和8.8%，在FSS-1000上分别增加3.6%和1.9%。第二，虽然HSNet的性能随着Swin-B骨干而改善，但仍然遭受相对于DCAMA的mIoU的2-3.6%（1次）和1.5-3.3%（5次）的可考虑的缺点此外，我们的DCAMA也比HSNet在褶皱上更稳定，观察到较低的标准偏差。这些结果表明DCAMA的适用性卷积和注意力为基础的骨干。第三，基于逐像素相关性的方法+v：mala2255获取更多论文（DAN除外[43]）的性能通常优于基于原型的方法，这证实了将细粒度像素级信息用于FSS任务最后，值得注意的是，我们的DCAMA+v：mala2255获取更多论文查询预测12倍。Shi等人表2. 在FSS-1000上的性能[17]。HSNet：我们基于官方代码的重新实现。粗体和带下划线的数字分别突出显示每个主干的最佳和次佳性能（如有必要）。骨干方法类型单次拍摄5次射击mIoU FB-IoU mIoU FB-IoUResNet-50DCAMA（我们的）逐像素88.292.588.892.9DOG-LSTM [1]原型80.8-83.4-ResNet-101丹麦[43]HSNet[24]逐像素85.2-86.5-88.1-88.5-DCAMA（我们的）88.3九十二点四89.1九十三点一Swin-B[24]第二十四话逐像素86.791.888.993.2DCAMA（我们的）90.193.890.494.1（a）（b）图四、（a）在存在类内变化、尺寸差异、复杂背景和遮挡的情况下，在单次激发设置中对 PASCAL-5 i的定性结果。(b) 多尺度中间查询掩码由多层DCAMA块聚合，用于从PASCAL-5i采样的单次任务。证明了与其他三种方法（CWT [23]，TRFS [35]和CyCTR [49]）相比的一致优势，这些方法也实现了Transformer [40]的点积注意力。图4（a）显示了DCAMA在挑战性情况下的一些分割结果。更多的结果和可视化，包括区域方面的过度分割和欠分割措施[51]，在补充材料中给出。备注。虽然表1中的三种性能最好的方法（HSNet[24]， CyCTR[49]和我们的）都依赖于像素级的交叉查询和支持相似性，但它们的查询标签推理的基本概念是完全不同的，值得澄清。HSNet根据相似度预测查询标签查询像素与所有前景支持像素的相似性（同时忽略背景）;直观地，查询像素与前景支持像素越相似，其越可能是前景。CyCTR首先基于与前景和背景支持像素的子集的相似性从支持特征重构查询特征，然后在重构的查询特征上训练分类器。我们的DCAMA直接聚合来自支持掩码由查询像素与所有支持像素的相似性加权代表着一个完全不同的概念。训练和推理效率。我们将我们的方法的训练效率与HSNet的训练效率进行了比较[24]。由于这两种方法对于逐像素相关性都产生O（N2）的计算复杂度，因此它们也花费相当的时间用于每个时期的训练（例如，在COCO-20i）上使用我们的硬件和培训设置大约需要四分钟。然而，如图5所示，我们的方法需要更少的训练时间来收敛。因此，我们的DCAMA地面实况支持集地面实况查询预测支持集+v：mala2255获取更多论文我168321632111用于少镜头分割的密集注意加权掩码聚合130倍403020折叠-150403020折叠-2504030折叠-3403020100 100 200300时代0 100 200300时代200 100 200300时代0 100 200 300时代图五. 在COCO-20上训练期间，验证集上的mIoU曲线为：HSNet[24]的曲线是用作者发布的官方代码生成的80706050403020100见图6。由多层DCAMA块聚合的多尺度中间查询掩码的性能和最终预测（PASCAL-5 i上的1次）。在训练时间方面也更有效，除了实现比以前的SOTA方法HSNet更高的性能之外。至于推理，DCAMA以与使用相同主干的HSNet相当的速度运行，例如，关于在入门级NVIDIA Tesla T4 GPU上，分别使用Swin-B和ResNet-101实现每秒8帧和20帧（FPS）的单镜头分割。相比之下，CyCTR[49]使用ResNet-50主干以约3 FPS运行。4.2消融研究我们对PASCAL-5 i [31]数据集进行了彻底的消融研究，以更深入地了解我们提出的DCAMA框架并验证其设计。Swin-B[21]用作消融研究的主干特征提取器。由多层DCAMA块聚合的中间查询掩码。我们首先验证所提出的掩码聚合范例的物理意义，通过验证多层DCAMA块的输出（图3）是有意义的分类。为此，我们将Mq尺度i ∈ {的层维数，、}，用Otsu的二进制化和方法[27]，并调整结果掩模的大小，以根据地面实况进行用于单镜头分割。如图6，1级掩模的mIoU和FB-IoU相当高，接近表1中的一些比较方法。同时，1和1尺度掩模的那些要低得多，这可能是-原因：18

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

密集交叉查询和支持度注意力加权掩码聚合：少镜头分割的关键信息利用

联合学习python加权聚合

利用ifconfig命令配置的IP 地址、子网掩码等信息和利用nmcli及编辑/etc/syscofig/network-scripts/if-eth0 文件配置的IP 地址、子网掩码和默认网关等信息有什么不同？

关联规则的最小支持度怎么确定

请用pytorch解释注意力机制

如何理解Apriori算法的支持度和置信度

如何利用Apriori算法找出数据所有2项集，并计算他们的支持度和置信度。

ipv6地址掩码计算工具

java es 聚合查询

怎样样使保存的掩码图像应该与原始图像具有相同的尺寸和像素值范围，以便后续处理和分析。

ES 按条件聚合查询

语义分割算法发展脉络

分库分表之后怎么实现聚合查询

元素的支持度： <4>：4 <5>：3 <6>：4 <7>：3 <8>：1 请用AprioriSome算法找出大序列，假定最小支持度为40%

医学图像分割的课题来源

coco数据格式的关键点

elasticsearch聚合查询

OSPF的特点有哪些？

torch的注意力机制模块

最新资源