密集交叉查询与支持度注意力加权掩码聚合：提升少镜头分割性能

29 浏览量更新于2024-06-19 收藏 5.41MB PDF 举报

"密集交叉查询和支持度注意力加权掩码聚合：少镜头分割的关键信息利用" 本文探讨了少镜头语义分割（Few-Shot Semantic Segmentation, FSS）中的一个重要问题，即如何有效地利用有限的支持图像信息来提高查询图像的目标分割性能。在FSS任务中，目标是从仅提供少量标注支持图像的情况下，对查询图像中的目标对象进行精确分割。现有的FSS方法通常存在信息损失的问题，要么压缩支持信息至简单的原型，要么仅关注部分支持信息。为此，研究者们提出了密集像素交叉查询和支持的注意力加权掩码聚集（Dense Cross-Query and Support Attention Weighted Mask Aggregation, DCAMA）。DCAMA是一种新颖的机制，它不仅考虑了支持图像的前景信息，还同时利用了背景信息，通过多层像素间的相关性，实现了查询和支持特征之间的细致匹配。在Transformer架构中，DCAMA利用缩放的点积注意力，让每个查询像素与所有支持像素建立联系，计算它们之间的相似度，并基于这些相似度进行分割标签的预测。为了进一步提升效率和效果，论文还介绍了一种一次推理的n镜头分割方法，一次性聚合所有支持图像的像素，形成掩模。实验结果显示，DCAMA在PASCAL-5i、COCO-20i和FSS-1000等标准FSS基准测试上显著提升了性能，与之前最佳记录相比，1次注射的mIoU分别提高了3.1%、9.7%和3.6%。此外，消融研究验证了DCAMA设计的有效性。关键词涉及到的技术包括：少镜头分割、密集交叉查询、支持度注意力、注意力加权掩码聚合。这项工作由东南大学计算机科学工程学院和腾讯Jarvis实验室的科研人员共同完成，其中作者对DCAMA的贡献是平等的。 DCAMA是一种创新的FSS技术，通过充分挖掘支持图像的上下文信息，提升了少镜头语义分割的准确性和效率，对于未来相关领域的研究具有重要指导意义。

+v：mala2255获取更多论

文

用于少镜头分割的密集注意加权掩码聚合5

但遵循关系网络[36]使用DNN学习深度度量。PFENet[38]进一步提出

了一个免训练的先验模板以及一个多尺度特征富集模块。意识到单个

原型的有限表示能力，[5，20，45，46]都提出用多个原型表示一个类

这些基于原型的方法共同推进了FSS的研究;然而，将支持图像中所有

可用的信息压缩到仅仅一个或几个集中的原型中必然导致大量的信息

丢失。

最近，研究人员开始利用像素级信息进行FSS，以更好地利用支持信

息并与任务的密集性保持一致。PGNet[47]和DAN[43]使用图形注意力[41]

对查询和支持图像之间的像素到像素密集连接进行建模，而HSNet[24]构

建了4D相关张量来表示查询和支持图像之间的密集对应关系。值得注意

的是，HSNet提出了用于高效高维卷积的中心枢轴4D卷积，并在三个公

共FSS基准上实现了SOTA性能。然而，这些方法都掩盖了支持图像中的

背景区域，从而忽略了丰富的信息。相比之下，我们的DCAMA平等地

利用了前期和背景信息。此外，通过多头注意力实现直接的度量学习

[40]，我们的DCAMA比HSNet更容易训练，在更少的时期和更少的时间

内收敛到更高的性能。最后，DCAMA不是单独的1-shot推断[24]的集合或

训练

-特定模型[48]用于

-shot推断，而是用所有支持图像和掩模的像素

构建键和值矩阵，并且仅重复使用1-shot训练模型进行一次推断。

用于

FSS

的

Vision Transformers 受最近

计算机视觉中 Trans-

former架构的成功启发[9，21]，研究人员最近也开始探索其在FSS中

的应用。Sun等人[35]提出采用标准多头自注意Transformer块进行全局

增强。Lu等人。[23]设计了分类器权重Transformer（CWT），以动态

适应每个查询图像的分类器然而，他们仍然遵循原型管道，因此没有

充分利用细粒度的支持信息。周期一致性Transformer（CyCTR）[49]

可能是与我们的工作最相关的工作：（i）使用点积注意机制的像素

级交叉查询和支持相似性计算，以及（ii）使用前景和背景支持信

息。主要区别在于，CyCTR使用相似性来指导从支持特征重构查询特

征，然后通过传统的FCN将其分类为查询标签。相比之下，我们的

DCAMA可以直接预测查询标签通过aggre- gating支持标签加权这种相

似性，这是度量学习，并预计推广以及其非参数形式。另一个区别

是，CyCTR对支持像素进行子采样，因此受到取决于采样率的潜在信

息丢失的影响，而我们的DCAMA充分利用了所有可用的支持像素。

+v：mala2255获取更多论

文

D d

转换块

Conv Group

norm ReLu

混合器块转

换

ReLU

Conv

ReLu

6倍。Shi等人

按位置添加

图二、拟议框架的管道，以1次拍摄设置显示。DCAMA：密集交叉查询

和支持注意加权掩码聚合。

方法

在本节中，我们首先介绍了少镜头语义分割（FSS）的问题设置。然

后，我们描述了我们的密集交叉查询和支持Atten- tion加权掩码聚合

（DCAMA）框架在1-shot设置。最后，我们扩展了n-shot推理的框架.

3.1

问题设置

在形式定义中，1路

次FSS任务

包括支持集

{

（

，

）

}

，其中

和

分别是支持图像及其地面真实掩码，以及

;类似地，查询集合

{

（

，

）

}

，其中

和

是从同一类

中采样的。目标是学习一个模型来预测给定支持集

的每个

的

，

其中

对于少数镜头是小的。对于方法开发，假设我们有两个图像集

训练

和

测试

，分别

用于模型训练和评估，其中

训练

和

测试

在

类中

不重叠。我们采用了广泛使用的元学习范式，称为情景训练

[42]，其中每个情景都旨在通过对训练集中的类和图像进行子采样来

模拟目标任务具体来说，我们从

模型

训练中重复

采样新的情景任务。使用片段有望使训练过程更忠实于测试环境，从

而提高泛化能力[29]。为了测试，训练好的模型也是

用情景任务进行评估，但从

测试中取样

。

3.2 DCAMA

单次学习

概况

. 我们的DCAMA框架的概述如图2所示。为了简单起见，我们首先

描述我们的单次学习框架。框架的输入是查询图像、支持图像和掩码。

首先，查询和支持图像都由预训练的特征提取器处理，产生多尺度查询

和支持特征。与此同时，被下采样到与图像特征匹配的多个尺度。

二是

查询图像

查询

多层

DCAMA

块

预训练特

征提取器

可·Y

值

共享权重

支持图像

查询

预训练特

征提取器

关键

多层

DCAMA

块

值

支撑掩模

查询

查询掩码

关键

多层

DCAMA

块

混合器

值

上采样

下采样

转换块

上采样

转换块

跳过连接

Concatenate

跳过连接

上采样

Concatenate

混频器块

上采样

混频器块

上采样

混频器块

剩余25页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

密集交叉查询与支持度注意力加权掩码聚合：提升少镜头分割性能

联合学习python加权聚合

利用ifconfig命令配置的IP 地址、子网掩码等信息和利用nmcli及编辑/etc/syscofig/network-scripts/if-eth0 文件配置的IP 地址、子网掩码和默认网关等信息有什么不同？

关联规则的最小支持度怎么确定

请用pytorch解释注意力机制

如何理解Apriori算法的支持度和置信度

如何利用Apriori算法找出数据所有2项集，并计算他们的支持度和置信度。

ipv6地址掩码计算工具

java es 聚合查询

怎样样使保存的掩码图像应该与原始图像具有相同的尺寸和像素值范围，以便后续处理和分析。

最新资源