密集交叉查询与支持度注意力加权掩码聚合:提升少镜头分割性能

0 下载量 29 浏览量 更新于2024-06-19 收藏 5.41MB PDF 举报
"密集交叉查询和支持度注意力加权掩码聚合:少镜头分割的关键信息利用" 本文探讨了少镜头语义分割(Few-Shot Semantic Segmentation, FSS)中的一个重要问题,即如何有效地利用有限的支持图像信息来提高查询图像的目标分割性能。在FSS任务中,目标是从仅提供少量标注支持图像的情况下,对查询图像中的目标对象进行精确分割。现有的FSS方法通常存在信息损失的问题,要么压缩支持信息至简单的原型,要么仅关注部分支持信息。 为此,研究者们提出了密集像素交叉查询和支持的注意力加权掩码聚集(Dense Cross-Query and Support Attention Weighted Mask Aggregation, DCAMA)。DCAMA是一种新颖的机制,它不仅考虑了支持图像的前景信息,还同时利用了背景信息,通过多层像素间的相关性,实现了查询和支持特征之间的细致匹配。在Transformer架构中,DCAMA利用缩放的点积注意力,让每个查询像素与所有支持像素建立联系,计算它们之间的相似度,并基于这些相似度进行分割标签的预测。 为了进一步提升效率和效果,论文还介绍了一种一次推理的n镜头分割方法,一次性聚合所有支持图像的像素,形成掩模。实验结果显示,DCAMA在PASCAL-5i、COCO-20i和FSS-1000等标准FSS基准测试上显著提升了性能,与之前最佳记录相比,1次注射的mIoU分别提高了3.1%、9.7%和3.6%。此外,消融研究验证了DCAMA设计的有效性。 关键词涉及到的技术包括:少镜头分割、密集交叉查询、支持度注意力、注意力加权掩码聚合。这项工作由东南大学计算机科学工程学院和腾讯Jarvis实验室的科研人员共同完成,其中作者对DCAMA的贡献是平等的。 DCAMA是一种创新的FSS技术,通过充分挖掘支持图像的上下文信息,提升了少镜头语义分割的准确性和效率,对于未来相关领域的研究具有重要指导意义。