上下文亲和性Transformer用于少镜头分割的支持引导上下文信息传播

196 浏览量更新于2024-02-04 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文CATrans：用于少镜头分割的张山1人，吴天一2人，3人，吴四通2人，3人，郭国栋2人，3人†1澳大利亚国立大学，堪培拉，澳大利亚2百度研究院深度学习研究所，北京，中国3深度学习技术及应用国家工程实验室，北京，中国Shan. anu.edu.au，wusitong98@gmail.com，{wutianyi 01，guoguodong 01} @ baidu.com摘要少镜头分割（FSS）的目的是分割新的类别给稀缺的注释支持图像。FSS的关键是如何聚合支持度和查询图像之间的密集相关性以进行查询分割，同时对外观和上下文的大变化具有鲁棒性。为此，以前的基于transformer的方法explore全球共识，无论是在上下文相似性或亲和映射之间的支持查询对。在在这项工作中，我们通过提出的新的上下文和亲和性Transformer（CATrans）在一个层次结构中有效地集成了上下文和亲和性信息具体而言，基于更多信息的支持特征的支持引导上下文Transformer（RCT）将上下文信息从支持传播到查询图像根据观察，一个巨大的特征区别（d）其他事项解码器分类器矩阵乘法Transformer模块串联图1：与不同的基于transformer的少镜头分割方法的比较。红色和蓝色的方形阴影表示分别为xxt（C）和fxt（A[）聚集。（a）类别─在支持和查询对之间存在障碍FierWeight Transformer Lu et al. ，2021]。（b）周期一致性对于上下文知识转移，上下文引导的亲和性Transformer（RAT）测量注意感知亲和性作为用于FSS的辅助信息，其中自亲和性负责更可靠的交叉亲和性。我们进行实验，以证明所提出的模型的有效性，优于国家的最先进的方法。1介绍近年来，全监督语义分割取得了巨大的进展[Longetal. ，2015;Linetal. ，2017]。然而，这些方法严重依赖于大量的逐像素注释，这需要大量的手工劳动，并且不能推广到具有少量注释的新类。相反，人类即使没有什么指导也能识别一个新的类别.受此启发，少镜头分割（FSS）最近在计算机视觉界受到越来越多的关注[Wanget al. ， 2019;Zhanget al. ， 2019b;Zhanget al. ，2020]。百度深度学习研究院实习生†通讯作者Transformer[Zhang et al. ，2021]。（c）成本聚合Transformer[Cho et al. ，2021]。(d)我们的上下文和亲和性Transformer，具有引导上下文的 Transformer （ RCT ）和引导亲和性的Transformer（RAT）。FSS的目标是分割查询图像中的新类，条件是给定的支持集，其中只包含少数支持图像和相应的地面真理面具。一个根本的挑战是支持查询对之间的大类内外观和几何变化，因此关键问题是如何有效地推理配对样本的关系。大多数 FSS 方法 [Choet al. ， 2021;Zhanget al. ，2021;Luet al. #20201;学的学习模式。具体地说，从查询和支持图像中提取特征，然后通过特征匹配过程将支持掩码传递到查询图像。基于卷积神经网络（CNN）的方法[Wanget al. ，2019;Yanget al. ，2020;Liuet al. ，2020]将支持图像中的掩蔽对象特征压缩成单个或几个原型。最近，一些方法引入基于transformer的架构来建立支持-查询对之间的像素级匹配分数，包括两个主要技术路线，即，上下文和亲和力。由于密集上下文信息有利于FSS任务，布勒姆RCT布里斯伊什&⊚伊��阿格纳斯&⨂伊⨂��&&大鼠伊什&分类器权重伊什伊什（一）伊什&✔&&伊什&⨂伊（c）第（1）款arXiv：2204.12817v1 [cs.CV] 2022年4月+v：mala2277获取更多论文特别是当支持和查询集中存在较大的类内方差时，[Luetal. ，2021]提出了分类器权重Transformer（CWT），以动态地将在支持集上训练的分类器的权重适应于每个查询图像，如图1（a）所示。[Zhanget al. ，2021]经由用于自对准和交叉对准的Transformer块聚集查询图像内和支持-查询对之间的上下文信息，如图1（b）所示。然而，这种方法的缺点是支持度特征不具有代表性，这促使我们提出了基于掩码的上下文Transformer（RCT），其中支持度的全局上下文信息可以用掩码编码器来考虑[Johnanderet al. ，2021]和Transformer块。RCT将区分性自身特征作为输入，以建立更准确的上下文交叉相关，如图1（d）所示。在支持度和查询特征之间全局构造注意力感知的亲和度，作为查询分割的另一个指导。使用转换器的成本聚合（CAT）[Choet al. ，2021]构建支持和查询特性之间的交叉亲和性，然后是Transformer块，如图1（c）所示。然而，该方法不结合用于支持对象或查询图像的个体自亲和性来消除噪声相关性的歧义，噪声相关性测量其自身内的逐像素对应性，使得每个空间纤维能够匹配其自身和其他标记。因此，我们设计了一个自引导的亲和Transformer（RAT），用于生成从自亲和继承的可靠的交叉亲和图。图1（d）中示意性地描绘了该图示。此外，我们探讨如何同时利用上下文和亲和力指导。具体来说，我们开发了一个层次化的CATrans：Context andAffinity Transformer，其中我们利用了与上下文和亲和力相关的多层关联映射的堆栈此外，继[Johnanderetal. ，2021]，我们还将具有高分辨率的查询嵌入与那些低分辨率的对应查询嵌入连接起来。以引导解码器。总体而言，我们的贡献概述如下：i. 我们设计了一个支持度引导的上下文Transformer（RCT），它具有增强的支持度特征，可以将信息语义信息从支持度图像传播到查询图像。ii. 本文提出了一种基于支持对象和查询图像的辅助自亲和度的iii. 我们提出了上下文和亲和性Transformer，被称为CATrans，在一个分层的架构聚合的上下文和亲和性在一起，导致歧视性表示从支持到查询掩码，增强鲁棒性支持和查询图像之间的类内变化。我们的CATrans在Pascal-5i和COCO- 20i两个基准测试中的性能优于最先进的方法。2相关工作语义分割语义分割是计算机视觉中的一个基本问题，其目的是将图像中的每个像素划分为预定义的类别。最现有的语义分割方法基于全卷积网络（FCN）[Longetal. ，2015]，其将全连接层替换为用于像素级预测的全卷积层。最近语义分割的突破主要来自多尺度特征聚合或注意机制。然而，传统的全监督分割方法需要大量的图像模板对进行训练，这是非常昂贵和耗时的。此外，它不能扩展模型少镜头分割。在此之后，少镜头语义分割吸引了大量的研究关注[Shabanetal. ，2017]，其首先通过提出以支持集为条件来调整用于每个类的分类器来处理该问题。最近的方法从度量学习的角度制定少镜头[Dong和Xing，2018]学习了不同类的原型，分割结果是由特征和原型之间的余弦相似性得出的。[Wanget al. ，2019]开发了一个有效的原型学习框架来构建一致的原型类型。PFENet[Tianet al. ，2020]通过进一步设计有效的特征金字塔模块并利用先验图来实现更好的分割性能，取得了进展。最近，[Liuet al. ，2020;Yanget al. ，2020]发现用单一支持原型来表示一个类别是不够的。因此，他们使用多个原型通过EM算法或K-means聚类来表示支持对象。然而，这些方法忽略了特征图中空间结构的像素级关系。最近的作品 [Zhanget al. ， 2019a;Zhanget al. ，2021;Cho等人，2021;Luet al. ，2021]试图充分利用相关图来利用支持和查询特征之间的逐像素关系。特别是，[Zhanget al. ，2019 a]使用图形注意力网络将信息从支持图像传播到查询图像，并且[Zhanget al. ，2021]利用周期一致的Transformer将逐像素支持特征聚集到查询中。[Luetal. ，2021]提出了一种分类器权重Transformer，其中应用Transformer仅通过冻结编码器和解码器来适配分类器。然而，所有这些密集匹配方法都只关注上下文对应或亲和图。这两种测量方法是否具有互补性，是否可以结合起来，以达到更好的性能，这是一个没有研究的问题。变形金刚在视觉上最近，transformers首次引入自然语言处理[Vaswaniet al. ，2017]，并且在计算机社区中受到越来越多的关注。由于先锋作品，如ViT [Dosovitskiyetal. ，2021]，它证明了纯Transformer架构可以实现最先进的图像识别。另一方面，DETR [Carionet al. ，2020]建立了一个端到端的框架，在骨干网络上使用Transformer编码器-解码器进行对象分割。及其变形变体[Zhuet al. ，2021]提高了绩效和培训效率。然而，很少有研究同时计算上下文和亲和力。+v：mala2277获取更多论文∩∅QS{}∈R布吕德联系我们联系我们图2：（a）我们的上下文和亲和力Transformer（CATrans）的整体框架。（b）和（c）中分别示出了我们的XML引导的上下文Transformer（RCT）和XML引导的亲和性Transformer（RAT）3预赛问题表述。少镜头分割的目标是用很少的注释样本分割新对象具体来说，所有类被分成两个不相交的类（五）要素。此外，LayerNorm（LN）和残差连接在每个块的末尾可用。特别地，注意层被公式化为架构概述：. Q·K T设置C train和C test，其中C trainC test=。为了减少训练数据不足引起的过拟合，我们其中[Q;K;V] = [Wq Fq;Wk Fk;Wv Fv]，其中Fq是遵循一个叫做情景训练的共同协议。在K-shot设置下，每个片段由支持集=（Is，Ms）K和查询样本=（Iq，Mq）组成，其中Is，Ms是支持图像及其对应的掩模，其中Iq，Mq分别是查询图像和掩模。在特别地，给定数据集D train=、N训练和D测试=，N 测试，其中Ntrain和Ntest是用于train的情节的数量。ing和测试集。在训练过程中，我们的模型将采样输入查询序列，Fk/Fv是输入键值序列，Wq，Wk，Wvc×c是可学习权重，c是输入序列的通道维数。多头注意力层是注意力层的增强，其中应用h个注意力单元，然后将其连接在一起。具体地，该操作沿着信道维度c将输入序列分成h个组：MHA（Q，K，V）=[头1，. . . ，头部h]，（2）从支持掩码Ms和查询掩码Mq两者中提取片段，并且在测试期间仅使用支持掩码来预测查询分段图Mq。再谈Transformer。 Transformer块[Vaswani等人，2017]是一种基于注意机制的网络架构，其由具有查询（Q）、密钥（K）和值的集合的输入的多头注意（MHA）和多层感知（MLP）的交替层组成其中头m=Atten（Q m，K m，V m），输入[Q m，Km，V m]是来自[Q，K，V]的第m个组，维度为c/h。4方法下面我们介绍CATrans的整体架构，然后描述其各个组件。Atten（Q，K，V）=softmax·V，⑴+v：mala2277获取更多论文A ∈RHl×Wl×ClMS{·||{\fnSimHei\bord1\shad1\pos（200，288）}SSQQQQLLMSSS···CL平方 ∈Rm表示比例级别和金字塔掩膜要素SQ l=1Aqq=softmaxCQCQ√SClSSSSMQQQQQ平方SS平方QQ4.1体系结构概述我们的上下文和亲和性变换器（CATrans）的整体架构在图2中示出，其由图像编码器、掩码编码器、图像引导的上下文Transformer（RCT）、图像引导的亲和性Transformer（RAT）和解码器组成。具体地，输入支持查询图像{Is，Iq}通过图像编码器4.3 仿射引导的仿射Transformer支持图像和查询图像之间的巨大特征差异给上下文知识传递带来了我们探索了几个注意力感知的亲和力图，这些图测量像素对应性以促进FSS任务，如图2（c）所示。总的来说，这个模块提供了相关性指导，提取多尺度特征{Fl，Fl∈RHl× Wl× Cl}4 、从注意力感知的特征而不是语义。其中ll=1为什么需要自我亲和？训练样本属于Fl∈RHl×Wl ×Cl}4是通过面具提取的，同一个类总是具有在嗯嗯M ml=1这些物体的外观是在不受约束的集合中拍摄的编码器的输入支持二进制掩码Ms。再-结果三元组{F1，F1，F1}4被传递到RCT中，tings.以飞机为例，所有的飞机都是由s q ml=3有翅膀的金属这些特征可以被看作是内在的。老鼠，分别。在实践中，逐像素上下文Cl∈m和由RAT生成的密集亲和图RH1W1×H1W1级联以用于信息聚合。在解码器中，融合表示与查询的高分辨率特征相关联图像{F l，F l}2用于预测查询掩码Mq。sic特征。由于拍摄角度和光照条件的不同，飞机的形状和颜色也会有所不同。在少镜头分割中，我们需要使属于自身的每个像素级特征能够在相同位置匹配像素级特征，使其对支持图像和查询图像之间的对象外观的大变化具有鲁棒性。4.2上下文引导的上下文Transformer什么是自我亲和力？为了支持图像，我们使用高-维度支持掩码特征Fl与sup连接，启示：当前基于CNN的原型学习方法，即。 [Wangetal. ，2019]，浓缩支持fea-端口图像特征F1，用于通过以下步骤估计其亲和图：一个或几个上下文智能原型。但是，典型的特征不可避免地会丢失空间信息-按比例点积后接softmax函数。亲-第l个特征的cess可以定义为：不正确的匹配，因为不正确的匹配，lsoftmax. （f l||f l）W q·（（f l||fl）W k）TM（六）CNN的受欢迎区域。所以最近的研究应用了Ass=C3Cl、+Cl基于转换器的架构，例如[Zhanget al. ，2021]，在成对的支持-查询样本之间建立长范围和逐像素的上下文关系，大大优于基于CNN的方法。我们推测，在个人支持哪里表示连接操作softmax（）是用于注意力归一化的行式softmax函数并且应用两个单独的FC层以通过可学习的参数来学习区分特征。类比以支持特征，我们将查询的自亲和度公式化为：和查询图像将有助于聚合更精确的交叉，l l T关系，对大的类内差异具有鲁棒性，配对的支持查询示例。L. fq W q·（fq W k）L为此，设计了RCT，如图2所示交叉亲和。支持和查询之间的交叉亲和性（b）. 我们将给定的三重特征（Fl，Fl，Fl）平坦化为1D特征F l计算公式为：s q m标记作为以下项目的输入。自我背景。通过聚合自上下文的相关上下文，将自上下文分别用于支持对象和查询特征CA. f l W q·（f l W k）T信息，从而提供更多信息支持和查询通过交叉上下文连接的功能。所得然而，仅仅依靠特征之间的交叉亲和度往往会受到类内上下文Cl C l设计为：变化.然后，我们将查询Al的自亲和度嵌入到C=MLP（ LN（ MHA（F1，F1，F1），（3）C=MLP（ LN（ MHA（F1，F1，F1），⑷其中MHA（）、LN（）和MLP（）是第3节中介绍的操作。跨语境。考虑到由掩码特征Fl引导的l主要关注前景，而背景支持像素有利于建立语义关系，我们将支持和查询的增强的自上下文特征与Fl协作以建立像素级的交叉上下文。跨语境的过程形成为：交叉亲和性最终的交叉亲和性被公式化为：MLP（LN（MHA（A1 ，Al，Al ）+Al ））。（九）5实验在本节中，我们对我们的CATrans在两个广泛使用的少镜头分割基准PASCAL-5i和COCO-20i上进行了广泛的实验，以证明我们的方法的有效性。5.1数据集C=MLP（ LN（ MHA（Cl、F1、C1）、（5）PASCAL-5i[Shaban et al. [2017]由PASCAL语言组成公司简介的ssVOC 2012，附加SBD [Hariharan等人，2011年 ]其中ClHlWl×Cl在空间上重新排列成符号，其中包含20个类别分为4倍（15/5m s m sL.（七）A平方=softmax.（八）+v：mala2277获取更多论文MHl×Wl×Cl.类别作为基础/新颖类）。+v：mala2277获取更多论文方法会场骨干单次5次射×××66.3 75.3 46.6 58.2表1：使用mIoU（%）作为评价指标，在PASCAL-5 i数据集上进行1次激发和5次激发分割的最新技术水平比较。最佳结果为粗体。50515253是说50515253是说CANet [Zhanget al. ，2019年b]CVPR 1952.565.951.351.955.455.567.851.953.257.1PGNet [Zhanget al. ，2019年a]第十九届会议56.066.950.650.456.057.768.752.954.658.5RPMMs [Yanget al. ，2020年]ECCV20型55.266.952.650.756.356.367.354.551.057.3PPNet [Liuet al. ，2020年]ECCV20型47.858.853.845.651.558.467.864.956.762.0PFENet [Tianet al. ，2020年]TPAMI 20ResNet-5061.769.555.456.360.863.170.755.857.961.9CWT [Luet al. ，2021年]ICCV2156.362.059.947.256.461.368.568.556.663.7CyCTR [Zhanget al. ，2021年]NeurIPS2167.872.858.058.064.271.173.260.557.565.6DGPNet [Johnanderet al. ，2021年]arXiv21基因63.571.158.261.263.572.476.973.271.773.5CATrans我们67.673.261.363.266.375.178.575.172.575.3FWB[Nguyen和Todorovic，2019]第十九届会议51.364.556.752.256.254.967.462.255.359.9DAN [Wanget al. ，2020年]ECCV20型54.768.657.851.658.257.969.060.154.960.5PFENet [Tianet al. ，2020年]TPAMI 2060.569.454.455.960.162.870.454.957.661.4CWT [Luet al. ，2021年]ICCV21ResNet-10156.965.261.248.858.062.670.268.857.264.7CyCTR [Zhanget al. ，2021年]NeurIPS2169.372.756.558.664.373.574.058.660.266.6DGPNet [Johnanderet al. ，2021年]arXiv21基因63.971.063.061.464.874.177.476.773.475.4CATrans我们67.873.264.763.267.275.278.477.774.876.5CATrans我们Swin-T68.073.564.963.767.675.979.178.375.677.3表2：（a）中RCT和RAT有效性的消融研究，（b）中多水平背景和亲和力利用，以及（c）中注意力的头部最佳结果以粗体显示。大鼠 RCT RCT○PASCAL-5i1-5-shotCOCO-20i1-5-shotCc C64.974.144.856.5PASCAL-5ih1-shot5-shot166.3 75.32 65.0 73.93 65.1 73.6COCO-20i1发5发46.6 58.245.1 56.845.4 56.5C C61.271.740.6 53.3（一）（b）第（1）款（c）第（1）款COCO-20[Linet al. ，2014]是从MS COCO创建的，其中80个对象类别被分成四个部分（60/20类别作为基础/新类别）。5.2实现细节我们在1个NVIDIA V100 GPU上进行所有实验。这些模型分别在PASCAL-5i和COCO-20i上进行了20 k和40 k次迭代的训练，并使用AdamW作为优化器。初始学习率设置为5e-5，并以0.1的因子在10 k迭代时衰减。在训练过程中，我们首先将输入图像调整为384384和512PASCAL-5 i为512和COCO-20i，分别，然后执行地平线-随机通话翻转操作我们简单地使用交叉熵损失，分别为背景和前景像素的权重为1和4。图像编码器的BN层被冻结。为了公平比较，我们使用广泛使用的ResNet-50，ResNet-101和Swin-Transformer作为图像编码器。掩模编码器包括四个轻量层，每个轻量层它由3 3卷积，BatchNorm和ReLU组成。在评估期间，对每个折叠的随机采样的5k和20k片段和使用不同种子的5次运行的结果进行平均。我们报告了在1次发射（给定单个支撑示例）和5次发射（给定5个支撑示例）下的平均IoU（mIoU）。#LCOCO-20i1234单次拍摄 5次射击1-5-shot#CCC62.472.542.455.864.873.344.857.965.174.245.358.1C58.365.162.770.633.441.342.654.9C66.072.443.956.4C65.371.342.155.366.375.346.658.2CC+v：mala2277获取更多论文5.3与最新技术水平的结果在PASCAL-5i. 如表1所示，我们的CATrans比之前最好的DGPNet高出2.8/1.8%，分别使用ResNet-50和ResNet-101作为主干，1次/5次mIoU为+2.4/+1.1%。将Swin-T渲染为图像编码器，我们的CATrans进一步实现了67.6%和77.3%的mIoU，用于1镜头和5镜头分割。COCO-20i. 表3报告了更具挑战性的 COCO-20i 数据集的比较。与以前最好的DGPNet相比，我们的CATrans超过了它，使用ResNet-50的+1.6/+2.0% 1次/5次mIoU。当使用ResNet-101时，我们的CATrans分别比DGPNet高出+2.1%和+1.8%。配备Swin-T，我们的CATrans实现了49.4/60.1%的1次/5次mIoU。5.4消融研究在这里，我们使用ResNet-50对PASCAL-5i和COCO-20i进行了广泛的消融研究，以分析我们的CATrans中关键组件的影响。RAT和RCT的有效性。我们消融了CATrans，以观察RAT和RCT模块的有效性，如表2a所示。我们定义的基线，没有RAT和RCT模块，这是简单地连接支持和查询功能沿通道模式。具有任一RAT的变体+v：mala2277获取更多论文方法骨干单次5次射≥∼表3：使用mIoU（%）作为评价指标，与COCO-20 i数据集上的1次激发和5次激发分割的最新技术水平进行比较。最佳结果为粗体。200201202203是说200201202203是说PANet [Wanget al. ，2019年]第十九届会议31.522.621.516.223.045.929.230.629.633.8RPMMs [Yanget al. ，2020年]ECCV20型29.536.829.027.030.633.842.033.033.335.5PPNet [Liuet al. ，2020年]ECCV20型34.525.424.318.625.748.330.935.730.236.2CWT [Luet al. ，2021年]ICCV21ResNet-5032.236.031.631.632.940.143.839.042.441.3CyCTR [Zhanget al. ，2021年]NeurIPS2138.943.039.639.840.341.148.945.247.045.6DGPNet [Johnanderet al. ，2021年]arXiv21基因43.647.844.544.245.054.759.156.854.456.2CATrans我们46.549.345.645.146.656.360.759.256.358.2FWB[Nguyen和Todorovic，2019]第十九届会议19.918.021.028.921.219.121.523.930.123.7PFENet [Tianet al. ，2020年]TPAMI2034.333.032.330.132.438.538.638.234.337.4CWT [Luet al. ，2021年]DGPNet [Johnanderet al. ，2021年]ICCV21arXiv21基因ResNet-10130.345.136.649.530.546.632.245.632.446.738.556.846.760.439.458.443.255.942.057.9CATrans我们47.251.748.647.848.858.563.459.657.259.7CATrans我们Swin-T47.952.349.248.049.459.364.159.657.360.1在不同的选择中是稳定的，特别是对于#h2。内存和运行时间。CATrans，与平凡的计算开销，执行最好的密切相关的 transformer为基础的方法。CyCTR和CAT堆叠两个连续的Transformer块，而CATrans由RCT和RAT组成，每个都有一个Transformer b锁。内存和运行时比较低：支持集RAT RCT CATrans GT图3：可视化CATrans及其变体在PASCAL-5i，单次设置上预测的结果GT表示查询图像的Ground Truth。或者RCT在单次激发原型上将基线提高了+6.8/+7.7。此外，可以看出RCT的支持自上下文分支在单次激发设置上提供了额外的1% mIoU（RCTvs.RCT的核心功能是提供一个强大的上下文聚合器。考虑到支持图像和查询图像之间的交叉亲和度可以作为FSS任务的额外指导，当大的特征差异阻碍上下文知识传递时，我们验证了有多少好处从老鼠。表2a显示，配备RCT和RAT的模型的FSS结果增加了0.5%。多尺度表示。我们首先在表2b的顶部面板上验证融合查询图像（l=1/2）的高分辨率特征的影响。然后在表2b的底部面板上，其示出了CATrans（1=3/4）的单尺度和多尺度表示之间的比较实验。使用的信息级别越多，性能就越好。当这两个级别都被利用时，性能达到最高，特别是在单次设置中，多尺度引导可以提取更多的引导信息用于查询分割，具有1.4%/1.8%的mIoU增益在PASCAL-5i/COCO-20i上进行了实验。模型容量的影响我们堆叠更多数量的注意力层头，以增加我们的CATrans的容量并验证其有效性。这表明我们的模型性能定性结果。为了直观地显示CATrans的性能，我们在图3中可视化了由我们的方法及其变体产生的一些最终预测掩码。第一列是支持图像及其基础事实，接下来的三列分别是由RAT、RCT和CATrans生成的查询掩码。最后一列是查询图像的基础事实。在图3的顶行上，由于支持图像和查询图像之间的大的类内外观变化影响了隐藏上下文知识的传递，RCT未能精确地分割其翼型之一，其中RCT通过使用查询分割的自亲和性和交叉亲和性来执行得在图3的底部，由于通过注意力感知亲和力测量的形状和颜色的相似性，RAT错误地而RAT通过成功地聚合上下文信息，显著地减少了错误分割的区域。总体而言，采用RAT和RCT表现最好。6结论我们提出了一种新颖的上下文和亲和力转换器（CATrans），在分层架构中使用RCT和RAT不同于以往的方法，无论是建立在上下文或亲和力之间的支持和查询图像，我们的CATrans有效地在企业的查询分割的措施此外，我们认为像素明智的对应个别支持和查询功能，消除歧义的噪声相关性。内存（GB）运行时间CyCTR CATrans CAT CyCTR CATrans CAT1.78 1.85 1.90 31.7 33.2+v：mala2277获取更多论文引用[Carion et al. Nicolas Carion、Francisco Massa、GabrielSynnaeve 、 Nicolas Bognier 、 Alexander Kirillov 和Sergey Zagoruyko。使用变压器进行端到端物体检测。在ECCV 2020，计算机科学讲义第12346卷，第213-229页。施普林格，2020年。[Cho et al. Seokju Cho ， Sunghwan Hong ， SangryulJeon ， YunsungLee ， Kwanghoon Sohn ， andSeungryong Kim.与transformers的语义对应。CoRR，abs/2106.02520，2021。[Dong and Xing，2018] Nanqing Dong and Eric P. Xing.基于原型学习的少量语义分割。在BMVC 2018中，第79页。BMVA Press，2018.[Dosovitskiy et al. Alexey Dosovitskiy ， Lucas Beyer ，Alexander Kolesnikov ， Dirk Weissenborn ， XiaohuaZhai ， Thomas Unterthiner ， Mostafa Dehghani ，Matthias Min- derer，Georg Heigold，Sylvain Gelly，Jakob Uszkoreit，and Neil Houlsby.一个图像值16x16个单词：大规模图像识别的转换器。ICLR 2021。OpenReview.net，2021年出版。[Hariharan et al. Bharath Hariharan ， Pablo Arbelaez ，Lubomir D.Bourdev ， Subhransu Maji ， and JitendraMalik.从逆检测器的语义轮廓。在ICCV 2011，第991-998页。IEEE计算机协会，2011年。[Johnander et al. Joakim Johnander ， Johan Edstedt ，Michael Felsberg ， Fahad Shahbaz Khan ， and MartinDanelljan. 用于少数镜头分割的密集高斯过程CoRR，abs/2110.03674，2021。[Lin et al. Tsung-Yi Lin ， Michael Maire ， Serge J. Be-longie，James Hays，Pietro Perona，Deva Ramanan，Piotr Doll a'r ， andC.劳伦斯 · 齐特尼克。MicrosoftCOCO：上下文中的常见对象. 在ECCV 2014中，第8693卷计算机科学讲义，第740-755页。Springer，2014.[Lin et al. ，2017] Guosheng Lin，Anton Milan，ChunhuaShen，and Ian D.里德Refinenet：用于高分辨率语义分割的多路径细化网络。在CVPR 2017中，第5168-5177页。IEEE计算机协会，2017年。[Liu et al. ， 2020] Yongfei Liu ， Xiangyi Zhang ，Songyang Zhang，and Xuming He.用于少量语义分割的部件感知原型网络在ECCV 2020中，计算机科学讲义的第12354卷，第142- 149158.施普林格，2020年。[Long et al. Jonathan Long，Evan Shelhamer，and TrevorDarrell.用于语义分割的全卷积网络。在CVPR 2015中，第3431-3440页。IEEE计算机协会，2015年。[Lu et al. Zhihe Lu，Sen He，Xiatian Zhu，Li Zhang，Yi-Zhe Song，and Tao Xiang.越简单越好：使用分类器权重 Transformer 的少量语义分割。 CoRR ，abs/2108.03032，2021。[Nguyen 和 Todorovic ， 2019] Khoi Nguyen 和 SinisaTodorovic。用于少镜头分割的特征加权和增强。在ICCV 2019中，第622IEEE，2019年。[Shaban et al. Amirreza Shaban ， Shray Bansal ， ZhenLiu，Irfan Essa和Byron Boots。用于语义分割的一次性学习。在BMVC 2017中。BMVA Press，2017.[Tian et al. Zhuotao Tian ， Hengshuang Zhao ， MichelleShu，Zhicheng Yang，Ruiyu Li，and Jiaya Jia.用于少镜头分割的先验引导特征富集网络。 CoRR ，abs/2008.01449，2020。[Vaswani et al. Ashish Vaswani ， Noam Shazeer ， NikiParmar，Jakob Uszkoreit，Llion Jones，Aidan N.戈麦斯，卢卡斯·凯泽，伊利亚·波洛苏欣。你需要的只是关注。神经信息处理系统进展30：2017年12月4日至9日，第5998-6008页，2017年[Wang et al. 王凯新，刘俊浩，邹应天，周达泉，冯佳诗。Panet：具有原型对齐的少镜头图像语义分割。在ICCV 2019中，第9196-9205页。IEEE，2019年。[Wang et al. 王浩辰，张旭东，胡玉涛，杨燕丹，曹贤斌，郑贤通。民主注意网络的少量语义分割在ECCV2020，计算机科学讲义第12358卷，第730-746页。施普林格，2020年。[Yang et al. 杨博宇，刘昌，李伯豪，焦建斌，叶启祥。用于少量语义分割的原型混合模型。在ECCV 2020中，计算机科学讲义第12353卷，第763- 778页。施普林格，2020年。[Zhang et al. ，2019 a] Chi Zhang，Guosheng Lin，FayaoLiu，Jiushuang Guo，Qingyao Wu，and Rui Yao.基于区域的一次性语义分割的金字塔图网络在ICCV 2019中，第9586- 9594页。IEEE，2019年。[Zhang et al. Chi Zhang，Guosheng Lin，Fayao Liu，RuiYao ， and Chunhua Shen. Canet ：具有迭代细化和attentive few-shot学习的类不可知分割网络。在CVPR2019中，第5217-5226页。计算机视觉基金会/ IEEE

下载后可阅读完整内容，剩余1页未读，立即下载