循环记忆网络在少镜头语义分割中的应用

145 浏览量更新于2023-10-13 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7293多分辨率特征基于循环记忆网络的少镜头语义分割谢国森†，‡*，熊欢§，‡ *，刘杰‡，姚亚洲†，邵凌q‡Mohamed bin Zayed University of AI，UAEq Inception Institute of AI，UAE†南京理工大学§哈尔滨工业大学摘要少镜头语义分割（FSS）是数据稀缺场景下的新（看不见的）对象分割然而，大多数FSS方法依赖于单向特征聚合，例如，从支持原型类型得到查询预测，从高分辨率特征引导低分辨率特征。这通常不能完全捕获跨分辨率特征关系，从而导致对查询对象的不准确估计。为了解决上述困境，我们提出了一个循环记忆网络（CMN），直接学习读取丰富的支持信息，从所有分辨率功能在循环的方式。具体地说，我们首先生成N对（键和值）的多分辨率查询功能的支持功能和它的掩码引导。接下来，我们循环地将这些特征中的一对作为待分割的查询，并将其余的N-1对相应地写入外部存储器中，即，该留一法进行N次。在每个循环中，查询特征通过将其键和值与内存协同匹配来更新，这可以优雅地覆盖不同分辨率的所有空间位置。此外，我们将查询特征重新添加和查询特征递归更新机制到内存读取操作。CMN具有这些优点，因此可以捕获跨分辨率关系，并更好地处理FSS中的对象外观和尺度变化在PASCAL-5i和COCO-20i上的实验结果表明，该模型是有效的.1. 介绍训练高性能语义分割模型[1，3，18，24，42]，基于卷积神经网络作品[12，27，38，47]，通常需要大量的人类注释的训练数据，例如，像素级注释对于训练期望的分割模型是必要的。然而，由人类进行的数据注释通常是昂贵且劳动密集型的。而且，这些模型，几乎总是，*通讯作者。支持图像原型或查询图像CNN单向要素聚合(a) 单向特征聚合方法支持图像查询图像(b) 循环记忆网络图1. 现有FSS模型和我们的CMN的插图。（a）现有FSS方法通常依赖于单向特征聚合，例如，利用支持原型来获得查询预测，或者利用高分辨率特征来指导低分辨率特征。然而，一些汽车区域被错误地预测为飞机，这是由于支持和查询图像中的大对象变化在这种情况下，这些单向方法无法捕获和克服对象变化。（b）CMN很好地预测了查询图像中的飞机，这得益于我们对多分辨率特征的循环记忆读取当给定非常少（一个）具有注释的训练图像（图像）时，无法分割新的（未看见的）对象。为此，如在旨在减轻高级语义类别空间中的数据注释和新的对象识别问题的常规零和少镜头分类模型[28，36，37]中，少镜头语义分割（FSS）[25]已经成为在对象分割场景下用于减轻低级图像像素空间中的这些问题的活跃研究主题FSS利用具有地面实况的多分辨率特征查询内存内存内存查询内存内存内存查询CNN循环内存读取7294§···掩模标记的支持集-除了支持图像之外，还提供了具有与支持集不相交的类的大规模训练集（基础数据），用于学习从可见域到不可见域的可转移知识。通常，元训练[28]通过事件采样在此基础数据上执行。这里，每个片段的构成与元测试场景相同，即，支持图像集和查询图像集。这样，这些支持图像被用作用于查询图像的前景预测的引导信息。FSS已经取得了广泛的进展[7，21，26，32]，并且其中大多数利用基于两个分支度量的网络架构：一个用于处理支持图像，另一个用于查询图像。对于考虑的类，支持分支输出其全局和/或局部原型[9，17，39，46]，例如，通过在标记的支持特征图上进行掩码平均池化。此外，查询分支将这些支持原型作为指导，以通过每个位置中的查询特征与这些原型之间的位置匹配来分割查询对象。以这种方式，我们可以实现查询的支持引导预测图，然而，这是单向特征聚合，因此难以基于这些有限的支持引导来完全捕获对象变化（图1B）。1（a））。最近，一些工作[31，41，44]探索了密集匹配方案非局部注意力变化[34]-与常见的语义分割任务一样，多分辨率特征的理想利用[4，16，30]是实现准确分割结果的关键。为了实现这一点，一些作品[30，44]在FSS中采用特征金字塔融合来增强原始特征，然而，这些多分辨率特征之间的相互作用是单向的和/或从高分辨率特征到低分辨率特征（图1（a）），这无法完全捕获跨分辨率特征关系。在本文中，为了解决上述问题，我们提出了一种新的循环记忆网络（CMN）[14，22]。（3.3和图2）通过直接学习从所有分辨率特征读取丰富的支持信息来处理FSS。具体来说，我们生成K对（键和值）的多分辨率查询功能的支持功能和它的掩码引导。在我们的框架下的直觉在于（1）给定具有特定分辨率的假定查询特征中的每个像素，CMN可以显式地访问和读取具有不同分辨率的所有其他特征，这些特征用作区分具有不同分辨率的像素的综合指导。所考虑的像素，即，属于前景或背景。如图2中分配表的第二行所示。1（b），当以中等分辨率作为查询时，大分辨率和小分辨率（内存）是指导。(2) 与先前方法的单向特征聚合相比（图 1 ）。 1（a）），CMN循环地将每个分辨率特征作为查询特征，并且将其余特征馈送到存储器中，因此其可以充分利用交叉分辨率关系并且比先前方法更好地处理对象外观和尺度变化。因此，在图1B中实现了查询图像中的飞机的精确预测。第2段（b）分段。由于FSS是像素级预测任务，为了保留和传递更多的结构上下文以用于期望的不可见对象分割，我们进一步结合了查询特征重新添加和查询特征递归更新机制（图1）。3）进入存储器读操作。总而言之，我们的贡献是：我们提出了一个循环记忆网络（CMN），循环的交叉分辨率功能作为内存的指导，以精确地分割假定的查询功能，解决FSS的任务。据我们所知，我们是第一个模型FSS作为一个记忆网络框架。在CMN的内存读取操作中引入了查询特征重添加和查询特征递归更新机制，提高了CMN的性能。CMN的性能显著。在两个FSS基准测试中，我们在平均IoU下实现了最先进的性能2. 相关工作记忆网络。神经图灵机[10]是使用记忆网络解决排序和复制问题的先驱工作。现代端到端的语义网络[14，19，29]最初设计用于通过额外使用外部存储器进行信息存储和读取来处理自然语言处理任务。后来，记忆网络逐渐应用于视觉任务，例如视频对象分割[22]，对象跟踪[40]和电影故事理解[20]。典型地，查询特征的编码关键字用于测量其与存储器的堆叠关键字的相似性，并且通过关注这些相似性来更新存储器的值。最后，针对不同的任务返回融合值。在本文中，我们将标准的记忆网络扩展成一个循环变体，即，CMN，适用于FSS任务，有自己的优势：（i）基于多分辨率查询特征（隐含支持度特征信息），循环地将每个分辨率的特征作为查询，其余的作为记忆;因此，这可以完全捕获交叉分辨率关系，并且这是用于FSS的特殊设计，其与其它基于存储器的任务有很大不同。(ii)我们的框架是7295KvKvl=1L=2l=1l=1l=1DDSS Q我Q {}我 i=1支持映像PKSfsfsv1L查询图像q骨干掩蔽平均池kvVS£插值到相同K1v1K 2v2存储器读取v3v2v1v2Pkqvqqqq123金字塔平均池Q12 3关键价值观L中空间大小K3 v3v3C oncatenateKM VM输入事件骨干网多分辨率共享编码器三个键值对的情节解码器模块图2. CMN体系结构，说明了三个决议。由支持图像x s和查询图像x q组成的输入片段首先被馈送到CMN（§3.3）。然后，利用多分辨率共享编码器来生成三对键和值，它们是被插值为具有相同的空间大小，表示为V ={（k _l，v _l）}3. 此外，循环存储器读取的三次循环被示出为具有分别作为密钥和存储器的（k1，v1）和{（k1，v1）}3关系，其返回增强的值特征{v{l}3. 最后，{v{l}3和原始{v l}3都是相应地连接的并作为对片段解码器模块的输入，用于分割查询对象。L和L中间（§3.4）是训练CMN的BCE损失。在基于情节的元学习方案中执行。在每一个情节，存储器被更新为相应的多分辨率特征，这些多分辨率特征是由当前支持查询特征获得的。相比之下，所有先前的方法都在完全监督的设置中利用记忆网络。语义分割。自从全卷积神经网络[18]成功以来，语义分割领域[ 18 ]取得了很大进展，其目的是将每个像素分类到特定类别。流行的分段模型包括Deeplab[3]、SegNet [1]、UNet [24]和PSPNet [47]。此外，扩张卷积[43]、编码器-解码器结构[24]、ASPP [3]和跳过连接[3]是用于实现良好性能的广泛使用的策略。然而，上述分割模型依赖于大量的像素级注释进行训练，并且经训练的模型总是无法分割看不见的类对象。我们的目标是解决不可见的对象分割问题，利用CMN。少镜头语义分割。FSS通常采用基于两分支度量的网络。例如，OSLSM [25]由用于生成分类器权重的条件分支和用于输出预测掩码的分割分支组成。不可避免地，在基于度量的学习范式下，通过挤压支持图像的前景中的特征来获得原型，这些特征被用作分割查询图像的指导。FSS的其他代表性方法是然而，本质上是使用高分辨率特征来引导低分辨率特征或使用支持特征来引导多分辨率查询特征。因此，支持查询图像之间的跨分辨率关系仍然没有得到充分利用。在FSS文献中，与我们最相关的现有工作是PFENet[30]和BriNet [41]。为了在看不见的类上保留最大域泛化能力，这两个工作（i）固定了骨干权重，以及（ii）利用中级和高级特征来构造区分性支持/查询特征。为了寻求一个理想的可推广的模型，我们采用了上述的经验，建立CMN。相比之下，CMN是FSS领域中第一个以循环方式减轻支持查询图像之间的对象变化的存储器网络3. 方法3.1. 定义在FSS中，分别为元学习和测试提供具有非重叠类的基本训练集训练和测试集测试在训练阶段，从D训练中采样多个片段（子任务）。相比之下，我们从D测试中随机抽取事件进行元测试。每个片段的构成是支持集S和查询集Q。具体地，在K次拍摄设置下，我们具有由K个图像掩模对构成的S={（x s，ms）}K，PL [7]，coFCN [23]，SG-One [46]，A-MCG [13]，FWB [21]，其中，（xs，ms）是用于我我PANet [32]， CANet [45]， CRNet [16]， PPN [17]PMM [39].这些方法的本质区别在于获得原型的方式和使用原型的方式。这些方法的共同之处在于用于实现查询预测掩码的单向特征聚合过程受传统语义分割的启发，一些作品[30，44]探索了多分辨率特征的利用，这些特征如何某类C。设=（xq，mq），其中xq和mq是查询图像和从相同类别c采样的对应的真实二元掩码。以这种方式，每个片段（，）都集中在特定的类c上，并通过将和xq馈送到模型来为所包含的查询图像产生预测掩码mq接下来，计算二进制交叉熵损失BCE（m（ q ，mq）以更新模型权重。一旦模型被训练，我们进一步通过对多个情节进行采样来执行元测试KvQQ7296×N联系我们×我公司简介K×Ev我我我 v我i ii=1我q q q q×W ×CVb4b4∈B4读��×�� ×��×��StackN-1次softmax��×�� ×��×[��− 1��][−1] ×��设计可学习的卷积和基于某些特定主干的金字塔池操作。在编码器的实现中，我们主要遵循[30，41]验证的黄金例程。以具有四个组层（块1 -4）的ResNet为例，我们使用来自块2和块3的特征图，并将它们压缩为具有预定义通道维度的键和值特征图��×��[��− 1��] ×��[��− 1��] ×��×�� ×�� ×�� ×�� − 1 ×�� ×�� ×�� − 1 ×�� ×�� ×��查询内存图3.实现一个周期的存储器读取，其中和L分别表示矩阵乘法和加法{（Sts，Qts）}Nts，来自D测试。在下文中，我们采用单次设置（S中K=1），便于说明CMN。3.2. 概述如图2所示，CMN以循环方式基于存储器网络构建。在1次拍摄设置下，对于具有=（x s，m s）的每个片段（i），我们首先将支持图像-掩模对（xs，m s）和查询图像x q（待分割）馈送到共享编码器，以获得N对多分辨率融合键和值特征映射，记为V={（ki，vi）}N。每个分辨率键值fea-C通过11卷积。同时，使用来自块4的掩码池化支持特征和初始查询特征来获得预测掩码，该预测掩码也被融合到多分辨率键值特征中。此外，如在先前的工作[46]中，进一步使用掩蔽的平均池全局向量最后，我们在Meta训练期间固定骨干的权重，这也被[30，41，45]采用，用于在看不见的类上实现更好的泛化。具体地，以最大分辨率为例，假设我们已经基于块2和3的压缩特征实现了（xs，xq）的初始键和值特征映射（该操作表示为P）：k s ， v s=P （ xs ） ∈RH×W×C ， k q ， v q=P （ xq ）∈RH×W×C，其中H W是所使用的最大分辨率，同时，H、W和C分别是高度、宽度和通道尺寸。为了获得最终的多分辨率键和值特征，金字塔平均池[47]首先是con-value。V中的真值i=1被循环地认为是要被分割的查询在kq，vq上进行引导以生成N个新的分辨率特征Vq={（k，v）}N其中k（v）∈ RHii. 我们支持-存储，其余N-1个分辨率特征被写入我我姿势（q qi=1Q作为记忆。查询和内存的键和值通过查询特征的重新添加和查询特征的递归更新机制进一步送入内存读取模块以这种方式，查询的关键特征图的每个像素在存储器的关键字上被密集匹配，以输出具有来自不同分辨率的所有空间位置的相似性分数。这些分数反过来又被用来总结来自记忆的长距离和跨分辨率信息，并由此得出一个强化值k，v）被包括在，并且当i< j.此外，我们表示掩蔽的平均池化全局向量w.r.t.（ks，vs）由m s引导如下：（fs，fs）= masked avg pool（（ks，vs），ms）∈R1×1×C.（二）值得注意的是，我们只构造一对全局向量下的支持键-值的功能与最大的分辨率。受[30]的启发，我们进一步使用block4fs和fqw.r. t的特征。xs和xq以得到预测掩码fq（RH×对于查询vi的特征vi。上述存储器读写过程以循环方式重复N次。因此，我们最终获得了N个解的增强特征，称为{v≡i}N，这是进一步讨论的W）来表示查询图像的键和值。的通过找到在fq中考虑的相同位置和fs的所有前景位置中的特征向量之间的最大余弦相似性值来获得fq（x，y）中的每个元素的计算i=1情节解码器，并用于重建地面实况掩码mq的查询图像xq。3.3. 循环记忆网络b4. 最后，我们可以构建多分辨率键和值特征映射ki，vi∈RH×W ×C（i=1，···，N）如下：k i=IH×W（C（k qEH ×W（fs）IH×W（fq），ii ik i i（三）多分辨率共享编码器。与以往的记忆网络不同，由于我们的目标是探索不同分辨率特征之间的关系，我们基于共享编码器生成多分辨率（键和值）特征映射，以促进循环记忆读取。具体地，给定支持图像-掩码对（x s，m s）和查询图像x q作为输入，编码器输出N对键值特征映射w.r.t. 决议数目，v i=IH×W（C（v q<$EH ×W（fs）<$IH×W（fq），其中是连接，Ix×y将输入插值为x y的大小，x×y将输入向量扩展为xy，并且由一个1 1和两个3 3卷积组成。在这里，我们使用将键和值特征内插到相同的空间和通道大小，然而，它们仍然保留不同的分辨率。该操作旨在便于后续的存储器读取操作。ConvGRU��̂��（一）7297i=1i=11∈∈2（八）§PP我我∈∈§我NbVi=0时我NbNl=1我l=i+1我我我我我. 使用等式（8）、我们实现了预测我我QNb我我我我我BCE（Pk（v~k），mq），（10）- -QP∈······{}我ΣΣ循环内存读取。由于我们已经获得了反映不同分辨率特性的N对键和值特征图相同查询图像，我们循环地取实验结果表明，通过这种查询特征递归更新机制，性能得到了显著提高（表5）。情节解码器。经过N次记忆读取后，我们其中一对作为假设查询进行分割，得到增强的值特征{v∈i}Nw. r. t. 这些对于每N个分辨率，将剩余的N 加上原有的价值特征事件训练该循环存储器读写处理进行N次。具体而言，在一个周期中，假设（ki，vi）是服务于作为查询，并且Vi/N={（kl，vl）}i−1∪ {（kl，vl）}NviN，我们总共有两组多分辨率特征。为了重构当前片段中的查询图像Xq的GT掩码m_q，我们对上述特征的每个组利用以下顺序编码是内存中的键和值。我们首先将剩余N-1个分辨率的键和值从m~q=Pcls（PASPP（Presconv（v 1v 2···v N）∈Rh×w×2，内存，导致K mR（N−1）× H × W× C和V mR（N −1）×H×W ×C，其中N-1可以看作存储器的帧编号。此外，（k，v）和Km，Vm被作为存储器读取模块的输入，并且输出是增强值vi。在读取记忆的过程中，我们利用了关键图m~q=Pcls（PASPP（Presconv（v1v2···vN）∈Rh×w×2，其中h和w是m q的高度和宽度;resconv、ASPP和cls表示为情节解码器，它们的详细架构在4.2中。最终的预测掩码被认为是m~q和m~q 的平均值，即，m<$q=（m<$q+q1 2 1ki和Km计算它们的所有位置之间的相似性，并得到以下相似性图：e=k¯KmT∈RHW×[（N−1）HW]，（4）其中k¯iRHW×C和KmR[（N−1）HW]×C分别是ki和Km的整形映射。基于ei存储器的值被检索并初始返回m~2）/2。我们的CMN是以情节的方式训练的。作为因此我们将该解码过程称为剧集解码器。Eq.中的模块CMN的（3）-（8）都是可微的，并且我们以端到端的方式训练CMN。3.4. 培养目标到目前为止，3.3仅说明了在1次拍摄情况的一个情节下CMN训练的范例。对于批次-基于训练，具有Nb个片段（{（Si，Qi）}Nb），其中如：Q =（xq，mq）i=1g i= softmax（e i）Vm∈RHW×C，（5）其中，resoftmax（·）是按行的softmax归一化对于每个查询x q，一个平均掩码mq∈Rh×w×2。此外，我们还采用了m个节点之间的二进制交叉熵损失（BCEV mR[（N −1）HW]×C是V m的整形映射。以这种方式，gi将包含来自存储器的长范围和交叉分辨率信息在骗局之下我们的FSS任务的文本，因为堆叠值映射（Vm=以及用于训练CMN的mq。BCE损失如下：L=1ΣBCE（mq，mq）.（九）i=1[v1; ;vi−1;vi+1;;vN]）与当前查询值映射vi相比，是本质上不同的解析变量，因此我们提出了一种重添加机制，将N-1次堆叠的vi（记为i∈ R（ N −1）×H×W×C）添加到Eq. （五）、决赛归来受[30]的启发，给定在HXW操作之前的多分辨率值特征（表示为v~iN）（等式10）。（3）），我们使用N个附加分支来预测这N个分辨率的查询掩码。值得注意的是，这N个分支被实现为一个3×3卷积和一个1×1卷积。因此，来自内存的值更新为：我们有另一个中级BCE丢失：g=softmax（e）（Vm+Vq）∈RHW×C，（6）其中V q∈R[（N−1）HW]× C由V q整形。Exper-其中Pk1中期我i=1k=1（·）指示第k个编码函数初步结果表明，通过我们简单的重新添加机制，性能得到了提高（表5）。最后，我们提出了查询特征递归更新机制，而不是连接vi和整形后的gi（仍表示为gi），然后进行压缩操作，该机制将vi和gi作为输入，并探索它们之间的递归关系。在我们的实现中，我们采用ConvGRU [2]来获得存储器读取模块的最终输出，如下所示：v∈i=UGRUi（vi，gi）∈RHW×C.（七L中=Nb×N7298）中期分公司为此，我们的最终培训目标是：L最终= L+ L中间。（十一）4. 实验4.1. 设置数据集。两个黄金FSS数据集-即， PASCAL- 5i [25]和COCO-20i [21]7299方法骨干平均IoU（单次）FB-IoU（1次）平均IoU（5次）FB-IoU（5张）0倍折叠-1折叠-2折叠-3是说0倍折叠-1折叠-2折叠-3是说[ 25 ]第VGG-1633.655.340.933.540.861.335.958.142.739.143.961.5[ 23 ]第二十三话VGG-1631.750.644.932.441.160.137.550.044.133.941.460.2AMPICCVVGG-1641.950.246.734.743.462.241.855.550.339.946.963.8SG-OneTCYBVGG-1640.258.448.438.446.363.141.958.648.639.447.165.9[ 32 ]第三十二话VGG-1642.358.051.141.248.166.551.864.659.846.555.770.7CANetCVPRResNet-5052.565.951.351.955.466.255.567.851.953.257.169.6[ 44 ]第四十四话ResNet-5056.066.950.650.456.069.957.768.752.954.658.570.5FWBICCVResNet-10151.364.556.752.256.2-54.867.462.255.359.9-PMMECCVResNet-5052.067.551.549.855.2-55.068.252.951.156.8-PPNetECCVResNet-5047.858.853.845.651.5-58.467.864.956.762.0-丹麦ECCVResNet-10154.768.657.851.658.271.957.969.060.154.960.572.3SimPropNetIJCAIResNet-5054.967.354.552.057.273.057.268.558.456.160.072.9[ 41 ]第四十一话ResNet-5056.567.251.653.057.1-------PFENetTPAMIResNet-5061.769.555.456.360.873.363.170.755.857.961.973.9基线ResNet-5062.168.255.353.859.971.763.368.755.155.360.671.8CMNResNet-5064.370.057.459.462.872.365.870.457.660.863.772.8表1.在PASCAL-5i上进行1次和5次拍摄设置下的实验比较。示出了每个折叠的平均IoU和四个折叠的平均IoU（FB-IoU）方法骨干平均IoU（单次）FB-IoU（1次）平均IoU（5次）FB-IoU（5张）0倍折叠-1折叠-2折叠-3是说0倍折叠-1折叠-2折叠-3是说[ 32 ]第三十二话VGG-16----20.959.2----29.763.5FWBICCVVGG-1618.416.719.625.420.0-20.919.221.928.422.6-FWBICCVResNet-10117.018.021.028.921.2-19.121.523.930.123.7-PMMECCVResNet-10129.334.827.127.329.6-33.040.630.133.334.3-丹麦ECCVResNet-101----24.462.3----29.663.9PPNetECCVResNet-5028.130.829.527.729.0-39.040.837.137.338.5-[ 41 ]第四十一话ResNet-5032.936.237.430.934.4-------PFENetTPAMIVGG-1633.436.034.132.834.160.035.940.738.136.137.761.6PFENetTPAMIResNet-10134.333.032.330.132.458.638.538.638.234.337.461.9基线ResNet-5034.239.635.834.336.060.637.745.738.037.539.762.7CMNResNet-5037.944.838.735.639.361.742.050.541.038.943.163.3表2. COCO-20i上1次和5次设置下的实验比较。示出了每个折叠的平均IoU和四个折叠的平均IoU（FB-IoU）CMN。PASCAL-5i基于PASCAL VOC 2012 [8，11]构建，COCO-20i基于MSCOCO [15]构建。与[25]和[21]一样，我们根据两个数据集上的总类数将数据分成四个部分。然后，报告每个折叠的交叉验证结果具体地，对于两个数据集上的每次评估，分别取15和60个对象类作为训练集，其余对于Meta测试，从测试集中随机抽样1,000个剧集，用于评估它们的度量。指标. 如在[25，32，33，35]中，平均IoU和FB-IoU是用于评估CMN的度量。具体地，通过取测试集的不同前景类上的交集（IoU）的平均值来实现平均IoU。同时，报告了每个折叠的平均IoU和四个折叠的平均IoU。FB-IoU指示前景和背景IoU，并且所有对象类被视为测试集中的单个前景类。此外，FB-IoU通过取前景和背景类的IoU的平均值来获得。与FB-IoU相比，在文献中，Mean-IoU被广泛地作为FSS的关键度量，这是因为其性能偏差可以通过考虑所有类的差异来减轻一些类的差异。K-Shot评估。对于K-拍摄情况（K>1），如[5，21，41，45]，通过对支持图像特征求平均来采用特征级早期融合策略[ 23 ]以实现单个融合的支持特征。通过这样做，之后的操作和评估与1次拍摄的情况相同。4.2. 实现细节CMN使用Pytorch实现，模型在Tesla V100 GPU上以元学习方式进行训练。公式中的批量Nb对于PASCAL-5i和COCO- 20i，公式（10）分别为4和8。对于CMN训练，采用SGD优化器，模型在两个数据集上训练100个epoch，PASCAL-5i和COCO-20i的学习率分别为0.0025和0.005。如在[30，41]中，采用VGG-16 [27]，ResNet-50 [12]和ResNet-101 [12]对所使用的两个数据集进行实验。如在[9，30，41，45]中所述，所使用的主干是从ImageNet [6]上的预训练模型初始化的，并且它们的初始化模型是基于模型的。7300×PCPP图4. PASCAL-5i数据集的未见过类的分割示例。具体地，第一行是具有标记为红色的地面实况（GT）的支持图像，第二行是具有GT（黄色掩模）的查询图像，并且第三和第四行分别是基线和CMN的预测。重量是固定的。以这种方式，可以尽可能多地保留泛化等式中的通道尺寸C对于所有实验，（1）为256。此外，扩张卷积用于确保块2之后的键和值特征图的大小对于所有主干，输入图像大小被设置为473 473，从而导致具有60×60大小的最大键和值特征图，即，H=W=60，在等式（一）. 我们在方程中使用[60×60，15×15，8×8]的三个解（3）对于两个数据集，这意味着在我们的实验中N=3此外，输出通道的数量被设置为256在卷积分量在方程。（三）、解码器功能的架构细节在等式（1）中示出。（8）是：resconv：两个1×1conv的256输出通道，其次是两个3×3 conv的256通道与残余连接，最后是另两个3×3 conv的256通道与残余连接。ASPP：无膨胀的1×1卷积和膨胀率为6、12、18的3×3卷积的空间金字塔池。 cls：256个通道的3×3conv和两个通道的1×1 conv。4.3. 与现有技术的我们的CMN进行了比较，所有的FSS方法下的度量的mean-IoU和FB-IoU的两个数据集。与利用多尺度测试的[44，45在所使用的数据集中，大多数前景物体的空间区域在整个图像中很小。因此，所计算的FB-IoU的数量通常受益于背景区域。这使得它不是评估模型性能的令人信服的度量。尽管如此，我们还报告了四倍的平均FB-IoU，以显示全面的参考。PASCAL-5i. 表1呈现了在相同测试平台下所有比较方法在1次发射和5次发射下的平均IoU和FB-IoU。可以看出，（i）在四个折叠下的平均均值IoU始终优于比较的方法，这验证了CMN的有效性。（ii）CMN比使用相同的多分辨率特征但没有循环存储器读取模块的基线方法执行得好得多（iii）虽然CMN的FB-IoU不是最好的，但与同类方法相比，我们仍然取得了竞争性的结果COCO-20i.从表2中，我们得出结论：在COCO-20i上实现了1次和5次设置下的平均平均IoU的最新结果。例如，在ResNet-50骨干和相同的训练/测试协议下，（i）CMN通过以下方式优于BriNet [41]3.3在平均平均IoU下的单次设置上。（ii）CMN比强基线方法执行得好得多。这意味着我们的CMN模型已经通过内存读取模块捕获了交叉分辨率关系，这进一步提高了FSS的性能。4.4. 消融研究我们以PASCAL-5i作为一个例子数据集。除非另有说明，否则我们采用前两个折叠的平均平均IoUsCMN基线地面实况支持7301我§×L70.067.565.062.560.057.500.51.01.52.070.067.565.062.560.057.500.51.01.52.0表3. 5-shot特征融合的比较。表4.不同主链的影响图5. 在不同的Lmid系数下的平均值。表5.查询功能重新添加和递归更新机制的影响Nmean-IoU单次拍摄5次射击1N/AN/A266.066.5367.268.1466.967.6表6.特征分辨率数N的影响。- 即，对于所有消融实验，在1次发射和5次发射设置下，折叠-0和折叠-1特征分辨率编号N。特征分辨率的数量N对于实现良好的结果是重要的。通过将N从1变化到4，CMN的性能呈现在表6中，并且N=3表现最佳。这意味着需要具有三个分辨率的CMN来捕获交叉分辨率关系。我们在所有实验中设置N=3。查询功能重添加机制。由于Eq.（6）添加来自查询的值特征以在存储器读取期间丰富存储器的值特征，我们使用等式（6）表示CMN变体（5）和等式（6）分别作为CMNw存储器值和使用来自查询的值特征而不是来自存储器的值特征的模型变体进一步考虑，即，gi=softmax（ei）V q，其被命名为CMNw查询值。表5表明查询特征重新添加比使用单值特征的模型执行得更好查询特征递归更新机制。在没有查询特征递归更新的情况下，1）我们考虑连接vi和整形的gi，然后进行压缩操作，这被称为CMN wConcatenate。2)我们将所有关键特征的通道压缩到C/2（而不是C），压缩了11conv，这被表示为CMN_w_Compress。表5中的实验结果显示了我们的查询特征递归更新机制带来的卓越性能增益。中系数我们在等式中设置中级损失的系数（λ）。（11）对于所有实验为1.0。通过将其值从{0。0，0。五一0，1。五二0}，我们观察平均值-两次折叠下的IoU和它们的平均平均IoU，在1次和5次拍摄设置下（图（五）。当λ =1时实现最佳性能。0.骨干的影响。使用VGG-16、ResNet-50和ResNet- 101进行实验以评估不同主链对CMN的影响。结果如表4所示，其中ResNet-50的性能优于其他。5镜头设置下的特征融合。如4.1所示，通过早期特征融合策略来融合五个支持图像特征。我们进一步评估了两种后期融合方法，即，掩模上的OR融合[25]和掩模上的平均融合[45]，以比较它们的结果（表3）。为了实现精确的比较，我们利用四倍的平均平均IoU和FB-IoU进行该消融。由于特征融合性能最好，我们使用它来获得5次拍摄的结果。4.5. 可视化结果我们以PASCAL-5i中的测试片段为例，在1次拍摄设置下可视化分割结果。具体地，我们的CMN模型和没有循环记忆读取的基线模型的定性比较在图中示出。4.第一章我们得出结论：（i）CMN可以很好地分割具有外观变化的查询对象很好地分割了boad和train对象。(ii)CMN通过跨分辨率的内存读取机制，能够很好地分割具有尺度变化的查询对象。例如沙发和羊.5. 结论在本文中，我们提出了一个循环记忆网络（CMN），以解决重要的少拍语义分割（FSS）的任务。在CMN中，我们生成N对多分辨率键值特征，循环作为查询进行分割，其余特征作为内存写入。这样，进行N次内存读取以处理所有解析查询。此外，查询特征的重新添加和查询特征递归更新机制，提出了增强该内存读取模块。CMN在使用的PASCAL-5i和COCO-20i数据集上实现了新的技术水平。致谢本工作得到了中国国家自然科学基金（Nos.61702163）。fold0fold1均值倍数1平均值平均IoU（单次）平均IoU（5次）5次测试mean-IoUFB-IoU1杆基线62.872.3特征-平均值63.772.8掩模平均值63.372.5Mask-OR62.971.9骨干mean-IoU单次拍摄5次射击VGG-1663.064.5ResNet-5067.268.1ResNet-10166.067.3模型mean-IoU单次拍摄5次射击带内存值的CMNCMNw查询值66.266.366.767.7CMNw串联CMN带压缩65.866.066.366.4完整CMN67.268.17302引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。InTPAMI，2017. 第1、3条[2] 尼古拉斯·巴拉斯、李耀、克里斯·帕尔、亚伦·考维尔。深入研究卷积网络以学习视频表示。载于 arXiv：1511.06432，2015。5[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义InTPAMI，2017. 第1、3条[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。在arXiv：1706.05587，2017。2[5] Tao Chen，Guosen Xie，Yazhou Yao，Qiong Wang，Fumin Shen，Zhenmin Tang，and Jian Zhang.单次图像分割的语义有意义的类原型学习。TMM，2021年。6[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[7] 董南青和邢P.具有原型学习的少量语义在BMVC，2018年。二、三[8] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。InIJCV，2010. 6[9] Siddhartha Gairola，Mayur Hemani，Ayush Chopra，andBal- aji Krishnamurthy.Simpropnet：改进了用于少数镜头图像分割的相似性传播。在IJCAI，2020年。二、六[10] Al

下载后可阅读完整内容，剩余1页未读，立即下载