学习元类记忆的少镜头语义分割方法（MM-Net）在少镜头分割任务中取得最佳结果

80 浏览量更新于2023-10-13 收藏 1009KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

517学习元类记忆的少镜头语义分割吴忠华1、2湘西石3林国胜*1、2蔡建飞41南洋理工大学2南洋理工大学计算机科学与工程学院3俄勒冈州立大学4莫纳什大学zhonghua001@e.ntu.edu.sgshixia@oregonstate.edumonash.edugslin@ntu.edu.sg摘要目前，最先进的方法将少镜头语义分割任务视为有条件的前景-背景分割问题，假设每个类是独立的。在本文中，我们引入了元类的概念，这是元信息（例如：某些中级特征）在所有类之间可共享。为了在少镜头分割任务中明确学习元类表示，提出了一种基于元类记忆的少镜头分割方法（MM-Net），在该方法中，我们引入了一组可学习的记忆嵌入，用于在基类训练过程中记忆元类信息，并在推理阶段转移到新的类此外，对于k-shot场景，我们提出了一种新的图像质量测量模块来从支持图像集中选择图像。基于质量测度的支持图像特征加权和可得到高质量的类原型。在PASCAL-5i和COCO数据集上的实验表明，该方法在1次和5次拍摄的情况下都能获得最佳的结果。特别地，我们提出的MM-Net在1次拍摄设置中在COCO数据集上实现了37.5%的mIoU，这比先前的最先进技术高5.1%1. 介绍随着卷积神经网络（CNN）的发展，全监督图像语义分割[12，3]在速度和准确性方面都取得了巨大的成功。然而，国家的最先进的图像分割方法通常需要大量的像素级注释，这需要巨大的人类标记的努力。如果我们想分割一个在训练集中没有出现过的新类，我们通常需要标记数千个图像以进行分类。* 通讯作者：G. Lin（电子邮件：gslin@ntu.edu.sg）以前的SOTA支撑掩模支持图像支撑特征查询掩码预测查询图像查询特征基于元类记忆的少镜头分割算法（MM-Net）支撑掩模支持图像支撑特征元类激活图元类存储器查询掩码预测元类查询图像查询功能激活映射激活图融合功能比较图1.最新技术（SOTA）方法的典型流水线（上图）与我们提出的基于元类记忆的网络（MM-Net）（下图）之间的比较。主要区别在于SOTA将任务视为一个类不可知的条件前景背景分割问题，而我们建议学习一组元类中间级表示共享之间的基础和新的类。新班级。为了减少人类对新类别的标记工作，已经引入了少量图像分割任务[35，17]，其目的是预测新类别的查询图像的分割掩码，测试中只有一个或几个标记的支持图像，而训练中有大量具有完整注释的基类图像。图的顶部部分。图1示出了现有技术（SOTA）少镜头图像分割方法的典型流水线[35，34]。首先，一个预先训练的CNN网络被用来提取支持和查询图像的特征。然后，这两个特征通常由卷积层处理并比较相似性，以便生成518获取查询图像的分割图。本质上，这些方法将少数镜头分割任务视为条件二进制前景-背景分割问题，即以基于给定的支持图像及其掩模找到并分割查询图像中的最相关区域，而不管类别信息如何。SOTA中的类不可知设计是可以理解的。这是因为通过类不可知的设计，基类中的查询和支持功能之间的交互/比较可以转移到新的类。然而，我们认为，虽然不同的类的对象是相当不同的，仍然有一些共同的属性或中间层的知识共享，我们称之为元类信息。在[38，10，32]中已经对分类和检测任务进行了类似的观察，其中一些低级信息（例如，圆圈、点）和中级信息（例如，翅膀、四肢）在不同的纲之间共享。出于这一动机，在本文中，我们提出了一种新的元类内存模块（MMM）学习中间级元类嵌入共享之间的基础和新的类几杆分割。如图1的下部所示。1，在SOTA流水线中引入了一组元类内存嵌入，可以在基类训练过程中通过反向传播学习。然后使用元类内存嵌入来参与查询和支持图像的中间层特征，以获得元类激活映射。这可以被认为是将查询和支持中间层特征与元类嵌入对齐。基于所获得的查询和支持图像的Meta类激活图，然后在它们之间执行交互/比较，以将支持激活图的支持掩码信息传播到查询激活图，并且融合的查询激活图最终用于查询掩码预测。此外，当涉及到k-shot场景时，这意味着给出多个支持图像，以前的方法通常对少数支持图像特征应用平均运算[34]以获得类原型特征。然而，我们观察到，一些支持图像是在低质量，这是很难代表的支持类。因此，我们进一步提出了一个质量测量模块（QMM），以获得每个支持图像的质量测量基于质量测度，对所有支持图像的特征在我们的实验中，我们按照[26]的设计进行训练和测试，以进行公平的比较。我们在PASCAL-5i[24]和COCO [13]数据集上使用1次和5次设置对四种不同的分割进行了评估我们的方法是能够实现国家的最先进的结果，在这两个数据集下的1-shot和5-shot设置。我们的主要贡献可概括如下：• 对于少量语义图像分割，据我们所知，我们是第一个引入一组可学习的嵌入来记忆基类训练期间的元类信息的人，这些信息可以在测试期间转移到新类。具体地说，提出了一个元类记忆模块（MMM）来生成支持图像和查询图像的元类激活图，这有助于最终的查询掩码预测。• 对于 k-shot 场景，提出了一个质量度量模块（QMM）来度量所有支持图像的质量，从而有效地融合所有支持特征。利用QMM，我们的模型能够更加关注高质量的支持样本，更好地进行查询图像分割。• 在PASCAL-5i和COCO数据集上进行的大量实验表明，我们提出的方法在所有设置中都表现最好。具体来说，我们的方法在大规模数据集COCO上的表现明显优于SOTA，平均mIoU增益为5.1%，因为我们的内存嵌入能够学习通用的元类表示。2. 相关作品2.1. 语义分割语义分割[30，36，16，14，15]是将图像中的每个像素分类到指定类别中的任务，并且已应用于各种领域[31，25，37]。最先进的分割方法通常基于完全卷积网络（FCN）[19]，它使用分类网络作为主干，并用卷积层取代完全连接的层来预测密集分割图。后来，为了获得更高的分辨率预测并具有更大的网络感受野，DeepLab [1，2]提出使用扩张卷积，将孔插入卷积滤波器，而不是使用具有下采样的传统卷积。最近，Chen et al.进一步探索了DeepLab V3中的无卷积、多网格、无空间金字塔池化、不同骨干和不同训练大小的效果[3]DeepLab V3+ [4]。这些方法通常需要在训练期间为所有类提供丰富的像素级注释，并且不能推广到只有少数标记图像的新类。2.2. 少镜头语义分割少镜头语义分割[6，8，28，22，24，5]旨在为只有少数标记支持图像的新类别查询图像提供密集分割预测。CANet [35]提出的密集比较模块519支持图像查询图像图2.概述了我们提出的基于元类记忆的网络（MM-Net）用于少量语义分割。与以往的几杆分割方法不同，元类记忆模块（MMM）（橙色）被引入到学习的元类功能，可以在所有的基础和新的类之间共享，并生成元类激活图的支持和查询图像，分别。然后，激活传播模块（APM）（紫色）用于将支持掩码信息传播到查询激活映射以用于查询掩码生成。同时，前景置信度模块（FCM）（黄色）用于从高级图像特征获得置信度图最后，融合的查询激活图与前景置信度图连接，并馈送到FEM[26]中，用于最终的查询分割掩码预测（绿色）。(DCM)以及迭代优化模块（IOM），以给出密集预测并迭代地细化预测。类似地，PANet [29]中使用了原型对齐正则化，这鼓励模型学习更一致的嵌入原型。后来，PGNet [34]使用图形注意力单元（GAU）来构建支持和查询图像之间的局部相似性。Liu等人[17]提出在查询和支持图像上使用Siamese网络来获得两个图像之间的共现特征。最近，遵循PGNet [34]中使用金字塔结构来细化结果的实践，PFENet [26]使用多尺度解码器特征富集模块（FEM）来合并先前的掩码和查询特征，以提供更好的分割图预测。与所有现有的少数镜头语义分割方法不同，我们引入了元类记忆的概念，可以学习一组可共享的元类表示之间的基础和新的类。2.3. Meta Learning大多数最先进的识别方法需要大量具有丰富注释的训练图像，这往往需要巨大的人工标记努力。Meta学习方法[7]，也被称为学习学习，已经被引入以更好地将现有知识转移到新的类或在新的给定数据上获得更快的训练。一组流行的方法[11，23]是学习Meta学习器，当给定关于看不见的类的新数据时，它可以帮助深度神经网络更快地优化。引入了另一组元学习方法[7]来学习更好的参数初始化，该参数初始化可以用更少的训练数据快速优化。度量学习方法[27]属于使用某种相似性度量来获得不同类别上的分类结果另一方面，Munkhdalai et al.[20]提出了一种跨不同任务的外部记忆模型，并可以通过快速参数化来改变其归纳偏差，以快速概括新任务。与这些元学习方法不同的是，我们没有元学习者。相反，我们构建了一个元类记忆体，以捕获代表性的中间层特征，更好地传输基础和新类之间的几个镜头语义分割。3. 方法图 2 给出了我们提出的基于元类存储器的网络（MM-Net）的概述，用于少量语义。抽动分段它包括三个主要模块，元类存储器模块（MMM），激活传播模块（APM）和前景置信度模块（FCM），以及两个现成的模块，特征提取主干和特征富集模块（FEM）[26]。MMM是特别新颖的，其学习可以在所有基本类和新颖类之间共享的Meta类特征，并且分别为支持图像和查询图像生成元类激活图APM用于将支持掩码信息传播到查询激活映射以用于查询掩码生成。FCM保留查询和支持图像的高级特征的常规交互。此外，我们还提出了一个额外的质量测量模块（QMM），以衡量不同的支持图像的质量在k-拍摄设置，以便更好地融合来自不同的支持图像的信息。在下文中，我们将描述主要模块前景置信度模块高级特征前景置信度图前景置信模块支撑掩模特征提取器（预培训）激活传播模块Conv中等特征元类激活图Concat有限元元类内存特征提取器（预培训）Conv激活传播模块中等特征元类激活图融合激活图元类存储器模块查询预测520联系我们∈∈××·× ××Σ⊙∈k=1元类激活图（查询图像）融合激活图在一个实施例中，标记信息传播（APM）的目的是将标记信息（支持掩码）从支持图像传播到未标记的查询图像以用于掩码生成。对于APM，我们采用类似于[34]的方法，但使用我们独特的记忆激活图，其中我们将激活图的每个空间位置处的向量视为节点。图3示出APM的过程。特别地，我们将h qAct Q表示为查询节点，并且将h sAct S表示为支持节点，其中hR，N，和q，s1，2，...，HW。然后，我们计算余弦相似度eq，s=cos（hq，hs）在所有节点对之间，一个来自ActQ，另一个来自图3.激活传播模块（APM）的图示ActS：hT hs我们的MM-Net的详细信息。eq，s=qqq，s ∈ {1，2，… HW}。（二）3.1. 元类存储器模块元类记忆模块（MMM）旨在学习所有类之间可以共享的元类信息，并利用它们对如图2，MMM的输入包括查询图像I Q对于每个查询节点hq，我们获得H W相似性映射eq，然后将其与支持掩码逐元素相乘以保持前景支持节点的相似性，同时将背景支持节点的相似性设置为-∞，然后使用Softmax生成权重：exp（eq，s）或支持图像I/S，以及一组元类嵌入wq，s=ΣHWexp（e.（三））50，D为256。这些元类嵌入可以在网络训练期间通过反向传播来学习。MMM的输出是对应于给定图像的元类特别地，我们首先使用ResNet50作为一个特征提取器来提取支持和查询图像的特征。与之前的几次分割工作类似[35，34]，特征提取器在图像分类任务上进行了预训练我们从第2和第3层选择特征，因为中间层特征更适合迁移，与[35]中的观察结果相同然后，我们应用第2级和第3级特征的通道式连接，然后是3 ×3卷积层，以分别获得查询图像和支持图像的特征图FQ和FS然后，我们计算元类记忆M和图像特征图F之间的相似性，以分别获得查询图像和支持图像的元类激活图ActQ和ActS：Actn （ x ， y ） =σ （ F （ x ， y ）TMn），（1）其中Actn（x，y）指示通过第n次嵌入获得的空间位置（x，y）处的第n个元类激活图，并且σ（）是将0到1之间的值归一化的S形函数。3.2. 激活传播模块利用由N个元类嵌入编码的两个记忆激活图ActS和ActQ，其具有HffN的维度，并且Hff是空间维度，该激活传播模块的目的是然后，我们对所有支持节点特征进行加权求和，并将其与原始查询节点特征相乘：HWvq=wq，s hs，（4）s=1h′q=hq<$vq（5）其中表示元素级乘积。将所有的融合查询特征h′q结合起来，得到融合激活映射Act′QRHW×N.这里，（4）基本上选择最相似的前台支持节点，并且（5）突出显示与前台支持节点匹配的查询节点，同时抑制与前台支持节点匹配的查询节点。后台支持节点，所有这些都在Meta类表示的上下文中。3.3. 前景置信度模块受PFENet [26]的启发，其得出结论，高级特征可以给出指导掩模，告知属于目标类的像素的概率。因此，我们进一步引入前景置信度模块（FCM）来产生高级前景置信度图。与先前基于MMM和APM的过程相比，该过程通过中间层元类特征促进查询和支持图像的交互，FCM通过高级类内特征促进它们的交互，即。预训练ResNet50的第4级功能。支撑掩模元类激活图（支持图像）��ℎ��,1,11，1M1... MN，每个维度为D，其中我们设置Nq，k521为了简单起见，我们将FQ和FS重新用于查询和支持图像的高级骨干特征图522q，s·QQ联系我们seg1ΣQSQq，s−∞∈支持图片支持蒙版查询图片查询蒙版查询前景掩模预测置信度图图4.我们提出的MM-Net在PASCAL-5i数据集的fold-0上的可视化结果分别为了生成前景置信度图C_Q，我们首先通过将其与支持掩码逐元素相乘来更新F_S然后，与APM中的相似性类似，我们计算所有fea对之间的余弦相似性cos（fq，fs）fq∈FQ和fs∈FS的真节点为不具体地，我们利用（2）中的余弦相似性eq，s与背景区域，与第3.2节中相同。对于第k个支持图像，我们有ek。然后，我们计算第k个支持图像和第q个查询节点的质量度量：HWfqfscos（f，f）=q，s ∈ {1，2，… HW}。（六）pk=（σ（eks=1，k ∈ {1，2，… K}，q ∈ {1，2，…HW}对于每个fq，我们将所有支持节点之间的最大相似度作为前景概率值cq∈R，（九）其中σ（）是Sigmoid函数。本质上，（9）建议对于第q个查询节点，较大的相似性和cq=maxs ∈{1，2，.，HW}（cos（f q，fs））。（七）从第k个支持图像开始，我们对支持图像的质量/权重排序越高。之后我们重塑pkq∈ {1，2，… HW}映射到映射P k∈ RH×W，与然后，我们将所有的概率值 cq重塑为前向置信图CQRHXW。最后，我们通过最小-最大归一化来归一化CQC=CQ−min（CQ），（8）Q融合激活图Act′Q。利用得到的K映射P k，k1，2，...，K，我们进一步在k维上应用softmax来归一化不同支持图像的质量图。最后，我们将每个质量图Pk视为Qmax（CQ）−min（CQ）+Q权重图，与对应的融合动作相乘vation mapAct′k，并将它们相加。这样我们其中ε被设置为10−7。Q′利用融合的查询注意图Act’从APM和获得最终的加权平均映射ActQ，其然后是前景置信度图CQQ，我们应用传递到FEM用于分割预测。将两个图按通道级联，然后将其传递到特征富集模块（FEM）[26]以生成最终的分割掩模。3.4. 质量测量模块3.5. 训练损失图像分割损失用于监督分割掩模的生成。具体来说，遵循PFENet [26]，我们应用多个交叉熵损失，其中图中的图。2只用于单次设置。当L段2在最终分段预测上谈到- 射击（）设置，多个支持（i∈{1，2，… L}）在中间掩模Yi .K K >1Q记忆重建丧失。图像已给出。一种常见的方法是对从支持图像中提取的特征[34]进行平均，然后将平均特征传递给进一步处理。这种简单的平均特征融合可能不是好的，因为一些支持图像对于生成类原型特征可能具有差的质量。因此，我们进一步提出了一个质量度量模块（QMM）来选择高质量的支持为了避免元类记忆从学习相似的嵌入，我们提出了一个记忆重建损失函数，以鼓励学习有意义的和多样化的元类嵌入。具体地，我们首先在（1）中获得的所有激活图Actn（x，y）上应用通道式Softmax函数，如exp（Actn（x，y））fq523功能.Actn（x，y）=Nk=1 exp（Actk（x，y））的情况。（十）524Σ- ∈∈L×ΣL L×××表1.PASCAL 5i数据集上的1次和5次mIoU结果我们列出了每种方法使用的骨干和训练大小我们的MM-Net在所有实验设置下都优于最先进的。1发5发PANet [29]FWBF [21]417 ×417512 ×512VGG 16VGG 1642.347.058.059.651.152.641.248.348.151.951.850.964.662.959.856.546.550.155.755.1[17]第十七届中国国际汽车工业展览会PMM [33]PPNet [18]321 ×321321 ×321321 ×321321 ×321417 ×417ResNet 50ResNet 50ResNet 50ResNet 50ResNet 5052.556.0-55.247.865.966.9-66.958.851.350.6-52.653.851.950.4-50.745.655.456.055.756.351.555.554.9-56.358.467.867.4-67.367.851.951.8-54.564.953.253.0-51.056.757.156.858.857.362.0PFENet [26]473 X 473ResNet 50 v261.769.555.456.360.863.170.755.857.961.9我们321 X 321VGG57.167.256.652.358.356.666.753.656.558.3我们321 X 321ResNet 5058.070.058.055.060.260.070.656.360.361.8我们473 X 473ResNet 50 v262.770.257.357.061.862.271.557.562.463.4然后，我们使用Actn（x，y）和元类嵌入M将原始图像特征F（x，y）重建为N到4x3+i，其中x[1，20]和i[1，4]。我们随机选择20，000个支持和查询对进行测试。实验设置。与以前F（x，y）=n=1Actn （x，y）M n.（十一）方法中，我们考虑了包括 VGG- 16 、 ResNet-50 和ResNet-50-v2 在内的多个主干。这里， VGG-16 和ResNet-50是常用的骨干网络，并且本质上，（10）和（11）是选择最相似的元类嵌入来获得重构特征F. 将F重塑为D×HW，然后计算其相关系数。关系矩阵Cf∈RHW×HW：Cf=FTF.（十二）最后，我们将重建损失Recon定义为交叉熵损失，以最大化Cf中对角元素的对数似然。这种重构损失促使不同的元类嵌入是不同的。这是因为，如果所有Mn都是相似的，则将不能很好地重构多样的原始特征F。总损失函数可以总结为LResNet-50-v2是PFENet [26]的修改版本，其中标准的7× 7卷积层被几个3 × 3卷积层取代。所有骨干网络都在ImageNet分类任务中进行了预训练，并在模型训练期间进行了固定我们用SGD来训练其他人网络层的动量和权重衰减分别为0.9和10−4。此外，我们使用0.0025的学习率和4的批量大小来训练我们的模型，用于1次和5次设置。我们所有的实验都在一个NVIDIA RTX 2080Ti GPU上进行。评估指标。根据之前的工作[35，17]，我们采用类平均交集（mIoU）作为消融研究和最终比较的评价指标。4.2.与最新技术水平的=αLi=1Seg1i段2 +γL Recon、（十三）表1和表2示出了不同方法在PASCAL-5i和COCO数据集上的1次和5次mIoU结果。其中α、β和γ是折衷参数，被设置为1、1和0.1。4. 实验4.1. 实现细节数据集。我们遵循 PFENet [26] 在 PASCAL-5i[24] 和COCO [13]数据集上进行实验。PASCAL-5i将PASCALVOC 2012与SDS数据集[9]的外部注释相结合。它包含20个类，分为4个折叠，每个折叠5个类。我们随机抽取了5000个支持查询对进行测试。对于COCO，遵循[26]，我们将其80个类分成4个折叠，每个折叠20个类。文件夹i中的类索引是根据分别我们列出训练的规模和所用的骨干在以前的方法中。对于 CANet 、 PGNet 、 CRNet 和PMM方法，它们都使用具有标准ResNet-50主干的321321的图像大小来提取特征。然而，PPNet和PFENet使用更大的图像尺寸。如在[3]中所观察到的，较大的图像尺寸通常给出更好的此外，PFENet还使用了更强大的ResNet-50-v2主干。为了公平的比较，我们报告我们的方法在不同的图像大小和骨干的性能我们可以看到，我们的MM- Net在所有训练条件下都取得了最好的效果。对于COCO数据集上的实验，PFENet使用641 641的图像大小（如其发布的代码中所指定的），ResNet-+βL方法培训规模骨干0倍折叠-1折叠-2折叠-3是说0倍折叠-1折叠-2折叠-3是说525101-v2作为主干。由于我们的GPU内存526×表2.COCO数据集上的1次和5次mIoU结果从[33]获得CANet* 的结果1发5发我们我们321 ×321473 ×473ResNet 50ResNet 50 v234.934.941.041.037.837.235.237.037.237.538.537.039.640.338.439.335.536.038.038.2表3.在PASCAL-5i数据集上进行了关于元类嵌入数量的消融研究。数量的元类嵌入1镜头折叠0折叠1Fold 2折片3是说2061.470.057.558.061.75062.770.257.357.061.810062.270.455.955.661.0表4.消融研究我们提出的元类记忆模块（MMM）的PASCAL5i数据集。方法1镜头折叠0折叠1Fold 2折片3是说FCM40.447.442.940.542.8FCM +功能59.668.054.553.558.9FCM + MMM62.770.257.357.061.8表5.在PASCAL 5i数据集上进行消融研究，了解哪些特征水平更好。这里（2+3）指示第2和第3级特征被融合，并且（2，3）指示我们分别从第2和第3级特征学习两个记忆方法1镜头折叠0折叠1Fold 2折片3是说MMM（3）+APM59.869.354.255.259.6MMM（2，3）+APM60.270.053.756.060.0MMM（2+3）+全球61.869.156.756.461.2MMM（2+3）+APM62.770.257.357.061.8限制，我们仍然使用ResNet-50-v2作为我们的模型骨干，473 473作为我们的训练大小。尽管如此，如表2所示，我们的1次注射结果仍优于PFENet 5.1%。此外图4给出了PASCAL-5i数据集fold-0的一些定性对于推理速度和GPU内存消耗，我们提出的MM-Net消耗2466 MiB GPU内存（17 FPS），与之前SOTAPFENet的1920 MiB GPU内存消耗（42 FPS）相当MM-Net的内存消耗和运行时间稍长是由于我们引入了元类内存模块。4.3.消融研究Mate-class内存嵌入的数量。我们进行消融实验来分析有多少元类表6.在PASCAL 5i数据集上，在1次激发设置下对我们提出的记忆重建丢失进行消融研究Recon Loss On：1 shot支持查询√√√√60.764.162.562.770.269.870.270.255.656.157.757.356.255.556.157.060.761.461.661.8表7.在PASCAL 5i数据集上的5次激发设置下，对我们提出的质量测量模块进行消融研究。方法5投折叠0折叠1Fold 2折片3是说我们的，不含QMM60.771.056.961.862.6我们的w/QMM62.271.557.562.463.4记忆嵌入更适合记忆学习。表3显示50个嵌入产生最佳性能。这表明网络通过50个元类学习到更有意义和有效的特征。因此，我们使用50个元类内存嵌入进行以下实验。元类记忆模块的作用。我们构建了两个基线，以显示我们提出的MMM的有效性第一基线是我们仅使用前景置信度图用于掩码解码（在表4中表示为“FCM”）。第二个基线是我们添加用于掩码预测的中间级别图像特征具体来说，我们提取的中间级功能（第2和第3级）的支持和查询图像。代替计算元类激活映射，我们直接将图像特征传递给APM和FEM来预测查询掩码。该基线在表4中表示为如在表4中可以看到的，与直接使用用于解码的中级特征（“FCM + Feat”）相比，我们提出的方法这表明，我们提出的元类内存模块能够提供更好的类原型信息的查询掩码预测。图5给出了计算的元类激活图Act的一些示例，其中我们从所有50个激活图Act方法培训规模骨干0倍折叠-1折叠-2折叠-3是说0倍折叠-1折叠-2折叠-3是说PANet [29]417 ×417512 ×512321 ×321321 ×321641 ×641VGG 16----20.9----29.7FWBF [21]ResNet 10119.918.021.028.921.219.121.523.930.123.7CANet*[35]ResNet 5025.130.324.524.726.126.032.426.127.027.9PMM [33]ResNet 5029.536.829.027.030.633.842.033.033.335.5PFENet [26]ResNet 101 v234.333.032.330.132.438.538.638.234.337.4折叠0折叠1Fold 2折片3是说527图像地图1地图2地图3地图4地图5图5.元类激活图Act的可视化结果。我们从所有50个激活图中随机选择5个，并且所有激活图都是从相同的元类记忆中获得的。在第一行中，我们可以看到元类记忆突出显示人元类激活图，并且所有的图从相同的学习的元类存储器获得。正如我们所看到的，不同的元类嵌入记忆不同的元类特征并捕获图像中的不同模式，例如，在第一行中捕捉人的头部、躯干、边缘等用于记忆学习的功能。我们进行消融实验，以分析哪一个级别的特征更适合记忆学习。表5示出了融合第2级和第3级特征我们的猜想是，因为第二级特征捕获更多的边缘信息，第三级特征捕获更多的零件和对象信息，它们的组合导致学习更好的元类内存嵌入。激活传播模块的影响利用查询和支持图像的Meta类激活图，代替使用APM，将支持掩码信息传播到查询激活图的一种简单方式是在支持激活图上的前景区域内应用全局平均池化以获得全局平均前景表示向量，然后将其与查询激活图中的每个节点逐元素相乘。这在表5中表示为“MMM（2+3）+全局”。可以看出，APM能够将mIoU提高0.6%。记忆重建丧失的影响。表6显示了我们提出的记忆重建损失的消融研究。可以看出，有损失的结果比没有使用损失的结果好得多，清楚地证明了其有效性。注意，重建损失可以应用于不同特征的重建，包括查询特征、支持特征和这两个特征。我们可以看到，应用支持特性的损失会导致整体最佳性能。质量测量模块的效果。表7显示我们提出的质量测量模块的有效性。对于基线方法（我们的w/oQMM），我们使用APM从5个不同的支持图像独立地获得5个融合的激活图，然后我们按照常规方式对5个图进行平均，并将平均图传递给FEM用于分割掩模生成。我们提出的QMM将mIoU提高了0.8%。这表明，高质量的支持样本更有助于查询分割掩码预测。5. 结论本文提出了一种新的基于元类记忆的少镜头语义分割方法（MM-Net），主要包括MMM、APM、FCM和QMM。我们的方法的关键新颖性在于MMM，在那里我们引入了一组可学习的元类嵌入，以允许基类和新类之间的公共知识转移。另一个新颖性来自QMM，其可以测量每个支撑图像的质量通过所有这些组件，我们的MM-Net在PASCAL-5i和COCO数据集上显着改善了SOTA结果鸣谢。本研究得到了RIE 2020产业联盟基金-产业合作项目（IAF-ICP）资助计划的支持，以及行业合作伙伴的现金和实物捐助。这项研究还得到了新加坡国家研究基金会在其AI新加坡计划（AISGAward No：AISG-RP-2018-003）下的支持，以及MoETier- 1研究补助金：RG 28/18（S），RG 22/19（S）和RG 95/20。这项研究也得到了Monash Start-up的部分支持SenseTime和SenseTime Gift Grant。528引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[5] 董南青和邢P.具有原型学习的少量语义在BMVC，第3卷，2018年。[6] Zhibo Fan，Jin-Gang Yu，Zhihao Liang，Jiarong Ou，Changxin Gao，Gui-Song Xia，and Yuanqing Li. Fgn：用于少量实例分割的完全引导网络。在IEEE/CVF计算机视觉和模式识别会议的论文集，第9172-9181页[7] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。arXiv预印本arXiv：1703.03400，2017。[8] Siddhartha Gairola，Mayur Hemani，Ayush Chopra，andBal- aji Krishnamurthy.Slimpropnet：改进的相似性传播的少数拍摄图像分割。 arXiv 预印本 arXiv ：2004.15014，2020。[9] BharathHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。欧洲计算机视觉会议，第297-312页。Springer，2014.[10] 黄少立和陶大成。你所需要的只是一个好的代表：一个多层次和分类器为中心的表示，为少数拍摄学习。arXiv预印本arXiv：1911.12476，2019。[11] Zhengguo Li，Fengwei Zhou，Fei Chen，and Hang Li.Meta- sgd：学习快速学习，进行少量学习。arXiv预印本arXiv：1707.09835，2017。[12] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[13] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[14] Weide Liu，Guosheng Lin，Tianyi Zhang，and ZichuanLiu.用于快速视频对象分割的引导共分割网络心理状态IEEE Transactions on Circuits and Systems forVideo Technology，31（4）：1607[15] Weide Liu，Zhonghua Wu，Henghui Ding，Fayao Liu，Jie Lin，and Guosheng Lin.具有全局和局部对比学习的少镜头分割。arXiv预印本arXiv：2108.05293，2021。[16] Weide Liu，Chi Zhang，Guosheng Lin，Tzu-Yi Hung，and Chunyan Miao.最大二部图匹配的弱监督分割。第28届ACM国际多媒体会议论文集，第2085- 2094页，2020年[17] Weide Liu ， Chi Zhang ， Guosheng Lin ， and FayaoLiu.Crnet ：用于少数镜头分割的交叉引用网络在IEEE/CVF计算机视觉和模式识别会议的论文集，第4165-4173页[18] 刘永飞，张祥义，张松阳，何旭明.用于少量语义分割的部件感知原型网络。 arXiv 预印本 arXiv ：2007.06309，2020。[19] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[20] Tsendsuren Munkhdalai和Hong Yu。Meta网络。机器学习研究的先驱，70：2554，2017。[21] Khoi Nguyen和Sinisa Todorovic。用于少镜头分割的特征加权和增强。在IEEE计算机视觉国际会议论文集，第622-631页[22] Cheng Ouyang，Carlo Biffi，Chen Chen，Turkay Kart，Huaqi Qiu，and Daniel Rueckert.使用superpix-els进行自我监督：无标注训练少镜头医学图像分割。欧洲计算机视觉会议，第762-780页。Springer，2020年。[23] Andrei A Rusu、Dushyant Rao、Jakub Sygnowski、OriolVinyals、Razvan Pascanu、Simon Osindero和Raia Had-sell。具有潜在嵌入优化的元学习。arXiv预印本arXiv：1807.05960，2018。[24] Amirreza Shaban，Shray Bansal，Zhen Liu，Irfan Essa，and Byron B

下载后可阅读完整内容，剩余1页未读，立即下载