少样本分割中的自适应掩码代理方法的评估和优势

需积分: 5 80 浏览量更新于2023-10-16 收藏 12.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

52490AMP：自适应掩码代理用于少样本分割0MennatullahSiam阿尔伯塔大学0mennatul@ualberta.ca0Boris N. OreshkinElement AI0boris@elementai.com0MartinJagersand阿尔伯塔大学0jag@cs.ualberta.ca0摘要0深度学习通过在大规模数据集上进行训练而蓬勃发展。然而，在机器人应用中，样本效率至关重要。我们提出了一种新颖的自适应掩码代理方法，它通过少量标记样本构建最终分割层的权重。它利用基础嵌入的多分辨率平均池化，通过标签进行掩码，作为新类别的正代理，同时与先前学习的类别签名进行融合。我们的方法在PASCAL-5i数据集上进行了评估，并在少样本语义分割中优于现有方法。与先前的方法不同，我们的方法不需要估计参数或原型的第二个分支，这使得它可以与基于2流动和外观的分割网络一起使用。我们进一步提出了一种用于评估对象分割的连续学习的新设置，称为增量PASCAL（iPASCAL），在这个设置中，我们的方法优于基线方法。我们的代码公开可用于https://github.com/MSiam/AdaptiveMaskedProxies。01. 引言0儿童能够在有限的样本中适应他们的知识并学习周围的环境[18]。当前深度学习方法的主要瓶颈之一是它们对大规模训练数据的依赖性。然而，收集包含不同环境所需的所有对象类别的大规模数据集是不可行的。这促使了少样本学习方法的出现[12, 38, 32, 26,27]。这些早期的工作主要集中在解决少样本图像分类任务，其中支持集包含少量图像及其类别标签。解决少样本分割任务的最早尝试似乎是Shaban等人提出的方法[28]，该方法预测最终分割层的参数。这和其他先前的方法都需要训练额外的分支来指导骨干分割网络。额外的网络引入了额外的计算负担。此外，0掩码代理0旧权重0NMAP层0FCN-8s0多分辨率印记0自适应掩码代理0图1：AMP中的多分辨率自适应印记。0现有的方法无法简单地扩展以处理包含新颖和先前学习类别注释的连续数据流。为了解决这些缺点，我们提出了一种新颖的样本高效自适应掩码代理方法，称为AMP。它通过多分辨率印记构建最终分割层的权重。AMP不依赖于第二个引导分支，如图1所示。根据[19]的术语，代理是给定类别的代表性签名。在少样本分割设置中，支持集包含每个支持图像的像素级类别标签。因此，给定类别的一组图像对于支持集中的骨干全卷积网络（FCN）的响应可以通过分割标签进行掩码，然后进行平均池化以创建该类别的代理。这形成了我们称之为归一化掩码平均池化层（NMAP在图1中）。计算得到的代理用于设置新类别的1x1卷积滤波器，形成称为权重印记[23]的过程。我们提出了多分辨率权重印记来提高我们方法的分割准确性。我们进一步考虑连续学习设置，其中少样本算法可能会被呈现一系列支持集（连续语义分割场景）。在与此场景相关联的情况下，我们建议使用新的代理来调整先前学习的类别权重。52500每个传入的支持集。仅对正类别的权重进行印记，即新添加的类别是不够的，因为新样本还会包含有关其他类别的新信息。例如，学习船的新类别还将包括有关背景类别的新信息，其中应包括海洋。为了解决这个问题，提出了一种新颖的方法，用于在不进行反向传播的情况下更新先前学习类别的权重。我们方法的适应部分受到了学习自适应相关滤波器的经典方法的启发。相关滤波器可以追溯到1980年代。最近，快速目标跟踪方法依赖于手工制作的特征来形成相关滤波器，并使用运行平均值对其进行调整。在我们的方法中，先前学习的权重的适应基于类似的方法，从而能够处理包含新类别和现有类别的连续数据流。这为利用分割网络以样本高效的方式不断学习语义分割打开了大门。总之，AMP在三种情况下显示出样本高效性：（1）少样本语义分割，（2）视频对象分割和（3）连续语义分割。与以前的方法不同，AMP可以轻松地与任何预训练网络一起使用，而无需训练第二个分支，这意味着参数更少。在视频对象分割场景中，我们展示了我们的方法可以与2流动和外观网络一起使用，而无需任何额外的引导分支。AMP是灵活的，仍然允许使用支持图像-标签对进行反向传播。代理权重印记步骤可以与反向传播步骤交错进行，以提高适应过程。AMP在PASCAL- 5 i[28]、DAVIS基准[22]、FBMS[20]和我们提出的iPASCAL设置上进行了评估。本文的新颖贡献可以总结如下。0•标准化的掩膜平均池化层，可以从主干FCN响应中高效计算出类别特征，而无需依赖额外的分支。0•多分辨率印记方案，从主干FCN的多个分辨率中印记代理以提高准确性。0• 新颖的适应机制，根据新的代理更新已知类别的权重。0• 实证结果表明，我们的方法在PASCAL- 5i和DAVIS'16上是最先进的。0•iPASCAL，PASCAL-VOC的新版本，用于评估连续语义分割。02. 相关工作02.1. 少样本分类0在少样本分类中，模型提供了一个支持集和一个查询图像。支持集包含少量标记样本，可用于训练模型，而查询图像用于测试最终模型。该设置被公式化为k-shotn-way，其中k表示每个类别的样本数，n表示支持集中的类别数。早期解决少样本学习问题的方法依赖于贝叶斯方法。最近，Vinyals等人提出了基于匹配网络的方法，该方法学习了一个端到端可微的最近邻。在此之后，Snell等人提出了基于原型的网络，基于一个假设，即存在一个嵌入空间，其中属于同一类的点围绕其对应的中心点聚集。Qiao等人提出了一种参数预测方法。最后，Qi等人提出了一种计算印记权重的方法。02.2. 少样本语义分割0与假设具有图像级类别标签的分类场景不同，少样本分割依赖于支持图像的逐像素类别标签。用于评估少样本分割的流行数据集是PASCAL- 5i。该数据集被分为4个包含5个类别的折叠。一个折叠包含来自5个类别的标记样本，用于评估少样本学习方法。其余15个类别用于训练。Shaban等人提出了一种2分支方法，其中第二个分支预测最终分割层的参数。Shaban等人提出的基线方法包括最近邻、连体网络和简单微调。Rakelly等人提出了一种2分支方法，其中第二个分支充当条件分支。最后，Dong等人受到原型网络的启发，设计了另一种2分支方法来学习少样本分割问题的原型。显然，先前提出的大多数方法都需要在模拟的少样本设置中训练额外的分支。它们不能简单地扩展到在处理具有多个类别的连续数据流时继续适应。在与之并行的工作中，Zhang等人提出了一种单分支网络，从掩膜平均池化层中获取引导特征。这与我们的NMAP层类似。Zhang等人使用其池化层的输出来计算对基础网络的引导。AMP使用NMAP输出来印记1x1卷积层的权重。AMP具有以下优点：（i）它允许在连续数据流中适应印记权重，（ii）它可以无缝地与任何预训练网络配对，包括用于视频对象分割的2流网络。P rl = 1kˆP rl =P rl∥P rl ∥2.(1b)52510支持集图像 + 标签0基础网络0第一阶段：印记0第二阶段：分割0提取的嵌入0AMP：自适应掩蔽代理0标准化掩蔽平均池化0用于最终分类的1x1卷积0第一阶段0第二阶段0图2：使用NMAP层的AMP。为了简单起见，它仅显示了对最终层的印记。尽管如此，我们的方案适用于多个分辨率级别。03. AMP：自适应掩蔽代理0我们称之为AMP的方法深深扎根于权重印记的概念[23]。印记过程最初是在分类的背景下提出的[23]。该方法使用基础特征提取器的标准化响应作为最终全连接层的权重。在这个背景下，给定类别的特征提取器的标准化响应被称为代理。这种学习方案的正当性基于度量学习、代理NCA损失和softmax交叉熵损失之间的关系[19]。1x1卷积层等效于全连接层。因此，我们建议利用基础分割网络的激活作为代理来印记最终分割层的1x1卷积滤波器。当与查询图像卷积时，印记的代理会激活与其类别特征最相似的像素。然而，在语义分割中执行权重印记并不像在分类中那样简单。首先，在分类设置中，输出嵌入向量对应于单个类别，因此可以直接用于印记。相比之下，分割网络输出3D嵌入，其中包含了多种不同类别的特征，包括新颖的和之前学习到的。其次，与分类不同，多分辨率支持在分割中是必不可少的。我们提出以下新颖的架构组件来解决上述挑战。首先，在第3.1节和第3.2节中，我们提出了代理掩蔽和适应方法来处理多类别分割。其次，在第3.3节中，我们提出了一种多分辨率权重印记方案，以在印记过程中保持分割的准确性。每种方法对整体准确性的贡献在实验中得到了进一步的验证0在第4.2节中。03.1. 标准化掩蔽平均池化0我们提出通过在平均和标准化之前对嵌入进行掩蔽，来解决包含来自单个图像中多个类别的响应的3D分割基础网络嵌入的印记问题。我们将这个功能封装在一个NMAP层中（参见图1和图2）。为了构建一个目标类别的代理，NMAP层通过双线性上采样分割基础网络的输出，并通过支持集中目标类别的逐像素标签对其进行掩蔽。然后进行平均池化和标准化，具体如下：0k =0i = 101/N0对于每个像素x ∈ X，F ri ( x )Y i l ( x )，(1a)0这里，Y i l 是第i个图像的二值掩蔽，表示新颖类别l，F ri是第i个图像和第r个分辨率的相应输出特征图。X是所有可能的空间位置的集合，N是被标记为前景的像素数，用于类别l。掩蔽平均池化层的标准化输出ˆ P r l可以进一步用作代表类别l和分辨率r的代理。对于新颖类别，代理可以直接用作滤波器权重。对于少样本学习，对于给定类别在支持集中提供的样本的所有NMAP处理特征的平均值被用作其代理。Final Probability MapDifferent Dilation Factorscan be used to improve overall segmentation accuracy. Thisis illustrated in Fig. 3, showing the output heatmaps from1x1 convolution using our proposed proxies as imprintedweights at three different resolutions, ˆP 1l , ˆP 2l , ˆP 3l . Clearly,the coarse resolution captures blobs necessary for globalalignment, while the ﬁne resolution provides the granulardetails required for an accurate segmentation.This idea is further supported by the T-SNE [17] plot ofthe proxies learned in the proposed NMAP layer at differ-ent resolutions depicted in Fig. 4. It shows the 5 classes be-longing to fold 0 in PASCAL-5i at 3 resolutions imprintedby our AMP model. A few things catch attention in Fig. 4.First, clustering is different at different resolutions. Fusingprobability maps at different resolutions may therefore beadvantageous from statistical standpoint, as slight segmen-tation errors at different resolutions may cancel each other.Second, the class-level clustering is not necessarily tight-est at the highest resolution level: mid-resolution layer L2seems to provide the tightest clustering. This may seemcounter-intuitive. Yet, this is perfectly in line with the lat-est empirical results in weakly-supervised learning (see [2]and related work). For example, [2] clearly demonstratesthat convolutional networks store most of the class level in-formation in the middle layers, and mid-resolution featuresresult in the best transfer learning classiﬁcation results.525203.2. 自适应代理0NMAP层解决了处理单个支持集的问题。然而，在实践中，许多应用程序需要处理连续的支持集流。这在连续语义分割和视频对象分割场景中是这样的。在这种情况下，学习算法会接收到一系列的支持集。每个传入的支持集可能会提供关于新类和先前学习的类的信息。利用两者而不仅仅是印记新类的权重是有价值的。同时，在先前学习的类（例如背景）的情况下，简单地覆盖网络从大规模训练中学到的内容是不明智的。一个很好的例子是添加类别“船”，很明显，“背景”类别需要更新以匹配“海背景”，特别是如果带有海背景的图像不是大规模训练数据集的一部分。为了利用连续数据流中可用的信息，我们提出了以下指数平滑自适应方案，更新率为α：0ˆ W r l = α ˆ P r l + (1 − α ) W r l . (2)0这里的ˆ P r l是类别l的归一化掩码代理，W rl是先前学习的分辨率为r的1x1卷积滤波器，ˆ W rl是更新后的W rl。更新率可以被视为超参数或学习得到。自适应机制在少样本设置和持续学习设置中应用不同。在少样本设置中，支持集包含每个新类前景和背景的分割掩码。自适应过程是在大规模训练的背景类权重上执行的。新类别的代理直接从NMAP层通过印记而来，没有自适应。在持续学习设置中，当处理新的支持集时，所有已学习到的类别的代理都可用。因此，我们为当前任务的支持集中可用的所有以前任务中的样本学习到的所有代理进行自适应。03.3. 多分辨率印记方案0在最初提出印记的分类场景中，分辨率方面并不自然突出。相反，在分割场景中，分辨率对于获得非常准确的分割掩码预测是自然重要的。此外，我们认为印记来自多个分辨率级别的输出并将这些概率图融合到最终的概率图中可以提高整体分割准确性。图3展示了使用我们提出的代理作为印记权重在三个不同分辨率下进行1x1卷积的输出热图，ˆ P 1 l，ˆ P 2 l，ˆ P 3l。显然，粗分辨率捕捉到了全局对齐所需的斑点，而细分辨率提供了准确分割所需的细节。这个想法在图4中所示的不同分辨率下在我们提出的NMAP层学到的代理的T-SNE[17]图中得到了进一步的支持。图4展示了由我们的AMP模型印记的PASCAL-5i中属于第0折的5个类别在3个分辨率下学到的代理。图4中有几个值得注意的地方。首先，不同分辨率下的聚类是不同的。因此，融合不同分辨率的概率图可能从统计角度上是有优势的，因为不同分辨率下的轻微分割错误可能会相互抵消。其次，类别级别的聚类不一定在最高分辨率级别上最紧密：中分辨率层L2似乎提供了最紧密的聚类。这可能看起来违反直觉。然而，这与最新的弱监督学习的实证结果完全一致（参见[2]和相关工作）。例如，[2]清楚地证明了卷积网络在中间层存储了大部分类别级别的信息，并且中分辨率特征导致了最佳的迁移学习分类结果。0扩张的FCN-8s0图3：使用来自不同分辨率级别的代理进行多分辨率印记。03.4. 基础网络架构0我们分割网络中使用的骨干架构是在ImageNet [3]上预训练的VGG-16[31]。类似于FCN8s架构[16]，我们使用跳跃连接来从更高分辨率的特征图中受益，并使用1x1卷积层将特征空间映射到标签空间。与FCN8s不同，我们使用具有固定权重的双线性插值层进行上采样。这是为了简化基于支持集的权重印记（转置卷积很难印记）。我们还依赖于上述基础网络的扩展，即使用扩张卷积[40]，我们称之为DFCN8s。最后两个池化层被分别具有扩张因子2和4的扩张卷积所替代。这增加了感受野而不影响分辨率。最后，网络的更紧凑版本，去掉了两个最终的卷积层，被称为Reduced-DFCN8s。在DFCN8s和Reduced-DFCN8s的情况下，最后的分类层和两个跟随扩张卷积的1x1卷积层是被印记的层。在视频对象分割场景中，我们使用了一个2流的wide-resnet[39]架构。每个流都有11个残差块，然后将来自运动和外观的输出激活相乘。运动以Liu等人[15]为基础的光流呈现给模型，并使用颜色轮转换为RGB。我们的方法的灵活性使其能够与不同的架构配合使用，而无需设计另一个分支来提供指导、预测参数或原型。Few-shot segmentation.We use the same setup asShaban et al. [28]. The initial training phase relies on alarge scale dataset Dtrain including semantic label mapsfor classes in Ltrain. During the test phase, a support setand a query image are sampled from Dtest containing novelclasses with labels in Ltest, where Ltrain ∩ Ltest = ∅. Thesupport set contains pairs S = (Ii, Yi(l))ki=1, where Ii isthe ith image in the set and Yi(l) is the corresponding bi-nary mask. The binary mask Yi(l) is constructed with novelclass l labelled as foreground while the rest of the pixels areconsidered background. As before, k denotes the number ofimages provided in the support set. It is worth noting thatduring training only images that include at least one pixelbelonging to Ltrain are included in Dtrain for large-scaletraining. If some images have pixels labelled as classes be-longing to Ltest they are ignored and not used in the back-propagation. Our model does not need to be trained in the52530图4：生成的掩码代理的T-SNE [17]嵌入的可视化。图层L1，L2，L3表示较小到较高分辨率的特征图。0使用扩张卷积[40]，我们称之为DFCN8s。最后两个池化层被分别具有扩张因子2和4的扩张卷积所替代。这增加了感受野而不影响分辨率。最后，网络的更紧凑版本，去掉了两个最终的卷积层，被称为Reduced-DFCN8s。在DFCN8s和Reduced-DFCN8s的情况下，最后的分类层和两个跟随扩张卷积的1x1卷积层是被印记的层。在视频对象分割场景中，我们使用了一个2流的wide-resnet[39]架构。每个流都有11个残差块，然后将来自运动和外观的输出激活相乘。运动以Liu等人[15]为基础的光流呈现给模型，并使用颜色轮转换为RGB。我们的方法的灵活性使其能够与不同的架构配合使用，而无需设计另一个分支来提供指导、预测参数或原型。03.5. 训练和评估方法0通过采样支持集和查询图像，在少样本情况下进行语义分割。它以正常方式进行训练，使用图像-标签对。连续语义分割。在连续语义分割场景中，我们提出了基于PASCAL VOC[5]的设置，遵循[37]中描述的类增量学习场景。我们将提出的设置称为增量PASCAL（iPASCAL）。它旨在评估方法在持续学习环境中的样本效率。数据集中的类别被分为Ltrain和L incremental，每个类别有10个类别，其中Ltrain∩L incremental = �。属于Ltrain的类别用于构建训练数据集Dtrain并预训练分割网络。与少样本情况下的静态设置不同，连续分割模式以不同的遇到的任务逐步提供图像-标签对。任务以三元组（ti，（Xi，Yi））的形式存在，其中（Xi，Yi）表示任务ti的整体图像和标签批次。每个任务ti在其批次中引入两个新类别进行学习。该批次包含至少一个像素属于这两个新类别的样本。任务ti的标签包括属于该任务的两个新类别以及已经学习过的任务t0，...，ti-1中的先前学习的类别。04. 实验结果0我们在三种不同场景下评估了提出的AMP方法的样本效率：(1)few-shot分割，(2)视频目标分割，和(3)连续语义分割。在few-shot分割场景中，我们在pascal-5i[28]上进行评估(详见第4.1节)。我们进行了消融研究，以展示多分辨率印记和代理适应在第4.2节中的改进效果。该研究还比较了与随机生成的权重上的反向传播相比，与反向传播相结合的权重印记。第4.4节展示了AMP在连续语义分割背景下的好处。4.1. Few-Shot Semantic Segmentation1https://github.com/MSiam/AdaptiveMaskedProxiescompared to OSLSM [28] as well as other baseline meth-ods for few-shot segmentation. AMP outperforms the base-line ﬁne-tuning [28] method by 10.8% in terms of mIoU,without the need for extra back-propagation iterations bydirectly using the adaptive masked proxies. AMP outper-forms OSLSM [28] in both the 1-shot and the 5-shot cases.Unlike OSLSM, our method does not need to train an ex-tra guidance branch. This advantage provides the meansto use AMP with a 2-stream motion and appearance basednetwork as shown in Section 4.3. On top of that, AMP out-performs co-FCN method [25].Table 3 reports our results in comparison to the state-of-the-art using the evaluation framework of [25] and [4]. Inthis framework the mIoU is computed as the mean of theforeground and background IoU averaged over folds. AMPoutperforms the baseline FG-BG [4] in the 1-shot and 5-shot cases. When our method is coupled with two iterationsof back-propagation through the last layers solely it outper-forms co-FCN [25] in the 5-shot case by 3%.Qualitative results on PASCAL-5i are demonstrated inFigure 5 that shows both the support set image-label pair,and segmentation for the query image predicted by AMP.Importantly, segmentation produced by AMP does not seemto depend on the saliency of objects. In some of the queryimages, multiple potential objects can be categorized assalient, but AMP learns to segment what best matches thetarget class.52540表1：PASCAL-5i上1-way1-shot分割的mIoU。FT：Fine-tuning。AMP-1和AMP-2：我们使用DFCN8s和Reduced-DFCN8s方法，分别。红色、蓝色：最佳和次佳方法。co-FCN评估来自[41]。01-NN [28] Siamese [28] FT [28] OSLSM [28] co-FCN [25] AMP-1 (我们的) AMP-2 (我们的)0第0折 25.3 28.1 24.9 33.6 36.7 37.4 41.90第1折 44.9 39.9 38.8 55.3 50.6 50.9 50.20第2折 41.7 31.8 36.5 40.9 44.9 46.5 46.70第3折 18.4 25.8 30.1 33.5 32.4 34.8 34.70平均 32.6 31.4 32.6 40.8 41.1 42.4 43.40表2：PASCAL-5i上1-way 5-shot分割的mIoU。FT：Fine-tuning。AMP-2 +FT(2)：我们的方法进行2次fine-tuning迭代。红色、蓝色：最佳和次佳方法。co-FCN评估来自[41]。01-NN [28] LogReg [28] OSLSM [28] co-FCN [25] AMP-2 (我们的) AMP-2 + FT(2) (我们的)0第0折 34.5 35.9 35.9 37.5 40.3 41.80第1折 53.0 51.6 58.1 50.0 55.3 55.50第2折 46.9 44.5 42.7 44.1 49.9 50.30第3折 25.6 25.6 39.1 33.9 40.1 39.90平均 40.0 39.3 43.9 41.4 46.4 46.90在提出的增量PASCALVOC评估框架iPASCAL上对连续语义分割进行了评估。我们还在DAVIS [22]和FBMS[20]的视频目标分割基准上评估了AMP的在线适应场景(详见第4.3节)。除非另有说明，我们使用平均交并比(mIoU)[28]作为评估指标。mIoU表示每个折叠的每个类别IoU的平均值。我们的训练和评估代码基于语义分割工作[29]，并已公开提供1。0在PASCAL-5i上的训练和评估设置如下。基础网络使用RMSProp[9]进行训练，学习率为10^(-6)，L2正则化权重为5x10^(-4)。对于每个折叠，模型在15个训练类上进行预训练，并在剩下的5个类上进行评估，这些类在预训练期间未见过。few-shot评估在1000个随机抽样的任务上进行，每个任务包括一个支持集和一个查询集，类似于OSLSM设置[28]。通过对α参数、迭代次数和学习率进行超参数随机搜索。搜索是通过在训练集的10个类上进行训练，并在训练集的其他5个类上进行评估来进行的。从而确保所有使用的类都在评估阶段使用的折叠之外。选择的α参数为0.26。在进行fine-tuning的情况下，选择的学习率为7.6x10^(-5)，对于5-shot情况进行2次迭代。表1和表2分别显示了在PASCAL-5i上进行1-shot和5-shot分割的mIoU(mIoU按照[28]中的前景类别计算)。我们的方法与OSLSM[28]以及其他基线方法进行了比较。在mIoU方面，AMP方法比基线fine-tuning方法[28]提高了10.8%，而无需额外的反向传播迭代，直接使用自适应掩码代理。AMP在1-shot和5-shot情况下均优于OSLSM[28]。与OSLSM不同，我们的方法不需要训练额外的引导分支。这个优势提供了使用基于2流动作和外观的网络的AMP的手段，如第4.3节所示。此外，AMP优于co-FCN方法[25]。表3报告了我们在使用[25]和[4]的评估框架中与最新技术的结果进行比较。在该框架中，mIoU被计算为在折叠上前景和背景IoU的平均值。AMP在1-shot和5-shot情况下优于基线FG-BG[4]。当我们的方法仅与最后几层的两次反向传播相结合时，它在5-shot情况下优于co-FCN [25]3%。图5展示了在PASCAL-5i上的定性结果，显示了支持集图像-标签对以及AMP预测的查询图像的分割结果。重要的是，AMP产生的分割似乎不依赖于对象的显著性。在一些查询图像中，多个潜在的对象可以被归类为显著，但AMP学会分割最符合目标类别的对象。04.2. 消融研究0我们进行了一项消融研究，以证明AMP中不同组件的有效性。结果在表4中报告。对于我们的最终方法，它对应于在fold 0上提供的表1和表2的评估。52550图5：在PASCAL- 5 i 1-way 1-shot上的定性评估。显示了支持集和对查询图像的预测。0表3：在PASCAL- 5i数据集上进行1-way，1-shot和5-shot分割的定量结果，按照[4]中的评估。FT：在1-shot和5-shot设置中进行2次微调。红色，蓝色：最佳和次佳方法。0方法 1-Shot 5-Shot0FG-BG [4] 55.1 55.60OSLSM [28] 55.2 -0co-FCN [25] 60.1 60.80PL+SEG [4] 61.2 62.30AMP-2（我们的） 61.9 62.10AMP-2 + FT（我们的） 62.2 63.80表4：印刷方案的不同设计选择的消融研究。适应：α参数非零。多分辨率：执行多分辨率印刷。Imp：使用我们的代理印刷权重。FT：微调。0方法适应多分辨率 N-Shot mIoU0仅FT � � 5 28.70改进 � � 5 40.30改进 + FT � � 5 41.80改进 � � 1 13.60改进 � � 1 34.80改进 � � 1 41.90根据Shaban等人的研究[28]。首先，AMP明显优于使用随机生成的权重进行简单微调的方法，提高了11.6％。其次，AMP可以与印刷权重的微调有效结合，进一步提高性能。这对于连续数据流处理非常理想。第三，AMP的代理适应组件是有效的：在1-shot场景中，α设置为0时，不进行适应会使准确性下降28.3％。最后，多分辨率印刷是有效的：不执行多分辨率印刷。0印刷在1-shot场景中降低了mIoU。我们得出结论，仅为新类别印刷权重并不是最佳选择。印刷必须与所提议的适应和多分辨率方案结合使用，才能在分割场景中发挥作用。04.3. 视频对象分割0为了评估在视频对象分割场景中的AMP，我们使用它来调整基于伪标签的2流分割网络，并在DAVIS-2016基准测试[22]上进行评估。在这里，我们的基础网络是一个类似于[30]的2流WideResNet模型。我们使用提议的代理适应方案使模型适应视频序列中对象经历的外观变化，其中α参数设置为0.001。适应机制在模型本身输出的分割概率图的掩码代理之上操作，因为模型已经学习了背景-前景分割。因此，我们将其称为“自适应”，因为它是无监督的视频对象分割。由于我们没有使用手动分割掩码，所以我们将我们的结果与利用运动和外观模型的最先进的无监督方法进行比较。表5显示了AMP和基线在验证集上的mIoU。我们的方法在使用全连接条件随机场[14]后处理的情况下优于最先进的方法（大多数在DAVIS'16上评估的方法都应用了CRF后处理）。表6显示了我们在FBMS数据集上的自适应结果，它优于除MotAdapt[30]之外的所有方法，与之相当。这些结果揭示了我们方法的一个弱点：它无法处理高膨胀率，因为它依赖于掩码代理。高膨胀率可能导致背景和前景之间的干扰。JFR63.367.971.573.967.477.475.7F69.274.976.877.577.879.079.052560表5：在DAVIS'16上无监督方法和自适应掩码印刷方案之间的定量比较。0测量 FSeg [10] LVO [36] MOTAdapt [30] ARP [13] PDB [33] AMP + CRF (我们的方法)0平均值 70.7 75.9 77.2 76.2 77.2 78.90召回率 83.5 89.1 87.8 91.1 90.1 91.60衰减 1.5 7.0 5.0 7.0 0.9 4.70平均值 65.3 72.1 77.4 70.6 74.5 78.40召回率 73.8 83.4 84.4 83.5 84.4 87.30衰减 1.8 1.3 3.3 7.9 0.2 2.70表6: 在FBMS数据集（测试集）上的定量结果。0测量 FST [21] CVOS [34] CUT [11] MPNet-V[35] LVO[36] MotAdapt [30] AMP (我们的方法)0准确率 76.3 83.4 83.1 81.4 92.1 80.7 82.70图6: 在iPASCAL上的N-way评估。Naive #M:每个样本进行M次迭代的微调。Imprint A:我们的方法使用α作为任务类别集合A的值。0AMP中的背景和前景特征之间的差异。AMP的另一个弱点是，它可能在分割特定实例时遇到困难，因为它使用每个类别的代理，旨在在不同实例之间进行泛化。04.4. 连续语义分割0为了证明AMP在连续语义分割场景中的好处，我们在iPASCAL上进行了实验。iPASCAL为任务提供了三元组，即相应的图像和语义标签。对于每个任务，语义标签包括当前任务中遇到的新类别的标签，以及之前任务中遇到的类别的标签（请参阅第3.5节以获取更多关于设置定义的详细信息）。图6比较了从随机权重进行的na¨ıve微调与不进行任何微调的AMP之间的mIoU（5次运行的平均值）。0在新任务中，使用不同的种子对未见类别进行随机分配，评估了多个运行。mIoU是每个任务上所有已学习类别的报告值。使用RMSProp进行微调，使用1-shot设置中的最佳学习率9.06x 10 − 5。微调应用于负责像素级分类的最后几层，而特征提取权重保持不变。我们的重点是通过印记最终层的权重来提高样本效率，因此我们只对最终权重进行微调。图6表明，在持续学习场景中，通过AMP进行权重印记比微调更有效，后者很难克服过拟合

下载后可阅读完整内容，剩余1页未读，立即下载