FSS中的学习何时不进行分割：一种新视角

135 浏览量更新于2023-10-26 收藏 15.58MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

80570学习何时不进行分割：对few-shot分割的新视角0郎春波龚成* 屠斌飞韩俊伟西北工业大学自动化学院，中国西安0{langchunbo, binfeitu}@mail.nwpu.edu.cn, {gcheng, jhan}@nwpu.edu.cn0摘要0最近，few-shot分割（FSS）得到了广泛的发展。大多数以前的工作通过从分类任务中派生的元学习框架来实现泛化；然而，训练的模型对已知类别有偏见，而不是理想的类别无关性，从而阻碍了对新概念的识别。本文提出了一种新的简单方法来缓解这个问题。具体而言，我们在传统的FSS模型（元学习器）中应用了一个额外的分支（基础学习器），以明确识别基础类别的目标，即不需要分割的区域。然后，这两个学习器并行输出的粗略结果被自适应地集成以产生精确的分割预测。考虑到元学习器的敏感性，我们进一步引入了一个调整因子来估计输入图像对之间的场景差异，以促进模型集成预测。在PASCAL-5i和COCO-20i上的显著性能提升验证了该方法的有效性，令人惊讶的是，即使只有两个简单的学习器，我们的多功能方案也达到了最新的技术水平。此外，考虑到所提出方法的独特性质，我们还将其扩展到更现实但具有挑战性的广义FSS设置，即需要确定基础类和新类的像素。源代码可在github.com/chunbolang/BAM上获得。01. 引言0得益于已建立的大规模数据集[8, 9,29]，基于卷积神经网络（CNN）的计算机视觉技术在过去几年中得到了快速发展[15-17, 27, 28, 35, 43-45,48]。然而，收集足够的标记数据是非常耗时和劳动密集的，特别是对于密集预测任务，如实例分割[2, 3, 15, 21,59]和语义分割[1, 25, 35, 40,45]。与机器学习范式形成鲜明对比的是，0* 龚成为通讯作者。0图1.我们的BAM与以前的工作的比较。（a）传统方法通常采用元学习框架来训练FSS模型，这不可避免地对基础类别有偏见，而不是理想的类别无关性，从而阻碍了对新类别目标对象（例如猫（•））的识别。（b）我们的BAM引入了一个额外的分支，即基础学习器，来明确预测基础类别的区域。通过这种方式，查询图像中的干扰对象（例如人（•）和沙发（•））在集成模块之后可以显著抑制。（c）我们的BAM在广义FSS设置下的扩展，其中需要确定基础类和新类的像素。再次将细化的结果与基础学习器的输出合并，生成全面的预测。0人类可以很容易地从少量示例中识别新概念或模式，这极大地激发了社区的研究兴趣[39, 52,53]。因此，few-shot学习（FSL）通过构建一个可以推广到稀缺标记样本的未知领域的网络来解决这个问题[7, 42, 54,57]。在本文中，我们将FSL应用于80580语义分割领域中的一种称为few-shot分割（FSS）的技术，模型仅利用很少的标记训练数据从原始图像中分割特定语义类别的目标[46]。受few-shot分类成功的启发，大多数现有的FSS方法通过元学习框架来实现泛化[23, 30-34, 36-38,47, 55, 56, 58, 61, 62,64-67]。从基础数据集中采样一系列学习任务（episode），以模拟新类别的few-shot场景，即匹配训练和测试条件。然而，这种方法明显不足和无力。在基础数据集上进行元训练，不可避免地引入了对已知类别的偏见，而不是理想的类别无关性，从而阻碍了对新概念的识别[10]。值得注意的是，当遇到与基础数据共享相似类别的困难查询样本时，泛化性能可能濒临崩溃。我们认为，除了设计更强大的特征提取模块[23, 60,61]，调整包含足够训练样本的基础数据集的使用也是缓解上述偏见问题的另一种方法，这在以前的工作中被忽视了。为此，我们在传统的FSS模型（元学习器）中引入了一个额外的分支（基础学习器），以明确预测基础类别的目标（见图1）。然后，这两个学习器并行输出的粗略结果被自适应地集成以生成准确的预测。这种操作背后的核心见解是通过在传统范式中训练的高容量分割模型在查询图像中识别可混淆区域，进一步促进新对象的识别。顺便说一句，所提出的方案被命名为BAM，因为它由两个独特的学习器组成，即基础学习器和元学习器。此外，我们注意到元学习器通常对支持图像的质量敏感，输入图像对之间的大变化可能导致严重的性能下降。相反，基础学习器倾向于提供高度可靠的分割结果和稳定的性能，因为只有一个查询图像作为输入。基于这一观察，我们进一步提出利用查询-支持图像对之间的场景差异的评估结果来调整由元学习器得出的粗略预测。受到广泛应用于图像风格转移领域的风格损失的启发[12, 13,20]，我们首先计算两个输入图像的Gram矩阵的差异，然后利用Frobenius范数获得指导调整过程的总体指标。如图1（b）所示，基础类别（例如人和沙发）的干扰对象在集成模块之后被显著抑制，实现了新对象（例如猫）的准确定位。此外，考虑到所提出方法的独特性质，我们还将其扩展到更现实但具有挑战性的广义FSS设置，其中需要确定基础类和新类的像素。再次将细化的结果与基础学习器的输出合并，生成全面的预测。0为了提高所提出方法的可行性，我们还将当前任务扩展到一个更现实但具有挑战性的设置（即广义FSS），其中需要确定基类和新类的像素，如图1(c)所示。总之，我们的主要贡献可以总结如下：•我们提出了一种简单但高效的方案，通过引入额外的分支来明确预测查询图像中基类的区域，为未来的工作提供了启示。•我们提出通过Gram矩阵来估计查询-支持图像对之间的场景差异，以减轻元学习器敏感性引起的不良影响。•我们的多功能方案在所有设置下都取得了新的最先进水平，即使只使用两个简单的学习器。•我们将所提出的方法扩展到一个更具挑战性的设置，即广义FSS，同时识别基类和新类的目标。02. 相关工作0语义分割。语义分割是一项基础的计算机视觉任务，旨在根据一组预定义的语义类别识别给定图像的每个像素[45]。最近，由于全卷积网络（FCNs）[35]的优势，这个领域取得了巨大的进展。已经相继提出了各种强大的网络设计，也带来了一些基本技术，如扩张卷积[63]，编码器-解码器结构[45]，多级特征聚合[26]，注意机制[18]等。然而，传统的分割模型需要足够的标注样本才能产生令人满意的结果，并且很难在没有微调的情况下推广到未见过的类别，从而在一定程度上阻碍了它们的实际应用。在这项工作中，基于扩张卷积的空间金字塔池化（ASPP）模块[4]被引入到元学习器中以扩大感受野，PSPNet[68]作为基学习器用于预测基类的干扰对象。Few-Shot学习。多年来，计算机视觉社区一直在努力使网络具有推广到新类别的能力。目前在少样本学习（FSL）领域的大多数方法都遵循[54]中提出的元学习框架，其中从基础数据集中采样一组学习任务（episode）以模拟少样本情景。在此基础上，FSL方法可以进一步分为三个分支：（i）基于度量的[24，49，50]，（ii）基于优化的[11，19，42]，和（iii）基于增强的[5，6]。我们的工作与基于度量的方法密切相关，该方法使用特定的距离度量（如欧氏距离和余弦距离）确定支持原型[49]与查询特征之间的相似性。受到启发的80590在FSL中的广义设置中[22]，我们尝试通过预测查询图像中基类的区域来帮助识别新的目标，并且在低数据情况下，分割任务也被扩展到了这个设置中。Few-Shot分割。Few-shot分割（FSS）是FSL技术在密集预测任务中的自然应用，近年来受到了越来越多的关注。以往的方法通常采用两个分支结构，即支持分支和查询分支，用于传递注释信息并在提取的特征之间进行交互。Shaban等人[46]在这个领域提出了开创性的工作，称为OSLSM，其中支持（条件）分支用于生成查询分支预测的分类器权重。随后，张等人[67]利用掩膜平均池化操作获取代表性的支持特征，这也成为后续工作的基础技术。最近，一些相关研究放弃了在训练过程中使用重型骨干网络，而是在固定的骨干网络上构建强大的模块以提高性能，例如CANet [66]，PFENet [51]，ASGNet[23]，SAGNN [60]和MM-Net[58]。然而，这些方法的泛化性能严重依赖于元学习框架，即使进行了微调过程，也可能很脆弱。更具体地说，由于不平衡的数据分布和大的领域转移，训练的FSS模型对基类有偏差。我们观察到，在这个领域中很少有研究明确研究泛化退化问题，而是专注于设计两个分支之间的高容量交互模块。田等人[51]利用从固定骨干网络中提取的高级特征来评估相似性，为查询图像提供重要的分割线索。这种无参数的方法可以帮助网络学习捕捉更通用的模式，从而提高泛化能力。相反，本文集中在更基本的角度上通过明确识别基类的混淆区域来解决偏差问题。03. 问题定义0Few-shot分割旨在仅使用少量标记数据进行分割。当前方法通常在元学习范式下进行模型训练，也称为情节式训练。具体而言，给定两个在对象类别上不相交的图像集D train和Dtest，期望模型在具有足够标注样本的Dtrain上学习可迁移的知识，并在具有稀缺标注样本的Dtest上展现良好的泛化能力。特别地，两个集合都由众多情节组成，每个情节包含一个小的支持集S = {(x s i, m s i)} K i =1和一个查询集Q = {(x q, mq)}，其中x�和m�分别表示原始图像及其对应的二值掩码，模型在每个训练情节中进行优化，以在支持集S的条件下对查询图像xq进行预测。训练完成后，我们将在所有测试情节上评估它们在D test上的few-shot分割性能，无需进一步优化。0分别为特定类别c生成二值掩码。模型在每个训练情节中进行优化，以在支持集S的条件下对查询图像xq进行预测。训练完成后，我们将在所有测试情节上评估它们在D test上的few-shot分割性能，无需进一步优化。04. 提出的方法0为了缓解当前FSS方法的偏见问题，我们提出构建一个额外的网络，明确预测查询图像中基类的区域，从而促进新对象的分割。不失一般性，我们在1-shot设置下介绍我们模型的整体架构（见图2）。提出的BAM由三个主要组件组成，包括两个互补学习器（即基础学习器和元学习器）和一个集成模块。使用共享骨干的两个学习器分别用于识别基类和新类。然后，集成模块接收它们的粗略预测结果和调整因子ψ，以抑制基类错误激活区域，进一步产生准确的分割结果。此外，我们还提出基于ψ在K-shot设置下学习不同支持图像的融合权重，旨在为查询分支提供更好的指导。04.1. 基础学习器0如第2节所述，当前FSS模型对已见类别有偏见，这阻碍了对新概念的识别。基于这一观察，我们提出引入一个额外的分支，即基础学习器，来明确预测查询图像中基类的区域。具体而言，给定一个查询图像x q ∈ R 3 × H ×W，我们首先应用编码器网络E和卷积块来提取其中间特征图f q b，可以表示为：0f q b = F conv(E(x q)) ∈ R c × h × w，(1)0其中Fconv表示顺序卷积操作*。c、h、w分别表示通道维度、高度和宽度，h ×w表示所有提取的特征图中的最小分辨率。然后，解码器网络D b逐渐扩大中间特征图f qb的空间尺度，并最终生成预测结果，可以定义为：0p b = softmax(D b(f q b)) ∈ R(1+ N b) × H ×W，(2)0其中softmax(∙)操作沿通道维度进行，生成概率图p b。Nb表示基类别的数量†。0* 以ResNet [16]特征提取器为例，F conv 是最后一个卷积块，即block 4。†通常，对于PASCAL-5 i [46]，N b = 15；对于COCO-20 i [38]，N b =60。Lbase =1nbsnbsi=1CE�pb;i, mqb;i�,(3)f sm = F1×1 (E (xs)) ∈ Rc×h×w,(4)f qm =11 ( (xq))Rc×h×w,(5)vs = Fpool (f sm ⊙ I (ms)) ∈ Rc,(6)Lmeta = 1nene�i=1BCE�pm;i, mqi�,(8)80600图2.提出的BAM的整体架构，由三个关键组件组成：基础学习器、元学习器和集成模块。在每个训练情节中，两个学习器使用共享的编码器提取输入图像对(x s, xq)的特征，并分别对特定基类别c（注意，在元测试阶段，c表示新类别）和其余基类别进行预测。然后，粗略预测结果与调整因子ψ一起输入到集成模块中，以抑制基类别的错误激活区域，进一步产生准确的分割结果。为了便于理解，我们以分割掩码的形式呈现概率图，但它们实际上是二维浮点矩阵，即p ∈ [0, 1] H × W。MAP表示掩码平均池化操作[67]。0与在少样本场景中广泛采用的情节学习范式不同，我们遵循标准的监督学习范式来训练基础学习器。交叉熵（CE）损失用于评估预测 p b 与地面真值 m q b在所有空间位置上的差异，可以表示为：0其中 n bs是每个批次中的训练样本数量。为什么不同时训练两个学习器？预测查询图像中基础类别的区域的一种自然方法是遵循标准的语义分割网络，如PSPNet [68]，DeepLab[4]等。然而，在原始的少样本模型的基础上额外构建如此大的网络是不现实的，这将引入过多的参数并降低推理速度。因此，我们尝试设计一个统一的框架，使两个学习器共享相同的骨干网络。然而，我们注意到先进的FSS方法[23, 51,66]通常在训练过程中冻结骨干网络以增强泛化能力。这种操作与标准分割模型的学习方案不一致，无疑会影响基础学习器的性能。更重要的是，我们不知道基础学习器是否能够很好地通过情节学习范式进行训练，因此最终采用了两阶段的训练策略。在第5.3节中，我们将讨论不同的训练方法和网络设计对分割准确性的影响。04.2. 元学习器0给定一个支持集 S = { x s , m s } 和一个查询图像 xq，元学习器的目标是分割与注释掩码共享相同类别的 x q中的对象。0在我们的工作中，首先按照[51,66]的方法将从块2和块3派生的特征进行串联。然后，应用1 × 1 卷积来减少通道维度并生成中间特征图：0其中 E 是与基础学习器和元学习器共享的编码器网络，F 1× 1 表示将输入特征编码为256维的 1 × 1卷积。此外，我们通过掩码平均池化（MAP）[67]计算原型，以提供关键的类相关线索：0其中 F pool 是平均池化操作，⊙ 表示Hadamard乘积，I是一个函数，通过插值和扩展技术将 m s 重塑为与 f s m相同形状的形式，即 I : R H × W → R c × h ×w。然后，在 v s 的指导下激活 f q m中的目标区域，并通过解码器网络生成最终的预测结果，可以总结为：0p m = softmax ( D m ( F guidance ( v s , f q m ))) ∈ R 2 × H × W , (7) 其中 D m表示元学习器的解码器网络。F guidance是FSS的一个重要模块，它将支持分支的注释信息传递给查询分支，以提供特定的分割线索。它在我们的工作中表示“扩展和串联”操作[66]。类似地，我们计算 p m 与 m q之间的BCE损失：0用于更新元学习器的所有参数：ˆm(x,y)g=��̸(18)80610图3. 低级特征 f s low 和 f q low 的调整因子 ψ 的计算过程。0其中 n e 表示每个批次中的训练剧集数量。04.3.集成0考虑到元学习器通常对支持图像的质量敏感，我们进一步提出利用查询-支持图像对之间的场景差异的评估结果来调整由元学习器导出的粗略预测。具体而言，我们首先将基学习器生成的前景概率图集成起来，以获得相对于少样本任务的背景区域的预测：0pf b =0i=1 pi b，(9)0其中pfb的上标表示前景，下标“b”表示基学习器。然后，我们利用从固定骨干网络提取的低级特征fslow，fq low ∈RC1×H1×W1分别计算支持和查询图像的Gram矩阵（见图3）。请注意，这两个输入图像的相关操作是相似的，支持图像的操作可以总结为：0As = Freshape(fs low) ∈ RC1×N，(10)0Gs = AsATs ∈ RC1×C1，(11)0其中N =H1×W1，Freshape将输入张量的大小调整为C1×N。通过计算Gram矩阵，评估它们之间的差异的Frobenius范数，以获得指导调整过程的整体指标ψ：0ψ = ∥Gs−Gq∥F，(12)0其中∥∙∥F表示输入矩阵的Frobenius范数。然后，在调整因子ψ的指导下，将两个学习器的粗略结果整合起来，进一步得到最终的分割预测pf：0p0f = Fensemble⊕Fψ⊕p0m，pf b，(13)0pf = p0f⊕Fψ⊕p1m，(14)0其中pm，pb分别表示元学习器和基学习器的预测。上标“0”和“1”分别表示背景和前景。两者都0Fψ和Fensemble是具有特定初始参数的1×1卷积操作。前者的目标是调整元学习器的粗略结果，而后者的目标是整合两个学习器。⊕表示沿通道维度的连接操作。最后，在元训练阶段，整体损失可以通过以下方式评估：L = Lfinal +λLmeta，(15)0Lfinal = 10ne0i=1 BCE(pqi，mqi)，(16)0其中λ在所有实验中设为1.0，Lmeta是由公式（8）定义的元学习器的损失函数。04.4.K-Shot设置0当任务扩展到K-shot（K>1）的情况下，会有多个带注释（支持）图像可用。当前的FSS方法通常对支持分支提取的原型进行平均，并利用平均特征来指导后续的分割过程，这假设每个样本的贡献相同[51,56]。然而，这种方法可能不是最优的，因为与查询图像存在显著场景差异的样本无法提供更有针对性的指导。因此，我们进一步提出根据调整因子ψ自适应估计每个支持图像的权重，其中较小的值表示更大的贡献，反之亦然。具体而言，给定每个支持样本的调整因子ψi，我们首先通过连接操作将它们整合成统一的向量ψt ∈RK。然后，应用两个全连接（FC）层来生成支持图像的融合权重η。0η = softmax(wT2ReLU(wT1ψt)) ∈ RK，(17)0r，w2 ∈RKr×K是FC层的权重，r代表降维因子。最后，我们进行加权求和以得到集成的最终ψ。04.5. 广义FSS的扩展0提出的BAM最初设计用于标准的FSS任务，但可以很容易地扩展到广义设置，其中需要确定查询图像中基础类和新类的区域。在这项工作中，我们根据预定义的阈值 τ简单地融合基础学习器的结果和最终结果，以获得整体分割预测 ˆm g ，可以表示为：01 p 1;( x,y ) f > τ ˆm ( x,y ) b p 1;( x,y )f ≤ τ 且 ˆm ( x,y ) b � = 0 其他情况，BackboneMethod1-shot5-shotVGG16SG-One (TCYB’19) [67]40.2058.4048.4038.4046.3041.9058.6048.6039.4047.10PANet (ICCV’19) [56]42.3058.0051.1041.2048.1051.8064.6059.8046.5055.70FWB (ICCV’19) [56]47.0059.6052.6048.3051.9050.9062.9056.5050.1055.10CRNet (CVPR’20) [33]----55.20----58.50PFENet (TPAMI’20) [51]56.9068.2054.4052.4058.0059.0069.1054.8052.9059.00HSNet (ICCV’21) [37]59.6065.7059.6054.0059.7064.9069.0064.1058.6064.10Baseline59.9067.5164.9355.7262.0264.0271.5169.3963.5567.12ResNet50CANet (ICCV’19) [66]52.5065.9051.3051.9055.4055.5067.8051.9053.2057.10PGNet (ICCV’19) [65]56.0066.9050.6050.4056.0057.7068.7052.9054.6058.50CRNet (CVPR’20) [33]----55.70----58.80PPNet (ECCV’20) [34]48.5860.5855.7146.4752.8458.8568.2866.7757.9862.97PFENet (TPAMI’20) [51]61.7069.5055.4056.3060.8063.1070.7055.8057.9061.90HSNet (ICCV’21) [37]64.3070.7060.3060.5064.0070.3073.2067.4067.1069.50Baseline65.6871.4165.5658.9365.4067.2872.3869.1666.2568.77BackboneMethod1-shot5-shotVGG16FWB [38]18.3516.7219.5925.4320.0220.9419.2421.9428.3922.63PFENet [51]35.4038.1036.8034.7036.3038.2042.5041.8038.9040.40PRNet [32]27.4632.9926.7028.9829.0331.1836.5431.5432.0032.82Baseline38.4243.7544.3239.8441.5845.9348.8847.8746.9647.41ResNet50HFA [31]28.6536.0230.1633.2832.0332.6942.1230.3536.1935.34ASGNet [23]----34.56----42.48HSNet [37]36.3043.1038.7038.7039.2043.3051.3048.2045.0046.90Baseline41.9245.3543.8641.2443.0946.9851.8749.4947.8149.04BackboneMethodFB-IoU (%)1-shot5-shotVGG16OSLSM [46]61.3061.50co-FCN [41]60.1060.20PFENet [51]72.0072.30HSNet [37]73.4076.60BAM (ours)77.2681.10ResNet50PGNet [65]69.9070.50PPNet [34]69.1975.76PFENet [51]73.3073.90HSNet [37]76.7080.60BAM (ours)79.7182.18ˆmb= arg max (pb)0, 1, ..., NbH×W ,(19)80620Fold-0 Fold-1 Fold-2 Fold-3 平均 Fold-0 Fold-1 Fold-2 Fold-3 平均0BAM (我们的方法) 63.18 70.77 66.14 57.53 64.41 67.36 73.05 70.61 64.00 68.760BAM (我们的方法) 68.97 73.59 67.55 61.13 67.81 70.59 75.05 70.79 67.20 70.910表1. 在PASCAL-5 i上以mIoU为指标的性能比较。“Baseline”表示元学习器共享由基础学习器预训练的编码器网络E。粗体字表示最佳性能，而下划线表示次佳性能。0Fold-0 Fold-1 Fold-2 Fold-3 平均 Fold-0 Fold-1 Fold-2 Fold-3 平均0BAM (我们的方法) 38.96 47.04 46.41 41.57 43.50 47.02 52.62 48.59 49.11 49.340BAM (我们的方法) 43.41 50.59 47.49 43.42 46.23 49.26 54.20 51.63 49.55 51.160表2. 在COCO-20 i上以mIoU为指标的性能比较。“Baseline”表示我们工作中使用预训练的 E的元学习器。0表3. 在PASCAL-5i上4个fold上的平均FB-IoU。0其中 ( x, y ) 表示空间位置。 ˆm b表示基础分割掩码，可以通过以下方式计算：0在通道维度上执行 arg max( ∙ )。05. 实验05.1. 设置0数据集。我们在两个广泛使用的FSS数据集PASCAL-5i[46]和COCO-20i[38]上评估我们的方法的性能。PASCAL-5i是由Sha- ban等人提出的，是基于PASCAL VOC2012[9]并使用SDS[14]的附加注释创建的，而COCO-20i则是基于MSCOCO[29]构建的。0[38]中提出的FSS数据集是基于MSCOCO[29]构建的。这两个数据集的对象类别均均匀分为四个fold，并以交叉验证方式进行实验。对于每个fold，我们随机采样1,000对支持图像和查询图像进行验证。评估指标。遵循之前的工作[34，51]，我们采用平均交并比（mIoU）和前景-背景交并比（FB-IoU）作为实验的评估指标。实现细节。提出方法的训练过程可以分为两个阶段，即预训练和元训练。对于第一阶段，我们采用标准的监督学习范式，在FSS数据集的每个fold上训练基学习器。0[51,61]，我们采用平均交并比（mIoU）和前景-背景交并比（FB-IoU）作为实验的评估指标。实现细节。提出方法的训练过程可以分为两个阶段，即预训练和元训练。对于第一阶段，我们采用标准的监督学习范式，在FSS数据集的每个fold上训练基学习器。0我们采用标准的监督学习范式，在FSS数据集的每个fold上训练基学习器，该数据集包含PASCAL-5i/COCO-20i的16/61个类别（包括背景）。我们的工作中使用PSPNet作为基学习器，在PASCAL-5i上训练100个epoch，在COCO-20i上训练20个epoch。使用初始学习率为2.5e-3的SGD优化器来更新参数，训练批量大小设置为12。对于第二阶段，我们以episode学习的方式联合训练元学习器和集成模块，此阶段中基学习器的参数被固定。需要注意的是，两个学习器共享相同的编码器来提取输入图像的特征，这也没有进行优化以促进泛化。网络的其余层使用SGD优化器在PASCAL-5i上训练200个epoch，在COCO-20i上训练50个epoch。0对于每个数据集，我们在验证集上训练了50个epoch。批量大小和学习率在两个数据集上均设置为8和5e-2。我们遵循[51]中的数据增强技术进行训练。我们的工作中使用PFENet的一个变种作为元学习器，其中FEM被ASPP[4]替换以减少复杂性。我们使用不同的随机种子进行5次试验并对结果进行平均。提出的模型使用PyTorch实现，并在NVIDIA RTX2080Ti GPU上运行。05.2. 与最新技术的比较0定量结果。表1和表2分别展示了不同方法在PASCAL-5i和COCO-20i上的mIoU结果。80630图4.在1-shot设置下，提出的BAM和基线方法的定性结果。左侧面板来自PASCAL-5i，右侧面板来自COCO-20i。从上到下的每一行分别表示带有真值（GT）掩码（蓝色）的支持图像，带有真值掩码（绿色）的查询图像，基线结果（红色）和我们的结果（红色）。0图5.使用ResNet50骨干网络对低级特征f_low进行消融研究。B_i表示从骨干网络的第i个卷积块提取的特征图。FLOPs表示每秒的浮点运算次数。0经过对比实验，我们发现我们的BAM在所有设置下都比先进的FSS模型表现出色，并在所有设置下创造了新的最佳结果。使用VGG16骨干网络，我们提出的方法在PASCAL-5i上相对于先前最佳结果分别取得了4.71%p（1-shot）和4.66%p（5-shot）的mIoU改进。对于COCO-20i，我们的1-shot和5-shot结果分别比最佳竞争对手HSNet（即）提高了7.03%p和4.26%p的mIoU，使用ResNet50骨干网络，展示了其处理复杂任务的显著能力。此外，我们还根据PASCAL-5i上的FB-IoU与其他先进方法进行了比较（见表3）。再次，提出的BAM取得了实质性的改进，特别是使用ResNet50骨干网络的1-shot结果。定性结果。为了更好地分析和理解提出的模型，我们在元测试阶段进一步进行了几个episode，并可视化了相应的分割结果，如图4所示。我们的结果（第4行）中，与基线方法（第3行）相比，基类的错误激活目标显著被抑制，验证了基学习器和集成模块的有效性。0PT L meta Init. ψ mIoU FB-IoU057.61 70.75 - 59.12 71.94 - - 59.76 72.79 - - - 62.49 75.430- - - - 64.41 77.260表4.在1-shot设置下的不同设计选择的消融研究。“PT”表示基学习器的预训练。“Init.”表示集成模块的具体初始权重。0方法 mIoU（%） ∆01-shot基准 64.41 00Mask-OR [46] 65.15 0.74 Mask-Avg[66] 65.92 1.51 Feature-Avg [41] 66.832.420重新加权（我们的方法）68.76 4.350表5.在5-shot融合方案上的消融研究。0标注mIoU（%）01-shot 5-shot0像素级标签 64.41 68.76 边界框62.25 66.170表6.对支持注释进行的消融研究。05.3. 消融研究0我们进行了一系列的消融研究，以研究每个组件对分割性能的影响。请注意，本节中的实验是在PASCAL-5i数据集上使用VGG16骨干网络进行的，除非另有说明。关于两个学习器的消融研究。如第4.1节所述，两个学习器可以联合训练或分别训练。在我们的实验中，后一种方案表现更好，如表4的前两行所示。我们将这种现象归因于两个学习器对骨干网络的不同利用。具体而言，一个倾向于固定参数以增强泛化能力，而另一个倾向于更新参数以提取更具辨别性的特征，这在端到端训练范式中很难平衡。此外，我们注意到没有Lmeta的模型的性能稍微变差，表明Lmeta的重要性。80640骨干网络方法 1-shot 5-shot0mIoU n mIoU b mIoU a mIoU n mIoU b mIoU a0VGG16 BAM（带/不带E）37.54 67.03 59.65 41.49 67.03 60.64 BAM 43.19 67.03 61.07 46.15 67.0261.800ResNet50 BAM（带/不带E）42.37 72.72 65.13 43.71 72.72 65.46 BAM 47.93 72.72 66.52 49.17 72.7266.830表7. 在广义FSS设置下的PASCAL-5i的定量结果。E表示集成模块。0图6.在广义FSS设置下的提出方法的分割结果。请注意，查询掩码中的白色表示新颖类别，而其他颜色表示基础类别。最好放大并放大，特别是第2行的自行车。0通过对元学习器的预测结果进行约束的必要性进行了研究。集成模块的消融研究。模型的初始权重对训练过程甚至最终结果都有显著影响。因此，我们对集成模块的这个方面进行了相关的消融研究，这可以被视为BAM的一个关键组成部分。在我们的实验中，元学习器和基学习器的初始权重分别为1和0的集成模块明显优于其他方案，在Tab.4的第3行和第4行中呈现了相对于随机初始化权重的模块的2.73%mIoU改进。此外，我们还研究了调整因子ψ对性能的影响，结果表明根据ψ调整元学习器的粗略预测在模型集成预测中起着重要作用。图5展示了使用不同低级特征估计ψ的方法之间的比较结果，其中使用B2特征的情况在分割准确性和计算复杂性之间取得了更好的平衡。K-shot融合方案的消融研究。如第4.4节所述，我们提出根据ψ的值自适应调整每个支持样本的融合权重。与其他解决方案相比，所提出的方案在5-shot设置下取得了可观的增益（见Tab.5），进一步证明了这种衡量因子的重要性。0BAM在FSS任务中衡量图像之间的差异。我们对支持注释进行了消融研究。为了评估BAM在复杂场景中的性能，我们使用不同的支持注释进行实验。具体来说，除了标准的密集掩码注释外，还引入了边界框注释进行比较。如表6所示，使用边界框注释的模型与使用昂贵的像素级注释的模型相比产生了有竞争力的结果，表明了所提出方案的强大鲁棒性。05.4. 广义少样本分割0鉴于所提出方法的独特性质，我们将其扩展到更现实但具有挑战性的广义FSS设置。我们根据预定义的阈值τ简单地将最终输出与基础学习器的输出合并，以生成没有任何可学习参数的整体分割结果（公式（18））。受到与少样本分类和检测相关的工作的启发[10,22]，我们还定义了三个指标来评估广义设置下的性能：mIoU n，mIoU b和mIoUa，分别表示新颖类别、基础类别和所有类别的mIoU分数。如表7所示，通过集成模块，分割模型的性能在各个方面都得到了提升，不仅仅是对于新颖类别。此外，图6中的定性结果也说明了它处理广义FSS任务的能力。06. 结论0我们提出了一种新颖的方案来缓解FSS模型对已见概念的偏见问题。我们方案的核心思想是利用基础学习器来识别查询图像中的混淆（基础）区域，并进一步改进元学习器的预测。令人惊讶的是，即使只有两个简单的学习器，我们的方案在FSS基准上也取得了新的最先进成果。此外，我们将当前任务扩展到更具挑战性的广义设置，并产生了强大的基准结果。我们希望我们的工作能为未来解决偏见或语义混淆问题的研究提供启示。0致谢本工作得到中国国家自然科学基金会的部分支持，合同号为62136007和U20B2068，以及陕西省杰出青年学者科学基金会的部分支持，合同号为2021JC-16。80650参考文献0[1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.Segnet:用于图像分割的深度卷积编码器-解码器架构。IEEE模式分析与机器智能交易，第39卷，第12期，第2481-2495页，2017年。10[2] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact++:更好的实时实例分割。arXiv预印本arXiv:1912.06218，2019年。10[3] Daniel Bolya, Chong Zhou, Fanyi Xiao, and Yong Jae Lee.Yolact:实时实例分割。在IEEE/CVF国际计算机视觉会议论文集中，第9157-9166页，2019年。10[4] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:具有深度卷积网络、扩张卷积和全连接CRF的语义图像分割。IEEE模式分析与机器智能交易，第40卷，第4期，第834-848页，2017年。2, 4, 60[5] Zitian Chen, Yanwei Fu, Kaiyu Chen, and Yu-Gang Jiang.图像块增强用于一次性学习。在AAAI人工智能会议论文集中，第33卷，第3379-3386页，2019年。20[6] Zitian Chen, Yanwei Fu, Yu-Xiong Wang, Lin Ma, Wei Liu,and Martial Hebert.用于一次性学习的图像变形元网络。在IEEE/CVF计算机视觉和模式识别会议论文集中，第8680-8689页，2019年。20[7]郑功，李瑞民，郎春波，韩俊伟。任务导向的注意力引导部分互补学习用于少样本图像分类。《中国科

下载后可阅读完整内容，剩余1页未读，立即下载