少镜头分割问题的度量学习方法，并提出了PANet

49 浏览量更新于2023-10-12 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9197PANet：基于原型对齐的王开心1刘俊浩2邹应天2周大全1冯佳时21新加坡国立大学NGS 2新加坡国立大学ECE系{kaixin.wang，liewjunhao}@ u.nus.edu{elezouy，elefjia}@ nus.edu.sgzhoudaquan21@gmail.com摘要尽管深度CNN在图像语义分割方面取得了很大进展，但它们通常需要大量密集注释的图像进行训练，并且难以推广到不可见的对象类别。因此，已经开发了少镜头分割以学习仅从几个注释的示例执行在本文中，我们从度量学习的角度解决了具有挑战性的少镜头分割问题，并提出了PANet，一种新的原型对齐网络，以更好地利用支持集的信息。我们的PANet从嵌入空间内的一些支持图像中学习特定于类的原型表示，然后通过将每个像素与学习到的原型相匹配来对查询图像进行分割通过非参数度量学习，PANet提供了高质量的原型，这些原型对每个语义类都有代表性，同时对不同的类有区别。此外，PANet还引入了支持度和查询度之间的原型对齐正则化.有了这一点，PANet充分利用知识的支持，并提供更好的推广少镜头分割。值得注意的是，我们的模型在PASCAL-5i上分别实现了48.1%和55.7%的mIoU得分，分别超过了1.8%和8.6%的最先进的方法1. 介绍深度学习极大地推进了语义分割的发展，其中包括许多基于 CNN 的架构，如 FCN [13]， SegNet [1]，DeepLab [2]和PSPNet [29]。然而，训练这些模型通常需要大量具有像素级注释的图像，这是昂贵的。半监督和弱监督学习方法[26，3，9，15]减轻了这种要求，但仍然需要许多弱注释的训练图像。除了对训练数据的渴望之外，这些模型对看不见的类的泛化能力也相当差为了应对上述挑战，已经积极探索了从一些注释示例中学习新概念的少量学习，主要集中在图像图1：我们的模型（PANet）的概述，用于少数镜头分割。PANet首先将支持图像和查询图像映射到嵌入特征（分别为圆形和三角形）中，并学习每个类的原型（蓝色和黄色实心圆圈）。然后通过将其特征与嵌入空间（虚线）内的最近原型匹配来执行对查询的分割。PANet还在训练期间引入了原型对齐正则化，以通过执行从查询到支持的少镜头分割恢复来在嵌入空间内对齐来自支持和查询图像的原型（右图）。具有虚线边界的分割掩模表示地面实况注释。[25，23，24，18，6，20，12，14]和一些焦油-在分段任务[21，17，4，28，4，8]。现有的少数镜头分割方法通常从少数支持图像中学习，然后将学习到的知识馈送到用于分割查询的参数模块中。然而，这样的方案有两个缺点，因此不能令人满意地推广。首先，它们不区分知识提取和分割过程，这可能是有问题的，因为分割模型表示与支持的语义特征混合。因此，我们建议将这两个部分分离为原型提取和非参数度量学习。原型被优化为每个语义类的紧凑和鲁棒的表示，并且非参数度量学习通过嵌入空间内的像素级匹配来执行分割。此外，我们不像以前的方法那样仅将支持的注释用于掩蔽，而是建议还利用它们用于掩蔽。9198监督少数镜头的学习过程为此，我们引入了一种新的原型对齐正则化，通过在相反方向上执行少数镜头分割。即，查询图像连同其预测掩模一起被认为是一个新的支持集，并用于分割先前的支持图像。通过这种方式，该模型能够在支持和查询之间生成更一致的原型，从而提供更好的泛化性能。因此，我们开发了一个原型对齐网络（PANet）来解决少数镜头分割，如图1所示。PANet首先通过共享特征提取器将不同的前景对象和背景嵌入到不同的原型中。通过这种方式，每个学习的原型对于相应的类是然后，查询图像的每个像素通过引用最接近其嵌入表示的类特定原型来标记我们发现，即使每个类只有一个支持图像，PANet也可以提供令人满意的分割结果，表现出最先进的水平。此外，它通过与查询图像及其预测掩码形成新的支持集并对原始支持集执行分割来施加原型对齐正则化。我们发现，这确实鼓励了从查询生成的原型，以与那些支持。请注意，模型仅在训练和查询图像不应与测试图像混淆。所提出的PANet的结构设计具有若干优点。首先，它不引入额外的可学习参数，因此不太容易过度拟合。其次，在PANet内，原型嵌入和预测在计算的特征图上执行，因此分段不需要额外通过网络。此外，由于正则化仅在训练中施加，因此用于推理的计算成本不会增加。我们的少数镜头分割模型是一个通用的。具有完全卷积结构的任何网络都可以用作特征提取器。它也能很好地从较弱的符号中学习，边界框或涂鸦，如实验所示。总结起来，这项工作的贡献是：• 我们提出了一个简单而有效的PANet的几杆分割。该模型利用原型度量学习，这不同于大多数现有的作品，采用参数化分类架构。• 我们提出了一种新的原型对齐正则化，以充分利用支持知识，以提高少数拍摄学习。• 我们的模型可以直接应用于学习，从几个例子弱注释。• 我们的 PANet 在 PASCAL-5i 上实现了 48.1% 和55.7%的mIoU，用于1次和5次拍摄设置，超过最先进的水平高达8.6%。2. 相关工作语义分割语义分割的目的是将图像的每个像素分类到一组预定义的语义类中。最近的方法主要基于深度卷积神经网络[13，10，1，29，2]。例如，Longet al. [13]首先采用了深度 CNN ，并提出了全卷积网络（FCN），大大提高了分割性能。扩张卷积[27，2]被广泛用于在不损失空间分辨率的情况下增加感受野。在这项工作中，我们遵循FCN的结构来执行密集预测，并采用扩张卷积来享受更大的感受野。与完全监督训练的模型相比，我们的模型可以推广到只有少量注释数据的新类别小样本学习小样本学习的目标是学习跨不同任务的可转移知识，只有几个例子。已经提出了许多方法，例如基于度量学习的方法[25，23]，学习优化过程[18，6]和应用基于图的方法[20，12]。Vinyals等人[25]将输入编码为深度神经特征，并执行加权最近邻匹配以分类未标记的数据。Snell等人[23]提出了一种用一个特征向量来表示每个类的原型网络（prototype-network）。Sung等人[24]使用一个单独的模块来直接学习支持特征和查询特征之间的关系。我们的模型遵循原型网络[23]，可以被视为它对密集预测任务的扩展，具有简单的设计和高性能。少镜头分割近年来受到越来越多的关注。Shaban等人[21]首先提出了一种少镜头分割模型，该模型使用条件分支从支持集生成一组参数θ，然后使用该参数调整查询集的分割过程。Rakelly等人[16]将提取的支持特征与查询特征连接，并使用解码器生成分割结果。Zhang等人[28]使用掩蔽平均池化来更好地从支持集中提取前地/背景信息Hu等人[8]探索在网络的多个阶段提供指导。这些方法通常采用参数模块，其融合从支持集提取的信息并生成分割。Dong等人[4]也采用了原型网络的思想，并使用度量学习解决了少数镜头分割。但该模型过于复杂，涉及三个训练阶段，训练结构复杂. 此外，他们的方法基于图像级损失提取原型，并使用原型作为指导来调整查询集的分割，而不是直接从度量学习中获得相比之下，我们的9199i=1i=1图2：在2路1次示例中我们的方法的流水线的图示。在框（a）中，PANet执行支持查询的少镜头分割。支持和查询图像被嵌入到深度特征中。然后通过掩蔽平均池化获得原型。查询图像通过计算每个空间位置处的每个原型和查询特征之间的余弦距离（图中的cos）来分割。LossLseg在分割结果和地面真实掩码之间计算。在框（b）中，所提出的PAR通过执行查询到支持的少镜头分割并计算损失LPAR来对齐支持和查询的原型。GT表示地面实况分割掩码。模型具有更简单的设计，并且更类似于原型网络[23]。此外，我们采用后期融合[17]来合并注释掩码，使其更容易生成具有稀疏或更新注释的情况。3. 方法3.1. 问题设置我们的目标是获得一个分割模型，可以快速学习执行分割，从只有少数注释的图像，年龄在新的图像从相同的类。与以前的工作[21]一样，我们采用以下模型训练和测试协议。假设我们提供了来自两个非重叠的类C 可见和C 不可见的集合的图像。训练集Dtrain由Cseen构造，测试集Dtest由Cseen构造。我们在Dtrain上训练分割模型M，并在Dtest上进行评估。训练集D训练和测试集D测试都由几个片段组成。每个片段由一组支持图像S（具有注释）和一组查询图像Q 组成。也就是说， Dtrain={ （ Si ， Qi ） }Ntrain 和Dtest={（Si，Qi）}Ntest，其中Ntrain和Ntest分别表示用于训练和测试的片段每个训练/测试片段（Si，Qi）实例化C路K镜头分割学习任务。具体地说，支持集Si具有K个图像，每个语义类的掩码对，并且总共有C个不同的类，从C 中看到用于训练，从 C 中看不到用于测试，即。Si={（Ic，k，Mc，k）}，其中k= 1，2，· · ·，K且c∈Ci，其中|Ci|=C.查询集合Qi包含来自与支持集合相同的类集合Ci的N个查询掩码图像、掩码掩码对。该模型首先从支持集中提取关于C类的知识，然后应用所学习的知识对查询集进行分割。因为每一集都包含不同的语义类，该模型被训练为很好地泛化。在从训练集Dtrain获得分割模型M之后，我们在测试集D测试上评估其在所有剧集上的少镜头分割性能特别地，对于每个测试片段，在给定支持集Si的情况下，在查询集Qi上评估分割模型M。3.2. 方法概述与现有的少量分割方法不同的是，该方法将提取的支持特征与查询特征相融合，以参数化的方式生成分割结果，该模型旨在学习和对齐嵌入空间中每个语义类的紧凑和鲁棒的原型表示然后通过非参数度量学习在嵌入空间内进行分割。如图2所示，我们的模型学习执行分割如下。对于每一集，它首先通过共享的骨干网络将支持和查询图像嵌入到深度特征中。然后，它应用掩蔽平均池化从支持集获得原型，如第3.3节所述。通过将每个像素标记为最近原型的类来执行对查询图像的分割在第3.5节中介绍的一种新的原型对齐正则化（PAR）被应用于学习过程，以鼓励模型学习支持和查询的一致嵌入原型。我们采用VGG-16 [22]网络作为遵循惯例的特征提取器。保留VGG-16中的前5个卷积块用于特征提取，并移除其他层。maxpool4层的步幅被设置为1以保持大的空间分辨率。为了增加接收场，将conv5块中的卷积替换为膨胀设置为2的膨胀卷积。拟议9200qq;jc和kM=ΣQJPAR没有引入额外的可学习参数，我们的网络是端到端训练的，以优化VGG-16的权重，从而学习一致的嵌入空间。3.3. 原型学习我们的模型基于原型网络为每个语义类（包括背景）学习代表性和分离良好的原型表示PANet不是对整个输入图像进行平均[23]，而是利用支持图像上的掩模注释来分别学习前景和背景的原型有两种策略来利用分割掩码，早期融合和晚期融合[17]。早期融合在将支持图像馈送到特征提取器中之前掩蔽支持图像[21，8，4]。后期融合直接掩蔽特征图以分别产生前景/背景特征[28，16]。在这项工作中，我们采用了已故的福-然后，预测的分割掩码由下式给出：M（x，y）=argmax M（x，y）.（四）J距离函数d通常采用余弦距离或平方欧几里德距离。Snell等人[23]声称使用平方欧几里德距离大大优于使用余弦距离。然而，Oreshkinet al. [14]将改进归因于度量的不同缩放与softmax函数的相互作用。将余弦距离乘以因子α可以实现与使用平方欧几里德距离相当的性能。经验上，我们发现使用余弦距离更稳定，性能更好，可能是因为它是有界的，因此更容易优化。乘数α固定为20，因为我们发现学习它几乎不会产生性能增益。在计算了查询的概率图Mq图像通过度量学习，我们计算分割损失Lseg如下：的输入一致性，因为它保持了1 ΣΣ（x，y）n（x，y）共享特征提取器。具体地说，给定一个支持集，Si={（Ic，k，Mc，k）}，令Fc，k是由Lseg=−Nx，ypj∈P1[Mq=j] log Mq;j、（五）图像Ic，k的网络。这里c索引类，k = 1，. . . ，K索引支持图像。类c的原型通过掩码平均池化计算[28]：其中Mq是查询图像的真实分割掩码，N是空间位置的总数。优化上述损失将得到合适的原型1ΣΣF（x，y）1[M（x，y）=c]对于每一个班级。pc=x为ohc，k c，k ，（1）KΣkx，y1[M（x，y）=c]3.5. 原型对齐正则化其中（x，y）索引空间位置，并且1（·）是指示器函数，如果参数为真则输出值1，否则输出值0。此外，背景的原型由下式在以前的工作中，只使用支持注释用于掩蔽，这实际上并没有充分利用支持信息进行少量学习。在本小节中，我们详细介绍了原型对齐正则化1 ΣΣF（x，y）1[M（x，y）∈/C]（PAR），利用支持信息更好地指导p=x，yc，kc，ki.（二）学习过程中的几个镜头，并有助于提高概括-bgCK[M（x，y）∈/C]从几个例子中得出的模型的能力。c和kx为ohc，ki直觉上，如果模型可以预测一个好的细分市场，上述原型通过以下方式进行了端到端优化：非参数度量学习，如下所述3.4. 非参数度量学习我们采用非参数度量学习方法来学习最优原型并据此进行分割。由于分割可以被看作是在每个空间位置的分类，我们计算在每个空间位置的查询特征向量与每个计算的原型之间的距离。然后，我们在距离来产生语义上的概率图M q类（包括背景）。具体地，给定距离函数d，设P={pc|c ∈ Ci}<${pbg}和Fq表示查询特征图。F或每个pj∈P，我们有使用从支持度中提取的原型对查询进行模板预测，基于预测模板从查询集合中学习的原型应该能够很好地分割支持度图像。因此，PAR鼓励所得到的分割模型在相反的方向上执行少量学习，即，以查询和预测掩码作为新的支持来学习分割支持图像。这在支持和查询图像的原型之间施加了相互对准，并从支持中学习更丰富的知识。请注意，这里所有的支持和查询图像都来自训练集Dtrain。图2详细示出了PAR。在得到一个分割预测的查询图像，我们每-根据查询特征形成掩码平均池，并获得另一组原型P<$={p<$c|c∈n（x，y）q;jexp（−αd（F（x，y），p））.（三）exp（−αd（F（x，y），p））Ci}{p<$b g}，遵循等式（1）和（2）中所述的方法。不，不-第3.4节中介绍的参数方法用于预处理。为支持图像指定分割掩码的9201pj∈Pqj9202M=Σ将预测与地面实况注释进行比较以计算损失LPAR。实现PAR的整个过程可以看作是交换支持集和查询集。具体地，在PAR内，支持图像Ic，k的分割概率由下式给出：exp（−αd（F（x，y），p<$））算法一：培训和评估PANet。输入：对于每个情节（Si，Qi）∈ D train，训练集Dtrain和测试集Dtest做从支持集Si中提取原型P，方程式(1)以及（2）预测分割概率和掩码n（x，y）c，k;jc，kjexp（−αd（F（x，y），p<$））、（6）对于查询图像，使用等式(3)（4）计算损失L，如等式（五）损失LPARp<$j∈{p<$c，p<$bg}计算方法是c，kjseg使用等式从查询集Qi中提取原型P <$ (1)以及（2）1L= −[M（x，y）=j]|logM|（x，y）.预测支持PARCKNQc，k，x，ypj∈Pq;j（七）图像使用Eqn. （六）计算损失LPAR，如等式（七）如果没有PAR，信息只能从支持集单向通过将信息流回支持集，我们迫使模型学习一致的嵌入空间，使查询和支持原型保持一致。在第4.3节中通过实验验证了所提出的PAR的对准效果因此，训练我们的PANet模型的总损失是L=Lseg+ λLPAR。其中λ用作正则化强度，并且λ= 0简化为没有PAR的模型在我们的实验中，我们保持λ为1，因为不同的值几乎没有改善。在算法1中总结了 PANet在少镜头分割上的整个训练和测试过程3.6. 泛化到较弱注释我们的模型是通用的，并直接适用于其他类型的注释。首先，它接受支持集上较弱的注释，例如指示感兴趣的前景对象的涂鸦和边界框。4.4节中的实验表明，即使在弱注释的情况下，我们的模型仍然能够从支持集中提取鲁棒的原型，并为查询图像提供非常好的分割结果。与像素级密集注释相比，弱注释更容易获得且成本更低[9]。其次，通过采用后期融合[17]，我们的模型可以快速适应更新的注释，计算开销很小，因此可以应用于交互式分割。我们把这个留给未来的工作。4. 实验4.1. 设置数据集我们遵循建议的评估方案在[21]中，并在PASCAL-5i [21]数据集上评估我们的模型。该数据集是根据PASCAL VOC 2012 [5]创建的，带有SBD [7]增强。PASCAL VOC中的20个类别平均分为4个部分，每个部分包含5个类别。模型在3个分割上进行训练，并以交叉验证的方式在其余的分割上进行评估每个类别中的计算梯度并通过SGD进行端对于每个情节（Si，Qi）∈ D检验，从支持集Si中提取原型P，方程式(1)以及（2）使用等式预测查询图像的分割概率和(3)（4）端可以在[21]中找到分裂在测试过程中，以前的方法随机抽样1,000集进行评估，但我们发现这不足以给出稳定的结果。在我们的实验中，我们对使用不同随机种子的5次运行的结果进行平均，每次运行包含1，000集。在[8]之后，我们还在从MS COCO [11]构建的更具挑战性的数据集上评估了我们的模型。同样，MSCOCO中的80个对象类也是平均分配的分为4个部分，每个部分包含20个类。我们遵循与PASCAL-5i相同的训练和测试方案。N查询= 1用于所有实验。评估指标我们采用两个指标进行模型评估，即均值IoU和二进制 IoU 。 Mean-IoU 测量每个前景类的交集（IoU），并对所有类进行平均[21，28]。二进制IoU将所有对象类别视为一个前景类，并对前景和背景的IoU进行平均[16，4，8]。我们主要使用均值IoU度量，因为它考虑了前景类别之间的差异，因此更准确地反映了模型性能。结果w.r.t.还报道了二进制IoU，以与一些先前的方法进行清楚的比较实现细节我们使用在ILSVRC [19]上预训练的权重初始化VGG-16网络，如在以前的作品[21，4，28]中一样。输入图像被调整大小为（417，417）并且使用随机水平翻转来增强。该模型由SGD进行端到端训练，其动量为0.9 for 30，000 iterations迭代.学习率初始化为1 e-3，每10，000次迭代减少0.1重量衰减为0.0005，批量为1。9203split-1split-2分裂-3 分裂-4 是说split-1split-2分裂-3 分裂-4 是说是说OSLSM [21]33.655.340.933.540.835.958.142.739.143.93.1272.6M联合王国[16]†36.750.644.932.441.137.550.044.133.941.40.334.2M[第28话]40.258.448.438.446.341.958.648.639.447.10.819.0MPANet-init30.840.738.331.435.341.652.751.640.846.711.414.7MPanet42.358.051.141.248.151.864.659.846.555.77.614.7M表1：使用平均IoU度量的PASCAL-5i数据集上的单向1次和单向5次分割的结果Δ表示1次和5次之间的差异t：co-FCN在平均IoU度量中的结果由[28]报告方法1次5次重复计数法平均值-IoU二进制-IoUFG-BG [16]55.0--微调[16]55.155.60.5OSLSM [21]61.361.50.2[16]第十六话60.160.20.1波兰[4]61.262.31.1A-MCG [8]61.262.21.0表3：2路1次激发和2路5次激发分段的结果[第28话]63.965.92.0PASCAL-5i数据集上的数据。PANet-init58.965.76.8Panet66.570.74.2方法二进制IoU表2：使用二进制IoU度量对PASCAL-5i数据集进行单路单次和单路5次分割的结果Δ表示1次和5次之间的差异我们设置了一个基线模型，该模型使用ILSVRC [19]上预训练的权重进行初始化，但没有在PASCAL-5i上进一步训练，表示为PANet-init。我们还将我们的PANet与两个基线模型FG-BG和[16]的微调进行了比较。FG-BG训练独立于支持的前景-背景分割器，并且微调用于在支持上调谐预先训练的前景-背景分割器。4.2. 与最新技术水平的比较PASCAL-5i表1将我们的模型与PASCAL-5i数据集上的其他方法进行了平均IoU度量比较。我们的模型在1次拍摄和5次拍摄设置中的性能优于最先进的方法，同时使用更少的参数。在5杆任务中，我们的模型实现了8.6%的显着使用二进制IoU度量，如表2所示，我们的模型也实现了最高的性能。值得注意的是，我们的方法不使用任何解码器模块或后处理技术来细化结果。如表1和表2所示，在其他方法中，1次激发和5次激发设置之间的性能差距很小（平均IoU小于3.1%），这意味着这些方法在更多支持信息的情况下几乎没有改善。相比之下，我们的模型产生了更显着的性能增益（平均IoU高达7.6%），因为它从支持集更有效地学习。我们基线1发5发1发5发A-MCG [8]--5254.7Panet20.929.759.263.5表4：MS COCO数据集上的单向1次激发和单向5次激发分割的结果模型PANet-init也证实了这一点。在没有训练的情况下，它在5张照片设置中与最先进的技术相媲美，并且在获得更多支持图像时，平均IoU的增益如[4，28]所述，我们在多路少数镜头分割任务上评估我们的模型。在不失一般性的情况下，我们对2路1次和2路5次分割任务进行了评估。表3总结了结果。我们的PANet在这两个指标上都比以前的作品高出20%以上单向和双向分割的定性结果如图3和图4所示没有任何解码器结构或后处理，我们的模型给出了令人满意的分割结果上看不见的类只有一个注释的支持图像。这证明了我们模型强大的学习和泛化能力。注意，从相同的支持图像提取的原型类型可以用于成功地分割具有外观变化的查询图像。例如，在图3的第1行中，我们的模型将自行车完全分段：与其他物体混杂（第一示例），从不同的视角观察（第二示例），仅示出部分（第三示例）。另一方面，从对象的一部分提取的原型可以用于分割同一类（行）的整个对象方法单次拍摄5次射击∆#参数1发5发1发5发波兰[4]--42.743.7[第28话]-29.4--Panet45.153.164.267.99204图3：我们的模型在PASCAL-5i（第1行和第2行）和MS COCO（第3行和第4行）上进行单路单次分割的定性结果。2 在图3中）。它表明，所提出的PANet是能够提取强大的原型为每个语义类从一些注释数据。更多定性的例子可在补充材料中找到。我们还提出了一些挑战性的情况下，我们的模型失败。如图3中的第一个失败案例所示，我们的模型倾向于给出带有非自然斑块的分割结果，可能是因为它在每个位置独立预测。但这可以通过后处理来缓解从第二个失败的情况下，我们发现我们的模型是无法区分椅子和桌子，因为他们有相似的原型在嵌入空间。MS COCO表4显示了MS COCO数据集的评价结果。我们的模型在1次激发设置中优于先前的A-MCG [8]7.2% ，在 5 次激发设置中优于先前的 A-MCG [8]8.2%。与PASCAL VOC相比，MS COCO具有更多的对象类别，使得两个评估度量之间的差异MS COCO的定性结果见图3。图4：我们的模型在PASCAL-5i上进行双向单次分割的定性结果。9205方法1-拍摄5-拍摄PANet不带PAR 47.2 54.9PANet 48.1 55.7表5：在平均IoU度量中，在PASCAL-5i注释单次拍摄5次射击密集48.155.7Scribble44.854.6边界框45.152.8表6：在平均IoU度量中使用不同类型的注释的结果。4.3. PAR分析建议的PAR鼓励模型学习一致的嵌入空间，使支持和查询原型保持一致。除了最小化支持和查询原型之间的距离外，使用PAR训练的模型还获得了更好的结果（如表5所示），以及训练过程的更快收敛。对齐嵌入原型通过PAR将信息从查询集流回支持集，我们的模型可以学习一致的嵌入空间并对齐从支持集和查询集中提取的原型。为了验证这一点，我们从PASCAL-5i split-1中随机选择了1,000个事件，进行单向5次拍摄任务。然后，对于每个情节，我们计算从查询集和支持集提取的原型之间的欧氏距离。有PAR模型计算的平均距离为32.2，远小于无PAR模型的42.6使用PAR，我们的模型能够提取在嵌入空间中更好对齐的原型。加速收敛在我们的实验中，我们观察到使用PAR训练的模型比没有它的模型收敛得更快，如图5中的训练损失曲线所示。这表明PAR加速了收敛并帮助模型达到较低的损失，特别是在5次拍摄设置中，因为使用PAR可以更好地利用来自支持集的信息4.4. 使用弱注释进行测试我们进一步评估我们的模型与涂鸦和绑定框注释。在测试过程中，支持集的像素级注释被自动从密集分割掩模生成的涂鸦或绑定框每个边界框是从每个支持图像中的一个随机选择的实例掩模如表6所示，我们的模型在非常稀疏的注释上工作得很好，并且对边界框带来的噪声很稳健。在单镜头学习情况下，模型执行图5：有和没有PAR的模型的训练损失图6：我们的模型在使用涂鸦和边界框注释的单向单镜头分割上的定性结果。为了更好的可视化，涂鸦被扩大。使用两种不同的注释，但对于5次学习，使用涂鸦比使用边界框要好2%。一个可能的原因是，随着更多的支持信息，涂鸦提供更多的代表性原型，而边界框引入更多的噪音。使用涂鸦和边界框注释的定性结果如图6所示。5. 结论我们提出了一种新的PANet基于度量学习的少镜头分割。PANet能够从支持集中提取鲁棒的原型，并使用非参数距离计算进行分割。通过提出的PAR，我们的模型可以进一步利用支持信息来辅助训练.在没有任何解码器结构或后处理步骤的情况下，我们的PANet的性能大大优于以前的鸣谢冯佳诗部分得到了NUS IDS R-263-000-C67-646、ECRA R-263-000-C87- 133 和 MoE Tier-II R-263-000-D17-112的支持。9206引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on pattern analysis and machineintelligence，39（12）：2481[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[3] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision，第1635[4] 董南青和邢P.具有原型学习的少量语义在BMVC，第3卷，第4页，2018年。[5] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[6] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。第34届国际机器学习会议论文集-第70卷，第1126-1135页。JMLR。org，2017.[7] BharathHariharan，PabloArbela' ez，LubomirBourdev，Subhransu Maji，and Jitendra Malik.从反向检测器的语义轮廓2011年。[8] 胡涛，Pengwan，Chiliang Zhang，Gang Yu，YadongMu和Cees G. M.斯诺克基于注意力的多上下文引导的少镜头语义分割。2018年。[9] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. Scribblesup：用于语义分割的Scribble-supervised卷积网络在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 3159[10] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[11] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页。Springer，2014.[12] Yanbin Liu，Juho Lee，Minseop Park，Saehoon Kim，Eunho Yang，Sung Ju Hwang，and Yi Yang.学习传播标签：用于少量学习的直推传播网络2018年。[13] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[14] 鲍里斯·奥列什金、帕·罗德·雷格斯·洛佩斯和艾尔·亚历山大·拉科斯特.Tadam：Task Dependent Adaptive Metricfor Improved Few-Shot Learning。神经信息处理系统的进展，第719-729页，2018年[15] George Papandreou ， Liang-Chieh Chen ， Kevin PMurphy，and Alan L Yuille.用于语义图像分割的深度卷积网络的弱监督和半监督学习。在IEEE计算机视觉国际会议论文集，第1742-1750页[16] Kate Rakelly、Evan Shelhamer、Trevor Darrell、AlyoshaEfros和Sergey Levine。用于少量语义分割的条件网络2018年。[17] Kate Rakelly、Evan Shelhamer、Trevor Darrell、AlexeiA Efros和Sergey Levine。引导网络的少镜头分割传播。arXiv预印本arXiv：1806.07373，2018。[18] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。2016年。[19] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[20] Victor Garcia Satorras和Joan Bruna Estrach。图神经网络的少样本学习。在2018年国际学习代表大会上[21] Amirreza Shaban，Shray Bansal，Zhen Liu，Irfan Essa，and Byron Boots.用于语义分割的一次性学习。arXiv预印本arXiv：1709.03410，2017。[22] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[23] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少量学习的原型网络。神经信息处理系统进展，第4077-4087页，2017年[24] Flood Sung，Yongxin Yang，Li Zhang，Tao Xiang，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在IEEE计算机视觉和模式识别会议集，第1199-1208页[25] 作者：George，Charles Blundell，Timothy Lillicrap，Daan Wierstra，et al.匹配网络进行一次性学习。在神经信息处理系统的进展，第3630-3638页[26] Wei Yunchao，Jiashi Feng，Xiaodan Liang，Ming-MingCheng，Yao Zhao，and Shuicheng Yan.使用对抗性擦除的对象区域挖掘：一个简单的分类到语义分割的方法。在Proceedings of the IEEE conference on computer visionand pattern recognition，第1568-1576页[27] Fisher Yu和Vladlen Koltun。通过扩张卷积的多尺度上下文聚合。arXiv预印本arXiv：1511.07122，2015。[28] Xiaolin Zhang，Yunchao Wei，Yi Yang，and ThomasHuang.Sg-one：用于一次性语义分割的相似性指导网络。arXiv预印本arXiv：1810.09091，2018。9207[29] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议论文集，第2881-2890页

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

少镜头分割问题的度量学习方法，并提出了PANet

Python-用于实例分段和对象检测的PANet

写一个PAnet的综述

PAN结构和PANet是一种吗

PANet和Mask R-CNN谁的性能更好

YOLOv5的PANet结构

深度学习之PAN详细架构

yolov5中PANet

PANet具体原理详细介绍

yolov5的PANet

yolov5对PANet改进为BiFPN有哪些好处

yolov5使用BiFPN对比PANet

yolov5 panet

yolov5使用PANet的优缺点

yolov8分割改进

yolov5中的PANet

yolov4的panet

panet yolov8

yolov4采用SPP和PANet的作用

yolov5中的PANet模块作用

FPN和panet的思想

最新资源