基于超相关压缩的少镜头分割算法

137 浏览量更新于2023-10-13 收藏 3.08MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6941基于超相关压缩的少镜头分割算法朱洪敏达贤姜敏秀赵韩国浦项科技大学（POSTECH）http://cvlab.postech.ac.kr/research/HSNet/摘要少镜头语义分割旨在学习仅使用目标类的几个注释支持图像这个具有挑战性的任务需要理解不同层次的视觉线索，并分析细粒度的查询和支持图像之间的对应关系为了解决这个问题，我们提出了超相关挤压网络（HSNet），它利用了多级特征相关性和高效的4D卷积。它从不同层次的中间卷积层中提取不同的特征，并构造一组4维相关张量，即，超相关使用金字塔架构中的高效中心枢轴4D卷积，该方法以从粗到细的方式将超相关的高级语义和低级几何线索在PASCAL-5i、COCO-20i和FSS-1000的标准少镜头分割基准上的显著性能改进验证了所提出的方法的有效性1. 介绍深度卷积神经网络的出现[17，20，64]促进了许多计算机视觉任务的巨大进步，包括对象跟踪[28，29，45]，视觉跟踪[28，29，45]，视觉跟踪[28，29，45]和视觉跟踪[28，29，45]。通信[22，44，48]和语义分割[7，47，62]等等。尽管深度网络的有效性，但它们对来自大规模数据集的大量注释示例的需求[9，11，35]仍然是一个根本的限制，因为数据标记需要大量的人工努力，特别是对于密集的预测任务，例如，语义切分为了应对这一挑战，在半监督和弱监督分割方法中已经进行了各种尝试[6，26，39，66，72，77，88]，这反过来有效地缓解了数据饥饿问题。然而，仅给出几个带注释的训练示例，深度网络的泛化能力差的问题仍然是许多少镜头分割方法[10，12，13，19，33，36，37，46，54，61，63，69，70，74，75，76，77，78，79，80，83，86，87，89]努力解决。图1：我们的模型通过高效的4D卷积逐渐将高维超相关压缩到目标分割掩码中，相比之下，人类视觉系统容易实现新对象的一般化外观，给出了极其有限的监督。这种智能的关键在于能够在同一类的不同实例中找到可靠的对应关系。最近关于语义对应的工作表明，利用密集的中间特征[38，42，44]并使用高维卷积[30，58，71]在建立精确的对应关系方面非常有效然而，虽然最近的几次分割研究开始在相关性学习方向上进行积极探索，但其中大多数[36，37，46，65，73，75，80]既没有利用CNN早期到后期层的不同层次的特征表示，也没有构建成对的特征相关性来捕获细粒度的相关模式。已经有一些尝试[74，86]利用具有多级特征的密集相关性，但是它们在以下意义上仍然是有限的：它们仅仅使用中间卷积层的一小部分，将密集相关性用于图形注意力。在这项工作中，我们结合了两个最有影响力的技术，在最近的研究视觉对应，多层次的功能和4D卷积，并设计了一个新的支持查询多个水平的视觉对应（超相关）挤压挤压相关模式分析（超相关挤压）语义（粗糙）几何（精细）6942框架，被称为超相关挤压网络（HSNet），用于少量语义分割的任务。如示于图1，我们的网络利用来自许多不同中间CNN层的不同地理度量/语义特征表示来构建4D相关张量的集合，即，超相关性，其表示多个视觉方面的丰富的对应集合。根据FPN [34]的工作，我们采用金字塔设计来捕获高级语义和低级几何线索，以使用深度堆叠的4D卷积层以粗到细的方式进行精确的掩模预测为了减少由于大量使用高维卷积而造成的计算负担，我们通过合理的权重稀疏化设计了一个有效的4D内核，该内核能够实现实时推断，同时比现有内核更有效和更轻量对PASCAL-5i[61]、COCO-20i [35]和FSS-1000 [33]的标准少数镜头分割基准的改进验证了所提出方法的有效性2. 相关工作语义分割语义分割的目标是将图像的每个像素分类到预定义的对象类别中的一个。流行的分段方法[5，7，47，49，52，62，76]通常在其架构中采用编码器-解码器结构;编码器沿着深度卷积路径聚集特征并以低分辨率提供高维特征图，并且相应的解码器通过反转该过程来获取输出以预测分段掩码[49]。尽管这些方法清楚地显示了编码器-解码器架构在语义分割任务中的有效性，为我们的研究提供了有用的见解，但它们仍然存在神经网络的数据驱动性质的明显缺点：在训练数据不足的情况下缺乏泛化能力。很少有机会学习。为了解决泛化问题，许多最近的图像分类方法在训练深度网络时进行了各种尝试，其中有一些注释的示例[1，18，25，31，50，53，59，65，67，73，79，84，85]。Vinyals等人[73]提出用于一次性学习的匹配网络;该方法利用一种称为片段的特殊类型的小批量来匹配训练和测试环境，从而促进对新类的更好的泛化。Snell等人[65]介绍计算代表性嵌入之间距离的原型网络，即，原型，用于少数镜头分类。随着小样本学习在分类领域的应用日益广泛，小样本分割问题也引起了人们的广泛Shaban等人[61]提出了一次性语义分割网络，该网络（Meta）学习生成FCN的参数[62]。受原型网络[65]的启发，利用原型表示来引导查询图像中的掩模预测成为少数分割文献中的流行范例[10，36，37，46，63，75，80，87，89]。见证了原型方法的局限性，例如，由于掩蔽平均池化[89]导致的空间结构的损失，[74，86]的工作建立成对特征相关性，例如，图的注意，以保留图像的空间结构，用于细粒度掩模预测。注意，原型和基于图的方法都基本上集中于学习以找到支持图像和查询图像之间的可靠对应以用于准确的掩模预测。在这项工作中，我们提出了这一想法，并专注于学习使用适当设计的可学习层来分析对应关系，例如，4D卷积[58]，用于有效的语义分割。学习视觉对应。视觉对应的任务旨在在变化的挑战程度下找到可靠的对应[3，14，15，43，60]。很多冰毒-ods [21，22，30，38，42，44，56，58，81]通常建立在分类任务[9]上预训练的卷积特征上，表明它们是良好的可转移表示。最近的语义对应方法[21，38，42，44]表明，有效利用分布在所有中间层上的不同级别的卷积特征明显有利于匹配精度。在宽基线匹配文献中，趋势选择是在密集特征匹配上采用4D卷积[30，41，57，58，71]，通过分析4D空间中的局部模式来识别空间一致的匹配。使用多层次特征和使用4D convs的关系模式分析是视觉对应领域中广泛采用的两种技术。在本文中，我们采用了视觉对应中两种最有影响力的方法来解决少数镜头分割：多层次特征和4D卷积。受之前使用多级特征来构建有效“外观特征”的匹配方法[42，44，27]的然而，它们的二次复杂度仍然是设计具有成本效益的深度网络的主要瓶颈，限制了许多先前的匹配方法[30，57，58，71]仅使用几个4D卷积层。为了解决这个问题，我们开发了一个轻量级的4D卷积核，只收集一小部分重要参数进行有效的模式识别，这最终导致一个有效的分解成一对2D卷积核的线性复杂度。我们的贡献可归纳如下：• 我们提出了超相关挤压网络，使用深度堆叠的4D卷积层分析不同视觉方面的密集特征匹配。• 我们提出了中心枢轴4D卷积核，这是更有效的比现有的一个在精度和速度，实现实时推理。• 所提出的方法在三个标准的少镜头分割基准上设置了新的技术状态：PASCAL-5 i[61]、COCO-20 i[35]和FSS-1000 [33]。6943DD∈联系我们L⊙·l=1SL {}--LLLLKKLlk=1∈图2：所提出的网络的整体架构，由三个主要部分组成：超相关构造，4D卷积金字塔编码器和2D卷积上下文解码器。我们建议读者参阅Sec。4关于架构的详细信息。3. 问题设置少镜头语义分割的目标是在仅给出几个注释示例的情况下执行分割为了避免由于训练数据不足而导致的过度拟合风险，我们采用了广泛使用的元学习方法，称为情景训练[73]。让我们将相应的训练集和测试集表示为相对于对象类不相交的训练集和测试集两集都包含多个情节4.1. 超相关构造受最近的语义匹配方法[38，42，44]的启发，我们的模型利用来自卷积神经网络的中间层的丰富特征集来捕获支持图像和查询图像之间相似性的多级语义和几何模式。给定一对查询图像和支持图像，Iq，IsR3×H×W，骨干网络产生L对查询图像和支持图像的序列。s s中间特征映射{（Fq，Fs）}L. 我们掩盖了每一个超级-由支持集S=（I，M）和查询LlSCHl=1集合Q=（Iq，Mq）其中I*和M*是一个图像，其端口特征图Fl∈Rl×l×Wl对应的掩模标签。在训练过程中，我们的模型迭代地从D训练中采样一集，以学习一个Ms0，1H×W，以丢弃不相关的激活，用于可靠的掩码预测：从（Is，Ms，Iq）映射到查询掩码Mq。一旦训练模型时，它使用学习的映射进行评估在没有进一步优化的情况下，即，该模型从D测试中随机抽取（Is，Ms，Iq）样本来预测查询掩码。Fs=Fsl（Ms），（1）其中是Hadamard乘积，并且Zl（）是将输入张量双线性内插到层l的特征图Fs的空间大小，4. 该方法nel维数，使得ζl：RH×W→−RC l×H l×W l. 为在本节中，我们提出了一种新的少镜头分割架构，超相关挤压网络（HSNet），它捕获一对输入图像之间的多级特征相关性中的相关模式，以预测细粒度随后的超相关构造，每层的一对查询和掩码支持特征使用余弦相似性形成4D相关张量Cl∈RHl×Wl×Hl×Wl.Fq（xq）·Fs（xs）Σ我们采用了一种编码器-解码器结构;Fq（xq）L l编码器逐渐挤压输入Hy的尺寸在一些实施例中，编码器通过将它们的局部信息聚合到全局上下文来处理它们的局部相关，并且解码器处理编码的上下文以预测查询掩码。节中在图4.1 -4.3中，我们演示了单次设置中的每条管线，即，该模型在给定Iq和=（Is，Ms）的情况下预测查询掩码。节中4.4，为了减轻4Dconvs的大量资源需求，我们提出了一个轻量级的4D内核，它大大提高了模型在内存和时间方面的效率。节中4.5我们演示了该模型如何可以容易地扩展到K-拍摄设置，即， S ={（Is，Ms）}K，不失一般性。其中，Xq和Xs表示特征图Fq和Fts相对于ively的2维空间位置，并且ReLUsup.1表示特征图Fq和Fts相对于i v el y的2维空间位置。按噪声相关分数。从4D相关性的结果集合{Cl}L，如果y具有相同的空间大小，则我们收集4D张量，并且将子集表示为其中p是CNN层索引1，…L在某个金字塔层P处。最后，所有的4D张量{Cl}l∈Lp沿着信道维度级联以形成a超相关CpR| Lp| ×Hp×Wp×Hp×Wp其中（Hp，Wp，Hp，Wp），滥用符号，表示（128， +1， +1，，）4D转换（128，）伊4D转换4D转换伊什4D转换伊{（q，s）}L��=1超相关金字塔{ }1=超相关建设4D锥形编码器编码context二维继续执行代码预测��avg. 池（第三、第四图）（128，1，1，，）（128，2，2，，）（128，3，3，，）（128，1， 1）（|ℒ 3|、��3、��3、��3、��3）（|ℒ 2|、��2、��2、��2、��2）（128，1， 1）3x3转换器，128 ReLU3x3转换器，64上采样x23x3转换，64 ReLU3x3转换，2softmax上采样x4ReLU上采样（第1、2个 dim.）共享权重余弦相似度（128 ，）在查询图像中的分割掩码如示于图二、Cl（xq，xs）=ReLU、（二）6944（|ℒ 2|、��2、��2、��2、��2）5x5x5x5转换器，16s =（1，1，4，4）群体常模g=4ReLU3x3x3x3转换，64s =（1，1，2，2）群体常模g=4ReLU3x3x3x3转换，128s =（1，1，2，2）（|ℒ 3|、��3、��3、��3、��3）3x3x3x3转换器，16s =（1，1，2，2）群体常模g=4ReLU3x3x3x3转换，64s =（1，1，2，2）群体常模g=4ReLU3x3x3x3转换，128s =（1，1，2，2）p=1∈pp→−pp∈∈∈Σ∈P∈P P× Psqzp p=1在锥体层3和2处1p. 给定P个金字塔层，我们表示超相关性，（|ℒ |��，��）（128，��）金字塔C ={Cp}P，代表丰富的11111从多个视觉方面的特征相关性。4.2. 四维卷积金字塔编码器我们的编码器网络采用超相关金字塔C={C}P，以有效地将其压缩为一个con-correlation pyramid。5x5x5x5转换器，16s =（1，1，4，4）群体常模g=4ReLU5x5x5x5转换器，64s =（1，1，4，4）密集特征图ZR128×H1×W1. 我们做到了这一点相关学习使用两种类型的构建块：挤压块FSQZ和混合块FMIX。每个块群体常模G=4ReLU3x3x3x3转换，128pps =（1，1，2，2）由三个多通道4D卷积序列组成如图1所示，组归一化[78]和ReLU激活。3.第三章。在压缩块fsqz中，大步幅周期性地将Cp的最后两个（支撑）空间维度压缩到（H，W），而前两个空间维度压缩到（H，W）群体常模g=4ReLU（128，1，1，，）（128，）空间（查询）维度保持与（Hp，WP）相同，即，fsqz：R| Lp| ×Hp×Wp×Hp×WpR128×Hp×Wp×H×W其中Hp>Hε且Wp> Wε。类似于FPN [34]结构，来自相邻金字塔层的两个输出p和p+1在通过因子2对上层输出的（查询）空间维度进行上采样之后通过逐元素加法合并。混合块fmix：R128×Hp×Wp×H×W→−R128×Hp×Wp×H×W然后用4D卷积处理这个混合，以自上而下的方式将相关信息传播到下层。在迭代传播之后最低混合块f_mix的输出张量是fur。图3：超相关挤压网络中的构建块。s和g表示4D conv的步幅和组归一化[ 78 ]中的组的数量。注p∈{1，2}，fmi x.然后，我们展示了如何一个独特的重量稀疏计划有效地解决了这个问题。4D卷积及其局限性。典型的4D卷积由k内核k参数化在相关张量cRH×W×H×W上的位置（x，x′）R4 *上的R k × k × k表示为1通过平均池化其最后两个（支持）来压缩空间维度，这反过来又提供了一个二维特征图Z∈R128×H1×W1，表示一个浓缩的（c*k）（x，x′）=（p，p′）∈P（x，x′）c（p，p′）k（p−x，p′−x′），（三）超相关性的表示C.4.3. 二维卷积上下文解码器解码器网络由一系列2D卷积层、ReLU层和上采样层组成，之后是软最大函数，如图所示。二、该网络采用上下文表示Z并预测双通道映射Mq[0，1]2×H×W，其中两个通道值表示概率前景和背景的能力在训练中，The使用所有像素位置上的预测M_q和地面实况M_q之间的交叉项损失的平均值来优化网络参数在测试过程中，我们在每个像素处取最大通道值以获得最终查询掩码预测M<$q∈{0，1}H×W用于评估。4.4. 中心轴4D卷积显然，由于维数灾难，我们的网络具有如此大量的4D卷积，需要大量的资源，这限制了许多视觉对应方法[22，30，32，58，71]仅使用少数4D卷积层。为了解决这个问题，我们重新审视了4D卷积运算，并深入研究了它的局限性。其中（x，x′）表示以位置（x，x′）为中心的局部4D窗口内的一组邻近区域，即，（x，x′）=（x）（x′）如图所示。4.第一章尽管在相关张量上使用4D卷积已经显示出其具有良好经验性能的功效在与通信相关的领域[22，30，32，58，71]中，其相对于输入特征大小的二次复杂度仍然是主要瓶颈。另一个限制因素是高维核的过度参数化：考虑由nD卷积核卷积的n内核处理此激活的次数与n成指数比例。这意味着具有大幅度的一些不可靠的输入激活可能由于它们过度暴露于高维内核而在捕获可靠模式时带来一些噪声。[81]的工作解决了前一个问题（二次复杂度），使用空间上可分离的4D内核来近似具有两个单独的2D内核以及额外的批量归一化层的4D卷积[23]*相关张量c是余弦相似性的输出（等式1）。2）在一对特征图之间，F，F′RH×W，x和x′表示各个特征图的二维空间位置。3x3x3x3转换，128s =（1，1，1，1）群体常模g=4 ReLU3x3x3x3转换，128s =（1，1，1，1）群体常模g=4 ReLU3x3x3x3转换，128s =（1，1，1，1）群体常模g=4 ReLU6945P∪PPP{∈P}P{∈P}CcΣC联系我们联系我们向前传球c（p，x）kc′（p-x），4维特征空间��′重量-稀疏化��′��′��,��′=�� ×�� ′��CP在位置（，’）卷积��的4D卷积4D卷积核中心枢轴4D卷积核图4：4D卷积（左）和4D内核[58，81]（中）和中心枢轴4D内核（右）的权重连接两个不同像素位置的每个黑线表示4D内核的单个权重。在该示例中使用的内核大小是（3，3，3，3），即， k=3。解决后一个问题（数值不稳定性）。在这项工作中，我们引入了一种新的重量稀疏计划，同时解决这两个问题。4.5. K-shot设置的扩展我们的网络可以很容易地扩展到K-拍摄设置：给定K个支持图像掩码对S={（Is，Ms）}K和中心轴4D卷积。我们的目标是设计一个轻量级的4D内核，它在两个方面都是有效的a查询图像Iq，模型执行Kvide a set ofK mask predictions{M¯q}KKKk=1. 我们执行理论和时间，同时有效地近似现有的[58，81]。我们通过合理的权重稀疏化来实现这一点;从感兴趣的局部4D窗口内的一组邻域位置，我们的内核旨在忽略位于4D窗口中相当不重要的位置处的大量激活，从而仅关注相关激活的小子集具体地说，我们考虑在以两维中心中的任何一个为枢轴的位置处的激励，例如，x或x′，作为最重要的影响，如图所4.第一章给定4D位置（x，x′），我们收集它的邻居当且仅当它们与x或x′在其相应的二维子空间中的空间分布，定义了两个相应的集合：c（x，x′）=（p，p′）（x，x′）：p=x和c′（x，x′）=（p，p′）（x，x′）：p′=x′. 中心枢轴邻居的集合被定义为CP（x，x′）=c（x，x′） c′（x，x′）。基于这两个相邻的子集，中心枢轴4D卷积可以被公式化为两个单独的4D卷积的并集（c*kCP）（x，x′）=（c*kc）（x，x′）+（c*kc′）（x，x′）（4）其中kc和kc′是在Pc（x，x′）上卷积的四维核，并且Pc′（x，x′）。注意，（c<$kc）（x，x′）等价k k=1在每个像素位置通过对所有K个预测值求和来进行表决。然后将每个输出分数除以最大投票分数。如果像素的值大于某个阈值τ，则将前景标签分配给像素，而其他像素被分类为背景。我们设置τ=0。5在我们的实验中5. 实验在本节中，我们评估所提出的方法，将其与最新的最新技术水平进行比较，并对消融研究的结果进行深入实作详细数据。对于骨干网络，我们采用预训练的VGG [64]和ResNet [17]系列在ImageNet [9]上，例如，VGG16、ResNet50和ResNet101。对于VGG16主干，我们在最后两个构建块中的每个conv层之后提取特征：从 conv4_x 到 conv5_x ，以及在最后一个maxpooling层之后。对于ResNet主干，我们在ReLU激活之前提取每个瓶颈的末尾的特征：从conv3_x到conv5_x。该特征提取方案导致每个骨干的3个金字塔层（P=3）我们设置两者的空间大小支持和查询400×400图像，H，W=400，2D=k（0，：）∈Rk×k因此具有H1，W1= 50，H2，W2= 25，以及H3，W3=13。在4D张量c（x，：）的2D切片上执行。同样，随着k2D=k（：，0）∈Rk×k，我们重新表示方程（1）。4如下该网络在PyTorch [51]中实现，并使用Adam [24]进行优化，学习率为1 e-3。我们冻结了预先训练好的主干网络防止它们学习-（c*kCP）（x，x′）=p′∈P（x′）c（x，p′）k2D（p′−x′）（5）使用训练数据的类特定表示。数据集。我们在三个标准Σ′2Dp∈P（x）标准的少数镜头分割数据集： PASCAL-5i [61]，C 0 C 0 -201[35]和FSS-1000 [33]。 PASCAL-5i是一种来自PASCAL VOC 2012 [11]，带有额外的掩码注释其在具有线性复杂度的分离的2D子空间上执行两个不同的卷积。节中5.2中，我们通过实验证明了中心枢轴4D内核在准确性，内存和时间方面优于现有内核[58，81]我们建议读者参考我们的补充材料，以获得方程的完整推导。五、+6946tations [16]，由20个对象类组成，平均分为4个折叠：5i：i0，1，2，3。 COCO-20 i由来自80个对象类的掩模注释图像组成，这些对象类分为4个折叠：20i：i0，1，2，3。按照常见的训练/评估方案[37，46，70，74，80]，我们对所有折叠进行交叉验证;对于每个折叠i，6947†C2c=1Σ骨干单次拍摄5次射击#可学习网络方法50515253是说FB-IoU50515253是说FB-IoUparamsOSLSM [61]33.655.340.933.540.861.335.958.142.739.143.961.5276.7M[54]第五十四话36.750.644.932.441.160.137.550.044.133.941.460.234.2MVGG16 [64]AMP-2 [63]PANet [75]41.942.350.258.046.751.134.741.243.448.161.966.540.351.855.364.649.959.840.146.546.455.762.170.715.8M14.7MPFENet [70]56.968.254.452.458.072.059.069.154.852.959.072.310.4MHSNet（我们的）59.665.759.654.059.773.464.969.064.158.664.176.62.6MPANet [75]44.057.550.844.049.1-55.367.261.353.259.3-23.5MPGNet [86]56.066.950.650.456.069.957.768.752.954.658.570.517.2MResNet50 [17]PPNet [37]PFENet [70]48.661.760.669.555.755.446.556.352.860.869.273.358.963.168.370.766.855.858.057.963.061.975.873.931.5M10.8MRePRI [4]59.868.362.148.559.7-64.671.471.159.366.6--HSNet（我们的）64.370.760.360.564.076.770.373.267.467.169.580.62.6MFWB [46]51.364.556.752.256.2-54.867.462.255.359.9-43.0MPPNet [37]52.762.857.447.755.270.960.370.069.460.765.177.550.5MDAN [74]54.768.657.851.658.271.957.969.060.154.960.572.3-ResNet101 [17]PFENet [70]RePRI [4]60.559.669.468.654.462.255.947.260.159.472.9-62.866.270.471.454.967.057.657.761.465.673.5-10.8M-HSNet（我们的）67.372.362.063.166.277.671.874.467.068.370.480.62.6MHSNet†（我们的）66.269.553.956.261.572.568.971.956.357.963.773.82.6M表1：在mIoU和FB-IoU中PASCAL-5i[61]上的性能。一些结果来自[4，37，70，74，80]。上标表示我们的模型不支持特征掩蔽（Eqn.①的人。粗体数字表示最佳性能，下划线数字表示第二佳性能。骨干网方法200201202单次拍摄203是说FB-IoU2002012025次射击203是说FB-IoUPPNet [37]28.130.829.527.729.0-39.040.837.137.338.5-PMM [80]29.334.827.127.329.6-33.040.630.333.334.3-ResNet50 [17]RPMM [80]PFENet [70]29.536.536.838.628.934.527.033.830.635.8--33.836.542.043.333.037.833.338.435.539.0--RePRI [4]32.038.732.733.134.1-39.345.439.741.841.6-HSNet（我们的）36.343.138.738.739.268.243.351.348.245.046.970.7FWB [46]17.018.021.028.921.2-19.121.523.930.123.7-ResNet101 [17]DAN [74]PFENet [70]-36.8-41.8-38.7-36.724.438.562.363.0-40.4-46.8-43.2-40.529.642.763.965.8骨干网方法Miou单次拍摄5次射击OSLSM [61]70.373.0GNet [55]71.974.3VGG16 [64]FSS [33]DOG-LSTM [2]73.580.880.183.4HSNet（我们的）82.385.8ResNet50 [17]HSNet（我们的）85.587.8表2：在mIoU和FB-IoU中对C 0 C 0 -20i [46]的性能其他方法的结果来自[4，37，70，74，80]。表3：FSS- 1000上的平均IoU比较[33]。一些结果来自[2，74]。来自其它剩余折叠的样本用于训练，并且来自目标折叠i的1,000个片段被随机采样用于评估。对于每个折叠，我们使用相同的模型，具有相同的超参数设置，遵循标准的交叉验证协议。FSS-1,000包含来自1,000个类别的掩模注释图像，这些类别被划分为分别具有520、240和240个类别的训练、验证和测试分割。评估指标。我们采用平均交集联合（mIoU）和前景-背景IoU（FB-IoU）作为我们的评估指标。mIoU度量对折叠中所有类别的IoU值求平均：mIoU=1CIoU c其中C5.1. 结果和分析我们在PASCAL-5 i，COCO- 20 i和FSS-1000上评估了所提出的模型，并将结果与最近的方法[4，37，46，54，61，63，70，74，75，86]进行了比较。表1总结-rizes 1-shot和5-shot结果PASCAL-5i;我们所有的模型都有三个不同的主干，清楚地设置了新的艺术状态，可学习的参数数量最少。使用ResNet101主干，我们的1次拍摄和5次拍摄结果分别比[70]和[4]实现了6.1%p和4.8%p的mIoU改进，验证了其在少数拍摄分割任务中的优越性。如Tab.所示2，我们的模型优于最近的方法，在COCO上具有相当大的利润率20i，实现了2.7%p（1次）和6.8%p（5次）是目标文件夹中的类的数量，IoUc是类C的并集上的交集 FB-IoU忽略对象类并计算前景和背景IoU的平均值：FB-IoU= 1（IoU F+IoU B）其中IoU F和IoU B分别是目标折叠中的前景和背景IoU值。由于mIoU比FB-IoU更好地反映模型泛化能力和预测质量，因此我们在实验中主要关注mIoU6948mIoU在ResNet101主干上的改进[70]此外，在最后一个基准测试FSS-1000上，我们的方法设定了一个新的最先进的状态，优于[2，74]，如表1所示3 .第三章。我们进行额外的实验没有支持fea-真实掩蔽（Eqn.①的人。请注意，此设置类似于共分割问题[8，68，82]具有更强的概括性要求，因为模型是在新的6949→p=1C方法CocoPascal #params data augmentation 1-shot 5-shot to train在训练75706560757065605550 51 52 53平均值5550 51 52 53平均值HSNet（我方）64.1 70.3 2.6M无（我们的）联系我们表4：结构域移位结果。下标表示骨架。班如选项卡底部行所示1、我们的模式图5：在PASCAL-5i[61]数据集中对1次激发（左）和5次激发（右）mIoU结果的超相关性进行消融研究。在没有支撑的情况下掩蔽仍然表现得非常好，在1次注射设置中，与先前的最佳方法[70]相比，实现了1.4%p mIoU的改善，而在5次注射设置中，它与[4，70这个有趣的结果表明，我们的模型也能够识别75706560555050 51 52 53平均值75706560555050 51 52 53平均值不同的输入图像以及预测细粒度的分割掩模。对域偏移的鲁棒性为了证明我们的方法对域偏移的鲁棒性，我们在PASCAL-5 i的每个折叠上评估了COCO训练的HSNet。我们使用与[4]中相同的训练/测试折叠，其中训练和测试中的对象类不重叠。如Tab中所示。4，我们的模型在没有任何数据增强方法的情况下进行训练，与[4]相比，可训练参数的数量减少了18倍（2.6Mvs.46.7M），在COCO-20i和PASCAL-5i之间存在较大的域间隙时表现稳健，在 5 次设置中超过 [4]1.0%p ，并进一步改进了更大的主干，例如，ResNet101。结果清楚地显示了我们的方法对域偏移的鲁棒性，并且当使用[4，70]中使用的数据增强进行训练时可能会进一步增加。5.2. 消融研究我们进行了广泛的消融研究，以调查我们的模型中的主要组件的影响：超相关性，金字塔架构，和中心枢轴4D内核。我们还研究了冻结骨干网络如何防止过拟合，并有助于对新类的泛化所有消融研究实验均在PASCAL-5i [61]数据集上使用ResNet 101主干进行。超相关的消融研究研究中间相关{Cl}l∈ Lp的影响超相关（2：3）第二节（3）图6：PASCAL-5 i [ 61 ]数据集上金字塔层的消融研究，1次激发（左）和5次激发（右）mIoU结果。支持集查询集✔（我们的）✔（2：3） ✔（3）图7：对超相关金字塔层的消融研究。金字塔层的烧蚀研究为了看到在每个层p处的超相关性Cp的影响，我们在没有每个金字塔层的情况下进行实验。我们使用两个不同的超相关金字塔C（2：3）={C2， C3}和C （ 3 ）={C3}来训练和评估我们的模型，并比较了两个金字塔的重复性。Cp∈R| Lp| ×Hp×Wp×Hp×Wp，形成单通道hy-与我们的结果C ={Cp}3。图6总结了仅使用单个中间相关来进行预相关。具体来说，我们使用Lp中的最小（浅）和最大（深）层索引形成两个不同的单通道超相关，并表示超相关作为C浅，C深∈R1×Hp×Wp×Hp×Wp，并比较结果;给定没有几何信息的超相关金字塔（（2：3）），我们的模型未能在最终的掩模预测中细化对象边界，如图1所示。7.第一次会议。给定一个只对语义进行关系式（C（3）），模型预测严重受损，仅提供目标对象的粗略定位这些结果与我们的（CP）在图。五、CP和单通道超相关之间的巨大性能差距证实，从密集的中间CNN层捕获不同的相关模式在有效模式分析中至关重要是的。从C深到C浅indi的性能下降结果表明，捕捉模式的语义和几何线索是必不可少的细粒度定位。三种不同4D内核之间的比较我们进行消融研究的4D内核取代建议pp事实上，可靠的特征表示通常出现在CNN的更深层。中心枢轴4D内核与原始[58]和空间可分离[81] 4D内核，并比较它们的模型大小，MiouMiouMiouMiouPFENetres50 [70]61.163.410.8M翻转、旋转、裁剪RePRIres50 [4]63.267.746.7M翻转HSNetres50（我们61.668.72.6M没有一69501发5发#params。# params。（G）mIoU在%5%0mIoU在52上mIoU在51上50内核类型50511-拍摄5253是说50515-shot5253是说#可学习的参数时间（ms）内存占用（GB）FLOPs（G）原始4D内核[58]64.571.462.361.764.970.874.867.467.570.111.3M512.174.12702.35可分离的4D内核[81]66.172.063.262.665.971.274.167.268.170.24.4M28.481.5028.40Center-pivot 4D内核（我们的）67.372.362.063.166.271.874.467.068.370.42.6M25.511.3920.56表5：三种不同的4D卷积核在模型大小、每集推理时间、内存消耗和FLOP方面的比较。为了公平比较，所有模型的推理时间都是在配备Intel i7- 7820 X和NVIDIA Titan-XP的机器上测量的7287010010090 906866680 8046470 706226060 6058 01 2 3 450 50#每个构建块40 40图8：构建块中深度的影响：fsqz和f mix。历元历元p p10010090每集推理时间（1次），记忆消耗，80和浮点运算每秒（FLOPs）与我们的。70表5总结了结果。建议的内核记录60以最小的存储器/FLOP40这两个要求，同时比其他两个更有效结果清楚地支持了我们的主张，即高维核中的大部分参数可以安全地历元训练曲线（我们的）验证曲线（我们的）908070605040历元训练曲线（微调）验证曲线（微调）在不损害预测质量的情况下丢弃;仅几个相关参数就足够了，并且对于该目的甚至更好。虽然可分离的[81]和我们的中心枢轴4D卷积都在两个单独的2D卷积上操作，但是具有多个批量归一化的辅助变换层使得可分离的4D卷积在其顺序设计中数值稳定，导致参数数量增加两倍（ 4.4M vs. 2.6M ）和更慢的推理时间（28.48ms与25.51ms）比我们的。构建块中的4D图层的数量。我们还在两个构建块中使用不同数量的4D conv层进行实验：f sqz和f mix。图8图1-图2图9：学习曲线（x轴： epoch，y轴：mIoU）PASCAL-5i. 我们仔细调整了主干的学习率，并将其设置为HSNet（1 e-5）中的层的100倍。大量过去的经历，例如，ImageNet分类。这与人类视觉视角非常相似，因为我们通过分析新概念（我们所看到的）与过去观察（我们所知道的）的关系来概括新概念。有关其他实验细节、结果和分析，我们请读者参阅我们的补充材料。6. 结论pp在PASCAL-5i上使用模型尺寸的一次和5次mIoU结果在实验中，在构建块中添加额外的4D层（具有组范数和ReLU激活）可以提供高达三层的明显性能改进，因此，我们为两者使用三个4D层的堆栈。微调骨干网。为了研究学习“特征相关性”在少数情况下学习“特征表示”的意义，我们微调了我们的骨干网络，并比较了微调模型和我们的（冻结骨干）的学习过程。图9绘制了微调模型和我们的PASCAL-5i每一次折叠的训练/验证曲线。精细调整的模型迅速过度拟合训练数据，失去了从大规模数据集学习

下载后可阅读完整内容，剩余1页未读，立即下载