基于区域的单次图像分割及图注意力机制

58 浏览量更新于2023-10-12 收藏 884KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9587基于区域的One-Shot语义分割张驰1、林国胜1、刘法尧2、郭九双3、吴庆尧4、姚瑞51南洋理工大学、2美国信息技术研究所A*STAR、3斯坦福大学、4华南理工大学、5中国矿业大学电子邮件：chi007@e。ntu。edu. sg，gslin@ ntu.edu. SG摘要单次图像分割的目标是在只有一幅训练图像的情况下对一类新的图像进行分割。困难在于图像分割具有结构化的数据表示，这产生了多对多的消息传递问题。以前的方法通常通过将支持数据压缩到全局描述符来将其简化为一对多问题。然而，混合全局表示丢弃了单个元素的数据结构和在本文中，我们建议注意图推理预测用图形对结构化分割数据建模，并应用细心的图形推理将标签信息从支持数据传播到查询数据。图注意力机制可以通过学习连接的图节点之间的注意力权重来建立跨结构化数据的元素到元素的为了捕获不同语义层次的对应关系，我们进一步提出了一种类似于图的结构，该结构将不同大小的图像区域建模为图节点，并在不同层次上进行图推理。PASCAL VOC 2012数据集上的实验表明，我们提出的网络显着优于基线方法，并导致新的国家的最先进的性能1镜头和5镜头分割基准。1. 介绍由于大规模数据集[2，13]和深度神经网络[11，8]，完全监督学习在许多计算机视觉任务中取得了巨大成功。然而，标准的监督学习任务，如图像分类和语义分割，有其内在的局限性，即训练和测试都必须应用于特定的任务，即，要分类的类别。最近，元学习以及深度神经网络的强大功能在机器* 通讯作者：G. 是林书图1：拟议的金字塔图网络适用于解决单次图像分割。只要给定一个训练图像，我们的模型就可以对新的测试图像进行分割。提出的图注意机制可以发现图像区域之间的对应关系学习社区元学习，也称为学习学习，旨在训练一个元学习者，该元学习者能够在训练数据稀缺的情况下对看不见但相似的任务产生良好的泛化性能。Meta学习者的训练不是在特定任务上执行的，而是在类似任务的分布上执行的。元学习的一个研究得很好的领域是单次图像分类，其目的是在每个类别中仅给定一个训练图像的情况下对测试图像进行单次分割进一步将此任务扩展到像素级别。只有一个像素标记的训练图像，目标是预测测试图像中的二值掩模。与其中每个数据点具有标签的单次图像分类任务不同，在分段中，数据用一组结构化像素表示。这产生了一个多对多的消息传递问题，我们不知道两个图像中的哪些像素是相关的。为了解决上述问题，以前的方法将其转化为一对多问题，使用全局池操作挤压结构化支持数据，一个全局描述符，并利用它来指导密集预测[18，3，15，26，27]。在这种情况下，每个预测标记的支持集查询集9588像素位置参考相同的引导向量。例如，在[3，27，26]中，网络结构通过余弦距离度量或可学习的距离度量鼓励查询图像中的前景像素与全局描述符具有近距离。然而，两个分组的像素可能仅示出整个表示的一小部分中的连接通常，支持集中显示的部分对象可能不会出现在查询集中。在这种情况下，全局平均描述符可能会引入噪声，因为我们只希望共享组件提供指导信息。在这项工作中，我们认为，查询集和支持集可以建模与图和propa- gating标签信息从一个结构化的表示到另一个的过程中，可以从图推理的立场来看。我们将查询图和支持图合并成一个大的二分图，我们假设查询图中的每个节点都与支持图中的节点完全连接为了推理未标记的查询节点和标记的支持节点之间的潜在相关性，我们应用图注意力机制[23]来加权每个相邻节点的连接。利用注意力权重，每个查询节点可以选择性地聚合来自支持图的标签信息这也可以通过检查注意力分布来提供一些可解释性。我们的注意力机制如图所示。1.一、下一个问题是我们应该如何用图形表示来建模图像。给定查询图像和支持图像中的两个位置，它们可以显示不同级别的连接。例如，两个人类图像的连接可以是基本特征，眼睛，其对应于一个小区域，但它也可以是一个更抽象的特征，例如，由一组基本特征构成的面孔。基于这种直觉，我们提出了一种类似于分支图的推理结构来建立这种多级连接。不同分支中的图形节点以不同尺度捕获子区域的特征。在底层，特征图中的每个像素都被建模为图中的节点。其余分支通过自适应池化将图像中不同大小的子区域建模为图节点。自适应池可以将任意大小的特征图降采样为一组固定大小的网格。每个分支独立地执行图推理，并且它们的结果被投影回原始大小。最后，我们融合所有分支进行最终预测。金字塔结构使图推理在不同的尺度，以帮助节点分类。在我们的实验中，我们还探索了采用其他技术来捕获多级关系的各种模型变量，例如，扩张的螺旋我们的经验证明，我们的基于图形的方法实现了更好的结果比基线方法完全基于全球的指导。我们的贡献总结如下：• 我们提出了金字塔图网络（PGNet）的单镜头图像分割，建立对象部分之间的对应关系的注意机制，nism与以往的工作相比，基于全局信息，所提出的图形模型允许每个像素的预测，以参考更多的相关区域的支持集。• 我们提出了一个金字塔架构，构建两个IM之间的多级区域为基础的连接有效地将标签信息从支持集传播到查询集。• 所提出的注意力机制还通过可视化节点连接权重来提供关系的可解释性。• 在PASCAL VOC 2012数据集上的实验表明，我们的方法明显优于基线模型，并实现了新的最先进的1-shot和5-shot。镜头分割结果。2. 相关工作Meta学习。元学习的目标是用少量的训练数据学习一个可以快速适应新任务的模型，这与训练和测试都在进行的标准监督学习不同一个具体的任务。一个代表性的研究是将Meta学习应用于少镜头图像分类。在此之前，一系列的少数分类文献采用度量学习来计算样本之间的成对距离，这些距离可用于分类[20，25，10]。在这种情况下，元学习器拥有在样本之间进行比较的能力。其他公式，例如学习快速适应的良好初始权重[5，21]，通过LSTM更新参数[16]，采用时间卷积[14]等。也会产生有希望的结果。少镜头分割。语义分割是计算机视觉的一项基本任务，其目的是将图像中的每个像素分类到一组类别中。很少- 镜头分割将少镜头分类扩展到像素级。以前的作品遵循两个分支网络设计[18，15，27，26，3，9]。支持分支从标记的支持数据中提取信息以指导查询分支中的分割。在[18]中，查询分支是FCN，支持分支直接预测向量作为查询分支中的层的参数以指导分割。在[15，26]中，从支持分支生成的全局向量被上采样并与查询特征连接以进行密集预测。Zhang等人[27]通过计算所述全局向量与每个查询位置之间的相似性得分来重新加权所述查询特征图，以分割所述目标类别。9589上述方法的内在精神是将多对多对应问题简化为一对多问题。为了生成全局描述符，早期的作品[18，15，3]在支持RGB图像中隐藏背景，并在支持分支的末尾执行全局平均池化以生成全局描述符。[26，27]中的作品通过在中间特征中的前景掩模区域上执行平均池化来提取全局向量来改进它。另一方面，我们的方法建立了元素到元素的对应关系，查询图像中的每个位置都可以有选择地从支持集中提取有用的信息。关注近年来，有效处理图形数据的注意力转移机制已经变得流行[17，12，23，22，4]。注意力可以让任务专注于最相关的部分来帮助做出决定。其中，我们的工作与Graph Atten- tion Networks [23]最相关，它采用注意力机制来执行图数据中的节点分类。在图注意力网络中，每个节点表示关注所有相邻节点，节点之间的权重通过注意力机制隐式指定。然后，用相邻节点的加权和来更新节点。图形注意力机制也用于其他计算机视觉任务，例如少数镜头图像分类[6]和社会关系理解[24]。在我们的工作中的3. 问题设置在详细描述我们的网络之前，我们首先介绍了一个典型的Meta学习任务的符号和公式元学习的任务旨在训练一个模型R来承担一个看不见的任务Ti，只有几个标记的例子。在单次分割设置中，任务Ti表示特定类别的二进制分割该模型通过从Ptrain（T）中采样任务来训练，在新任务P测试（T）上进行评估。为了避免混淆，在训练和测试时，标记的示例图像称为支持集，用于预测的图像称为查询集。该模型通过从Ptrain（T）中周期性地采样任务来训练，这与评估过程相一致。算法1中提供了单次学习片段的构建过程。在训练时，通过优化损失L训练来更新模型参数。4. 方法算法1构造一次学习片段。x∈RH×W×3表示RGB图像，y∈RH×W表示二进制掩码。phase∈ {train，test}输入：模型R，任务分配P阶段（T），损失函数L（·）1：Whilenotdo2：T ←Sample a taskT任务阶段（T）3：S ←采样标记图像（xs，ys（T））作为支持集4：{xq，yq（T）} ←对查询集进行采样。5：y=q（T）←R（xq，S），做预测6：Lphase←L（yq（T），y<$q（T）），计算损失7：完成8：结束时几个主要的组成部分，即，图形注意单元。在下文中，我们将从图形注意力单元的说明开始然后，我们介绍了我们的金字塔图reasoning模块，该模块将不同大小的子区域建模为图节点。我们的网络概述如图所示。二、4.1. 图形注意股给定一个查询图像xq和一个标记的支持图像xs，我们首先使用一个共享的卷积神经网络将它们转换为特征图，其中每个像素位置都由一个向量表示。特征图可以用每个节点对应于原始特征图中的特征向量的图来建模。我们的目标是建立两个图域之间的关系，将标签信息从支持图像传播到未标记的查询图像进行分类。我们的图注意力单元（GAU）从图注意力网络[23]中获得灵感，其中模型为每个邻居学习权重系数，并将每个节点重建为下游图挖掘任务的相邻节点的加权和。我们的图注意单元具有相同的精神，并将查询图和支持图结合成一个大的二分图，每个查询节点完全连接到所有的支持节点。然后，我们重建每个查询节点，通过融合所有相邻的支持节点与注意力机制。然后，融合的节点，连同它们的原始节点表示，用于节点分类。图形注意单元的架构如图所示3 .第三章。我们首先阐述了一个示例查询节点的节点更新过程，这样的操作可以并行地应用于所有查询节点。假设我们有一个查询节点表示→hq，支持节点表示{→h1，→h2，...，→hN}，其中→h∈s s s在本节中，我们将介绍我们的PGNet，目的是在结构化数据之间建立元素到元素的对应关系。该网络由一个RC，N是支持图中所有节点的数量，C是特征维度，图关注单元通过选择性地积累来自9590SSCNN查询图像CNN标记支持图像图形注意股图形注意股+图形注意股输出图形注意股同等重量ASPP残差卷积图2：我们的网络在单次图像分割任务上的图示。给定一个采样图像对，我们首先使用一个共享的CNN来提取它们的特征，然后用图对查询特征图和支持特征图中的前景区域进行建模。然后，对查询特征应用一组自适应池化层，获得不同的子区域表示，并将其发送到不同的图注意单元进行图推理。最后，不同分支的输出通过加法进行融合，并通过其余卷积进行进一步处理具有相同注意力权重的GAU分支与全局池化具有相同的效果。哪里||表示级联操作。内积我们还尝试使用两个向量的点积来计算标量：f（φ（→hq），θ（→hj））=φ（→hq）Tθ（→hj）（3）S s图3：我们提出的图形注意力单元一旦我们获得了所有相邻支持节点的相关因子ej，我们就用softmax函数对其进行归一化并生成权重aj。在此基础上，我们融合所有的支持节点表示与加权和。最后，融合节点与原始输入查询节点向量连接，并且它们与另一线性变换函数融合：在查询图中有一个示例节点。a=exp（ej）、（四）所有支持节点。为此，我们需要找到一个成对的JNk=1ΣNexp（ek）函数f（·），其生成标量ej作为查询节点→hq和支持节点→hj之间的相关性得分→vq=ajg（→hj）），（5）j=1h→′ =（→v||g（→h））（6）ej=f（θ（→hq），φ（→hj））（1）q q qS其中φ和θ是线性变换函数，其将节点特征投影到新的空间。在这里，我们实验了两种通常用于向量比较的函数f（·）的选择线性变换图注意力网络[23]中用于计算重复得分的原始公式是连接两个向量并应用具有权重向量w→f的线性变换：f（φ（→hq），θ（→hj））=w→T（φ（→hq））||θ（→hj））（2）输入支撑图输入查询图输出量融合查询图…级联��（��（9591其中 g （ ·）和 f （ ·）是线性投影函数，后面是ReLU。并行计算在实现时，所有的线性变换操作，即。e. g（·），θ（·），φ（·），θ（·），φ（·）由于其网格排列的性质，可以在所有节点上同时进行1×1卷积运算对于成对运算f（·），由于我们仅将支持图像中的支持区域建模为支持图，因此我们可以首先将f（·）应用于支持集中的所有位置，然后屏蔽与背景对应的注意值在softmax标准化之前使用−∞。当点积sfs9592在f（·）中使用的是矩阵乘法，可以并行计算注意力值，而在使用线性变换时，可以在信道维上使用张量广播和1×1卷积，以提高计算效率。位置。4.2. 金字塔图推理我们已经提出了GAU通过建模每个像素作为节点向量来执行图推理。然而，建立在逐像素基本特征上的这种连接可能不足以发现理想的关系。例如，类似眼睛的特征可能会错误地建立人类眼睛和狗眼睛之间的关系。我们可能想要一个抽象的特征，例如，人脸被建模到图中，以便更好地进行推理。我们发现，一个复杂的对象可以分解成一组基本元素。例如，面部可以大致由眼睛、鼻子和嘴巴组成。为了获得不可见的高级表示，我们可以简单地混合元素表示。有了这个直觉，我们提出了一个多层次的图推理方案，模型不同大小的子区域的图节点进行图推理在不同的层次。我们已经演示了底层，其中每个像素都被建模为图中的节点。金字塔结构中的其他两个分支具有类似的结构，但在将查询特征图发送到GAU之前，对查询特征图采用不同大小的自适应池。然后，每个图注意力单元的融合图通过双线性插值被上采样回原始特征大小，如图11所示。二、自适应池化可以在给定任意大小的特征图的情况下提取指定大小的表示。子区域内的所有像素位置一起构成特征表示，然后将其建模为图节点。我们还添加了一个GAU，它设置了相等的注意力值ej。在这种情况下，每个查询节点与平均支持节点融合不同分支的输出映射通过加法进行融合，并由三个残差卷积块进行处理[8]。最后，我们在最后添加AtrousSpatial Pyramid Pooling Module（ASPP）[1]以生成最终结果。5. 实验5.1. 实作详细数据。我们的网络结构是从DeepLab V3修改而来的，以ResNet-50为骨干。具体来说，我们将原始的DeepLabV3网络分解为一个完全卷积的ResNet部分和一个Atrous Spatial Pyramid Pool（ASPP）模块作为后处理部分。在ImageNet上预训练的Resnet主干用作我们网络中的特征提取器，并在最后添加ASPP。我们删除块-4中的层，并将块-3和块-2的特征连接起来作为提取的特征，这些特征被发送到不同的分支。GAU、残差块和ASPP内的所有卷积操作生成256个通道的特征。不同分支中的线性投影函数g（·）共享相同的参数。最后，该模型输出双通道掩模作为每个位置的预测在训练时，我们通过最小化具有动量SGD的所有像素位置上的两类交叉熵损失来优化网络参数。该网络以0.0025的学习率进行了600，000次迭代训练。在训练过程中，我们采用随机裁剪、随机缩放和随机水平翻转的方法对支持图像进行数据扩充。5.2. 数据集和评估指标我们评估了我们的算法在PASCAL VOC 2012数据集扩展注释的性能[7]。我们遵循[18]中的数据集划分，即20个对象类以其官方重新密封的顺序均匀划分为4个折叠，并报告交叉验证结果。也就是说，15个对象类别被用作训练任务，其余的作为测试任务。在测试时，我们在每个测试中随机抽取1,000个任务。有关数据集的更多详细信息，请参阅[18]。我们将评估指标与以前的作品保持一致。给定来自1000个测试片段的预测掩码，我们首先计算每个对象类的标准前景交集（IoU）得分，然后将所有5个类的类间IoU平均为该折叠的平均IoU。当与最先进的结果进行比较时，我们报告了每个测试折叠中的平均IoU和超过4个折叠的平均结果5.3. 消融分析我们进行了广泛的消融实验，以验证我们的网络设计。每个分析实验进行两次，分别以倍数0和倍数1作为测试倍数。我们在本节中报告了所有实验的两个测试折叠的平均性能骨干网络。我们首先评估骨干模型在我们的架构中的重要性。我们使用在以前的工作中使用的两个骨干模型进行实验：VGG-16和ResNet-50。我们确定成对函数f（·）点积。我们与这两个人的网络结果主链模型见表。1.一、如图所示，我们的ResNet-50模型的性能略优于VGG版本。我们采用ResNet-50作为后面所有实验的骨干模型.pair-wise函数表. 图2比较了我们的模型变体与点积和线性变换作为逐对函数f（ ·），它们分别用PGNet-Dot和PGNet-Linear表示如图所示，我们的模型9593图4：我们网络的定性结果。第一行是查询图像。第二行是我们对查询图像的网络预测。第三行是带有地面实况注释的支持图像。第四行是所选区域的相应注意力图（在查询图像中用红色矩形标记）。查询图像中的网格表示我们从哪个分支提取注意力图注意力值被归一化为[0，1]以突出支持图像中的显著模型主干平均IoU（%）PGNet-Dot VGG-16 57.2PGNet-Dot ResNet-50 59.4表1：我们的模型与不同的骨干网络。PGNet-Dot将我们的模型与点积表示为成对函数f（·）。我们的网络与ResNet-50骨干取得了更好的效果。模型平均IoU（%）PGNet-线性58.1PGNet-Dot 59.4表2：我们的网络具有点积和线性变换作为逐行函数f（·）。点积版本实现了更高的平均IoU评分。用点积作为函数f（·）得到更好的结果。自适应池与扩张卷积。扩张卷积[1]是另一种从更大范围提取信息而不引入额外参数的常见操作。滤波器的感受野可以通过改变卷积核的膨胀率我们实验了一系列的模型变体，用扩张卷积代替自适应池操作。为了构建我们的网络的扩张卷积版本，我们对原始结构进行了以下修改：1)我们将自适应池操作移除到输入查询特征映射，使得所有GAU具有相同的查询输入。2）将图注意单元中的查询节点编码函数θ（·）替换为3×3扩张卷积，以融合不同范围的信息。为了从不同大小的区域捕获信息，不同的图注意力单元中的膨胀率分别设置为2、4和8，而其他网络组件保持不变。我们还尝试在支持特征图上采用这些操作。具体而言，如果在我们的网络中采用自适应池，则不同GAU的查询特征映射保持相同，并在支持特征映射上应用自适应池操作，如果使用扩张卷积，则我们只需移动上述更改近似于支持节点编码函数φ（·）。自适应最大池和自适应平均池的比较在这一部分中，我们还研究了。我们在这个实验中的基线方法是一个分支集成模型，既不使用扩张卷积也不使用自适应池化，这样所有的分支都共享相同的结构，并且都应用于原始的查询和支持特征映射。型号变体的比较见表。3 .第三章。从结果中我们可以发现，扩张卷积和自适应池化都可以引入多范围信息，并在基线结果的基础上提高性能当查询特征映射采用自适应平均池时，可以获得最佳结果与全球指南相比。如前所述，以前的工作将多对多问题转换为一对多问题，来自支持集的全局描述向量指导像素预测注意力图支持集预测查询集9594基于平均IoU（%）操作的方法表3：使用扩张卷积或自适应池进行多范围图推理的比较。这两种方法都可以提高基线模型的性能。在查询特征映射上采用自适应平均池化会产生最佳结果。在查询图像中。在这里，我们实现了几个基线模型，采用在以前的作品中的设计。我们的第一个基线模型PGNet-Mask-RGB采用了[18，15，3]中的解决方案，我们用零屏蔽支持图像中的背景区域，并对支持特征执行全局平均池化以生成全局向量。然后，将该向量上采样到与查询特征图相同的空间大小，并通过级联将它们第二个基线模型，具有相同的精神与微小的差异。在[27，26]中，他们保持原始RGB支持图像作为输入，并通过对前景蒙版区域上的支持特征进行平均来我们用PGNet-Mask- Feature表示这种基线方法。我们将金字塔图推理模块替换为上述两个解决方案，同时保留其他网络组件以验证我们的设计。上述方法可以看作是我们GAU的一个特殊情况，当注意力值设置为相等时，每个查询节点都与平均支持节点融合。此外，我们还实验了基线方法的分支集成，以研究我们的网络性能是否是通过引入更多的参数来驱动的同样，我们也构造了4个平行分支，它们都具有相同的结构，但参数不同，它们的结果通过加法融合，就像我们的金字塔结构一样结果示于表中。4.第一章如图所示，尽管基线方法的分支集合可以稍微提高基线性能，但我们的网络仍然以较大的幅度优于所有基线方法。结果表明，与单纯基于全局向量的方法相比，注意图推理方法能够更有效地从支持集中提取制导信息。多尺度输入测试。正如在分割文献中通常所做的那样，我们用多尺度查询测试了我们的网络性能，并支持图像输入和平均预测。具体地，图像以[0.7，1，1.3]的比率重新缩放，并且它们对应的预缩放比例为[表4：我们基于图的网络与基于全局向量指导的模型变体的比较。我们提出的方法取得了比基线方法及其集成版本更好的结果模型查询支持平均IoU（%）PGNet-Dot59.4PGNet-DotC61.2PGNet-DotC59.5PGNet-DotCC61.5表5：多尺度输入检验的影响。所有预测都被重新缩放到原始图像大小，并通过平均值进行融合通过双线性插值将文字重新缩放回原始大小。多尺度输入检验的效果见表。五、5.4. 定性结果图4给出了模型的一些定性结果。我们可以看到，我们的网络可以准确地预测查询图像，只有一个标记的训练图像。给定查询图像中不同大小的子区域，我们将所有支持位置的注意力权重可视化。我们的图形注意力机制可以在支持图像中找到最相关的区域，以帮助预测。5.5. 与最新技术水平的比较结果我们将我们的最终模型与PASCAL VOC 2012数据集上的最先进方法进行了比较。我们在两个不同的实验设置下报告我们的结果，其中差异在于采用的评估指标：第一个评估指标是我们在本节开始时解释的指标。第二个评价指标是在[15]中提出的。它们忽略对象类，并报告折叠中所有测试图像的前景IoU和背景IoU的平均值。我们分别用Mean IoU和IoU来表示它们，以进行区分。两个评价指标下的单次结果见表。6和表。7，分别。从表中可以看出，在两种实验设置下，我们的网络都优于以前的方法，并实现了新的最先进的性能。5-射击实验由于所提出的图注意力单元动态地生成查询节点和所有支持节点之间的权重，因此我们可以将我们的模型扩展到模型合奏平均IoU（%）PGNet-Mask-RGB54.7PGNet-Mask-RGBC54.8PGNet-Mask-Feature56.7PGNet-Mask-FeatureC57.1PGNet-Dot59.4基线包围-57.5扩张卷积支持58.1扩张卷积查询57.7自适应最大池支持58.6自适应最大池查询57.6自适应平均池支持57.6自适应平均池查询59.49595模型0倍折叠-1折叠-2折叠-3是说模型（5张）0倍折叠-1折叠-2折叠-3是说[19]第十九话39.248.039.334.240.2[15]第十五话37.550.044.133.941.4OSLSM [18]33.655.340.933.540.8OSLSM [18]35.958.142.739.143.9[15]第十五话36.750.644.932.441.1[19]第十九话45.351.444.939.545.3[27]第二十七话40.258.448.438.446.3[27]第二十七话41.958.648.639.447.1CANet [26]52.565.951.351.955.4CANet [26]55.567.851.953.257.1我们56.066.950.650.456.0PGNet-Fusion53.665.649.949.954.8PGNet-Graph54.967.451.853.056.8表6：与最先进的单次分段的比较PASCAL VOC 2012数据集上的分割性能模型IoU[15]第十五话[19]第十九话PL [3] 61.2A-MCG-Conv-LSTM [9] 61.2OSLSM [18] 61.3[27]第二十七话[26]第二十六话我们的69.9表7：关于[15]中提出的评价指标，与 PASCAL VOC2012数据集上最先进的1次激发分割结果的通过将所有支持图像建模到支持图中，轻松解决k-shot学习任务。具体地，来自不同支持图像的前景区域一起构成支持图，使得注意力分布在支持集中的所有前景位置上。因此，我们的算法能够处理1杆和k杆的情况下，同一模型。相比之下，大多数以前的工作只能处理一个镜头的情况下，采用朴素的融合方法融合个人的1-shot结果。例如，[15，27，3]对不同支持图像生成的全局描述符进行平均。Zhang等人[26]训练一个额外的分支，在平均它们之前对k个全局描述符进行沙班等。[18]采用逻辑或操作来融合各个预测的二进制掩码。我们报告的5杆分割结果与以前的作品公平的结果见表。8. PGNet-Fusion表示我们使用单次模型对每个支持图像进行预测并对5个预测掩码进行平均的基线方法。PGNet-Graph表示将所有支持图像建模到图中的方法。PGNet-Graph-MS表示我们提出的模型，该模型对查询图像进行多尺度输入测试。我们可以从结果中看到，我们的基于图的5次学习方法比朴素融合解决方案更有效，并且我们的最终5次结果在两个评估指标下显著优于最先进的性能。PGNet-Graph-MS57.7 68.7 52.9 54.6 58.5(a) [18]中采用的平均类IoU的评价指标[15]第15话最后一句OSLSM [18] 61.5A-MCG-Conv-LSTM [9] 62.2PL [3] 62.3[27] 2016年12月[19]第十九话[26]第二十六话PGNet-Graph-MS70.5(b) [15]中采用的IoU评价指标表8：与PASCAL VOC 2012数据集上最先进的5次激发分割性能的比较。我们的网络在这两个评估指标下都优于以前的方法。6. 结论本文提出了一种基于金字塔图网络的单次图像分割方法.与以前的方法相比，仅基于一个全局支持向量，我们的attentive图形模型之间建立连接的元素之间的结构表示的数据，允许每个未标记的像素有选择地聚集指导信息的支持图像区域。我们的金字塔结构models-els不同大小的区域作为图节点，使图推理在不同的规模和语义水平。在PASVAL VOC 2012数据集上的两个评估指标下的实验表明，我们提出的方法显着优于基线方法，并实现了新的最先进的性能。确认这项工作得到了新加坡国家研究基金会在其AI新加坡计划 [AISG-RP-2018-003] 和 MoE-1 研究资助 [RG126/17（S）]下的支持。我们要感谢NVIDIA的GPU捐赠。引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络进行语义图像分割，atrous卷积9596和完全连接的CRF。IEEE Transactions on PatternAnalysis and Machine Intelligence，40（4）：834-848，2018。五、6[2] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，第248-255页，2009。1[3] 董南青和邢国雄。具有原型学习的少量语义分割。在BMVC，2018年。一、二、三、七、八[4] 冯军，黄敏烈，杨洋，等 . Gake ： graph awareknowledge embedding。在计算语言学国际会议上，第641-651页，2016年。3[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。ICML，第1126-1135页。JMLR。org，2017. 2[6] 维克多·加西亚和琼·布鲁娜。图神经网络的少样本学习arXiv预印本arXiv：1711.04043，2017。3[7] BharathHariharan，PabloArbela' ez，RossGirshick，andJi-tendra Malik.同时检测和分割。见ECCV，第297-312页。Springer，2014. 5[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年。一、五[9] 胡涛，杨鹏万，张池良，余刚，穆亚东，和Cees GMSnoek。基于注意力的多上下文引导的少镜头语义分割。在AAAI，2019年。二、八[10] Gregory Koch Richard Zemel和Ruslan Salakhutdinov用于一次性图像识别的连体神经网络。ICML深度学习研讨会，第2卷，2015年。2[11] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NIPS，第1097-1105页，2012中。1[12] John Boaz Lee、Ryan A Rossi、Sungchul Kim、NesreenK Ahmed和Eunyee Koh。图表中的注意力模型：一个调查。arXiv预印本arXiv：1807.07984，2018。3[13] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV，第740-755页，2014中。1[14] Nikhil Mishra ， Mostafa Rohaninejad ， Xi Chen ， andPieter Abbeel.一个简单的神经专注元学习者。arXiv预印本arXiv：1707.03141，2017。2[15] Kate Rakelly、Evan Shelhamer、Trevor Darrell、AlyoshaEfros和Sergey Levine。用于少镜头语义分割的条件网络。在ICLR研讨会，2018年。一、二、三、七、八[16] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。2[17] 柳成谷，林在昌，金佑允。利用图形注意力神经网络深度学习分子结构与性质关系。arXiv预印本arXiv：1805.10988，2018。3[18] Amirreza Shaban，Shray Bansal，Zhen Liu，Irfan Essa，and Byron Boots. 用于语义分割的一次性学习。在BMVC，2017年。一二三五七八9597[19] Mennatullah Siam和Boris Oreshkin。用于少镜头分割的自适应掩码权重印记 arXiv 预印本 arXiv ：1902.11123，2019。8[20] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。在NIPS，2017年。2[21] Qianru Sun ， Yao Liu ， Tat-Seng Chua ， and BerntSchiele.用于少量学习的元迁移学习在CVPR，2019年。2[22] Kiran K Thekumparampil ， Chong Wang ， SewoongOh，and Li-Jia Li.用于半监督学习的基于注意力的图神经网络。arXiv预印本arXiv：1803.03735，2018.3[23] Peta rVelicˇko vic´ ， GuillemCucurull ， ArantxaCasanova，Adriana Romero，Pietro Lio，and Yoshua Bengio.图at-tension 网络。 arXiv 预印本 arXiv ： 1710.10903 ，2017。二、三、四[24] Zhouxia Wang，Tianshui Chen，Jimmy Ren，WeihaoYu，Hui Cheng，and Liang Lin.用知识图进行深度推理，以理解社会关系。 arXiv 预印本 arXiv ：1807.00504，2018。3[25] Flood Sung Yongxin Yang ， Li Zhang ， Tao Xiang ，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在CVPR，2018年。2[26] Chi Zhang，Guosheng Lin，Fayao Liu，Rui Yao，andChunhua Shen.Canet：具有交互式细化和专注的少量学习的类不可知分割网络。在CVPR，2019年。一、二、三、七、八[27] Xiaolin Zhang，Yunchao Wei，Yi Yang，and ThomasHuang.Sg-one：用于一次性语义分割的相似性指导网络。arXiv预印本arXiv：1810.09091，2018。一、二、三、七、八

下载后可阅读完整内容，剩余1页未读，立即下载