零标签和少标签语义分割：基于零标签和少标签学习的新任务

162 浏览量更新于2023-10-19 收藏 1.75MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于零标签和少标签语义分割的冼永勤1、苏哈伯拉塔·乔杜里1、何阳1、伯恩特·席勒1、泽尼普·阿卡塔1、2、1、马克斯·普朗克信息学研究所2、阿姆斯特丹机器学习实验室阿姆斯特丹大学萨尔信息学校区摘要语义分割是计算机视觉中由于在该上下文中的像素级标记特别昂贵，因此已经进行了几次尝试来减少注释工作，例如通过从图像级标签和边界框注释学习。在本文中，我们更进一步，提出了零标签和少标签学习的语义分割作为一个新的任务，并提出了一个具有挑战性的COCO-Stuff和PASCAL VOC 12数据集的基准。在零标签语义图像分割任务中，在训练过程中不存在该类别的标记样本，而在少标签语义分割任务中，仅存在少量标记样本。解决这个问题需要将知识从以前见过的类转移到新的类。我们提出的语义投影网络（SPNet）通过将类级别的语义信息整合到任何为语义分割设计的网络中来实现这一点，并以端到端的方式进行训练。我们的模型是有效的分割小说类，即。减轻了昂贵的密集注释，而且适应于新的类而不忘记其先前的知识，即，广义零标签和少标签语义分割。1. 介绍语义图像分割的目标是通过将图像划分为若干个语义区域，然后学习各个类别的外观以及背景，为图像中的每个像素分配一个尽管基于深度CNN的方法在这项任务中取得了良好的性能，但它们需要昂贵的密集注释来学习它们的大量参数。因此，通过图像级标签[34，32，31]或点[5]，边界框[20]，涂鸦级注释[25]利用弱注释最近获得了兴趣。另一方面，作为人类，我们很容易学会识别以前看不见的东西，即。小说，通过将它与我们所知道的类相关联来分类。然而，分割*平等捐款图1：我们提出了（广义）零标签和少标签语义分割任务，即分割在训练期间模型看不到其标签的类，或者模型具有这些类的一些标记样本。为了解决这些任务，我们提出了一个模型，使用边信息将知识从可见的类转移到不可见的类，例如。在自由文本语料库上训练语义词嵌入。通过现代机器学习技术的这种新颖的类仍然是一个开放的问题，因为该过程需要从已知类到先前未见过的类的知识转移。将知识转移到新课程并不是一项新任务。在图像分类的背景下，已经广泛地研究了学习预测新类别，即。zero-shot learning [23，57，7，2].在零标签语义分割（ZLSS）中，我们的目标是分割以前看不见的，即。在少标签语义分割（FLSS）中，这些新的类具有少量的带标签的训练示例（参见图1）。在这项工作中，我们的目标也是在不忘记以前看到的课程的情况下学习，即广义ZLSS和FLSS。为了实现这些目标，我们提出了语义投影网络（SPNet），它将语义词嵌入到一个任意的语义分割网络中，灵感来自于零次学习的成功。处理少数镜头语义分割的先前模型[42，11]在前景-背景分割设置中操作。然而，在我们的FLSS定义中，模型必须单独预测图像中的所有类别，这更具挑战性和现实性。我们的框架利用语义分割网络中不同类别之间的相似性，使其能够转移8256训练集多样本语义知识少样本测试集我们的预测我们的预测少标号语义分割零标签语义分割8257学习其他类的表示。因此，我们的模型能够分割包含新类的场景。我们的主要贡献如下。(1)我们介绍了（广义）零标签和少标签的语义图像分割任务，在现实的设置灵感来自零拍摄学习图像分类。(2)我们提出了语义投影网络（SPNet），这是一种端到端的语义分割模型，它将每个图像像素映射到一个语义词嵌入空间，在该空间中，它被投影到一个固定的词嵌入，以优化交叉熵损失的类概率。（3）我们用两个具有挑战性的数据集创建了（一般化的）零标签和少标签语义图像分割的基准，COCO-Stuff和PASCAL- VOC。我们的分析表明，SPNet模型在（广义）零标签和少标签任务的定量和定性方面都取得了令人印象深刻的结果。此外，作为一个副产品，我们的模型提高了零拍摄图像分类的最新技术水平，证明它可以很好地推广到其他任务。2. 相关工作在本节中，我们回顾了之前关于零射击学习，语义分割及其组合的工作零镜头和少镜头图像分类。零拍摄图像分类的大多数进展是通过视觉语义嵌入模型[13，1，57，50，41，14，55]实现的，该模型学习图像嵌入空间之间的兼容性函数，即。CNN图像特征[16]，以及类嵌入空间，即。类的属性[23]。由于复杂的任务[24，40]集中在为单个图像分配多个预先未见过的标签，[22，52，53]预测视频中的新动作，以及最近的[4]未见过的对象检测。关于零触发学习模型的全面概述，我们请读者参考[51]。至于少镜头学习，[48，15]突出为生成弱表示类的数据，Meta学习方法[46，38，44]通过共享参数和应用情节训练策略来规范模型。与图像只有一个类别标签的图像分类相比，在语义分割中，每个图像都有一个密集的标签映射，该映射为来自一组可能的对象类别的每个像素分配一个标签。由于图像中存在大量的类同现，因此构建一个不包含目标类像素的训练集进行语义分割是不现实的。因此，我们允许模型在不访问其标签的情况下查看目标类中的像素，这解释了我们的术语弱监督的语义分割。现代语义分割系统[27，9，3]建立在编码器-解码器网络上，并使用密集标记的注释进行训练许多努力集中在改善语义分割下完全监督设置，例如。添加全局上下文信息[59，54，26]，应用图形模型作为后处理步骤来细化输出[60，9]等。减少注释工作，最近获得了动力。作为弱监督，先前的作品使用图像级注释[34，32，31]，点[5]，涂鸦[25]和边界框[20]注释。这些方法通过测量对象性[5]和显著性[31]或应用图形模型[25]将监督推广到更大的区域。其他方法将粗略注释的区域细化为更准确的区域[20，32]。然而，这些模型仍然需要在训练过程中看到所有的类，因此不容易适应新的类。相比之下，我们专注于分割完全新的类。小说类的语义分割。术语零拍语义分割出现在先前的作品中[18，58]。[18]的目的是在测试时间内分割新的演员动作模式。虽然[58]提出了开放词汇场景解析任务，通过执行分层解析来分割新对象，但我们利用词嵌入来预测确切的不可见类，并在统一框架中对于少量语义分割，以前的方法[42，37，11，56]遵循元学习设置[46，44]，其使用支持集来预测查询图像。然而，这些方法被限制为输出二进制掩码，并且无法分割具有多个类的图像。相比之下，我们的方法是在更现实的（广义的）少标签语义分割设置，即操作。图像的像素级标记，其中标签来自基础类和新类。语义嵌入。在使用有限标签的学习中，需要某种形式的辅助信息来将从可见类学习到的知识转移到不可见类。一种流行的辅助信息形式是属性[23]，然而，这需要昂贵的专家注释。因此，已经有大量的研究[2，39 ， 36 ， 10] 利用其他来源，如 Word2vec [29] ，fastText [19]或hierarchies [30]来构建语义嵌入。在这项工作中，我们利用Word2Vec和fastText，因为它们不需要特定于数据集的人工注释。3. 一种新类划分现代语义分割模型建立在完全卷积的编码器-解码器架构上[9，27]，输出各个类别的中间特征图和后验然而，要分割新的类，这些模型需要进行调整，以将知识从一类转移到另一类。这样的知识可以从关联不同类的类级语义嵌入中获得因此，我们的方法的主要见解是利用语义词嵌入，即。word 2 vec [29]或fast-text[19]，将从基类学到的知识转移到新的8258火车GT分割网络损失={horse，测试FCN={牛，草，...}预测DeepLab...CCNN特征图词嵌入矩阵视觉语义嵌入语义投射图2：我们的零标签和少标签语义分割模型，即SPNet包括两个步骤：视觉语义嵌入和语义投射。零标签语义分割作为我们的模型的一个实例。替换SPNet的不同组件，解决了四个任务（实线/虚线分别显示训练/测试程序两个步骤中的类。首先，我们建议学习视觉语义嵌入模块，其在词嵌入空间中产生中间特征图。其次，我们通过一个固定的词嵌入投影矩阵将这些特征映射到类概率中。在测试时，通过用新类别的词嵌入替换投影矩阵，我们的模型能够分割未看到的类别。我们的模型是端到端训练的，可以整合到任何语义分割网络中，[27]和[9]。我们在图2中展示了我们的整体管道。任务制定。我们将可见类的集合表示为S和一组不相交的看不见的类，如U。令Ds={（x，y）|x∈ X，y∈ Ys}是我们所看到的类的标记训练数据，其中x是图像空间X中的图像，y是所看到的类的稠密标签掩码空间Ys<$Sa <$b中的对应标签掩码，a和b分别是图像的高度和宽度。类似地，我们将不可见类的标签掩码空间定义为YuU ab。另外，W s∈ R dw ×| S|且W u∈ R dw ×| U|表示可见类和不可见类的词嵌入矩阵，其中d w是词嵌入维数。给定Ds，W s和W u，零标签语义分割（ZLSS）的任务是学习一个模型，该模型将图像作为输入，并预测看不见的类中每个像素的标签。一个更看不见的或新奇的，可以互换。我们在图2中总结了在不同设置中使用的训练类、测试类和词嵌入。3.1. 语义投影网络（SPNet）我们用一个统一的模型SPNet来处理所有四个任务，该模型由两部分组成：视觉语义嵌入模块和语义投射层。i. 视觉语义嵌入模块。该模块由CNN参数化，并通过φ：X →Ra×b×dw将输入图像x∈X映射到大小为a×b的dw特征映射。这相当于将（i，j）处的每个像素嵌入到一个dw维类嵌入向量φ（x）ij，其位于由所有类共享的语义嵌入空间中。语义嵌入空间约束视觉语义嵌入提取器Φ的输出，并将知识从可见类转移到不可见类。请注意，这与标准CNN不同，在标准CNN中，像素被映射到未约束的特征空间。ii. 语义投射层。语义投影层将特征嵌入φ（x）ij映射到非归一化的logit分数，然后是softmax激活，输出每个训练类别的概率分布exp（w<$φ（x）ij）现实的设置是广义零标记语义分割（GZLSS），其中学习模型预测可见和不可见的类。至于（广义的）少数标签SE，p（y）ij=s|x;W s）=Σc∈SSexp（w<$φ（x）ij）（一）mantic 分割任务，一些标记的样本从 un-seen 类Du={（x，y）|x∈ X，y∈ Yu}在训练期间提供给模型。测试时间目标类仅包括少标签语义分割（FLSS）中的可见类，而它们包括可见类和不可见类广义少标签语义分割（GFLSS）。在这里，我们引用带有一些标记样本的类其中，y∈i，j表示对pi x el（i，j）的预测，wc是归一化为具有单位长度的W s的第c列。与通过添加具有可学习权重的1 × 1卷积层或完全连接层来预测类别后的标准CNN相比，我们的分类器权重W s由单词嵌入模型预定义，例如。[29]然后在训练中固定。W和8259语义投影层根据内积相似性来估计类原型和特征嵌入之间的兼容我们提出的语义投影层很容易通过计算特征映射φ（x）和词嵌入矩阵Ws之间的张量积以及softmax激活函数来实现。在这一层之后，我们直接优化标准交叉熵损失在空间维度（i，j）∈I上，Σ-logp（y=yij|x）（2）（i，j）∈I这可以被看作是最大化预测每个像素作为其真实标签的负对数似然。由于在语义投射层没有可学习的参数，因此优化是在视觉语义嵌入提取器Φ的参数上。与标准的语义分割网络相比，我们做了一些微妙而关键的变化，即：将像素映射到语义词嵌入空间，随后堆叠投影层。推理。在测试时，在ZLSS和FLSS中，我们通过替换等式中的词嵌入矩阵来预测未见过的类。（1）U。每个像素标签由以下公式预测：ar gmaxp（yij=u|x;W u）。（三）u∈U从整个训练数据中均匀采样。正如预期的那样，这会导致对可见类的良好性能，但对不可见类的性能较差。另一种策略是对看不见的类进行过采样，方法是首先对一小批类进行均匀采样，然后从每个类中选择一个样本。我们发现，这种策略在一定程度上弥补了不平衡问题，但效果仍然不令人满意。另一方面，在看不见的类样本上微调学习的分类器，即在仅用可见类样本进行初始优化之后，在FLSS中对不可见类产生更好的结果，以及在GFLSS中产生更好的总体结果。因此，我们报告我们的结果在这种情况下。3.2. 基线：铰链视觉语义丧失（HVSL）损失函数的选择是零标签语义分割中的一个重要问题因此，在本节中，我们开发了一个基线，它与我们的SPNet共享相同的嵌入提取器φ，但采用铰链视觉语义损失而不是交叉熵损失。事实上，铰链视觉语义损失构成了用于零拍摄图像分类的最广泛使用的损失函数[1，4，13，57，50]。在语义分割的上下文中，我们将单个训练示例（x，y）的铰链排名损失定义为，Σ Σ[n（s，yij）+w<$φ（x）ij−w<$φ（x）ij]+（6）另一方面，对于GZLSS和GFLSS，我们预测两者（i，j）∈Is∈SSyij可见和不可见的类标签通过它们的词嵌入：ar gmaxp（yij=u|x;[W s;W u]）。（四）u∈S <$U不平衡数据问题的极端情况发生在没有未见过的类别的标记训练图像时，这导致预测偏向于看到的类别。为了解决这个问题，我们遵循[8]并通过减少可见类的得分来校准预测，这导致：argmaxp（yij=u|x;[W s;W u]）−γI[u∈S]（5）u∈S <$U其中，如果u是可见类，则I=1，否则为0，γ∈[0， 1]是在保持的验证集上调整的校准因子。从理论上讲，语义投影层允许我们的模型通过简单地将其单词嵌入复制到分类器权重来预测任何类。然而，直观地说，该模型只能在与训练类具有视觉相似性的类上表现良好因此，嵌入这个词应该用来描述类之间的相似性。在少标签设置中的两阶段训练。在我们的FLSS和GFLSS中，我们用D s和D u训练模型，D s包括每个可见类的大量样本，D u每个不可见类只有少量样本，即小说，阶级。这是一个典型的不平衡学习问题。天真的想法是在一个小批中学习使用可见和不可见的类样本其中，如果si=yij，则φ（s，yij）=1，否则为0，φ（x）ij是图像x中像素（i，j）的视觉语义嵌入，yij是其对应的地面实况标签。在实践中，我们遵循[13]通过随机抽样一个不是地面真实的类来截断总和4. 实验在这一节中，我们提出了定量和定性的零标签语义分割和少标签语义分割的结果。数据集。我们在具有挑战性的 COCO-stuff [6] 和PASCAL-VOC 2012 [12]数据集上评估了我们的模型。COCO-stuff拥有164 K图像，具有来自172个类的密集像素级注释，包括 80 个事物类， 91 个东西类。PASCAL-VOC是一个较小的数据集，包含来自20个类的13K文字嵌入。对标签之间的语义相似性进行编码在弥合可见和不可见类预测之间的差距方面起着重要作用。在这项工作中，我们研究了两种不同的词嵌入模型，即word 2 vec [29]在Google News [47]上训练，fast- Text[19]在Common Crawl [28]上训练包含多个单词的类的单词嵌入通过对每个单词的嵌入求平均来获得8260最大迭代器#类图片数量fastText（ft）word2vec（w2v）ft +w2v串+值测试火车+价值测试HVSL二十五8二十五三点三十一分8COCO-Stuff155+12 15116287+20005000SPNet33.1三十二一百三十五2PASCAL-VOC12+3 511185 + 5001449表1：COCO-Stuff和PASCAL-VOC数据集的数据分割统计，包括训练和测试分割中的类数量和图像数量。实作详细数据。我们用PyTorch实现了我们的SPNet模型[33]。我们应用ImageNet预训练的VGG- 16 [43]和ResNet-101 [17]作为我们的骨干来提取特征，我们的模型建立在DeepLab-v2 [9]上，首先提取特征并应用atrous空间金字塔池化层来产生视觉特征，其尺寸与语义嵌入空间的尺寸相同（即，300用于快速文本和word2 vec; 600为他们的结合）。在这项工作中，对于VGG骨干，我们应用具有初始学习率的Adam求解器[21]1 .一、0× 10 −4，对于ResNet，我们使用初始学习率为2的SGD 。5× 10−4 。在[9] 之后，我们使用“poly”学习率策略，其中当前学习率是初始学习率乘以（1-iter）幂，并且我们将幂设置为0。9.动量和重量衰减分别设置为0.9和0.0005。4.1. 零标签语义分割任务我们的工作的贡献之一是提出了一个新的任务零标签语义分割（ZLSS）。在本节中，我们提出了两个零标签数据分割的基准测试，并详细介绍了零标签评估协议。提出的零标签数据集分割。零标签假设，即类似于零拍摄假设[51]，声明查询图像的像素值都不表2：单词嵌入的效果：看不见的平均IoU在 ZLSS 中使用不同的 word 2 vec ， fastText 及其在COCO-Stuff 上的组合的类 HVSL 和 SPNet 都基于ResNet101。数据集，（c）所有车辆都出现在ImageNet中，因此减少了候选多样性-我们简单地将前15个类作为可见类，最后5个类作为不可见类。我们使用COCO-Stuff数据集提供的train/val分割：118 K训练图像作为我们的训练集， 5 K 验证图像作为我们的测试集， PASCAL-VOC：11 K训练图像和1.4K测试图像。在[51]的交叉验证过程之后，我们进一步将训练类的子集作为我们的验证集，用于调整超参数。关于我们的数据分割的更多细节如表1所示。评估方案。交叉联合（IoU），例如，标准评估标准通常用于Mantic分割量化预测掩模和目标掩模之间的重叠。它被定义为预测区域和目标区域之间的交集对于每个类，其平均IoU通过对所有查询图像的IoU进行平均来计算在ZLSS中，由于测试时搜索空间被限制为不可见类，因此我们报告了不可见类的平均IoU。在GZLSS中，搜索空间变成了可见类和不可见类似于广义零拍摄图像分类[51]，我们报告了可见类的平均IoU，不可见类的平均IoU以及它们的调和平均值（H），定义为：2个看过的看不见的允许属于在培训程序的任何部分中使用的类别，即无论是模型训练还是CNNH=Miou 看到 +mIoU 看不见（七）训练这意味着，由于CNN通常在ImageNet 1 K上训练，因此任何测试类都不应该与它重叠。遵循这一规则，在COCO-Stuff数据集中，我们创建了一个新的零标签类拆分，选择15个类作为不可见类，其余167个类作为可见类，因为它们出现在用于预训练ResNet的ImageNet 1 K中。与zero-shot图像分类相比，我们不会从训练集中删除包含未见过类的图像，否则大多数训练图像将被删除，因为可见和不可见类频繁共存。相反，我们利用整个训练集，但在训练期间忽略属于不可见类的像素即，这些像素不影响我们在训练的任何阶段中优化的损失。对于PASCAL-VOC，由于（a）ImageNet 1 K中只有4个类是不可见的，（b）候选类之一“person”在ImageNet1 K中其中，mIoUseen和mIoUunseen表示平均IoU可见类和不可见类的集合。类似地，在少标签语义分割中，我们报告了看不见的类的平均IoU，但在广义的少标签语义分割中，报告了所有类的平均IoU。4.1.1ZLSS的SPNet模型分析在本节中，我们对模型的不同设计选择进行了广泛的评估。单词嵌入的效果。我们将SPNet模型与HVSL进行了比较，并研究了表2中不同词嵌入的效果。我们研究了三种类型的词嵌入，即。fastText、word2vec及其连接。我们的第一个观察结果是SPNet的性能明显优于HVSLwrt。所有单词嵌入8261COCO-StuffPascal VOC26.第二十六章347435 .第三十五章2495表3：CNN架构的影响：具有不同CNN架构的ZLSS，即 VGG 和 ResNet 101 在 COCO-Stuff 和 PASCAL-VOC上。单词嵌入是ft + w2v。图3：COCO-Stuff上看不见的类的mIoU按平均对象大小排序（从左到右）。类型，例如SPNet达到33。一比二十五。8，fastText，三十二一比二十五。3与word2vec相比HVSL。这表明交叉熵损失比铰链损失更适合于此外，我们观察到fastText和word2vec实现了相当的结果，并且将它们组合起来显着提高了性能，例如。SPNet的平均IoU从33.1和32。1到352.这表明fastText和word2vec包含互补信息。因此，对于其余的实验，我们使用 SPNet与fastText和word2vec相结合。CNN架构的影响。我们的目标是将不同的CNN架构组合起来，这些架构用作骨干网络，以在DeepLab-v2中对图像进行编码 [9] 。表 3 显示了 VGG16 [43] 和ResNet101 [17]的ZLSS结果。我们首先观察到，使用VGG 16，在COCO-Stuff和PASCAL-VOC上的结果都低于ResNet 101，这意味着ResNet 101在此任务中生成的特征比VGG 16更强。此外，这些结果表明，我们的SPNet在ZLSS中使用两种CNN架构都取得了相当好的结果。具体来说，在COCO-stuff上，SPNet获得了26。3% mIoU，VGG 16和35。使用ResNet101的2%mIoU。这是有希望的，因为我们的模型不需要昂贵的密集像素级注释的每一个类，例如。它没有使用COCO-Stuff的15个看不见的类标签中的任何一个进行训练。这也表明，我们的模型很容易适应各种语义分割架构。对象大小的影响。我们研究了零标签语义分割的难度作为对象大小的函数图4：COCO-Stuff和PASCAL- VOC的GZLSS结果。我们报告了看不见的类，看不见的类及其调和平均值的平均IoU（感知模型基于ResNet101，语义嵌入是ft +w2v）。SPNet-C表示带校准的SPNet图3显示了COCO-Stuff中未看到的类的每类mIoU得分图。这些类是根据它们的平均对象大小排序的-最大的在右边。它表明，有一种趋势，即性能是更好的类与较大的对象。该图还表明，从可见类到不可见类的知识转移对于具有挑战性的类（例如树）通常是成功的。3%）、草地（59. 7%，云（62。2%），考虑到它们在ImageNet 1K中没有语义相似的类。我们还观察到，我们的模型表现良好的奶牛（61。3%）然而，结果是相当差的另一个看不见的动物类别长颈鹿（0。2%）。4.1.2广义零标记语义分割GZLSS是一种实用的分割设置，因为测试时间搜索空间包含可见和不可见的类，即可以将像素分配给可见类别之一或不可见类别之一。由于训练图像仅包含已看到类的标记像素，因此在测试时，预测将偏向于已看到类。因此，这是一项特别具有挑战性的任务。我们缓解这个问题，通过使用公式中的校准类。（5），其通过校准因子γ减少所见类的预测分数。我们基于保持的验证集上的最佳调和平均IoU选择最佳γ值。图4显示了COCO-Stuff和PASCAL VOC数据集上看不见的类、看到的类及其调和平均值在COCO-Stuff SPNet上获得0。2%的未看到类的平均IoU，而看到类的IoU很高，即三十四05%。这是预期的，事实上，在一般化的零激发图像分类任务中观察到相同的趋势[51，8]。另一方面，在校准之后，即SPNet-C，在COCO-Stuff上，看不见的类的平均IoU跳到8。33%，同时在所见的类上保持高mIoU，即三十四52%，整体SPNet-C达到13的调和平均值。百分之四十二。这是由于校准后，即减少8262CCOCO-Stuff7060504030201 2 5 1020每个类的10080604020PASCAL-VOCSPNet基线1 2 5 10 20每个类的训练样本数表4：（广义）零触发学习的SPNet(a) 少标签语义分割任务报告了GALML在不可见类别上的前1准确度，GALML报告了可见和不可见类别的调和平均值由于所见类的预测分数，像素被预测为所见类的频率较低。在PASCAL-VOC上，我们观察到类似的趋势。虽然SPNet在看不见的类上表现不佳，即0的情况。01%mIoU，校准后增加到29。33%的mIoU。Ac-COCO-Stuff34323028262422201 2 5 10 20每个类的PASCAL-VOC9080706050403020101 2 5 10 20每个类的相应地，SPNet-C达到了令人印象深刻的42。45%的谐波电流。这些结果表明，我们的SPNet不仅可以处理ZLSS，而且可以通过预测器校准来处理更实际的GZLSS。4.1.3（广义）零镜头图像分类我们在三个基准数据集上评估了我们的SPNet在零拍摄图像分类任务上的表现，即CUB [49]（200种鸟类，312个属性）、SUN [35]（717个场景，102个属性）和AWA [23]（50类动物，85个属性），具有不同的大小和复杂性，遵循[ 51 ]的数据分割和评估方案。我们用交叉熵损失训练SPNet：exp（φ（x）<$V wy）(b) 广义少标号语义分割图5：COCO-Stuff和PASCAL VOC上的（广义）少标签语义分割，每个类的训练样本数量增加，即n∈ {1，2，5，10，20}。由于语义分割中的类分布通常是偏斜的，例如，道路像素远多于自行车。与ZLSS相比，在FLSS和GFLSS中，训练集没有来自看不见的（新的）类的标记示例，模型使用所有类进行训练在评估时，FLSS的目标是只分割新的类，而GFLSS的目标是划分基础类和新类。对于每个新的类，我们从训练集中随机抽取n∈ {1， 2， 5， 10， 20}个包含该类的图像，并将其分配给每个新的类。L（x，y）=−logc∈S exp（φ（x）<$V w）（8）能够为这些新的像素重新标记条件。此外，我们还根据原始数据开发了一个简单的基线其中φ（x）是从预训练的ResNet 101中提取的2048-dim图像特征（没有对任务进行微调），wc∈Rdw是类c的类属性，V∈R2048×dw是我们要学习的线性嵌入。表4显示，和GALML设置，我们的SPNet在CUB和SUN上都比最先进的技术有所改进，而在AWA上获得了第二好的结果，尽管我们的模型很简单。ALE [1]和SJE [2]都利用了视觉语义铰链损失，SYNC [7]使用流形学习对齐视觉和语义嵌入空间，而GFPML [45]学习生成模型来捕获类条件分布。然而，我们的SPNet只是将图像特征投影到类嵌入空间中，并应用标准的 softmax 类 -sifier，类嵌入是权重。4.2. 少量标签语义分割任务（广义）少标签语义分割（FLSS和GFLSS）任务出现在许多实际应用SPNet基线SPNet基线总体mIoU（%）SPNet基线mIoU在不可见类上的使用率（%）总体mIoU（%）mIoU在不可见类上的使用率（%）幼崽ZSL孙AWA 幼崽GZSL孙AWAALE[1]五十四9五十八1五十九9三十四4二十六岁3二十七岁5SJE[2]五十三9五十三7六十五6三十三岁。619号。819号。68263DeepLab-v2 [9]，在对基类进行初始优化后，对新类进行微调。我们在FLSS和GFLSS中使用基线和我们的SPNet在COCO-Stuff和PASCAL-VOC上进行了实验。在FLSS任务中，图5（a）显示了与基线模型的比较结果[9]。我们的SPNet在COCO- Stuff和PASCALVOC的所有情况下都产生特别是，当只有1个标记示例时，我们的SPNet显著优于基线，实现了平均47的IoU。90%超过27岁COCO-Stuff的69%和71。29岁以上的52% PASCAL VOC 17%关于FZLSS 从1个标记样品到5个标记样品的准确度提高是显著的，即， COCO-Stuff 和 PASCAL VOC 的mIoU均超过20%。这些结果表明，我们的SPNet的有效性时，训练样本是稀缺的。对于图5（b）中的GFLSS，观察到类似的趋势我们的SPNet在所有情况下都优于DeepLab该accu-8264（一）（b）第（1）款图6：我们的SPNet在COCO-Stuff上的0-，1-和5-标签语义分割设置中对15个新类别的定性结果（顶部的颜色编码）。基类用黑色屏蔽。(a)（b）失败案例。从1到2， 5， 10， 20，特别是COCO-Stuff的活泼改进是稳定的 DeepLab和我们的差距是21。当我们的模型只能访问来自新类别的一个标记样本时，PAS- CALVOC上可见和不可见类别的mIoU均为24%4.3. 定性结果图6显示了我们的SPNet在COCO-Stuff上的ZLSS和FLSS中获得的定性结果。我们的目标15个新类用顶部显示的颜色编码。基类用黑色屏蔽。所得的一些结果如下。在第一行和左列中，我们的SPNet已经能够在ZLSS中分割两个以前看不见的类牛和草，即0-label，在模型看到更多示例后，结果会得到优化。同样值得注意的是，我们的SPNet能够预测的东西类，如道路，河流，云等，在ZLSS设置中。例如，SPNet成功地分割了图像中第二行右列的云和道路，并完美地分割了图像中第三行左列的河流。另一个有趣的结果是在第4行的左列中，模型在0标签设置中正确地分割了飞盘，但错误地将大多数像素标记为“滑板”，这实际上是另一个运动类别对象。另一方面，一些失败的案例显示在底部排我们的SPNet无法在0标签下预测长颈鹿，因为长颈鹿的形状和外观与所看到的类别有很大差异。然而，只看到一个例子就足以识别和分割它，这证明了我们的SPNet从几个例子中学习的同样，结果通过5个标记的示例得到细化。这些结果支持了我们在前几节中的观察，并表明我们的SPNet虽然简单，但可以将其在以前看到的例子中获得的知识适应于看不见的例子。5. 结论在这项工作中，我们提出了SPNet语义分割新的类，没有标记的例子或只有几个样本，在零标签语义分割和少标签语义分割的新任务分别。该模型由一个视觉语义嵌入模块和一个语义投影层组成，视觉语义嵌入模块在词嵌入空间中对图像进行编码，语义投影层产生类别概率。我们的SPNet在概念上和计算上都很简单，但令人惊讶的是，它非常有效，并且可以端到端训练。我们已经在各种基准数据集上展示了其在零拍摄图像分类到零标签和少标签语义分割任务的适用性。8265引用[1] Z. 阿卡塔河佩罗宁Z.Harchaoui和C.施密特用于图像分类的标签嵌入. TPAMI，2016. 二四七[2] Z. Akata、S.里德D.沃尔特，H. Lee和B.席勒用于细粒度图像分类的输出嵌入的评估。CVPR，2015。一、二、七[3] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器-解码器架构。TPAMI，2017。2[4] A.班萨尔角西卡湾夏尔马河，巴西-地Chellappa和A.瓦卡兰。零镜头物体检测。在ECCV，2018。二、四[5] A. Bearman，O. Russakovsky，V. Ferrari和L.飞飞What’sthe point：基于点监督的语义分割。在ECCV，2016年。一、二[6] H. Caesar，J. Uijlings，and V.法拉利Coco-stuff：上下文中的事物和东西类。在CVPR，2018年。4[7] S. Changpinyo，W.- L. Chao湾Gong和F.煞为零射击学习合成大小的分类器。在CVPR，2016年。 1、7[8] W.- L. Chao，S.昌皮纽湾Gong和F.煞一个实验研究和分析广义零射击学习的对象识别在野外。在ECCV，2016年。四、六[9] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。TPAMI，2018年。二三五六七[10] Z. 丁，M.Shao和Y.Fu. 用于零射击学习的低秩嵌入式在CVPR，2017年。2[11] N. Dong和E. P. Xing。基于原型学习的少量语义分割。BMVC，2018年。一、二[12] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn 和 A. 齐瑟曼。 PASCAL Visual Object ClassesChallenge2012（VOC2012）http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html啊4[13] A. 弗罗姆， G 。 S. Corrado ， J.Shlens ， S.Bengio ，J.Dean，M.A. Ranzato和T.米科洛夫Devise：一个深度视觉语义嵌入模型。在NIPS，2013年。二、四[14] Y.傅氏T. M. Hospedales，T. Xiang和S.龚transductive-tive多视角零射击学习。TPAMI，2015。2[15] B. Hariharan和R.娘娘腔。通过缩小和幻觉特征进行低镜头视觉识别。InICCV，2017. 2[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。2[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。五、六[18] J. Ji，S. Buch，A. Soto和J. C.尼布尔斯视频中演员和动作的端到端联合语义分割。在ECCV，2018。2[19] A. Joulin、E. Gr av e，P. Bojan o wski，M. Douze，H.Je' gou和T.米科洛夫Fasttext.zip：压缩文本分类模型。arXiv预印本arXiv：1612.03651，2016。二、四[20] A. 霍雷瓦河 Benenson，J. H. Hosang，M. 海因，还有B.席勒简单做到：弱监督实例和语义分割。在CVPR，2017年。一、二8266[21] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[22] E. Kodirov，T. Xiang，Z. Fu和S.龚无监督域自适应零射击学习。在ICCV，2015年。2[23] C. Lampert，H. Nickisch和S.伤害。基于属性的零拍视觉对象分类。TPAMI，2013年。一、二、七[24] C.- W.李，W。芳角，澳-地K.是的，还有Y C. F.王.结构化知识图的多标签零射击学习在CVPR，2018年。2[25] D. Lin，J. Dai，J. Jia，K. He和J.太阳 Scribble- sup：用于语义分割的 Scribble-supervised 卷积网络。在CVPR，2016年。一、二[26] W. Liu ，中国粘蝇 A. Rabinovich 和 A. C. 伯格。Parsenet：看得更宽，看得更好。ICLR研讨会，2016年。2[27] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。二、三[28] T. Mikolov、E. Grave，P. Bojanowski，C. Puhrsch，以及A. Joulin预训练分布式单词表示的进展。在LREC，2018年。4[29] T. 米科洛夫岛 Sutskever，K. Chen，G. S. 科拉多，还有J·迪恩单词和短语的分布式表示及其组合性。在NIPS，20

下载后可阅读完整内容，剩余1页未读，立即下载