基于原型匹配和开集拒绝的零镜头语义分割

156 浏览量更新于2023-10-13 收藏 1.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6974基于原型匹配和开集拒绝的零镜头语义分割Hui Zhang*Henghui Ding*†新加坡南洋理工大学摘要解决语义分割的DCNN方法需要大量逐像素注释的训练样本。在这项工作中，我们提出了零拍语义分割，其目的是确定不仅在训练中包含的看到的类，但也从未见过的新的类。我们采用严格的归纳设置其中在训练期间仅可见类的实例是可访问的。我们提出了一个开放意识的原型匹配方法来完成分割。原型化方法通过一组原型来提取视觉表示，使得添加方便灵活查看课程看不见的类感应设置：无图像样本无语义信息传感设置：不带注释的我信息牛...语义：摩托车看不见的新阶级原型投影被训练为基于可见实例将语义表示映射到原型此外，利用开集拒绝来检测不属于任何可见类的对象，这极大地减少了由于缺乏可见训练实例而导致的未看见对象到可见类的误分类。我们将该框架应用于两个分割数据集，Pascal VOC 2012和Pascal Context，并实现了令人印象深刻的最先进的性能。1. 介绍在旨在对给定图像中的每个像素进行分类的语义分割[8，13，14，12在面临相同困境的图像识别领域，提出了零拍摄学习（ZSL）[32，41，18]，其中使用从可见类中学习的知识训练分类模型以适应未见过的对象。类似地，在语义分割中也提出了零镜头分割（ZSS）[47，5，20，31，36，26，21]。ZSS的目标是为可见（带有注释的实例）和不可见类别（从未见过）的对象生成分割掩码*同等贡献。†丁恒辉为通讯作者。图1. Zero-shot Semantic Segmentation（ZSS）。ZSS的目的是将从可见类学到的知识转移到不可见类（即，在训练中从未见过在测试中，ZSS将每个像素分类到可见类或新添加的不可见类中的一个。在训练中），如图1所示。初步的ZSL设置不需要区分可见和不可见的类别，这是不现实的，并且与现实世界的识别条件相矛盾。然后提出了一种实用的广义零拍摄学习（GZSL）[42]，因为来自可见和不可见类别的图像样本零拍分割（ZSS）自然是GZSL的类似物，因为用于分割的给定图像已经包含不同的类别。“ZSS”在ZSS中，一个重要的信息源是语义表示--用高维向量编码的语义信息.语义信息可以包括自动提取的词向量、手动定义的属性向量、基于上下文的嵌入或它们的组合。每个类（可见或不可见）都有自己的语义表示。利用看不见的信息的方式将ZSS分为两种设置：感应设置和感应设置（见图1）。在归纳训练中，只有看到的类的视觉特征和语义表征是可用的;而在转导训练中，人们可以看到人看不见？把看不见牛辅助语义：人牛鸟信息摩托车座椅许多已注释的图像示例信息语义：单人沙发椅自行车小鸟...测试培训6975除了所见类别的视觉特征和语义表示之外，还访问未见类别的语义表示（有时是虽然有几种方法（例如，ZS3 [5]，CaGNet [20]和CSRL [33]）是在转导学习下开发的，这种设置确实是不切实际的，因为它违反了看不见的假设并显着减少了挑战。尽管如此，这两种设置都达成了共识，即在训练过程中不应该存在或使用看不见的类的基本事实。因此，在训练分类器时，应防止误用不可见类的地面实况。在这项工作中，我们服从严格的归纳设置，其中只有信息（即，语义表示、视觉特征和地面实况）在训练期间是可用在ZSS中，为了将知识从可见的类转移到不可见的类，需要一个从语义空间到视觉特征空间的映射函数例如，ZS3 [5]在看到的类上训练了这样的生成器，并使用它来为看不见的类生成虚假的视觉特征。然后，这些假特征被用于微调分类器（预先在所看到的类上进行训练）。然而，有争议的是，他们的分类器训练使用了成对的假特征和对应的标签，这需要实际上无法访问的信息（例如，不可见像素的地面实况、不可见类的数量和属性此外，训练后的模型不再能够处理新添加的不可见类，表现出固定的容量。在这项工作中，为了打破这一限制，我们采用了一个原型的方式，而不是卷积分类器的方式。我们提取高层次的视觉表示训练原型，对应于类一对一。通过寻找最接近其自身特征的原型对每个像素进行分割语义信息和视觉特征之间的映射由此由原型向量桥接。提出了一个轻量级的投影网络来学习从语义信息到原型的映射任何新的看不见的类都可以在测试过程中灵活地添加，方法是将其语义描述投影到原型中，并将新的原型添加到现有的原型中。偏差问题也对ZSS提出了重大挑战。当仅在可见类上训练的模型被期望分割可见类和不可见当看不见的类中的对象在任何程度上或以任何形式与可见的类相似时，很容易发生错误分类。以前的ZSS作品很少注意这个问题，导致不准确地预测看不见的类作为可见的类。在这项工作中，我们提出了一个开集拒绝（OSR）模块作为检测器，以确定测试样本属于哪一组（可见或不可见）。具体地，OSR将对象直接分类到某个可见类或一般的如果一个对象被预测为“未知”，那么一个具有最小原型的某个不可见的类标签将被作为它的签名。因此，在测试期间，可能的类未看见的对象可以被分类到哪一个是受约束的。本文从四个方面总结了这部著作的主要贡献• 我们澄清了ZSS的诱导和转导设置，并在具有挑战性的诱导设置中执行ZSS• 我们采用原型匹配在ZSS中，桥接语义和视觉信息，并使其灵活地添加新的看不见的类别在测试过程中。• 我们首次将开集拒绝引入ZSS，有效地缓解了偏见问题，提高了分析性能。• 我们在ZSS上实现了新的最先进的性能2. 相关工作2.1. 零镜头分割术语零次语义分割首次出现在SRPNet [47]中，其利用不同类别之间的相似性实现从训练类到新类的知识转移。这种方法显然偏向于所看到的类，但在其测试设置中建立了有限的表现。几乎同时，ZS3Net [5]提出为看不见的类生成像素级的假特征，以微调语义分割网络中的分类器。然而，它们不正确地使用了不可见对象的基础事实，因为它们必须在微调期间指定属于不可见类的像素的标签。Gu等人[20]通过上下文模块进行了一些改进，旨在从语义信息中生成多样化和上下文感知的特征。Li等人。[33]提出了一种一致性结构关系学习（CSRL）方法来利用类别级关系的相似性并学习更好的视觉特征生成器。受少数镜头分割的启发，Kato et al.[31]提出了ZSS的两分支（分段分支和条件分支）架构。在他们的测试中，测试集只包含看不见的类，这是不切实际的，并大大降低了挑战。与少镜头分割预测查询图像中相同类别的掩码及其支持的注释图像不同，零镜头分割旨在通过语义和视觉信息之间的桥梁将知识从可见的类别转移到不可见的类别（之间不重叠）。ZSS的挑战不仅来自于域的转移，而且还来自于对可见类的明显偏见现有的大部分工作都致力于解决ZSS中的域转移问题。具体而言，Lv etal.[36]通过转导方法减轻了对可见类的强烈偏见的问题，其中标记的可见图像和未标记的不可见图像都用于训练。Hu等人。[26]定义了另一个挑战，该挑战是由所见的噪声和离群训练样本6976X {} A {} Y {}我联系我们∈S}类，并解决它与贝叶斯不确定性估计。ZSS的另一个视角是为看不见的类生成合成视觉特征，如Gu等人所示。[21]。它们通过利用类别级语义表示和像素级上下文信息来生成合成的看不见的特征。2.2. Zero-Shot学习现有的ZSL工作可以分为基于分类器的方法和基于实例的方法。基于分类器的方法再次可以分为基于对应性的[1，10，34]和基于关系的[29，19，51]。基于对应关系的方法捕获视觉特征和类标签嵌入之间的对应关系，即它们旨在建立从语义嵌入到视觉空间的通用映射函数。基于关系的方法旨在模拟类之间的关系，以便在语义空间中观察到的关系可以直接转移到特征空间。基于实例的方法[45，15，49]致力于检索未见类的一些实例（视觉特征），尽管它们未在训练集中提供这些实例可以通过投影函数、借用可见类和合成方法来获取。虽然基于实例的方法在零拍摄学习中是有效的，但是难以扩展到ZSS，因为合成用于分割任务的像素级实例比合成用于识别任务的图像级实例要困难得多。2.3. 广义零次学习GZSL首先由Scheirer等人提出。[42]。之后，Chaoet al.[7]经验表明，在GREML设置下，GREML方法不能很好地发挥作用。由于CNOL对可见类别的过拟合，将所有不可见类别的测试实例分类为可见类别存在很强的偏差问题。校准技术[6，9，22，27]被提出来通过尝试实现可见组和不可见组的分类之间的平衡来缓解这个问题基于检测器的方法[4，17]成为另一个分支，其目的是确定测试图像是否属于不可见组。该方案通过缩小测试样本所属的组（可见或不可见）来考试-看到班级不那么自信。我们遵循基于检测器的方法，设计了一个开集拒绝模块，可以识别一个像素是否属于所见的类。2.4. 开放式学习开集学习（OSL）[43]假设在训练阶段存在知识不足，并且旨在在测试阶段同时识别属于已知类别的样本并识别未知样本。大多数传统方法基于支持向量机[43，44，28]，最近邻[30，2]，稀疏表示[50]等。最近，基于深度学习的OSL方法[43，3，24，52，40]大大推进了最新技术水平。简单的基于深度学习的OSL方法是为闭集识别添加阈值 [24] 。然而，由于softmax，未知样本也可以获得高分。为了解决这个问题，Openmax [3]被提出来重新分配softmax产生的概率得分，并估计属于未知类的输入的概率。此外，训练未知集的困难来自于未知样本的缺乏。相应地，一些作品[40，52]提出合成未知类别的图像用于网络的训练。在本工作中，我们与样品合成方法具有相同的精神我们随机地用合成的未知对象/东西替换给定图像中的已知类的一些对象/东西。地面实况掩模中的对应注释被改变为3. 方法3.1. 问题公式化我们使用 =X s，X u， =As，Au，=Ys，Yu，分别表示特征空间、语义空间和标签空间。上标s和u分别指示可见和不可见的类根据信息（即，X u和Au），零激发语义分割方法通常可以分为两种不同的设置：感应设置和换能设置。归纳设置只能利用已知类的信息进行训练，而转导设置既可以利用已知类的信息，也可以利用未标记的未知类的信息。感应设置更严格，更具挑战性。详细地，对于归纳ZSS，其训练集可以表示为D={（x s，a s，y s）N|x s∈Xs，a s∈Ple，Socher等人[45]相信与所见相比s s s火车我我我i=1分类，看不见的可能会超出分配的范围。来自未见组的测试实例被视为训练的离群值（即，见）分布。后来，基于自动编码器[4]、基于熵[38]和基于概率[46]的检测器被提出用于分布外（OOD），即看不见的班级Liu等人[35]使用温度缩放[25]和基于熵的正则化器来使看不见的类更有信心，并且其中下标i指示第i个样本，并且Ns是所见类别的训练样本的数量。是第i个训练样本的K维图像*（视觉）特征。一个s=a为s，1，，a s，n已看到表示在语义空间A中所见类的语义表示，并且n所见是所见类的数目。Ys={ys，1，· · ·，ys，n_seen}表示对应*这里专门用于分割，“图像”实际上是“像素”。6977Y∩--X → Y联系我们火车我我我i=1JJ j=1我我我JJSu{}{}{|∈2期查看课程语义嵌入投射原型视觉原型图2.培训的总体框架。在训练阶段1中，我们的目标是用一组可训练的原型来训练分割网络，这些原型用于可见类别和“未知”类别。该网络通过计算视觉原型与每个像素的特征在阶段2中，训练投影网络以桥接在阶段1中获得的语义信息n在标签空间中看到的类。而对于transductive ZSS，除了所见类的信息之外，未见类的视觉特征Xu和语义表示Ai可以用于训练，而无需知道它们对应的标签。转导ZSS的训练集由D = D表示。（xs，as，ys）N，（x u，a u）N x sX s，a sA s，y sYs，x uX u，a uA u，其中N u是未见过类的样本数。不可见类的标签集表示为 Yu=yu， 1 ，， yu ，nunseen，其中nunseen是不可见类的数量。可见类和不可见类之间没有重叠，即，Y s Y u=Ø。感应式和转导式ZSS设置都以学习ZSS模型为目标：为 Nt个测试样本中的每一个生成像素级分割掩模。零次学习（ZSL ）的测试样本只包含看不见的类，即Dtest=Xu，Au，Yu，而广义零次学习（GZSL）包含可见和不可见类，即D测试={X，A，Y}。ZSS自然是GZSL的类似物3.2. 体系结构概述在这项工作中，采用了归纳设置，其中只有图像，语义信息和所看到的类的地面实况在训练中是可访问的。图2显示了训练的总体架构。培训可分为两个阶段。在第一阶段，我们训练一个开放感知的分割网络来识别所看到的类，以及通过定义一个使…相加新的类别灵活，分段网络的分类以原型方式进行，而不是卷积分类器方式。在第一阶段的最后，我们能够获得一组原型，每个原型对应一个可见的类。在阶段2中，我们的目标是学习语义和视觉信息之间的投影训练投影网络以将每个可见类的语义表示映射到从阶段1获得的其对应的原型在训练之后，投影网络将能够为看不见的类生成原型，给出它们的语义嵌入。在推理过程中对可见和不可见的类漠不关心总是导致显著的错误分类，因为训练的模型自然地偏向于可见的类。在这里，我们将开集拒绝模块的剩余部分放置在推理过程中，如图3所示。如果与像素的视觉特征最接近的原型对应于所看到的类之一，则将直接输出标签。否则，如果任何像素被分类为以这种方式，看不见的类不需要与看不见的类竞争，并且减少了对看不见的类的偏向。3.3. 培训阶段1：原型提取在图2的训练阶段1中，我们的目标是训练一个开放感知的分割网络，并提取原型作为高级视觉表示。在此之前，我们实现了开集拒绝模块的像素合成。我们遵循[40，52]来合成未知类别的图像1期可训练的视觉原型视觉特征图像S CO RE。.M.APS...掩模CNN...不知道看到监督投影网络飞机自行车鸟Word2Vector...............6978⟨ ⟩我∗∗{1}|}PΣ图3.推理框架。投影网络将每个不可见类的语义嵌入映射到视觉原型。我们首先进行开放感知分割，将每个像素分配到n个可见和“未知”类别中的一个。然后，将被分类为“未知”的这些像素与未见过类的投影原型进行比较，并将其分类为具有最近距离的像素。与生成整个图像的[40，52]不同，我们随机选择图像中的像素/块并替换它们特征图F中的位置（x，y）的向量。为每个我们有得分图具有合成的像素值。合成过程如如下首先，我们生成5k的合成图像，S（x，y）=exp（−α∠fx，y，pi∠）（一）可见的阶级界限。第二，对于每个训练图像，我pi∈P exp（−α∠fx，y，pi∠）我们从其地面实况掩模中随机选择一块，生成指示要替换的位置的图这里，片段是指占据具有相同语义类别的整个区域的20%至100%的子区域我们-其中，表示余弦相似度的计算。α是放大因子。然后，预测的分割掩码由下式给出：将所述训练图像中所指示的像素的RGB值与所述合成图像中相同位置的RGB值放置在一起。然后，这些像素/块被分配有新的类别，其被统称为已知处理后的图像用于训练M（x，y）=argmaxS（x，y）我训练原型的监督损失为L=−1ΣΣ1（M（x，y）=i）logSx，y（二）（三）分割网络。这里值得注意的是“未知”和“看不见”之间的“看不见的segNix，ypi∈P在零激发分割任务中定义了错误，并且在训练期间不可访问，但是必须在推断期间预测错误。“未知”类别在训练阶段中对于每个输入图像，我们通过骨干网络将其转换为视觉特征。我们采用原型的方法来分类每个像素。一组原型被随机初始化为可训练参数。我们计算在每个空间位置与原型的视觉特征之间的余弦相似性。然后，我们在距离上应用softmax，以产生一组语义类上的概率得分图S？具体地，假设原型集合P={p i|i∈（1，…，并且f x，y表示特征其中M是真实分割掩码，N是空间位置的总量。1（）是当为真时输出1的二进制标记指示符。优化上述损失将为每个类训练合适的原型，包括未知类别的原型。3.4. 训练阶段2：语义-视觉投射在第二阶段，我们的目标是训练一个连接视觉和语义信息的投影网络。我们使用所见类的训练过的视觉原型，即S=p i i（1，…n所见），在训练阶段1中作为视觉表示。为了获得语义信息，我们使用word2vec[37]模型，该模型将所看到的类的名称作为输入，并生成嵌入作为语义表示。具体地说，我们表示所看到图像视觉特征视觉原型看到掩模CNN掩模未知未知的视觉特征隐形牛摩托车语义嵌入不可见类的投影原型CosWord2Vector投影网络............6979的类的名称6980我我我我我JPJJJJ{1}|}.Σ{|}当W s=W s i（1，…，n seen））和所见类的语义嵌入为As=As i（1，…n见），我们有s=word2vec（w s）。word2vec模型是从维基百科语料库（大约30亿个单词）的转储中训练出来的，并为上下文中更接近的单词生成更接近的嵌入。因此，由word2vec生成的语义嵌入被期望已经捕获了类之间的我们堆叠三个线性层，形成一个轻量级的投影网络。在L2回归损失下，语义投影网络将每个可见类的语义嵌入a映射到从训练阶段1获得的对应原型p中，如图2所示。投影网络学习如何在训练中桥接语义和视觉信息，并且它将在测试中为新添加的不可见类生成视觉原型的使用将视觉信息和语义信息之间的投影简化为两个向量之间的线性变换。3.5. 推理我们的方法的推论如图3所示。在分割之前，我们首先通过阶段的训练结果预测未见过的类2. 我们将不可见的原型表示为Pu，其中Pu =p u|j ∈（1，…， n看不见）Pascal VOC 2012为1464个训练和1449个验证图像提供了21个对象类（包括背景）Pascal Context包含60个对象/素材类（包括背景）的4998个训练图像和5105个验证图像，并为Pascal VOC2010提供密集的语义分割注释。字嵌入和零镜头设置。在这项工作中，我们使用word2vec生成的嵌入作为语义表示[11]。标签之间的语义相似性在弥合可见集和不可见集之间的差距方面起着重要的作用。与ZS 3 [5]类似，我们使用具有不同数量的不可见类的零激发设置，构建2-、4-、6-、8-和10-类不可见集合。Pascal VOC的详细拆分如下：2-奶牛/摩托车，4-飞机/沙发，6-猫/电视，8-火车/瓶子，10-椅子/盆栽。Pascal Con-text的详细拆分如下：2-牛/摩托车，4-沙发/猫，6-船/围栏，8-鸟/电视监视器，10-键盘/飞机。在不同的设置中，不可见集合中的类递增，这意味着例如4-不可见集合包含2-不可见集合。评估指标。三个标准语义分割矩阵，在我们的实验中报告了像素精度（PA）、平均精度此外，在广义零炮分割中，搜索空间变成了所见的并看不见的阶级。[48，5]之后，我们计算了HAR。有很多看不见的类，很容易添加新的原型。我们的投影网络。然后，我们进行开放感知分割，为每个像素分配一个可见mIoU和不可见mIoU的monic平均值hIoU =2×mIoU已见×mIoU未见mIoU已看到+ mIoU未看到（六）n见+1类，如等式（1）和方程（二）、被分类为“未知”类别的那些像素（xu，yu），即掩码我们使用看不见的原型u来将这些“未知”像素指定M（xu，yu）中的标签被替换为其中，mIoUseen和mIoUunseen分别表示可见类和不可见类的平均IoU。可见的mIoU通常比不可见的mIoU高得多，并且主导总体mIoU。因此，我们使用hIoU，可以更好地展示ZSS的整体性能。骨干和培训细节。我们采用ResNet- 101 [23]作为主干构建DeepLav 3 + [8]框架-（xu，yu）exp（−α∠fxu，yu，pu）（四）工作，并训练模型SGD优化与polyno-Sj=Σpu∈Pu exp（−α∠fxu，yu，pu∠）小学习率衰减基本学习率为7 e-3，权重衰减为5e-4，动量为0.9。我们M（xu，yu）=argmaxS（xu，yu）J（五）使用ZS3Net [5]提供的预训练模型，该模型仅使用可见类别，因此可以保证没有信息到目前为止，输入图像被分类为可见类或不可见类。未知类作为一种媒介，不出现在最终预测中，但参与中间过程。通过分离可见和不可见，开集拒绝有助于减轻（广义）零激发分割中的偏差问题。4. 实验4.1. 实现细节数据集。我们对两个数据集进行了实验评估：Pascal VOC 2012 [16]和Pascal Context [39]。泄漏4.2. 消融研究1) 可训练原型与卷积分类器我们在有监督的网络上测试了这两种不同的方法，原型方法和卷积分类器，并得到了76.9%的可比分割结果。76.8%的mIoU。与卷积分类器相比，原型方法在测试过程中增加新的类别更加灵活，并将语义和视觉信息之间的映射简化为语义嵌入和原型向量之间的映射.值得注意的是，6981图4. Pascal VOC的定性结果。从第一行到最后一行分别是图像、地面实况、没有ZSL的预测和我们的预测。在没有零次学习的情况下，模型会错误地将看不见的类分类为一些可见的类，例如在第一列中认出牛是马。我们的零镜头分割方法可以为看不见的类分配正确的标签，并为这些对象生成可接受的掩模。表1.开放性排异反应的消融研究。方法奶牛/摩托车猫/电视看到看不见 hIoU 看到看不见 hIoU无开集拒绝66.12.85.4 69.83.26.1w/ 开集拒绝73.851.360.5 75.453.062.2真实拒绝76.764.069.8 75.665.370.12) 开集拒绝在ZSS中，开集拒绝模块旨在减轻偏差问题。为了证明开集拒绝的有效性，我们设计并进行了三个实验集：（1）在没有开集拒绝的情况下，我们使用投影网络生成不可见原型，并直接同时预测可见和不可见类。我们预计结果会很差，因为训练图像只包含所见类的注释像素，在测试阶段，预测将明显偏向于所见类。(2)我们的开集拒绝方式，在ZSS和归纳设置。(3)我们使用地面实况来过滤属于未看到的类的像素，并独立于看到的类进行预测。换句话说，我们只区分像素属于哪一个看不见的类别，而不区分它是否来自可见的类别。该设置减少了ZSS的挑战，但在实际使用中是不切实际的，并且不会被视为ZSS的有意义的设置。然而，它对通过解决偏置问题可以提高多少整体性能施加了上限，并且估计了我们的开集拒绝模块减轻偏置问题的程度。结果示于表1中。如所观察到的，当看不见的类是牛和摩托车时，它们具有相似的所见表2.投射的消融研究方法飞机/沙发鸟/船看到看不见hIoU看到看不见hIoU嵌入76.156.765.074.953.962.7投影76.065.270.275.360.266.9类，例如，牛-马和摩托车-自行车，设置（1）在看不见的类上导致差的mIoU为2.8%，表明网络在看不见的分区上几乎没有分类能力在设置（2）下训练的网络在可见类上的mIoU为73.8%，在不可见类上的mIoU为51.3%，并且比设置（1）高出55.1%的hIoU，这证明了我们的开集拒绝的有效性。不受偏差问题困扰的设置（3）在可见类上具有76.7%的mIoU，在不可见类上具有64.0%的mIoU。这是开集抑制所能带来的最大增益3) 投影网络提出了投影网络，其目的是将知识从可见类转移到不可见类。为了量化所提出的投影网络的有效性，我们比较了以下两种设置：（1）当词嵌入直接用作原型时(2)我们的投影网络方式。结果示于表2中。例如，当useen类是飞机和沙发（两者都不具有相似的可见类）时，设置（1）在可见类上具有76.1%的mIoU，在未可见类上具有56.7%的mIoU。设置（2）在可见类上具有 76.0% 的 mIoU ，在不可见类上具有 65.2% 的mIoU。投影法具有较高的不可见精度，证明了投影法的有效性。设置（2）优于设置（1）的原因我们不带ZSL地面实况图像6982表3.Pascal VOC 2012。设置模型看到Miou看不见Miou整体mIoU hIoU0监督--76.9-ZS3 [5]72.035.468.547.52CSRL [33]73.445.770.756.3我们73.751.371.660.5ZS366.423.258.234.44CSRL69.831.762.543.6CAGNet[20]69.540.263.250.9我们75.044.169.155.5ZS347.324.240.732.06CSRL66.229.455.640.7我们74.341.464.953.2ZS329.222.926.825.78CSRL62.426.948.837.6我们73.837.660.049.8ZS333.918.126.323.610CSRL59.221.050.031.0我们72.133.953.946.1是：一些可见和不可见类的数据样本是不相交和不相关的。直接使用词嵌入的分类可能会证明有用的那些看不见的类，有一个非常接近的副本中看到的类。然而，对于不相交的不可见类，存在很大的域间隙，使用可见样本学习投影函数对减轻域间隙有很大帮助。4.3. 基准测试结果广义ZSS是一个现实的分割设置。而不是只评估看不见的集合，我们联合评估所有类并报告看见的，看不见的和整体类的结果，即，可以将像素分配给可见类之一或不可见类之一。预测应该偏向于所看到的类，因为训练图像仅包含所看到的类的标记像素。因此，这是一项特别具有挑战性的任务。我们在表3和表4中报告了Pascal VOC 2012和Pascal Context数据集的性能指标，根据这三个指标。我们关注于具有语义相似的可见类的不可见类，即，牛（马/羊），摩托车（自行车），猫（狗），火车（公共汽车），椅子（餐桌）。实验结果表明，该方法有效地解决了偏置问题和区域偏移问题。定性结果图4显示了定性结果。从上到下显示的子图像是原始图像、地面实况、无零次学习的分割结果和我们的ZSS结果。大多数所示的情况包含三个以上的类，并且由于在看不见的和看不见的划分中非常相似的类（牛-马、摩托车-自行车、猫-狗）、不同对象的纠缠以及对象的各种尺度而具有挑战性。例如，在第3列中，它包括表4. Pascal Context上的结果设置模型看到Miou看不见Miou整体mIoU hIoU0监督--42.7-ZS3+GC [5]41.530.041.334.82CSRL [33]41.927.841.433.4我们41.951.842.246.3ZS3+GC39.529.138.633.54CSRL39.823.938.729.9我们41.143.141.242.1ZS3+GC34.821.633.526.76CSRL35.522.034.127.2我们40.936.440.538.5ZS3+GC22.816.822.019.38CSRL31.718.129.923.0我们40.227.338.532.5ZS3+GC24.014.122.317.810CSRL29.414.627.019.5CAGNet[20]24.818.523.221.2我们39.821.336.727.7两个看不见的类摩托车和牛，w/o ZSL结果预测牛作为马和摩托车作为自行车，而我们的方法成功地预测看不见的类。特别是在第5列中，猫和狗出现在同一张图片中，具有相似的外观，我们的方法可以很好地实现分割在开集拒绝之后，分割在完全不同的看不见的类之间呈现一些小错误（例如，奶牛和摩托车），这看起来像是不合理的，但实际上是可以解释的，因为我们很难在被拒绝的组内实现100%的分割5. 结论在这项工作中，我们解决了具有挑战性的零次扫描分割（ZSS），其中需要一个模型来对在训练期间已经看到或没有看到的类别进行像素级分类。我们澄清了ZSS的感应/转导设置，并采用感应设置。我们提出了一种原型匹配和开集拒绝的方法，以提高零拍性能。一组可训练的原型提取的视觉表示和执行分类。一个投影网络的训练映射的语义嵌入到这些原型，基于看到的实例，并生成原型看不见的类。为了解决偏置问题，提出了一个开集拒绝（OSR）模块来识别不属于可见类的像素OSR有助于减少将看不见的对象误分类为可见的类。然后，被OSR拒绝的像素被不可见类的投影原型分类。我们在两个分割数据集上测试了所提出的方法，并在一般化的零镜头分割上实现了令人印象深刻的最先进的性能6983引用[1] Zeynep Akata ， Scott Reed ， Daniel Walter ， HonglakLee，and Bernt Schiele.用于细粒度图像分类的输出嵌入的评估。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition ， pages 2927-2936，2015中。3[2] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第1893- 1902页3[3] Abhijit Bendale和Terrance E Boult。开放深度网络。InProceedings of the IEEE Conference计算机视觉和模式识别（CVPR），第1563-1572页，2016年。3[4] Supritam Bhattacharjee、Devraj Mandal和Soma Biswas。基于自动编码器的广义零拍学习的新颖性检测。在2019年IEEE图像处理国际会议（ICIP）上，第3646-3650页。IEEE，2019。3[5] Maxime Bucher ， VU Tuan-Hung ， Matthieu Cord 和PatrickPe'rez。零镜头语义分割。在神经信息处理系统的进展中，第468-479页一、二、六、八[6] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha. 零触发学习的分类器和样本合成国际计算机视觉杂志，128（1）：166-201，2020。3[7] Wei-Lun Chao，Soravit Changpinyo，Boqing Gong，andFei Sha.广义零拍学习在野外物体识别欧洲计算机视觉会议，第52-68页施普林格，2016年。3[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。1、6[9] Debasmit Das和CS George Lee。使用关系匹配、自适应和校准的零拍摄图像识别。2019年国际神经网络联合会议（IJCNN），第1-8页。IEEE，2019。3[10] Berkan Demirel 、 Ramazan Gokberk Cinbis 和 NazliIkizler-Cinbis。属性2类名：基于属性的无监督零激发学习的判别模型。在IEEE计算机视觉国际会议论文集，第1232-1241页3[11] Henghui Ding，Scott Cohen，Brian Price，and XudongJiang.短语点击：朝向通过短语和点击实现灵活的交互式分段。在欧洲计算机视觉会议上，第 417-435页。Springer，2020年。6[12] 丁恒辉，蒋旭东，刘艾群， Nadia Magne- natThalmann，王刚。用于场景分割的边界感知特征传播。在IEEE/CVF计算机视觉国际会议论文集，第6819-6829页，2019年。1[13] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.法律程序IEEE计算机视觉和模式识别会议，第2393-2402页，2018年。1[14] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8885-8894页，2019年。1[15] Georgiana Dinu Angeliki Lazaridou和Marco Baroni。通过减轻hubness prob- lem来改进zero-shot学习。arXiv预印本arXiv：1412.6568，2014。3[16] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective.International Journal of Computer Vision，111（1）：986[17] Rafael Felix、Ben Harwood、Michele Sasdelli和GustavoCarneiro。在语义和视觉联合空间中使用领域分类的广义零射击学习 2019 年数字图像计算：技术和应用（DICTA），第1-8页。IEEE，2019。3[18] Yanwei Fu ， Tao Xiang ， Yu-Gang Jiang ， XiangyangXue，Leonid Sigal，and Shaogang Gong.零炮识别的最新进展：实现对视觉内容的数据高效理解。IEEE SignalProcessing Magazine，35（1）：1121[19] Chuang Gan，Ming Lin，Yi Yang，Yueting Zhuang，and Alexander G Hauptmann.探索语义类间关系（sir）的零射击动作识别。在AAAI人工智能会议的论文集，2015年第29卷。3[20] Zhangxuan Gu，Siyuan Zhou，Li Niu，Zihan Zhao，andLiqing Zhang.零拍语义分割的上下文感知特征生成。第28届ACM国际多媒体会议论文集，第1921-1929页，2020年一、二、八[21] Zhangxuan Gu，Siyuan Zhou，Li Niu，Zihan Zhao，andLiqing Zhang.从像素到面片：为零触发语义分割合成上下文感知特征。 arXiv 预印本 arXiv ： 2009.12232 ，2020。第1、3条[22] 郭宇晨、丁贵光、韩俊功、丁晓涵、赵思成、王征、严成刚、戴琼海。双视图排名与硬度评估零拍摄学习。在AAAI人工智能会议论文集，第33卷，第8360-8367页，2019年。3[23] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。6[24] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例在2017 年国际学习表征会议（ICLR）的会议记录中。3[25] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。3[26] Ping

下载后可阅读完整内容，剩余1页未读，立即下载