零炮检距分割：深度学习实例分割的新任务及方法

153 浏览量更新于2024-01-22 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2593刀叉看到看到火车测模型看不见零镜头实例分割叶铮1、2吴嘉宏3秦永强3张发恩3李翠1中国科学院计算技术研究所1中国科学院大学2A创新科技有限公司有限公司3{zhengye@ict.ac.cn，qinyongqiang@ainnovation.com，wujiahong@ainnovation.comzhangfaen@ainnovation.com，lcui@ict.ac.cn}摘要深度学习显著提高了具有丰富标记数据的实例分割然而，在许多领域，如医疗和制造业，收集足够的数据是非常困难的，标记这些数据需要很高的专业技能。我们遵循这一动机，并提出了一个新的任务集命名为零炮检距分割（ZSI）。在ZSI的训练阶段，模型使用可见数据进行训练，而在测试阶段，它用于分割所有可见和不可见的实例。首先，我们制定了ZSI任务，并提出了一种方法来解决这一挑战，它包括零拍检测器，语义面具头，背景感知RPN和同步背景策略。我们提出了一个新的基准零射击实例分割的基础上MS-COCO数据集。在这个基准测试中的大量实验结果表明，我们的方法不仅超越了最先进的零镜头目标检测任务的结果，而且在ZSI上也取得了令人满意的性能我们的方法将作为一个坚实的基线，并促进未来的研究在零射击实例分割。代码可在ZSI获得。已标记的已查看类别未标记的测试数据可见和不可见的类别1. 介绍近年来，基于深度学习的实例分割方法[1，2，3，4，5，6]取得了很大进展。这些监督学习范式方法强烈依赖于大规模标记数据。然而，对于许多实际应用，例如，医学和制造业的数据收集和标注非常耗时，并且需要专业的标注人员，这导致我们在这些任务中总是没有用于看不见的类的标注数据。此外，对于开集[7，8]实例分割任务，我们不能标记所有类别，因此需要分割许多未标记如果没有丰富的标记数据，现代实例分割方法就无法训练深度神经网络来分割看不见的实例。近年来，许多零拍学习图1.在zero-shot实例分割中，我们只能使用可见类别的标记数据进行训练，但可以预测可见类别和不可见类别的实例分割结果。在我们的方法中，我们使用所看到的类数据，例如，“knife” to establish the mapping relationship between visualand semantic concepts during training and then transfer it tosegment unseen instances, “fork” in方法已经提出。零激发学习的最新成果集中在零激发分类问题上[7，9，10，11，12，13，14，15，16，17，18，19]。有限通过现有的基准[20，21，22]，零镜头分类方法集中于推理输入图像中的单个主要的不可见对象，这使得其不适合于真实场景。在现实世界中，几个不可见的、属于不同类的物体可能同时出现。因此，零镜头对象检测（ZSD）[23，24]和零镜头语义分割（ZSS）[25]已经得到了支持。不可见类分叉锯类刀2594摆姿势ZSD旨在同时定位和识别看不见的对象，ZSS用于分割看不见的类，这些任务对于现实世界的场景更实用然而，当我们需要每个实例的像素级分割结果时，从ZSD获得的边界框结果和从ZSS获得的整个图像的分割结果仍然不够精细为了满足这一要求，mand更精细的结果，我们引入了一个新的问题设置，称为零杆实例分割（ZSI）。如图1所示，ZSI的目标不仅是检测所有看不见的对象，而且还要进一步精确地分割每个看不见的实例。ZSI任务面临两个主要挑战。(i)如何对看不见的类进行实例分割。如果没有看不见的类数据，我们就无法训练深度神经网络来分割看不见的实例。我们引入额外的语义知识包含在预先训练的词向量相关的看到和看不见的类。我们使用语义词向量和可见类的图像数据，以检测-分割的方式建立视觉-语义映射关系，并将其从可见类我们提出了零拍检测器和语义掩码头（SMH）检测和分割每个不可见的实例。我们在第3.2.1节和第3.2.2节中讨论了详细信息。(ii)如何减少背景类和不可见类之间的混淆。ZSI算法不像ZeroShot算法那样只对一幅图像中的一个域对象进行分类，不需要考虑背景类，而是需要区分前景和背景。由于在训练过程中未观察到不可见的数据，因此模型很可能将不可见的对象识别为背景，这对性能有很我们认为背景类的表示是解决这一问题的关键。我们发现，现有的背景类表示方法存在两个主要缺陷：（1）现有的背景语义表示方法不合理;先前的作品[23，24]使用词向量的然而，在计算机视觉任务中，这种从未标记的文本数据中学习的简单词向量不足以表示复杂的背景;（ii）现有的背景类的语义表示为了获得合理的、动态的自适应词向量，本文提出了背景感知RPN（BA-RPN）和同步背景策略（Sync-bg）。我们在第3.2.3节中介绍了详细信息。为了便于零镜头实例分割的研究由于实例分割一直被认为是对象检测的下游任务，我们基于[23，26]中现有的ZSD基准为ZSI建立了数据集。背景词向量同步BG刀叉ROIAlign视觉特征语义掩码头骨干BA-RPN零发射探测器图2.我们的零镜头实例分割框架的整个架构。对于输入图像，我们通过RoI Align从back-bone和BA-RPN获得每个提案的视觉特征和背景词向量然后，我们使用同步bg同步的词向量为背景类的零拍检测器和语义掩码头。我们可以从这些结构中得到实例分割结果。概括而言，本文的主要贡献如下：（i）介绍了现实环境中的零炮实例分割问题;（ii）提出了一种基于背景感知的零炮检测-分割方法，包括零炮检测器、语义掩码网络、背景感知RPN和同步背景策略。(iii)我们提出了一个新的ZSI实验基准来评估模型的性能;（iv）我们提供了广泛的实验和消融研究来突出所提出的方法的优点，结果表明我们的方法超越了最先进的ZSD作品，并在ZSI上取得了有希望的性能。2. 相关作品2.1. 常规实例分段实例分割是计算机视觉领域的经典问题。基于深度学习的实例分割方法在过去的几年中取得了很大的进展，例如， Mask R-CNN [1] ， FCIS [2] ， YOLCAT[3]，HTC [4]，PolarMask [5]和SOLO [6]。其中一些算法采用检测-分割的方式来解决这个问题，作为一个典型的工作，Mask R-CNN在Faster R-CNN中增加了一个掩码分支，该分支首先检测所有对象，然后分割每个对象中的所有像素。上述方法以密集的监督方式工作，并且在没有训练样本的情况下难以扩展到新类别。2.2. 零射击学习零触发学习是机器学习领域的一个经典问题，其目的是利用已知类的数据来训练网络，并对未知类进行推理。在过去的几年里，已经提出了几个零触发学习的成果[7，9，10，11，12，13，14，15，16，17，18，19]。其中大多数都采用了迁移学习方法，通过各种中间表示将从可见类中学习到的知识迁移到不可见类中，例如，2595ΣΣ从未注释的文本数据和手工设计的属性中使用无监督fash学习语义词向量。然而，这些方法都集中在零镜头分类任务，只识别输入图像的一个领域的对象，它是远离现实世界。近年来，ZSD的一些工作已被报道。Rahman等人[24]在Faster R-CNN中引入最大余量损失，通过使用语义信息区分不同的类。Bansal等人[23]使用线性投影将来自R-CNN的建议映射到词向量，然后对它们进行分类。他们还开发了一种类似EM的方法，以迭代的方式学习背景类的词向量。Zhu等人[27]基于一步Yolo检测器开发了EST-Yolo。Rahman等人[26]提出极性损失以增加类之间的距离，并采用RetinaNet [28]作为ZSD的基本检测器Liet视觉特征ROILR重构视觉特征语义特征TeBx300TdWS300x（S+1）吴300x（U+1）盒看到的分数看不见的分数al. [29]使用文本描述作为额外信息，并开发一种注意机制来解决ZSD问题。Zhao等人[30]使用生成对抗网络来合成看不见的对象的语义表示，以帮助检测看不见的对象。Zhu等人[31]提出了DELO，它从语义信息中合成了不可见对象的视觉特征，并结合了对可见和不可见对象的检测。Zheng等[32]使用级联结构来提高ZSD在背景表示方面，SB [23]和PL [26]使用用于“背景”词的固定词向量而BLC [32]试图学习一个更合理的代表--图3.零发射探测器的细节。它以编码器-解码器的方式进行训练，并且我们在测试过程中只使用编码器Te。Ws是所有可见类和背景类的词向量。Wu是所有不可见类和背景类的词向量。S是可见类的数量，U是不可见类的数量。每个类都有一个300维的词向量.B是批量。训练集Dtrain由Cs构成，C s由图像xs和所见类词向量ws组成。测试集Dtest由Cs和CU构建，它由图像x和词向量w组成，其中可见和不可见实例可能出现在同一图像上。在训练中，我们使用θ=arg maxD列车日志p（y∈C| x，w，θ），θi=1锡斯锡斯第然而，DSES的训练方法[23]和BLC [32]是多步骤过程。从这些非端到端的训练过程中学习的背景词向量是局部最优结果，并且它被用作固定的表示。训练网络，其中我们使用仅包含所见类的实例的Dtrain来优化网络的参数θ为了推断，目标被改变最大参数D测试日志p（y∈C，y∈C| x , w, θ),第在我们的方法中，我们学习背景词向量θi=1锡斯伊乌伊采用完全端到端的联合训练方式，可以得到最优的结果。此外，由于采用了同步背景策略，与其他方法中的固定形式相比，该方法学习的背景词向量具有动态自适应我们注意到Bucheret al. [25]提出了ZSS任务，该任务执行整个图像的语义分割，这与我们的方法不同，该方法旨在为每个单独的不可见实例进行实例分割。3. 方法3.1. 问题定义下面描述本文中零镜头实例分割问题的设置。假设我们从两个不重叠的类集合中得到图像和词向量：可见类Cs和不可见类Cu。的这意味着使用训练好的网络θ来精确地得到实例分割结果用于可见类和不可见类。总之，我们从可见实例中学习θ，并使用它来推断不可见实例。3.2. 零镜头实例分割我们提出了一个端到端的网络，采用语义词向量来检测和分割看不见的实例。整个网络体现了视觉-语义映射关系的思想，包括BA-RPN、Zero- Shot Detector和SMH。图2显示了我们网络的整个我们基于具有视觉语义对齐的Faster R-CNN构建了零触发检测器。然后，我们将我们的SMH引入到零触发检测器中，通过学习具有编码器-解码器结构的视觉-语义关系来实现对不可见类的实例分割此外，我们开发了BA-RPN和Sync-bg来学习一个动态自适应的词向量的背景类。回归分支2596见面具视觉特征14x14x2048上采样28x28x2048编码器EWs-转换28x28x（S+1）n分LR28x28x2048解码器DWu-Conv28x28x（U+1）看不见重构视觉特征掩模分数图4.我们的语义掩码头是一个编码器-解码器结构。在训练中，我们使用编码器E将视觉特征编码到语义词向量中。然后采用解码器D对语义词向量进行解码，得到重构的视觉特征，并使用损失函数LR来最小化两个视觉特征之间的差异。D在推理中被删除 Ws-Conv和Wu-Conv都是固定的卷积层，我们使用它们对语义词向量执行逐像素卷积，以获得可见和不可见类实例分割结果。3.2.1零发射探测器我们的零镜头检测器的主要思想是学习之间的关系，lationship视觉和语义概念，从看到的类数据，并将其转移到检测看不见的对象。为此，我们将Faster R-CNN中的分类分支替换为新的语义分类分支。图3显示了它的细节。语义分类分支是编码器-解码器结构。其中，我们使用Te将输入RoI的视觉特征编码为语义特征，并使用Td将语义特征解码回视觉特征。训练中的真实。LR是重建损失函数，以减少视觉特征的重建误差，并重新构造的视觉特征，其在等式1中公式化。解码器模块和重建损失可以推动网络学习更具区分性的视觉语义对齐。在推理中，去掉Td，通过对矩阵语义特征与Ws、语义特征与Wu分别进行乘法运算，3.2.2语义掩码头为了对不可见实例进行实例分割，本文重点研究了如何利用视觉-语义映射关系对不可见实例进行分割我们提出了语义掩码头来学习这种关系，并将其从可见的类转换为分割不可见的实例。语义掩码头的细节如图4所示。整体架构是编码器-解码器结构。编码器模块E是一个单一的1×1卷积层结构，它将视觉特征编码到语义空间中，然后我们可以从这些语义空间中得到分割结果。tic词向量考虑到这种单一的前向编码器结构不足以学习紧密的视觉语义对齐，我们开发了具有重构损失函数LR的解码器结构D，以进一步提高视觉特征和序列之间的映射关系Mantic词向量我们的解码器模块将语义词向量解码回视觉特征，并且我们使用LR来最小化重建的视觉特征与原始视觉特征之间的差异为此，解码器模块相对于编码器模块具有对称结构，编码器模块还包括单个1×1卷积层，其中输入和输出通道的数量与E相反。我们用一个300维的词-向量作为每个类的语义表示，因此E负责将输入的视觉特征转换为通道维度为300的语义特征。在这300×28×28的语义特征张量，每个通道表示词向量的一个维度，每个300×1的元素是一个词向量。要获得分类得分，对于每个元素，我们需要计算每个元素的词向量与所有可见和不可见类的词向量针对这一问题，在编码器后增加了分类模块.这个模块包括两个分支，一个用于可见的类，另一个用于不可见的类。在它里面，Ws-Conv表示一个固定的1×1卷积层，我们采用所有可见类和背景类的词向量Ws作为它的权重。Wu-Conv也是一个固定的1×1卷积层，权重为Wu，这表示所有看不见的类和背景类的词向量。在我们的零发射探测器中，Ws和Wu是相同的。我们通过分数合并可见和不可见类的结果ROI语义向量2597我F对于零炮检测器和SMH中的重建损失LR，如等式1所示，我们测量原始视觉特征O中的每个元素与重建图像中的每个元素之间的均方误差（平方均2结构化视觉特征零发射探测器LR=L（Oii=1-R）2（1）语义掩码头3.2.3BA-RPN和同步背景在我们的零拍摄检测器中，可见和不可见类的词向量Ws和Wu被用作固定FC层的权重值，以将对象分类为n+1个类别。其中n是可见或不可见类的数量，1表示背景类。在我们的Seman-图5.这是BA-RPN和Sync-bg的详细信息。在BA-RPN中，我们使用T将B×N维视觉特征转换为B×300维语义特征，其中B是批量大小，N是视觉特征的维数。然后，我们使用包含背景类词向量vb的Wbf来获得前景-背景分类得分Sbf。我们使用Sync- bg来同步零发射探测器的Ws和Wu中的vb语义掩码头的Ws-Conv和Wutic Mask Head、Ws和Wu再次用作权重值Ws-Conv和Wu-Conv将像素分为n+1个类别，这意味着我们的语义掩码头还将每个像素分类为背景类或其他目标类。从以上讨论可以看出，Ws和Wu中背景类的词向量直接影响背景类的分类结果。然而，现有的背景类词向量是从大规模文本数据中学习而来的，没有利用视觉信息，不能有效地表示复杂的背景类。为此，我们提出了背景感知区域建议网络（ BA-RPN），它将视觉语义学习过程引入到原始RPN中，以从图像中学习更合理的背景类词向量。BA-RPN的体系结构如图5所示，它使用FC层T将输入的视觉特征转换为语义特征。我们使用300×2维FC层Wbf来获得背景-前景二进制分类得分。Wbf的权重是一个300×2的向量，它代表了前景和背景的两个词向量。Wbf将在训练过程中进行优化，以便我们可以学习一个新的单词向量vb，用于back-地面类。现在我们有了一个新的背景类词向量，它可以用来代替我们的零拍检测器和SMH中的原始词向量。然而，我们认为这仍然不是解决背景表示问题的最佳方法。背景类在不同的图像中有不同的形式，而BA-RPN学习的背景词向量由于BA-RPN的训练过程与整个ZSI框架的训练过程是分开的，导致背景学习仅限于BA-RPN，没有充分利用零炮检测器和SMH的优点为了解决这些问题，我们提出了同步背景策略，并在训练和推理中使用这种同步操作。算法1指示训练过程中我们的Sync-bg的细节在每一个训练步骤中，我们首先向前算法1在训练中同步背景。输入：来自骨干网络x的视觉特征;1：对于所有训练迭代步骤，2：将x转发到BA-RPN中以获得背景字-矢量vb和所有建议的特征xp3：用vb更新零激发检测器中的Ws;4：用vb更新SMH中的Ws-Conv;5：通过零激发探测器和SMH向前xp6：在BA-RPN中计算损失和反向传播梯度以更新vb第七章：端将主干中的视觉特征转化为BA-RPN，得到背景类的词向量vb和每个提案的视觉然后，我们通过用vb替换用于背景的词向量来更新零激发检测器中的WS和SMH中的WS-Conv。在我们将视觉特征转发到zero-shot检测器和SMH之后，我们计算损失并将梯度传播回来以更新所有可训练参数，包括BA-RPN中的vb。这些端到端的联合训练过程可以学习到更合理的vb。在推理过程中，对于输入图像，BA-RPN自适应地输出相应的背景词向量，同步背景策略根据该自适应背景词向量更新零拍检测器中的WS、Wu和SMH中的WS-Conv、Wu在我们的零触发检测器和SMH中使用这种动态自适应背景词向量显著提高了性能。4. 损失函数如等式2所示，我们的网络的整个损失函数LZSI具有三个分量：BA-RPN的损失LBA、零触发检测器的损失LZSD和SMH的损失LSMH。LBA包括前景-背景分类交叉熵损失和平滑的N-S-1回归同步BG视觉特征WS吴语义动词b特征WBF300x2不XSBFROI AlignBX2ROIWS-转换武康Bx300BxN2598表1.我们工作中每个组件的效果分别报告了MS-COCO的48/17分离和65/15分离结果ZSI ZSDZSD SMH Det解码器BA-RPN Sync-bg召回@100 mAP召回@100损失L-ZSD由交叉熵分类损失、平滑回归损失和重构损失组成。LSMH包括每像素二进制分类损失和重建损失。 CE是交叉熵损失BCE是二进制交叉熵损失。 λZSD和λSMH是超参数LZSI=L BA+L ZSD+L SMHLBA=1（r，^r）+CE（c，^c）5.2.评价方案我们使用两种设置来评估ZSI的性能：ZSI设置和广义零炮实例分割（GZSI）设置。当使用ZSI设置时，网络只需要预测未知实例的结果。对于GZSI设置，可见和不可见类的结果需要一起预测GZSI更接近现实世界中的情况，因为可见和不可见的实例可能同时出现在参考了LZSD=λ1（r，^r）+CE（c，^c）+λZSD LR（O，R）（二）ZSD [23，26，32，30]，我们在不同的LSMH=BCE（c，^c）+λSMHLR（O，R）5. 实验5.1. 数据集考虑到实例分割任务始终被视为对象检测的下游任务，我们通过遵循先前的ZSD工作[23，26]来开发ZSI的数据集。我们使用MS-COCO作为基本数据集，因为它被广泛用作对象检测和实例分割的通用基准。我们选择2014版本用于MS-COCO，因为该版本在验证集中的数据比2017版本多，因此我们可以有更多的数据来评估我们的方法。为了构造基准，我们给出了两种可见类和不可见类的划分方法：48/17划分和65/15划分，即把MS-COCO分为48个可见类和17个不可见类，以及65个可见类和15个不可见类。对于训练集，我们首先从MS-COCO的训练集中选择所有包含可见类对象的图像。然后，如果图像中包含任何不可见的对象，我们将其删除，以确保网络在训练期间不会观察到不可见的对象。对于测试集，我们从MS-COCO的验证集中我们测试集中的图像数据集的详细描述见附录。IoU阈值（0.4，0.5，0.6）作为主要指标，100意味着我们选择前100个得分结果进行评估。此外，我们还给出了平均精度（IoU阈值为0.5）的结果作为参考。5.3. 实施细节我们采用word2vec [33]作为我们的语义词向量，并使用一个numer2规范化对其进行规范化。在zero-shotdetector中，Te是输出尺寸为300的FC层，Td是输出尺寸为2048的FC层。Ws和Wu是两个固定的FC层，在训练期间不更新。在SMH中，E和D是两个1×1卷积层。你...Conv和Wu-Conv都是固定的1×1卷积层而他们的重量是词向量看到，看不见的班级零激发检测器和SMH中的重建损失函数的权重均设置为0.5。5.4. 分量分析我们调查的贡献，我们的方法的主要组成部分。“ZSD” means our Zero-shot Detec- tor, “SMH” denotesthe Semantic Mask Head, “Encoder” and“Det Decoder”represents adding the decoder module into zero- shotdetector and “BA-RPN 48/17和65/15拆分的结果分别见表1。与基线相比，我们的方法带来了6.4%编码器解码器0.40.50.60.50.548/17C----47.2CC43.838.532.77.548.1CCC46.141.235.58.448.6CCCC46.841.835.98.649.3CCCCC50.344.938.79.053.965/15C----52.9CC48.942.635.59.153.4CCC51.745.838.710.154.1CCCC52.447.040.510.355.0CCCCC55.850.042.910.558.92599表2.比较我们的方法与以前的国家的最先进的ZSD工程的两个分裂的COCO。Seen/Unseen是指数据集的分割。我们的方法大大超过了所有其他作品。表4.该表显示了我们的方法在GZSI任务上的Recall@100和mAP（IoU阈值=0.5）的性能。HM表示可见和不可见类别的调和平均值。方法Seen/Unseen看不见的HMZSI65/1538.6867.1113.6058.9320.1362.76表5.BA-RPN和同步背景的有效性DELO [31]48/17-33.50-7.6战略ZSI和ZSD的100次召回结果报告于BLC [32]48/1749.6346.3941.869.9MS-COCO分别为48/17和65/15ZSI48/1757.453.948.311.4方法ZSI ZSD表3.该表显示了我们的方法和其他现有技术在GZSD任务上的Recall@100和mAP（IoU阈值=0.5）HM表示可见和不可见类别的调和平均值。在48/17和65/15分割时，ZSI和ZSD的100次召回率分别提高了7.4%和6.7%和7.2%。5.5. 与其他ZSD方法的比较我们将我们的方法与表2中ZSD设置上的两个分裂基准上的最先进的零炮检测方法进行比较。我们可以观察到：（i）对于48/17分裂，我们将我们的方法与SB[23] ， DSES [23] ， TD [29] ， PL [26] ， Gtnet [30] ，DELO [31]和BLC [32]进行比较。我们的方法超越了所有这些方法，在Recall@100和mAP方面分别获得了36.99%和11.08%的增益;（ii）对于65/15分割，与PL [26]和BLC [32]相比，我们的方法仍然获得了最佳性能，并为Recall@100带来了21.18%的增益，为mAP带来了1.2%的改善。此外，我们还比较了表3中GZSD设置[23]下的性能，这需要我们的网络同时预测可见和不可见。我们可以学习与DSES[23] ， PL [26] 和 BLC [32] 相比，我们的方法在Recall@100中的可见和不可见类中获得了高达46%和26%的改进。5.6. 广义零镜头实例分割对于广义零触发实例分割集，我们需要对可见和不可见这意味着GZSI任务比ZSI任务更具挑战性。我们建立了一个基线，在检测器和SMH中没有解码器，没有BARPN，也没有Sync-bg。我们在表4中报告了GZSI结果。我们可以了解到，与基线相比，我们的方法在GZSI设置上对可见和不可见类的谐波平均值带来了高达5.61%的mAP和11.72%的5.7. BA RPN和Sync bg的消融研究我们报告了BA-RPN和Sync-bg的实验结果，以讨论它们的有效性在SMH中，我们只结合零拍检测器和编码器模块来我们在此基础上进行了一系列烧蚀实验，见表 5 。 “RPN” means above baseline, “BA-RPN” isreplacing RPN with our Background Aware RPN, “BA-RPN从这些结果中，我们可以了解到：（i）单独使用BA-RPN比不使用Sync-bg策略的原始RPN更差，它使ZSI性能降低了0.4%到0.6%，这验证了单独使用BA-RPN没有带来好处;（ii）我们需要同步学习的背景词向量0.40.50.60.548/17RPN43.838.532.748.1BA-RPN43.137.931.448.9BA-RPN Sync-bg in mask44.138.832.748.6BA-RPN Sync-bg in deter46.740.935.051.9BA-RPN Sync-bg47.942.135.454.265/15RPN48.942.635.553.4BA-RPN49.042.435.455.3BA-RPN Sync-bg in mask49.042.535.455.0BA-RPN Sync-bg in deter51.945.337.957.6BA-RPN Sync-bg53.747.439.958.5方法可见/不可见召回@100地图地图召回地图召回地图召回0.40.50.60.5基线48/1741.1162.303.0138.145.6147.31SB [23]48/1734.4622.1411.310.32ZSI48/1743.0464.483.6544.906.7352.94DSES [23]48/1740.2327.1913.630.54基线65/1536.4363.599.0642.6314.5251.04[26]第二十六话65/15-37.72-12.4BLC [32]65/1554.1851.6547.8613.1ZSI65/1561.958.954.413.6TD [29]48/1745.5034.3018.10-[26]第二十六话48/17-43.59-10.1Gtnet [30]48/1747.3044.6035.50-方法可见/不可见看到看不见HM地图召回地图召回地图召回DSES [23]48/17-15.02-15.32-15.17[26]第二十六话48/1735.9238.244.1226.327.3931.18BLC [32]48/1742.1057.564.5046.398.2051.37ZSI48/1746.5170.764.8353.858.7561.16[26]第二十六话65/1534.0736.3812.4037.1618.1836.76BLC [32]65/1536.0056.3913.1051.6519.2053.922600图6.从我们的方法零杆实例分割的结果的例子所有这些实例都属于看不见的类。表6.语义信息的重要性。语义信息需要包含先验知识。词向量具有知识召回@100地图随机基线无0. 2 0一热无0.3 0word-vec（在我们的方法中）是58.9 13.6从未注释的文本数据中从BA-RPN到其他组件。如果我们只在SMH中使用Sync-bg，它不会给ZSI带来太大的改善，并降低了ZSD的性能。但是当我们在检测器中使用Sync-bg时，我们可以对ZSD和ZSI进行显著改进我们认为，造成这种现象的原因是在预测过程中，我们首先使用零拍检测器来获得边界框，然后对这些框进行实例分割。如果只同步语义掩码头中的背景词向量而不同步零激发检测器，则零激发检测器中的背景词向量与语义掩码头中的背景词向量不一致会降低ZSI性能。在保持背景词向量一致性的前提下，使背景词向量在整个框架内同步，可以获得最佳的性能。5.8. 语义信息的作用我们增加了一个实验来探讨语义信息的影响。结果示于表6中。我们可以了解到，如果将独热向量用于词向量，则在看不见的类上的性能应该等同于随机基线，因为语义信息中的知识是必要的。5.9. 定性结果为了直观地评估定性结果，我们在图6中给出了我们的方法的一些不可见实例的实例分割结果。我们发现，我们的方法可以准确地检测和分割看不见的类在不同的位置。例如，我们的方法检测并分割密集场景下的物体，值得注意的是6. 结论本文提出了一种新的零触发实例分割任务，并给出了该任务的评估协议和基准测试，提出了一种基于零触发检测器、语义掩码头、BA-RPN和同步背景策略的零触发实例分割网络。通过利用语义信息和学习更合理的自适应背景表示，我们的方法优于其他国家的最先进的零炮检测方法，并提供了一个坚实的基线零炮实例分割任务。有价值的和相关的未来的工作可以从我们的新任务与上述技术的贡献。确认本文得到国家自然科学基金项目（61672498）的资助。2601引用[1] 何开明、吉欧吉亚·吉欧克萨里、彼得·多尔和罗斯·吉尔希克。面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页一、二[2] 李毅、齐昊之、戴季风、季向阳、魏亦辰完全卷积的实例感知语义分割。在IEEE计算机视觉和模式识别会议论文集，第2359-2367页一、二[3] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在IEEE计算机视觉国际会议论文集，第9157-9166页一、二[4] 陈凯，庞江苗，王佳琪，熊宇，李晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等。混合任务级联实例分割。在IEEE计算机视觉和模式识别会议论文集，第4974-4983页，2019年。一、二[5] 谢恩泽、孙培泽、宋晓歌、王文海、刘雪波、丁亮、沈春华、罗平。Polarmask：使用极坐标表示的单镜头实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第12193-12202页，2020年。一、二[6] 王新龙，孔涛，沈春华，姜语宁，李磊。Solo：按位置分割对象。arXiv预印本arXiv：1912.04488，2019。一、二[7] Abhijit Bendale和Terrance E Boult。走向开放集深度网络。在IEEE计算机视觉和模式识别会议论文集，第1563-1572页，2016年。一、二[8] Yoshihashi Ryota，Wen Shao，Rei Kawakami，ShaodiYou，Makoto Iida，and Takeshi Naemura.开集识别的分类-重构学习在IEEE计算机视觉和模式识别会议论文集，第4016-4025页，2019年1[9] Soravit Changpinyo，Wei-Lun Chao，Boqing Gong，andFei Sha.用于零触发学习的综合分类器。在IEEE计算机视觉和模式识别会议的Proceedings，第5327-5336页，2016年。一、二[10] Elyor Kodirov，Tao Xiang，and Shaogang Gong.语义自动编码器零射击学习。在IEEE计算机视觉和模式识别会议集，第3174-3183页，2017年。一、二[11] Shafin Rahman，Salman Khan，and Shahh Porikli.一个统一的方法为传统的零杆，广义零杆，少杆学习。IEEETransactions on Image Processing- ing ， 27 （ 11 ）：5652-5667，2018。一、二[12] Yongqin Xian，Bernt Schiele，Zeynep Akata.零射击学习-好的，坏的和丑陋的。在IEEE计算机视觉和模式识别会议论文集，第4582-4591页一、二[13] 张子明和Venkatesh Saligrama。通过语义相似性嵌入的零射击学习。在IEEE计算机视觉国际会议论文集，第4166-4174页一、二[14] 张子明和Venkatesh Saligrama。通过联合潜在相似性嵌入的零射击在IEEE计算机视觉和模式识别会议集，第6034-6042页，2016年。一、二[15] 埃洛伊·扎布洛克，帕特里克·博德斯，劳雷·苏利尔，本杰明·皮沃沃斯基，帕特里克·加里纳利.用于对象识别的上下文感知零触发学习。国际机器学习会议，第7292-7303页。PMLR，2019年。一、二[16] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense image annotations.国际计算机视觉杂志，123（1）：32-73，2017。一、二[17] Ashish Mishra，Shiva Krishna Reddy，Anurag Mittal和Hema A Murthy。一种使用条件变分自编码器的零拍学习生成模型。在IEEE计算机视觉和模式识别研讨会会议上，第2188-2196页，2018年。一、二[18] Vinay Kumar Verma、Gundeep Arora、Ashish Mishra和Piyush Rai。通过合成大小的示例进行广义零射击学习。在IEEE计算机视觉和模式识别会议论文集，第4281-4289页，2018年。一、二[19] Vinay Kumar Verma，Dhanajit Brahma，and Piyush Rai.广义零激发学习的元学习。在AAAI，第6062-6069页，2020年。一、二[20] 玛丽亚-埃琳娜·尼尔斯贝克和安德鲁·齐瑟曼。对大量类别进行自动化花卉分类。2008年第六届印度计算机视觉会议，图形图像处理，第722-729页IEEE，2008年。1[21] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein ， et al. Imagenet large scale visual recognitionchallenge.国际计算机视觉杂志，115（3）：211-252，2015。1[22] Peter Welinder、Steve Branson、Takeshi Mita、CatherineWah、Florian Schroff、Serge Belongie和Pietro Perona。200.第200章大结局 2010. 1[23] Ankan Bansal ， Karan Sikka ， Gaurav Sharma ， RamaChel-lappa，and Ajay Divakaran.零拍摄目标检测。在欧洲计算机视觉会议（ECCV）的会议记录中，第384-400页，2018年。一、二、三、六、七[24] Shafin Rahman，Salman Khan，and Shahh Porikli.零拍摄对象检测：学习同时识别和定位新概念。亚

下载后可阅读完整内容，剩余1页未读，立即下载