部分监督实例分割中的弱注释类前景提示

191 浏览量更新于2023-10-14 收藏 2.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2824∼分割前：部分监督实例分割中弱注释类的前景提示Da vid Biertimpel1，2* Sindi Sh k odrani 2Anil S. Baslamisli1No´ ra Baka21阿姆斯特丹大学2TomTomdavid. protonmail.coma.s. uva.nl{sindi.shkodrani，nora.baka} @ tomtom.com摘要实例分割方法需要具有昂贵且因此有限的实例级掩码标签的大型数据集。部分监督实例分割旨在通过利用更丰富的弱盒标签来在这项工作中，我们表明，一个类不可知的面具头，通常用于部分监督的实例分割，有困难的学习前景的一般概念弱注释类只使用框监督为了解决这个问题，我们引入了一个对象掩模先验（OMP），提供了掩模头的一般概念的前景隐式学习的盒子分类头的监督下的所有类。这有助于类不可知掩码头集中在感兴趣区域（RoI）中的主要对象上，并提高对弱注释类的泛化。我们测试我们的方法在COCO数据集上使用不同的分裂的强和弱监督类。我们的方法在Mask R-CNN基线上显着改进，并获得了最先进的竞争性能，同时提供了更简单的架构。一个输入掩码R-CNNOMP预测地面实况图1.我们的对象掩模先验（OMP）为掩模头部提供前景线索，突出显示模糊ROI中的主要实例（黄色像素表示前景）。OPMask能够重新解决模糊的星座并分割正确的实例，而我们的Mask R-CNN基线无法做到这一点。1. 介绍实例分割是计算机视觉中的一项重要任务，其应用范围从自主车辆到机器人和医学成像[5，6，13，22，26，30]。最近实例分割方法成功的主要贡献者是具有许多实例级掩码标签的大规模数据集的可用性[7，8，12，24，36]。掩码标签的一个主要问题是它们的获取相当耗时，每个实例需要67秒[4]。相反，弱标签（w.r.t.例如掩模）作为边界框（10. 5秒）允许更多*本文是在TomTom实习期间的工作成果1代码可在：https://github.com/dbtmpl/OPMask有效注释[4]。尽管如此，对于没有足够掩码标签的类，常规实例分割方法表现不佳，并且倾向于生成穿孔的掩码预测，不覆盖整个对象或完全缺失它[16，20]。为了改善没有可用掩码标签的类的掩码预测，最近的研究集中在解决部分监督学习设置中的问题[9，16，20，40]，其中所有类都用框标签注释，而只有这些类的子集也携带实例掩码标签。部分监督实例分割的目标是使用丰富但弱的框标签结合强但有限的掩码标签来预测弱（框）注释类的更好的实例掩码。在当前的方法中，针对弱类的泛化掩码预测的任务或者通过元学习来实现2825类别感知权重[16]或具有类别不可知掩码头[9，20，40]。在后一种情况下，不是预测每个类别的掩模，而是将RoI中的每个像素分类为前景或背景。因此，类不可知掩码头面临必须学习前景的一般概念以便推广到看不见的对象类的挑战。然而，这常常失败，即使为弱类提供了丰富的盒标签。在本文中，我们确定问题的根源，一方面，从对象实例之间的模糊星座，其中一个实例的像素出现在其他的边界框。因此，当RoI包含多个且可能重叠的实例时，实际前景对于掩模头部变得模糊。示例参见图1。另一方面，在训练期间出现在RoI的背景中的弱类的实例被主动地学习为背景。这损害了对频繁与其他监督类交互的弱类的泛化。为了解决这些问题，我们引入了一个对象掩模先验（OMP），突出了正确的前地在每个ROI。这有助于掩码头解决不明确的星座，学习前景的更一般的概念，并将其推广到弱类。最近的工作表明，形状先验是有益的诱导偏差，引导模型向更稳定的掩模预测。例如，ShapeMask [20]通过将k-means应用于地面真实掩模来创建形状先验的知识库，而ShapeProp [40]通过在边界框上使用像素级多实例学习来创建先验虽然这些先验知识有助于推广到弱类，但它们并没有明确地解决上面提到的相反，我们的先验被显式优化以使用来自所有类的框监督来突出RoI中的前景。这是通过利用盒子分类头自然学习识别RoI中的主要类别的事实来实现的当框头接收部分监督设置中的所有类的标签为了揭示这一前景，我们使用类激活图（CAM）[39]，这是一种粗略的定位图，指示模型检测到的最具鉴别力的图像区域。因此，给定正确的分类，期望CAM突出显示对应于主要RoI类别的前景区域。与之前为先前创建引入单独模块的方法不同，我们仅依赖于盒头中的特征，并以端到端的方式将OMP嵌入到我们的模型中。除了使用来自所有类的框监督之外，我们的先验能够使用来自有限掩码标签的掩码梯度我们将我们的OMP嵌入到Mask R-CNN Meta架构中，并将我们的整体模型命名为OPMask（Object PriorMask R-CNN）。我们的主要贡献如下：• 我们确定了部分监督实例分割中的两个基本问题：首先，在训练期间出现在掩码监督的RoI的背景中的弱类的实例被模型学习为背景。第二，在包含多个和可能重叠的实例的模糊ROI中，掩模头部难以找到前景。• 我们在掩模头中引入对象掩模先验（OMP）先验通过利用来自框头的信息来突出显示所有类别的前景• 在COCO数据集[24]上，OPMask比我们的Mask R-CNN基线显著提高了13。0AP。与现有技术相比，我们改进了 ShapeMask [20] 和 ShapeProp[40]，并在使用更简单的架构的同时实现了与CPMask [9]竞争的结果。2. 相关工作实例分割旨在分割场景中的每个对象基于检测的方法[6，13，22，26]，其将掩模预测网络添加到现有检测模型，代表了当前的技术水平。Mask R-CNN [13]扩展了两阶段检测网络Faster R-CNN [32]是第一个引入多任务损失结合检测和掩码梯度的网络。Mask R-CNN是一个强大的基线，由于其可扩展性，通常用作元架构。基于轮廓的方法[27，30，38]通过细化顶点序列以匹配对象形状来分割对象自下而上方法分组像素以生成实例掩码[2，25，28]。由于这些方法需要具有逐像素监督的大型数据集，因此它们不适合部分监督任务。部分监督实例分割。在部分监督的实例分割中，类的子集用框和掩码监督进行强注释，而其余类仅携带弱框标签。我们的目标是使用丰富的框标签结合有限的掩码来预测所有类的实例掩码。Hu等人的开创性方法。[16]使用学习的权重传递函数来增强Mask R-CNN 从框到掩码权重的映射，引入捕获所有类的表示的类感知掩码头部。Kuo等人引入ShapeMask [20]，它通过将k-means应用于可用的地面真实掩模来创建形状先验的知识库框嵌入产生k均值质心的线性组合，生成进一步细化为实例掩码的形状先验。ShapeMask仅基于有限的掩模标签的先验。相反，我们使用所有可用类并使用掩码标签进行细化。2826箱头Reg. 偏移7x74x转换x256+ BN7x7x1024间隙1024Cls. logitsRPN&RoIAlignBI面罩头骨干FPN14x14x256+14x147x转换x256+ BN14x14x256上转换1x1转换28x28X1输入图像类激活图图2.整体架构。盒头生成我们的OMP，该OMP被添加到进入掩模头的特征以创建对象感知特征F对象。遮罩头然后使用F对象来预测实例遮罩。ShapeProp [40]在边界框上使用像素级多实例学习（MIL）来创建显着性热图，该热图被进一步处理，从而产生更具表现力的形状激活图。ShapeProp和OPMask都利用框标签来生成用于掩模预测的先验。Shape- Prop引入了两个独立的模块来生成和细化它们的先验。另一方面，我们利用了这样一个事实，即盒子头隐式地学习前景的概念。因此，我们设计我们的模型，以利用盒头已经提供的功能。最后，Fan等人。[9]了解实例遮罩之间的基本形状和外观共性，这些共性应泛化到弱类。的形状共性，ties学习的边界预测头，而外观的共性是由一个基于注意力的亲和力解析模块。除了学习共性，援助泛化，我们还确定，一个主要的问题在于模糊的ROI和面具头有困难，学习前景的一般概念为了解决这个问题，我们利用我们的OMP，它突出了前景的ROI来解决模糊的星座，并帮助generalize弱类。弱监督实例分割方法仅依赖于弱标签，例如边界框或图像级别标签[1，3，10，15，19，21，41，42]。模型使用图像级标签[1，10，21，41，42]大多使用基于CAM图像范围定位信息来辅助实例掩码预测。Zhou等[41]使用类响应图的峰值Ge等人[10]使用共享相同主干的多任务网络头来细化对象注意力图。Laradji等人[21]和Ahnet al. [1]创建并优化伪掩码，稍后用于训练掩码R-CNN [13]。只有图像级标签可用的设置需要引入复杂的重新细化模块相反，在我们的设置中，我们依赖于模型中已经可用的遮罩梯度来改进我们的OMP。较少的工作已经完成使用框监督[15，19]。Hsu等人[15]采用Mask R-CNN类架构，其中掩模头使用MIL物镜。 Khoreva等人[19]使用GrabCut [33]创建伪地面实况来训练单独的分割模型。代替使用框像素来预测掩模，我们使用CAM来提取框特征中的前期信息以创建我们的OMP。3. 方法在部分监督的实例分割中，具有类不可知掩码头的常规掩码R-CNN无法预测某些弱类的可靠实例掩码，如图1和图4所示。为了解决这个问题，我们提出了OPMask，它引入了一个对象掩码先验（OMP），它可以捕获数据集中所有类的前景线索（即广义前景）。OPMask遵循具有ResNet [14]主干和FPN [23]的Mask R-CNN [13]该模型如图2所示。3.1. 对象掩码先验（OMP）OMP用作捕获前景的一般概念的归纳偏差，以提高对弱类的泛化。在部分监督学习设置中，预测一般前景对于两个主要原因是不平凡的：（1）对于类的子集，像素级掩模标签缺失，以及（2）在许多情况下，RoI包含多个和重叠的实例，使得RoI中的前景模糊。OMP通过在每个RoI中突出显示正确的前景来解决这些问题，这有助于掩码头学习前景的更一般的概念，解决模糊的RoI，并将其推广到弱类。2827∈×个×个×个×个∈我们通过提取由盒头中的盒特征捕获的前景信息来创建这样的先验。我们使用的事实，即盒分类头学习表示的主要类别（即前景）中的所有类。为了揭示这一前景，我们使用类激活图（CAM）[39]，它提供了粗糙的定位图，强调最有区别的重新定位。3.2. 第1111章诱导Prior在生成OMP之后，我们将其与RoIAlign_F_fpn之后的FPN特征聚合，以如下创建对象感知特征F_object：F对象=Ffpn+M凸轮，（2）模型用于分类的区域因此，鉴于正确的分类，CAM将突出显示其中Mcam，kRH，W 添加到其D、H、W对应于主要RoI类别的前景区域。为了实现CAM计算，我们使用具有四个卷积层的盒头，其中全局平均池化（GAP）应用于最后一个卷积特征图。生成的向量由线性层处理，用于框分类和回归（参见图2）。我们用函数fWcls计算CAM，该函数是用分类权重Wcls参数化的11卷积，如下所示：匹配RoI Ffpn，kR. 在添加之前，我们使用双线性插值来将M_cam调整到空间维度。Ffpn.该添加突出了在OMP的响应高的空间位置处的Ffpn这为掩码头部提供了由掩码头部中的后续卷积层嵌入的显式前景信息。这激励掩码头学习数据集中所有类的前景的一般概念Mcam=fWCLS（F框），（1）注意，该方法不同于[17]和[31]中提出的框和掩模特征之间的特征融合。其中，F框是框头的最后一个特征图。间隙这允许用单个操作有效地计算所有CAM，同时保持它们可微。取决于是训练时间还是推断时间，我们使用由框头预测的地面实况标签或类来从M_cam选择正确的CAM切片。我们可以预期CAM在类别之间是稳定的，因为部分监督的实例分割任务假设所有类别都有丰富的盒子标签。正确类别的CAM被添加到相应的掩模特征，如将在下一节中描述除了为面罩头提供有利的前地线索之外，这还允许面罩梯度反向传播通过盒头。CAM的一个众所周知的缺点是它们不覆盖对象的全部范围，而仅覆盖最显著特征的最小区域。其他工作使用昂贵的采样或细化步骤来增加CAM的空间范围[34，41，42]。为了确保简单快速的架构而无需单独的CAM细化步骤，我们使用有效的原始CAM定义[39]并利用掩模梯度为盒头中的特征这导致CAM的空间范围增加，从而允许它们捕获更精细的细节。因此，接收掩模梯度的CAM产生我们的OMP。事实上，OMP源自框分类任务，其被直接优化以分类RoI中的主要实例，这为OMP提供了强有力的前期线索。这与之前的工作[20，40]形成直接对比，这些工作为先前的创建和细化引入了单独的模块。相反，我们的OMP是注定要提供vide面具头与前景的一般概念，使其能够解决模糊的ROI，也更好地generalize弱类。虽然特征是对图像及其内容的丰富描述，但我们的OMP是一个简单的一层对象/背景编码，有助于面罩头聚焦在正确的对象上。在加法之后，通过由七个3 × 3卷积层组成的函数f掩码处理F对象，然后一个转置卷积层使特征spa加倍Tal分辨率和一个11卷积执行掩模预测，如下：M掩码=f掩码（F对象），（3）其中M_mask是在应用逐像素S形之后的掩模预测。我们使用七个卷积层来实现足够大的感受野，使得fmask在整个输入特征图上操作。在每个3 3卷积之后应用批归一化[18]，以利用其随机特性来提高泛化能力。最后，使用可用的掩模标签Mgt将逐像素二进制交叉熵损失应用于M掩模，如下所示：L掩码=BCE（M掩码，Mgt）。（四）4. 实验在第4.1节中，首先介绍了数据集和实验装置。然后，在第4.2节中，我们提供证据表明，在训练期间出现在RoI的背景中的弱类的实例被学习为背景，并且传统的类不可知掩码头难以在模糊的RoI中考虑正确的前景。之后，4.3节展示了OPMask泛化到弱类的能力。最后，在第4.4节中，我们将OMP与常规CAM进行了比较，显示了掩模梯度更新框特征的积极影响。2828转转转转4.1. 实验装置我们在COCO数据集上进行实验[24]。为了实现部分监督学习设置，我们将80个COCO事物类的掩码标签分成两个子集。一个子集包括用于训练的强注释类，另一个子集包括用于评估的弱注释类，反之亦然。培训期间，所有课程均提供了包装盒标签。为了-60504030马马桶20Mask R-CNNr2：0.109，p值：0.003狗OPMask与相关工作相比，我们主要集中在将COCO数据集划分为Pascal voc的20个类之间披萨10停止标志泰迪熊笔记本电脑数据集[8]（COCO内部），其余60个唯一烤箱0键盘猫人COCO课程。在下文中，非VOC表示面罩头部在非VOC类别上被训练，并且0.00 0.02 0.04 0.06平均IoU0.00 0.02 0.04 0.06平均IoU对voc类进行评估，反之亦然，同样适用于voc非挥发性有机化合物我们使用SGD和Momen-tum，初始学习率为0。02，其在前1000次迭代中被线性预热[11]。批处理大小设置为16，并且通过将梯度裁剪为值1来稳定梯度。0的情况。ResNet-50和ResNet-101 [14]与FPN [23]用作主干。落实基于PyTorch [29]和Detectron2 [37]。基线。我们使用带有类不可知掩码头的Mask R-CNN。为了进行公平的比较，我们使用与OPMask相同的盒头，并且还将批处理范数添加到其掩码头。在下文中，我们将此基线称为4.2. 在ROI学习类作为背景。类别不可知的掩模头面临着对前景或背景之间的RoI像素进行分类的任务，其中对应于监督类别的像素被认为是前景，而所有其他像素被认为是背景。COCO数据集包含具有杂乱对象的复杂场景，这导致ROI通常包含多于一个实例。背景像素可以是可用的监督类的一部分，属于我们想要概括的弱类，或者不是数据集中任何类的一部分。在第二种情况下，我们面临的困境是，模型主动学习将与弱类对应的特征分类这显然与部分监督学习任务的泛化目标相这种现象特别影响频繁地与其他类交互的类，并且因此更多地出现在掩码监督的RoI的背景为了研究这一点，我们计算弱类（在voc非voc和非voc voc中）的类重叠和掩码AP之间的相关性为了近似类之间的重叠，我们计算COCO数据集中所有地面实况边界框的IoU。然后，我们计算回归每个类的平均IoU与其掩码AP之间的关系两个回归模型如图3所示。第一个（左）是用我们的Mask R-CNN基线计算的，显示平均值之间的显著负相关性。图3.显示所有COCO类的框IoU和掩码AP我们比较了我们的Mask R-CNN基线（左）和OPMask（右）的掩码AP得分突出显示具有最大相对改善的跨所有类的IoU和掩码AP（p=. 003<. 01）。这为我们的假设提供了证据，即在ROI背景中出现的弱类在训练期间作为背景被积极地学习使用OPMask计算的第二个回归（右）仅显示弱的负相关性，其强度不足以达到显著性（p= 0.001）。. 189块01）。与此同时，我们看到具有高平均IoU值的类有显著的改进，这些类是更可能出现在其它类ROI的背景中（例如，人数：0人。99比22 72 AP，目录号：3。77比6063AP）。这表明OMP能够为面罩头部提供前景的一般概念，这抵消了将这些弱类学习为背景。解决不明确的ROI。多个和可能重叠的实例的另一个问题是主实例（即前景）可能是模糊的。我们确定，传统的面具头有困难的定位前景，在这些模糊的星座。全COCO non-voc→ voc voc→ non-voc模型Amb.- 环境Amb.- 环境Amb.¬Amb我们的Mask R-CNN15.936.210.827.46.519.7OPMask20.538.019.537.217.132.2表1. OPMask与我们的Mask R-CNN基线在模糊和非模糊的情况下。OPMask在所有比较中显示出更好的性能，在部分监督设置中模糊星座的改进最大。为了量化模糊实例对模型性能的影响，我们将COCO验证集分为模糊实例和非模糊实例。由于适当地量化模糊性是不平凡的，我们避免了复杂的启发式，并使用盒标签的IoU作为一个简单的代理。这允许捕捉一般趋势，同时强调简单性和可重复性。我们考虑具有盒标签IoU彡0。5、至少有一种情况下屏蔽AP猫停车标志狗厕所比萨饼笔记本马泰迪熊键盘烤箱人r2：0.022，p值：0.1892829转转转→→转×× ×→→图像模糊。表1比较了OPMask与我们的Mask R-CNN基线（两个ResNet-50主干）在模糊和非模糊实例中，在完全和部分监督的COCO分裂中训练。结果表明，OPMask在所有比较中的表现都优于我们的Mask R-CNN基线，在模糊星座中的改进最大。特别是在部分监督设置中，我们的Mask R-CNN基线明显落后于OPMask。这表明，传统的类不可知掩码头部具有相当大的问题，具有模糊的实例，特别是当它必须推广到弱类时。同时，由于OMP突出显示ROI中的正确前景，OPMask设法显著减轻掩模AP的这种下降这些结果特别反映了我们的OMP的精度，因为即使在这种模糊的星座中，它也能够此外，图1提供了OPMask和我们的Mask R-CNN基线处理模糊实例之间的定性比较。结果呈现出模糊的ROI，其中我们的Mask R-CNN基线错误地将背景实例预测为前景。另一方面，OMP能够突出显示RoI中的前台实例，从而允许OPMask正确地所有的例子都来自于在voc、非voc或非voc设置中训练的模型。有趣的是，第一行的结果是在voc非voc设置中训练的模型实现的，其中person是一个监督类，而umbrella是一个弱类。虽然Mask R-CNN不正确地分割人，但OPMask将伞识别这进一步强调了定量结果，其中我们的掩模R-CNN基线对于部分监督设置中的模糊实例表现得特别差。4.3. 弱注释类Pascal voc与非VOC类。我们提出了定量的结果为voc与。表中的非voc拆分2.结果表明，在所有情况下，OPMask都比我们的MaskR-CNN基线有了很大的改进。例如，使用ResNet-50主干，显著增加10。1非VOC中的APVOC和13. VOC中的0AP非VOC是办妥了一批 OPMask的性能也优于之前的ap-在所有情况下，都接近ShapeProp [40]和ShapeMask[20]。值得注意的是，即使使用ResNet-50，我们也实现了比配备更强ResNet-101的ShapeMask和Shape- Prop更好或有竞争力的性能当与当前最先进的CPMask [9]相比时，我们使用ResNet-50骨干实现了实质性的改进（例如3.第三章。1AP）。对于ResNet-50主干CPMask仅提供voc→非voc设置中的结果我们输入Mask R-CNN地面实况OMP预测图4. Mask R-CNN基线产生穿孔、不完整或缺失的掩码。OMP驱动的OPMask能够准确地分割弱类的每个实例。而且在VOC中的性能稍差非VOC（例如，0的情况。8AP下降）。然而，应该注意的是，与我们不同的是，CPMask在配备ResNet-101主干时使用多尺度训练，这可以大幅提高模型的整体性能。事实上，我们在ResNet-50上没有多尺度训练的情况下显著优于CPMask，但仅在ResNet-101上实现了竞争性性能，这证明了多尺度训练可能带来的改进幅度。此外，CPMask采用功能更强大的FCOS [35]进行框检测，这比Faster R-CNN（+5.3 AP）产生了更好的检测性能，对实例分割性能产生了积极我们还强调了OPMASK的计算效率。在推理时，我们的方法（.12 s/img）比Shape- Mask（29.1 s/img）和ShapeProp（.22 s/img）更有效，并且仅比我们的Mask R-CNN基线（.08 s/img）略重。CPMask的代码还不可用。然而，CPMask使用额外的边界解析头，需要额外的边界标签和基于自注意力的亲和度解析模块，产生昂贵的142142256特征图。此外，两个模块都引入了必须计算梯度的因此，在计算开销方面，OPMask出现作为一个更简单的ap-proach比我们的相关工作。定性结果。在图1和图4中，我们提供了关于OMP如何引导掩码预测并改进对弱类的泛化的定性见解。每个示例都显示了voc中的一个弱非VOC或非VOCvoc设置。在OMP和OPMask的掩模预测之后，我们的掩模R-具有ResNet-101主干的模型实现了竞争力在非VOC→ VOC中的性能（例如，增加0。3AP），2所有推理时间均使用Nvidia Tesla V100获得。2830转转≥APnon-voc → voc：voc测试APAPvoc→ non-voc：对non-vocAP进行表2.将OPMask与COCO上的部分监督实例分割设置中的最新技术进行比较。OPMask超越了我们的Mask R-CNN基线以及我们的相关工作MaskX R-CNN，ShapeMask和ShapeProp。此外，OPMask在ResNet-50上的表现优于CPMask，并且在ResNet-101上仍然具有竞争力。non-voc→ voc表示面罩头部在non-voc类别上被训练并且在voc类别上被评估，反之亦然，这同样适用于voc→non-voc。CNN基线预测。实验结果表明，OMP算法能够正确地识别和突出ROI中的主要实例，同时覆盖大部分对象此外，我们认识到，我们的粗先验足以使掩码头部能够推广到细化的掩码。这强调了我们的假设，即为类不可知掩码头部提供跨所有类的前景的一般概念是特别重要的。最后，图5呈现了在voc非voc设置中产生的多个COCO图像，其中掩模预测被夸大。结果表明，OPMASK本节中的所有示例均使用配备ResNet-101的模型实现强监督类与弱监督类的比率。为了提供一个更好的概述OPMask 要创建40个类拆分，我们从20个Pascal voc [8]类开始，随机从非职业教育分类中再增加20个班级。图6显示，OPMask在表现出稳定性能的同时，始终优于我们的Mask R-CNN基线跨越所有阶级的分裂即使在完全监督设置（ Fullcoco）中，Mask R-CNN仍然与其他最先进的实例分割方法竞争， OPMask 也实现了更好的性能（ +1 。6AP）。我们将这些改进归功于以下事实：即使在完全监督的情况下，OMP也帮助类不可知掩码头重新解决模糊的ROI，这反过来改进了OPMask预测。这表明，我们的OMP仍然是有益的，当强注释可用于所有类。4.4. 优化对象蒙版先验一个简单的CAM作为OMP可能会做一个合理的工作，虽然更好的先验预计会导致更好的分段。站结果为了改进我们的OMP，我们让掩码梯度反向传播通过框头，这用掩码信息增强了框特征。这通过增加它们的空间范围并允许OMP覆盖对象的更大部分来增强CAM。所得到的细化进一步将最终掩模AP提高1。非voc voc，ResNet-50主干，1为了研究先验的改进，我们在COCO验证集上比较了OMP与香草CAM的掩模AP。我们比较了Faster R-CNN和Mask R-CNN，它们具有与OPMask相同的盒头。在表3中，示出了voc与voc的AP和AP 50结果。提供了非VOC类拆分。由于Faster R-CNN不接收任何掩码梯度，因此它仅在所有类上进行训练和评估。测试所有测试对voc测试对非voc测试模型列车组APAP50APAP50APAP50Faster R-CNN所有0.21.00.32.50.10.6Mask R-CNN所有0.21.30.32.30.11.0OPMask所有8.834.19.940.48.432.0Mask R-CNNVOC0.31.90.64.00.21.0OPMaskVOC5.021.89.938.53.316.3Mask R-CNN非有机化合物0.21.50.42.80.21.0OPMask非有机化合物8.031.57.032.28.331.2表3.定量比较我们的OMP与更快的R-CNN和Mask R-CNN的CAM。结果表明，我们的OMP是能够覆盖更大的部分的对象比传统的CAM。结果表明，OMP明显优于Faster R-CNN和Mask R-CNN的CAM这强调了掩模梯度对箱头特征的积极影响，并因此对OMP的积极影响。由Faster R-CNN和Mask R-CNN生成的CAM的低AP值是由它们通常不超过逐像素IoU阈值（即，0的情况。5），并且大多数被认为是消极的。Mask R-CNN的主干特征用掩码梯度增强，与Faster R-CNN相比没有显着改进这个糖-骨干方法AP50AP75APSAPMLAP50AP75APSAPMLMask R-CNN [13]23.942.923.511.624.333.719.236.418.411.523.324.4我们的Mask R-CNN26.446.426.714.226.436.518.935.518.412.422.822.9R-50-FPNMaskX R-CNN [16]28.952.228.612.129.040.623.743.123.512.427.632.9Mask R-CNN w/ ShapeProp [40]34.459.635.213.532.948.630.451.231.814.334.244.7CPMask [9]------28.846.130.612.433.143.4OPMask36.562.537.417.334.849.831.952.233.716.335.246.5Mask R-CNN [13]24.743.524.911.425.735.118.534.818.111.323.421.7我们的Mask R-CNN27.748.028.213.628.638.021.039.220.513.526.423.9MaskX R-CNN [16]29.552.429.713.430.241.023.842.923.512.728.133.5R-101-FPN[20]第二十话33.356.934.317.138.145.430.249.331.516.138.228.4Mask R-CNN w/ ShapeProp [40]35.560.536.715.633.850.331.952.133.714.235.946.5CPMask [9]36.860.538.617.637.151.534.053.736.518.538.947.4OPMask37.162.538.416.936.050.533.253.535.217.237.146.92831转图5. COCO使用voc和非voc分离进行培训的定性结果。这显示了OPMask能够跨不同场景以及各种对象大小和外观预测弱类对象的精确实例遮罩。38322620全可可（80）无VOC（60）voc +20 rand voc（20）图6. OPMask在不同数量的监督类上的性能。它在所有类拆分中（包括完全监督设置）都比我们的Mask R-CNN基线有了显着改进。gests的CAM细化，掩模梯度应影响的功能，直接用于计算CAM激活。最后，图7展示了在多个COCO图像上的CAM的定性改进。5. 结论我们提出了OPMask，一种新的方法，部分超监督的实例分割。 OPMask 引入了对象掩码先验（OMP），其帮助其类不可知掩码头学习前景的一般概念，解决模糊的ROI并推广到弱类。我们的研究指出了两个主要问题阻碍类不可知的面具头推广到弱类。首先，出现在掩码su的背景中的弱类的实例是图7.在COCO图像上将我们的OMP与来自更快的R-CNN和Mask R-CNN的我们看到我们的OMP能够覆盖比常规CAM更大的对象部分。在训练期间，作为模型的背景来学习经检查的RoI。第二，在包含多个和可能重叠的实例的模糊ROI中，掩模头部难以考虑正确的前景。我们证明，这两个问题可以大大缓解与我们的OMP，突出了所有类的前景，利用信息从箱头。最后，我们证明了OPMask比我们的Mask R-CNN基线有了显着的改进，并在最先进的水平上实现了有竞争力的性能，同时提供了一个更简单的架构，计算开销更少。37.335.736.534.6Mask R-CNNOPMask31.918.926.427.5AP2832引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月[2] Anurag Arnab和Philip HS Torr。具有动态实例化网络的逐像素实例分段。在IEEE计算机视觉和模式识别会议的论文集，第441-450页[3] Aditya Arun角V. Jawahar和M.帕万·库马尔通过学习标注一致实例的弱监督实例分割。在ECCV，2020年。[4] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在Max Welling，Nicu Sebe，JiriMatas和Bas- tian Leibe，编辑，Computer Vision-第14届欧洲会议，ECCV 2016，Proceedings，Lecture Notes inComputer Science（包括子系列Lecture Notes in ArtificialIntelligence和Lecture Notes in Bioinformatics），第549施普林格出版社.[5] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.Blendmask：自上而下与自下而上相结合，用于实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8573-8581页[6] Tianheng Cheng，Xinggang Wang，Lichao Huang，andWenyu Liu.边界保持掩模r-cnn。 In An- drea Vedaldi，Horst Bischof，Thomas Brox，and Jan-Michael Frahm，editors，Computer Vision施普林格国际出版社.[7] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在2016年IEEE计算机视觉和模式识别会议（CVPR），第3213-3223页[8] 放大图片作者： Mark Everingham ， Luc Gool ，Christopher K. Williams ， John Winn ， and AndrewZisserman. pascal视觉对象类（voc）的挑战。国际计算机Vision，88（2）：303 -338，June 2010.[9] Qi Fan，Lei Ke，Wenjie Pei，Chi-Keung Tang，and Yu-Wing Tai.用于部分监督实例分割的跨形状和外观的共性解析网络。在ECCV，2020年。[10] Weifeng Ge，Sheng Guo，Weilin Huang，and MatthewR Scott.标签-笔：用于弱监督实例分割的顺序标签传播和增强网络。在IEEE计算机视觉国际会议论文集，第3345-3354页[11] PriyaGo yal ， PiotrDolla´r ， RossGirshick ， PieterNoord-huis ， Lukasz Wesolowski ， Aapo Kyrola ， AndrewTulloch，Yangqing Jia，and Kaiming He.准确、大的小批量sgd：1小时内训练imagenet。arXiv预印本arXiv：1706.02677，2017。[12] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的数据集。在IEEE计算机视觉和模式识别会议上，第5356-5364页，2019年[13] K. 他，G. Gk i oxari，P. Doll a'r和R. 娘娘腔。面具r-cnn。2017年IEEE国际计算机视觉会议（ICCV），第2980-2988页[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] 许正春、许光瑞、蔡中琪、林燕玉、庄永玉弱监督实例分割使用边界框紧密性先验。 In H. Wal-lach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和 R.Garnett ，编辑， Advances in Neural InformationProcessing Systems，第32卷，第6586-6597页Curran As-Sociates，Inc. 2019年。[16] RonghangHu，PiotrDolla'r，KaimingHe，TrevorDarrell，andRoss Girshick.学会把每一件事都分割开来在IEEE计算机视觉和模式识别会议论文集，第4233-4241页，2018年[17] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang ， and Xinggang Wang. 面具得分 r-cnn 。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6

下载后可阅读完整内容，剩余1页未读，立即下载