KINS数据集：非模态实例分割与遮挡推理

4 浏览量更新于2023-10-20 收藏 12.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

30140使用KINS数据集的非模态实例分割0陆琦1,2 蒋力1,2 刘舒2 沈晓勇2 贾佳亚1,201 香港中文大学 2 腾讯优图实验室0{luqi, lijiang}@cse.cuhk.edu.hk {shawnshuliu, dylanshen, jiayajia}@tencent.com0摘要0非模态实例分割是实例分割的一个新方向，旨在分割每个对象实例，包括其不可见的、被遮挡的部分，以模仿人类的能力。这个任务需要推理对象的复杂结构。尽管这个任务非常重要和具有未来性，但由于正确和一致地标记不可见部分的困难，缺乏大规模和详细的注释数据，这为探索视觉识别的前沿创造了巨大的障碍。在本文中，我们为8个类别的KITTI增加了更多的实例像素级注释，我们称之为KITTIINStance数据集（KINS）。我们提出了一种通过新的多任务框架和多级编码（MLC）来推理不可见部分的网络结构，该框架将各种识别层次的信息结合起来。大量实验证明我们的MLC有效地改进了非模态和非模态分割。KINS数据集和我们提出的方法已经公开提供。01. 引言0人类具有感知对象完整物理结构的天然能力，即使在部分遮挡下[24，21]。这种能力被称为非模态感知，它使我们能够从可见线索和不可察觉的信号中获取完整的信息。实际上，计算机视觉中的非模态感知在许多场景中都具有巨大的好处。典型的例子包括使自动驾驶汽车能够推断视野范围内车辆和行人的整体形状，即使其中的一部分是不可见的，从而大大降低了碰撞的风险。因此，它使复杂交通或生活环境中的移动决策更加容易。我们注意到，大多数当前的自动驾驶汽车和机器人仍然没有这种能力。0挑战尽管非模态感知是一种常见的人类能力，但最近的视觉识别任务，包括目标检测[16，17，36，20，8，28]，边缘检测[1，11，38]，语义分割[32，41，39]和实例分割[19，31]，只关注实例的可见部分。非模态分割的数量非常有限。0图1.KINS数据集中的图像密集注释了对象段并包含相对遮挡顺序。（a）示例图像，（b）实例的非模态像素级注释，（c）实例的相对遮挡顺序。颜色越深表示聚类中的实例越远。0由于数据准备和网络设计的困难，目前的非模态分割方法[26，43，14]在数据准备和网络设计方面存在困难。0尽管社区在图像收集方面取得了巨大成就，但现有的大规模数据集[10，12，6，29，23]用于视觉理解的注释没有指示遮挡区域，因此无法用于非模态感知。ImageNet[10]和OpenImages[23]主要用于图像或框理解中的分类和检测。PASCAL VOC[12]，COCO [29]和Cityscapes[6]更加关注像素级分割，可以进一步分类为语义分割和实例分割。30150实例分割。这些数据集极大地促进了视觉识别技术的发展。然而，它们只考虑了每个实例的可见部分。非模态实例分割数据准备的关键挑战是遮挡部分的注释必须遵循地面真值，而后者有时可能不可用。0我们付出了巨大的努力来建立新的KITTI[15]实例分割数据集（KINS）。使用KITTI图像，KINS具有许多额外的注释，包括复杂的非模态实例分割掩码和遵循严格的像素级实例标记规则的相对遮挡顺序。每个图像由三名经验丰富的注释员标记。每个实例的最终注释通过众包确定以处理模糊性。未见部分的最终标记数据保证在所有注释员之间保持一致。到目前为止，KINS是最大的非模态实例分割数据集。非模态实例分割与其他任务（如场景流估计）密切相关，这意味着KINS还为其他视觉任务提供了额外的信息。借助这个新的大规模数据集，我们提出了有效的多级编码（MLC）来增强猜测现有实例分割方法的完整像素级分割掩码的非模态感知能力[31，19]。MLC由提取和组合两部分组成。提取部分主要用于获取实例的抽象全局表示；组合部分将抽象语义信息和像素级特定特征整合在一起，生成最终的非模态（或可见部分的非模态）掩码。引入了一个用于区分遮挡区域的新分支，使网络对捕捉非模态概念更加敏感。对大规模数据集的广泛实验验证了我们的MLC相对于不同基线方法在非模态和非模态实例分割方面的显著改进。02. 相关工作0目标识别数据集大多数大规模视觉识别数据集[10, 12, 6, 29,23, 42]用于识别图像中的可见对象。ImageNet[10]和OpenImages[23]用于分类和检测，而不考虑对象的精确掩膜。同时，分割数据集用于探索每个对象在像素级别的语义掩膜。PascalVOC [12]，COCO [29]和ADE20K[42]收集了大量常见场景中的图像。KITTI[15]和Cityscapes[6]用于特定的街道场景。尽管在计算机视觉中广泛使用，但这些数据集不包含对象的不可见和遮挡部分的标注，因此不能用于全模理解。0Li和Malik[26]在构建全模数据集方面处于先驱地位。由于训练数据直接使用了语义边界数据集（SBD）[18]的实例分割注释，因此不可避免地存在噪声和异常值。在[43]中，Zhu等人对原始COCO图像[29]的部分进行了注释，并提供了COCO全模数据集，其中包含5000张图像。凭经验，我们发现由于实例的种类繁多，网络很难在这个小规模数据集上收敛到最优点，这促使我们建立了KITTI实例分割数据集（KINS），该数据集具有准确的注释和大规模的图像数据。我们在实验证明，KINS对于各种先进的视觉理解任务非常有益且具有普适性。0Amodal Instance Segmentation传统的实例分割只关注每个实例的可见部分。流行的框架主要是基于提议的，利用最先进的检测模型（例如 R-CNN[16]，Fast R-CNN [17]，Faster R-CNN [36]，R-FCN[8]，FPN[28]等）来分类掩膜区域或者重新调整预测的边界框以获得掩膜。MNC[7]是第一个端到端的实例分割网络，级联检测、分割和分类。FCIS[27]使用位置敏感的内部/外部得分图来编码前景/背景分割信息。Mask R-CNN[19]在FPN生成的边界框预测中添加了一个掩膜头，从而获得了精细的掩膜结果，并展示了出色的性能。PANet[31]通过自底向上的路径增强、自适应特征池化和全连接融合来增强信息流，进一步改进了MaskR-CNN。另一种流派主要是基于分割的[2, 30,22]，具有两阶段的处理：分割和聚类。它们学习特殊设计的转换或实例边界。然后从预测的转换中解码出实例掩膜。关于全模实例分割的研究开始取得进展。Li和Malik[26]提出了全模实例分割的第一种方法。他们通过迭代地扩大对象的模态边界框并重新计算掩膜来扩展他们的实例分割方法[25]。为了在COCO全模数据集上进行评估，Zhu等人[43]使用AmodalMask作为基线，该基线是在全模真值上训练的Sharp-Mask[34]。受多任务基于ROI的网络[37]的启发，在[14]中，实例在全模和非全模设置下都进行了分割。它在MaskR-CNN的基础上添加了一个独立的分割分支，用于全模掩膜预测。几个任务鼓励模型在各种应用中学习输入的稳健表示，例如面部标记检测[40]，自然语言处理[5]和自动驾驶中的转向预测[4]。我们的设计还提取高级语义信息，以指导分割分支更好地推断出被遮挡的部分。3. KINS: Amodal Instance Dataset30160图2. 用于全模分割的注释工具的屏幕截图。0我们从KITTI中注释了总共14,991张图像，形成了一个大规模的全模实例数据集，即KINS。该数据集分为两部分，其中7,474张图像用于训练，另外7,517张用于测试。所有图像都由三名熟练的注释员进行了密集的实例注释。注释包括全模实例掩膜、语义标签和相对遮挡顺序，从中可以轻松推断出非全模实例掩膜。在本节中，我们描述了我们的KINS数据集，并使用各种信息统计对其进行了分析。03.1. 图像注释0为了获得高质量和一致的注释，我们严格遵循三个实例标记规则：（1）只标注特定语义类别中的对象；（2）标注图像中实例的相对遮挡顺序；（3）对每个实例，包括遮挡部分，在像素级别进行注释。这些规则使得标注者在两个步骤中标注实例。首先，对于每个图像，一位专家标注者在框级别上定位特定类别的实例，并指示它们的相对遮挡顺序。然后，三位标注者根据这些框级实例为每个图像标注相应的无模态掩模。这个过程使得标注者容易考虑实例关系和推断场景几何。如图2所示，注释工具也很好地满足了标记要求。具体过程如下。0（1）语义标签我们的实例属于特定的类别。我们的KINS数据集中的语义标签组织成一个2层次的层次结构，定义了一般类别和子类别之间的包含关系。鉴于KITTI中的所有图像都是街景，选择了8个代表性的类别作为第二层注释。KINS中的一般类别包括“人”和“车辆”。为了与KITTI检测数据集保持一致，将一般类别“人”进一步细分为“行人”、“骑车人”和“坐着的人”，而将一般类别“车辆”分为“汽车”、“有轨电车”、“卡车”、“货车”和“其他”。这里的“其他”指的是即使是经验丰富的标注者也无法确定类别的模糊车辆。0（2）遮挡顺序对于每个图像，一位专家标注者被要求标注带有边界框的实例并按照相对遮挡顺序对它们进行排序。对于对象之间的顺序，图像中的实例首先被分成几个不相连的簇，每个簇包含几个相连的实例，以便进行简单的遮挡检测。相对遮挡顺序基于每个实例到相机的距离。此外，如图1（c）所示，一个簇中的实例按照从近到远的顺序进行标注，其中非重叠实例的顺序标记为0。对于簇中的遮挡实例，顺序从1开始，每次遮挡一次增加1。对于偶尔出现的复杂遮挡情况（例如图3），我们还施加了另一个重要的准则，即具有相同相对遮挡顺序的实例不应该互相遮挡。0（3）密集注释然后，三个标注者在相应的边界框中密集标注每个实例。在这一步中，特别关注的是三个标注者独立地确定遮挡的不可见部分。对于遮挡像素的稍微不同的预测，我们的最终注释是通过对实例掩模进行多数投票来决定的。对于没有达成共识的部分，例如图3所示的不可见汽车车轮的位置，需要进行更多的注释迭代，直到对车轮位置达到高度的自信。如果实例被遮挡，还会绘制一个不可见的掩模。03.2. 数据集统计0在我们的KINS数据集中，图像是根据上述严格的标准进行注释的。平均每个图像有12.53个标记实例，每个对象多边形由33.70个点组成。大约8.3%的图像像素被至少一个对象多边形覆盖。所有区域中，53.6%部分遮挡，平均遮挡比例为31.7%。标注整个图像需要大约8分钟，每个单独实例平均需要0.38分钟。30%的时间用于框级定位和遮挡排序，其余时间用于像素级注释。时间成本根据图像和对象结构复杂性而变化。我们在几个主要方面分析了详细属性。0语义标签表1显示了实例类别的分布情况。'车辆'主要包括汽车，而'有轨电车'和'卡车'只占实例总数的1%。'人'的出现频率相对较低，占所有实例的14.43%。其中，10.56%是'行人'，2.69%是'骑车人'。总体上，分布遵循Zipf定律，与Cityscapes数据集[ 6 ]相同。0形状复杂度直观上，与场景几何和遮挡模式无关，amodal分割应该具有相对简单的形状，而inmodal分割[ 43]可能以任何方式被遮挡。我们计算形状01200112001234000000012 301101111inmodalamodalinmodalamodalBSDS-A [43].718.834.616.643COCO-A [43].746.856.658.685KINS.709.830.610.63930170图3. 我们的amodal/inmodal分割示例。每个amodal分割中的数字表示其相对遮挡顺序。inmodal分割是通过amodal分割和相对遮挡顺序得到的。0类别人车辆0子类行人骑车人坐着的人车辆货车有轨电车卡车其他0数量 20134 5120 2250 129164 11306 2074 1756 188220比例 10.56% 2.69% 1.18% 67.76% 5.93% 1.09% 0.92% 9.87%0表1. KINS的类别分布。0简单度凸度0表2.BSDS、COCO和KINS上amodal和inmodal分割的形状统计比较。0凸度和简单度遵循[ 43 ]中的定义0凸度(S) = 面积(S)0面0简单度(S) =04 π � 面积 ( S ) 周长(S) . (1)0两个度量在形状为圆时达到最大值1.0。因此，简单的分割在凸度-简单度平均值上统计上应该较大。表2显示了KINS、BSDS和COCO三个amodal数据集的形状简单度和凸度的比较。我们的KINS数据集的值略小于BSDS和COCO的值，因为KINS包含了更复杂的实例，如'骑车人'和'坐着的人'。我们还展示了KINS的inmodal和amodal标注之间的比较。amodal数据具有更强的凸度和简单度，验证了amodal分割通常具有更紧凑的形状。0遮挡级别遮挡级别定义为被遮挡区域的比例。图4(a)说明了遮挡级别在KINS数据集中几乎均匀分布。与COCOAmodal数据集相比，KINS数据集中存在较多的重度遮挡。0在KINS中，重度遮挡更为常见。图3显示了不同遮挡级别下的遮挡示例。当遮挡级别较高时，很难确定汽车的确切形状(图3(a))。这就是为什么amodal分割任务具有挑战性的原因。0最大遮挡顺序相对遮挡顺序仅对同一聚类中的实例有效。因此，我们将聚类的最大遮挡顺序定义为其中遮挡实例的数量。此外，最大匹配数是每个对象的重叠实例数量。图4(c)显示了遮挡顺序和数量的分布情况。大多数聚类只包含少量实例。整个数据集中，最大遮挡顺序大于6的聚类仅占总数的1.54%。0分割转换在我们提供的KINS的amodal实例分割的基础上，可以轻松获得inmodal分割，只需使用amodal分割和遮挡顺序。如图3所示，对于两个重叠的实例，交叉区域应属于遮挡顺序较小的实例，用于inmodal标注。03.3. 数据集一致性0注释一致性是任何人工标注数据集的关键属性，因为它决定了注释任务是否定义良好。值得一提的是，推断遮挡部分是主观和开放的。然而，由于我们严格的标记标准和人类对实例的先验知识，KINS中的非模态注释相当一致。我们基于边界框进行评估。9784045474249871181947892895639207380412941051821298402000040000600008000010000012000012345>6Max Match NumberMax Occlusion Order30180数量0数值0(a) 遮挡级别 (b) 边界框一致性 (c) 簇统计图4. 用于进一步评估我们数据集的三个指标。0(a) 20000次迭代 (b) 24000次迭代0图5. 不同迭代次数下MaskR-CNN预测的可视化。随着训练迭代次数的增加，橙色汽车和人的掩码会收缩。0一致性和掩码一致性。考虑到交并比（IoU）可以衡量不同注释者之间实例掩码和边界框的匹配程度，我们计算了所有注释的平均IoU。首先，我们通过将KINS中的边界框与原始的KITTI检测数据集中的边界框进行比较，来衡量边界框的一致性。发现了差异：KITTI检测数据集中的边界框在注释时没有考虑到遮挡像素。因此，在KINS中，边界框通常较大。为了公平评估一致性，我们通过收紧相应的非模态掩码生成自己的非模态边界框。对于每个图像，KINS中平均有12.74个对象，而KITTI检测数据集中只有6.93个对象。图4（b）中的直方图显示大多数注释与原始检测边界框一致。超过78.34%的图像的平均IoU大于0.65。其次，为了衡量掩码的一致性，我们从KINS中随机选择了1000个图像（约占整个数据集的6.7%），并要求三个注释者再次处理它们。两个注释阶段之间间隔了4个月。我们将阶段j（j = 1,2）中的注释者i（i = 1, 2, 3,mv）表示为aij。表3显示了每两个注释者之间的一致性得分。这里，amvj表示三个注释者在第j阶段（j = 1,2）进行多数投票后的注释结果。尽管两个注释期间相隔几个月，但注释者仍倾向于对未见部分做出相似的预测。因此，表3对角线上所有图像的平均IoU相对较高。我们得到了0ann 11 ann 21 ann 31 ann mv 10ann 12 0.836 0.802 0.805 0.8340ann 22 0.809 0.840 0.818 0.8360ann 32 0.804 0.816 0.835 0.8330ann mv 2 0.838 0.836 0.837 0.8430表3. 两个阶段中三个注释者的一致性得分。0在匹配最终的综合结果a mv 1和a mv2时，得分最高，这表明通过多数投票将三个注释者的注释集成到最终输出中进一步提高了数据一致性。04. 非模态分割网络0由于非模态分割是实例分割的一般和高级版本，我们首先评估了最先进的MaskR-CNN和PANet在非模态分割上的表现。尽管这些框架是为非模态分割设计的，但只需使用非模态的掩码和边界框即可在此处使用。它们可以产生合理的结果。但问题是增加训练迭代次数会导致网络严重过拟合，如图5所示。随着迭代次数的增加，遮挡区域会收缩或消失，而可见部分的预测变得稳定。0非模态属性分析为了提出适合非模态分割的框架，我们首先通过讨论CNN的重要属性来分析上述过拟合问题。（1）卷积操作广泛用于掩码预测，有助于捕捉准确的局部特征，但会丢失一定程度的整体信息。（2）全连接（FC）操作使网络能够通过整合空间和通道中的信息来全面理解实例。在现有的实例分割框架中，掩码头通常由四个卷积层和一个反卷积层组成，充分利用局部信息。然而，没有全局指导或实例的先验知识，仅凭借局部信息很难预测由遮挡引起的“不可见部分”。全局信息对于非模态掩码预测的重要性也在[31]中提到，特别是对于不连通的实例。凭经验，我们还观察到全局信息的强大感知能力对于网络的关键性。30190为了识别遮挡区域，我们利用更多的全局信息来推断遮挡部分。我们首先解释MaskR-CNN中的全局特征。除了区域建议网络（RPN）之外，实例分割框架中还有三个分支，包括边界框分类、边界框回归和掩膜分割。前两个分支共享相同的权重，除了两个独立的全连接层之外，分别用于预测实例的类别和位置。它们关注整体感知，其中特征可以用来帮助完整实例的推断。0遮挡分类分支我们注意到，仅仅使用全局边界框特征对于Amodal分割来说是不够的，因为一个区域感兴趣（RoI）中可能存在多个实例。其他实例的特征可能导致掩膜预测中的歧义。因此，我们引入了遮挡分类分支来判断遮挡区域的可能存在。表6中高的分类准确率表明，该分支中的遮挡特征提供了必要的隐形信息，并使掩膜预测平衡了多个实例的影响。0基于上述考虑，我们提出了基于Amodal分割网络（ASN）的完整实例形状预测方法，通过结合边界框和遮挡特征来预测实例的完整形状。如图6所示，我们的框架也是一个多任务网络，包括边界框、遮挡和掩膜分支。边界框分支，包括分类和回归，除了独立的头部之外，共享相同的权重。遮挡分类分支用于确定RoI中是否存在遮挡。掩膜分支旨在分割每个实例。所有分支的输入都是RoI特征；每个分支由4个级联的卷积和ReLU操作组成。为了预测遮挡部分，我们提出了多级编码（MLC）方法，使掩膜分支能够通过可见线索和对整体区域的内在感知同时分割完整实例。此外，为了证明我们的MLC不仅限于Amodal分割，我们的网络的掩膜预测由独立的Amodal和Inmodal分支组成。对于每个掩膜分支，分别使用相应的真值。接下来，我们将解释我们框架中最重要和最有效的两个组成部分，即遮挡分类分支和多级编码。04.1. 遮挡分类分支0一般而言，从RPN的结果中采样512个提案，其中128个是前景RoI。根据我们的统计，一般情况下，最多有40个RoI有重叠部分，即使考虑到背景样本。使情况更具挑战性的是，几个遮挡区域只包含1到10个像素。遮挡和非遮挡之间的极端不平衡使得情况更加困难。0非遮挡样本对于先前的网络在这里的工作增加了额外的困难。根据常识，RoI特征提取后，极小区域的特征会被削弱甚至丢失，因此我们只将重叠面积大于总掩膜的5%的区域视为遮挡样本。为了缓解遮挡和非遮挡样本之间的不平衡，我们将正样本RoI的权重损失设置为8。此外，该分支使得我们的网络主干能够在遮挡下提取稳健的图像特征。04.2. 多级编码0我们的网络现在包含遮挡信息。为了进一步增强在当前背骨和掩膜头之间预测Amodal或Inmodal掩膜的能力，我们提出了多级编码（MLC）方法来放大掩膜预测中的全局信息。尽管与边界框和遮挡分支具有相同的结构，掩膜分支具有其独特的特点。首先，该分支只旨在分割正样本RoI。因此，在边界框/遮挡分类分支中，只提取正样本的特征，并将其作为全局指导输入到MLC中。此外，边界框/遮挡分类分支和掩膜分支的特征图大小分别为7×7和14×14。为了利用这些特征并提取更多信息，我们的MLC具有两个模块，即提取和组合。提取部分将类别和遮挡信息融合到全局特征中。然后，组合部分将全局特征和局部掩膜特征融合在一起，以帮助分割完整实例。更多细节如下所述。默认情况下，卷积层的卷积核大小为C×C×3×3，步幅和填充大小为1。C表示通道数。0特征提取在该模块中，首先将盒子和遮挡分类特征连接起来，然后通过一个2C × C × 3 ×3的反卷积层进行上采样。接下来，为了整合两个特征中的信息，上采样特征被输入到两个顺序卷积层中，然后进行ReLU操作。0组合为了将掩膜分支中的全局和具体局部线索结合起来，首先将提取部分的特征与掩膜特征进行连接。然后，将它们输入到三个级联卷积层中，然后进行ReLU操作。最后一个卷积层将特征通道减半，使输出维度与掩膜分支中的特征相同。最后，将输出特征发送到掩膜分支进行最终的语义分割。04.3. 多任务学习0我们的网络将RPN、盒子识别、遮挡分类和掩膜预测的所有分支都视为同等重要，每个损失的权重都设置为1。它的性能良好。u l- LvlCgD E C O N VBxRgs sO c c l u sC l s s f cA mlSg mmlSg mD E C O N VC O N VC O N VC O N VC O N VC O N VC O N C A TmgFuE xcRA l gu l- Ts k Bc hu lHu l- Lvl CgF Cu l- LvlCgB A C K B O N EBxC l s s f cF CF CD E C O N VC O N C A TMNC [7]20.918.516.1FCIS [27]25.623.520.8ORCNN [14]30.929.026.4Mask R-CNN [19]31.329.326.6Mask R-CNN + ASN32.731.128.7PANet [31]32.330.427.6PANet + ASN33.432.229.7stance segmentation, since the mask branch in our frame-work can determine if the feature of invisible parts shouldbe enhanced or weakened. For amodal mask prediction,MLC prefers to enlarge the mask area of invisible part byglobal perception and prior knowledge about category andocclusion prediction. Besides, connection of box, occlu-sion and mask branches makes the feature in each branchrobust when serving different tasks, compared with in-dependently working in previous networks.PANet with44,056,576 parameters still performs worse than Mask R-CNN + ASN with 13,402,240 parameters, indicating thatthe performance gain is not only related to the number ofparameters. Note that the structure of ORCNN is similar toMask R-CNN with two independent mask heads, except fora unique branch for predicting invisible parts.30200多级编码0反卷积0盒子回归0遮挡分类0非模态分割0模态分割0反卷积卷积卷积0卷积卷积0连接0图像特征提取 ROI对齐多任务分支多头多级编码0多级编码0主干网络0盒子分类0反卷积0连接0图6。除了MaskR-CNN的类似结构外，非模态分割网络还包括遮挡分类分支和多级编码。多级编码用于通过提取和组合两个模块中的多分支特征来指导掩膜预测。黄色符号表示相应分支中的特征。0在我们的实验中，用于非模态分割的最终损失表示为0L = L cls + L box + L occlusion + L mask，其中Lmask = L mask a + L mask i。0对于推理，有一个小的修改。我们根据盒子分支和提案位置的输出计算回归框。然后，将更新后的框再次输入到盒子分支中提取类别和遮挡特征。然后，我们仅选择NMS[13]后剩余的框进行最终的掩膜预测。05. 实验0所有实验都是在我们的新数据集上进行的，该数据集包含7个物体类别。由于人群注释数量较大，我们排除了“人-坐着”类别。由于测试集的真实注释可用，我们使用了7,474张图像进行训练；评估是在7,518张测试图像上进行的。我们将遮挡分类分支和多级编码集成到两个基线网络中。我们使用Pytorch库在8个NVIDIA P40GPU上进行训练，批量大小为8，迭代次数为24,000次。我们使用随机梯度下降作为优化器，学习率为0.02，动量为0.9。我们在第20,000次和第22,000次迭代时分别将学习率降低0.1。结果以mAP的形式报告，这是检测和实例分割常用的指标。我们在盒子分支中使用非模态边界框作为我们的真实标注，以防遮挡部分丢失。我们进行了相同的实验五次，并报告了平均结果。方差为0.3。05.1. 实例分割0表4显示，我们的非模态分割网络对非模态和模态的mAP都有不错的表现。0模型检测 Amodal分割 Inmodal分割0表4.我们的方法与其他替代方案的比较。两种方法中的所有超参数都相同。05.2. 消融研究0在特定模块及其特征融合位置上进行了消融研究，如表5所示。inmodal和amodalmask预测以及MaskR-CNN的表现略优于每个单独的mask预测，因为学习到了不同方面的更多特征。通过添加遮挡分类分支进一步提高了性能，这表明利用遮挡信息来引导我们的mask预测是有效的。对于amodalmask预测，MLC倾向于通过全局感知和关于类别和遮挡预测的先验知识来扩大不可见部分的mask区域。此外，box、遮挡和mask分支的连接使得每个分支中的特征在执行不同任务时更加稳健，与之前的网络相比独立工作。具有44,056,576个参数的PANet的性能仍然不如具有13,402,240个参数的Mask R-CNN +ASN，这表明性能提升不仅与参数数量有关。注意，ORCNN的结构与MaskR-CNN相似，具有两个独立的mask头，只是增加了一个用于预测不可见部分的独特分支。Mask R-CNN [19]31.0×26.4Mask R-CNN [19]31.129.2×Mask R-CNN [19]31.329.326.6Mask R-CNN + OC31.930.027.9Mask R-CNN + OC + MLC(0,0)32.531.028.6Mask R-CNN + OC + MLC(1,1)32.731.128.7Mask R-CNN + OC + MLC(2,2)32.330.628.2Mask R-CNN + OC + MLC(3,3)31.729.828.0Mask R-CNN + OC + MLC(0,3)31.929.827.9Mask R-CNN + OC + MLC(3,0)31.829.727.8MR [19]31.329.326.60.866MR + OC(0%)31.729.727.50.871MR + OC(5%)31.930.027.90.872MR + OC(15%)31.429.627.30.869MR + OC(20%)31.229.426.70.86630210模型检测 Amodal分割 Inmodal分割0表5. 前三行列出了MaskR-CNN在inmodal分割、amodal分割和同时处理两者的性能。第四行是将遮挡分类分支添加到MaskR-CNN中的模型。剩余行显示了模块特征的不同融合位置的结果。MLC( a, b )表示第 a个卷积层之后的box/遮挡分类分支和mask分支之间的组合。0box/遮挡分类分支的第a个卷积层之后和mask分支的第b个卷积层之后的特征的组合。0模型检测 Amodal分割 Inmodal分割遮挡准确率0表6. 遮挡分类分支中重叠阈值的消融研究。MR指的是MaskR-CNN。0利用包含遮挡信息的特征来指导我们的mask预测是有效的。Multi-LevelCoding中特征融合位置的性能表明，前几层的box和遮挡特征有助于确定是否需要推理遮挡部分。对于不同类型的特征，最佳融合位置是每个分支的第一个卷积层之后。这些特征不仅保持全局信息，还具有每个特定任务分支的独特属性。表6显示了遮挡分类分支中的重叠阈值对于获取骨干网络的稳健全局图像特征是重要的。最佳效果使用5%的阈值。过小的阈值可能导致在边界上通常存在的具有小遮挡部分的RoIs之间产生歧义。相反，当使用过大的阈值时，网络也很难捕捉到足够的amodal情况。表7展示了对Multi-LevelCoding的进一步探索。MLC总共由四个部分组成。每个模块由连接或级联卷积组成，如图6所示。MLC的设计在检测和分割方面都取得了很好的性能。它只使用了这几个简单的模块就实现了有效的特征融合。0模型修改 Det Amodal Seg Inmodal Seg00111 ADD 32 . 1 30 . 5 27 . 901011 Order Adjustment 32 . 4 30 . 6 28 . 001011 1 CONV 31 . 9 30 . 3 27 . 601011 3 CONV 32 . 7 31 . 0 28 . 601101 ADD 32 . 3 30 . 6 28 . 101110 Order Adjustment 32 . 6 31 . 0 28 . 501110 1 CONV 32 . 0 30 . 1 27 . 501110 3 CONV 32 . 6 31 . 1 28 . 601111 × 32 . 7 31 . 1 28 . 70表7. 对多级编码的每个部分进行不同操作的消融研究.在“Modification”列中，“ADD”表示添加两个分支的特征，“OrderAdjustment”表示反转“special”卷积，例如带有步长2的反卷积和其他两个级联卷积. “{x} CONV”表示使用x个级联卷积.“model”列中的“1011”表示我们在“Modification”列中使用默认操作，除了第二部分.0由于页面限制，我们不得不将我们的分割结果的可视化放入我们的补充材料中.05.3. 进一步应用0模型 D1 D2 F1 SF0OSF [ 33 ] 4 . 74 6 . 99 8 . 55 9 . 940ISF [ 3 ] 3 . 61 4 . 84 6 . 50 7 . 460ISF with KINS 3 . 56 4 . 75 6 . 39 7 . 350表8.背景和前景的视差（D1，D2），流（Fl）和场景流（SF）误差在KITTI 2015验证集上进行了平均.0表8列出了使用KINS数据集辅助实例分割的改进的流预测.为了简单起见，我们按照[3]的方法训练我们的流模型.在KITTI2015场景流数据集的验证集上的改进性能表明，KINS在其他视觉任务中可以提供额外的信息.06. 结论0我们构建了一个大型数据集，并提出了一种新的多任务框架用于无模实例分割. KITTIINStance数据集（KINS）对每个特定实例的无模掩码和相对遮挡顺序进行了密集注释.作为增强的KITTI家族的一部分，KINS在自动驾驶的其他任务中具有巨大潜力.此外，我们提出了一种通用的网络设计，通过独立的遮挡分类分支和多级编码来提高对不可见部分的推理能力.在未来的工作中，我们将研究更多的特征增强和模型解决方案，如GAN.230220参考文献0[1] Pablo Arbelaez, Michael Maire, CharlessFowlkes和Jitendra Malik. 轮廓检测和分层图像分割. PAMI,2011. 10[2] Min Bai和Raquel Urtasun. 用于实例分割的深度分水岭变换.在CVPR, 2017. 20[3] Aseem Behl, Omid Hosseini Jafari, Siva KarthikMustikovela, Hassan Abu Alhaija, Carsten Rother和AndreasGeiger. 边界框、分割和物体坐标:在自动驾驶场景中3D场景流估计中识别的重要性有多大? 在ICCV,2017. 80[4] Rich Caruana. 多任务学习. 机器学习, 1997.0[5] Ronan Collobert和Jason Weston. 自然语言处理的统一架构:深度神经网络与多任务学习. 在ICML, 2008. 20[6] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth和Bernt Schiele.用于语义城市场景理解的Cityscapes数据集. 在CVPR, 2016. 1, 2,30[7] Jifeng Dai, Kaiming He, and Jian Sun.通过多任务网络级联实现实例感知语义分割. 在CVPR, 2016. 2, 70[8] Jifeng Dai, Yi Li, Kaiming He和Jian Sun. R-FCN:基于区域的全卷积网络的目标检测. 在NIPS, 2016. 1, 20[9] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, GuodongZhang, Han Hu和Yichen Wei. 可变形卷积网络. 2017. 60[10] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li和LiFei-Fei. ImageNet: 一个大规模的分层图像数据库. 在CVPR , 2009. 1 , 20[11] Piotr Doll´ar和C Lawrence Zitnick.使用结构化森林进行快速边缘检测. PAMI , 2015. 10[12] Mark Everingham, Luc Van Gool, Christopher KI Williams,John Winn和Andrew Zisserman.Pascal视觉对象类别（VOC）挑战. IJCV , 2010. 1 , 20[13]

下载后可阅读完整内容，剩余1页未读，立即下载