基于贝叶斯模型的非模态分割问题及其应用

68 浏览量更新于2023-10-25 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1215通过任务外和基于贝叶斯模型的分布外推广孙怡红Adam Kortylewski Alan Yuille约翰霍普金斯大学摘要非模态补全是一种人类容易完成而计算机视觉难以完成的视觉任务。其目的是分割那些被遮挡并因此不可见的对象边界。这项任务对于深度神经网络来说尤其具有因此，我们将非模态分割公式化为任务外和分布外的泛化问题。具体来说，我们用神经网络特征的贝叶斯生成模型替换神经网络中的全连接分类器。该模型只使用边界框注释和类标签从非遮挡图像进行训练，但适用于将任务外推广到对象分割，并将分布外推广到分割遮挡对象。我们展示了当贝叶斯模型学习到一个先验模型时，如何自然地超越训练任务标签来概括对象此外，通过利用离群值过程，贝叶斯模型可以进一步泛化分布以分割部分被遮挡的对象并预测其amodal对象边界。我们的算法优于使用相同监督的替代方法，甚至优于在训练过程中使用带注释的非模态分割的方法，当遮挡量很大时。代码可在https://github.com/YihongSun/Bayesian-Amodal上公开获取。1. 介绍在我们的日常生活中，我们经常观察到部分遮挡的物体。人类可以可靠地识别物体的可见部分，并将其用作估计遮挡部分的线索。这种在遮挡下对物体完整结构的感知在计算机视觉中，非模态分割是一个重要的研究课题，无论是其理论价值还是实际应用。当前方法的主要局限性在于图1.我们的贝叶斯模型将对象边界框作为输入，并估计右侧的三个分割掩码：可见对象部分为蓝色，不可见对象部分为红色，背景上下文为绿色。该模型是完全概率的，像素亮度显示了模型预测的置信度通过人工注释[13，24，30]或通过生成人工遮挡图像[38]对非模态对象掩模进行详细监督的要求此外，这些方法假设遮挡物的对象类在训练时是已知这是现实世界应用中的一个重要限制，例如自动驾驶，其中潜在的遮挡物可以是任何类型的现实世界对象。我们制定amodal分割作为一个任务外和分布外的泛化问题，其中贝叶斯生成模型是从非遮挡对象训练，仅具有边界框和类注释，但推广到部分遮挡对象的amodal分割（图1）。直觉上，我们的模型可以理解为卷积神经网络，其中完全连接的分类头被神经特征的贝叶斯生成模型所取代。在推理过程中，估计潜在模型参数（即对象类别和非模态分割），使得输入图像的特征由具有最大似然比的贝叶斯模型解释。1216最大可能性神经功能的不变性使我们能够避免明确建模的滋扰，如小变形或照明变化。我们的工作建立在最近的学习神经网络特征的生成模型用于图像分类的方法上[19，20]，并以多种方式扩展这些方法以实现非模态分割。特别是，我们扩展了网络的工作架构与生成模型的对象与标准的深度网络方法不同，这使得背景上下文和对象形状的概念变得明确。总之，这些先验知识使我们的模型能够仅从边界框和类监督进行训练，并将任务外的一般化到对象分割。贝叶斯模型与离群值处理相结合，使其对部分遮挡具有鲁棒性离群值过程使我们能够将非模态分割公式化为分布外任务，其中模型从非遮挡图像训练，但一般化为具有部分遮挡对象的图像我们讨论了如何使用EM型算法的最大似然估计来我们还证明了贝叶斯模型和卷积特征提取器的联合端到端微调进一步提高了稳定的性能。我们在所有常见数据集上进行的非模态分割实验，KITTI实例数据集（KINS）[30]，COCO非模态cls。[12]和Occluded-PASCAL 3D + [33]表明，我们的贝叶斯方法在很大程度上优于相关的弱监督工作，甚至在遮挡量很大时优于完全监督方法。总之，我们做出了几项贡献：1. 我们制定了一个非模态实例分割的任务和分布外的泛化问题与贝叶斯生成模型。2. 我们的贝叶斯模型仅从边界框和类标签中学习，并且在遮挡量较大时，其性能远远优于其他弱监督方法3. 据我们所知，我们的模型是第一个非模态分割，推广到以前看不见的遮挡。2. 相关工作非模态分割。非模态分割中的第一个工作是由Li等人提出的。 [24]使用人工生成的遮挡数据集。最近，KINS[30]和Amodal COCO [41]数据集，其中包含真实世界的遮挡和人类估计的非模态分割掩模。非模态分割的相关工作遵循完全监督的方法，其中使用人类估计的非模态分割注释[13，30，36]，或者创建合成遮挡以创建训练数据[26，29，38]。然而，这些方法对测试时的遮挡量做出了隐含的假设，甚至要求遮挡器的类在测试时间[29，38]。相比之下，我们引入了贝叶斯方法来解决这个问题，该方法仅从非遮挡对象进行训练，并且不需要任何非模态监督。贝叶斯模型对遮挡的鲁棒性。非模态分割是一个较新的研究方向，但对部分遮挡的鲁棒性研究受到了广泛关注。在下文中，我们只关注与我们直接相关的作品。最近的研究[21，40]表明，典型的图像分类深度学习方法对部分遮挡的鲁棒性明显低于人类视觉。相比之下，贝叶斯方法对部分遮挡更加鲁棒，如图像分类[19]，姿态估计[32]，一般对象检测[20，33]，场景理解[27，31]，面部重建[9]和人体检测[14]领域所示。在这项工作中，我们通过利用估计的每像素遮挡统计数据，将神经特征的贝叶斯生成模型推广到非模态分割。值得注意的是，我们的工作与在深度学习时代之前开发的贝叶斯生成方法有关[34]。然而，我们将现代深度学习与贝叶斯生成模型相结合，使我们能够在监督较弱的情况下推广到非常复杂的数据。弱监督分割。由于获取昂贵的每像素注释的任务要求很高，因此出现了许多弱监督实例分割方法，这些方法利用更便宜的标签，包括图像级注释[1，3，5，23，39，42]和框级注释[16，17]。值得注意的是，Zhou等人。 [39]建议使用图像级注释来监督实例分割，方法是利用类峰值响应来启用用于实例掩码提取的分类网络。此外，Hsu等人。 [16]使用框级注释通过利用边界框紧密度先验来实现实例分割。最后，Shape- mask [22]解决了具有新类别的对象的实例分割，而没有掩模注释。Shapemask通过利用从地面真实掩模中学习到的已知对象的形状先验，学习对象形状并将实例分割推广到新类别。相比之下，我们提出的模型是能够学习形状先验没有任何像素级的监督。3. 一种用于非模态分割的贝叶斯模型在下文中，我们首先介绍我们的模型，然后描述其输入，然后是模型的简化版本，然后是fi-fi。1217|D{∈ D}一|i，k--i，kA{}联系我们K{∈ D}KKΣY最后，我们继续开发我们的完整贝叶斯模型。本节的结构还用于澄清我们的模型与神经网络特征生成模型的相关工作之间的相似性和差异。3.1. 我们模型的输入：神经特征我们的模型在深度神经网络的顶部卷积层将特征映射F<$=（I，）作为输入，其中I是输入图像，是卷积层的权重。网络权值可以通过预训练来学习或者可以直接端到端训练这些特征向量的关键属性是它们往往对对象的不重要细节是不变的，与使用RGB像素作为输入相比，这使得学习贝叶斯生成模型更容易。我们表示给定边界框内的特征F=fa：a，其中a表示边界框内晶格上的位置。因此，F表示特征图F的裁剪子集。3.2. 一个简化的生成模型我们现在讨论一个简化的贝叶斯生成模型的特征向量，并讨论如何修改它，使其鲁棒的遮挡器和如何学习。对于每个对象，我们假设特征由分布的混合生成，其大致对应于对象的视点（等式1）。这类似于可变形零件模型[10，11]，其中这些混合物也必须在没有监督的情况下学习。然而，这些方法不是生成性的，并且不能解决部分咬合的问题。最简单的生成概率模型，对应于相关工作[19，20]中介绍的模型，指定概率分布：P （ F ） |y ）=p （ F |y ， m ） P （ m ）=YPa（fa|y，m）P（m），图2. 组成形状先验P （w_y，m）。示出了属于汽车类的M=8个组成请注意，在每个先验中，形状和3D姿态编码仅通过利用边界框监督来学习。（注意，较高卷积层中的特征向量fA的维数通常为1024）。学习模型参数。在本文的大部分内容中，我们假设已经提前学习了深度网络的参数。这使得模型的其余参数能够通过标准贝叶斯方法使用最大似然法经由期望最大化（EM）算法来学习。由于我们的贝叶斯模型是完全可微的，我们还将在第3.5节中讨论一种替代的端到端学习方法，该方法可以联合学习所有模型参数。端到端训练比ML解决方案提高了一个小但稳定的幅度。如[19，20]中所示，参数Λ直观地对应于对象的部分的词汇表，并且可以简单地通过由K-Means ++聚类算法[2]初始化的EM算法[6]来学习。可以使用最大似然来估计参数来学习概率分布P（Fy）。由于潜在混合变量m，这也仅需要EM算法的简单应用。为了清楚起见，我们请读者参考我们的实现以了解EM学习的细节，因为EM算法的应用是具有未观察到的潜变量的统计分布的标准过程最后，推理过程是一个前馈过程m ma∈DPa（fa|y，m）=Pa（fa| A，Λ）=αy，mP（fa|σk，µk），KeσkµTf（一）（二）通过网络估计y_p=argmaxy_P（F |y）。遮挡建模。为了使该模型对遮挡者具有鲁棒性，并使其在使用非遮挡对象进行训练时能够推广分布外，通过添加离群值过程来修改生成模型，以采用以下形式：p（f|σ，µ）=K、||F||=1，||µ||=1，（3）其中y表示对象类别，m表示混合物ma∈D（四）成分混合物的数量是先验固定的，并且混合物分量以无监督的方式学习P（m）是混合分量上的均匀先验，=α y，m是混合系数，并且Λ =σ k，μ k是von-Mises-Fisher（vMF）分布的参数（等式3）。我们选择vMF分布，因为将特征向量归一化到单位范数使得在高维特征空间中估计模型参数更可行其中，Q（fa）是根据未注释图像估计的遮挡物生成的特征的von Mises Fisher分布[9，18]。潜在变量za0，1指示像素a是可见的还是被遮挡的（分别为za=1，0），并且先验P（za）指示像素可见的先验概率这使得模型不仅对遮挡物是鲁棒的，而且还同时估计遮挡物的位置a：za=0[19，20]，以及对象y、混合物分量m。Z（σk）P（F）|y）=P a（fa|y，m）zaQ（fa）1−zaP（m）P（nz），1218--Q∈D{|关于我们|}YΣ--∀eσµ fa3.3. 一种用于非模态分割在前面部分中描述的简化模型的局限性在于它不能分割对象，因为它没有将对应于对象的前景区域和对应于对象的局部背景上下文的背景飞机的背景上下文通常是天空）。这促使我们通过引入新的潜在变量wa来扩展模型，以指示在没有额外监督的情况下学习的前景/背景。我们首先将公式1中引入的生成模型扩展为以下形式：Pa（fa|y，m，wa）=Pa（fa|y，m）waBa（fa|y，m）1−wa（五）×P a（w a|（y，m）其中wa∈ {0，1}是指示是否分布Q（. ）这是一个von Mises Fisher分布不Q（fa）=Z（σ），||Fa||=1，||µ||=1其参数是从未注释图像中的特征中学习的我们指定-如果y，b，t不学习，则先验P （t，z）=一其中P（z=0）是我们希望算法能够处理多少遮挡的粗略度量。位移建模。我们还引入了一个位移变量c，它模拟了边界框中心和对象中心之间的位移。这是必要的，因为对于部分被遮挡的对象，边界框仅覆盖对象的可见部分，但是非模态分割要求模型预测不可见的对象边界。这给出了一个模型的形式：P（F） |y）=<$YPa−c（fa|y，m）waza（7）M a∈D分别地）。这里P a（f ay，m）和Ba（fay，m）是分别用于前景和背景像素的模型，活泼地它们分别由冯·米塞斯·费希尔分布的前景和背景混合物指定，具有与等式2相同的形式。形状建模我们介绍形状先验×Ba−c（fa|y，m）（1−wa）zaQ（fa）（1−za）.P（w）|y，m，c）=Pa−c（wa|（8）a∈D利用这个模型，我们可以估计最优目标P（w）|y，m）=Qa∈D P a（w a|y，m），一个有学问的2D水疗中心-类y，类混合m，对象中心c，遮挡图{a∈ D：za=0}和前景图{a∈ D：wa=1}。tial map条件对象类别y和类混合m的前景/背景的面具，如图2所示。直观地，它们为每个混合模型m建模预期的对象形状，并且将使模型能够预测遮挡物后面的对象形状，如下一节所讨论的。图2中的形状先验的结构示出了混合分量m近似地表示不同的3D对象姿态。最后，这给出了数据的生成模型：P（F） |y）=P（F |y，m，w）P（m）P（w|（y，m），（6）m，w可以通过最大化训练数据关于Λ，A，P（w）的对数似然来学习模型。|y，m）。这这个推理过程可以有效地实现为前馈神经网络，我们提供了一个公开的实现1。3.4. 使用我们的模型进行在估计潜在变量wa和za的分布之后，wa和za的状态将每个图像像素分类为四个潜在状态之一（图3）。因此，我们可以通过如下方式找到可见和被遮挡的前景区域来确定非模态对象分割。为了估计前景-背景分割wa，我们计算前景和背景概率之间的后验几率：.（1P（w y，m））B（fy，m）> 1需要使用EM算法，因为模型得到混合物m和前的潜变量。地面/背景变量{wa}。在学习过程中，我们w=1、如果Pa−c（wa|y，m）Pa−c（fa|（y，m）- a−c一|a−c一|0，否则，请执行以下操作。（九）使用vMF的标准最大似然度量分布[4]，并使用谱聚类初始化类混合物的EM，如[19，20]中所示。为了初始化前期/背景变量wa，我们首先从未注释的数据初始化背景分布Ba（类似于类似地，为了推断遮挡变量的状态，za，我们计算遮挡和相应的前景-背景概率之间的后验几率： .1、如果p（za）Pa−c（fa|y，m）w<$aBa−c（fa|y，m）（1−wa）>1估计遮挡物Q的分布），并且初始假设所有事物都是前景（即，Wa=1a）。遮挡建模。扩展这个模型来处理za=0，否则，请执行以像素是前景或背景上下文（Wa=1，01219下操作。（1−p（za））Q（fa）（十）遮挡，我们还介绍了一个离群过程。如等式4所示，我们引入二进制潜变量z_a和w_a的状态都在模型之下，可见实例分段MI={a：wa=1，za=1}{za}，其中za∈{0，1}指示像素a是否可见（za=1）或闭塞（za=0）。我们引入一个封堵器1https://github.com/YihongSun/Bayesian-Amodal1220L--L-|L图3.像素可以处于的四种状态的图示：可见前景（wa=1，za= 1）为浅蓝色，遮挡前景（wa= 1，za= 0）为深蓝色，可见背景（wa= 0，za= 1）为黑色，遮挡背景（wa= 0，za= 0）为红色。因此，被遮挡对象的非模态分割被定义为可见前景和被遮挡前景。和非模态分段M_（？）A 为a：wa=1，如图3所示。在图1中示出了该推断过程的定性可视化，其中可见前景的相对置信度{a：w a=1，z a= 1}，被遮挡的前景{a：wa=1，za=0}，然后返回-背景{a：wa=0}由3色强度表示3.5. 端到端培训当使用EM算法学习贝叶斯模型的参数时，我们假设特征提取器的参数已经初始化并固定。这是通过使用完全连接的预测层预训练图像分类的特征提取器，然后用我们的贝叶斯生成模型替换它来实现的。但是我们的贝叶斯模型是完全可微的，因此我们可以通过反向传播来微调特征提取器和贝叶斯预测器。这使得特征提取器能够适应新的预测器，从而以稳定的幅度提高模型性能。端到端培训的目标包括跨部门分类损失cls（y_i，y）使用ne g- ati elog-概率y_i=argmaxylogP（Fy），其中y是预测类标签，y是真实类标签。在[19，20]之后，贝叶斯模型的参数需要用额外的损失（ml）进行训练，使得当特征提取器被更新时，贝叶斯模型保持数据的最大似然。最后，我们-包括额外的先验 [16]建议的seg（MI，b）其鼓励相邻像素内的标签一致性估计的分割掩码的元素我们端到端地训练模型的所有参数，其中γ1和γ2控制损失项的权衡：L= Lcls （ y∈ ， y ） +γ1Lml （ Λ ， A ， w∈ ）+γ2Lseg（M∈I，b）（十一）我们注意到，我们的端到端训练模型保留了将分布外推广到部分遮挡对象的能力，而无需在训练期间观察到部分遮挡。这与标准的深度网络相反，不要在面向对象的场景中泛化。原因是我们的模型仍然是优化最大似然目标的生成模型，因此当配备离群值过程时，可以对遮挡变得鲁棒4. 实验我们评估了我们的模型对三个流行的非模态分割数据集的分割掩码监督和边界框监督基线的非模态分割性能。由于两个基线之间的差异，我们在两种设置下进行实验，一种是已知对象中心的位置，另一种是需要估计对象中心。4.1. 实验装置数据集。根据相关工作的实验设置[33]，我们将每个数据集中的遮挡对象分类为从FG-1到FG-3的三个前景遮挡级别，并且如果适用，将其分类为从BG-1到BG-3的三个背景遮挡级别。OccludedVehicles数据集[33]使用合成遮挡扩展了PAS-CAL 3D + [35]。它包含51801个对象，均匀分布在所有遮挡级别，前景和上下文都被看不见的遮挡物遮挡KINS数据集[30]包含具有非模态注释的真实遮挡。我们将评估范围限制在最小高度为50像素的车辆上，因为分割的相关性随着分辨率的降低而降低。最后，评估集包含14826个对象。COCOA-cls 数据集 [12] 是带有类注释的 AmodalCOCO[41]的扩展，共有766个对象。引入Occluded COCO数据集[19]来测试图像分类对部分遮挡的鲁棒性。它包含来自MS-COCO的部分遮挡对象[25]。基线。由于没有仅使用类/框级监督执行非模态分割的现有模型，我们将我们的模型与BBTP[16]（一种最先进的弱监督分割方法）和PCNet-M[38]（一种利用人工生成的非模态分割掩码进行训练的自监督方法）进行基准测试BBTP在框监督下生成对象掩码之前探索边界框紧密性，并要求输入边界框与对象中心c对齐。PCNet-M利用Mask RCNN [15]作为实例分割主干，并通过以自监督方式将对象与来自同一数据集的其他对象人为地遮挡来学习非模态完成。因此，PCNet-M被认为是我们模型的掩模监督上限。由于PCNet-M和我们的模型都只利用对象的可见部分，因此它们不需要已知的对象中心c。评价据观察，KINS严重不成比例：超过62%的对象1221∈{基于KINS的方法K.C监督FG-0 FG-1 FG-2 FG-3 是说PCNet-M✗掩模75.365.552.933.556.8Ours-ML✗框69.268.762.745.261.5Ours-E2E✗框69.968.163.247.362.1BBTP✓框7768.358.953.964.5Ours-ML✓框71.870.166.257.866.5Ours-E2E✓框72.369.666.258.566.7COCOA cls上的非模态分割。方法K.C监督FG-0 FG-1 FG-2 FG-3 是说PCNet-M✗掩模56.853.64738.449Ours-ML✗框61.1626054.359.4Ours-E2E✗框58.359.858.653.557.6BBTP✓框57.349.440.73545.6Ours-ML✓框6564.264.260.963.6Ours-E2E✓框65.36564.361.464遮挡车辆的非模态分割方法已知c监督FG-0FG-1FG-2FG-3是说-BG-1BG-2BG-3BG-1BG-2BG-3BG-1BG-2BG-3PCNet-M✗面具 *77.670.567.864.965.461.356.959.554.447.662.6Ours-ML✗框63.360.259.959.856.955.654.852.650.247.156Ours-E2E✗框6359.559.559.556.255.955.651.950.648.356BBTP✓框66.559.758.457.954.45148.950.444.740.253.2Ours-ML✓框63.759.459.359.65756.656.754.753.553.257.4Ours-E2E✓框63.959.759.659.757.256.856.85553.953.457.6表1.在闭塞车辆上评估的非模态分割性能，以meanIoU作为性能指标。已知c指示对象中心c是否已知并且与所提议的区域中心对准请注意，在相应的FG闭塞水平中，对象的0%、20- 40%、40- 60%和60-80%最后，PCNet-M被给予额外的地面实况遮挡分割作为推理期间的监督，如*所示。表2.使用meanIoU作为性能度量，在KINS数据集上评估非模态分割性能。”K。c指示对象中心C是否已知。请注意，对象的0%、1- 30%、30- 60%和60-90%在相应的前景遮挡级别中被遮挡。没有被遮挡，只有不到8%的物体被遮挡超过60%因此，为了检查作为遮挡水平的函数的掩模预测质量，我们使用由RPN生成的最佳区域建议（最高IoU到地面实况）作为监督进行评估，消除其他度量（如mAP）中对非遮挡对象的偏见，并基于其遮挡水平将对象分离为子集。最后，由于 COCOA cls 中带注释的对象数量有限。，我们将训练集和测试集结合起来，并使用组合数据集来评估在OccludedVehicles上训练时模型可以如何转移到新的领域。模型和培训设置。由于我们的贝叶斯生成模型首先使用最大似然法学习，然后以端到端的方式进行微调，因此我们分别评估两者，分别表示为Ours-ML和Ours-E2 E。我们的ML。我们的模型最初是从ResNeXt-50[37]模型的特征激活（l = 4）中学习的，在ImageNet [7]上进行了预训练。具体而言，我们初始化组成参数{µk}、A、Z、P（w|y，m），并设置vMF变量表3.从闭塞车辆到COCOA cls的转移评估。meanIoU作为性能指标。”K。“c指示在推断期间对象中心C是否已知。请注意，对象的0%、1- 20%、20- 40%和40-70%在相应的前景遮挡级别中被遮挡到σk=65，k1，. . .，K，以及混合物的数量，直到M = 8。我们还以无监督的方式学习n = 5个离群模型的参数，并固定先验。在初始化过程中，我们使用EM算法优化参数，如第3.3节所述。我们的E2E在通过最大似然学习之后，我们使用获得的解作为初始化，并如第3.5节所述微调模型参数。我们选择动量r = 0 的AdaGrad [8] 。 98 ，学习率lr=0 。 01 ，并且权衡权重 γ1=2 ， γ2=1 ，在一个NVIDIA TITAN Xp上进行10个epoch，总共2小时。4.2. 已知对象中心由于BBTP假设完整的对象边界框（包括对象的不可见部分），因此在测试时，如果不知道对象中心和相应的完整边界框，则无法估计非模态分割。因此，为了与BBTP进行评估和比较，对象中心c被给定为推理期间的监督，1222(a) 已知物体中心比较（b）未知物体中心比较图4.定性非模态分割结果。对于已知和未知的地面实况对象中心的情况，我们分别从第一行到第四行呈现原始图像、BBTP/PCNet-M预测、我们的模型即使我们的模型不一定需要对象中心C来估计非模态分割。合成闭塞。如OccludedVehicles数据集（表1）所示，我们通过最大似然（Ours-ML）学习的贝叶斯模型和通过端到端训练（Ours-E2 E）微调的贝叶斯模型在除两个遮挡设置外的所有非模态分割中都优于BBTP值得注意的是，在最高闭塞水平（FG-3 BG-3），我们的微调模型能够在平均IoU上超过BBTP13%真正的闭塞。此外，表1中观察到的趋势可以通过实际遮挡下的结果得到证实。当在KINS数据集上进行评估时（表2），我们的两个模型在所有遮挡设置上都优于BBTP。类似地，在最高遮挡水平下，Ours-E2 E在平均IoU方面，比BBTP高可转让性。如表3所示，当从OccludedVehicles学习并转移到COCOA cls时，我们的模型通过最大似然学习并在所有遮挡设置中微调端到端超出形式BBTP。值得注意的是，我们的端到端微调模型在do-main泛化方面优于BBTP，平均在meanIoU方面超过它18%以上。此外，当我们的模型仅在未遮挡图像上进行微调时，在已知中心的所有遮挡水平上观察到的性能增加进一步证明了第3.5节中引入的最大似然损失项的有效性。如图4（a）所示，很明显，由BBTP生成的掩模建议受到遮挡物存在的负面影响，而我们提出的模型可以准确地估计对象的非模态总之，定量和定性的结果与已知的对象中心表明，我们提出的模型优于最先进的弱监督的方法在amodal实例分割和域外的可移植性的大幅度。4.3. 具有未知对象中心的与上一节相比，由于PCNet-M是用注释遮挡训练的，因此我们的两个模型Ours-ML和Ours-E2E以及PCNet-M都是在没有对象中心c作为监督的情况下进行评估的合成闭塞。PCNet-M只能在数据集中遮挡物的类别标签先验已知时执行非模态分割。因此，PCNet-M本质上不适合在Occlud-edVehicles数据集上进行评估，因为数据集中的所有遮挡物都属于未见过/新类别，没有明确的类别注释。因此，为了评估PCNet-M，我们在推理时提供了真实遮挡分割（标记为掩码 *监督）。相比之下，我们的方法不需要任何额外的信息，occluder。从表1中可以看出，即使在推理期间具有给定的地面实况遮挡分割，与我们的弱监督模型相比，掩码监督的PCNet-M在最高遮挡水平下的meanIoU中真正的闭塞。此外，在KINS数据集中验证了Occlud-edVehicles数据集的结果（表2），其中我们的两个模型在所有遮挡设置中都优于PCNet-M。在最高阻塞水平下，Ours-E2 E在平均IoU方面优于PCNet-M可转让性。与第4.2节类似，当从OccludedVehicles传输时，我们的两个模型在所有occludedsettings上的COCOA-cls上的性能都优于PCNet-M 。值得注意的是，由于E2 E模型是用已知的对象中心进行微调的，而对象中心是未知的，因此我们从最大似然估计中学习的模型可以更好地推广，平均在平均IoU上超过PCNet-M10%。定性地，在图4（b）中观察到，掩模监督的PCNet-M未能准确地预测被遮挡对象的非模态掩模，而我们的模型通过利用先验分布准确地估计非模态区域。1223消融前形状方法K.C监督FG-0 FG-1 FG-2 FG-3 是说无先验w/priors✓✓框框61.668.359.566.658.765.958.36559.566.5gt. 前科✓掩模71.669.568.767.669.4表4.通过meanIoU在OccludedVe- hicles数据集上评价消融前形状。请注意，我们报告了每个FG闭塞水平的所有BG闭塞阻塞COCO方法K.C监督FG-0 FG-1 FG-2 FG-3 是说ResNeXt-50✓框97.4 85.5 81.9 56.380.3CompNet✓框94.9 89.6 84.6 65.883.7CA-CompNet ✓框9688.4 81.1 64.482.5Ours-ML✓框9590.4846383.1Ours-E2E✓框9489.68565.883.6表 5. 在阻塞COCO 上评价分类性能。请注意，0% 、20-40%、40- 60%和60-80%的物体在各自的FG闭塞水平下闭塞。在遮罩预测中对物体形状的估计。特别是在图4（b）的右两列中，我们的模型能够预测更真实的非模态分割，即使PCNet-M在推理期间使用给定的地面实况遮挡物分割综上所述，我们的贝叶斯方法在高遮挡水平下优于PCNet-M基线，而仅在低遮挡水平下优于PCNet-M基线。询问盒级监管。4.4. 消融在表4中，我们评估了形状先验对OccludedVehicles数据集上的非模态分割的影响，(1)消除先验（W/O先验），以及通过（2）利用地面真值分割（ GroundTruthSegmentation ）学习先验（Gt.Prior）。从表4中可以看出，使用从边界框注释学习的形状先验的非模态分割显著优于没有形状先验的非模态分割，并且给出了与使用从地面真实掩模注释学习的先验相当的结果。图像分类由于我们的模型仅对对象分类使用监督，并将任务外的内容推广到推断对象分割，因此我们验证了我们的模型相对于相关贝叶斯生成模型（CompNet [19]和CA-CompNet [33]）和在相同监督下具有相同骨干的DCNN分类器的图像分类性能。从表6中可以看出，当对象中心c未知时，我们的模型在分类准确度上比BBTP中的分类器高出9%以上，并且在分类准确度上比PCNet-M中的分类器高出此外，我们的模型与表6.在OccludedVehi-cles上评估的分类性能。请注意，所有BG闭塞水平均取平均值。CompNet和CA-CompNet。类似地，如表5所示，当在具有真实闭塞的闭塞COCO上进行评估时，我们的模型优于ResNeXt-50超过3%总之，我们的模型在图像分类方面优于BBTP和PCNet-M。它的性能也与CompNets相当，但还可以可靠地执行非模态感知，同时仅从边界框和类级监督进行训练。5. 结论在这项工作中，我们研究了非模态分割问题的角度外的任务和外的分布推广的贝叶斯模型。我们学习神经网络特征的贝叶斯生成模型，该模型明确表示对象这使得模型能够定位被遮挡的对象部分并预测被遮挡的对象形状。我们的贝叶斯非模态分割方法只需要边界框和类监督，在非模态分割时达到最先进的性能，与其他弱监督方法相比，甚至在高遮挡水平下超过完全监督方法。限制和社会影响。我们的工作的一个限制是依赖于2D形状先验，这将需要大量的正确表示高度非刚性的对象，如人类或动物。因此，对于未来的工作，我们期望3D形状先验的学习将使模型更有效，并且还将增强对先前未见过的3D姿势的泛化能力。与大多数分割工作一样，我们的工作不会带来任何可预见的社会影响，但通常会促进更有效的数据和强大的计算机视觉模型。鸣谢。我们衷心感谢海军研究办公室（N 00014 -21-1- 2812）和国家科学基金会（BCS-1827427）的资助。闭塞车辆的分类方法K.C监督FG-0 FG-1 FG-2 FG-3 是说PCNet-M✗掩模98.7 95.9 86.1 59.285CompNet✗框97.7 93.6 87.3 73.688.1CA-CompNet✗框97.7 93.48773.387.9Ours-ML✗框97.7 93.4 86.8 72.687.6Ours-E2E✗框97.8 93.4 87.2 73.588BBTP✓框99.1 96.68653.983.9CompNet✓框97.8 94.9 90.8 79.690.8CA-CompNet✓框98.39589.7 76.689.9Ours-ML✓框97.8 95.2 90.7 80.291Ours-E2E✓框98.3 95.6 91.4 81.491.71224引用[1] Jiwoon Ahn，Sunghyun Cho，和Suha Kwak.具有像素间关系的实例分割的弱监督学习在IEEE计算机视觉和模式识别会议论文集，第2209-2218页，2019年。2[2] 大卫·亚瑟和谢尔盖·瓦西里茨基。k-means++：小心播种的优点。技术报告，斯坦福大学，2006年。3[3] Aditya Arun，CV Jawahar和M Pawan Kumar。通过学习标注一致实例实现弱arXiv预印本arXiv：2007.09397，2020。2[4] Arindam Banerjee，Inderjit S Dhillon，Joydeep Ghosh，Su- vrit Sra和Greg Ridgeway。使用冯米塞斯-费舍尔分布在单位超球面上进行聚类。《机器学习研究》，2005年第6期第9期. 4[5] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。在IEEE计算机视觉和模式识别会议论文集，第12397-12405页，2019年。2[6] Arthur P Dempster，Nan M Laird，and Donald B Rubin.不完全数据的最大似然法。 Journal of the RoyalStatistical Society ： Series B （ Methodological ）， 39（1）：1-22，1977. 3[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在 IEEE Conference on Computer Vision andPattern Recognition，第248-255页，2009年。6[8] John Duchi，Elad Hazan，and Yoram Singer.在线学习和随机优化的自适应次梯度方法。Journal of MachineLearning Research，12（7），2011.6[9] BernhardEgger ， SandroSchoénborn ， AndreasSchnei-der ， Adam Kortylewski ， Andreas Morel-Forster ，Clemens Blumer，and Thomas Vetter.基于遮挡感知的3d形变模型和光照先验的人脸图像分析。InternationalJournal of Computer Vision，126（12）：1269- 1287，2018。二、三[10] Pedro F Felzenszwalb ， Ross B Girshick ， and DavidMcAllester.基于可变形零件模型的级联目标检测。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第2241IEEE，2010年。3[11] Pedro F Felzenszwalb和Daniel P Huttenlocher。用于物体识别的图形结构。国际计算机视觉杂志，61（1）：55-79，2005。3[12] Patri ckFollmann，丽贝卡·柯尼格，PhilippH？rtinger，MichaelKlostermann，andTobiasB？ttge r. 学习看不见的：端到端可训练的非模态实例分割。2019年IEEE计算机视觉应用冬季会议（WACV），第1328IEEE，2019。二、五[13] Patr i ckFollmann，RebeccaKo¨Nig，PhilippH a¨Rtinge r，MichaelKlostermann ，andTobiasB o¨Ttge r. 学习看不见的：端到端可训练的非模态实例分割。2019年IEEEWinter Conference on Applications计算机视觉（WACV），第1328-1336页。IEEE，2019。1、2[14] RossGirshick ， PedroFelzenszwalb ， andDavidMcAllester.使用语法模型的对象检测。神经信息处理系统的进展，24，2011。2[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页5[16] 许正春、许光瑞、蔡中琪、林燕玉、庄永玉弱监督实例分割使用边界框紧密性先验。 I

下载后可阅读完整内容，剩余1页未读，立即下载