开集下的贝叶斯语义实例分割

132 浏览量更新于2023-10-13 收藏 1.55MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

开集世界中的贝叶斯语义实例Trung Pham、Vijay Kumar B G、Thanh-ToanDo、Gustavo Carneiro和Ian Reid阿德莱德大学计算机科学学院{trung.pham，vijay.kumar，thanh-toan.do，gustavo.carneiro，ian.reid}@adelaide.edu.au抽象。本文讨论了语义实例分割任务的开集条件下，输入图像可以包含已知和未知的对象类。现有的语义实例分割方法的训练过程需要所有对象实例的注释掩码，这是昂贵的，甚至在一些现实场景中是不可行的，其中类别的数量可能无限增加在本文中，我们提出了一种新的开集语义实例分割方法，能够分割图像中的所有已知和未知的对象类，根据已知对象类训练的对象检测器的输出我们制定的问题，使用贝叶斯框架，其中的后验分布近似与模拟退火，ING优化配备了一个有效的图像分区采样器。我们的经验表明，我们的方法是有竞争力的国家的最先进的监督方法对已知的类，但也表现良好的未知类相比，无监督的方法。关键词：实例分割，开集条件1介绍近年来，由于深度学习的强大功能，由多类语义分割[10，13，16]，对象检测[19]或实例分割[7]驱动的场景理解取得了然而，这些基于深度学习的方法的一个主要限制是，它们只适用于在监督训练期间使用的一组相比之下，在许多应用领域，自治系统通常在开集条件下运行[23]，即它们将不可避免地遇到不是训练数据集的一部分的对象类例如，Mask-RCNN [7]和YOLO 9000 [19]等最先进的方法无法检测到此类未知对象。这种行为对于理想地需要整体地理解场景的自主系统的性能是推理场景中出现的所有对象及其复杂关系。基于语义实例分割的场景理解最近引起了该领域的兴趣[3，25]。最终目标是分解2T.作者：J.J. M. G.卡内罗岛里德图1：开集环境中的语义实例分割的概述。我们的方法分割所有的图像区域，不管它们是否已被检测到或未被检测到，或者来自一个已知或未知的类将图像输入到各个对象（例如，汽车、人、椅子）和物品（例如，道路、地板）以及它们的语义标签。与语义分割和对象检测相比，语义实例分割的准确性和鲁棒性明显滞后最近的努力（例如，[7]）遵循检测和分割方法-首先检测图像中的对象，然后为每个实例生成分割这种方法可能用多个对象实例标记像素，并且完全不能分割未知对象，甚至不能分割已知但未检测到的对象。更重要的是，当前的实例分割方法需要在训练期间针对所有对象实例的注释掩码，这对于新类来说获取太昂贵一个便宜得多的替代方案包括新类的边界框注释（与注释分割掩码所需的多次单击相比，只需单击两次鼠标在本文中，我们提出了一种新的贝叶斯语义实例分割方法，能够分割所有的对象实例，无论它们是否已被检测到或未被检测到，是从一个已知的或未知的训练类。这种能力对于许多基于视觉的机器人系统是非常有用的。我们提出的方法生成以已知对象类的一组检测（在边界框或掩模方面）为条件的全局像素图像分割，而不是为每个检测生成分割掩模（例如，[7]）。由我们的方法产生的分割不仅保持了分割已知对象的能力的益处，而且还保留了可以通过感知分组来处理未知对象的方法的一般性。我们的算法的结果是一组感知分组的区域，每个区域都与一个已知的（对象）检测或一个未知的据我们所知，这样的分割输出以前从未实现过。我们制定的实例分割问题使用贝叶斯框架，其中的可能性是使用图像边界，像素位置的几何边界框模型和可选的掩模模型来测量这些模型相互竞争，以解释不同的图像区域。直观地，边界模型解释未知区域，而边界框和掩模模型描述开集语义实例分割3检测到已知对象的区域先验模型简单地惩罚区域的数量并强制对象紧凑性。尽管如此，找到在非常大的图像分区空间上最大化后验分布的分割是不平凡的。可以采用Gibbs采样[9]，但可能需要太长时间才能收敛。这项工作的主要贡献之一是一个高效的图像分区采样器，快速生成高质量的分割建议。我们的图像分区采样器是基于边界驱动的区域层次结构，其中区域的层次结构是对象实例的可能表示。使用深度神经网络估计边界[12]。为了对新的图像分区进行采样，我们简单地选择该区域的一个区域，并且将其“分配”到该区域。该操作将根据所选择的区域自动实现不同分割之间的分割、合并或分割合并移动。最后，图像分割器配备模拟退火优化[28]以近似最佳分割。我们评估了我们的开集实例分割方法在几个数据集上的有效性，包括室内NYU [24]和一般COCO [11]。实验结果证实，我们的分割方法，只有边界框监督，是有竞争力的国家的最先进的监督实例分割方法（例如，[7，8]），当测试已知的对象类，而它能够分割错过检测和未知的对象。我们的分割方法也优于其他无监督分割方法测试时，对未知类。图1展示了我们的分割方法的概述和示例结果2相关工作监督实例分割：现有技术的监督实例分割方法（例如，[4，7，29]）遵循检测和分割方法-首先检测图像中的对象，然后为每个实例生成分割掩码例如，Mask-RCNN方法[7]通过添加另一个语义分割分支来扩展Faster-RCNN [21]对象检测网络，用于预测每个检测到的实例的分割掩码早期的方法[17，18]是基于分段建议。例如，DeepMask [17]和SharpMask [18]学习生成分段建议，然后使用Fast-RCNN将其分类为语义相比之下，FCIS方法[29]针对图像中的每个位置联合预测对象类、边界框和分割掩码。[20，22]中的方法采用递归神经网络（RNN）在每个步骤中顺序地预测对象二进制掩码。另一组监督实例分割方法是基于聚类的。在[5]中，其思想是首先计算两个像素属于同一对象的可能性（使用深度神经网络），然后使用这些可能性将图像分割为对象实例。代替预测像素之间的相似性，[2]中的方法预测每个像素的能量值，即能量表面。4T.作者：J.J. M. G.卡内罗岛里德然后使用面来使用分水岭变换算法将图像分割成对象实例现有实例分割方法的共同缺点是它们需要由注释掩码组成的强监督信号在训练过程中使用的已知对象。相比之下，我们的贝叶斯实例分割方法不一定需要这样的对象注释掩码，同时能够分割所有对象实例，而不管它们是否已被检测到并且来自已知或未知类。无监督分割：与基于学习的分割相比，无监督分割方法[6，15，26]能够在没有上述强监督训练信号的情况下发现未知对象。然而，这些方法通常对视觉对象做出强有力的假设（例如，它们往往具有相似的颜色、纹理并共享强边缘），因此依赖于诸如颜色、深度、纹理和边缘的低级图像线索来进行分割。因此，他们的结果往往相对不准确。相比之下，我们的分割方法结合了最好的两个世界使用一个统一的公式。特别地，我们的方法利用先前的对象位置（例如，由对象检测器给出）来改善整体图像分割。同时，我们的方法不需要所有对象实例的昂贵的分割掩模进行训练。3开集语义实例分割设I：Ω → R是定义在离散像素网格上的输入图像Ω ={v1，v2，. . . }，即，是像素V处的颜色或强度。语义实例分割的目标是将图像IΩ分解成各个对象实例区域（例如，椅子，监视器）和填充区域（例如，地板、天花板）以及它们的语义标签。特别地，寻求将图像分割成k个非重叠区域ki=1Ri=Ω，Ri∩Rj=，ij，（1）以及将每个区域R∈R分配给语义标签lR。与语义分割任务不同，这里的区域不应包含同一类的多个对象实例。然而，区域可以不是连续的，因为遮挡可以将区域分成断开的片段。最近，监督检测和分割方法由于其简单性而变得首先，将基于深度学习的对象检测器应用于输入图像，以根据边界框D生成m个检测。然后，对每个包围盒应用语义分割网络，为每个实例生成分割掩码，从而得到m个区域{R1，R2，. . . ，R m}。然而，显然，（1）中的条件不一定满足，因为mi=1 Ri，RiRj=，<$i=j。（二）∪∪开集语义实例分割5i=1这意味着并非图像中的所有像素都被分割，并且两个分割掩模可以重叠。虽然第二个问题可以使用像素投票机制来解决在开集世界中，图像可能捕获检测器未知的对象，因此属于这些未知对象实例的像素将不会被这种检测和分割方法标记。未检测到的对象也不被分割理想地，需要能够在已经或没有检测到的图像范围内分割所有个体对象（和“对象”）的模型。换句话说，所有已知和未知对象实例都应该被分割。然而，未识别和未识别的对象将被视为“未识别”标签。为了实现这一目标，在这项工作中，我们提出了一个分割模型，每-全局地形成图像分割（即，保证条件∪kRi=Ω）因此每个Ri都是相干区域。分割过程还使用检测集D将标签最优地分配给这些区域。在下一节中，我们将讨论实现这一目标的贝叶斯公式。4贝叶斯公式类似于[27]中的无监督贝叶斯图像分割公式，我们的图像分割解决方案S具有以下结构：S=（（R1，t1，θ1），（R2，t2，θ2），. . . ，（Rk，tk，θ k）），（3）其中，Ri上的字符串通过与字符串θ i相似的方式“被扩展”。下面将给出ti和θ i的M或e个精确定义。区域k的数量也是在贝叶斯框架中，分割S的质量被测量为后验分布的密度：p（S|I）∝p（I |S）p（S）S ∈ S，（4）其中p（I |S）是似然，p（S）是先验，S是解空间。在下文中，我们将讨论我们工作中使用的可能性和先验术语4.1似然模型我们假设图像中的对象区域是相互独立的，形成以下似然项：p（I |S）= 雷克i=1p（IRi|ti，θi）。（五）面临的挑战是定义一组强大的图像模型，解释复杂的视觉模式的对象类。标准的机器学习方法是使用已经手动注释的训练图像（即，分段的）。不幸的是，在开集问题中6T.作者：J.J. M. G.卡内罗岛里德y由于对象类别的数量无限地增加，因此手动注释所有可能的对象类的训练数据变得不可行。在这项工作中，我们考虑三种类型的图像模型来解释图像区域：边界/轮廓模型（C）、边界框模型（B）和掩模模型（M）即，t∈ {C，B，M}。我们使用边界来描述未知区域。更也可以使用诸如高斯混合的复杂模型，但是它们具有较高的计算成本。边界框和掩模模型用于已知对象。边界/轮廓模型（C）。图像中的对象通常由其轮廓隔离。假设我们有一个方法（例如，COB [12]），其能够从图像估计轮廓概率图给定区域R，我们可以将其外部边界得分cex（R）定义为边界上的最低概率，而其内部边界得分cin（R）是内部像素中的最高概率区域R是对象的可能性被定义为：p（I R|c ex（R），c in（R））[exp（−|cex（R）−1|（二）2ex×exp（−|c在（R）− 0 |2）]|R|2在（六）其中σex和σin 是标准偏差参数。根据（6），具有强外部边界（≈1）和弱内部边界（≈0）的区域更有可能代表物体。我们使用σ in= 0。4和σ ex= 0。6.边界框模型（B）。给定由边界框b = [cx，cy，w，h]表示的对象检测d、对象类别c和检测得分s，区域R来自对象d的可能性为：p（I R|b）∝IoU（b R，b）× s ×∏v∈Rexp（−|Vx-cx2W|2)exp（−|vy--|（二）2H（七）其中b R是覆盖区域R的最小边界框，IoU（. ）计算两个边界框之间的交集，[vx，vy]是像素v在图像空间中的位置离包围盒中心的标准偏差σw和σh分别是包围盒宽度w和高度h的函数。为了避免具有较高检测分数的较大边界框占据所有像素，我们通过设置σw=wα和σh=hα来鼓励较小的边界框，其中α是小于1的常数。在我们的实验中，我们设置α= 0。8.掩模模型（M）。类似地，给定由分割掩码m、对象类c和检测分数s表示的对象检测d，区域R来自对象d的可能性为：p（I R| m）∝ [IoU（R，m）×s] |R|、（8）其中IoU（）计算两个区域之间的交集。注意，在我们的框架中，掩码模型是可选的。σσσσ开集语义实例分割7我4.2先验模型我们的先验分割模型定义为：p（S）<$exp（−γk）×雷克i=1exp（−|R |0的情况。九、×exp（−ρ（Ri）），（9）其中k是区域的数量，并且γ是恒定参数。在（9）中，第一项exp（-γk）惩罚区域的数量k，并且第二项exp（-γ k）惩罚区域的数量k。|R i|0的情况。9）鼓励大区域。函数ρ（Ri）计算区域R中的像素总数与其凸包面积的比率，鼓励紧凑区域。在我们的实验中，我们设置γ=100。5基于模拟退火的定义了语义实例分割问题的模型之后，下一个挑战是快速找到最优分割S*，使解空间S上的后验概率最大化S*= argmax p（S|（10）S∈S或者类似地最小化能量E（S，I）=-log（p（S|（第一卷））。在（3）中定义的分割S可以被分解为S =（k，π k，（tl，θ1），（t2，θ2），. . . ，（tk，θ k）），其中π k=（R1，R2，. . . ，R，k）是图像域Ω划分成恰好k个非重叠区域的分区。给定一个划分πk，通过比较不同图像模型下Ri的似然性，可以很容易地计算出每个区域Ri∈πk的最优ti和θi然而，更困难的部分是划分πk的估计。给定图像域Ω，我们可以将其划分为最小1个区域和最大|Ω|地区令ωπk是图像的所有可能分区πk到k个区域的集合，则全分区空间为：P = ∪ |Ω|ω π。（十一）k=1k很明显，检验所有可能的k值不同的划分πk是不可行的。我们通过采用模拟退火（SA）优化方法[28]来近似能量函数E（S，I）的全局最优值来缓解这个问题。5.1模拟退火算法1详细描述了我们的模拟退火方法，以最小化E（S，I）=-10g（p（S））上的能量函数i|（第一卷））。我们的算法形式是在不同k的图像分区（π k → π k ′）之间的“运动”的序列，在每个步骤确定性地计算每个区域Ri的模型参数（ti，θi）。建议的分割概率接受，以避免局部极小值。8T.作者：J.J. M. G.卡内罗岛里德K开集贝叶斯实例分割算法1输入：一组检测（边界框或掩模）、初始分割S、E（S，I）和温度T。输出：最优分割S。1：S*= S。2：对最后一个分区πk附近的相邻分区πk’进行采样。3：更新参数（t，θ）i= 1，2，. . .，k′.我我′4：创建新的解S =（k，πk’，（tl，θ1），. . . ，（tk′，θk′））。5：计算E（S，I）6：概率exp（E（S*，I）−E（S，I））T、S=S.7：T = 0。99T，并从步骤2开始重复，直到停止标准为真。算法1的关键组成部分是当前分区πk附近的新分区πk’的采样（行2）。好的分区被采样得越快，算法1就越快达到最优的S*。在第5.2节中，我们提出了一种基于区域层次结构的高效分区采样方法。5.2高效分区采样我们的模拟退火为基础的实例分割方法的关键组成部分是一个有效的图像分区生成器的基础上的边界驱动的区域层次结构。区域层级是图像的多尺度表示，其中区域是具有相似特性（即，颜色、纹理）。较低级别的类似区域被迭代地合并到较高级别的较大区域中区域层次结构可以使用单个超度量轮廓图（UCM）[1]有效地构建图像区域层级的常见方式是基于图像边界，其可以使用诸如颜色的局部特征来估计，或者使用深度卷积网络（例如，卷积神经网络）来预测。[12]）。在这项工作中，我们使用[12]中提出的COB网络进行对象边界估计，因为与其他方法相比，它具有更好令R表示区域层级（树）。R的一个重要属性是可以通过选择树的各个级别或执行树切割来生成有效的图像分区[14]。以R为条件，可以使用动态规划精确地找到最佳树木切割不幸的是，由于不完美的边界估计，分层结构R的区域可能不能准确地表示图像此外，遮挡可能会导致对象分割到树的不同区域。结果，通过最优树切割获得的最佳划分可能远离最优划分。下面，我们将展示如何基于初始区域层次结构R对更高质量的图像分区进行采样。∗开集语义实例分割9图2：算法1进行时的中间分割结果。左边是初始化的分割。右是算法收敛时的最终结果在每个图像中，边界框表示由经训练的检测器返回的检测到的对象注意黑色边界框当前被算法设π k=（R1，R2，. . .，Rk）R是当前图像分区，可以通过首先对R ∈ R\ π k上的一个区域进行随机采样来提出新的分区，该新分区被分配到π k上的当前分区。是与R重叠的区域的子集，其中|AR|表示A R中区域的数量。可能发生以下情况：– R=∪AR. AR中的区域将合并为单个区域R。– |= 1，R A R.|= 1, R ⊂ AR. AR将被分成两个子区域：R和AR\R。– |> 1，R ∪ ∪A R.|> 1, R ⊂ ∪AR. AR中的每个区域将被R分割成两个子区域，其中一个将合并到R中。这是一个分裂和合并的过程。可以看出，这种简单和高效的操作通常可以在概率上对拆分、合并以及拆分和合并过程进行重新计算，从而允许探索不同基数的分区空间。注意，最后两个移动可以生成不在原始区域层级R中的新区域候选。这些区域在下一次迭代中被添加到R中。图2展示了在模拟退火优化过程中分割的逐步改进重叠和重叠操作不可能合并空间上分离的区域。由于遮挡，空间隔离的区域可能来自同一对象实例。给定当前分割πk和由边界框b或掩码m表示的检测，我们通过对πk中与b或m重叠的区域对进行采样来创建更多区域候选这些区域在下一次迭代中被添加到R中。6实验评价在以下所有实验中，我们运行算法1 3000次迭代。对于每个图像，我们运行COB网络[12]并计算20个级别的区域层次结构，其中级别10将用作初始化分割。6.1基线由于我们不知道任何以前的工作解决同样的问题，我们开发了一个简单的比较基线。注意到我们方法10T.作者：J.J. M. G.卡内罗岛里德图图3：基线（顶行）与我们的方法（第二行）以及边界框监督。测试图像来自NYU数据集。边界框表示检测到的对象。注意，并非所有检测到的对象实例都用于最终分割。黑色边界框是被方法是图像，并且可能是由对象检测（例如，Faster-RCNN）或实例分割方法（例如，Mask-RCNN）在已知类上训练。在一些情况下，在图像中未检测到已知对象。对于基线方法，我们首先应用无监督分割方法将图像分解成一组非重叠区域。如果给出一组检测（边界框），我们将每个分割区域分类为这些检测到的对象，使用交叉联合得分。如果最大得分小于0.25，则将该区域分配给未知类。当给定一组对象掩码时，我们将这些掩码覆盖到分割上。使用检测分数对掩模进行排序（以升序），以确保高置信度掩模将位于顶部。我们通过对UCM进行阈值处理来开发无监督分割，UCM是从COB网络[12]估计的边界图计算出来的。我们使用不同的阈值的基线方法，包括最好的阈值计算使用地面实况数据。如[12，14]所述，这种分割方法大大优于其他现有的无监督图像分割方法，使其成为比较的强基线。6.2开集数据集为了评估，我们创建了一个测试环境，其中包括已知和未知的对象类。在计算机视觉中，COCO数据集已被广泛用于训练和测试目标检测和实例分割方法。该数据集具有80个对象类的注释（边界框和遮罩）。我们选择这80个类作为已知类。此外，流行的NYU数据集具有894个类的注释，其中781个是对象，113个是填充物。我们观察到（手动检查）COCO数据集中的60个类实际上出现在NYU数据集中。因此，我们选择NYU数据集作为开集语义实例分割11图4：基线（顶行）与我们的方法（第二行）与掩码监督。测试图像来自NYU数据集。边界框表示检测到的对象60个已知和721个未知的测试集，用于对我们的方法和基线方法进行基准测试。6.3消融研究我们在三种不同的设置中将我们的方法与基线进行比较：1）无监督，2）边界框监督和3）掩码监督。在第一种情况下，我们假设没有可用于训练对象检测或实例分割网络的训练数据。在第二种情况下，我们假设已知的对象类仅用边界框来注释，使得可以训练对象检测器（即，Faster-RCNN）。值得一提的是，虽然我们的方法可以由给定的一组边界框（如果可用）引导，但基线方法在分割时不使用给定的边界框。所有这些都是因为对象分割和对象标记是顺序进行的。最后，在最后一个设置中，如果已知对象实例用二进制掩码仔细注释，则可以训练实例分割网络（即，掩码- RCNN），然后将其应用于测试图像以返回一组分割掩码及其类别。预测的分割掩模被作为基线和我们的方法的输入。在我们所有的实验中，我们使用Detectron1，它实现了Mask-RCNN方法，来生成边界框和分割掩码。我们选择在COCO数据集上训练的模型。评估对于每个图像，我们首先运行匈牙利匹配算法以基于IoU分数将地面实况区域与预测区域相关联。然后，我们计算，给定IoU阈值，精确率和召回率，这将通过F-1分数进行总结。请注意，我们分别评估已知和未知对象类。表1报告了在不同IoU阈值下使用F-1评分首先，我们的方法1https://github.com/facebookresearch/Detectron12T.作者：J.J. M. G.卡内罗岛里德表1：我们的方法和基线方法在不同监督信息下对654张NYU RGB-D测试图像的定量比较结果用不同的阈值对我们分别1 1表2：在5k COCO验证图像上测试的80个已知类的比较结果mIoUw按对象大小方法监督地图mIoUwMiou基线弱（方框）10.126.625.2我们的方法弱（方框）20.033.632.3Mask-RCNN完全（盒子和面具）30.538.737.3当两种方法都不受检测引导时，即使当基线被提供使用地面实况计算的最佳阈值（0.4）时，也比基线执行得此外，在边界框和遮罩的指导下，我们对已知对象类的准确性如预期的那样显著提高。相反，由于给定的掩码被贪婪地覆盖到无监督分割结果上，因此在使用掩码的情况下，基线的加速被划分为分段。这些结果证实了我们的全球贝叶斯图像分割方法相比，贪婪的基线方法的功效。图3和图4展示了我们的方法和基线之间的定性比较结果。可以看出，基线方法未能正确地分割对象（欠分割或过分割）。相比之下，我们的方法，由给定的边界框指导，表现得更好。更重要的是，基线方法不采取给定的边界框分割，它不能抑制多个重复的检测（具有不同的类）在同一位置，不像我们的方法。6.4已知目标现有的实例分割方法（例如，Mask-RCNN）需要用于训练的地面实况实例掩码。但是，注释分割蒙版方法监督已知未知F50F75F50F751 1基线（0.3）无/B箱40.1 21.147.8 26.3基线（0.3）口罩10.6 5.119.5 10.9基线（0.4）无/B箱47.4 26.145.2 26.7基线（0.4）口罩7.3 3.813.25 7.9我们的方法没有一45.6 22.655.7 32.2我们的方法BBoxes48.6 23.154.2 30.4我们的方法口罩51.1 25.953.8 30.3开集语义实例分割13所有对象实例都非常昂贵。尽管如此，我们的语义实例分割方法不需要用于训练的掩码注释在这里，我们将已知对象的弱监督实例分割与完全监督的Mask RCNN方法进行了比较。最近，胡等。[8]提出了一种学习转移方法，称为MaskX RCNN，例如当只有已知对象类的子集具有掩码注释时进行分割。然而，我们无法与MaskX RCNN进行比较，因为它的预训练模型和预测的分割掩码都不是公开可用的。虽然我们的方法每个像素输出一个实例标签，但Mask RCNN为每个图像返回一组重叠分割掩码。因此，这两种方法实际上不能进行比较。为了公平起见，我们对Mask RCNN我们使用联合平均交叉（mIoU）度量来测量分割准确性。我们首先运行匈牙利匹配算法以将预测区域与s上的地面真实区域相匹配。"at ched“I oU是一种包含所有语义和语义类别的抽象概念我们还报告了平均精度（mAP）得分，就像Mask RCNN一样。然而，我们注意到，mAP度量仅适用于输出是排名项的集合的问题。相比之下，我们的方法返回，对于每个图像，一个单一的像素分割，其中每个像素被分配给一个单一的对象实例，没有任何排名。表2报告了比较结果。可以看出，我们的方法，虽然只需要边界框监督，是有竞争力的尊重Mask RCNN，它需要所有已知对象实例的地面真实分割掩码进行训练。这再次表明了我们的方法对于开集实例分割问题的有效性，在开集实例分割问题中，如果不是不可能的话，注释所有对象实例的分割掩模是昂贵的。图5展示了使用来自COCO数据集的图像的来自我们的方法的示例语义实例分割结果。注意，我们的方法不仅能够分割已知的物体，而且还能够以高精度分割未知的物体和材料，如草，天空。7讨论和结论我们已经提出了一个全球性的实例分割方法，有能力分割所有的对象实例和场景中的东西，无论这些对象是已知的或未知的。这种能力对于在开放集条件下工作的自主机器人非常有用[23]，其中机器人将不可避免地遇到不属于训练数据集的新对象。与最先进的监督实例分割方法[4，7，19，29]不同，我们的方法不对每个检测独立地执行分割结果是一组相干区域，其在感知上被分组并且每个都与已知检测或未知对象实例相关联。我们用公式表示实例14T.作者：J.J. M. G.卡内罗岛里德图5：我们的方法在COCO数据集上的示例实例分割结果。边界框表示检测到的对象。在这些示例中，我们的方法仅使用边界框监督。注意，我们的方法不仅分割检测到的对象，而且分割其他未检测到的和未知的对象在贝叶斯框架中的分割问题，并近似使用模拟退火方法的最佳分割。我们可以预见，开集实例分割将很快成为该领域的一个热门研究课题。因此，我们相信所提出的方法和所提出的实验设置将作为该领域中未来提出的方法的强基线（例如，端到端学习机制）。此外，现有的监督学习方法需要对所有对象实例进行大量精确的掩码注释以进行训练，这对于扩展到新的对象类别是非常昂贵的。我们的方法提供了一种替代方案，它是基于一个更自然的增量注释策略来处理新课程该策略包括从图像中显式地识别未知对象，以及使用由“人”或“父”（诸如人）提供的可接受的信息来创建新的对象模型致谢本研究得到了澳大利亚研究委员会通过机器人视觉卓越中心（CE140100016）和发现项目（DP180103232）的支持。开集语义实例分割15引用1. Arbelaez，P.：利用超度量等高线图进行自然图像的边界提取。2006年计算机视觉与模式识别研讨会（ CVPRWpp. 182http ：//doi. org/10。1109/CVPRW. 2006年482. 白，M.，乌尔塔松河：用于实例分割的深分水岭变换。In：2017 IEEEConference on Computer Vision and Pattern Recognition，CVPR 2017，H〇n〇lu，HI，USA，2017年7月21日至26日。pp. 28583. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集在：IEEE计算机视觉和图像处理会议论文集中。pp. 32134. Dai，J.，他，K.，孙杰：通过多任务网络级联的实例感知语义分割见：CVPR（2016）5. Fathi，A.，Wojna，Z.，Rathod，V.，王，P.，Song H.O. Guadarrama，S. ， Murphy ， K.P. ：基于深度度量学习的语义实例分割。 CoRRabs/1703.10277（2017）6. Felzenszwalb ， P.F. ， Huttenlocher ， D.P. ：高效的基于图的图像分割。InternalJour nalofComuterVison59（2），1677. He，K.， G.，G.， Doll'ar，P.， Girshi ck，R. ： MaskR-CNN 。arXiv：1703.06870（2017）8. Hu ，R. ， Doll'ar，P. ， H e ，K. ，达瑞尔，T. ， Girshi ck， R. B. ：LearningingtoosegenteryteCoRRabs/1711.10370 （ 2017 ），http://arxiv.org/abs/1711.103709. Kim，C.J.，Nelson，C.R.，等：状态空间模型与状态转换：经典和吉布斯采样方法及其应用。02 The Dog of the Woman（1999）10. 林，G.，Milan，A. Shen，C.，Reid，I.：RefineNet：用于高分辨率语义分割的多路径细化网络。在：CVPR（2017年7月）11. 林，T. 是的，我是M Belongie，S.，嗨，J.， Perona，P.， Ramanan，D.，Doll'ar ， P.，Zitnick，C.L.：MicrosoftCOCO：CommonObjectsinContext ， pp.740-755 Springer International Publishing（2014）12. 我是K 彭特-图瑟特，J.， Ar bel'aez，P.，戈尔湖V. ：合并的值已删除的边界：从图像分割到高级任务。IEEE Transactions on Pattern Analysis andMachine Intelligence（TPAMI）（2017）13. Milan ， A. Pham ， T. ， Vijay ， K. ， Morrison ， D. Tow A.W. 刘， L. ，Erskine，J.，Grinover河Gurman，A.，Hunn，T.，Kelly-Boxall，N. Lee，D.，McTaggart，M.，Rallos，G.，Razjigaev，A.，Rowntree，T. Shen，T.，史密斯，R.F.，Wade-McCue，S.，庄志，字：Lehnert，C.F.，林，G.，里德身份证科克私家侦探Leitner，J.：从有限的训练数据中进行语义分割。CoRR abs/1709.07665（2017）14. Pham，T.，做吧T T.， Sünderhauf，N.， Reid，I. ：SceneCut：用于室内场景的几何学和对象分割。 2018 IEEE机器人与自动化国际会议（ICRA）15. 范TT Eich，M.，里德身份证Wyeth，G.：密集室内三维地图分割的几何一致性平面提取。In：IEEE/RSJInternationalConf-fe-nceonItelligentRobotsandSystems. pp. 419916. 范TT里德身份证Latif，Y.，Gould，S.：分层高阶回归森林字段：三维室内场景标注的应用。2015年IEEE International ConferenceonComputerVision（ICCV）pp. 224617. 皮涅罗邮政局科洛伯特河Dollr，P.：学习分割候选对象。In：NIPS（2015）16T.作者：J.J. M. G.卡内罗岛里德18. 皮涅罗邮政局Lin，T.Y.，科洛伯特河Dollr，P.：学习细化对象分段。In：ECCV（2016）19. Redmon，J.， Farhadi，A.： YOLO9000：更好、更快、更强。 Corrabs/1612.08242（2016）20. Ren，M.，Zemel，R.S.：端到端的实例分割与经常性的关注。在：CVPR（2017）21. Ren，S.，他，K.，格尔希克河孙杰：更快的R-CNN：利用区域建议网络进行实时目标检测。神经信息处理系统进展（NIPS）（2015）22. Romera-Paredes，B. Torr，P.H.S.：循环实例分割。In：ECCV（2016）23. Scheirer，W.J.，de Rezende Rocha，A.，Sapkota，A.，Boult，T.E.：开集识别。 IEEE Transactions on Pattern Analysis and Machine Intelligence35（7），175724. Silberman，N. Hoiem，D.，Kohli，P.，Fergus，R.：室内分割和支持从rgbd图像推断。 In ： Proceedingsofthe12thEuropeanConferenceonComputerVision-VolumePartV. pp. 746-760 ECCV25. S ünderhau f，N.， Pham，T. T.，如果，Y.， Milfold，M.， Re i d，I.D. ：使用面向对象的语义映射来实现。IEEE/RSJ智能机器人与系统国际会议（2017）26. 特雷弗A.J.B.Gedikli，S.，Rusu，R.B.，Christensen，H.I.：高效有序的点云分割与连接组件（2013）27. Tu，Z.，Zhu，S.C.：基于数据驱动马尔可夫链蒙特卡罗的图像分割。IEEETrans.PattternAnal.Mach。我告诉你。24（5），65728. Van Laarhoven，P.J.，Aarts，E.H.：模拟退火In：模拟退火：这是一个很好的例子，我的意思是，我703TheDark（1987）29. 李毅，齐浩志，J.D.X.J.，魏云：完全卷积的实例感知语义分割（2017）

下载后可阅读完整内容，剩余1页未读，立即下载