基于实例分割、语义标注和支撑关系推理的室内场景解析方法

149 浏览量更新于2023-10-15 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1基于实例分割、语义标注和支撑关系推理的1、3Wei Zhuo，2Mathieu Salzmann，1、3Xuming He，1、3Miaomiao Liu1澳大利亚国立大学，堪培拉，澳大利亚2CVLab，EPFL，瑞士3Data61，CSIRO，堪培拉，澳大利亚wei. anu.edu.au，mathieu. epfl.ch{xuming.he，miaomiao.liu}@ data61.csiro.au摘要多年来，室内场景解析在计算机视觉社区中引起了越来越大的兴趣。现有的方法通常集中在这个具有挑战性的问题的各种子任务。特别地，虽然它们中的一些旨在将图像分割成区域，例如对象或表面实例，但其他的旨在推断给定区域的语义标签或它们的支持关系。这些不同的任务通常被视为单独的任务。然而，它们之间有着很强的联系：好的区域应该尊重语义标签;只能为有意义的区域定义支持;支持关系强烈依赖于语义。因此，在本文中，我们引入了一种方法，联合分割的实例，并推断他们的语义标签和支持关系，从一个单一的输入图像。通过利用层次分割，我们formulate我们的问题，共同找到对应的实例和估计他们的类标签和成对的支持关系的层次结构中的区域。我们通过马尔可夫随机场表达这一点，这使我们能够进一步编码不同类型的变量之间的联系。该模型中的推理可以通过整数线性规划精确地完成，并且我们在结构化SVM框架中学习其参数。我们的实验上NYUv2证明推理的好处，共同对所有这些子任务的室内场景解析。1. 介绍室内场景理解是计算机视觉的核心挑战之一它旨在提供有关场景中对象的详细信息，例如它们的类型以及它们如何相互作用。这样的理解水平可能在许多应用中具有很高的影响，例如个人机器人，其中，为了能够与对象交互需要推理它们的语义以及它们如何相对于彼此放置。本质上，室内场景解析是一个复杂的问题，包括多个子任务，例如将场景分割成有意义的区域[2，7，18]，例如对象或表面实例，预测场景中每个像素的语义标签[16，4，22]并推理不同区域的支持关系[11，6，19，15]。在文献中，除了[20]关于区域和语义的联合然而，这些子任务确实是紧密相连的.例如，两个区域的支持关系与它们的语义高度相关;可以通过使用语义上有意义的区域来促进关于支持的推理通过单独或顺序地处理这些任务，现有方法无法利用所有这些依赖关系的全部集体力量因此，在本文中，我们介绍了一种方法来联合分割的实例，并推断其语义标签和支持关系，在室内场景从一个单一的输入图像。为此，我们利用一个分层分割和制定我们的问题，在这个层次结构中找到对应于实例的区域，同时预测每个这样的区域的语义标签和任何一对这样的区域之间的支持关系我们共同表示这些子任务在一个单一的马尔可夫随机场（MRF）。这使我们能够有效地编码它们之间的依赖关系，从而利用我们整体问题的所有联系。我们进行推理的MRF正是通过制定它作为一个整数线性规划问题。为了应对这个问题的规模，我们建议使用一个回归器来训练预测每个区域与地面实况实例的重叠，以有效地修剪区域候选。由于这种降低54295430i=1i=1推理策略，我们可以学习我们的模型参数为此，我们设计了一个损失函数，反映了我们的室内场景解析形式主义的多任务性质。我们在NYUv2数据集上证明了我们方法的有效性[19]。我们的实验证明，考虑区域之间的依赖关系，它们的语义和它们的支持有助于改善相应变量的预测，对支持关系的影响特别大2. 相关工作室内场景理解一直是计算机视觉领域的一个重要研究热点.如上所述，这个具有挑战性的问题由多个子任务组成特别是，在这里，我们解决了实例分割，语义标记和支持关系预测的任务。因此，我们在下面集中讨论为完成这些任务而提出的方法。将图像分割成区域多年来吸引了巨大的兴趣[1，2，3，18]。对这些文献的全面回顾超出了本文的范围。在这里，我们简要地讨论了已用于室内场景理解的那些。在这种情况下，最直接的方法包括使用标准的过分割方法，例如SLIC [1]，Mean-Shift [3]和归一化切割[18]。在[14]中，多个这样的过分割被联合用于单目正常估计。相比之下，许多方法倾向于利用分层分割[1，2，7，9]。虽然一些作品然后选择该层次结构中的特定级别[23，17]，但其他作品旨在自动找到其中的最佳活动区域，例如，适合图像轮廓[9]，或其像素强度遵循高斯分布[10]。然而，分割通常用作稍后执行某些其他任务的预处理步骤。特别是，语义分割方法通常依赖于预定义的图像区域[17，19，7，21]。这背后的动机是计算成本和对噪声的鲁棒性事实上，语义分割的早期方法此外，使用区域允许人们在空间上正则化预测。随着最近深度学习的出现以及高效推理方法的进步[12]，许多方法现在直接在像素级别工作[16，4，22]。相比之下，当涉及到估计支持关系时，区域的概念仍然是必要的。在[19]中引入了估计支持度的想法，其中使用分层分割来预测区域对之间的下方支持度、后方支持度或无支持度最近，[15]提出利用对象类和物理稳定性来推理区域之间的支持关系。所有这些方法都使用RGBD图像作为输入。相比之下，在这里，我们的目标是从单个标准RGB图像预测更重要的是，上面讨论的大多数方法解决了具有挑战性的室内场景的单个子任务。我们知道的唯一例外是[20]，它联合选择层次结构中的活动区域并预测它们的语义标签，[19]，它联合推理语义和支持关系。然而，这两个作品也使用RGBD作为输入。相比之下，在这里，我们的目标是联合分割对象或表面实例，并从单个RGB图像中推断它们的语义和它们的据我们所知，我们的工作构成了第一次尝试考虑所有三个子任务在一起。3. 我们的方法我们的目标是共同解决室内场景理解的三个子问题实例分割、语义标注和支持关系预测，以计算它们之间的依赖关系。为此，我们使用通过[7]的方法获得的分割层次。然后，我们的问题转化为选择在该层次结构中最匹配地面实况实例的区域，预测它们的语义标签和它们的成对支持关系。我们将其表示为具有三种类型节点的MRF中的推理：区域选择策略、语义标签策略和支持关系策略。模型中的边编码了这些变量之间的依赖关系。更具体地说，让我们假设给定一个层次的R区域形成一棵树。为了选择该树中的活动区域，我们定义一组二进制变量A ={a i}R、 a我∈ {0，1}。此外，设M ={M i}R，M i∈ {1，. . . ，K}是语义标签的集合。使用定义区域所属类别的变量对于K个语义类。然后，我们定义了一组额外的变量来模拟任何两个区域之间的支持关系为此，让Sij表示区域j向区域i提供的支持类型。在[19]之后，我们考虑三种不同的情况：无支撑（Sij=0）;j从下面支撑i（Sij=1）;j从后面支撑i（Sij=2）。请注意，我们通常将后两种类型统称为积极支持，而第一种类型对应于消极支持。此外，我们引入了一个隐藏区域来模拟这样一个事实，即某些区域可能被图像中不可见的区域所支持总之，支持变量可以表示为在这种情况下，[6]预测的高度和范围的表面，Ri=1，j=0，Sij∈ {0，1，2}，其中j=0对应于可以支撑物体或人的面孔。在[11]中，不是2D段，而是在3D框之间定义支持。更以隐藏区域表示支持。然后，我们制定的问题，共同推断这些S={ Sij}5431IJ我我我i，ks：SijIJk=0i，kIJ三种类型的变量作为最大化函数其中fsa是一对区域上的特征向量，如de-E（ A，M，S）=ΣRi=1φa（ ai）+ΣRi=1φma（Mi，ai）+φtree（A）在第3.3节中描述。向量wb包含对应于以下场景的参数：即使任一区域不活动，我们也预测正关系，R+Rφs（ Sij）+φsa（Sij，ai，aj）wc是两个区域都都很活跃，我们预测会有积极的关系典型地，i=1 j=0i=1j=0（一）我们想惩罚第一种情况而支持第二种情况一个.其他情况下被分配为零的固定成本。相对于A、M和S，其可以等效地转换为最小化MRF能量。该函数依赖于几个势，我们将在下面讨论。第一项φr（ai）是一元势，编码区域i活跃的概率。我们将这种势定义为φr（ai）=wTf a[ai=1]，其中[·]是指示函数，3.1. 推理为了在我们的模型中执行精确的推理，我们建议将其重写为整数线性规划（ILP）。为此目的，设a∈ B2R+1是表示A的状态的二进制变量的向量，其中ai，1=1编码了以下事实：aii是活动的，而ai，0=1对应于非活动区域从而当ai=0时将该电势设置为零。矢量fa是3.3节中定义的特征向量，wa是从数据中学习相应的参数向量。势φma（Mi，ai）编码如果区域i是活动的则预测区域i的特定语义标签同时，它将固定成本分配给...I. 在这里，我们添加一个额外的变量a0，1= 1，对应于隐藏区域，并强制它始终处于活动状态。Fur-1，m ={m i，k}，1 ≤ i≤ R，0 ≤ k ≤ K，表示对M和A的成对状态空间进行编码的二进制变量，其中m i，0表示其中对于一个AR，ai = 0的情况。二进制Mi，并且mi，k=0对应于成对状态活跃地区。这可以表示为.a i= 1且M i= k。另外，让s={si，j，t∈{0，1，2}}0ai = 0对所述支持关系变量的状态进行编码，以及φma（ Mi，ai）=wTfma（二）a=1z对应于高阶项的三重态ma：Mi 我我φsa（Sij，ai，aj），其中zi，j，l，l∈ {1，2，3}，对应于其中fma是特征向量，如第3.3节所述，其链接语义和支持关系。向量wma：Mi包含对应于每个类M i的参数，并且将从数据中学习。在Eq. 4.第一章我们模型中的推理可以重写为二元线性规划潜在的φ树（A）对活动区域的集合实施约束。为了使分割有效，每个像素argmaxa，m，s，zRθaai，1+ΣKθm mi，k+在图像中应该由单个区域覆盖。这是通过确保从分割层次的根开始的每条路径Ri=1si，j，ti=1k=0Rsi，j，t+sai，j，kzi，j，l（五）到一个叶子节点。为此，我们定义φtree（A）=i=1j=0t=0i=1j=0l=1Σγ∈Γ−∞[1/=Σi∈γ[ai=1]]，其中，Γ是所有受树中的根到叶路径一元势φs（Sij）编码a的概率ai，l，mi，u，si，j，t zi，j，l∈ {0，1}<$i，l，j，t，u，v支持变量属于这三个类中的任何一个。我们a0，1（六）=1，把这个势写成ai，0+ai，1=1， i（7）φs（Sij）=wTfs，（3）ΣKm= 1， m =1（8）其中fs是一个特征向量，如第二节所述，mi，0=ai，0， i（9）θθ5432第3.3节，链接支持类型和语义。还将学习每个类Sij的参数向量ws：Sij。Σ2t=0Σsi，j，t=1， i，j（10）最后，φ（S ，a，a）是高阶势，3zi，j，l=1，i，j（11）萨伊吉吉Σl=1编码支持变量之间的依赖关系，地区选择的。我们将这种势定义为i∈γai，1=1，<$γ∈Γ（12）Σ ΣRφsa（ Sij，ai，aj）= wsat∈{1，2}Σj=0si，j，t≥ai，1，ni（13）T SAt∈{1，2}（si，0，t+si，j，t）≤ai，1， ai，ji= 0（14）你好， Sij=/0<$（ai=0<$aj=0）]wT fsa，Sij/= 0，ai= 1，aj= 1（四）si，0，1≥mi，1，阿格里真托（15）拉克什茨Ijz=s， J.J.，j（16）0，否则，i，j，2i，j，05433·zi，j，3Σ2t=1 si，j，t，J.J.，j（17）zi，j，3≤ai，1，i，j （18）zi，j，3≤aj，1，ni，j（19）zi，j，3Σ2t=1 si，j，t+ai，1+aj，1-2， C1，j，（20）其中θ·s编码上述不同的电势。约束可以解释如下：7-11强制二进制变量对应于有效的预测。当量12对区域选择变量执行树约束。当量13迫使一个区域在活动时由至少一个区域支撑。该约束对现实世界中没有浮动区域的事实进行了编码。当量如果场景中存在可以支持隐藏区域的区域，则14防止该区域被隐藏区域支持。当量15强制一个区域被隐藏区域支持，如果它的语义标签是地面（在我们的例子中是语义类1）。当量16-4. 为了解决这个ILP，我们使用Guidance。加快推理速度。虽然Guidelines非常高效，但对于我们处理典型的层次结构（包含大约200个区域）来说，它仍然太慢了。为了解决这个问题，我们建议首先修剪区域。该过程遵循两个步骤。首先，我们删除包含小于625像素的区域，根据我们的统计数据，这些区域不太可能对应于对象实例。其次，我们利用一个回归训练，以预测在联盟（IoU）的层次结构中的一个区域和地面实况实例之间为此，我们使用了一个具有三个完全连接的层的神经网络，与ReLU激活，批量规范化和dropout交织在一起。该网络由图描绘。1.一、我们使用深层特征与手工制作的几何特征相结合，作为这个浅层IoU回归网络的输入有关这些功能的更多详细信息，请参见第3.3节。我们使用真实IoU和预测IoU之间的平方损失来训练这个网络。为此，我们使用大小为256的批次，学习率为10−3，动量为0.95。脱落率设定为0.5。我们还对数据进行子采样，以获得大致平衡的训练集。为此，我们将IoU interval[0，1]离散化为10个bin，并对数据进行子采样，使得每个bin包含大致相同数量的样本。在测试时，我们保留了具有最高预测IoU的 80个区域图1. 我们的IoU回归器的架构。我们使用具有三个全连接层的网络来预测候选区域和地面实况实例之间的IoU。我们在第一层和第二层之后执行 ReLU 激活，批量归一化和dropout。94%的召回率，同时从5600对减少到1100对。给定特征，对的修剪过程平均每个图像花费平均每个图像的推理时间为0.2秒3.2. 学习给定训练数据，我们的目标是学习模型的参数。学习的挑战之一来自这样一个事实，即通常我们试图预测的地面实况实例不会出现在我们的分层分割中。然而，为了反映测试时会发生什么，我们希望使用从训练图像中获得的层次结构中的噪声片段来学习我们的模型。为此，在[20]之后，我们依赖于Oracle分割。下面，我们首先解释如何获得这些预言分割，然后讨论我们的学习算法。3.2.1Oracle细分oracle分割的目标是在噪声分层分割中的区域中找到最佳匹配地面实况实例并对应于有效树切割的那些区域，即，覆盖图像而不冗余。为此，我们使用[20]的ILP公式。这个公式依赖于两种二进制变量。第一个等价于我们的区域选择变量a={ai，l}，1≤i≤R，l∈ {0，1}，如上所述。第二类变量编码了层次结构中的地面实况实例和片段让我们将这些变量表示为o ∈ BG×R，其中G是地面实况实例的数量。然后，通过求解优化问题其满足分割树中的每个根到叶路径包含至少一个区域的约束。实际上argmina，oG.G.R.奥格岛og，i（21）这种修剪在极大地减少区域数量的同时，在Oracle加权覆盖中产生小于1%的减少修剪后，我们然后训练一个两类支持分类器对剩余的区域预测积极或消极的支持。我们利用这个分类器来修剪支持对。为此，我们阈值的分类器得分，以获得高召回率的积极支持。在实践中，我们实现受g=1i=1ai，l，og，k∈ {0，1}，ai，l，g，k，（22）ai，0+ai，1= 1，ai，（23）Σai，1=1， <$γ∈Γ（24）i∈ γ≤≥θ5434G我i，kg、ii，j，tog，i≤ai，1，ng，i，（25）ΣRog，i=1， g，（26）i=1其中A是A的作用集，即，使得ai=1的区域的集合，并且对于A（n）w类似。r. t. A（n）. Lr是区域g中的像素数，L是所有区域中的像素数，图像中的地面实况区域，Q是数字的行为ive对。这里，我们使用wls=1，wls =0。五、og，i+ aj，1≤1，ng，i，j，r sup（二十七）如果IoU（rg，rj）>IoU（rg，ri）其中，IoU（·，·）表示以下项之间的并集上的交集：损失增广推理结构化SVM学习的一个重要步骤是执行损失增强推理，以找到具有高损失的预测，但两个区域，θ为|LRG|（IoU（r，r）−IoU（r，r））对低能量（或者更确切地说，在我们的最大值g，iLgSGimimization formulation）。这可以表示为解决编码加权覆盖损失的数量，方法是选择区域i而不是s，这对应于地面实况区域g的最佳可能匹配。大多数约束只是迫使解决方案是有效的，与方程。27保证，在活跃的地区中，最好的一个是y=argmax△（y_n，y（n））+wTφ（x，y_n）。（二十九）y∈y将其转换为ILP，然后产生问题分配到地面实况区域。argmaxRθa ai，1+ΣK θmmi，k3.2.2通过结构SVM现在我们来谈谈学习问题。本a，m，s，oi=1Ri=1k=0结束，令D={（x（1），y（1）），（x（2），y（2）），...，（x（N），y（N））}是图像和标签对的集合，其中y（n）=+i=1 j=0t=0si，j，tsi，j，t{A（n），M（n），S（n）}包括来自分段树的分段的最佳选择，其使用oracle获得R+sai，j，kzi，j，l（三十）如上所述的分割，对应的语义i=1j=0l=1标签，作为每个区域中的主要标签，以及支持关系，在第4节中描述，用于图像i。G.G.R.+奥格岛奥格岛我们的目标是学习MRF中的权重恩-g=1i=1这个MRF中的能量可以等价地写为wT φ（x，y），其中w连接了我们试图学习的所有权重，并且，R+sli，j，tsi，j，t稍微滥用一下符号，φ（x，y）=[φa，φma，φs，φsa]连接相应的特征，以便计算不同的潜力。在边缘重新缩放结构SVM公式化之后，学习权重可以表示为优化问题i=1j=0t=0受（5）和（21）的约束。这里，θo编码区域上的损失，并且如（21）中所定义，θsl编码支持关系上的汉明损失。因此，它可以写成：min 1wT w+ λΣNǫθsl=1，s.t t St∈{1，2，3}。（三十一）w，n≤02Nnni，j，t QijS.T.w T[φ（x（n），y（n））− φ（x（n），y）]≤ △（y，y（n））− <$n，<$y其中△（y，y（n））返回任意预测的损失与最佳配置相比。在这里，为了反映我们的问题的性质，我们的目标是联合预测不同类型的变量，我们设计了多任务损失θθθθ5435IJΣΣR为了学习我们的模型，我们使用[13]的BCFW求解器。损失增强推理平均每幅图像需要1秒。3.3. 特征如上所述，IoU回归器、支持分类器和Eq. 1依赖于不同类型的特征。在这里，我们描述这些特征向量。IoU回归量依赖于四种类型的特征，如：△（y，y（n））=lsRR supQ1[Sij/=Sij]put，我们称之为Conv 5-SP、Pb-SP、Ext-Pb-SP和RGeo Conv 5-SP从空间合并的[8]fea获得。+wls1微升rLrgg∈ G-wls1微升rLgg∈ Gi=1j=0.Σmax IoU（rg，r（n））i∈A（n）i.Σmax IoU（rg，ri），i∈A（二十八）来自FCN-32 s模型的对流层的图形的[16]在NYUV2上进行微调，以使用RGB和HHA作为输入来预测语义。使用[5]的方法从深度预测中获得HHA。Pb-SP和Ext-Pb-SP是从上面提到的FCN-32 s模型的语义概率图导出的，在每个W5436我IJJIJ区域和1.25的边界框上的区域的范围分别围绕它。RGeo对应于[19]中使用的几何特征。支持分类器依赖于两种类型的特征。第一个连接两个区域的Pb-SP、Ext-Pb-SP和RGeo。第二个，表示为PGeo，包括在成对区域上计算的[19]特征向量fa是通过将两个4.1. 评估指标由于我们预测三种不同类型的变量，因此我们需要不同的指标来评估它们。在这里，我们使用：用途：实例分割精度。为了评估我们的分割结果，我们使用最大加权覆盖率，在地面实况区域G和预测区域R上定义我我们称之为RF和RGeo。RF覆盖率w（G，R）=1Σ|G||Max|maxIoU（rG，rR）在第二批之后，对应于特征图，所描述的3层神经网络中的实现模块|I| j=1j1，…|J I|ji第3.1节。它对IoU回归变量与区域选择之间的联系进行编码。特征向量fma包含由RGeo、Pb-SP、Ext-Pb-SP、Pb和Hm表示的五种类型的特征。前三个已经在上面描述过了Pb被定义为K维语义的区域像素上的平均值由与上述相同的FCN-32获得的tic概率向量。Hm的目标是将se-mantics和支持关系之间的依赖关系。为此，对于区域i，该特征通过在所有其他区域j上平均由我们的SVM支持分类器获得的i和j之间的每个支持类的概率特征向量fs由两个特征类型Ps形成PM。Ps直接作为预测的概率哪里|我 |是整组地面实况区域中的像素x像素的数量，其可能小于图像中的像素总数，以及|R G|是地面实况区域j中的像素数。语义标注准确性。为了评估预测的语义，我们使用在所有像素上计算的标准平均准确度和每类准确度，其中在类上进行平均。支持关系的准确性。对于支持关系，我们评估了不包含隐藏区域的对上的正支持类型这些值定义为#真正的积极预测我们的支持分类器项目管理的目标是建立依赖于-支持和语义之间的区别。它连接了se-精度=#积极预测、（三十二）上述两个区域的特征Pb特征向量fsa连接两个区域的RGeo和RF特征，以及由我们的3层神经网络预测的相应IoU。它还包括上面描述的PGeo在区域上的特征提取的运行时间和对分别为14 s和2.7s/图像4. 实验评价我们在NYUv2数据集上评估我们的模型，该数据集提供RGB图像及其相应的深度图。请注意，在这里，我们不使用这些深度图。该数据集包含749张用于训练的图像和654张用于测试的图像。地面实况区域，即，对象或表面实例，以及相应的语义由[19]提供。语义包括四类：背景、结构、道具和对象。地面实况支持关系由[20]在地面实况区域上定义。基于[20]的策略，我们将这些地面实况支持关系映射到我们的分割层次结构，如下所示：任何两个区域都具有大于0.25的地面实况区域的IoU的对被分配相应的地面实况类型。其他区域被分配无支持标签。如果在这个过程结束时，一个区域不被任何其他区域支持，我们将其定义为被隐藏区域支持。#真正的积极预测recall=.（三十三）阳性样本4.2. 实验结果我们现在展示我们在NYUv2上的结果由于我们的模型解决了多个任务，作为第一个实验，我们通过消融研究评估了它的几个组件的影响。为此，我们将我们的完整模型（我们的）与以下基线进行比较：基本：此基线仅执行实例分割，并包括Eq的区域一元和树约束。1. Ours-NS：该模型联合预测区域选择变量和语义。但是，它没有考虑到支持关系。该模型由Eq.中的前三项组成1.一、Ours-ND：该模型还推断了三种变量。它包含了Eq中的所有项。1，但不杠杆化链接支持和语义的特征，即，第3.3节中的Hm和Ps。本质上，在预测所有变量时，该基线仅对它们之间的有限依赖性进行建模。除了这些基线之外，我们还报告了使用第3.3节中讨论的线性SVM支持分类器（SC）获得的支持预测，其中，该分类器利用了关于具有地面实况和语义的区域IoU的特征编码信息。5437模型W. 盖扫描平均访问Sem Per-Cls访问制造精密支持召回基本58.9----SC---44.839.0我们的-NS59.373.072.0--Ours-ND59.373.372.247.041.9我们59.473.272.147.643.1我们的（GtSem）60.1--48.245.0表1.对NYUv2的评价。我们将我们的方法与几个基线进行比较，这些基线主要对应于我们完整模型请注意，其中一些基线并不能预测所有变量类型，因此只能在某些指标上进行评估这些结果表明，联合推断多个变量类型，特别是对质量的支持关系的重要性我们的语义实例支持图2. 对我们的结果进行定性评估。我们展示了输入图像、地面实况语义、我们的方法预测的语义以及我们的区域和支持预测。我们用白色表示正确的关系，用黑色表示不正确的关系。下方的支持由箭头表示，后方的支持由菱形表示。请注意，我们的语义与地面实况相当接近。此外，我们的区域通常对应于场景的语义有意义的部分，即完整的对象或表面实例，并且我们的支持对应于正确的关系。(Best以颜色查看）。我们的方法和这些基线的结果在表1中提供。请注意，有些基线不能预测所有变量，因此不能根据所有指标进行评估这些结果表明：（i）联合预测区域和语义提高了分割的质量（ii）与我们的支持分类器相比，预测所有三种类型的变量对支持质量产生了显着的提升;（iii）对不同变量类型之间的依赖性进行建模进一步改进了支持预测，特别是在召回方面。总的来说，我们认为，5438模型Oracle W.CovW. 盖扫描平均访问Sem Per-Cls访问制造精密支持召回基本68.861.1----SC----48.337.9我们的-NS68.862.874.873.7--我们68.862.775.374.349.538.6[20个]70.662.5----[19个]----54.5-表2. 关于NYUv2 RGBD的评价。我们将我们的方法与几个基线进行比较，这些基线对应于我们的完整的模型和最先进的方法[20，19]。请注意，虽然我们的oracle加权覆盖率低于[20]，但我们实现了更高的加权覆盖率，从而显示了考虑多个任务之间依赖关系的影响。图3.图像真实语义实例支持失败案例。在这里，我们的支持关系受到错误语义标签的影响。结果证明了联合推断区域、语义和支持关系的益处为了进一步证明语义的影响，我们进行了一个实验，在我们的模型中使用了地面实况该模型被表示为Ours（GtSem）。这导致了3.1%的召回率相对提高，从而表明更好的语义产生更好的支持。在图2中，我们提供了用我们的方法获得的一些定性结果。请注意，我们预测的语义标签与地面实况标签非常匹配。还要注意的是，虽然它们包含一定程度的过度分割，但我们生成的区域通常仍然保持相当大，具有明确的语义含义。我们的方法也能够预测准确的支持关系，即使在存在许多不同的对象，如图的最后一行。在图3中，我们展示了我们的方法的一个典型的失败案例。我们已经观察到，这种故障大多发生在一个区域被过度分割，或分配到错误的语义类别。注意，这再次指示室内场景解析的这些不同子任务之间的与基于RGBD的方法进行比较。作为如第2节所述，预测支持关系的现有方法都以RGBD图像作为输入。为了与这些方法进行比较，我们稍微修改了我们的方法以利用RGBD。特别地，我们使用地面真实深度生成层次结构，并使用地面真实深度提取我们的特征，除了语义概率特征。表2中的结果再次表明，我们的模型从解决多个任务中受益。请注意，尽管从我们的分段层次结构中获得的oracle性能低于[20]，通过我们的方法获得的分割具有更高的加权覆盖。换句话说，由于我们的加权覆盖率和oracle覆盖率之间的差距明显小于[20]，即，5.5% vs 8.1%，我们的模型基本上选择了比[20]更好的区域。与[19]的支持预测进行比较时应谨慎，因为区域不同。我们相信，这一com-mountain表明，这两种方法执行类似，与我们的方法提供有关场景的附加信息。请注意，我们期望比这里更彻底地利用深度可以给我们的方法带来更大的推动。5. 结论我们已经介绍了一种方法，联合分割图像中的实例，并预测其语义标签和支持关系。据我们所知，这是首次尝试联合处理室内场景理解的这三个子任务。我们的实验表明，联合推理这三个任务是有益的，特别是支持关系。然而，室内场景理解并不限于这三项任务。例如，人们还可以预测深度、表面法线和对象启示。最后，我们认为，所有这些问题都应该共同解决，以更好地利用它们的依赖性。这将是我们今后研究的重点。6. 确认第一作者由中国学术委员会和Data 61/CSIRO支持。作者还感谢NVIDIA为他们提供了特斯拉k40c显卡。5439引用[1] P. Arbelaez，M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE transactions on pattern analysis andmachine intelligence，33（5）：898[2] P. Arbel a'ez，J. 庞特-T使用t，J。 T. Barron，F. Marques和J· 马利克多尺度组合分组在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第328-335页[3] D. Comaniciu和P.米尔Mean Shift：A Robust ApproachToward Feature Space Analysis（Mean Shift：一种稳健的特征空间分析方法）IEEE Transactions on PatternAnalysis and Machine Intelligence，24（5）：603[4] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页[5] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年[6] R. Guo和D.霍伊姆支持室内场景中的表面预测。在IEEE计算机视觉国际会议论文集，第2144-2151页[7] S. Gupta，P. Arbelaez，and J.马利克rgb-d影像室内景物的感知组织与识别在IEEE计算机视觉和模式识别会议的Proceedings，第564-571页[8] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔欧洲计算机视觉会议，第346-361页。Springer，2014.[9] D. Hoiem，A.A. Efros，和M。赫伯特从图像中恢复International Journal of Computer Vision，91（3）：328[10] S. X. Hu，C. K. Williams和S. 托多洛维奇概率图像分割的树割方法。arXiv预印本arXiv：1506.03852，2015年。[11] Z. Jia，中国茶条A. Gallagher，A. Saxena和T.尘基于3D的推理，具有块、支撑和稳定性。在IEEE计算机视觉和模式识别会议论文集，第1-8页[12] V. Koltun.具有高斯边缘势的全连接crfs中的有效推理。高级神经感染过程Syst，2011.[13] S. Lacoste-Julien，M. Jaggi，M. Schmidt和P.普莱彻结构支持向量机的块坐标Frank-Wolfe优化。2013年，《国际反洗钱法》[14] L. 拉迪克，B。 Zeisl和M. Pollef e ys. 判别式训练的稠密表面法线估计。在欧洲计算机视觉会议上，第468Springer，2014.[15] W. 廖，M.Y. Yang，H.Ackermann和B.罗森哈恩支持关系与语义场景图。arXiv预印本arXiv：1609.05834，2016年。[16] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在 IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页[17] X.伦湖，澳-地Bo和D.狐狸. RGB-（d）场景标记：特征和算法。在计算机视觉和模式识别（CVPR），2012IEEE会议，第2759-2766页中。IEEE，2012。[18] Shi 和 J. 马利克标准化切割和图像分割。 IEEETransactionsonpatternanalysisandmachineintelligence，22（8）：888[19] N. Silberman，D. Hoiem、P.Kohli和R.费格斯。室内分割和支持从rgbd图像推断。欧洲计算机视觉会议，第746-760页。Springer，2012.[20] N. Silberman，D. Sontag和R.费格斯。使用覆盖损失的室内场景的实例分割。欧洲计算机视觉会议，第616-631页。Springer，2014.[21] Tighe和S. Lazebnik超级解析：可伸缩的超像素非参数图像解析。在欧洲计算机视觉会议上，第352-365页。施普林格，2010年。[22] S. Zheng，S. Jayasumana湾Romera-Paredes，V.维尼特，Z. Su，D.杜角，澳-地Huang，和P.H. 乇作为递归神经网络的条件在IEEE计算机视觉国际会议论文集，第1529[23] W. Zhuo，M. Salzmann，X.他和M。刘某用于单幅图像深度估计的室内场景结构分析。在IEEE计算机视觉和模式识别会议的Proceedings，第614-622页

下载后可阅读完整内容，剩余1页未读，立即下载