全景3D场景理解方法基于整体上下文图和关系优化

123 浏览量更新于2023-10-13 收藏 2.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12632DeepPanoContext：基于整体场景上下文图和关系优化的全景三维场景理解张成1崔兆鹏2蔡晨1刘帅成1曾兵1鲍虎军2张银达31电子科技大学2浙江大学CAD CG国家重点实验室3 Google摘要全景图像具有大得多的视场，因此与标准透视图像相比，自然地编码丰富的场景上下文信息，然而，这在先前的场景理解方法中没有被很好地利用在本文中，我们提出了一种新的全景3D场景理解的方法，恢复的3D房间布局和形状，姿势，位置，和语义类别的每个对象从一个完整的全景图像。为了充分利用丰富的上下文信息，我们设计了一种新的基于图神经网络的上下文模型来预测对象和房间布局之间的关系，和一个基于可微关系的优化模块，优化对象的安排与良好的设计目标函数的飞行。实现现有的数据要么与不完整的地面真相或过度简化的场景，我们提出了一个新的合成数据集，具有良好的多样性，在房间布局和家具放置，和逼真的图像质量的总全景3D场景的理解。实验结果表明，该方法在几何精度和物体排列方面优于现有的全景场景理解代码可在https://chengzhag.github.io/publication/dpc上获得。1. 介绍基于图像的整体三维室内场景理解是计算机视觉中一个长期的挑战性问题，由于场景的杂乱性和透视几何中的三维模糊性。几十年来，场景上下文（其遵循某些设计规则对跨多个对象的高阶关系进行编码）已被广泛用于改善场景理解[48，5]。然而，对于场景解析任务，自上而下的上下文是否比自下而上的基于局部外观的方法更重要或更不重要仍然是有争议和不清楚的，特别是对于在对象分类和检测方面取得巨大成功的快速新兴的深度一个可能的原因是*通讯作者图1：从作为输入的单个全景图像，我们提出的流水线估计布局和对象姿态，然后用对象重构来重构场景，以实现总体场景理解。标准照相机照片的视场通常小于60°，并且因此在共存于图像中的少量对象中仅可以利用有限的上下文。Zhang等人[48]提出了一种3D场景解析方法，该方法以360°全景图作为输入，其中几乎所有主要对象都可见。他们表明，同一图像中的对象越多，背景就越强，这使得即使在工程设计较少的局部特征下也能准确地理解3D场景。在本文中，我们赋予全景场景理解任务以更强的3D感知能力，并且旨在通过以单色全景图像作为输入来预测对象的形状、3D姿态、语义类别以及房间布局。为了实现这一目标，我们提出了一种新的基于深度学习的框架，该框架利用局部图像信息和全局上下文进行全景3D场景理解。具体来说，我们首先提取房间布局和对象假设从局部图像区域与全景图像定制的算法，并依赖于一个全球性的基于图的上下文模型，以有效地改善初始估计。总的来说，我们的方法实现了惊人的性能几何精度和对象的安排3D全景场景理解。除了用更先进的深度学习算法更新前辈[48]之外，重要的关键是12633性能增益是一种新颖的上下文模型，其预测对象和房间布局之间的关系，包括支撑、附着、相对定向等，然后将其馈送到优化中以调整对象布置。这是受到我们人类倾向于将物体紧紧地靠在墙上的常识的启发，例如，床或具有一致取向的并排，例如，床头柜，并且这些关系可以提供关键信息来修正对象布置误差，这些误差在传统度量中可能是微小的，但是由人类感知判断显然是错误的为了利用预测的关系，我们提出了一种新的可微优化与精心设计的目标函数，以调整初始对象的安排w.r.t.预测的关系，这进一步使得能够进行关系预测和对象布置的联合训练。优化是完全可微的，这可以与我们的基于图的上下文模型以及概念上的任何神经网络一起进行联合训练。不幸的是，全景场景数据集的整体3D场景解析仍然缺少在文献中。现有的全景数据集要么具有过度简化的场景[48]，纯粹基于2D的[39]，要么缺少重要的3D地面实况，例如对象姿势[1，4]。由于用精确的3D形状注释真实数据是非常具有挑战性的，我们重新排序合成数据，并创建一个新的数据集，用于整体全景3D场景理解。该数据集为对象位置、姿态、形状和成对关系提供了高质量的地面实况，并且很好地用于训练和严格的评估。虽然纯粹是合成的，但我们发现学习的上下文模型，主要依赖于室内场景上下文，但不严重依赖于图像外观，可以通过重新训练提供初始化的自下而上的模型自然地推广到真实图像。总之，我们的贡献如下。我们提出了用于整体3D场景理解的第一个基于深度学习的流水线，该流水线从单色全视图全景图像中恢复3D房间布局和场景中对象的详细形状、姿势、位置。为了充分利用上下文，我们设计了一种新的上下文模型，预测对象和房间布局之间的关系，然后由一个新的可微的基于关系的优化模块，以完善初始结果。为了学习和评估我们的模型，创建了一个新的数据集，用于全面的全景3D场景理解。我们的模型在几何精度和3D物体排列方面都达到了最先进的2. 相关工作3D场景理解3D世界中的场景理解是视觉社区中的热门话题。该任务包括一系列有趣的子任务，包括布局估计、3D对象检测和姿态估计以及形状重建。各种方法估计布局通过采用曼哈顿世界假设[32，7，34，50，43]或长方体假设[8，28，24，16]。可以使用基于CNN的方法从2D表示预测3D边界框和对象姿态[5，18，11，37，35，3]。对象形状也可以通过匹配类似的模型来恢复，具有几何或隐式表示[13，25，27，38，39]。14、22、20、19]。Total3D [30]是第一个联合解决多个场景理解任务的工作，包括估计场景布局，对象姿势和形状。最近，Zhanget al.[46]通过隐函数和场景图神经网络提高了所有三个任务的性能。然而，他们仍然遭受的不足利用场景中的对象之间的在这项工作中，我们研究的问题，使用全景图像，其中包含丰富的上下文信息相比，透视的视野有限用于场景理解的上下文上下文先验可以用于场景理解，床放置在地板上并与墙壁对齐。对于透视图像，一些方法[9，10]采用显式约束以避免对象重叠。Zhang等人[47]提出了利用场景上下文与3D上下文网络。最近，全景图像已经通过基于几何或语义线索设计的基于优化的方法[31，12，40，41，45]和基于学习的方法[50，23，43，34]被利用，这些方法具有对局部上下文的显著有利的Zhang等人[48]的3D场景理解的几个任务，通过生成基于上下文约束的 3Dhypothesis ，利用丰富的上下文信息提供的大视场（FOV）。然而，它们都没有提供对场景的完整理解。相反，我们提出了一个基于学习的框架，共同预测对象的形状，3D姿态，语义类别，和房间布局从一个单一的全景图像，它充分利用了场景的背景。全景数据集对于真实世界场景，第一个全景数据集由 Xiao 等人发布。 [39]，即 SUN360 ，并且随后由Zhang等人注释为室内场景理解。48.它包含高分辨率的彩色全景图，具有不同的对象、布局和轴对齐的对象框。然而，它缺乏对象姿态以及形状，并且仅包括700个图像，这对于神经网络训练是不合适的。2D-3D-S [1]和Matterport 3D [4]也是真实世界的数据集，具有更多的数据和更丰富的注释，但没有姿势。出于全景对象检测的目的，发布了具有边界FOV注释的一些数据集[6，44]最近，提出了用于结构化3D建模的大型照片级逼真数据集，即Structured3D [49]，但网格地面真实性尚未公布。全景场景数据集包含完整的地面实况，包括形状、对象布置，并且房间布局仍然缺失。12634图2：我们提出的管道。我们首先使用几种SoTA方法[46，30，15，34]进行自下而上的初始化，并提供各种特征，包括对象和布局的几何、语义和外观特征。然后将这些输入到我们提出的RGCN网络中，以细化初始对象姿态并估计对象和布局之间的关系。之后采用关系优化以进一步调整3D对象布置以与2D观察对准，符合预测关系，并解决物理碰撞。3. 方法在本节中，我们将介绍我们的3D全景场景理解方法。如图2，我们首先提取曼哈顿世界假设下的整个房间布局和初始对象估计，包括位置、大小、姿态、语义类别和潜在形状代码。这些，以及提取的特征，然后送入基于网络的图卷积网络（RGCN）进行细化，并估计对象和布局之间的关系，然后，提出了一种基于物理冲突、对象和关系的可微关系优化算法（RO）来解决碰撞和调整对象位姿。最后，通过将潜在形状代码馈送到局部隐式深度函数（LDIF）[13]中来恢复3D形状，并与对象姿势和房间布局相结合以实现整体场景理解。3.1. 自底向上初始化我们首先估计房间布局，初始对象的姿态和形状代码的全景场景从局部图像外观。类似于Zhanget al.[46]，我们运行Mask R-CNN来检测2D对象，对象检测网络（ODN）[30]来生成初始姿势，以及本地隐式嵌入网络（LIEN）[46]来嵌入每个对象的隐式3D所有的网络被重新训练或定制为等矩形全景图像。具体来说，我们首先对我们的数据微调Mask R-CNN，使其学会处理失真并直接在全景上运行。然后，我们为每个检测到的对象掩码拟合一个边界框，表示为边界FoV（BFoV）[6，44]，它是由中心的纬度和经度以及水平和垂直视场定义的。由于全视图全景图像的左边界和右边界实际上是连接的，因此在馈送到检测器之前将全景扩展宽度的一半（将左半部分连接到右），然后将扩展部分的检测偏移回到左侧，遵循标准的非最大抑制（NMS）以合并重叠或跨界对象检测。然后，每个BFoV中的图像被投影到透视图，并且被馈送到ODN和LIEN中以用于3D姿态和潜在形状表示。注意，为了简单起见，我们假设对象仅围绕y轴旋转，并且ODN将对象在裁剪的透视图像坐标中的偏航角预测为我们凭经验发现这种表示有益于姿态估计性能，并且结果可以容易地转换为全景（即，世界）坐标。关于房间布局，我们使用SoTA HorizonNet [34]。3.2. 基于关系的图卷积网络在具有初始估计之后，类似于Zhang等人。[46]，我们用图对整个场景进行建模，并通过Graph R-CNN [42]优化结果。由于全视图全景，我们的GCN现在可以对房间中的所有对象进行建模，这能够编码和利用比透视图更强的不同于Zhanget al。[46]，我们的模型不仅细化对象的姿态，但也预测对象和房间布局之间的关系因此，我们称我们的模型为基于网络的图卷积网络（RGCN）。除了像Zhang等人那样将每个对象建模为节点之外。[46]，我们进一步通过HorizonNet将估计的房间布局中的每面墙表示为具有一定厚度的长方体，并将它们建模为单独的节点。这有助于学习对象12635{·|}{·|}|−||−|图3：用分离轴定理定义的物体-物体碰撞项。我们计算物体A和B的所有分离轴x上的分离距离d每一面墙都没有额外的复杂性。对于每一对墙/物体节点，我们将它们与一个无向边连接，形成一个完整的自圆图。然后添加两个具有有向边的关系节点以连接墙/对象节点。每个节点，包括墙，对象和关系，嵌入潜在向量，其由GCN通过消息传递更新[46，42]。输入特征对于每种类型的节点，我们从各种来源收集不同的特征，将其连接并使用多层感知器（MLP）将其嵌入在[46]之后，我们采用对象/墙节点的边界框参数，对象节点的世界框架[46，13]中的LDIF的类别/分析代码和斑点中心，以及关系节点的2D边界框[17，36]的几何特征。此外，我们建议进一步从房间布局和初始3D对象姿态估计中获取具体地说，在关系节点上，我们添加旋转（与对象-对象旋转相同的定义）和分离距离（将在第2节中进一步讨论）。3.3)在每对对象/墙壁3D边界框之间。在对象节点上，我们添加对象3D框角和地板/天花板平面之间的高度差，以及从边界框角到布局多边形的2D距离关系估计除了细化初始对象姿态对象的姿态，我们的RGCN还输出对象和布局之间的关系。关系估计的目的是学习姿势细化分支可能尚未捕获具体来说，我们设计了两类元素之间的关系：对象-对象和对象-布局。为以禁用关系优化中的某些项（将在第2节中进一步讨论）3.3）对于房间外可见的物体受[2]的启发，我们设计了关系估计作为二元关系的二元分类任务。对于角度差异，我们通过在360◦中的8个离散箱中的一个上做出决定，考虑到房间中的大多数家具布置良好，将其公式化为多类分类。所有的关系由一个额外的MLP估计，该MLP采取节点表示作为输入。3.3. 关系优化虽然RGCN细化对象姿态，但一些数值上的微小误差可能严重违反上下文，因此在人类感知中是明显的，例如物理碰撞、飞行物体或与墙壁的小间隙为了解决这些问题，我们提出了一个可微优化来更新改进的姿势w.r.t.如图所示的预测关系3.2. 具体来说，我们使用梯度下降，以尽量减少损失函数，包括三个主要组成部分测量物理colli- sion，符合关系，并与自底向上的观察一致性。3.3.1碰撞项首先，我们定义碰撞项，它测量对象、墙、天花板和地板之间的碰撞量。根据节点类型定义了两种类型的冲突项。对象-对象碰撞由于对象姿态由长方体表示，因此我们使用分离轴定理（SAT）[26，21]，其测量凸多边形之间的碰撞以惩罚两个对象之间的碰撞。如图所示。在图3中，如果两个定向边界框A和B的投影沿着所有分离轴（垂直于边缘的方向）重叠，则它们彼此碰撞。具体地，边界框A在分离轴X上的投影可以被定义为并且amax=max c x cCA，其中CA是边界框A的角的集合，并且x被表示为向量。因此，A和B的每个分离轴上的重叠d的总和可以被视为它们的碰撞的测量在3D空间中，对于具有定义为垂直于面的方向的分离轴的凸多面体也是如此。基于此，我们将对象i和j之间的对象-对象碰撞项定义为：对象-对象（包括墙，因为它们也表示表示为节点）关系，我们定义1）相对旋转eoc=.Σx∈Sijdx，如果i，j有冲突、（1）在两个物体的正面之间; 2）两个3D包围盒是否以一定的公差接触;以及3）如果一个对象的3D边界框的中心比另一个对象的3D边界框的中心更远，则确定该对象的3D边界框的中心。相机中心。对于对象-布局关系，我们定义了1）对象是由地板支撑还是与天花板接触;以及2）如果3D绑定框完全在房间内。后一个是必需的IJ0，否则其中 Sij是分离轴的集合，并且 dx=min （a max bmin，a min b max）是沿着轴x的分离距离。对象-布局碰撞由于房间布局是在曼哈顿世界假设下，我们定义1）每个对象的对象-墙壁碰撞ewc为12636我ΣLLΣ我Σ我其边界框角和布局平面图;以及2）对象-地板/天花板碰撞，efc和ecc，作为边界框的下/上表面与地板/天花板之间的距离。如果没有碰撞发生，所有这些项都为零。如第3.2，有些物体即使在房间外也可能仍然可见，这不应因此，我们用室内可能性l_in对e_wc进行加权，以避免将室外对象拉入室内。损失项，以测量优化的长方体与初始估计之间的一致性，其是长方体参数的L1损失，包括从2D检测中心到长方体中心投影的偏移δ、从相机中心到长方体中心的距离d、尺寸s和取向θ，如先前工作[30，19]中定义的。然后，总场景观察项被定义为：E o=ΣΣλ x e x。（四）可以定义与对象O的场景碰撞项如：x∈{bp，δ，d，s，θ}i∈O3.3.4优化Ec=Σλoceoc+Σ（λwclinewc+λfcefc+λccecc），i，j∈O，ij伊日伊i∈O我我（二）我们最小化三项之和：其中λ*是预设权重。3.3.2关系术语然后，我们定义的关系条款来衡量的一致性的对象构成的预测关系，从RGCN在第二节。3.2.对于相对旋转，我们将术语err定义为观测到的和预测的相对角度之间的绝对误差。对于对象附着关系（即，接触），我们将术语eoa定义为类似于eoc，但仅对minE（δ，d，s，θ）= Ec+ Er+ Eo.（五）根据估计关系的置信度和自下而上的观测值进行选择更多细节可以在Supp中找到。材料. 注意，优化可以经由梯度下降来实现，使得其是可微分的并且可以被添加到RGCN以用于联合训练。3.4. 损失函数我们采用Nie等人的损失。[30]训练ODN：当没有碰撞时的分离距离。项efa和eca被定义为从边界框的下表面/上表面到地板/天花板的距离，并且被重新定义。LODN =x∈{δ，d，s，θ}λxLx，（六）如果对象已经附着到地板/天花板，则分别设置为零。对于相对距离，我们计算每个对象的视距作为从相机中心到对象中心的距离，并且将项erd定义为如果它们的相对顺序不服从其中*是对象姿态参数的分类和回归损失。为了训练RGCN，我们首先使用ODN训练pose refinement分支，然后添加关系分支的损失：否则为零。总体而言，关系项定义为：Er=Σλ rre rr+Σλ oal oae oaLRGCN=LODN+x∈{rr，oa，fa，ca，rd}λxLx，（7）我i∈Oi∈O，j∈O∪W，i jij ij（三）其中，Lrr是8类交叉熵旋转损失分类。正离子，Lx，x∈oa，fa，ca，rd是二元交叉熵+ΣΣλx lxexx∈{ft，ct，rd}i∈O损失当训练ODN、RGCN与RO端到端时，我们将联合损失定义为：其中W是墙的集合，l*是RGCN预测的关系标签，λ*是每个项的权重。L=LODN+LRGCN+x∈{δ，d，s，θ}λ′xL′x，（8）3.3.3观察术语不仅遵守预测的关系和物理学，对象姿态细化还应该尊重从输入图像观察到的初始预测。我们首先定义一个损失项，测量与原始图像观察的对于每个对象，我们将2D边界框拟合到3D长方体在以长方体中心为中心的切线平面上的投影我们将ebp定义为两个盒子之间的交集然后我们定义一个12637其中L'x是优化的姿态参数的L13.5. 全景数据集由于不存在具有房间布局、对象姿势和对象形状的完整地面实况的全景数据集，因此我们建议通过利用最新的模拟环境iGibson [33]来合成全景数据集，该全景数据集提供对象的详细3D形状、姿势、位置、语义以及房间布局。iGibson包含57个类别的500多个对象，以及15个完全交互的场景，12638方法椅子沙发表冰箱水槽门落地灯底柜顶柜沙发椅干燥器地图总计3D-Pers13.7168.0630.5536.0269.8411.8812.5735.5619.1964.2941.3636.64Total3D-Pano20.8469.6531.7943.1368.4210.2716.4234.4220.8362.3833.7837.45Im3D-Pers30.2375.2344.1652.5676.4614.919.9945.5123.3780.1153.2845.98Im3D-Pano33.0872.1537.4370.4575.2011.586.0643.2818.9978.4641.0244.34Ours（w/o.RO）33.5775.1838.6571.9780.6619.9418.2950.6729.0579.4260.0750.68我们的（满）27.7873.9646.8574.2275.2921.4320.6952.0350.3977.0959.9152.69表1：3D对象检测。在[30，18]之后，我们对常见对象类别进行评估，并使用平均平均精度（mAP），其中3D边界框IoU的阈值设置为0.15作为评估度量。请参阅补充材料，以评估全部57个类别。方法背景床绘画窗口镜书桌衣柜电视门椅子沙发内阁MiouPanoContext我们的（满）86.9087.4878.5862.9938.7056.3335.5865.3638.1540.4829.5552.8627.4453.5034.8146.8819.4049.709.6134.2111.1048.595.4610.3631.3850.73表2：语义分段IoU。在[48]之后，我们使用球面上的均匀采样点计算IoU房间总数，平均75个对象在渲染之前，我们运行一个物理模拟 [33]来解决错误的放置（例如，浮动对象），并且对于每个场景用来自相同语义类别的模型随机地替换对象。然后，我们将摄像机设置为1.6米的高度，在水平面上观察随机方向。通过构建对象的2D占用地图，我们可以避免将相机设置在对象内部、上方或过于靠近对象。最后，我们渲染1,500全景图像与语义/实例分割，深度图像，房间布局，并从物理模拟器的定向3D在提供的15个场景中，我们使用10个用于训练，5个用于测试，每个场景生成100个图像。我们分别裁剪每个对象来训练LIEN和LDIF。我们总共从训练集中收集了19，245个对象作物，从测试集中收集了7，753个对象作物。除此之外，我们还渲染了额外的以对象为中心的图像，其中包含51，285个用于训练和5，715个用于测试。为了生成隐式符号距离场地面实况，我们处理3D对象CAD模型[29，13]以确保对象是防水的。请参阅补充材料，了解我们的合成数据集的示例。4. 实验据我们所知，我们是第一个实现全景图像与场景级重建的全三维场景理解因此，为了与使用透视相机的SoTA方法Total3D [30]和Im3D [46]进行比较，我们将全景相机划分为一组水平FoV为60◦的相机。然后，我们从我们的2D检测器中检索全景图的检测结果，并将它们按相机分割进行分组，然后将它们输入Total3D和Im3D。将对象姿态和形状的结果从相机坐标变换到世界坐标以产生最终结果（ Total 3D-Pers 和 Im 3D-Pers）。除了透视版本之外，我们还扩展了Total 3D和Im 3D以直接在全景图像上工作（Total 3D-Pano和Im3D-Pano）。具体来说，我们将2D包围盒的表示形式改为BFoV，并将对象检测结果作为一个整体输入，以提供更丰富的场景上下文信息.由于Total3D和Im3D被设计为进行长方体布局估计，为了公平比较，我们用HorizonNet替换了它们的布局估计网络，并且只在3D对象检测和场景重建方面与它们进行比较。所有模型都按照相同的过程在我们提出的数据集上进行了微调更多详情请参考补充材料。4.1. 与SoTA3D物体检测我们评估我们的方法与平均精度（mAP）的3D物体检测和场景理解。在[46，30，18]之后，我们认为具有大于0.15的IoU（具有地面实况）的预测的3D边界框如Tab.所示。1，我们的方法有一个很大的改进，即使没有- out关系优化，这主要得益于新的几何特征提取的初始估计，以及更多的对象之间的约束。为了显示我们模型的泛化能力，我们将其与PanoContext [48] 在 Tab 中的建议数据集二、由于PanoContext数据集没有对象方向标签，因此我们仅对2D检测器微调Full模型结果表明，我们的上下文模型也可以推广到实际数据，只有自下而上的模型微调。我们还在图1中示出了相应的定性结果。4和图五、物理违反为了突出关系优化带来的改进好处，即，碰撞避免，我们计算每个场景的平均碰撞次数和具有碰撞的对象的平均数量。我们还报告了对象之间的每种碰撞的数量对象/天花板/地板/墙壁。结果显示在Tab. 3表明，我们的方法优于SoTA方法从各个角度来看，在防止物理冲突，而从消融版本的差距进一步说明了关系优化的重要性。消融研究中的分析（第4.2)进一步证明了关系优化在递送上下文合理结果中的重要性。我们将重建结果与图1中4.第一章我们的方法显示总体上最好12639图4：3D对象检测和场景重建的定性比较我们比较对象检测和比较场景重建结果与Total 3D-Pers和Im 3D-Pers在鸟瞰在物体姿态估计和形状重建上的性能。从鸟瞰图上看，我们还实现了更合理的物墙关系例如，在第三列中，我们的方法将床放置在左下角紧靠墙壁的位置，而Im3D和Total3D都是失败了相当大的错误。4.2. 消融研究为了评估所提出的关系和对象特征以及所提出的关系优化的不同部分，鸟瞰场景重建全景视图GT输入我们Im3D全三维GT我们Im3D全三维GT我们Im3D全三维12640方法对象附加附墙obj rot（◦）壁腐（◦）地图平均山口w/o。Fr0.300.7164.2152.0333.220.74w/o。Fo0.460.7462.8343.4633.320.83w/o。RO----30.912.68w/o。Ec----30.422.05w/o。Er----29.880.46w/o。Eo----25.300.09充分0.470.7662.9743.7233.590.86图5：PanoContext数据集上的泛化示例。方法碰撞次数对象之间与碰撞的物体对象细胞地板壁总计3D-Pers3.454.960.092.702.68Total3D-Pano3.414.870.142.812.66Im3D-Pers3.164.540.031.792.42Im3D-Pano2.623.980.022.362.26Ours（w/o.RO）2.684.080.011.762.23我们的（满）0.861.500.040.451.33表3：人身侵犯。我们比较我们的方法，每个场景的平均碰撞次数，以验证所提出的关系优化的效果。碰撞检测的公差为0.1m。通过去除我们方法的不同部分进行消融研究，并对3D对象检测、碰撞和关系估计进行比较对于二进制关系，例如在接触和相对距离方面，我们比较了真阳性率（TPR）和真阴性率（TNR）。对于旋转关系，我们比较以度为单位的平均绝对误差。建议的功能是否重要？如第3.2中，我们提出了关系节点和对象节点的单独特征，以将显式碰撞信息和3D几何先验编码到RGCN。为了说明这些特征的必要性和有效性，我们删除了关系特征（w/o. Fr）和对象特征（w/o. Fo）。如Tab.所示4，移除任何特征将导致对象检测mAP以及附件分类的下降。这与预期的一样，因为关系特征和对象特征两者都提供了用于测量对象和布局之间的距离/碰撞的关键信息。关系优化是否重要以及每个损失术语如何我们提出的关系优化提供了一个端到端的解决方案，硬编码碰撞，接触，旋转到RGCN的约束，获得更多的物理合理和准确的检测结果的目的。将其移除（ w/o 。RO），我们观察到mAP和每个场景的平均碰撞时间的大幅下降。我们发现我们的RO也改善了Total3D和Im3D与预测的关系，并见附录。材料了解更多详情。我们还进行了研究（W/O。Ec，w/o. Er，w/o. Eo）在不同的条件下，看看他们如何有助于最终的改善。碰撞项的缺失对平均碰撞次数的影响最大，进一步说明了其在避碰我们还观察到更大的下降表4：消融研究。我们比较了F1在二进制分类的对象-对象附着和对象-墙附着关系上的表现。对于旋转关系分类，我们比较了平均绝对误差度。我们评估3D物体检测与所有57个类别的mAP和物理viola- tion与每个场景的平均碰撞时间。FoV（◦）360180120906030w/o。RO充分30.9133.9227.426.0924.7724.3425.9023.0126.1621.7225.5118.52表5：mAP对FoV。通过缩小我们模型的FoV，性能大大下降，特别是对于我们的完整模型。在mAP上，当独立地去除Er和Eo时，这表明我们提出的项一起协作以改进3D检测。全景360全景FoV是否有助于RGCN和RO？遵循相同的程序分裂检测结果的水平FoV时，使Total3D和Im3D工作在全景，我们进行烧蚀实验，我们提出的方法，通过缩小每个分裂的FoV。我们比较了我们的完整模型，有或没有RO，不同的FoV与mAP在全部57个类别的选项卡。5.结果表明，将消息流限制在小FoV内会损害性能，这意味着我们的RGCN和RO真正利用了整个场景上下文来估计关系并优化对象检测。5. 结论本文提出了一种新的方法，从一个完整的视图全景图像的整体三维场景理解，恢复三维房间布局和形状，姿态，位置，和语义类别的场景中的每个对象。为了充分利用全景图像中丰富的上下文信息，我们采用图神经网络并设计了一种新的上下文模型来预测对象和房间布局之间的关系，并进一步利用一种新的基于可微关系的优化模型来改进初始估计。由于现有的数据集的整体三维场景理解的限制，我们提出了一个新的合成数据集。实验验证了该方法中各个模块的有效性，表明该方法达到了SoTA的性能。未来的方向可能包括简化RO的术语和将不同的模块统一到一个框架中。鸣谢：本研究得到了国家自然科学基金部分项目的资助，资助号为61872067和61720106004。12641引用[1] Iro Armeni ， Sasha Sax ， Amir R Zamir ， and SilvioSavarese.用于室内场景理解的联合2d-3d语义数据。arXiv预印本arXiv：1702.01105，2017。2[2] ArmenAvetisyan 、 TatianaKhanova 、 ChristopherChoy、Den ver Dash、Angela Dai和Matthias Nießner。Scenecad：预测rgb-d扫描中的对象对齐和布局。以Eur.确认补偿目视，第596-612页，2020。4[3] RomainBre'gier 、 Fre'de'ricDev ernay 、 LaetitiaLe yrit 和James L Crowley。多块场景中三维物体检测和姿态估计在国际会议计算中目视Worksh. ，第2209-2218页，2017。2[4] Angel Chang、Angela Dai、Thomas Funkhouser、MaciejHal- ber 、 Matthias Niebner 、 Manolis Savva 、 ShuranSong、Andy Zeng和Yinda Zhang。Matterport3d：从室内环境中的rgb- d数据中学习。在国际会议3D可视，第667-676页，2017。2[5] Yixin Chen ，Siyuan Huang ，Tao Yuan ， Siyuan Qi ，Yixin Zhu，and Song-Chun Zhu.整体++场景理解：基于人-物交互和物理常识的单视图三维整体场景解析和人体姿态估计。在Int. Conf. Comput. 目视，第8648一、二[6] Shih-Han Chou， Cheng Sun ， Wen-Yen Chang ， Wan-Ting Hsu，Min Sun，and Jianlong Fu. 360-indoor：朝向在360度室内等距矩形图像中学习真实世界对象。在IEEE Wint. 会议申请 Comput. 目视，第 845- 853 页，2020。二、三[7] James M Coughlan和Alan L Yuille。曼哈顿世界：基于贝叶斯推断的单幅图像罗盘方位。在国际会议计算中目视，第2卷，第941-947页，1999。2[8] Saumitro Dasgupta，Kuan Fang，Kevin Chen，and SilvioSavarese.延迟：用于杂乱室内场景的鲁棒空间布局估计。在IEEE Conf. Comput.目视模式识别，第616-624页，2016。2[9] Luca Del Pero，Joshua Bowdish，Daniel Fried，BonnieKer- mgard，Emily Hartley，and Kobus Barnard.室内场景的贝叶斯几何建模在IEEE会议Comput.目视模式识别第2719-2726页2[10] Luca Del Pero ， Joshua Bowdish ， Bonnie Kermgard ，Emily Hartley，and Kobus Barnard.使用复合3d对象模型理解贝叶斯在IEEE会议Comput.目视模式识别，第153-160页2[11] Yilun Du，Zhijian Liu，Hector Basevi，Ales Leonardis，Bill Freeman，Josh Tenenbaum，and Jiajun Wu.学习开发三维场景解析的稳定性在高级神经信息。过程系统，第1733-1743页，2018年。2[12] KosukeChanano ， YoshihikoMochizuki ， SatoshiIizuka ， Edgar Simo-Serra ， Akihiro Sugimoto ， andHiroshi Ishikawa.通过高阶能量最小化从单个球形图像重建房间。在内部会议模式识别中，第1768-1773页，2016年。2[13] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。的局部深度隐式函数3D形状。在IEEE会议Comput. 目视模式识别，第4857-4866页二三四六[14] 放大图片作者： David G. Kim ， Bryan Russell ，andMathieuAubry. AtlasNet：一个学习3D表面生成的方法。在IEEE会议Comput. 目视模式识别，第2162[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在国际会议计算中目视，第2961- 2969页，2017年。3[16] Varsha Hedau，Derek Hoiem，and David Forsyth.恢复杂乱房间的空间布局。在国际会议计算机上。目视，第1849-1856页，2009。2[17] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE会议Comput. 目视模式识别，第35884[18] Siyuan Huang，Siyuan Qi，Yinxue Xiao，Yixin Zhu，Ying Nian Wu ，and Song-Chun Zhu.协同整体场景理解：统一三维物体、布局和摄像机姿态估计。在高级神经信息。过程系统，第206-217页，2018。二、六[19] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单个rgb图像进行整体三维场景解析和重构以Eur. Conf. Comput.目视，第187-203页，2018年。二、五[20] Moos Hueting、Pradyumna Reddy、Vladimir Kim、ErsinYumer、Nathan Carr和Niloy Mitra。透视：在严重遮挡的室内场景图像中找到椅子。arXiv预印本arXiv：1710.10473，2017。2[21] 强尼·黄网址：https://jkh.me/files/tutorials/separating axistheorem for oriented bounding boxes.pdf。2009. 4[22] Hamid Izadinia，Qi Shan，and Steven M Seitz. Im2cad。在IEEE Conf. Comput.目视模式识别，第51342[23] Chen-YuLee ， VijayBadrinarayanan ， TomaszMalisiewicz，and Andrew Rabinovich. Roomnet：端到端的房间布局估计。在国际会议计算中目视，第4865-4874页，2017年。2[24] David C Lee，Martial Hebert和Takeo Kanade。单幅图像结构恢复的几何推理在IEEE会议Comput. 目视模式识别，第21362[25] Jun Li，Kai Xu，Siddhartha Chaudhuri，Ersin Yumer，Hao Zhang，and Leonidas Guibas.草：

下载后可阅读完整内容，剩余1页未读，立即下载