单幅RGB图像的整体三维场景解析与综合分析

49 浏览量更新于2023-10-13 收藏 2.78MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

单幅RGB图像的整体三维场景解析与思远Huang 1、2[0000−0003−1524−7148]、思远齐1、2[0000−0002−4070−733X]、一心Zhu1，2[0000 - 0001 - 7024 - 1545]，Yinxue Xiao1，YuanluXu1， 2，和Song-ChunZhu1， 21加州大学洛杉矶2国际人工智能和机器人自主中心（CARA）抽象。我们提出了一个计算框架，共同解析一个单一的RGB图像和重建一个整体的3D配置组成的一组CAD模型，使用随机语法模型。具体来说，我们引入了一个整体场景语法（HSG）表示的三维场景结构，其特点是在室内场景的功能和几何空间的联合分布所提出的HSG捕获了室内场景的三个基本且通常潜在的维度：i）潜在的人类背景，描述了房间布置的示能性和功能，ii）场景配置的几何约束，以及iii）保证物理上合理的解析和重构的物理约束。我们解决了这个联合解析和重构问题以合成分析的方式，寻求在深度、表面法线和对象分割图的空间上最小化输入图像和由我们的3D表示生成的渲染图像之间的差异。由解析图表示的最佳配置使用马尔可夫链蒙特卡罗（MCMC）来推断，该MCMC有效地遍历不可微的解空间，联合优化对象定位、3D布局和隐藏的人类背景。实验结果表明，该算法提高了泛化能力，在3D布局估计、3D目标检测和整体场景理解等方面的性能明显优于现有方法。保留字：3D场景解析与重构·综合分析·整体场景语法·马尔可夫链蒙特卡罗1介绍人类视觉的复杂性和丰富性不仅反映在识别可见对象的能力上，而且还反映在对潜在的可操作信息进行推理的能力上[1]，包括将潜在的人类上下文推断为场景的功能[2，3]，重建3D分层几何结构[4，5]，以及遵守保证物理上合理的场景的物理约束配置[6]。对室内场景的这种丰富的理解是构建智能计算系统的本质，该智能计算系统超越了普遍的基于外观和几何的识别任务，以也考虑到对所观察到的图像或图案的更深层次的推理。2S. Huang等人输入2D图像3D场景配置3D布局解析初始化重构对象提议迭代渲染表面法线直接估计深度地图比较项目对象掩模图1：以合成分析方式的所提出的整体3D室内场景解析和重构的图示。3D表示由各个视觉模块（例如，对象检测、2D布局估计）。联合推理算法将渲染的法线、深度和分割图与直接从输入RGB图像估计的图像之间的差异进行比较，并迭代地调整3D结构。一个有前途的方向是综合分析[7]或“视觉作为逆梯度“[ 8，9]。在此方面，计算机视觉被视为与计算机图形学相反的创新问题，其目标是对产生观察到的图像的物理过程中发生的隐藏因素在本文中，我们拥抱的视觉作为逆图形的概念，并提出了一个整体的三维室内场景解析和重建算法，同时重建的功能层次和三维几何结构的室内场景从一个单一的RGB图像。图1示意性地示出了合成分析推理过程。联合推断算法从各种视觉模块获取建议，并通过比较各种投影（即，投影）来推断3D结构。深度、法线和分割）与直接从输入图像估计的3D结构进行比较。具体来说，我们引入了一个整体场景语法（HSG）来表示一个场景的层次结构如图2所示，我们的HSG将场景分解为功能空间中的潜在组（即，包括活动组的分层结构）和几何空间中的对象实例（即，CAD模型）。对于功能空间，与传统的只对对象-对象关系建模的方法相比，我们提出了一种新的方法来建模人-对象关系，通过想象潜在的人在活动组中，以进一步帮助解释和解析观察到的图像。对于几何空间，几何度量属性（例如，尺寸、位置、方向）被获取整体三维场景解析与重建3考虑，以及几何关系（例如，，支持关系）。此外，物理限制（例如，对象之间的碰撞、布局的违反）被合并以生成观察图像的物理上合理的3D解析和重建。在这里，室内场景由语法的解析图（pg）表示，其由分层结构和终端节点上的马尔可夫随机场（MRF）组成，其捕获对象和房间布局之间的丰富上下文关系（即墙壁、地板和天花板的房间配置）。最大后验概率（MAP）估计的目的是找到最佳的解决方案，解析和重建所观察到的图像。似然性测量观察到的图像与从推断的pg投影到各种2D图像空间上的渲染图像之间的相似性。因此，可以通过基于后验概率利用模拟退火对MCMC进行采样来迭代地细化我们通过将重建的3D室内房间与地面实况进行比较，在大规模RGB-D数据集上评估我们的方法。1.1相关工作场景解析：现有的场景解析方法分为两个流。i）区分方法[10虽然先前的工作已经实现了高精度标记的像素，这些方法缺乏一个一般的视觉词汇表和原则的方法来探索的语义结构的一般场景的一般表示ii）生成方法[17-在本文中，我们结合这两个流的分析合成框架来推断生成图像的隐藏因素。从单个图像重建场景：从单个RGB图像进行室内场景重建的先前方法[25-27]可以被分类为三个流。i）通过提取几何特征并对3D长方体方案进行排名来进行2D或3D房间布局预测[28-35]。ii）通过经由几何图元或CAD模型表示对象，先前的方法[36-44]利用3D对象识别或姿态估计来将对象提议与RGB或深度图像对准。iii）房间布局和具有上下文的3D对象的联合估计[18，19，22 -24，33，45，46]。特别地，Izadinia etal. [33]示出了在没有上下文关系和物理约束的情况下推断布局和对象的有希望的结果。相比之下，我们的方法联合建模的hierarchi-cal场景结构，隐藏的人类上下文和物理约束，提供了一个语义表示的整体场景理解。此外，所提出的方法提出了一种联合推理算法，使用MCMC，在理论上可以达到全局最优。场景语法：场景语法模型已用于从RGB图像推断3D结构和功能[3，17，18，47]。我们的HSG与[17，18]在两个方面不同：i）我们的模型用CAD模型而不是几何图元来表示3D对象，能够建模细节上下文关系（例如，，支持关系），它提供了更好的解析实现4S. Huang等人功能空间根几何空间...卧室...活动布局睡觉存储敷料地板壁床奥斯曼植物床头柜橱柜梳妆台椅子功能对象上而下的推理活动组自下而上提案活动支护场景布局几何属性场景类别对象实例根支持关系图2：由跨越功能空间和几何空间的HSG的解析图（pg功能空间表征层次结构，几何空间编码具有上下文关系的空间实体。和重建。ii）我们推断HSG中隐藏的人和活动组，这有助于解释和解析。与[3，47]相比，我们从单个RGB图像建模和解析对象和布局的3D结构，而不是使用RGB-D图像标记的点云。1.2贡献本文主要有五个方面的贡献：1. 我们将几何和物理相结合，用CAD模型解释和重建室内场景。我们共同优化了3D房间布局和对象配置，大大提高了SUN RGB-D数据集上场景解析和重建的性能[45]。2. 我们将隐藏的人类背景（即功能）到我们的gram-mar中，使得能够通过分组和采样来想象每个活动组中潜在的人类姿势通过这种方式，我们可以优化场景的可见和不可见[48]3. 我们提出了一个完整的计算框架，结合生成模型（即随机语法）、判别模型（即，深度、法线和分割图的直接估计）和图形引擎（即，渲染图像）。4. 据我们所知，我们是第一个使用推断的深度，表面法线和对象分割图来辅助解析和重建3D场景（房间布局和多个对象）的工作。请注意，[49]对单个对象使用了类似的中间表示。5. 通过学习对象之间的支持关系，所提出的方法消除了广泛采用的假设，在以前的工作中，所有的对象必须站在地面上。模型的这种灵活性产生具有复杂对象关系的真实世界场景的更好的解析和重构。整体三维场景解析与重建5FGGF2整体场景语法我们表示的层次结构的室内场景的整体场景语法（HSG）。HSG由功能空间F中的潜在层次结构和几何空间G中的终端对象实体组成。直觉是，对于人造环境，地理空间中的对象布置应当是来自该功能空间的“预结合”（即，“预结合”）。e. 、Human活动）。作为概率上下文无关文法（PCFG）的函数空间捕获了函数组的层次结构，几何空间通过在终端节点上定义MRF来捕获对象之间的空间上下文。这两个空间一起形成随机上下文敏感文法（SCSG）。HSG从根场景节点开始，并以一组终端节点结束。室内场景由如图2所示的解析图pg表示。定义：随机上下文敏感文法HSG被定义为一个5元组（S，V，R，E，P）。S表示室内场景的根节点。V是在非线性有理数Vf∈F和非线性有理数Vg∈G的情况下，在闭集上的向量集。R表示产生式规则，并且E表示终端节点之间的上下文关系，其由pg中的水平链接表示。P是PG上定义的概率模型。函数空间F：非线性节点Vf={Vc，Va，Vo，Vl}∈Fconsistf f f f f场景类别节点Vc、活动组节点Va、对象节点Vo以及f f f布局节点V1。几何空间G：端点Vg={Vo，Vl} ∈G是CAD模型G g对象实体和房间布局。每个对象v∈V。被表示为CAD模型，并且对象外观由其3D尺寸、位置和取向参数化。房间布局v∈Vl被表示为长方体，该长方体被进一步分解为房间的五个平面表面（相对于相机坐标的左壁、右壁、中间壁、地板和天花板）。生产规则R：为HSG定义了以下生产规则：• S→ V c：场景→类别1|第2类|. . . （例如：、场景→办公室|厨房）• Vc→Va·Vl：类别→活动组·布局（例如、办公室→（散步f f f阅读）·布局）• Va→V o：活动组→功能对象（例如，sitting→（desk，chair））f f其中·表示确定性分解，|替代解释，以及（）组合。上下文关系E捕获对象之间的关系，包括它们的相对位置、相对方向、分组关系和支持关系。对象可以由其他对象或房间布局支持;例如灯可以由床头柜或地板支撑。最后，场景配置由pg表示，其终端是房间布局和具有属性和关系的对象。如图2所示，pg可以分解为pg=（pgf，pgg），其中pgf和pgg分别表示pg的函数部分和几何部分。E∈pgg表示终端层中的上下文关系。6S. Huang等人3概率公式整体场景分析的目标是找到一个最优的pg，它代表了场景中观察到的所有内容和关系。给定输入RGB图像I，可以通过MAP估计器导出最优pgp（pg |I）∝p（pg）·p（I|（1）∝p（pg f）·p（pg g|pg f）·p（I|pg g）（2）1=expZ.Σ−E（pg f）− E（pg g|pg f）−E（I|pg g）、（3）其中先验概率p（pg）被分解为p（pg，f）p（pg，g|pg f）和p（I|pg）= p（I|因为图像空间独立于给定几何空间的函数空间。我们用Gibbs分布E（pg f），E（pg g）对联合分布进行建模|pg f）和E（I|pgg）是相应的能量项。函数先验E（pgf）刻画了pg中函数方面的先验，它模拟了函数空间中的层次结构和产生式规则。用于替代解释的产生式规则 | 和combination（），每个规则选择子节点，并且选择的概率用多项式分布建模。产生式规则·是确定性地扩展的，并且具有hprobaΣbi i ity1。根据预处理规则R，可以记作E（pgf）=ri∈R−logp（ri）。几何先验E（pg g|pg f）是pg中几何体的先验，除了对每个对象的大小、位置和方向分布进行建模外，我们还考虑了对象之间的两种上下文关系E ={Es，Ea}：i）支持对象与其支持对象之间的关系Es;ii) 关系E是活动组中的想象的人和对象之间的关系。我们为每种类型的上下文关系定义不同的势函数，在几何空间中构建包括四项的MRF：E（pg/g|pg f）= E sc（pg g|pg f）+E spt（pg g|pg f）+E grp（pg g|pg f）+Ephy（pgg）。（四）Σ·Size ConsistencyEsc约束对象的大小。E sc（pgg|pgf）=o− log p（si|其中si表示对象vi的大小。我们模型的vi ∈Vgf以非参数方式的对象尺度的分布，即核密度估计（KDE）。• 支撑约束Espt表征支撑对象和支撑对象（包括地板、墙壁和天花板）之间的上下文关系我们用它们的相对高度和重叠面积对分布进行建模：Espt（pgΣ|pg )=Ko（vi，vj）+Kh（vi，vj）−λslogp.Σv i，v j |Vl，Vo、（五）gf（vi，vj）∈Esf f当Ko（vi，vj）=1−area（vi，vj）/area（vi）时，定义了上一个xy平面，而Kh （vi ，vj ）定义了vi的下表面和 vj 的上表面。 K（·）和Kh（·）是0，如果向上的P或T结合是流动的并且是精确的。 p（vi，vj|Vl，Vo）是上P或T的先决条件f f关系由多努里分布建模。λs是平衡常数。整体三维场景解析与重建7FFF• 以人为中心的分组约束E组。对于每个活动组，我们想象看不见的和潜在的人类姿势，以帮助解析和理解场景。直觉上，室内场景是为人类日常活动服务的，因此室内图像应该由观察到的实体和不可观察的人类活动共同解释这被称为计算机视觉中的暗垫[48]，它驱动场景中的可见组件。现有的场景分析方法往往只对对象-对象关系进行建模。在本文中，我们超越了被动的观察模型的潜在的人与物体的关系，从而提出了一个以人为中心的分组关系和联合推理算法在可见的场景和不可见的潜在的人类背景。具体地，对于每个活动组v ∈ Va，我们定义对应的imagine_d_human<，其中y是活动类型，y∈ R25×3是活动类型y的平均人体姿势（由25个关节表示），t ∈ V_a不是活动类型，r ∈V_a 不是活动类型， s ∈ V_a 不是活动类型，并且 y ∈ V_a 是imagine_d_human，其中y是活动类型y的平均人体姿势：y=y·r·s+t。关于被建模的人和对象的能量被定义为：ΣEgrp（pgg|pgf）==Egrp（µ~i|五（i）vi∈VaΣ ΣDd（μ~i，νj;d′）+Dh（μ~i，νj;h′）+Do（μ~i，νj;o′），vi∈Vavj∈ch（vi）（六）当rech（vi）dete Dd（·）、Dh（·）和Do（·）分别表示由想象的人体姿势的中心计算的几何距离、几何距离和几何距离差。e. ，d¯，h¯ando¯）.• 物理约束：另外，为了避免违反物理约束，在解析期间，我们定义物理约束Ephy（pgg）以惩罚物理违反。超出房间长方体或对象之间重叠该术语表述为：Ephy（pgg）=Σ（v∈Vo Σv∈Vo\vOo（vi，vj）+ΣOl（vi，v，j）），（7）v∈Vligjgijg其中，Oo（·）表示对象之间的重叠区域，并且Ol（·）表示超出布局的对象的区域。可能性E（I|图G）表征了观察图像和由解析结果生成的再现图像之间的相似性。由于各种光照条件、纹理和材质属性，渲染的RGB图像和观察到的场景之间将存在不可避免的差异在这里，而不是使用RGB图像，我们解决了这个问题的分析合成的方式，通过比较的深度，表面法线，和对象分割图。通过结合生成模型和判别模型，所提出的方法试图逆向工程的隐藏因素，产生观察到的图像。具体来说，我们首先使用判别方法将观察到的图像I投影到各种特征空间。在本文中，我们直接估计三个中间图像--深度图Φd（I）、表面法线图Φn（I）和对象分割图Φm（I），作为观察图像I的特征表示同时，由我们的方法推断的pg表示观察图像的3D结构，其用于重建图像I’以恢复对应的8S. Huang等人Ging深度图Φd（I′）、表面法线图Φn（I′）和对象分割图Φm（I′）的正向图形绘制。最后，我们通过比较这些生成模型的渲染结果与由判别模型计算的直接估计结果来计算似然项具体地，通过两组图之间的逐像素差异来计算似然性E（I）|pg）= Dp（Φ d（I），Φ d（I′））+Dp（Φ n（I），Φ n（I′））+Dp（Φ m（I），Φ m（I′）），（8）其中Dp（·）是两个映射之间的逐像素欧几里德距离之和注意，权重与每个能量项相关联，其通过交叉验证学习或凭经验设置。4推理给定单个RGB图像作为输入，推断的目标是找到最佳的pg，其最好地解释了在恢复3D场景结构的同时生成观察到的图像的隐藏因素。推理包括三个主要步骤：• 房间几何形状估计：通过预测2D房间布局和摄像机参数，并通过将估计的2D布局投影到3D来估计房间几何形状详情见第4.1小节。• 对象初始化：检测对象并检索与最相似外观相对应的CAD模型参见第4.2小节。• 联合推断：通过最大化pg的后验概率，以合成分析的方式优化3D场景中的对象、布局和隐藏的人类背景。详情见第4.3小节。4.1房间几何形状估计尽管最近的方法[33-35]能够使用CNN特征生成2D房间布局的相对稳健的预测，但3D房间布局估计仍然不准确，因为它对群集场景中的相机参数估计敏感。为了解决2D布局估计和相机参数估计之间的不一致性，我们设计了一个深度神经网络来估计2D布局，并使用布局热图来估计相机参数。2D布局估算：与[34]类似，我们用其房间布局类型和关键点位置表示2D布局。网络结构见补充材料。该网络优化了布局热图回归的欧氏损失和房间类型估计的交叉熵损失。摄像机参数：传统的基于几何的方法[28]通过从观察到的图像估计消失点来计算相机参数，这在具有严重遮挡的杂乱室内场景中是敏感和不稳定的。受[ 43]的启发，我们提出了一种基于学习的方法，该方法使用关键点热图来预测相机参数，即焦距以及相机的偏航角、俯仰角和滚转角。由于偏航角已经整体三维场景解析与重建9FJ考虑到房间布局的评估，我们通过在关键点热图上堆叠四个FC层（1024-128-16-3）来估计其余三个变量（焦距、俯仰和滚动）3D布局初始化：使用估计的2D布局和相机参数，我们将2D布局的角投影到3D，以便获得3D房间长方体。我们假设摄像头和天花板是1。2米和3。0m高。为了简单起见，我们平移和旋转3D房间，以便其中一个可见的房间角位于世界坐标系的原点4.2对象初始化我们使用Soft-NMS [51]微调可变形卷积网络[50]以检测2D边界框。为了初始化3D对象，我们检索最相似的CAD模型并初始化它们的3D姿势、大小和位置。模型检索：我们考虑ShapeNetSem存储库[52，53]中的所有模型，并从48个视点渲染每个模型，这些视点由均匀采样的16个方位角和3个仰角组成。我们从检测到的边界框和候选渲染图像中的图像的微调检测器的ROI池化层中提取7×通过对同一对象类别中的每个检测到的对象特征与渲染图像特征之间的余弦距离进行排名，我们获得具有相应姿势的前10个CAD模型。几何属性估计：对象的几何属性由3D姿态、位置和大小的9D向量表示，其中3D姿态从检索过程初始化先前的工作大致将2D点投影到3D，并通过假设所有对象都在地板上来恢复3D位置和大小这种方法在复杂情况下显示出局限性在不进行上述假设的情况下，我们通过计算检测边界框和分割图中的像素的平均深度值来估计每个对象的深度然后，我们使用深度值计算其3D位置经验上，这种方法更鲁棒，因为即使在杂乱的场景中，每像素深度估计误差也很小为了避免2D边界框的对齐问题，我们通过从学习的分布中采样对象大小来初始化对象大小，并选择具有最大概率的对象大小。支持关系估计：对于每个对象vi∈Vo，我们从对象或布局中找到其最小支持能量的支持对象v*：v*= argminKo（vi，vj）+Kh（vi，vj ）−λslogp（vi，vj ） |Vl ，Vo），vj∈（Vl，Vo）. （九）j f f fVJ4.3联合推断给定图像I，我们首先估计房间几何形状、对象属性和关系，如以上两个小节中所描述的。如Alg. 1、联合推理包括：（2）对对象进行分组，分配活动标签并在每个活动组中想象人的姿势;以及（3）迭代地优化对象、布局和人体姿态。10S. Huang等人12312目标初始化迭代150迭代300迭代500迭代900 迭代1200图3：用MCMC结合模拟退火算法对对象和布局进行联合推理的过程顶部：深度贴图。中间：法线贴图。底部：对象分割图。对象和布局被迭代地优化。在每个步骤中，我们使用不同的MCMC过程。具体地，为了遍历不可微解空间，我们设计了马尔可夫链动力学{qo，qo，qo}，用于12 3对象，{ql，ql}用于布局，以及{qh，qh，qh}用于人体姿势。具体地说，12 1 2 3• 对象动力学：动力学q。调整随机对象的位置，其在三个笛卡尔坐标轴中的一个中平移对象中心。Dynamics q o不是平移对象中心并直接更改对象大小，而是平移长方体的六个面之一以生成更平滑的扩散。动力学qo提出以指定角度旋转对象。每个动态可以在两个方向上扩散，例如每个对象可以在“+ x "和”-x“的方向上平移，或者在”+x“和”-x“的方向上平移。通过计算P（pg）的局部梯度|I）时，动力学建议以0.8的建议概率沿着梯度的方向移动，或者以0.2的建议概率沿着梯度的反方向移动。• 布局动态：动力学ql转换布局的面，还优化了平移地板时的摄像机高度动力学ql旋转布局。• 人体姿势动力学qh、qh和qh被设计成平移、旋转和1 2 3分别缩放人体姿势给定当前pg，每个动态将根据下式提出新的pg’：建议概率p（pg ′| pg，I）。根据Metropolis-Hasting算法[54]定义的接受概率α（pg→ pg′）接受该建议：′p（pg |pg ′，I）p（pg ′|I）α（pg → pg）= min（1，p（pg′|pg，I）p（pg|（第一卷））。（十）在步骤（2）中，我们对对象进行分组并分配活动标签。对于每种类型的活动，存在具有最高出现频率的对象类别（即，e. 这是因为你读到了）。因此，C或R表示对象和活动之间的关系为了找出所有可能的活动组，对于每种类型的活动，我们在每个主要对象周围定义一个活动组，并将附近的对象（在距离阈值内）与先验较大的活动组整体三维场景解析与重建11GGFFF算法1联合推理算法1：给定图像I，初始化解析图pginit2：过程S步骤 1（Vo，Vl）-没有隐藏的人类背景的推断G g3：对于不同的温度做？？模拟退火采用不同的温度4：对于γ1迭代，做5：随机选择布局，应用布局动力学优化布局Vl6：对于每个对象vi∈ Vodo7：对于γ2迭代，8：随机应用对象动力学以优化对象vi9：在STEP2（Va，{μm}）期间，hiddenhumancontext10：对对象进行分组并分配活动标签（参见第4.3的最后一段）11：对于每个活动组vi∈ Vado12：重复13：randommlyapplyhumanposedynamicstoooptimmizeµi14：u ntilE（µ~i|vi）在等式11中进行最大化合并15：在STEP3（Vo，Vl，{μ~}）期间执行G g16：对于不同的温度做17：对于γ3次迭代18：随机选择布局、对象或人姿势19：应用随机动力学以最小化P（pg |I）20：返回pg优化图4：在各种室内场景中采样的人类姿势。多个活动组中的对象具有多个姿势。我们以最高的可能性可视化姿势比0。对于每个活动组vi∈Va，通过最大化kelihoodp（vi）来估计想象的人的姿势|μ~i），其中该等式用于最小化组能量Egrp（μ~i|vi）在6上的i处在Eq中定义，y，m，t，r，s=arg minEgrp（µ~i|vi）、（11）我我我我我YI，MI，TI，RI，SI图4示出了在各种室内场景中采样的人类姿势的结果5实验我们使用SUN RGB-D数据集[45]来评估我们在3D场景解析，3D重建以及其他3D场景理解任务上的方法。的12S. Huang等人表1：SUN RGB-D数据集方法图像数量3D布局估计IOU整体场景理解PgRgRrIoU3DGP [19]505019.22.1 0.7 0.6 13.9Ours（init.）505046.725.9 15.5 12.2我们的（联合）505054.937.7 23.0 18.3 40.73DGP [19]74933.45.3 2.7 2.1 34.2IM2CAD [33]48462.6-49.0Ours（init.）74961.229.7 17.3 14.4我们的（联合）74966.440.5 26.8 21.7 52.1表2：SUN RGB-D数据集方法床椅子沙发桌子卫生间冰箱水槽浴缸书架伯爵r门梳妆灯tv mAP[19个]5.622.313.24一点二三- ------ -- -Ours（init.）45.555.9123.644.202.501.9114.00 2.120.552.160.340.015.691.12 0.62 7.35我们的（联合）58.29 13.56 12.12 4.79 16.50 15.18 2.182.847.041.61.56 13.71 2.41 1.0412.07数据集有5050张测试图像，总共有10,355张图像虽然它提供了RGB-D数据，但我们只使用RGB图像作为训练和测试的输入。图5显示了一些定性解析结果（前20%）。我们在三个任务上评估我们的方法：i）3D布局估计，ii）3D对象检测，以及iii）使用所有场景类别的SUN RGB-D的所有5050个测试图像进行整体场景理解。由于摄像机参数估计的不准确性和对杂乱场景中在本文中，我们减轻它使用建议的此外，我们还在LSUN数据集[55]和Hedau数据集[28]上实现了2D布局估计的最新结果。补充材料中总结了相机参数估计和2D布局估计的实施细节和附加结果。3D布局估算：利用提出的联合推理方法对三维房间布局进行了优化。我们将我们的方法（有和没有联合推断）的估计与3DGP [19]进行比较。根据[45]中定义的评估协议，我们计算来自地面实况的自由空间与通过我们的方法估计的自由空间之间的平均交集（IoU）表1示出了我们的方法大大优于3DGP。我们还将性能提高了8. 2%后，联合推断的对象和布局，证明了联合推理过程集成的有用性。由于IM2CAD [33]在没有发布图像列表的情况下从客厅和卧室手动选择了484张图像，因此我们将我们的方法与它们在整个客厅和卧室集合上进行比较。表1示出了我们的方法优于IM2CAD，特别是在结合联合推理过程之后。整体三维场景解析与重建13输入RGB图像缩放（2D）初始化（3D）结果（2D）结果（3D）结果（渲染）图5：所提出的方法在SUN RGB-D数据集上的定性结果。联合推理显著提高了单个模块的性能3D物体检测：我们使用[ 45]中定义的度量来评估我们的3D对象检测结果。我们使用预测的3D边界框和地面实况3D边界框之间的3DIoU来计算平均精度（mAP）在没有深度的情况下，我们将阈值IoU从0.25（以深度作为输入的评估设置）调整到0.15，并在表2中报告我们的结果。由于篇幅有限，在30个对象类别中，有15个在此报告;补充材料中报告了完整的表格。结果表明，我们的方法不仅超过了检测分数的显着保证金，但也使得有可能评估整个对象类别。请注意，尽管IM2CAD也评估检测，但它们使用与指定距离阈值相关的度量在这里，我们还在具有该特殊度量而不是IoU阈值的子集上与IM2CAD进行比较。我们能够获得80的mAP。2%，高于74的mAP。IM2CAD中报告了6%整体场景理解：我们估计详细的3D场景，包括对象和房间布局。使用[45]中提出的度量，我们评估几何精度Pg，几何召回Rg和语义召回Rr，其中IoU阈值设置为0。15. 我们还评估了地面实况和估计之间的自由空间（房间多边形内部但在任何对象边界框外部的3D体素）的IoU表1显示所提出的方法14S. Huang等人表3：我们的方法在SUN RGB-D数据集上的消融分析我们评估了不同场景下的整体场景理解我们将支持关系记为C1，物理约束记为C2，人类想象记为C3。类似地，我们将在推理期间仅优化布局的设置表示为S4，将在推理期间仅优化对象的设置表示为S5设置不含C1不含C2不含C3w/o（C1、C2、C 3）S4S5所有IOU42.341.343.838.439.436.344.7PG29.323.532.119.414.928.434.4Rg17.415.620.412.411.219.724.1Rr14.110.516.58.78.613.319.2显示出显著的改善。此外，我们改进了初始化结果的12。2%的几何精度，7。几何召回率为5%，6。1%的语义回忆，和4。1%的可用空间估计。整体场景理解的提高表明联合推理可以大大提高每个任务的性能。使用与3D布局估计相同的设置，我们与IM2CAD [ 33]进行比较，并将自由空间IoU提高了3。百分之一。消融分析：HSG包含支持关系、物理约束和潜在的人类上下文关系等几个关键要素。为了分析每个组件如何影响最终结果，以及联合推理过程对每个任务的益处，我们通过打开和关闭某些组件或跳过联合推理过程中的某些步骤，在不同设置下对整体场景理解进行消融分析。实验测试的办公室，我们将潜在的人类背景的子集。表3总结了结果。在我们引入的所有能量项中，物理约束对性能的影响最大，这表明了物理共同感在推理过程中的重要性。它也反映了联合推理的效率，因为如果没有迭代联合推理，性能会下降很大幅度6结论我们提出了一个分析合成框架，从一个单一的RGB图像，使用随机语法模型集成了潜在的人类背景，几何和物理恢复的室内场景的三维结构。我们从三个方面证明了我们算法的有效性：i）联合推理算法显著改善了各种单独任务中的结果，并且ii）优于其他方法;（3）烧蚀分析表明各个模块在整个框架中起着重要的作用。总的来说，我们相信这将是朝着整体3D场景理解的统一框架迈出的一致谢。我们感谢UCLA统计系的Ying Nian Wu教授进行了有益的讨论。这项工作得到DARPA XAIN66001-17-2-4029、MURI ONR N 00014 -16-1-2007、SPAWAR N66001-17-2-3602和ARO W 911 NF-18-1-0296的支持。整体三维场景解析与重建15引用1. Soatto，S.：视觉中的可操作信息。在：机器学习计算机视觉。03 The Dog（2013）2. Qi，S.，Zhu，Y.，Huang，S.，（1996年），中国科学院，江，C.Zhu，S.C.：使用随机文法以人为中心的室内场景合成。在：CVPR中。（2018年）3. 江，Y.，Koppula，H.，Saxena，A.：幻觉人类作为标记3d场景的隐藏上下文。在：CVPR中。（二零一三年）4. Gupta，A.，埃夫罗斯，匿名戒酒会Hebert，M.：重新审视块世界：使用定性几何和力学的图像In：ECCV. （二零一零年）5. Liu，X.，中国科学院院士，赵玉，Zhu，S.C.：基于属性文法的单视点三维场景解析。在：CVPR中。（2014年）6. 郑，B.，赵玉，乔伊，C.Y.，Ikeuchi，K.，Zhu，S.C.：通过推断人类行为和自然干扰来检测潜在的坠落物体IEEE International Conference onRobotics and Automation（ICRA）（2014年）7. Yuille，A.，Kersten，D.：视觉作为贝叶斯推理：综合分析？认知科学趋势（2006）8. Grenander，U.：模式理论第一、二、三讲：图案分析、图案合成和规则结构（1976）9. 洛珀女士布莱克，M.J.：Opendr：一个近似可微分的渲染器。In：ECCV.（2014年）10. Dai，J.，他，K.，孙杰：Boxsup：利用边界框来监督卷积网络进行语义分割。In：ICCV. （2015年）11. Zheng，S.，中国科学院，Jayasumana，S.，Romera-Paredes，B.Vineet，V.，苏、Z.Du，D.，黄，C.，Torr，P.H.：作为递归神经网络的条件随机场In：ICCV.（2015年）12. 诺H Hong，S.，汉，B.：用于语义分割的学习反卷积网络。In：ICCV.（2015年）13. Chen，L.C.，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI）（2017）14. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：CVPR中。（2015年）15. 林，G.，Milan，A. Shen，C.，Reid，I.：Refinenet：用于高分辨率语义分割的多路径细化网络。在：CVPR中。（2017年）16. 赵，H.，施，J.，Qi，X.，王，X.，Jia，J.：金字塔场景解析网络。在：CVPR中。（2017年）17. 赵玉，Zhu，S.C.：用随机场景文法进行图像分析神经信息处理系统（NIPS）会议。（2011年）18. 赵玉，Zhu，S.C.：通过集成功能、几何和外观模型进行场景解析在：CVPR中。（二零一三年）19. Choi，W. Chao，Y.W.，Pantofaru角Savarese，S.：使用三维几何短语理解室内在：CVPR中。（二零一三年）20. Lin，D.Fidler，S.，乌尔塔松河：基于rgbd相机的三维目标检测的整体场景理解In：ICCV. （二零一三年）21. Guo，R.，Hoiem，D.：支持室内场景中的表面预测。In：ICCV.（二零一三年）22. 张玉，Song，S.，Tan，P.，Xiao，J.：Panocontext：用于全景场景理解的全房间三维上下文模型。In：ECCV. （2014年）16S. Huang等人23. 张玉，Song，S.，Yumer，E.，Savva，M.，Lee J.Y. Jin，H.，Funkhouser，T.：使用卷积神经网络进行室内场景理解的基于物理的渲染。在：CVPR中。（2017年）24. Zou，C.，中国科学院，Li，Z.，Hoiem，D.：从单幅rgbd图像完成3d场景解析。arXiv预印本arXiv：1710.09490（2017）25. Hoiem，D.，埃夫罗斯，匿名戒酒会Hebert，M.：自动照片弹出。ACMTransactions on Graphics（TOG）（2005）26. Han，F.，Zhu，S.C.：通过属性图语法自下而上/自上而下的图像解析。在：ICCV. （2005年）27. Saxena，A.，Chung，S.H.，Ng，A.Y.：从单个单目图像学习深度神经信息处理系统（NIPS）会议。（2006年）28. Hedau，V. Hoiem，D.，Forsyth，D.：恢复杂乱房间的空间布局。在：CVPR中。（二零零九年）29. 李特区Hebert，M.，Kanade，T.：单幅图像结构恢复的几何推理在：CVPR中。（二零零九年）30. Mallya，A.，Lazebnik，S.：用于室内场景布局预测的学习信息边缘图。In：ICCV. （2015年）31. Dasgupta，S.，方，K.，Chen，K.，Savarese，S.：延迟：强大的空间布局估计杂乱的室内场景。在：CVPR中。（2016年）32. Ren，Y.，Li，S.，陈春，郭俊俊：一种由粗到细的室内布局估计（cfile）方法。亚洲计算机视觉会议（ACCV）（2016年）33. Izadinia，H.，Shan，Q.，Seitz，S.M.： Im2cad。在：CVPR中。（2017年）34. Lee ， C.Y. ， Badrinarayanan ， V. Malisiewicz ， T. ， Rabinovich ， A. ：Roomnet：端到端的房间布局估计。In：ICCV. （2017年）35. 赵，H.，Lu，M.，Yao，A.，Guo，Y.，中国科学院，陈玉，Zhang，L.：物理学启发的语义转移特征优化：房间布局估计的另一种方法。在：CVPR中。（2017年）36. Salas-Moreno ， R.F. ， Newcombe ， R.A. ， Stras

下载后可阅读完整内容，剩余1页未读，立即下载