基于隐式表示的单幅图像三维场景整体理解

170 浏览量更新于2024-01-22 收藏 4.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8833基于隐式表示的单幅图像三维场景整体理解张成2赵鹏崔1张银达酒店3* 曾兵2Marc Pollefeys4Shuaicheng Liu2†1浙江大学CAD CG国家重点实验室2电子科技大学3谷歌4苏黎世联邦理工学院摘要我们提出了一个新的管道，从一个单一的图像，可以预测物体的形状，物体姿态和场景布局的整体三维场景理解。由于这是一个高度不适定的问题，现有的方法通常遭受不准确的形状和布局的估计，特别是对于杂乱的场景，由于对象之间的严重遮挡。我们建议利用最新的深度隐式表示来解决这一挑战。我们不仅提出了一种基于图像的局部结构隐式网络来改善对象形状估计，而且还通过一种新的隐式场景图神经网络来改进3D对象姿态和场景布局还提出了一种新的物理违规损失，以避免对象之间的不正确的上下文。大量的实验表明，我们的方法优于国家的最先进的方法在物体形状，场景布局估计，和3D物体检测。1. 介绍3D室内场景理解是一个长期存在的计算机视觉问题，并且对几个应用具有巨大的影响，例如，机器人，虚拟现实给定一幅单色图像，目标是重建房间布局以及每个单独的对象，并估计其在3D空间中的语义类型。几十年来，有大量的作品不断提高这样一个任务的性能超过两个焦点的竞争。一种是保留细粒度几何细节的3D形状表示，从3D边界框、3D体积、点云发展到最近的三角网格。另一种是利用上下文信息（例如多个对象之间的共现或相对位置）对*平等贡献†通讯作者项目网页：https://chengzhag.github.io/publication/im3d/图1：我们提出的管道采用单个图像作为输入，估计布局和对象姿势，然后用符号距离函数（SDF）表示重建场景类别然而，杂乱的场景是一把双刃剑，不幸的是，它通过引入对象姿态和尺度的大变化以及严重的遮挡来增加3D场景理解的复杂性。因此，整体表现仍远未令人满意。在这项工作中，我们提出了一个用于整体3D场景理解的深度学习系统，它预测和细化对象形状，对象姿势和场景布局，并结合深度隐式表示。首先，与以前的方法类似，我们利用标准卷积神经网络（CNN）来学习3D对象姿态、场景布局以及3D形状的初始估计。与以前使用体积或网格等显式3D表示的方法我们设计了一个新的局部隐式形状嵌入网络，而不是像[12]那样将深度图像作为输入，直接从图像中学习潜在的形状代码，可以进一步解码以生成3D形状的隐式函数。由于隐式表示的能力，与其他表示相比，每个对象的3D形状可以以更高的精度和更精细的表面细节重建然后，我们提出了一种新的基于图的场景上下文网络来收集来自本地对象的信息，即，从初始预测中提取的自下而上的特征，并学习通过具有隐式表示的场景上下文信息来细化初始3D姿态和场景布局作为场景理解研究的核心课题之一，背景知识的获取主要是在深度学习时代实现的8834从模型结构和损失函数两个方面进行了分析从模型设计的角度来看，我们利用基于图的卷积神经网络（GCN）来学习上下文，因为它在学习上下文方面表现出了竞争力通过深度隐式表示，学习的局部形状潜在向量自然是对象几何形状的紧凑且信息丰富的特征测量，与从其他表示（例如网格）提取的特征相比，这导致更有效的上下文模型不仅是结构，而且深层内隐表征也有利于损失函数的上下文学习。在许多以前的作品中仍然缺少的最基本的上下文信息之一-对象不应该彼此相交，可以通过惩罚在多于一个对象中具有负预测SDF的3D位置的存在来容易地应用为监督。我们将此约束定义为一种新的物理违规损失，并发现它特别有助于防止相交对象和pro-proc-合理的对象布局。总的来说，我们的贡献主要在四个方面。首先，我们设计了一个两阶段的单图像为基础的整体三维场景理解系统，可以预测物体的形状，物体的姿势，并与深隐式表示的场景布局，然后优化后两者。其次，提出了一种新的基于图像的局部隐式形状嵌入网络来提取潜在的形状信息，从而获得更高的几何精度。第三，我们提出了一种新的基于GCN的场景上下文网络来细化对象排列，该网络很好地利用了初始估计中的潜在和隐含特征。最后，我们设计了一个物理侵犯损失，由于隐式表示，有效地防止对象相交。大量的实验表明，我们的模型达到了最先进的性能标准基准。2. 相关作品单幅图像场景重建. 单图像场景重建是一个高度不适定的问题，对基于学习的算法提出了很高的要求，特别是在有严重遮挡的杂乱场景中。该问题可分为布局估计、目标检测和姿态估计以及三维目标重建。第一个问题的一个简单版本是将房间布局简化为一个边界框[19，27，30，8，38]。为了在3D空间中检测对象并估计姿态，最近的作品[10，21，5]试图通过利用具有图形或物理模拟的对象之间的关系来从2D检测推断3D边界框。同时，其他作品[24，23，22]进一步扩展了将具有相似风格的CAD模型与每个检测到的对象对齐的想法。尽管如此，结果仍受到1对象内部具有负SDF，因此位置不应位于两个对象内部。CAD模型数据库，这导致场景的不准确为了解决先前工作的上述限制，Total3D [33]被提出作为端到端解决方案，以联合估计布局框和对象姿态，同时从检测中重建每个对象并利用重建来监督姿态估计学习。然而，它们仅利用具有基于外观和2D几何特征的对象之间的关系。形状表示。在计算机图形学领域，传统的形状表示方法包括网格、体素和点云。一些基于学习的作品试图将形状先验编码到特征向量中，但坚持通过将矢量解码为网格[17，50，34，42，14]，体素[54，7，3，52，44]或点云[29，1，57]。其他人则试图学习将形状分解为简单形状的结构化表示[28，11，36]。最近，隐式曲面函数[31 35，56，39，37，40]作为一种新的表示方法，克服了传统方法的缺点（即对网格和点云的神经网络不友好的数据结构，体素的分辨率低和内存消耗大），得到了广泛的应用。最近的作品[13，12，53]试图结合结构化和隐式表示，其提供了物理上有意义的特征向量，同时对解码形状的细节进行了显着改进图卷积网络。由[15]提出，图神经网络或GCN已被广泛用于从图结构数据中学习。受卷积神经网络的启发，引入了在谱域[4，9，25]或非谱域[18]上绘制图形，该图形与消息传递神经网络进行卷积，以收集来自相邻节点的注意力机制也被引入到GCN中，并已被证明在节点分类[48]、场景图生成等[58][41]第41话。最近，GCN甚至被用于超分辨率[59]，这通常是CNN的专利。在我们最感兴趣的3D世界中，GCN已用于点云的分类[51]和分割[46，49，51]，这通常是传统神经网络的敌人。GCN与我们最相关的应用场景是点云上的3D物体检测。最近的工作显示了GCN从点云数据预测关系[2]或3D对象检测[32]的能力。3. 我们的方法如图2所示，所提出的系统包括两个阶段，即，初始估计阶段和细化阶段。在初始估计阶段，类似于[21，33]，首先采用二维检测器提取二维边界8835图2：我们提出的管道。我们使用先前工作中的LEN和ODN初始化布局估计和3D对象姿势我们利用局部隐式嵌入网络（LIEN）来为LDIF解码器[12]编码潜在代码，并为SGCN提取隐式特征。利用LDIF和Marching Cube算法，提取物体网格，然后进行旋转、缩放和放置以构建场景。该算法首先从输入图像中提取出物体的形状信息，然后利用物体检测网络（ODN）将物体姿态恢复为3D边界框，并利用新的局部隐式嵌入网络（LIEN）直接从图像中提取隐式的局部形状信息，并进一步解码以推断出3D几何形状。输入图像还被馈送到布局估计网络（LEN）中以产生3D布局边界框和相对相机姿态。在细化阶段，设计了一种新的场景图卷积网络（SGCN），通过场景上下文信息来细化初始预测。作为2D检测器，LEN，ODN具有与先前工作类似的标准架构[21，33]，在本节中，我们将详细描述新颖SGCN和LIEN的细节请参阅我们的补充材料了解我们的2D探测器、LEN、ODN的详细信息。3.1. 场景图卷积网络如图2所示，受Graph R-CNN [58]的启发，我们将整个3D场景建模为图G，其中节点表示对象，场景布局及其关系。该图是从一个完整的图开始构建的，所有对象和布局节点之间都有无向边，这允许信息在对象和场景布局之间流动然后，我们将关系节点添加到每对相邻的对象/布局节点。考虑到方向关系的性质[26]，我们在不同方向的每对邻居之间添加两个关系节点。众所周知，输入特征是有效GCN的关键[50]。对于不同类型的节点，我们从不同的来源仔细设计功能，如下所示。对于每个节点，来自不同来源的特征被展平并连接成一个向量，然后使用MLP嵌入到具有相同长度的节点表示向量中。布局节点。我们使用LEN的图像编码器的功能，它编码的外观布局，布局包围盒和相机姿态的LEN的参数化输出，作为布局节点的功能。我们还将由图像高度归一化的摄像机内部参数关联到特征中以添加摄像机先验。对象节点。我们从ODN中收集外观关系特征 [33]，从ODN中收集对象边界框的参数化输出，以及世界坐标中的元素中心和来自LIEN的分析代码（我们将在下一节中进一步描述我们还使用来自2D检测器的独热类别标签来向SGCN引入关系节点。对于连接两个不同对象的节点，2D对象边界框的几何特征[20，47]和由图像高度和宽度归一化的两个连接对象的框角坐标将坐标系按源-目的地的顺序展开和连接，区分了不同方向的坐标关系。对于连接对象和布局的节点，由于关系可能不同于对象-对象关系，因此我们使用常量值初始化表示，将合理的关系表示的工作留给SGCN。对于一个具有N个对象和1个布局的图，对象布局节点和关系节点可以被放入两个矩阵Zo∈Rd×（N+1）和Zr∈Rd×（N+1）2中.由于图是用不同类型的节点建模的，这使得从不同的源到目的地所需的信息不同，我们为每个源-目的地类型定义独立的消息传递权重。我们将具有类型a和b的从源节点到目的节点的线性变换表示为Wab，其中8836节点类型可以是源对象（或布局）S、目的地对象（或布局） D 和关系 R 。当相邻的 ma-αsr=αdr=1−IN+1时，对象和布局节点的表示可以更新为基于局部隐式嵌入网络（LIEN）的三维形状学习算法是一个具有挑战性的问题。我们的LIEN由Resnet-18作为图像编码器，以及三层来自布局或对象的阿克斯o o来自邻居关系的阿克斯SrR SRDR RMLP以获得分析代码和潜在代码。此外，在为了有效地学习潜在特征，我们将类别代码与来自编码器的图像特征连接起来zi=σ（zi−1+WsdZ o+WZ α+W Zαdr），（一）在LIEN中引入形状先验，大大提高了LIEN的性能。请参阅我们的补充材料-并且关系节点表示可以被更新为建议的LIEN的详细架构的材料。zr=σ（zr+WrsZoαrs+WrdZoαrd），（2）ii−1“我的天，来自布局或相邻对象的3.3.损失函数在消息传递的四个步骤之后，独立的MLP用于将对象节点表示解码为对应对象边界框参数（δ，d，s，θ）的残差，然后躺下。ut节点重新表示为初始层的残差模块的损失。当单独训练LIEN和LDIF解码器时，我们遵循[12]使用具有权重λc和点样本损失的形状元素中心损失Lc外盒C，sl，θl和相机姿态R（β，γ）。请参阅Lp=λns LNS+λus 我们、（3）[33]我们的故事，是一个关于“我”的故事第形状代码也可以在场景图中进行细化，但我们发现，它在经验上的改进不如我们的流水线中的布局和对象姿势，因为我们的局部隐式嵌入网络（将在下文中介绍）足够强大，可以准确地其中Lns和Lus评估近表面样本和均匀采样点的L2当训练LEN和ODN时，我们遵循[21，33]使用分类和重新分类。对于LEN和ODN的每个输出参数，Σ形状.3.2. 局部隐式嵌入网络LLEN=y∈{β，γ，C，sl，θl}ΣλyLy，（4）有了为每个场景构建的图，我们自然询问SGCN的哪些功能有助于有效捕获上下文LODN=x∈{δ，d，s，θ}λxLx.（五）对象之间的信息。直观地说，我们期望的功能，很好地描述3D对象的几何形状和它们在3D空间中的关系。由Genovaet al.[12]，我们建议利用局部深度隐式表示作为嵌入对象形状的特征，因为它对于单个对象重建具有优越的性能。在他们的模型中，函数是32个3D元素（16个具有对称约束）的组合，每个元素用10个高斯函数参数分析代码和32-dim潜在变量（潜在代码）描述。高斯参数描述了每个高斯函数的尺度常数、中心点、半径和欧拉角，其中包含3D几何的结构化信息。我们使用分析代码作为SGCN中对象节点的一个功能，它应该提供有关本地对象结构的信息。此外，由于高斯函数的中心可能对应于对象的不同部分的中心，我们还将它们从对象坐标系转换到世界坐标系，作为SGCN中每个对象节点的特征。转换提供了关于场景的全局信息，这使得SGCN更容易推断对象之间的关系。这两个特征构成了连的隐性特征由于LDIF [12]被设计用于从一个或多个深度图像进行3D对象重建，因此我们设计了一个新的图像-具有对象物理违规损失的联合优化。对于细化阶段，我们的目标是使用场景上下文信息通过最小化以下损失函数来优化场景布局和对象姿态Lj=LLEN+LODN+λcoLco+λphy Lphy。（六）除了LLEN，LODN和合作损失Lco[33]之外，我们提出了一种新的物理违规损失作为联合损失的一部分对于场景图卷积网络，以确保对象不会彼此相交。局部隐式表示所使用的神经SDF表示为我们提供了一种方便的方法来将不期望的几何相交的梯度传播回对象姿态估计。为了实现这一点，我们首先对对象内部的点进行采样对于每个对象i，我们随机采样每个对象的边界框内的点，以及高斯元素的中心点然后，我们将这些候选数据排队到对象的LDIF解码器中，并过滤掉对象表面外部的点以获得内部点样本Si。最后，我们将Si排队到k个最近对象Ni的LDIF解码器中，以验证它们8837是否与其他对象有交集（如果预测的标签是我们遵循[12]来计算相交点的预测标签与地面真实表面标签之间的L2损失（其中我们8838图3：对象物理违规损失。基于物体不应该相交的观点，我们惩罚相邻物体中的点（表现为p，在物体A和物体B中具有在误差通过LDIF解码器反向传播的情况下，应当将交叉对象从彼此推回，从而减少由不良对象姿态估计导致的交叉。使用1，0，0。5用于“外部”、“内部”、“表面”标签）。对象物理违规损失可定义为：1000NLphy=Ni=11|Si|Σx∈Si阿斯图里亚斯（0. 5−sig（αLDIFi（x），（七）其中LDIFi（x）是对象i的LDIF，用于将世界坐标点x解码为LDIF值。在LDIF值（按α缩放）上应用sigmoid以获得预测的标签，并且应用ReLU以仅考虑最小点。如图3所示，损失惩罚了两个采样点，从而将两个对象彼此推开以防止交叉。4. 实验在本节中，我们将我们的方法与最先进的3D场景理解方法在各个方面进行比较，并提供消融研究以突出主要组件的有效性。4.1. 实验装置数据集。我们遵循[33]使用两个数据集单独和联合训练每个模块。我们使用两个数据集进行训练和评估。1)Pix3D数据集[45]作为形状相关任务的基准，包括重建，提供9类395个家具模型和10，069个精确对齐的图像我们使用Occupational Network [31]的网格融合管道来获得用于LIEN训练的水密网格，并在原始网格上评估LIEN。2)SUN RGB-D数据集[43]包含由四个不同传感器捕获的10 K RGB-D室内图像，并使用2D分割，语义标签，3D房间布局和具有对象方向的3D边界框遵循Total 3D [33]，我们在Pix 3D数据集上使用[14]中的训练/测试对象标签从NYU-37映射到Pix 3D，如[33]所示。指标. 我们采用与[21，33]相同的评估指标，包括平均3D交集(a) 输入(b)中国网络(c)MGN(d)我们图4：对象重建定性比较。我们使用[33]中的实现实现来实现PastasNet [16]。我们的结果包含更精细的细节，并具有更光滑的表面。(IoU)用于布局估计;用于相机姿态的平均绝对误差;用于对象检测的平均精度（AP）;以及用于从单个图像生成单个对象网格的倒角距离。实施. 我们使用Total3D的2D检测器的输出作为我们模型的输入。我们还采用了Total3D的ODN和LEN的相同结构LIEN在Pix 3D上使用LDIF解码器进行训练，具有防水网格，使用Adam优化器，批量大小为24，学习率从2 e-4衰减（如果测试损失停止减少50个epoch，则按0.5缩放，总共400个epoch），并在原始非防水网格上进行评估。SGCN在SUN RGB-D上训练，使用Adam优化器，批量大小为2，学习率从1 e-4衰减（在epoch 18之后每5epoch缩放0.5，总共30 epoch我们遵循[33]单独训练每个模块然后联合训练。当单独训练SGCN时，我们使用Lj而不使用Lphy，并将其与其他模块的预训练权重一起放入完整模型中。在联合训练中，我们采用了来自8839类别床书柜椅子书桌沙发表工具衣柜Misc是说[第16话]9.036.918.378.596.2419.466.954.7840.0512.26TMN [34]7.785.936.867.084.2517.424.134.0923.689.03MGN [33]5.996.565.325.933.3614.193.123.8326.938.36我们4.113.965.457.855.6111.732.394.3124.656.72表1：对象重建比较。我们报告以因子103缩放的倒角距离。我们遵循[33]将重建的网格与ICP地面实况对齐，然后从输出和地面实况网格中采样10K个点虽然在具有更多噪声的水密网格上训练，但我们的结果仍然显示出更好的结果。方法床椅子沙发表书桌梳妆台床头柜水槽内阁灯地图3DGP [6]5.622.313.241.23-------HOPR [22]58.2913.5628.3712.124.7913.718.802.180.482.4114.47[21]第二十一话57.7115.2136.6731.1619.9015.9811.3615.9510.473.2821.77[33]第三十三话60.6517.5544.9036.4827.9321.1917.0118.5014.515.0426.38我们89.3235.1469.1057.3749.0329.2741.3433.8133.9311.9045.21表2：3D对象检测比较。对于CooP，我们报告了在NYU-37对象标签上训练的[33]的更好结果。我们的方法优于SOTA，受益于更好地理解对象关系和场景上下文。[33]该方法的目标重建依赖于干净网格的监督，以固定LIEN和LDIF解码器的权重4.2. 与最新技术在这一节中，我们从对象重建、3D对象检测、布局估计、相机姿态预测和场景网格重建等方面比较了用于整体场景理解的最三维物体重建。我们首先将LIEN的性能与以前的方法进行比较，包括PixasNet [16]，TMN [34]和Total3D[33]，以获得Pix3D数据集上预测几何形状的准确性。所有的方法作为输入作物的图像的对象，并产生3D几何。为了进行公平的比较，one-hot对象类别代码也与EASNet [16]和TMN [34]的外观功能相连接。对于我们的方法，我们在256分辨率上运行行进立方体算法来重建网格。定量比较如表1所示与其他方法相比，我们的方法产生最准确的 3D形状定性结果如图 4 所示。RollasNet在有限的拓扑中产生结果，从而生成许多不需要的曲面。MGN通过拓扑修改的能力缓解了这一问题，虽然改进了结果，但由于三角网格表示能力有限，仍会留下明显的伪影和不光滑的表面。相比之下，我们的方法产生的三维形状具有正确的拓扑结构，光滑的表面，和细粒度的细节，这清楚地显示了深隐式表示的优势。表3：3D布局和相机姿态估计比较。我们的方法优于SOTA 5.2%，布局估计，而与SOTA相机姿态估计。在所有语义类别中始终是最好的，并且显著优于最新技术水平（即，将AP提高18.83%）。图5显示了一些定性比较。请注意，与Total3D相比，我们的方法如何产生对象布局，不仅更准确，而且在合理的上下文中，例如对象平行于墙壁方向。布局估算。我们还将3D房间布局估计与Total3D [33]和其他最先进的[6，22，21]进行了比较。定量评价见表3（布局IoU）。总的来说，我们的方法优于所有的基线方法.这表明GCN能有效地度量布局与对象之间的关系，从而有利于布局预测。相机姿态估计。表3还示出了根据Total3D的评估协议对相机姿态预测的比较。我们的方法实现了5%更好的相机俯仰和略差的相机滚动。整体场景重建。据我们所知，Total 3D [33]是唯一一个从单个RGB实现整体场景重建的工作，因此我们与之进行了比较。由于SUN RGB-D数据集中没有地面实况，3D物体检测然后，我们评估我们的模型的3D对象检测性能。按照[33，21]，我们使用平均精度（mAP），3D边界框IoU的阈值设置为0.15作为评估指标。与最先进方法[6，22，21，33]的定量比较我们的方法执行我们主要在图5中进行定性比较。与Total3D模型相比，该模型具有较少的交叉点，并能估计出更合理的对象布局和方向。我们认为这是从更好地了解场景GCN的背景我们提出的物理违规损失Lphy也有助于减少交叉。方法布局IoU凸轮节距凸轮辊3DGP [6]19.2--埃达[19]-33.853.45HOPR [22]54.97.603.12[21]第二十一话56.93.282.19[33]第三十三话59.23.152.098840图5：物体检测和场景重建的定性比较。我们比较了倾斜视图和相机视图中的Total3D[33]和地面实况的实验结果表明，该方法具有更高的包围盒估计精度和更少的交叉。在摄像机视角下，将场景重建结果与Total3D进行比较，观察到更合理的物体姿态。场景重建相机视图斜视图输入我们GT3D打印我们3D打印GT我们3D打印88414.3. 消融研究在本节中，我们验证了所提出的组件的整体场景理解的有效性。如表4所示，我们禁用某些组件并评估3D布局估计和3D对象检测的模型。我们不评估3D对象重建，因为它与深度隐式表示的使用高度相关，这已经在第4.2节中进行了评估。GCN重要吗？为了显示GCN的有效性，我们首先将GCN附加到原始Total3D以改进对象和场景布局（表4，Total3D+GCN）。对于Total3D的MGN和我们的LIEN之间的差异，我们用来自MGN的图像编码器的特征替换深度隐式特征，并使用他们提出的部分倒角损失Lg代替Lphy。对象边界框和场景布局得到改善。我们还训练了一个版本的没有GCN的模型（Ours-GCN），性能显着下降。实验结果表明，GCN能有效地捕捉场景上下文信息.深隐特征重要吗？如第3.2节所介绍的，LDIF表示为GCN提供了信息性节点特征。在这里，我们展示了潜在表征的每个组成部分的联系。特别是，我们从GCN节点特征中删除元素中心或分析代码（Ours-element，Ours-设置布局IoU（↑）检测mAP（↑）3D打印全三维+GCN59.2562.4926.3837.04Ours-GCN60.0427.47我们的元素64.2242.05我们的分析63.7643.10我们的-Lphy63.5243.33充分64.4145.21表4：消融研究。我们使用布局IoU评估布局估计，使用mAP进行3D对象检测。设置Sup Err（厘米）LgColl（dm3/场景）转角错误（%）像素错误（%）3D打印26.721.43-13.2920.51Ours-GCN24.181.4116.6413.1720.05我们的-Lphy13.351.1413.6511.6017.91充分14.711.1113.5511.4517.60表5：其他指标的消融研究。我们比较支持误差，Lg（单位为10−2），平均碰撞体积，角点误差和像素误差。分析），并发现两者都损害了性能。这表明，完整的潜在表征有助于追求更好的场景理解性能。物理违规损失重要吗？此外，我们还评估了物理违规损失的有效性。我们在没有它的情况下训练我们的模型（我们的-Lphy），并且还观察到场景布局和对象的性能下降表4中的3D边界框。我们参考补充材料进行定性比较。在其他方面进行评价。我们还测试了我们的方法在其他方面，包括支持关系，几何精度，房间布局如表5所示1）我们计算预测的地板上物体的底部与地面真实地板之间的平均距离，以测量支撑关系。作为地面实况，如果物体的底面距离地面15厘米以内，则认为物体在地面上虽然GCN显著地改进了度量，但Lphy可能会受到轻微的伤害，因为它倾向于将对象推开。毛皮-其它定性结果示于补充材料中。此外，我们还测量了每个场景中物体之间的平均碰撞体积（Coll），我们的完整模型有效地防止了碰撞。 2)我们关注Total3D[33] 评估场景重建和地面真实深度图之间的对齐与全局损失Lg，我们的完整模型表现最好。3)我们还将预测的布局投影到图像上，并使用基于图像的方法进行评估[8，38]。我们的完整模型在角点和像素误差方面都达到了最佳效果总的来说，GCN和Lphy在所有方面都(a) 输入（b）3D检测（c）重建图6：ObjectNet3D数据集[55]（第1行）和[19]（第2行）中的布局估计数据集的定性结果。这些方面。4.4. 推广到其他数据集我们还显示了我们的方法在 3D 检测数据集ObjectNet3D [55]和[19]中的布局估计数据集上测试的定性结果，而没有在图中进行微调六、我们的方法表现出良好的泛化能力，并在这些看不见的数据集上表现得相当好。5. 结论我们已经提出了一种通过利用深度隐式表示来进行整体场景理解的深度学习模型。我们的模型不仅重建准确的三维物体几何，但也学习更好的场景上下文使用GCN和一个新的物理违规损失，它可以提供准确的场景和对象布局。大量的实验表明，我们的模型提高了各种任务在整体场景下的理解比现有的方法。一个有前途的未来方向可能是利用对象功能来更好地理解3D场景。鸣谢：本研究得到了国家自然科学基金项目（资助号：61872067和61720106004）的资助。8842引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.学习3d点云的表示和生成模型。机器学习国际会议，第40-49页。PMLR，2018年。[2] ArmenAvetisyan ， TatianaKhanova ， ChristopherChoy ， Den- ver Dash ， Angela Dai ， and MatthiasNießner.Scenecad：预测rgb-d扫描中的对象对齐和布局。arXiv预印本arXiv：2003.12622，2020。[3] 安德鲁·布洛克，西奥多·林，詹姆斯·M·里奇和尼克·韦斯顿。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。[4] 琼·布鲁纳，沃伊切赫·扎伦巴，阿瑟·斯拉姆，扬·勒·昆.图上的谱网络和局部连通网络。arXiv预印本arXiv：1312.6203，2013。[5] Yixin Chen ，Siyuan Huang ，Tao Yuan ， Siyuan Qi ，Yixin Zhu，and Song-Chun Zhu.整体++场景理解：单视图3D整体场景解析和人体姿态估计，具有人机交互和物理常识。arXiv预印本arXiv：1909.01507，2019。[6] Wongun Choi，Yu-Wei Chao，Caroline Pantofaru，andSilvio Savarese.使用3d几何短语理解室内场景。在IEEEConf.目视模式识别，2013年。[7] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法。在Eur. 确认补偿目视，第628-644页。Springer，2016.[8] Saumitro Dasgupta，Kuan Fang，Kevin Chen，and SilvioSavarese.延迟：用于杂乱室内场景的鲁棒空间布局估计。在IEEE Conf.目视模式识别，2016年。[9] 我是德费拉尔，Xa vierBresson和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。在高级神经信息。过程。系统第3844-3852页[10] Yilun Du，Zhijian Liu，Hector Basevi，Ales Leonardis，Bill Freeman，Josh Tenenbaum，and Jiajun Wu.学习开发三维场景解析的稳定性。在高级神经信息。过程系统，2018年。[11] Lin Gao，Jie Yang，Tong Wu，Yu-Jie Yuan，HongboFu，Yu-Kun Lai，Hao Zhang.SDM-net：用于结构化变形网格的深度生成网络。 ACM 事务处理图表，38（6）：1[12] Kyle Genova ， Forrester Cole ， Avneesh Sud ， AaronSarna，and Thomas Funkhouser.三维形状的局部深隐函数。在IEEE Conf. Comput. 目视模式识别，第4857-4866页[13] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在国际会议计算中。目视，第7154-7164页[14] 乔治娅·吉克萨里，吉坦德拉·马利克，贾斯汀·约翰逊.网格r-cnn。在国际会议计算中。目视，第9785-9795页[15] Marco Gori，Gabriele Monfardini，and Franco Scarselli.一种新的图域学习模型。在议事录中。2005年IEEE神经网络国际联合会议，2005年。第2卷，第729-734页。IEEE，2005年。[16] 放大图片创作者：Thomas G. Kim ，Bryan Russell，andMathieuAubry. 学习3D表面生成的一种方法在IEEEConf.目视模式识别，2018年。[17] Thibault Groueix，Matthew Fisher，Vladimir G Kim，BryanCRussell，andMathieuAubry. 本文介绍了一种学习三维表面生成的方法.在IEEE Conf.目视模式识别，第216-224页[18] Will Hamilton，Zhitao Ying，and Jure Leskovec.大图上的归纳表示学习。在高级神经信息。过程系统，第1024-1034页[19] Varsha Hedau，Derek Hoiem，and David Forsyth.恢复杂乱房间的空间布局。在国际会议电脑上。目视，2009年。[20] 韩虎、顾家元、张正、戴继峰、魏亦辰。用于对象检测的关系网络。在IEEE Conf.目视模式识别，2018年。[21] Siyuan Huang，Siyuan Qi，Yinxue Xiao，Yixin Zhu，Ying Nian Wu ，and Song-Chun Zhu.协作整体场景理解：统一3D对象、布局和摄像机姿态估计.在高级神经信息。过程系统，2018年。[22] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单一rgb图像解析和重建整体三维场景在Eur. Conf. Comput.目视，2018年。[23] Moos Hueting，Pradyumna Reddy，Vladimir Kim，ErsinYumer，Nathan Carr，and Niloy Mitra.透视：在严重遮挡的室内场景图像中找到椅子。arXiv预印本arXiv：1710.10473，2017。[24] Hamid Izadinia，Qi Shan，and Steven M Seitz.Im2cad。在IEEE会议Comput. 目视模式识别，2017年。[25] Thomas N Kipf和Max Welling。用图卷积网络进行半监督分类。arXiv预印本arXiv：1609.02907，2016。[26] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense image annotations. Int. J. Comput. 目视，123（1）：32[27] David C Lee，Martial Hebert和Takeo Kanade。单图像结构恢复的几何推理在IEEE Conf.目视模式识别，2009年。[28] Jun Li，Kai Xu，Siddhartha Chaudhuri，Ersin Yumer，Hao Zhang，and Leonidas Guibas.草：生成递归的形状结构的自动编码器。ACM事务处理图表，36（4）：1[29] 林晨轩，陈空，西蒙·露西。密集三维物体重建的高效点云生成。arXiv预印本arXiv：1706.07036，2017。[30] 阿伦·马利亚和斯维特拉娜·拉兹布尼克。用于室内场景布局预测的学习信息边缘图。在国际会议计算中。目视，2015年。[31] 拉尔斯·梅谢德，迈克尔·奥切斯勒，迈克尔·尼迈耶，塞巴斯蒂安·诺沃津，安德烈亚斯·盖格.占领网络：8843学习函数空间中的三维重建。在IEEE Conf.目视模式识别，第4460-4470页[32] Mahyar Najibi、Guangda Lai、Abhijit Kundu、ZhichaoLu 、 Vivek Rathod 、 Thomas Funkhouser 、 CarolinePantofaru、David Ross、Larry S Davis和Alireza Fathi。Dops：学习检测3D对象并预测其3D形状。在IEEE Conf.目视模式识别第11913-11922页，2020年。[33] Yinyu Nie ， Xiaogang Han ， Shihui Guo ， YujianZheng，Jian Chang，and Jian Jun Zhang.全三维理解：从一幅图像中进行室内场景的联合在IEEE Conf.目视模式识别，2020年。[34] Junyi Pan ， Xiaoguang Han ， Weikai Chen ， JiapengTang，and Kui Jia.基于拓扑修正网络的单幅rgb图像深度网格重建。在国际会议计算中。目视，第9964-9973页[35] 朴正俊、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数的形状表示。arXiv预印本arXiv：1901.05103，2019。[36] Despoina Paschalidou，Ali Os

下载后可阅读完整内容，剩余1页未读，立即下载