基于图推理的三维物体预测及几何结构建模

137 浏览量更新于2023-10-13 收藏 2.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12717整体姿势图：基于图推理的场景中物体几何结构建模及三维物体预测肖继伟1，2，王瑞平1，2，3，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京100049 3北京人工智能研究院，北京100084jiwei.xiao@ vipl.ict.ac.cn，{wangruiping，xlchen}@ ict.ac. cn摘要由于缺少深度线索，从单个RGB图像检测3D对象本质上是不明确的现有方法独立地或仅通过组合有限环境内的局部关系来预测每个对象的3D姿态，但很少从全局角度探索固有的几何关系为了解决这个问题，我们认为，在场景中的对象之间的几何结构建模是非常关键的，因此精心设计的Holistic姿态图（HPG），显式地集成所有的几何姿态，包括对象的姿态处理为节点和相对姿态处理为边缘。HPG的推断使用GRU来编码来自单个RGB图像中的其对应区域的姿态特征，并且沿着图形结构迭代地传递消息以改进预测的姿态。为了进一步增强对象姿态和相对姿态之间的对应关系，我们提出了一种新的一致性损失，明确衡量它们之间的最后，我们应用全局姿态估计（HPE），以联合评估独立的对象姿态和相对姿态。在SUN RGB- D数据集上的实验表明，该方法对三维物体预测有1. 介绍从单个RGB图像进行3D对象预测是非常具有挑战性的，其估计场景中每个对象的3D边界框。该任务的主要困难是预测单个RGB图像在从3D真实世界到2D图像的投影期间丢失的深度信息。人类在观看图像时如何能够做出精确的人类不仅具有关于类别特定对象的丰富先验知识，而且还可以利用不同类别之间的几何关系(a)（b）第（1）款图1. 使用几何关系的效果。(a)来自我们的基线方法[27]的一些结果，其使得关于相对姿态的估计不准确。(b)使用HPG后，模型的预测结果更加合理。在场景中输入对象以减轻每个对象的预测的不确定性现有的方法[12，14，16，17，20，37]考虑使用先验知识来独立地推理物体的姿态，但有时是粗糙的。由于每个对象的预测的不可避免的偏差，将存在一定量的不准确估计，如图1（a）所示，这导致人类这些结果主要是由不正确的相对位姿估计引起的，并且可以通过使用几何关系来有效地避免。受上述观察的启发，我们寻求利用几何关系来对每个对象添加更多约束，以进行更合理和更精确的估计。明确地对几何关系进行建模将帮助我们排除3D空间中许多不可能的解决方案例如，如图1（a）顶部所示，我们应该得到12718相机姿态估计对象姿态估计相对姿态估计对象姿态相机姿态整体姿态图深度取向刻度偏移相对深度相对定向相对尺度相对偏移消息传递...T = 0T = 1T = N图2.概述我们提出的方法。我们首先估计三维摄像机的姿态，物体的姿态和相对姿态，根据整个图像和二维检测。如上所示，蓝色节点定义对象姿势，绿色边定义相对姿势。我们构建整体姿态图并沿着该图拓扑传递消息。结合摄像机的姿态和最终的物体姿态，我们可以得到所有的三维包围盒在图像中的相机系统的基础上。图像中的两张桌子具有相同取向的线索，以避免错误的估计。此外，我们试图利用整体的几何关系，而不是只考虑成对的关系，以便更好地保持2D图像和3D现实世界之间的一致性。因此，我们设计的整体姿态图（HPG），有效地建模场景中的对象之间的几何结构。如图1（b）所示，使用HPG后得到了更合理的预测。图2显示了我们的方法的概述。我们首先估计相机的姿态从整个图像的全局特征。在检测到2D对象之后，我们裁剪图像的相应区域以提取对象姿态特征。具体地，相对姿态特征由相关对象姿态特征、图像中的联合区域的视觉特征以及从2D边界框的坐标计算的2D相对几何特征组成。我们使用这些特征来初始化定义对象姿态的图节点和定义相对姿态的边，并进一步构建HPG。通过沿着该图拓扑迭代地传递消息，节点和边集成整体几何信息并同时更新它们的状态。最后，我们结合相机姿势和最终对象姿势来参数化3D边界框。为了进一步估计合理的场景布局，提出了基于物体姿态和相对姿态之间内在约束的一致性损失，增强了两者之间的对应性计算预测的 3D 边界框与地面实况之间的 3D 交并（IoU），但未能将图像中的所有对象作为一个整体来处理。在这些度量下，不能区分图1（a）和（b）的顶行中的结果，因为所有对象的IoU都高于预设阈值。然而，图1（b）的结果在人类认知中确实更合理。因此，我们引入整体姿态估计（HPE），其更全面地评估独立对象的3D边界框和每对对象的相对姿态。我们在SUN RGB-D数据集[32]上评估我们的模型1结果表明，我们提出的方法优于以前的方法，无论是在现有的指标和HPE。2. 相关工作从单个RGB图像进行3D对象预测是非常具有挑战性的。基于场景几何的早期作品[2，22，39-近年来，许多基于学习的方法专注于房间布局估计[3，26，30，42]和对象姿态估计[4，14这些方法结合了类别特定的先验知识和单个RGB图像中独立对象的视觉外观特征来预测3D边界框。为了解决2D-3D模糊性，现有技术的方法提出了各种技术来提高3D对象预测的性能。Huang等人. [15]设计3D边界框的新参数化以加强2D-3D一致性。Huang等人. [14]提出了一种中间表示来弥合2D-3D差距。虽然已经实现了可观的改进，但是这样的方法通常对每个对象进行独立的预测并且忽略几何关系的重要性。建模2D关系可以帮助我们更好地理解对象的属性和整体场景。关系的利用已经证明了在2D和3D中的一系列计算机视觉任务的好处。二维关系主要包括语义关系和几何关系。对于2D对象检测，[13，24]使用语义关系来提高分类任务的性能。[35，36，38]类似地提取用于场景图生成任务的语义关系特征。对于3D任务，[5专注于与本研究相关的3D预测任务，Nieetal.[27] 隐式地编码每个对象周围环境中多边关系Kulkarni等人[20]考虑成对关系来分别训练对象姿态模块和关系模块。与上述方法不同，我们的方法显式编码为了评估3D对象预测的性能，例如筛选度量仅通过以下方式独立处理每个预测1我们的源代码可在www.example.com上获得http://vipl.ict.ac.cn/resources/codes。12719√，−ij∈∈∈J∈JJJJJU的整体几何关系，和模型的几何结构图推理，以增强对象和关系之间的关于从单个RGB图像进行3D对象预测的现有度量主要来自SUN RGB-D基准[32]，其中3D IoU阈值的以下调整old从0.25到0.15，Huang等人[15]考虑到图形初始化。我们利用2D检测结果来裁剪检测到的区域，然后使用ResNet-34来提取对象姿态特征Pv。我们将每对对象姿态特征、2D相对几何特征 g 和由ResNet-34编码的对应的联合区域的视觉特征u连接起来g是e v v在基于RGB的输入中缺少深度信息的挑战。[15]进一步开发了3D框估计，以通过排除2D检测器的影响来反映将2D真实边界框映射到3D边界框的能力。为了评估独立对象和每对对象的相对位姿的性能，我们引入基于从主题i和对象j的2D边界框计算，如[19]中所示。具体地，xi、yi、wi、hi定义对象i的2D边界框，B1、BU分别定义相交区域和并集区域，并且f（）是FC层以增加2D相对几何特征的维度。图结构来计算<主体姿态、相对姿态、对象姿态>三元组的准确度。Xxg=f（[√w hyi−yj，w hwihiw h，wiw，hih，BIB]）。（二）3. 方法在这项工作中，我们设计的整体姿态图建模的几何结构之间的对象在一个场景中的对象的姿态和相对姿态的原因我们在图3中展示了我们的框架。以下各节将介绍详细信息。3.1. 整体姿态图图形表示。G=（PV，PE）表示输入图像的所有几何姿态。节点PvPV定义对象姿态，并且边PePE定义相对姿态。我们参数化的对象姿态与先前的工作[15]和相对姿态类似的描述。对象姿态Pv由四个参数（δ，d，δ，s）描述。δR2定义3D投影中心与2D边界框中心之间的偏移，d∈R是摄像机中心与3D对象中心之间的距离，δ∈R3×3表示3D边界框的方向，s∈R3是长、宽和高3.2. 消息传递我们将HPG构建为一个完全连接的图，该图对每对对象之间的所有几何关系进行GRU [1]被用来有效地编码特征，因为它的高效率，如[24，35]中所提倡的。为了整合整体几何信息，我们沿着图结构传递消息两种GRU的状态分别由对象姿态特征Pv和相对姿态特征Pe初始化。HPG中的每个节点和边在其对应的GRU单元中维持其状态，其中所有节点共享相同的GRU权重，并且所有边共享另一组GRU权重。消息传递机制的说明如图4所示。在每个消息传递迭代期间，每个节点用来自所有相关边的消息更新其状态，并且每个边用来自其主体节点和对象节点的消息更新其状态。如在[35]中，我们将节点GRU和边缘GRU的状态表示为h，h，将第i个节点消息表示为m，并且将边缘GRU的状态表示为m。3D包围盒我们建造世界的中心系统-TEM位于摄像机中心，其y轴垂直于地板，其x轴朝向摄像机跟随[27]。因此，我们可以使用俯仰角和滚转角（α，β）来表示相机外部参数R（α，β）∈R3×3。伊伊从第i个节点到第j个节点的消息为m_ij。具体地，m，i和m，j被公式化为：m = Σσ（w [h，h]）h+Σσ（w[h，h]）h，我们可以通过摄像机内参数K∈R3×3，摄像机外参数R（α，β）∈R3×3，二维包围盒的中心来表示三维包围盒我j：i→j出来伊伊季IJj：j→i在IJi纪（三）c∈R2和相应的物体姿态。首先，Cen-3D边界框C∈R3的t可以计算为mij=σ（wsu b[hi，hi j]）hi+σ（wob j[hj，hi j]）hj.（四）C=dR（α，β）−1K−1[c+δ，1]TK−1[c+δ，1]T.（一）在以上等式中，[，]是级联运算，并且σ表示S形函数。w_out、w_in、w_sub、w_obj是可学习的权重。在消息传递过程之后，然后，组合C、和s可以决定世界系统中的3D边界框BR3×8相对姿态Pe具有与表示主体i和对象j之间的相对姿态的Pv类似的参数化（ δi j ，di j ， δi j ，sij）。我们使用四个FC层来单独预测对象姿态Pv的四个参数（δ，d，δ，s）。类似地，我们还使用其他四个FC层来获得相对姿态Pe的四个参数（δi j，di j，δij，si j）。.JJ12720--∗ev- --v整个图像提取全局特征场景场景特征FC对象建议对象节点特征FC节点GRU边缘GRU消息传递节点GRU...边缘GRU节点GRU边缘GRU对象姿态一致性特征图关系边缘特征T=0T=1T=N相对姿态图3. HPG：我们方法的框架。我们的网络有两个分支，分别预测相机姿势和每个对象姿势。首先，我们采用ResNet-34 [11]架构来提取用于估计相机姿态的全局特征根据二维目标检测的结果，对检测到的目标建议进行裁剪，提取初始化节点GRU的目标特征，然后将每对目标特征与合并区域的视觉特征进行拼接使用HPG，我们然后沿着图结构传递消息，并迭代地更新每个节点和边的状态。通过分别对输出对象姿态和相对姿态施加直接监督，进一步提出了一致性损失以建立两种姿态之间的对应关系最后，我们结合相机姿势和每个对象姿势来估计场景中的3D边界框节点中心图分类和回归的方法，但直接回归δ，s，因为它们固有的低方差。L_obj和L_rel被定义为：L=ΣλregLreg+Σ（λregLreg+λclsLcls），objX xx∈{δ，s}y yy∈{k，d}y y（五）Lrel=ΣλregLreg+Σ（λregLreg+λclsLcls）。X xx∈{δij，sij}y yy∈{ij，dij}y y（六）Lcls是softmax损失函数，Lreg是smooth-L1损失function. λ∗∗边中心图图4. 消息传递机制的说明。节点消息来自入站和出站边缘GRU及其自己的状态。边缘信息来自主体和客体是相应损失函数的权重。由于同一场景中的两种预测姿态，它们之间存在固有的对应关系。对于一对物体位姿（Pi，Pj）和它们的相对位姿Pij，它们在理论上是等价的。解释一下-它度量（Pi，Pj）和Pij之间的一致性，我们v v e节点GRU及其自身状态。使用其相关的（Pi，Pj）将Pije v v3.3. 损失函数如图3所示，HPG最终输出对象姿态和相对姿态，我们直接使用它们的地面实况来监督。此外，我们进一步提出了一致性损失，对两个姿势预测模块施加监督，以保持它们的对应关系。因此，我们定义了三个损失函数Lobj（对象姿态），Lrel（相对姿态），Lcon（一致性）。如[15，28]中所述，直接回归绝对角度或深度容易出错，这放大了预测变量的方差我们将学习的方式设定为一个组合。（δij，dij ，dij ，sij）=（δjδi，djdi，ji，sj/si）。 F或L con，我们表示h（，）作为其函数，其以与前面的损失函数Equ相同的方式计算Pe*和Pe的偏差。第六章：Lcon=h（Pe，Pe）.（七）最后，我们还采用了[15]中的合作损失L_co和[27]中的全局损失L_g，增加了物理约束，增强了一致性。总之，整个网络训练的损失函数可以写为：L=λobjLobj+λrelLrel+λconLcon+λcoLco+λgLg。（八）λ*是上述五个损失函数的权重。相机姿态入站边节点节点消息出站边主体节点边缘边缘信息对象节点12721∈∈--IJIJIJIJIJ.IJ|Loc GT|IJ.ijijij ij方向OriijIJ5.1.实验装置4. 整体姿态估计我们提出了HPE的对象姿态和相对姿态的性能进行评估。我们评估-通过计算预测框和地面实况框之间的IoU来S：{0.85，0.15，5°}IoU：0.8IoU：0.5S：{0.75，0.05，15°}S：{0.8，0.1，5°}IoU：0.5S：{0.65，0.15，1#°}IoU：0.6IoU：0.8S：{0.65，1，5°}IoU：0.3S：{0.75，0.15，$5°}并进一步设计几何关系相似度以评估相对姿势。S可以表示为（一）obj = 3rel= 3obj = 3rel = 1（b）S位置θ，S位置1，S位置具体地，给定对象i和对象j的一对3D 框，我们将它们的相对位置表示为LocijR3，其是从两个3D框的中心计算的差向量，并且将它们的相对取向表示为Ori ijR，其表示在两个盒子。SLocθ测量预测的相对位置Loc_pre和地面实况相对位置Loc_GT之间的角度相似性，公式如下：图5. HPE的图解。(a)显示了3D地面实况框。(b)和（c）是两个假定的预测结果。我们显示了每个框或边的IoU和相似性。在每个预测的底部，我们显示了真实预测对象和关系的数量两种类型的C（，）用于不同的目的。一种是只考虑几何关系的相似性，另一种是进一步要求主客体的IoU都满足它们的阈值。为了在整个测试集中计算Acc，N表示PE的数量。另外可以前位置×后位置还基于每个图像计算Acc 具体S位置θ=iji j.（九）根据每幅图像计数，我们认为它是真实的图像禄利吉IJ|卢普雷|× |Loc GT|测量两者之间的长度相似性如果真阳性的数量由C（，）达到图像中对象数量的一半相对位置为：GT前. |Loc|−|Loc|.5. 实验S〇 ri描述了预测的相对i，j_pre和地面实况相对定向之间的相似性OriGT为：S Ori=|Ori pre− Ori GT|.（11）如图5所示，（a）表示地面实况，（b）和（c）表示地面实况。(c)是两个假设的预测。对于人的评价，（b）明显优于（c），但是先前的度量仅考虑每个对象框的准确性，并且不能区分两个预测。在HPE下，我们可以通过进一步计算每个几何关系的准确性来区分上述两种预测。形象地说，我们不仅将预测框限制在地面实况的周围区域上，而且还添加了对相对姿态的约束，就像用柔性杆连接每对对象一样，以保持整体场景布局。具体地说，我们将相对阈值εrel设置为{0。5，0。5、30◦}在的实验，对应于{εLocθ，εLocl，εOri}单独地。当{S_Loc_θ≥ 1时，我们认为预测的ε Locθ，S Locl <εLocl，SOri<εOri}。计算数据集。我们训练我们的模型，并将其与其他模型进行比较，方法[14，15，27]在SUN RGB-D数据集[32]上进行，包括5285个训练图像和5050个测试图像。作为[27]我们使用相同的训练/测试分割和NYU-37 [31]中提供的对象标签进行公平比较。公制。我们通过 NYU-37 对象类别的平均精度（AP）来类似于3D对象检测，我们使用2D地面实况框作为输入来评估3D框估计，以仅测试将2D映射到3D的能力。此外，我们进一步比较我们的方法与我们开发的整体姿态估计（HPE）的任务的先前工作对于所有这些指标，我们将3D IoU的阈值设置为0.15，如[15]所示。实施.我们在COCO数据集[23]上训练我们的2D检测器[29]，并在SUN RGB-D [32]上对其进行微调。整个图像和对象建议的图像特征提取器的主干都是ResNet-34 [11]。我们联合训练我们的相机姿势模块和对象姿势模块与地面真相的2D边界框。相对位姿的注释来自对象位姿的真实值，其计算方法与上述Pe*相同的HPE可以被公式化为：ΣC（Pi，Pj）第3.3节。关于学习损失在补充材料中介绍了功能。5.2. 3D框估计Acc=i，j∈PVvv.（十二）N其中C（，）是判别运算，因此C（Pi，Pj）描述Pij是否为真。我们设计3D对象检测的性能由2D对象检测和3D包围盒估计两者决定。v v eSS=禄利吉.（十）12722表1. SUN RGB-D数据集上的3D物体检测比较。[15，27]的结果引用自[27]，其在NYU-37对象标签上训练。方法床椅子沙发表书桌梳妆台床头柜水槽内阁灯地图[15]57.7115.2136.6731.1619.9015.9811.3615.9510.473.2821.77全3D [27]60.6517.5544.9036.4827.9321.1917.0118.5014.515.0426.38Ours（w/o.HPG）60.5221.2852.5435.7131.9023.0012.2216.8614.675.2427.39我们67.0730.5556.6344.5137.8223.4016.9325.7017.737.1532.75表2. SUN RGB-D数据集上的3D物体检测比较。[14，16]的结果引用自他们的原始论文，这些论文使用较少的对象类别进行训练我们提供了我们的方法和[27]在常见类别上的结果以供比较。方法床椅子沙发表书桌厕所水槽架灯地图HOPR [16]58.2913.5628.3712.124.7916.502.181.292.4115.50PerspectiveNet [14]71.3934.9455.6334.1014.2373.7334.414.219.5436.91全3D [27]60.6517.5544.9036.4827.9344.2418.504.935.0428.91我们67.0730.5556.6344.5137.8260.9725.7013.327.1538.19第为了更直接地将我们提出的方法与现有方法进行比较，重点是估计将2D图像块映射到3D边界框的能力，我们使用2D地面实况框作为输入[15]。基于使用mIoU进行评估，我们通过为真阳性设置IoU阈值来表4中报告了使用mIoU和Acc两者的比较，其在具有NYU-37对象标签的SUN RGB-D数据集上训练。结果表明，该模型提高了从二维平面到三维真实世界的映射能力5.3. 3D对象检测我们使用与[ 27 ]相同的度量将我们的方法与最先进的方法[14比较示于表1中，其中（w/o.HPG）表示没有HPG的完整模型。结果表明，我们的方法比国家的最先进的和HPG的有效性的优势此外，由于[14，16]使用了不同的类别，为了公平比较，我们在表2中列出了常见的类别。PerspectiveNet [14]提出了一种比Total 3D更有效的2D-3D映射方式我们的2D-3D映射方式类似于Total 3D，但我们优越性能的关键是更好地利用几何关系。具体来说，我们的HPG可以嵌入到其他3D对象检测网络中，并进行适当的修改（如CooP）。更多的实验结果在补充资料中列出。现有的3D重建方法[20，34]也预测对象姿态。我们通过在NYU v2数据集[31]上训练我们的模型来比较我们的方法，该数据集具有六个对象类别，并使用与[20]相同的度量。结果报告于表3中。先前的作品[20，34]在具有3D模型监督的SUNC [33]数据集上预训练他们的模型，但我们的性能接近他们-这些额外的监督。为了公平比较，我们使用NYU v2数据集和SUN RGB-D数据集[32]的注释来重新训练3D-RelNet [20]和Total 3D [27]，而无需3D模型监督和任何预训练模型。为了更好地区分我们的复制结果和他们原始论文中报道的相应结果，我们在我们的复制中添加“*”。我们的方法显著优于3D-RelNet [20]*，受益于相机系统的利用与复制的[27]*2相比，我们在对象姿态预测方面也达到了更高的性能。5.4. 整体姿态估计在第4节中，我们将介绍HPE的详细信息。如上所述，C（i）和N分别具有用于不同水平评估的两个设置。因此，我们总结了四个指标进行比较。• 相对姿态精度（RelAcc）：仅考虑几何关系相似性的相对姿态预测• 短语准确度（PhrAcc）：短语预测的准确度，包括几何关系相似性和主语和宾语的IoU。• 基于图像的相对姿态准确度（RelAccI）：使用基于图像计算的RelAcc的• 基于图像的短语准确度（PhrAccI）：使用基于图像计算的PhrAcc的在实验中，我们使用2D地面实况框作为输入。SLocθ、SLoc1和SOri的阈值分别为0.5、0.52请注意，原始的Total3D实现，如Tab. 3（12723图6. SUN RGB-D数据集上的3D物体检测结果。每组定性结果包含三列，分别是我们的基线（Total3D [27]），我们提出的方法和地面实况的预测。表3.NYUv2数据集上的物体姿态估计与现有方法的比较具体来说，3D-RelNet [20]* 和Total 3D [27]* 是我们的再现结果，与我们的设置相同，以进行公平比较。方法3D模型监督平移（米）中位数平均值（误差≤0.5m）%（越低越好）（越高越好）中位数（下限为旋转（度）平均值（误差≤30◦）%更好）（越高越好）中位数（下限为规模平均值（误差≤0.2）%更好）（越高越好）3D动画[34]是的0.490.6251.014.642.663.80.370.4018.93D-RelNet [20]是的0.410.5460.914.039.667.00.330.3821.7全3D [27]没有0.480.6151.814.443.766.50.220.2643.7[20]第二十话没有0.500.6750.221.853.453.30.380.4216.0[27]第二十七话没有0.510.6948.915.737.066.90.270.3232.8我们没有0.430.5757.714.336.768.00.250.3037.0表4.SUN RGB-D数据集上3D盒估计的比较对于每列，左侧和右侧结果分别表示Acc和方法访问/mIoU床椅子沙发表书桌梳妆台床头柜水槽内阁灯[15]37.77/13.7074.82/28.633.87/13.257.59/19.950.95/18.042.28/14.429.13/9.620.95/7.924.36/9.725.95/9.317.84/6.4全3D [27]49.42/18.2780.33/30.543.74/17.468.54/24.961.93/22.853.93/19.244.34/15.939.13/14.645.89/17.236.90/12.619.46/7.6Ours（w/o.HPG）49.23/18.1178.86/30.844.26/17.274.02/26.860.80/21.555.62/19.645.63/17.034.78/12.739.38/15.037.62/12.821.35/7.7我们54.27/20.0481.62/33.050.70/20.577.62/29.367.90/24.060.29/21.648.54/16.440.32/13.749.00/18.243.57/14.723.78/9.0表5.在HPE指标下比较SUN RGB-D数据集。方法RelAccPhrAccRelAccIPhrAccI[15]20.562.8239.334.31全3D [27]38.256.6958.2812.88我们40.099.1960.8318.49分别为303D绑定框的IoU阈值为0.15。如表5所示，我们的方法具有比现有技术方法更好的性能，受益于用HPG显式地建模几何结构。它不仅证明了我们的方法的有效性，但也表明，HPE进一步区分不同方法的性能从整体的角度来分析场景布局的合理性。5.5. 定性实验我们在SUN RGB-D数据集上展示了我们的方法和基线（Total 3D [27]）的一些典型定性结果。图6中的三行表示3D对象预测关于位置、缩放和旋转的改进。分开。可以看出，当场景中有更多对象时，我们的方法预测更准确的3D边界框实验结果表明，HPG算法能够融合更多的几何信息，保持更合理的场景布局。5.6. 图推理我们给出了一些定性和定量的结果来分析沿着HPG的图推理过程。在图7中，我们可视化动态更新对象姿态的过程在每个消息传递过程之后，每个对象将逐渐改变其姿态以保持更合理的整体几何结构。我们在图8中定量地评估图推理的过程，并且观察到每个度量下的性能随着迭代的增加而上升，并且在图推理的大约3次迭代之后变得稳定，如在定性和定量结果中验证的。此外，我们进一步探讨了随机抽样的图的边的不同采样率的影响。结果表明，更多的边，更多的约束，导致12724T = 0 T = 1 T = 2 T = 3 T = 4图7.图形推理过程中中间结果的可视化T表示消息传递过程的迭代更高的性能（详见补充材料）。图8.在所有度量的图形推断期间的定量中间结果5.7. 消融研究在本节中，我们主要分析整体姿态图和一致性损失的影响。为了更好地理解每个模块的贡献，我们用表6中的四个设置来消除我们的方法：S0：基线方法[27]S1：最终模型-HPGS2：最终模型-一致性损失S3：最终模型S1和S3的比较：在S1的设置下，我们对相对位姿进行编码，但没有建立用于图推理的HPG结果表明，性能改进的关键是HPG，而不仅仅是关注成对关系[20]。S2与S3和S1的比较：由于HPG提高了关系预测的性能，S2的最后四行优于S1。相比S2在S3中丢弃了一致性损失，分别训练了目标姿态模块和相对姿态模块，导致目标预测的前三行与S3有明显的差距。S0与S2比较：S2的后四行优于S0。这证明了使用HPG显式地建模几何结构是一种更好的方式来利用关系。表6. SUN RGB-D数据集上所有指标的消融研究[32]。mAP是3D对象检测的结果，mIoU和Acc都对应于3D框估计，并且最后四行在HPE上评估。度量S0S1S2S3地图26.3827.3927.9932.75Miou18.2718.1118.4120.04ACC49.4249.2349.5854.27RelAcc38.2533.7940.4840.09PhrAcc6.696.278.059.19RelAccI58.2854.4960.5960.83PhrAccI12.8812.1716.4318.496. 结论我们建议使用图推理对场景中的对象之间的几何结构进行建模，在SUN RGB-D数据集上的实验表明，与现有方法相比，整体姿态图是一种更好地利用几何关系的方法，而提高对象预测和关系预测性能的关键是我们设计的一致性损失。此外，我们还引入了整体位姿估计，在考虑独立物体准确性的基础上，进一步评估场景布局的合理性。鸣谢。本研究得到了国家自然科学基金项目的部分资助。U19B2036，61922080，61772500，中科院前沿科学重点研究项目编号QYZDJ-SSWJSC 009，国家重点&研发计划（2020 AAA 0105200）。12725引用[1] Kyunghyun Cho ， Bart van Merrienboer ， DzmitryBahdanau，and Yoshua Bengio.关于神经机器翻译的特性：编码器-解码器方法。在SSST@EMNLP 2014的会议记录中，第103-111页，2014年。3[2] Wongun Choi，Yu-Wei Chao，Caroline Pantofaru，andSilvio Savarese.使用三维几何短语理解室内场景。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第33-40页2[3] Saumitro Dasgupta，Kuan Fang，Kevin Chen，and SilvioSavarese.延迟：用于杂乱室内场景的鲁棒空间布局估计。在IEEE计算机视觉和模式识别会议集，第616- 624页，2016年。2[4] Yilun Du，Zhijian Liu，Hector Basevi，Ales Leonardis，Bill Freeman，Josh Tenenbaum，and Jiajun Wu.学习开发三维场景解析的稳定性。神经信息处理系统进展，第1733-1743页，2018年。2[5] 放大图片作者： Matthew Fisher ， Daniel Ritchie ，Manolis Savva，Thomas A. Funkhouser和Pat Hanrahan基于实例的三维物体排列合成。ACM事务处理图表，31（6）：135：1- 135：11，2012. 2[6] 马修·费舍尔马诺利斯·萨瓦和帕特·汉拉汉使用图形核描述场景中的结构关系。ACM事务处理图表，30（4）：34，2011. 2[7] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集，第8359-8367页2[8] Ruiqi Guo和Derek Hoiem。支持室内场景中的表面预测。在IEEE计算机视觉国际会议论文集，第2144-2151页。IEEE计算机学会，2013年。6[9] Abhinav Gupta、Alexei A Efros和Martial Hebert。区块世界重访：使用定性几何学和力学的图像理解。在Proceedings of the European Conference on ComputerVision，第482施普林格，2010年。2[10] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv：1505.04474，2015。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页，2016中。四、五[12] 何彤和斯特凡诺·索亚托。Mono3d++：具有双尺度3d假设和任务先验的单目3d车辆检测在AAAI，第8409-8416页，2019年。1[13] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年。2[14] Siyuan Huang ，Yixin Chen ，Tao Yuan ， Siyuan Qi ，Yixin Zhu，and Song-Chun Zhu.透视网：通过透视点从单个RGB图像进行3D对象检测。神经信息处理系统进展，第8903-8915页，2019年。一、二、五、六[15] Siyuan Huang，Siyuan Qi，Yinxue Xiao，Yixin Zhu，Ying Nian Wu ，and Song-Chun Zhu.协作整体场景理解：统一3D对象，布局和相机姿态估计。神经信息处理系统的进展，第206-217页，2018年。二三四五六七[16] Siyuan Huang，Siyuan Qi，Yixin Zhu，Yinxue Xiao，Yuanlu Xu，and Song-Chun Zhu.从单个rgb图像进行整体三维场景解析和重构。在欧洲计算机视觉会议论文集，第187-203页，2018年。一、二、六[17] Hamid Izadinia ， Qi Shan ， and Steven M. 塞茨IM2CAD。在IEEE/CVF计算机视觉和模式识别，第2422IEEE计算机协会，2017年。1[18] Chenfanfu Jiang ， Siyuan Qi ， Yixin Zhu ， SiyuanHuang，Jenny Lin，Lap-Fai Yu，Demetri Terzopoulos，and Song-Chun Zhu.可配置的3d场景合成和2d图像渲染与每像素地面真相使用随机gram-mars。国际计算机目视，126（9）：920-941，2018. 2[19] Dong-Jin Kim，Jinsoo Choi，Tae-Hyun Oh，and In SoKweon.密集关系字幕：基于关系的字幕的三流网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第6271-6280页，2019年。3[20] Nilesh Kulkarni，Ishan Misra，Shubham Tulsiani，andAbhi-nav Gupta. 3d-relnet：用于3D预测的联合对象和关系网络。在IEEE/CVF计算机视觉国际会议论文集，第2212一二六七八[21] David C Lee ， Abhinav Gupta ， Martial Hebert ， andTakeo Kanade. 使用物体和表面的体积推理来估计房间的空间布局2010. 2[22] 林大华，桑雅·菲德勒，拉奎尔·乌尔塔孙。基于rgbd相机的三维目标检测的整体在Proceedings of the IEEEInternational Conference on Computer Vision ，第 1417-1424页，2013年。2[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740-755页，2014年。5[24] Yong Liu ， Ruiping Wang ，Shiguang Shan ，and XilinChen.结构推理网：使用场景级上下文和实例级关系的对象检测。法律程序中IEEE计算机视觉和模式识别会议，第6985-6994页，2018年。二、三[25] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。欧洲计算机视觉会议论文集，第852-869页。施普林格，2016年。2[26] Arun Mallya和Svetlana Lazeb

下载后可阅读完整内容，剩余1页未读，立即下载