没有合适的资源?快使用搜索试试~ 我知道了~
1Total3D理解:基于单幅图像的室内场景联合布局、物体姿态和网格重建Yinyu Nie1,2,3,†,Xiaoguang Han 2,3, Xiaoguang Guo4,Yujian Zheng2,3,JianChang1,Jian Jun Zhang11伯恩茅斯大学2香港中文大学深圳3深圳大数据研究院4厦门大学摘要室内场景的语义重建包括场景理解和物体重建两个方面。现有的作品要么解决这个问题的一部分,或专注于独立的对象。在本文中,我们弥合理解和重建之间的差距,并提出了一个端到端的解决方案,联合重建房间布局,对象边界框和网格从一个单一的图像。我们的方法不是单独解决场景理解和对象重建,而是建立在整体场景背景上,并提出了一个由粗到细的层次结构,其中包括三个组件:1.房间布局与相机姿势;2. 3D对象边界框; 3.对象网格。我们认为,理解每个组件的上下文可以帮助解析其他组件,从而实现共同理解和重建。在SUN RGB-D和Pix 3D数据集上的实验表明,该方法在室内布局估计、三维物体检测和网格重建等方面均优于现有方法。1. 介绍室内图像的语义重建在室内设计和房地产等应用中显示出近年来,这一话题得到了计算机视觉和图形学领域的研究人员的兴趣迅速增长。然而,深度感知中固有的模糊性、现实世界环境的混乱和复杂性使得仅从单个图像完全恢复场景上下文(语义和几何)仍然具有挑战性。以前的作品试图通过各种方法来解决它。场景理解方法[38,14,3]获得房间布局和没有形状细节的室内物体的3D边界框。场景级重建方法使用上下文知识(房间)来恢复对象形状†在访问中大深圳和SRIBD期间所做的工作。*通讯作者:hanxiaoguang@cuhk.edu.cn图1:从单个图像(左),我们同时预测上下文知识,包括房间布局,相机姿势和3D对象边界框(中),并重建对象网格(右)。布局和对象位置),但目前大多数方法采用深度或体素表示[39,22,46,19]。体素网格的形状描述效果优于盒体,但其分辨率仍然有限,而且体素质量的提高会使计算量呈指数级增加,这在场景级重建中表现得更为明显。网格检索方法[17,15,16]使用3D模型检索模块改善场景重建中的形状质量。由于这些方法需要渲染或模型搜索,网格相似性和时间效率取决于模型库的大小,并引起进一步的关注。逐对象网格重构在效率和准确性方面都具有优势[50,10,30,18,9],其中目标网格在其自身的对象中心坐标系中进行端到端预测。对于场景级网格重建,考虑到对象对齐、遮挡关系和错误图像背景的挑战,将对象预测为孤立实例可能不会产生理想的结果。尽管Mesh R-CNN[9]能够从图像中预测多个对象的网格迄今为止,据作者所5556和场景上下文(房间布局,摄像机姿势和对象位置),用于全面的3D场景理解。为了弥合场景理解和对象网格重建之间的差距,我们通过联合学习将它们统一起来,同时预测房间布局,相机姿势,3D对象边界框和网格(图1)。洞察是,场景中的对象网格表现出空间占用,这可以帮助3D对象检测,并且3D检测提供了对象对准,这使得能够在实例级进行以对象为中心的重建。与体素网格不同,重建网格的坐标是不同的,因此能够通过将输出网格与场景点云(例如,在SUN RGB- D上[41])。通过上述设置,我们观察到场景理解和网格重建的性能可以取得进一步进展,并在SUN RGB-D [41]和Pix 3D[42]数据集上达到最先进水平。概括而言,我们的贡献如下:• 我们提供了一种解决方案,可以从单个图像自动重建房间布局,对象边界框和网格据我们所知,这是第一个端到端学习工作,用于全面的3D场景理解,并在实例级别进行网格重建。这种综合办法显示了每个组成部分的互补作用,并在每项任务上达到了最先进水平。• 我们提出了一种新的密度感知拓扑修改器在物体网格生成。它基于局部密度修剪网格边缘,以近似目标形状,逐步修改网格拓扑。我们的方法直接解决了[30]的主要瓶颈,这是一个严格的距离阈值的要求,以重新移动分离的面从目标形状。与文献[30]相比,该方法对复杂背景下室内物体的各种形状具有较强的鲁棒性。• 我们的方法考虑了注意机制和物体之间的多边关系。在3D在对象检测中,对象姿态与周围环境具有隐含的和多边的关系,特别是在室内房间中(例如,床、床头柜和灯)。我们的策略提取潜在的特征,以更好地确定对象的位置和姿态,并提高3D检测。2. 相关工作单视图场景重建提出了一个具有挑战性的任务,因为在单目形状推理的第一项工作[37]对于室内重建,随着杂波、遮挡、目标多样性等复杂性的增加,重建的难度也随之增加。早期的工作集中在房间布局估计[12,21,25,5,35],以代表一个长方体的房间。随着神经网络技术的发展,人们提出了更多的目标估计方法超越布局[7,14,1]。尽管如此,这些方法仍限于每个图形的3D边界框预测。为了恢复对象形状,一些方法[17,16,15]采用形状检索来从数据集中搜索外观相似的然而,它的准确性和效率直接取决于数据集的大小和多样性。由于大量的对象类别具有不同的几何形状和拓扑结构,因此实例级的场景重建仍然存在问题。为了首先解决单个对象重建问题,方法以点云[8,26,20,29],补丁[10,51]的形式表示形状。以及图元[45,47,32,6],其适用于复杂拓扑,但需要后处理以获得网格。体素网格的结构[4,23,49]是规则的,同时受到分辨率和效率之间的平衡的影响,要求八叉树改善局部细节[36,44,51]。一些方法使用符号距离函数[31]和隐式曲面[2,28,52,27]产生令人印象深刻的网格结果。然而,它们是耗时且计算密集的,使得重建场景中的所有对象是不切实际的。另一种流行的方法是从模板重建网格[50,10,18],但重建网格的拓扑结构受到限制。到目前为止,最先进的方法修改了网格拓扑结构,以近似地面实况[30,43]。然而,现有的方法估计三维形状的对象为中心的系统,这不能直接应用于场景重建。与我们最相关的工作是[22,46,19,9],它将图像作为输入并预测场景中的多个对象形状。然而,方法[22,46,19]被设计用于具有有限分辨率的体素重建。Mesh R-CNN [9]生成对象网格,但仍然将对象视为孤立的几何体,而不考虑场景上下文(房间布局,对象姿势等)。它使用立方体化的体素作为中间表示,并受到有限的分辨率。与它们不同的是,我们的方法将以对象为中心的重建与3D场景理解相结合,从而能够从单个图像中联合学习房间布局,相机姿势,对象边界框和网格。3. 方法我们在图2a中展示了我们的概述 网络架构遵循“盒中盒”方式,由三个模块组成:1.布局评估网络2. 3D目标检测网络(ODN); 3.网格生成网络(MGN)。从单个图像中,我们首先使用Faster R-CNN [34]预测2D对象边界框LEN获取完整图像以生成相机姿态和布局边界框。给定2D对象检测,ODN在相机系统中预测其3D边界框,而MGN在其以对象为中心的系统中生成网格几何。我们通过嵌入所有网络的输出并结合联合训练来57(a) 场景重建网络图2:我们的方法概述(a)我们的方法的层次结构遵循使用三个模块的通过将它们嵌入到一起并进行联合推理,重建出一个(b)我们在LEN和ODN中学习目标的参数化[14]。和推理,其中来自MGN的对象网格被缩放并放置到它们的边界框中(通过ODN),并利用相机姿势(通过LEN)转换到世界系统中。每个网络的细节描述如下。3.1. 3D目标检测和布局估计为了使布局和对象的边界框是可学习的,我们参数化了一个框作为先前的工作[14](图2b)。我们建立了位于摄像机中心的世界系统,其垂直(y-)轴垂直于地板,其前向(x-)轴朝向摄像机,使得摄像机位姿R(β,γ)可以由俯仰和滚动决定角(β,γ)。在世界系统中,一个盒子可以由一个3D中心C∈R3,空间大小s∈R3,方位角θ∈[−π,π)确定。对于室内对象,3D中心C由其在图像平面上的2D投影c∈R2表示,其中其到相机中心的距离d∈R给定摄像机固有矩阵K∈R3,C可以用公式表示为:K−1[c,1]T图3:3D物体检测网络(ODN)环境,并在预测其边界框时考虑所有室内对象。网络如图3所示。我们的方法受到2D对象检测中注意机制的一致改进的启发[13]。对于3D检测,我们首先使用ResNet-34 [11]从2D检测中按对象方式提取外观特征,并使用[13,48]中的方法将2D对象框之间的相对位置和大小对于每个目标对象,我们计算其关系特征C=R−1(β,γ)·d·K−1[c,1]T.(一)与其他对象的关系模块[13]。它采用了一个分段特征求和,由相似的2D投影中心c可以通过cb+δ进一步解耦。cb是2D边界框中心,δ∈R2是要学习的从2D检测I到其3D边界箱角,网络可以表示为F(I)的函数|δ,d,β,γ,s,θ)∈R3×8. ODN估计每个对象的盒属性(δ,d,s,θ),并且LEN用布局框C,sl,θl确定相机姿态R(β,γ)。目标检测网络(ODN)。在室内环境中,物体姿态通常遵循一组内部环境,标志原则,使其成为一种潜在的可学习模式。先前的作品要么预测3D盒对象明智[14,46]或只考虑成对关系[19]。在我们的工作中,我们假设每个对象之间都有一个多边关系,从目标到其他人的外观和几何形状的一致性,我们在图3中称之为然后,我们将关系特征元素地添加到目标,并使用两层MLP回归(δ,d,s,θ)中的每个框参数。 对于室内重建,对象关系模块反映了物理世界中的内在意义:对象通常与相邻或外观相似的其他对象具有更强的关系。我们证明了它的有效性,在我们的消融分析中的3D对象检测制定评估网络(LEN)。 T h eLENp预测世界系统中的相机位姿R(β,γ)及其3D盒C,sl,θ l。在这一部分中,我们使用的是。我的建筑师作为ODN,但删除了关系功能。β,γ,C,sl,θl(b)学习目标58在ResNet之后,对每个目标回归两个完全连接的层。类似于[14],通过学习到平均布局中心的偏移来预测3D中心C3.2. 室内物体的网格生成我们的网格生成网络直接解决了最近的一项工作,拓扑修改网络(TMN)的主要问题[30]:TMN通过变形和修改网格拓扑来近似对象形状,其中需要预定义的距离阈值来从目标形状移除分离的面。然而,为不同尺度的对象网格给出一个通用阈值是不平凡的(见图5e)。一个可能的原因是室内物体在不同类别之间具有大的形状变化。另一个问题是复杂的背景和遮挡往往导致无法估计精确的距离值。图4:网格生成网络(MGN)。我们的方法作为输入检测到的对象,这是容易受到闭塞,并输出一个合理的网格。密度与距离与TMN采用严格的距离阈值进行拓扑修改不同,我们认为是否保留一个面应该根据其局部几何形状来决定。在这一部分中,我们提出了一种基于局部特征的网格自适应修改方法,地面实况的密度设p∈R3为点边缘与 脸上 我们选择切割网格边来修改拓扑,而不是删除面。我们在网格边缘上随机采样点,并使用分类器f(f)来切割平均分类得分较低的边缘它是考虑到切割假边可以减少因边损失而受到惩罚的错误连接[50],并创建紧凑的网格边界。网格生成网络。我们在图4中说明了我们的网络体系结构。它以2D检测作为输入,并使用ResNet-18来生成图像特征。我们将检测到的对象类别编码为一个独热向量,并将其与图像特征相关联。根据我们的观察,类别代码提供了形状先验,有助于更快地近似目标形状。增强特征向量和模板球体被馈送到MPEGASNet[10]中的解码器中,以预测球体上的变形位移边缘分类器具有与形状解码器相同的架构,其中最后一层被替换为用于分类的全连接层。它共享图像特征,以变形网格作为输入,f(k)删除冗余网格。然后,我们在网络上附加一个边界细化模块[30]来细化边界边缘的平滑度,并输出最终网格。3.3. 联合学习,全面理解3D在本节中,我们用相应的损失函数总结了学习目标,并描述了端到端训练的联合损失个人损失。 O D N 预测(δ,d,s,θ)恢复3.第三章。D对象在came ra系统中被调用,LEN产生β,γ,C,sl,θ l来表示布局框,相机姿态转换到世界系统的三维对象。由于直接回归绝对角度或长度与L2损失是容易出错的[14,33]。 我们与他们保持一致通过使用分类A. nd回归损失ΔLcls,reg=我在我们重建的网格上,qi∈R3对应于它的Lcls +λrL reg 优化θ,θl,β,γ,d,s,sl. 我们指地面实况上的最近邻(见图4)。我们设计二元分类器f(f)来预测pi是否接近等式2中的地面实况网格:.[14]阅读详情由于C和δ是由从预先计算的中心偏移,我们用L2损失预测它们对于MGN,我们采用倒角损失Lc,边缘损失Le,边界损失Lb作为[10,50,30],其中我们的交叉熵f(pi)=假pi−qi<$2> D(qi)不然就是真的、(二)在网格修改中分类边缘的损失Lce共同损失。我们基于两个见解定义ODN、LEN和MGN之间的联合损失:1.相机姿势esti-D(qi)=max minqm,qn∈N(qi)qm−qn<$2,m/=n信息应该改善3D对象检测,反之亦然;2. 场景中的对象网格呈现空间占用,其中N(qi)是地面实况网格上qi的邻居,D(qi)被定义为其局部密度。这类sifier是根据我们的洞察力设计的:在形状近似中,如果某个点属于相邻点,则应保留该点N(n)的地面真理。我们还观察到,这种分类器显示出更好的鲁棒性与不同的网格规模比使用距离阈值(参见图5)。应该有利于3D检测,反之亦然。首先,我们采用[14]中的合作损失Lco来确保布局对象框的预测世界坐标与地面实况之间第二,我们需要重建的网格接近它们在场景中的点云。它通过将网格坐标与地面实况对齐来展示全局约束。我们定义全球损失59作为部分倒角距离[10]:Pix3D的个人资料。然后,我们将Pix 3D结合到SUNRGB-D中,以提供网格监督,并联合训练所有Lg= 1ΣN1 (3)第二章:(3)网络的损耗为L,如公式4所示。在这里,我们使用一个高-Ni=1 |Si|q∈Sip∈Mi2图像批次(每批包含一个场景图像,N个对象图像)。 我们解释完整的AR-其中p和q分别表示世界系统中第i个对象的重建网格Mi和地面实况表面Si上的点。N是对象的数量,|表示S i上的点编号。|denotes the point number on S i.与单个对象网格不同,真实场景点云通常是粗糙的,部分覆盖(用深度传感器扫描),因此我们不使用倒角距离来定义Lg。联合训练中的所有损失函数可以归纳为:在补充文件中,我们的网络结构,训练策略,时间效率和4.2. 定性分析与比较在本节中,我们评估我们的方法在对象和场景级别上的定性性能。物体重建:我们将我们的MGN与最先进的网格预测方法[9,10,30]进行了比较,ΣL=x∈{δ,d,s,θ}ΣλxLx+Σy∈{β,γ,C,sl,θl}λyLy(四)Pix3D因为我们的方法是为了在真实场景中完成场景重建而设计的,所以我们训练所有的方法都是以物体图像为输入,但没有遮罩。对于阿特拉斯-+z∈{c,e,b,ce}λzLz+λcoLco+λgLg,Net [10]和拓扑修改网络(TMN)[30],我们还将对象类别编码为图像特征,从而能够进行公平的比较。TMN和我们的方法都其中前三项表示ODN、LEN和MGN中的单独损失,后两项是联合项。{λ}是用于平衡其重要性的权重4. 结果和评价4.1. 实验装置数据集:我们在实验中使用两个数据集:1)SUNRGB-D数据集[41]由10,335个真实室内图像组成,具有标记的3D布局,对象边界框和粗点云(深度图)。我们使用官方的训练/测试分割和NYU-37对象标签[40]来评估布局、相机姿态估计和3D对象检测。2)Pix3D数据集包含395个家具模型,分为9个类别,与10,069张图像对齐。我们将其用于网格生成,并将训练/测试拆分与[9]保持一致。补充文件中列出了从NYU-37到Pix3D用于场景重建的对象标签映射我们的结果是在场景理解和网格重建指标上测量的。我们使用平均3D Intersection over Union(IoU)。通过平均绝对误差来评估相机位姿。对象检测是用所有对象类别的平均精度(AP)进行测试的。我们使用倒角距离测试单对象网格生成,如以前的工作[9,30],并使用公式3评估场景网格。实施情况:我们首先在COCO数据集[24]上训练2D检测器(图2a),然后在SUN RGB上对其进行微调。D. 在MGN中,模板球体有2562个顶点,单位半径。我们切割平均分类得分低于0.2的边缘。由于SUN RGB-D不提供用于3D监督的完整实例网格,Pix 3D仅为每个图像标记一个对象,而没有布局信息。我们首先在SUN-RGBD上训练ODN、LEN,然后训练MGN训练遵循对于Mesh R-CNN [9],它涉及对象识别阶段,我们直接与他们论文中报道的结果进行比较对比如图5所示,从中我们观察到室内家具通常覆盖着各种背景(如书架上的书)。根据Mesh R-CNN的结果(图5 b),它从低分辨率体素网格(24× 3体素)生成网格,从而在网格边界。TMN改进了TMN,形状拓扑然而,它的距离阈值τ并没有显示出对室内环境中的所有形状的一致适应性(例如,图5e中的凳子和书柜)我们的方法依赖于边缘分类器。它根据局部密度切割边缘,使拓扑修改适应各种对象类别中不同比例的形状(图5f)。实验结果也表明,该方法保持了较好的边界光滑性和细节。场景重建:据我们所知,这是第一次将场景理解和网格生成结合起来进行全场景重建,我们在图6中说明了我们在SUN RGB-D测试集上的结果(请参阅补充文件中的更多示例)。请注意,SUN RGB- D不包含用于训练的地面实况对象网格我们在不同的场景类型和不同的复杂度下给出了结果,以测试我们的方法的鲁棒性图6中的第一行显示了具有大量重复和遮挡的场景我们展示的情况下,无序的对象取向在第二行。第三和第四行显示了各种场景类型下的结果,第五行显示了处理杂乱和“视野外”对象的性能实验结果表明,在不同的复杂度下,我们的方法都能在合理放置物体的情况下保持物体网格的视觉吸引力。60表1:SUN RGB-D上我们报告平均IoU来评估布局预测(越高越好),以及俯仰角和滚转角的平均绝对误差(以度为单位)来测试相机姿态(越低越好)。请注意,我们的相机轴以不同的顺序定义[14](参见补充文件)。(a)(b)(c)(d)(e)(f)图5:单个对象的网格重建。从左至右:(a)输入图像和来自(b)Mesh R-CNN [9],(c)MeshasNet-Sphere [10],(d,e)τ = 0的TMN的结果。1,τ=0。05[30],(f)Ours.4.3. 定量分析与比较我们在四个方面将我们的方法的定量性能与最先进的方法进行了比较:1.布局估计; 2.摄像机姿态预测; 3.3D物体检测和4.物体和场景网格重建。在Pix 3D上对物体网格重建进行了测试,在SUN RGB-D上对其他算法进行了评估。我们还通过删除联合训练来消除我们的方法:每个子网络被单独训练,以研究结合场景理解和对象重建的互补益处。布局估算:我们比较我们的方法与现有的布局理解作品[3,15,14]。如表1所示,使用房间布局、对象边界框和网格的联合训练有助于改善布局估计,比最先进的方法提高2个点。摄像机姿态估计:摄像机姿态定义为 R(β,γ),因此我们用具有地面真实值的平均绝对误差来评估俯仰β和滚转γ。结果如表1所示,我们观察到联合学习也有利于相机姿态估计。3D物体检测:我们研究了与[14]一致的基准的对象检测,其中使用3D边界框IoU采用平均精度(mAP)。如果与地面实况的IoU大于0.15,则检测被认为是真阳性。我们将我们的方法与表2中共享对象类别的现有3D检测工作[3,15,14]进行比较。补充文件中列出了所有对象类别的完整表格。比较表明,我们的方法显着改善了国家的最先进的方法,并一贯先进的消融版本。 原因可能是双重的。 一是联合学习中的全局损失Lg涉及保证物理合理性的几何约束,二是ODN的多边关系特征有利于三维检测在空间占用预测中的应用。我们还将我们的工作与[46]进行比较,以评估对象姿态预测。我们通过在NYU v2数据集[40]上训练他们的六个对象类别和地面实况2D框来保持一致。结果见表3。对象姿态测试对象的transla-灰,旋转和规模的错误。我们建议读者参考[46]以了解度量的定义。实验结果进一步表明,该方法不仅获得了合理的空间占用率(mAP),而且恢复了真实的物体姿态。网格重建:我们评估对象和场景级别上的网格重建。对于对象重构,我们将我们的MGN与表4中的最新技术[10,30]进行了比较。我们将拓扑修改方法分为两个版本:1.删除面而不是边(w/o.边缘); 2.使用距离阈值[30]而不是我们的局部密度(w/o. dens)用于拓扑修改。结果表明,每个模块都提高了平均精度,将它们结合起来使我们的方法达到了最先进的水平。一个可能的原因是,使用局部密度保持小规模拓扑,并且切割边缘在避免不正确的网格修改方面比删除方法3D布局凸轮节距凸轮辊3DGP [3]19.2--埃达[12]-33.853.45HOPR [15]54.97.603.12[第14话]56.93.282.19Ours(w/o. 联合)57.63.682.59我们的(联合)59.23.152.0961图6:在SUN RGB-D上进行场景重建给定一个图像,我们的方法端到端重建房间布局,相机与对象边界框,姿势和网格的姿势。方法床椅子沙发表书桌梳妆台床头柜水槽内阁灯地图3DGP [3]5.622.313.241.23-------HOPR [15]58.2913.5628.3712.124.7913.718.802.180.482.4114.47[14]第十四话63.5817.1241.2226.219.554.286.345.342.631.7517.80[14]第十四话57.7115.2136.6731.1619.9015.9811.3615.9510.473.2821.77Ours(w/o. 联合)59.0315.9843.9535.2823.6519.206.8714.4011.393.4623.32我们的(联合)60.6517.5544.9036.4827.9321.1917.0118.5014.515.0426.38表2:3D对象检测的比较我们比较了SUN RGB-D上检测对象的平均精度(越高越好)。[14]*显示了他们论文的结果,这些结果是用更少的对象类别训练的。CooP [14]**展示了在NYU-37对象标签上训练的模型,以进行公平的比较。方法翻译中位数(越低越好)(米)(误差≤0.5m)%(越高越好)中位数(下限为旋转(度)平均值(误差≤30%)更好)(越高越好)中位数(下限为规模平均值(误差≤0.2)%更好)(越高越好)Tulsiani等人[46个]0.490.6251.014.642.663.80.370.4018.9Ours(w/o. 联合)0.520.6549.215.345.164.10.280.2942.1我们的(联合)0.480.6151.814.443.766.50.220.2643.7表3:对象姿态预测的比较报告了NYU v2上的预测边界框和地面实况边界框之间的平移、旋转和缩放的差值,其中差值的中值和平均值列于前两列中(越低越好)。第三列表示阈值内的正确率(越高越好)。62类别床书柜椅子书桌沙发表工具衣柜Misc是说[第10话]9.036.918.378.596.2419.466.954.7840.0512.26TMN [30]7.785.936.867.084.2517.424.134.0923.689.03Ours(w/o. 边缘)8.196.816.265.974.1215.093.934.0125.198.84Ours(w/o.dens)8.166.706.385.124.0716.163.634.3224.228.75我们5.996.565.325.933.3614.193.123.8326.938.36表4:Pix3D上对象重建的比较倒角距离用于评估。在使用ICP与地面实况对准之后,从预测的网格中采样10K个点数值单位为10−3(越小越好)。脸上场景的网格重建用等式3中的Lg来评估,其中损失用从每个对象的点云到其最近点的平均距离来重建网格上的邻居。与单目标重建不同,该方法考虑了世界系统中目标的对齐问题。在我们的测试中,随着我们的联合学习,Lg4.4. 消融分析和讨论为了更好地理解每个设计对最终结果的影响,我们用五种配置来消除我们的方法:C0:没有关系特征(在ODN中)和联合训练(基线)。C1:基线+关系特征.C2:基线+(仅)联合训练中的合作损失LcoC3:基线+(仅)联合训练中的全局损失LgC4:基线+联合训练(Lg+Lco).完整:基线+关系特征+联合训练。我们使用3D IoU、mAP和Lg测试了布局估计、3D检测和场景网格重建。结果报告于表5中,从中我们观察到:C0与SC4和C1与Full:无论是否使用相关特征,联合训练都能持续改进布局估计、对象检测和场景网格重建。C0与SC1和C4与Full:关系特征有助于改进3D对象检测,从而间接减少场景网格重建中的C0与SC2和C0与C3:在联合损失中,联合训练中的Lco和Lg都有利于最终输出,并且将它们组合进一步提高准确性。我们还观察到,全局损失Lg显示的对象检测和场景重建的效果最大,和合作损失Lco提供了更多的好处比别人的布局估计。此外,场景网格损失随着目标检测性能的提高。这与对象对齐显著影响网格重建的直觉在SUN RGB-D上微调MGN不能改善Pix 3D上的单个物体重建。这反映了物体的重建依赖于干净的网格进行监督。以上事实说明,全场景重建的目标实际上是相互交织的这使得联合重建成为一种可行的解决方案,以实现全面的场景理解。版本布局(IoU)(越高越好)3D对象(mAP)(越高越好)场景网格(Lg)(越低越好)了c057.6320.192.10C157.6323.321.89C258.2121.771.73C357.9224.591.64C458.8725.621.52充分59.2526.381.43表5:在SUN RGB-D上进行布局估计、3D对象检测和场景网格重建的消融分析。Lg值的单位为10−2。5. 结论我们开发了一个端到端的室内场景重建方法从一个单一的图像。它嵌入了场景理解和网格重建的联合训练,并自动生成房间布局,相机姿态,对象边界框和网格。大量的实验表明,我们的联合学习方法显着提高了每个子任务的性能,并推进了国家的艺术。它表明,每个单独的场景解析过程对其他人有一个隐含的影响,揭示了必要性,训练他们集成到总的3D重建。我们的方法的一个局限性是密集的点云学习对象网格的要求,这是劳动消耗在真实场景中获得。为了解决这个问题,自监督或弱监督的场景重建方法将是未来工作的理想解决方案。致谢这项工作是部分基金资助项目:2018 YFB1800800 、 2018 B 030338001 、 NSFC-61902334 ,NSFC-61629101, NSFC-61702433,NSFC-61661146002,编号ZDSYS 201707251409055,编号2017ZT07X152 , VISTA AR 项 目 ( 由 Interreg France( Channel ) England , ERDF 资 助 ) , Innovate UKSmart Grants(39012),中央大学基础研究基金,中国国家留学基金委员会和伯恩茅斯大学。63引用[1] Yixin Chen ,Siyuan Huang ,Tao Yuan , Siyuan Qi ,Yixin Zhu,and Song-Chun Zhu.整体++场景理解:基于人-物交互和物理常识的单视图三维整体场景解析和人体姿态估计。arXiv预印本arXiv:1909.01507,2019。[2] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE计算机视觉和模式识别会议论文集,第5939-5948页[3] Wongun Choi,Yu-Wei Chao,Caroline Pantofaru,andSilvio Savarese.使用三维几何短语理解室内场景。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition,第33[4] Christopher Bongsoo Choy , Danfei Xu , JunYoungGwak,Kevin Chen,and Silvio Savarese. 3d-r2 n2:一个统一的方法,用于单视图和多视图三维物体重建。在欧洲计算机视觉会议(ECCV)的会议记录中,第628-644页[5] Saumitro Dasgupta,Kuan Fang,Kevin Chen,and SilvioSavarese.延迟:用于杂乱室内场景的鲁棒空间布局估计。在IEEE计算机视觉和模式识别集,第616[6] Theo Deprelle 、 Thibault Groueix 、 Matthew Fisher 、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习三维 形状生成和匹 配的基本结 构。arXiv预印本arXiv:1908.04725,2019。[7] Yilun Du,Zhijian Liu,Hector Basevi,Ales Leonardis,Bill Freeman,Josh Tenenbaum,and Jiajun Wu.学习开发三维场景解析的稳定性。神经信息处理系统的进展,第1726-1736页,2018年[8] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集,第605-613页[9] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在IEEE计算机视觉国际会议论文集,第9785-9795页[10] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[12] Varsha Hedau,Derek Hoiem,and David Forsyth.恢复杂乱房间的空间布局。2009年IEEE第12届计算机视觉国际会议,第1849- 1856页。IEEE,2009年。[13] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集,第3588-3597页,2018年[14] Siyuan Huang,Siyuan Qi,Yinxue Xiao,Yixin Zhu,Ying Nian Wu ,and Song-Chun Zhu.协同整体场景理解:统一三维物体、布局和摄像机姿态估计。神经信息处理系统的进展,第207-218页,2018年[15] Siyuan Huang,Siyuan Qi,Yixin Zhu,Yinxue Xiao,Yuanlu Xu,and Song-Chun Zhu.从单个rgb图像进行整体三 维场 景解 析和 重构 。在欧洲 计算 机视 觉会 议(ECCV)的会议记录中,第187-203页[16] Moos Hueting、Pradyumna Reddy、Vladimir Kim、ErsinYumer、Nathan Carr和Niloy Mitra。透视:在严重遮挡的室内场景图像中找到椅子。arXiv预印本arXiv:1710.10473,2017。[17] Hamid Izadinia,Qi Shan,and Steven M Seitz. Im2cad。在IEEE计算机视觉和模式识别会议论文集,第5134-5143页[18] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集,第3907- 3916页[19] Nilesh Kulkarni,Ishan Misra,Shubham Tulsiani,andAbhi-nav Gupta. 3d-relnet:用于3D预测的联合对象和关系网络。国际计算机视觉会议。[20] Andrey Kurenkov , Jingwei Ji , Animesh Garg , VirajMehta,JunYoung Gwak,Christopher Choy,and SilvioSavarese. Deformnet:自由变形网络,用于从单个图像重建3D形状。在2018年IEEE计算机视觉应用冬季上,第858-866页IEEE,2018年。[21] David C Lee,Martial Hebert和Takeo Kanade。单图像结构恢复的几何推理。在2009年IEEE计算机视觉和模式识别会议上,第2136-2143页。IEEE,2009年。[22] 林莉萨尔曼汗和尼克巴恩斯杂乱场景中轮廓辅助三维物体实例重建。在IEEE计算机视觉研讨会国际会议论文集,第0-0页[23] Yiyi Liao,Simon Donne,and Andreas Geiger.深行军立方体:学习明确的表面表示。在IEEE计算机视觉和模式识别会议的论文集,第2916-2925页[24] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014.[25] Arun Mallya和Svetlana Lazebnik。用于室内场景布局预测 的 学 习 信 息 边 缘 图 。 在 Proceedings of the IEEEInternational Conference on ComputerVision,第936-944页[26] Priyanka Mandikal , Navaneet KL , and R VenkateshBabu. 3d-psrnet:从单个图像中部分分割的3d点云重建。在欧洲计算机视觉会议(ECCV)的会议记录中,第0-0页[27] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin,and Andreas Geiger.占用网络:64学习函数空间中的三维重建。在IEEE计算机视觉和模式识别会议论文集,第4460-4470页,2019年[28] Mateusz Michalkiewicz 、 Jhony K Pontes 、 DominicJack、Mahsa Baktashmotlagh和Anders Eriksson。深能级集:用于三维形状推断的隐式表面表示。arXiv预印本arXiv:1901.06802,2019。[29] KL Navaneet,Priyanka Mandikal,Mayank Agarwal,and R Venkatesh Babu. Capnet:使用2D监督的3D点云重建
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功