没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文室内场景的高保真单视点整体Haolin Liu1,2张,Yujian Zheng1,2张,Guanying Chen1, 2张,Shuguang Cui1, 2张,Xiaoguang Han1,2张†1香港中文大学深圳理工学院2香港中文大学未来网络智能研究院-深圳抽象的。本文提出了一种从单视点图像重建包括室内背景和室内物体的整体三维室内场景的新框架。由于室内场景遮挡严重,现有方法只能生成几何质量有限的室内物体的三维形状。为了解决这个问题,我们提出了一个实例对齐的隐式函数(InstPIFu)的详细对象重建。结合实例对齐注意力模块,我们的方法被授权去耦合混合局部特征对被遮挡的实例。此外,与以前简单地将房间背景表示为3D边界框、深度图或一组平面的方法不同,我们通过隐式表示来恢复背景的精细几何形状。在SUN RGB-D、Pix 3D、3D-FUTURE和3D-FRONT数据集上的大量实验表明,我们的方法优于现有方法在背景和前景对象重构两者中。我们的代码和模型将公开提供。(a)输入图像(b)重建场景(c)Total3D(d)Im3D(e)我们的图1.一、给定一幅室内场景图像,我们重建出具有细节几何的整体场景,包括房间背景和室内物体。从左到右:输入图像,通过我们的方法重建的场景,Total3D[34], Im3D[57]和我们的方法在不同相机姿势下的结果。两位作者对本文的贡献相等。†电子邮件:hanxiaoguang@cuhk.edu.cnarXiv:2207.08656v2 [cs.CV] 2022年8月+v:mala2255获取更多论文2 Liu et al.1介绍随着虚拟现实(VR)和增强现实(AR)技术的发展,人们对真实世界三维场景的理解和数字化的要求越来越高,尤其是对于室内环境。如果能够像用手机拍照一样简单地重建室内的整体场景,我们就可以高效地生成大规模的高质量3D内容,进一步推动VR和AR的发展。单视点场景重建技术的发展使机器人能够更好地理解现实世界因此,从单幅图像重建室内场景的问题近年来引起了早期的方法将这个问题简化为将房间布局[15,24,28,5,40]和室内对象[7,17,2]估计为3D边界框。然而,这种粗略表示只能提供场景上下文信息,而不能提供形状级重构。基于网格检索的方法[20,19,18]通过用从数据库中搜索的网格替换3D对象框来改进对象形状。由于室内物体的各种类别和外观,数据库的大小和多样性直接影响这些方法的精度和时间效率。受基于学习的形状重建方法的启发,体素表示[25,49,22]首次应用于恢复室内场景的3D几何形状,但由于分辨率有限,形状质量远不能令人满意。Mesh R-CNN[12]可以从单视图图像重建多个实例的网格,但缺乏场景理解。最近,Total3D[34]和Im3D[57]被提出从单个图像重建3D室内场景,其中实例级对象分别以显式网格和隐式表面的形式表示。虽然他们在这项任务上取得了最先进的成果,但他们仍然有以下局限性。首先,由于训练数据的有限性和使用全局图像特征进行形状重建的问题,它们通常输出缺乏细节的形状其次,在他们的方法中,房间布局被表示为简化的表示(即,例如,3D边界框),无法恢复具有复杂几何形状(如非平面表面)的背景。最近,像素对齐隐式函数(PIFu)已经在从单个图像进行详细和可概括的3D人体重建方面取得了有希望的结果[42]。受PIFu成功的启发,我们通过引入实例对齐隐式函数(InstPIFu)来从单个图像重建整体和详细的室内场景,从而解决了前向方法的局限性。 注意,像素对准特征不能直接应用于室内场景重建,因为对象(例如,例如,在一个实施例中,沙发、椅子、床和其他家具)经常在杂乱的场景中被遮挡(参见图1),使得所提取的局部特征可能包含多个对象的混合信息。 直接使用这种污染的局部特征进行隐式曲面重建是次优的。 为了解决这个问题,我们引入了一个实例对齐的注意力模块,包括注意力通道过滤,空间引导的监督策略,解耦的混合局部特征的重叠区域中的不同实例。+v:mala2255获取更多论文InstPIFu 3与以前的方法不同,这些方法简单地将房间布局恢复为3D边界框[15,24,28,5,40,34,57],稀疏深度[49]或没有非平面几何形状的房间布局结构[58,44,55],我们的隐式表面表示允许房间背景的详细形状重建(例如,例如,在一个实施例中,地板、墙壁和天花板)。与使用全局图像特征对潜在形状代码进行编码的现有方法[34,57]相比,我们的编码器中使用的实例对齐的局部特征有助于缓解过拟合问题并恢复室内对象的更详细的在SUN RGB-D、Pix 3D、3D-FUTURE和3D-FRONT数据集上的大量实验证明了该方法的优越性。本文的主要贡献归纳如下:– 我们引入了一个新的管道来重建整体和详细的3D室内场景从一个单一的RGB图像使用隐式表示。据我们所知,这是第一个使用像素对齐功能从单个视图恢复3D室内场景的系统。– 我们是第一个尝试通过隐式表示来重建房间背景的人。与以前将房间布局表示为3D框,深度图或一组平面的方法相比,我们的方法能够恢复具有更复杂几何形状的背景,如非平面表面。– 我们提出了一种新的方法,称为InstPIFu,使用实例对齐的功能,提取一个新的实例对齐的注意力模块,详细的门内对象重建。我们的方法是更强大的对象遮挡,并在现实世界的数据集上有一个更好的泛化能力。– 我们的方法在合成和真实世界的室内场景数据集上都达到了最先进的性能。2相关工作单视图室内场景重建从单个图像重建室内场景的长期问题旨在构建整体3D场景,这需要房间布局估计,对象检测和姿态估计,以及3D形状重建。早期的作品首先恢复了房间的布局,一个3D房间边界框[15,24,28,5,40]。后续工作在物体姿态恢复方面取得了快速进展[7,17,2],但仍然将物体表示为没有形状细节的3D框。为了恢复对象形状,一些方法从数据库中搜索具有相似外观的模型[20,19,18]。然而,图像中的对象和数据库之间的不匹配往往导致不令人满意的结果。其他方法[25,49,22]尝试为每个对象实例重建体素表示Mesh R-CNN[12]能够从单视图图像重建多个对象的网格,但忽略了场景理解。为了克服传统解决方案的上述限制,Total3D[34]提出了一种端到端系统,用于从单个图像联合但其网格生成网络在处理复杂拓扑形状时,只能生成非水密网格。下面的Im3D[57]表示每个对象+v:mala2255获取更多论文4 Liu et al.隐式曲面函数可以通过Marching Cube算法转换为防水网格,同时保持几何细节。然而,Im3D[57]的最新解决方案仍然由于有限的训练数据和使用全局图像特征进行形状重建的问题而遭受形状房间背景表示早期的方法[15,24,28,5,40]简单地将房间背景恢复为3D边界框,但房间通常不是长方体。最先进的单视图室内场景重建方法[34,57]仍然使用这种表示用于房间背景。 [49]背景预测通过深度估计,其恢复背景的更多细节。然而,由于前景的遮挡,即背景的深度估计的准确性远远不能令人满意。例如,室内物品最近的作品试图重建房间布局结构[58,44,55],假设房间的背景(例如,例如,在一个实施例中,地板、墙壁和天花板)主要由平面组成。因此,只有平面的几何形状可以恢复和非平面的信息是错过了这些方法。基于学习的3D形状重建最近的基于学习的方法已经采用不同的表面表示用于3D形状重建,例如体素、网格、点云、面片、基元和隐式表面。基于体素的方法[4,26,51,41,47,53]受益于2D CNN,因为体素表示的规则性,但受制于分辨率和效率之间的平衡。基于网格的方法通过使模板变形来重建对象的网格(例如,例如,在一个实施例中,一个单位球面),但所获得的网格的拓扑结构是受限制的[52,13,36,21]。 为了修改拓扑结构,一些方法学习删除额外的边和顶点[36,46,34],这会导致非防水网格。基于点云[9,29,23,32]、面片[13,53]和基元[48,50,38,6]的方法适用于复杂拓扑,但需要后处理以转换为结构表示。然而,后处理很难保持形状的详细几何形状近年来,隐式曲面函数[37,3,31,54,30]由于可以实现任意拓扑形状的详细重建,并且易于转换为精细网格,因此得到了广泛的应用像素对齐的图像特征单视图隐式曲面重建方法通常采用编码器-解码器流水线,并从输入图像中学习潜在代码以进行形状恢复。为了节省时间和内存,通常采用全局图像特征[37,3,35,30,8],但它不能恢复输入图像中存在的局部细节信息。因此,在这些方法中经常出现粗糙的结果。最近,像素对齐的局部图像特征已被证明可以从单个视图中恢复复杂的几何形状[42,54]。+v:mala2255获取更多论文室内场景重建注意力通道过滤Pifu中国���、 =内部/外部InstPIFU空间引导监督估计的背景沙漏ROIAlign掩模输入图像'Pifu中国���、重建场景=内部/外部二维物体探测器典型隐式递归…2D检测3D物体姿态合成房间全局功能客房当地特色对象全局特征对象局部特征Z3D对象检测器InstPIFu 5图二.拟议InstPIFU概述。给定一幅室内场景图像作为输入,我们的方法同时进行室内背景估计,目标检测,和相机姿态估计,以及详细的3D对象重建。3实例对齐隐式表示在这一节中,我们首先回顾了像素对齐隐函数(PIFU),并指出其在处理室内场景中的遮挡对象时的局限性。然后,我们引入了我们的实例对齐隐式函数,以执行更好的门内对象重建对象往往被遮挡在混乱的场景。3.1像素对齐隐式建模综述单视图场景重建受益于隐式表示[57],但全局图像特征的使用通常会导致粗糙的结果。具有像素对齐的局部特征的PIFu已经被证明可以在3D人体重建中恢复详细的形状[42]。3D表面可以由隐函数定义为函数f的水平集,e. G. f(X)= 0,其中X是3D点。类似地,由多层感知器(MLP)表示的像素对齐的隐式函数f将表面定义为f(F(x),z(X))=s:s∈R,(1)其中x=π(X)给出X的2D图像投影点,F(x)=g(I(x))是由全卷积图像编码器g提取的x处的局部图像特征,并且z(X)是弱透视相机坐标中的深度值我们观察到,添加全局图像特征作为额外的输入有助于形状重建。本工作中使用的调整后的PIFU定义为f(F(x),FG(I),z(X))=s:s∈R,(2)其中FG(I)表示由G编码的图像I的全局特征。+v:mala2255获取更多论文10中文(简体)(一)(二)(四)(d)12对象A1(b)第(1)款24对象B3(c)第(1)款6 Liu et al.图三.遮挡导致不同对象之间的局部特征模糊。(a)一个场景包含两个对象,F是从图像中提取的局部特征。(b)-(c)正则坐标系中的对象重建,其中沿着射线的点被投影在p处以对局部特征F(p)进行采样。(d)对于fA和fB,沿着射线r1和r2,占有率s随深度z的变化。3.2像素对齐特征的限制虽然PIFu在单个人体重建中展示了详细的重建结果,但直接将PIFu应用于室内对象重建属于不同对象的多个3D点可以被投影到相似的2D图像位置并得到相同的局部图像特征,使得局部特征将包含来自不同实例的混合信息,这对于形状重建是不期望的。作为一个例子,在图。在图3(a)中,场景由球体A和立方体B组成图3(b)-(c)示出了当对3D点的像素对准特征进行采样时,沿着射线r1和r2的点(e.例如,在一个实施例中,P)都投影在重叠区域中的点P处这意味着相同的局部特征F(p)将用于计算A(fA)和B(fB)的隐函数的占用值s,即。例如,s=fA(F(p),z(P))和s=fB(F(p),z(P))。由于PIFu使用相同的MLP实现了fA和fB,因此采用相同的局部特征F(p)在A和B的占用估计中引起了特征模糊性这示于图3(d),其中s随z的变化对于fA和fB明显不同。注意,这里我们简单地将PIFuf表示为理想占用场,其中对象内部的点的水平为1,否则为0。一种可能的解决方案是将实例的全局特征作为额外的输入添加到形状解码器。但是仅仅使用全局特征来解决遮挡区域中的模糊性是不够的(参见我们的消融研究)。因为局部特征仍然包含来自不同实例的混合信息。3.3实例对齐特征集中针对PIFu的上述局限性,本文提出了InstPIFu算法,该算法采用实例对齐的注意力模块来分解由物体遮挡引起的混合特征信息,用于室内物体重建。拟议输入图像CNN编码器(一)+v:mala2255获取更多论文InstPIFu 7实例对齐注意模块通过三个连续步骤减少局部图像特征的模糊性,即:例如,RoI对齐,注意力通道过滤和空间引导监督(见图1)。2)。RoI对齐第一步是为每个实例提取实例相关的特征。一个直接的解决方案是从每个目标实例的裁剪图像块然而,当场景中存在多个对象时,该方法效率低下相反,我们遵循Mask R-CNN[14]使用RoI对齐进行实例相关的特征提取。给定图像I和实例j的2D边界框Bj,我们首先从整个像素对齐的特征图F中裁剪出感兴趣区域(RoI)的相应局部特征,并将它们与Fr对齐,如[14]Fr=RoIAlign(F,Bj)。(三)请注意,对于不同形状的输入特征图,Fr具有固定的大小Wr×Hr,并且对象j的2D边界框Bj由Faster R-CNN检测器获得[39]。然后,我们提取实例j的全局实例特征作为G′(Fr),其中G′是全局实例图像编码器。全局实例特征将用于计算局部特征过滤的通道注意力。注意通道过滤对齐的RoI特征图Fr中的每个局部特征将与全局实例特征G'(Fr)连接,作为通道注意层的输入,类似于[16]中的挤压和激励块,以生成具有相同通道编号Lc作为当地特色。该注意力图将与局部特征相乘,通过通道过滤过滤掉不相关的特征,使更新后的局部特征集中在目标实例上。该操作可以表示为Fc(x)=Cattention(Fr(x),G′(Fr))×Fr(x), (4)其中Fc(x)是3D点X(例如j)的2D投影x处的滤波后的局部图像特征。请注意,Fr(x)在等式(4)采用双线性插值来访问特征,Fr(x)中的x也需要移动和缩放。空间引导监督为了更好地引导通道过滤的学习因此,我们利用对过滤的局部特征图F c的空间引导监督,过滤的局部特征图Fc是具有与Fr相同形状的通道注意力层的输出。特征图F。将被馈送到全卷积层S中以估计目标实例i的完整掩码M。例如,M=S(Fc)。这种空间引导的监督可以从掩码中过滤掉不相关的信息。+v:mala2255获取更多论文nR0, 否则Rn我我R我8 Liu et al.实例对齐隐式函数给定实例对齐特性,我们将InstPIFufo定义为fo(Fc(x),G′(Fr),z(X))= s:s ∈ R.(五)通过应用所提出的实例对齐注意力模块来解耦混合局部特征,与PIFu相比,在我们的Inst-PIFu中使用的局部特征为精确和详细的形状重建提供了更多的判别信息。我们的消融研究可以证明这一点。4室内场景整体重建给定室内场景的单个图像,我们的目标是以隐式表示恢复整体和详细的3D场景(见图2)。该问题通常分为几个子任务,包括房间背景估计、3D对象检测(姿态估计)以及实例级对象重建[34,57]。我们首先单独处理这三个任务,然后执行场景合成的整体场景重建。请注意,我们的方法recover- ers房间背景的几何细节,而不仅仅是一个简化的3D边界框。4.1房间背景估计房间通常不是长方体。因此,将房间背景表示为类似[34,57]的3D边界框是不合适的。 深度图[49]也不是一个理想的表示,因为背景深度估计的准确性受到背景前面室内物体遮挡的严重影响。此外,基于平面检测的方法[44,55]不能恢复小平面和非平面背景几何形状。为了解决上述问题,我们在这项工作中探索使用隐式表示的房间背景重建。地面实况房间表面表示为0。5水平集,然后离散化为3D占用字段:f(X)=.1, 如果X在区域内.(六)与室内物体风格多样、几何形状复杂相比,房间背景的形状要简单得多。我们发现,应用自适应的PIFu(见等式2)。(2)采用像素对齐特征和全局特征进行房间背景重建,取得了较好的效果。我们通过最小化均方误差(MSE)的平均值来训练我们的房间估计PIFufrL=1mm|Fi=1(F(x),G(F),z(X))−f(X)|第二条第七款R+v:mala2255获取更多论文∈nOnO我我O我i=1InstPIFu 9其中,n是采样点的数量,X1R3是相机坐标系中的点,F(x)=g(I(x))是位于x处的局部图像特征,G(F)是房间背景的全局图像特征,并且F是由沙漏网络产生的整个特征局部和全局图像特征都来自堆叠的沙漏网络[33],但是需要额外的全局编码器G来将整个特征映射F编码为全局特征。通过移动立方体算法,可以很容易地将得到的隐式房间背景转换为显式网格4.2室内物体重建正如在SEC中所讨论的那样。3、由于室内物体之间存在严重的遮挡,直接应用PIFu等方法进行重建存在局部特征模糊的问题我们采用建议的InstPIFu,它应用实例对齐的注意力模块的特征过滤,重建室内物体。我们将室内对象的地面实况表面定义为房间背景(参见等式10)。(6))。 还通过最小化MSE的平均值来训练InstPIFu f o:L=1mm|f(Fc(x),G′(Fr),z(X))−f<$(X)|第二条, (八)其中Xi∈R3是正则坐标系中的点。请注意,从Xi到Xi的投影与原始PIFU不同。由于Xi位于对象坐标系中,因此在投影时需要额外的相机和对象姿势。我们遵循[57]来预测这些参数。信道方式的注意层被实现为MLP。在训练过程中,我们为实例对齐的注意力模块添加了一个额外的实例掩码丢失,以强制将特征约束在相应的实例掩码上。掩模损失简单地通过预测掩模和地面实况之间的MSE来实现4.3场景合成在摄像机坐标系中获得房间背景,而对象在其规范坐标系中恢复,以简化具有各种姿态和尺度的室内对象的重建的学习为了将对象与房间背景一起嵌入到场景中,需要相机姿态R(β,γ)和对象边界框参数(δ,d,s,θ)。 我们使用类似的相机估计器和3D对象检测器来预测上述参数[34,57]。此外,在[57]中提出的场景图卷积网络也用于我们的工作中,以提高相机和物体姿态估计的性能。请注意,我们使用透视相机模型。5实验5.1实验装置数据集我们在合成数据集和真实数据集上进行实验。建议的管道在3D-FRONT[10]上进行训练,这是一个大规模的存储库+v:mala2255获取更多论文10 Liu et al.合成室内场景,由专业设计的房间填充3D家具模型与高品质的几何和纹理在各种风格。家具模型来自3D-FUTURE [11]。我们使用大约20 K场景图像进行训练,6 K用于测试,其中包括来自3D-FUTURE的超过16 K对象。在[34,57]之后,我们还在真实世界的数据集上评估了我们的方法:SUN RGB-D [43]和Pix 3D [45]。我们采用常用的倒角距离(CD)来评估背景重建,因为很难将我们的背景结果与布局交并(IoU)[34,57,55,44]进行比较(详细原因见第12节)。5.2)。用CD和F-评分[52,34,57]评估重建的室内对象。5.2室内背景估计方法的评价我们首先评估我们的房间背景估计模块的有效性。布局IoU是比较房间背景时常用的指标它是使用整个房间的布局结构计算的然而,我们的方法只重建部分房间背景内的相机视图。因此,为了将我们的房间背景结果与现有方法进行定量比较,我们首先从边界框[57],深度图[49,1],平面集[27]和我们的隐式表面表示的重建背景中采样相机截头体内的10K个点,然后使用地面真实背景上的点计算CD我们选择与PlaneRCNN[27]进行比较,因为它很受欢迎,并且在平面估计方面具有不错的性能。由于Factored3D[49]基于深度估计,我们还将其与最先进的深度估计方法Adabins[1]进行了比较。表中的定量比较。1显示了我们的方法在详细的背景恢复的优越性。在3D-FRONT和SUN RGB-D上的背景重建的视觉结果表明,我们的方法可以恢复房间背景的几何细节(见图5)。补充材料中提供了更多的视觉比较。方法Factored3D[49] Adabins[1] [57]第五十七话[27]第二十七话 我们3D-FRONT上的CD↓0.6970.5731.9740.7170.481表1.3D-FRONT上房间背景估计的定量比较5.3室内物体重建评价我们将InstPIFu与Total3D的MGN[34]和Im3D的LIEN[57]进行室内对象重建比较。3D-FUTURE和Pix 3D均显示了定量和定性此外,我们还在Pix3D上使用非重叠的+v:mala2255获取更多论文InstPIFu 11见图4。室内物体重建的定性比较。每个五元组从左到右:(1)输入图像和结果(2)MGN[34],(3)LDIF[57],(4)我们的,(5)地面真理。前两行在3D-FUTURE上比较,后两行在Pix 3D上比较请注意,最后一行的结果是由在非重叠分割上训练和测试的模型生成的分裂以评估其泛化能力。CD用于在使用ICP与地面实况对准之后对从重建网格采样的10K个注意,由InstPIFu和LIEN生成的结果是隐式表示,其使用分辨率为256的行进立方体算法转换为网格3D-FUTURE选项卡上的评价。2总结了3D-FUTURE在8个不同类别的2000个室内物体上评估的定量结果我们使用3D-FRONT中的场景图像作为InstPIFU的输入,并通过地面真实2D边界框(以下[34,57])从每个场景图像中裁剪补丁作为MGN和LIEN的输入。在这些输入图像中,经常发生对象遮挡。由于使用了实例对齐功能,我们的方法在F-Score上实现了最佳效果,并在CD上显示了不错的结果(参见Tab. 2)。虽然像MGN这样的显式方法可以实现更好的CD损失,因为它们在训练期间直接优化CD损失,但重建的网格缺乏细节[30,36,54]。另外,MGN不能生成物体重建所需的不透水网格。图4(前两行)显示,我们的方法的结果与输入图像中的对象具有最相似的外观。Pix 3D上的比较使用[34]中的训练/测试分割的Pix 3D上的定量结果如表所示。3,LIEN和MGN比我们做得更好。主要原因是LIEN和MGN倾向于在Pix3D上过度拟合,只有大约400种形状因为[34]中的分割是基于不同的图像,并且测试数据集中的所有形状也出现在训练数据集中。此外,使用像素对齐局部特征的引入使模型具有更好的泛化能力,但削弱了模型的拟合性能。尽管如此,我们的方法仍然取得了相当的定性结果(见图3中的第三行)4)。泛化能力的比较为了比较以上三种物体重建网络的泛化能力+v:mala2255获取更多论文12 Liu等人。方法床椅子沙发表书桌床头柜内阁书架平均值↓/↑MGN[34]15.48/46.8111.67/57.498.72/64.6120.9/49.817.59/46.8217.11/ 47.91 13.13/ 54.18 10.21/ 54.5514.07/55.64连战[57]16.81/ 44.28 41.40/ 31.619.51 61.40美元35.65/ 43.22 26.63/ 37.0416.78/ 50.767.441999年12月31日11.70/ 55.33 28.52/ 45.63我们18.17/47.8514.06/59.087.66/67.6023.25/56.4333.33/48.4911.73/57.14 6.04/73.32 8.03/66.1314.46/61.32表2. 3D-FUTURE(CD/ F-Score)上物体重建的定量比较。CD的值以10−3为单位。分裂[34]床书柜椅子书桌沙发表工具衣柜Misc是说 //下一页非重叠拆分床书柜椅子书桌沙发表工具衣柜Misc是说 //下一页表3.在Pix3D上使用[34]中的分割和非重叠分割进行对象重建的定量比较。(70%用于训练,30%用于测试),这确保了在训练时测试数据集中的所有形状都没有被看到(非重叠分割)。定量结果见表1。3,由于使用了局部图像特征,我们的方法达到了最佳效果相比之下,MGN和LIEN遭受由全局图像特征引起的过拟合。图4(最后一行)中的定性结果给出了相同的结论,其中MGN和LIEN重建的对象是粗糙形状。更多结果见补充材料。5.4整体场景重建的定性结果我们将我们的方法与Total 3D[34]和Im 3D[57]在3D-FRONT[10]和SUNRGB-D[43]数据集上进行整体室内场景重建。图5所示的定性比较证明了我们的实例对齐隐式表示的优越性。为了在SUN RGB-D上进行公平的比较,我们首先在3D-FRONT和3D-FUTURE上训练InstPIFU,然后在Pix 3D上对其进行微调。我们还使用Im3D预测的3D对象框虽然我们在SUN RGB-D上重建的场景可能会有一些噪声补丁,由于合成数据集和真实数据集之间的域间隙,但结果在背景和室内物体中都充满了细节,这在一定程度上表明了我们的方法具有良好的泛化能力。5.5消融研究为了更好地研究实例对齐隐式表示对室内对象重建的影响,我们的方法用五种配置进行了消融:– 基线:在对象重建中仅使用像素对齐特征– C0:像素对齐特征+全局实例特征。– C1:C0+注意力通道过滤。– C2:C0+空间引导监管。– 完成:C0+注意通道过滤+空间引导监督。如表1中所示的定量比较4,我们的Full模型在指标CD和F-Score上取得了最好的结果,其中我们将通道注意力与掩码监督一起添加到C0。如果我们从Full中删除这两个模块中的任何一个,即C1和C2,CD和F-Score+v:mala2255获取更多论文InstPIFu 13(a) 3D-FRONT上的场景重建结果(b) SUN RGB-D图五、整体场景重建的定性比较从第一行到最后一行:输入图像,Total3D,Im3D和我们的场景重建结果请注意,前四行在3D-FRONT上进行比较,其余在SUN RGB-D上进行图第六章消融研究的目视比较 从左到右:输入图像、基线、C0、C1、C2和Full的结果。+v:mala2255获取更多论文14 Liu等人。方法基线了c0C1C2满CD↓F评分↑17.9556.9816.42(-1.53)58.62(+1.64)15.54(-2.41)60.23(+3.25)15.28(-2.67)60.56(+3.58)14.46(-3.49)61.32(+4.34)表4.网络架构的消融研究。变得更糟但C1和C2的表现仍然优于C0。这使我们了解到,通道级滤波和空间 引导都有助 于将特征 模糊性与被 遮挡对象解 耦。通过 对Baseline和C0的比较表明,将全局实例特征与像素对齐的局部特征相结合,有利于室内目标的重建。但是从整个表的比较中,我们可以看到,仅仅使用全局特征来解决遮挡区域的模糊性是不够的。同样的结论可以通过图1中的视觉比较得出。第 六章6结论我们已经介绍了一种新的方法,隐式表示的基础上,称为In- stPIFu,从一个单一的图像的整体和详细的三维室内场景重建。为了解决室内场景中物体遮挡导致的局部特征模糊问题,提出了一种基于实例对齐的注意力模块,有效地分离混合特征,实现实例形状的精确再现。此外,我们的方法是第一个通过隐式表示来估计详细的房间在合成数据集和真实数据集上的大量实验表明,我们的方法在这个问题上取得了最先进的结果。虽然我们的实例对齐隐式函数能够实现更详细和准确的室内对象重建,但局部特征的使用使得3D检测网络和对象重建网络的联合训练变得不容易。此外,具有高质量3D地面实况的真实室内场景数据集很少,并且与合成场景的结果相比,用有限的真实数据训练或微调的方法在真实场景上的表现不佳(见图1)。5)。 探索如何利用现有的大规模和照片般逼真的合成数据集来提高该方法的泛化能力将是有趣的。致谢。 该工作得到了国家重点研发&计划(项目编号:2018 YFB1800800)、河套深港科技合作区基础研究项目(项目编号:HZQB-KCZYZ-2021067&)、深圳市杰出人才培养基金202002、广东省研究项目2017ZT07X152、2019CX01X104、广东省未来智能网络重点实验室(批准号:2022B1212010001)。国家自然科学基金资助项目:62172348,61902334深圳市通用工程(编号:JCYJ20190814112007258)。感谢中大深圳的ITSO提供高性能计算服务。+v:mala2255获取更多论文InstPIFu 15引用1. Bhat,S.F.,阿尔哈希姆岛旺卡,P.:Adabins:使用自适应bin进行深度估计。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp. 40092. 陈玉,Huang,S.,(1996年),中国科学院,袁,T.,Qi,S.,Zhu,Y.,中国科学院,Zhu,S.C.:整体++场景理解:单视图3D整体场景解析和人体姿态估计,具有人机交互和物理常识。arXiv预印本arXiv:1909.01507(2019)3. 陈志,Zhang,H.:学习生成式形状建模的隐式字段。IEEE计算机视觉与模式识别会议论文集。pp. 59394. Choy,C.B.,徐,D.,Gwak,J.,陈凯,Savarese,S.:3d-r2 n2:一种用于单视图和多视图3d对象重建的统一在:欧洲计算机视觉会议。pp.628-644. Springer(2016)5. Dasgupta,S.,Fang,K.,陈凯,Savarese,S.:延迟:强大的空间布局估计杂乱的室内场景.在:IEEE计算机视觉和模式识别会议论文集。pp. 6166. Deprelle,T.,Groueix,T.,Fisher,M.,Kim,V.G.,拉塞尔,不列颠哥伦比亚省,奥布里,M.:学习三维形状生成和匹配的基本结构。arXiv预印本arXiv:1908.04725(2019)7. Du,Y.,刘志,Basevi,H.,Leonardis,A.,弗里曼,B.,Tenenbaum,J.,Wu,J.:学习利用3d场景解析的稳定性。在:神经信息处理系统的进展。pp. 17268. Dupont,E.,Martin,M.B.,Colburn,A.,Sankar,A.,Susskind,J.,Shan,Q.:等效神经渲染。上一篇:机器学习国际会议pp. 2761-2770.PMLR(2020)9. Fan,H.,苏,H.,Guibas,L.J.:一种从单幅图像重建三维物体的点集生成网络。在:IEEE计算机视觉和模式识别会议论文集。pp. 60510. 傅,H.,Cai,B.,加奥湖,Zhang,L.X.,王杰,Li,C.,曾庆红,孙角,澳-地贾,R.,Zhao,B.,等:3d-front:3d布置的房间,布局和语义。IEEE/CVF计算机视觉国际会议论文集。pp. 1093311. 傅,H.,贾,河,加奥湖,龚,M.,Zhao,B.,Maybank,S.,Tao,D.:3d未来:3d家具形状与纹理。国际计算机视觉杂志1-25(2021)12. Gkioxari,G.,Malik,J.,Johnson,J.:网格r-cnn。arXiv预印本arXiv:1906.02739(2019)13. Groueix,T.,Fisher,M.,Kim,V.G.,Russell,B.,奥布里,M.:一种改进 的3D 表 面生 成 方 法 . 在: IEEE计算机视觉和模式识别会议(CVPR)(2018年)上发表14. 他,K., Gki oxari,G., 多尔拉尔山口, Girshi ck,R.: 面具R-CNN。In:IEEE计算机视觉国际会议主席。pp. 296115. Hedau,V.,Hoiem,D.,Forsyth,D.:恢复杂乱房间的空间布局。2009年IEEE第12届计算机视觉国际会议。pp. 1849- 1856年。IEEE(2009年)16. 胡,J,沈,L.,Sun,G.:挤压-激发网络。在:IEEE计算机视觉和模式识别会议pp. 7132+v:mala2255获取更多论文16 Liu et al.17. Huang,S.,(1996年),中国科学院,Qi,S.,肖,Y.,Zhu,Y.,中国科学院,吴永宁,Zhu,S.C.:协同整体场景理解:统一3D对象、布局和相机姿态估计。在:神经信息处理系统的进展。pp. 2018年第20718. Huang,S.,(1996年),中国科学院,Qi,S.,Zhu,Y.,中国科学院,肖,Y.,徐,Y.,Zhu,S.C.:从单一rgb影像解析与重建整体3d场景在:欧洲计算机视觉会议(ECCV)的会议记录pp. 18719. Hueting,M.,Reddy,P.,Kim,V.,Yumer,E.,卡尔,N.,Mitra,N.:透 视 : 在 严 重 遮 挡 的 室 内 场 景 图 像 中 找 到 椅 子 arXiv 预 印 本 arXiv :1710.10473(2017)20. Izadinia,H.,Shan,Q.,Seitz,S.M.:Im2cad。IEEE计算机视觉与模式识别会议论文集pp. 513421. 加藤,H.,Ushiku,Y.,Harada,T.:神经3d网格渲染器。IEEE计算机视觉与模式识别会议论文集。pp. 390722. 北库尔卡尼米斯拉岛,Tulsiani,S.,古普塔,A.:3d-relnet:用于3d预测的联合对象和关系网络。计算机视觉国际会议(ICCV)(2019)23. Kurenkov,A.,吉,J.,Garg,A.,Mehta,V.,Gwak,J.,Choy,C.,Savarese,S.:De-formnet:用于从单个图像重建3D形状的自由形式变形网络。2018年IEEE计算机视觉应用冬季会议(WACV)pp. 858-866. IEEE(2018)24. 华盛顿特区的李Hebert,M.,Kanade,T.:单图像结构恢复的几何推理。2009年IEEE计算机视觉与模式识别会议。pp. 2136-2143. IEEE(2009年)25. Li,L.,Khan,S.,巴恩斯,N.:杂乱场景中轮廓辅助三维物体实例重建在:IEEE计算机视觉研讨会国际会议论文集。pp. 026. 廖 , Y. , Donne , S. , Geiger , A. : Deep Marching Cubes : LearningExplicit Surface Representation.IEEE计算机视觉与模式识别会议论文集pp.291627. 刘,C.,金,K.,顾,J.,Furukawa,Y.,Kautz,J.:Planercnn:3d planedetec-从单个图像中提取和重建。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 445028. Mallya,A.,Lazebnik,S.:室内场景布局预测的学习信息边缘图.在:IEEE计算机视觉国际会议论文集。pp. 93629. Mandikal,P.,KL,N.,Venkatesh Babu,R.:3d-psrnet:从单个图像中部分分割3d点云重建在:欧洲计算机视觉会议(ECCV)的会议记录pp.030. 梅 谢 德 湖 Oechsle , M. , Niemeyer , M. , Nowozin , S. , Geiger , A. :Occupational Networks:学习函数空间中的3D重建。IEEE计算机视觉与模式识别会议论文集。pp. 446031. Michalkiewicz,M.,Pontes,J.K.,Jack,D.,Baktashmotlagh,M.,埃里克森,A.:深层水平集:用于3D形状推断的隐式表面表示。arXiv预印本arXiv:1901.06802(2019)32. Navaneet,K.,Mandikal,P.,Agarwal,M.,巴布,R.V.:Capnet:使用2D监督的3D点云重建的连续近
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功