没有合适的资源?快使用搜索试试~ 我知道了~
41930基于3D草图感知的半监督结构先验语义场景完成0Xiaokang Chen 1 � Kwan-Yee Lin 2 Chen Qian 2 Gang Zeng 1 † Hongsheng Li 301 机器感知重点实验室(教育部),北京大学电子工程与计算机科学学院 2商汤科技研究院 3 香港中文大学0真值 SSCNet 我们0深度(NYUCAD)RGB0天花板 地板 墙壁 窗户 椅子 床 沙发 桌子 电视 家具物品0图1. 语义场景完成任务的可视化。从左到右:(1)RGB输入,(2)深度图,(3)语义场景完成的真值,(4)SSCNet[27]的结果,(5)我们方法的结果。与SSCNet[27]相比,我们的方法生成了一个更合理的结果,并获得了更好的类内一致性和类间区别。SSCNet是一种经典方法,它通过对从通用3DCNNs学习到的隐式嵌入深度特征进行上下文建模。0摘要0语义场景完成(SSC)任务的目标是从单视角观察中同时预测场景中物体的完成的3D体素表示和语义标签。由于计算成本通常随着体素分辨率的增长而急剧增加,大多数当前的最新技术都不得不将他们的框架调整为低分辨率表示,以牺牲细节预测。因此,体素分辨率成为导致性能瓶颈的关键困难之一。在本文中,我们提出了一种新的基于几何的策略,将低分辨率体素表示与深度信息相结合,仍然能够编码足够的几何信息,例如房间布局、物体的大小和形状,以推断场景中不可见区域的结构保持细节。为此,我们首先提出了一种新颖的3D草图感知特征嵌入,以有效和高效地编码几何信息。有了3D草图,我们进一步设计了一个简单而有效的语义场景完成框架,其中包含一个轻量级的3D草图幻觉模块。0* 本工作是在商汤科技研究院实习期间完成的。† GangZeng是通讯作者。0通过半监督结构先验学习策略来引导占用和语义标签的推理。我们证明了我们提出的几何嵌入比从常规SSC框架中学习的深度特征学习效果更好。我们的最终模型在三个公共基准测试中始终超过了现有技术,只需要60×36×60分辨率的3D体积作为输入和输出。01. 引言0语义场景完成(SSC)是计算机视觉中的一个新兴主题,它通过对部分观测到的场景进行3D几何和语义的理解,为许多应用提供了一种替代方法,例如增强现实、监控和机器人技术。由于内在体素表示对内存和计算成本的要求较高,大多数现有方法[27, 9, 41, 7, 14, 16, 40, 4]通过对从通用3DCNNs学习到的隐式嵌入深度特征进行复杂的3D上下文建模来实现语义场景完成。这些方法要么在分类对象的细节方面容易出错,要么在存在大量几何缺失的情况下完成场景时存在困难,如图1所示。最近的几项研究[7, 14,16]展示了有希望的结果。41940通过将高分辨率的RGB图像引入到该过程中,这些方法在该主题上取得了良好的结果。虽然受到各种动机的驱使,但这些方法可以被认为是在跨模态特征嵌入的基础上构建的,其假设是细节特征可以从RGB对应部分进行补偿,并且可以通过在RGB源上使用2D运算符来保证计算效率。然而,这种方法高度依赖于跨模态特征嵌入模块设计的有效性,并且对于复杂场景容易受到影响。相比之下,从人类感知的角度来看,即使从部分低分辨率观察中,完成和识别3D场景也是轻而易举的,这是由于对不同类别的物体的几何属性(例如大小和形状)的先验知识。从这个角度来看,我们假设显式编码几何信息的特征嵌入策略可以帮助网络学习物体结构的概念,从而即使从低分辨率的部分观察中也能精确地重建和识别场景。为此,几何属性需要是分辨率不变的,或者至少是分辨率不敏感的。基于这个直觉,我们提出了3D草图感知特征嵌入,这是一种显式而紧凑的深度特征嵌入模式,用于语义场景完成任务。[23]已经证明了图像空间中类似的几何线索,即2D边界,是分辨率不敏感的。我们展示了3D世界也具有相同的结论,如图2所示。060x36x60 80x48x80 120x72x120 240x144x2400图2.不同分辨率的语义标签提取的草图可视化。从左到右,随着分辨率的降低,草图开始失去一些细节,而场景的结构描述得到了很好的保留。0然而,从2D深度图像中提取的3D草图仍然是来自单个视点的2D/2.5D观察。为了充分利用这个新的特征嵌入的优势,我们进一步提出了一个3D草图感知的语义场景补全网络,该网络通过注入一个3D草图幻化模块,首先从部分草图推断出完整的3D草图,然后利用从幻化的3D草图中嵌入的特征来引导重建和识别。具体来说,由于将2D/2.5D观察提升到完整的3D草图本质上是模棱两可的,我们不直接回归真实的完整3D草图,而是寻求一种自然的013D草图可以理解为一种3D边界。为了将其与图像空间中的边缘/边界的概念区分开来,我们将其称为3D草图。0先验分布以采样多样合理的3D草图。我们通过将条件变分自动编码器(CVAE)[26]调整为3D草图幻化模块设计,实现了这一目标。我们表明,即使部分观察中存在大量几何缺失,这样的设计也能够生成准确和逼真的结果。我们总结我们的贡献如下:0•我们设计了一种新的几何嵌入,即3D草图感知特征嵌入,以打破由低分辨率体素表示引起的SSC任务的性能瓶颈。0•我们引入了一个简单而有效的语义场景补全框架,其中包含一个新颖的3D草图幻化模块,通过半监督条件变分自动编码器(CVAE)的结构先验属性来引导从部分观察中进行完整的3D草图推断,并利用从幻化的3D草图中嵌入的特征进一步引导场景补全和语义分割。0•我们的模型在三个公共基准测试中始终优于现有技术,只需要60×36×60分辨率的3D体素作为输入和输出。02. 相关工作02.1. 对象形状补全0几何处理中,对象形状补全有着悠久的历史。我们将现有的方法总结为两类:基于知识和基于学习。基于知识的方法通过推理几何线索或将其与来自广泛形状数据库的3D模型进行匹配来完成对象的部分输入。一些工作检测网格或点云中的对称性,并使用它们来填充缺失的数据,例如[31, 28,19]。另一种方法是将部分输入与大型数据库中的CAD模型进行匹配[18, 21,13]。然而,重新检索成本过高,并且对于数据库中不存在的新形状的泛化能力较差。基于学习的方法比基于知识的方法更加灵活和有效。它们通常使用深度神经网络推断不可见区域,具有快速推理速度和更好的鲁棒性。[2]提出了一种3D编码器-预测器网络,首先对已知和未知空间进行编码,得到相对低分辨率的预测结果,然后将这个中间结果与来自形状数据库的3D几何进行相关联。[37]提出了一种端到端的方法,直接在原始点云上进行操作,而不对底层形状做任何结构假设。[29]提出了一种弱监督方法,学习一个形状2.4. Structure Representation Learning41950这些方法在合成数据上建立先验分布,然后使用深度神经网络进行最大似然拟合。这些方法专注于从单个对象的部分输入中重建3D形状,这使得它们难以扩展到在语义级别估计的包含多个对象的部分场景。02.2. 语义场景补全0语义场景补全(SSC)是3D场景理解中的基本任务,它产生了一个完整的三维体素表示,包括体积占用和语义标签。SSCNet[27]是第一个以端到端方式结合这两个任务的方法。ESSCNet[39]引入了空间组卷积(SGC),将输入体积划分为不同的组,并对其进行三维稀疏卷积。VVNet [9]将2D和3DCNN与可微分投影层相结合,以有效降低计算成本并从多通道输入中提取特征。ForkNet[33]提出了一个多分支架构,并借鉴生成模型的思想来采样新的训练数据对,从而缓解了真实场景中有限的训练样本问题。CCPNet[41]提出了一种自我级联的上下文聚合方法,以减少多尺度3D上下文的语义差距,并以粗到精的方式融合局部几何细节。一些方法还利用RGB图像作为深度的重要补充。TS3D[7]设计了一种两流方法,利用语义和深度信息,通过简单的3DCNN进行融合。SATNet[16]通过顺序完成2D语义分割和3D语义场景补全任务,将语义场景补全任务进行了解耦。DDRNet[14]提出了一种轻量级的分解残差网络,并无缝融合了多尺度RGB-D特征。上述方法可以被视为通过单模态或交叉模态特征嵌入将深度信息隐式编码。它们将深度信息映射到一个无法解释的高维特征空间,然后直接使用该特征来预测结果。与当前方法不同,我们提出了一种从深度信息中显式嵌入几何的策略,首先预测3D草图,然后利用从中嵌入的特征来指导重建和识别。02.3. 2D边界检测02D边界检测是计算机视觉中的一个基本挑战。已经提出了许多用于检测边界的方法。Sobel算子[25]和Canny算子[1]是两种基于手工设计的经典方法,用于检测图像的梯度边界。基于学习的方法[17,10,35]尝试使用深度神经网络进行监督。其中大多数直接连接多层特征来提取边界。由于边界包含了物体的独特几何结构,还有一些其他的方法0尝试将边界检测注入到其他任务中以提高性能。[32]将边界检测与显著目标检测任务相结合,以鼓励更好的边缘保留显著目标分割。[36,30]将边界检测引入语义分割任务中,以获得更精确的语义分割结果。[34]通过利用面部边界作为中间表示来实现稳健的面部特征点检测,以消除模糊性。在相似的精神下,我们引入了一个3D草图感知特征嵌入,以打破由低分辨率体素表示引起的SSC任务性能瓶颈。0深度生成模型在结构表示学习方面表现出了显著的性能。[26]开发了一个深度条件生成模型,使用高斯潜变量来预测结构化输出,可以在随机梯度变分贝叶斯框架下高效训练。[42]提出了一种自动编码公式,以无监督的方式发现显式结构表示中的地标。[5]提出在学习的纹理信息上合成图像的同时,以形状表示为指导条件。[22]采用CVAE来强调姿势估计任务中2D到3D提升中的固有模糊问题。采用结构表示学习的思想,我们通过一个CVAE[26]嵌入3D场景的几何结构,该CVAE以估计的草图为条件。03. 方法0我们网络的整体架构如图3所示。提出的方法由多个阶段组成,每个阶段采用编码器-解码器架构。将一对RGB和深度图像作为输入,网络输出密集预测,视锥体中的每个体素被赋予语义标签Ci,其中i∈[0,1,∙∙∙,N],N是语义类别的数量。C0代表空的体素。具体而言,我们堆叠两个阶段,让每个阶段处理不同的任务。第一个阶段处理草图提取的任务。它嵌入场景中包含的几何线索,并为下一个阶段提供结构先验信息(我们称之为草图)。此外,我们使用CVAE来引导预测的草图。第二个阶段处理基于提取的草图的语义场景完成(SSC)任务。下面介绍详细信息。03.1. 生成真值草图0我们对语义标签执行3DSobel算子以提取语义场景的草图。假设我们已经获得了沿x、y、z轴的第i个体素Vi处的梯度gix,giy,giz,我们首先将这些值二值化为0或1。41960码器0ResNet-500投影0跳跃连接0跳跃连接0草图映射 草图映射03D草图感知特征嵌入0语义场景 RGB03D草图幻觉模块0粗糙草图 细致草图0图3.我们网络的概述。我们首先从TSDF输入生成结构先验信息,并使用CVAE来改进预测。然后,先验信息将传递给RGB分支,以预测视锥体中每个体素的占用和对象标签。卷积参数显示为(卷积核大小,扩张率)。DDR参数显示为(扩张率,下采样率)。反卷积参数显示为(卷积核大小,上采样率)。0为了消除语义差距,我们需要将类别1和类别2之间的差距视为生成草图时类别1和类别10之间的差距。最后,提取的草图可以描述为一个集合:S sketch = {V i : g i x + g i y + gi z >1}。为了区分生成的几何表示与通常的2D边界,我们将其称为3D草图。03.2. 草图预测阶段0这个阶段将单视图深度图作为输入,并将其编码为3D体积。我们遵循[27]的方法,根据曼哈顿假设将场景旋转以与重力和房间方向对齐。我们采用截断有符号距离函数(TSDF)来编码3D空间,其中每个体素存储到其最近表面的距离值d,并且该值的符号表示体素是否在自由空间或遮挡空间中。编码器体积的网格大小为0.02m,截断值为0.24m,结果为240×144×240的体积。为了节省计算成本,[27]以4的速率对地面真值进行下采样,我们使用相同的设置。根据SAT-Net[16],我们还以4的速率对输入体积进行下采样,并使用60×36×60的分辨率作为输入。之前的工作[20,38,36]表明,上下文信息对于2D语义分割很重要。由于3D体素的稀疏性和高计算成本,很难获得场景的上下文。为了学习丰富的上下文信息,我们应该确保我们的网络具有足够大的感受野,而不会显著增加计算成本。为此,[14]提出了维度分解残差(DDR)块,与基本的3D残差块相比,计算效率更高。我们采用DDR块作为基本单元,并逐层堆叠它们,每层具有不同的扩张率。0为了保持大的感受野,我们首先使用几个卷积将TSDF体积编码为高维特征。然后,我们通过几个DDR块聚合输入特征的上下文信息,并以4的倍率进行下采样以减少计算成本。最后,我们使用两个反卷积层对特征体积进行上采样,得到密集的预测草图,我们将其表示为ˆ Graw。根据[27]的方法,在两个层之间添加了一个跳跃连接以获得更好的梯度传播,如图3所示。由于语义场景补全任务的输入不是完整的场景,我们假设更精确和完整的草图将为后续阶段带来更多的信息增量。在某种程度上,它可以弥补不完整输入的不足。因此,我们设计了一个3D SketchHallucination模块来处理这个问题。03.3. 3D Sketch Hallucination模块0将2D/2.5D观测提升到完整的3D草图在本质上是模棱两可的,因此我们寻求一种自然的先验分布,以采样多样合理的3D草图集合,而不是直接回归到真实值。因此,我们使用CVAE进一步处理原始预测的草图,通过在估计的ˆ G raw上条件采样出一个准确和多样的草图集合 S = { ˆ G krefined : k ∈ 1, 2, ..., K }。提出的3D SketchHallucination模块(如图4所示)由一个标准的编码器-解码器结构组成。我们将编码器表示为 E ( G gt , ˆ G raw),对输入的地面真实草图和条件ˆ G raw进行一些卷积操作,输出后验 q (ˆ z | G gt , ˆ G raw )的均值和对角协方差。然后,我们将解码器表示为 D (ˆ z, ˆG raw ),通过使用从后验中采样的潜变量ˆ z 重构草图。 𝐺#$ 𝐺%&'( 𝐺%&)*+,)-ℰ( 𝐺#$, 𝐺%&'()𝒟(𝑧̂, 𝐺%&'()𝑞(𝑧̂ | 𝐺#$, 𝐺%&'()41970后验 q (ˆ z | G gt , ˆ G raw ) 和条件 ˆ G raw 作为输入。0编码器 解码器0图4. 提出的SketchHallucination模块的架构。在训练时,原始估计的草图和地面真实草图被输入编码器,生成后验 q的均值和对角协方差。然后解码器将使用从 q中采样的潜变量和原始估计的草图作为输入来重构地面真实草图。0在训练过程中,我们通过最小化以下目标函数来优化提出的模块。0L CVAE = λ 1 KL ( q (ˆ z | G gt , ˆ G raw ) || p ( z | ˆ G raw ))0+ λ 2 E z � q (ˆ z | G gt , ˆ G raw ) � ( G gt , D (ˆ z, ˆG raw )),(1)0其中 � 是交叉熵损失,KL ( x || y )是Kullback-Leibler散度损失。我们使用 λ i作为超参数来加权这两个损失项。E 是期望,它是在 K个样本上进行的。p ( z | ˆ G raw )是先验分布。为了确保梯度可以通过潜在编码进行反向传播,需要以闭合形式计算KL散度。因此,CVAE的潜在空间通常被限制为N(0,I)上的分布。我们在我们的框架中遵循这个设置。具体来说,它在我们的框架中将粗步几何表示绘制为细步几何表示的高斯先验假设。Sketch是一种简单而紧凑的几何表示,适合这个假设。由于编码器在推理过程中不会被使用,当前的目标会在训练和推理之间引入不一致性。为了解决这个问题,我们遵循[26, 22]将编码器设置为与先验网络 p ( z ) � N (0, I)相同,即高斯随机神经网络(GSNN),并且可以使用CVAE的重参数化技巧来训练GSNN。我们将 L GSNN 和 L CVAE 结合起来,使用 α作为权重项,得到我们的细化网络的最终目标。0L GSNN = E z �N(0,I)ε(G真,D(z, ˆG原始)),(2)L混合 = LCVAE + αL GSNN,(3)0在推理过程中,我们从N(0,I)中随机采样zK次,并获得K个不同的D(z, ˆG原始),表示为S ={ˆGk精炼:k∈1,2,...,K}。我们对它们进行平均,得到精炼的草图ˆG精炼。03.4. 语义场景完成阶段0在这个阶段,我们将使用单个RGB图像和前一阶段的预计算草图作为输入,密集地预测语义场景标签。我们将这个阶段划分为以下几个部分:0将输入的RGB图像首先输入到ResNet-50[11]中提取局部和全局纹理特征。为了实现稳定的训练,我们利用在ImageNet[3]上预训练的参数,并冻结它们的权重。由于ResNet-50的输出张量具有太多的通道,这将为3D学习部分带来太多的计算成本,因此我们采用一个卷积层,后面跟着一个批归一化[12]和修正线性单元(ReLU),以减少其维度。然后,计算得到的2D语义特征图将根据深度图和相应的相机参数投影到3D空间中。给定深度图像I深度,内部相机矩阵K相机∈R3×3和外部相机矩阵E相机∈R3×4,2D特征图中的每个像素pu,v可以投影到一个独立的3D点px,y,z。由于3D体素的分辨率低于2D特征图,多个点在体素化过程中可能被划分到同一个体素中。对于这些体素,我们只保留一个体素中的一个特征向量,通过最大池化。在此步骤之后,将为每个像素分配其对应的体素的语义特征向量,通过映射M。由于许多区域不可见,因此在场景中的遮挡区域和空的前景区域被分配为零向量。给定投影的3D特征图F proj ∈ RC × H × W ×L,其中C是通道数,H、W、L是特征图的大小。现在我们使用先验信息ˆG原始和ˆG精炼作为引导。我们定义了两个草图映射:F原始:ˆG原始→F原始∈RC×H×W×L0和F精炼:ˆG精炼 → F精炼 ∈ R C × H × W × L0将这些先验信息映射到与F proj相同的特征空间中。经过这两个映射操作,F原始和F精炼具有与F proj 相同的分辨率和维度。因此,我们通过在Fproj、F原始和F精炼上进行逐元素的加法操作来引入先验信息。在实践中,这两个映射函数是由3×3卷积层实现的。接下来,新的特征图将被输入到一个3DCNN中,其架构与草图分支相同,我们得到最终的语义场景完成预测。03.5. 损失函数0在训练过程中,数据集被组织为一个集合{(X TSDF,XRGB,G真,S真)},其中G真表示地面真实草图,S真表示地面真实语义标签。我们通过以下公式优化整个架构:0L损失 = L语义 + L混合 + L草图,(4) L语义 =ε(S真,D草(E草(X RGB))),(5) L草图 =ε(G真,D草(E草(X TSDF))),(6)094.265.02093.763.64093.262.36092.059.98089.957.1lot and is still higher than the best performance of the pro-posed method, which verifies the validity of accurate struc-ture prior.1✗✗79.348.72✗✗81.150.62✓✗83.653.92✓✓84.255.241980其中D草、E草是草图阶段的编码器和解码器,D语义、E语义是语义阶段的编码器和解码器,L混合在公式(3)中定义,�表示交叉熵损失。04. 实验04.1. 数据集和评估指标0我们在三个数据集上评估了提出的方法:NYU Depth V2[24](以下简称NYU),NYUCAD [6]和SUNCG[27]。我们将在补充材料中详细介绍这三个数据集。我们遵循SSCNet[27]的做法,使用精确度、召回率和体素级别的交并比(IoU)作为评估指标。按照[27]的做法,我们考虑了两个任务:语义场景完成(SSC)和场景完成(SC)。对于SSC任务,我们评估了视锥体中观察到的和遮挡的体素上每个对象类别的IoU。对于SC任务,我们将所有体素视为二进制预测,即空或非空。我们评估了视锥体中遮挡的体素上的二进制IoU。04.2. 实现细节0训练细节。我们使用PyTorch框架在2个GeForce GTX 1080 TiGPU上实现了实验。我们采用带有动量的小批量SGD来训练我们的模型,批量大小为4,动量为0.9,权重衰减为0.0005。我们采用多项式学习率策略,初始学习率乘以(1-iter/max_iter)^0.9。对于NYU和NYUCAD,我们训练我们的网络250个epochs,初始学习率为0.1。对于SUNCG,我们训练我们的网络8个epochs,初始学习率为0.01。方程(1)中的期望值使用K=4个样本进行估计。方程(1)和方程(3)中的λ1、λ2和α分别设置为2、1和1.5。0表1. Oracle消融。DropRate表示我们随机丢弃地面真实的草图的一定比例。我们在NYUCAD数据集上进行了这项消融研究。0丢弃率(%) SC-IoU(%) SSC-mIoU(%)0很多,仍然高于所提出方法的最佳性能,这验证了准确的结构先验的有效性。0Oracle消融。为了获得所提出方法的理论上限,我们用地面真实的3D草图替换第一阶段的输出,以提供结构先验。结果如表1所示。DropRate表示我们随机丢弃地面真实的3D草图的一些体素,比例为某个比率。我们观察到,使用整个3D草图作为结构先验,我们的网络可以推断出大部分不可见区域,并获得94.2%的SC IoU。当丢弃率增加到80%时,性能没有下降。04.3. 与最先进方法的比较0我们进一步将所提出的方法与最先进方法进行比较。表3显示了最先进方法在NYU数据集上的性能。我们观察到,所提出的方法在性能上超过了所有现有方法,具体而言,与CCPNet [41]相比,我们的方法在SC IoU上提高了7.8%,在SSCmIoU上提高了2.6%。我们认为这种改进是由于新颖的两阶段架构充分利用了结构先验。提供的结构先验可以准确地推断出场景中的不可见区域,并保持良好的结构细节。我们还在NYUCAD数据集上进行了实验证实所提出方法的泛化性能。表4给出了NYUCAD数据集上的定量结果。我们的方法保持了性能优势,并且在SC IoU上比CCPNet[41]提高了1.8%,在SSCmIoU上提高了2.0%。需要注意的是,尽管一些工作[41,33,7]使用了比我们更大的输入分辨率,但所提出的方法仍然在低分辨率的输入(60×36×60)上优于它们。SUNCG数据集上的实验和与SSCNet[27]在NYUCAD数据集上的SSC结果的可视化放在了补充材料中。04.4. 消融研究0为了评估我们方法的关键组件的有效性,我们使用相同的超参数进行了广泛的消融研究。详细信息如下所示。0#阶段 结构先验 CVAE SC-IoU(%) SSC-mIoU(%)0表2.不同模块的消融研究。我们在NYUCAD数据集上进行了这项消融研究。0在框架中的不同模块。我们首先对所提出方法中的不同模块进行消融研究。结果如表2所示。从第1行和第2行可以看出,仅采用双通道结构就可以提升性能,因为引入了更多的参数。在第三行中,通过引入结构先验,我们的网络可以推断出具有良好结构保持细节的场景中的不可见区域,这带来了很大的改进。最后,通过提出的3D草图幻化模块,我们进一步提升了性能,实现了84.2%的SC IoU和55.2%的SSCmIoU,这两者都是NYUCAD上的最新最佳性能。不同结构先验的表示。我们还对不同结构先验的表示进行了消融研究。Lin et al. [15](240, 60)NYU58.549.936.40.011.713.314.19.429.024.06.07.016.21.112.0Geiger et al. [8](240, 60)NYU65.758.044.410.262.519.15.88.540.627.77.06.022.65.919.6SSCNet [27](240, 60)NYU57.094.555.115.194.724.40.012.632.135.013.07.827.110.124.7ESSCNet [39](240, 60)NYU71.971.956.217.575.425.86.715.353.842.411.2033.411.826.7DDRNet [14]*(240, 60)NYU71.580.861.021.192.233.56.814.848.342.313.213.935.313.230.4VVNetR-120 [9](120, 60)NYU+SUNCG69.883.161.119.394.828.012.219.657.050.517.611.935.615.332.9TS3D [7]*(240, 60)NYU--60.09.793.425.521.017.455.949.217.027.539.419.334.1SATNet-TNetFuse [16]*(60, 60)NYU+SUNCG67.385.860.617.392.128.016.619.357.553.817.218.538.418.934.4ForkNet [33](80, 80)NYU--63.436.293.829.218.917.761.652.923.319.545.420.037.1CCPNet [41](240, 240)NYU74.290.863.523.596.335.720.225.861.456.118.128.137.820.138.5Zheng et al. [43](240, 60)NYUCAD60.146.734.6------------Firman et al. [6](240, 60)NYUCAD66.569.750.8------------SSCNet [27](240, 60)NYUCAD+SUNCG75.496.373.232.592.640.28.933.957.059.528.38.144.825.140.0VVNetR-120 [9](120, 60)NYUCAD+SUNCG86.492.080.3------------DDRNet [14]*(240, 60)NYUCAD88.788.579.454.191.556.414.937.055.751.028.89.244.127.842.8TS3D [7]*(240, 60)NYUCAD--76.125.993.848.933.431.266.156.431.638.551.430.846.2CCPNet [41](240, 240)NYUCAD91.392.682.456.294.658.735.144.868.665.337.635.553.135.253.2TSDF+RGB✓83.152.5TSDF+RGB✓82.653.2TSDF+RGB✓84.255.241990场景补全 语义场景补全0方法 分辨率 训练于 精确率 召回率 IoU 天花板 地板 墙壁 窗户 椅子 床 沙发 桌子 电视 家具对象 平均0我们的* (60 , 60) NYU 85.0 81.6 71.3 43.1 93.6 40.5 24.3 30.0 57.1 49.3 29.2 14.3 42.5 28.6 41.10表3. NYU数据集上的结果。粗体数字表示最佳得分。分辨率(a, b)表示输入分辨率为(a × 0.6a × a),输出分辨率为(b × 0.6b ×b)。‘*’表示基于RGB-D的方法。0场景补全 语义场景补全0方法 分辨率 训练于 精确率 召回率 IoU 天花板 地板 墙壁 窗户 椅子 床 沙发 桌子 电视 家具对象 平均0我们的* (60 , 60) NYUCAD 90.6 92.2 84.2 59.7 94.3 64.3 32.6 51.7 72.0 68.7 45.9 19.0 60.5 38.5 55.20表4. NYUCAD数据集上的结果。粗体数字表示最佳得分。分辨率(a, b)表示输入分辨率为(a × 0.6a × a),输出分辨率为(b × 0.6b ×b)。‘*’表示基于RGB-D的方法。0输入 形状 语义标签 素描 SC-IoU(%) SSC-mIoU(%)0表5.不同结构先验表示的消融研究。我们在NYUCAD数据集上进行了这项消融研究。0监督 嵌入 SC-IoU(%) SSC-mIoU(%)0无 隐式 81.1 50.60形状 隐式 83.1 51.80显式 83.1 52.50语义 隐式 82.3 52.10显式 82.6 53.20素描 隐式 83.5 54.40显式 84.2 55.20表6.不同嵌入类型的消融研究。我们在NYUCAD数据集上进行了这项消融研究。0结构先验。我们在这里列出了先验的三种不同表示方式:形状、语义标签和草图。形状是场景的二进制描述,我们通过将语义标签二值化来生成地面真实形状。语义标签和草图在上述部分已经介绍过。从表5中我们可以看到,草图是模拟结构先验的最佳表示方式,因为它可以推断出具有良好结构保持细节的不可见区域。不同类型的嵌入。在这部分中,我们对不同类型的嵌入进行了消融研究。结果如表6所示。'Implicit'表示将第一阶段最后一个反卷积层的输出作为几何嵌入,并将其作为先验输入到第二阶段。我们观察到,即使使用隐式嵌入,添加任何合理的监督都可以提升性能,如语义、形状和草图。当我们转换为显式嵌入时,获得了更好的结构先验,并且性能得到了进一步提升。值得注意的是,由草图监督的显式嵌入优于其使用隐式嵌入且没有监督的基线,SCIoU提升了3.1%,SSCmIoU提升了4.6%,这证明了提出的草图结构先验和显式嵌入方法的有效性。不同模态输入。我们采用来自不同模态的数据作为输入,更具体地说,第一阶段使用TSDF,第二阶段使用RGB。我们认为TSDF嵌入了丰富的几何信息,适用于草图预测任务,而RGB则富含语义信息,适用于语义标签预测任务。结果如表7所示。从第1行和第4行可以看出,TSDF生成的结构先验比RGB更好,SCIoU提高了3.3%。从第3行和第4行可以看出,RGB生成更精确的语义标签,基于相同的TSDF提供的结构先验,SSCmIoU提高了3.9%。从第1行、第2行和第3行可以看出,引入其他模态会导致在单模数据基础上相应的增益。不同的输入/输出分辨率。在这部分中,我们进行了消融研究,以验证不同的输入/输出分辨率对性能的影响。结果如表8所示。我们观察到,增加输入尺寸不会使性能变差。如果同时增加输入和输出分辨率,SC IoU显著增加,而SSCmIoU仅略微下降。因此,我们得出结论,增加输入或输出的分辨率对于语义场景补全任务是有益的。0Stage1输入 Stage2输入 SC-IoU(%) SSC-mIoU(%)0RGB RGB 68.0 40.00RGB TSDF 71.2 40.20TSDF TSDF 71.5 37.20TSDF RGB 71.3 41.10表7.不同模态输入的消融研究。我们在NYU数据集上进行了这项消融研究。0信息。'Explicit'表示我们基于隐式嵌入抽象出一个具体的结构,并将其作为结构先验。我们观察到,即使使用隐式嵌入,添加任何合理的监督都可以提升性能,如语义、形状和草图。当我们转换为显式嵌入时,获得了更好的结构先验,并且性能得到了进一步提升。值得注意的是,由草图监督的显式嵌入优于其使用隐式嵌入且没有监督的基线,SC IoU提升了3.1%,SSCmIoU提升了4.6%,这证明了提出的草图结构先验和显式嵌入方法的有效性。不同模态输入。我们采用来自不同模态的数据作为输入,更具体地说,第一阶段使用TSDF,第二阶段使用RGB。我们认为TSDF嵌入了丰富的几何信息,适用于草图预测任务,而RGB则富含语义信息,适用于语义标签预测任务。结果如表7所示。从第1行和第4行可以看出,TSDF生成的结构先验比RGB更好,SCIoU提高了3.3%。从第3行和第4行可以看出,RGB生成更精确的语义标签,基于相同的TSDF提供的结构先验,SSCmIoU提高了3.9%。从第1行、第2行和第3行可以看出,引入其他模态会导致在单模数据基础上相应的增益。不同的输入/输出分辨率。在这部分中,我们进行了消融研究,以验证不同的输入/输出分辨率对性能的影响。结果如表8所示。我们观察到,增加输入尺寸不会使性能变差。如果同时增加输入和输出分辨率,SC IoU显著增加,而SSCmIoU仅略微下降。因此,我们得出结论,增加输入或输出的分辨率对于语义场景补全任务是有益的。42000天花板 地板 墙 窗椅子 床 沙发 桌子 电视 家具物品0RGB 观察到的表面草图 地面真实草图 无CVAE的草图 有CVAE的草图 SSC 真实值 SSC 无CVAE SSC 有CVAE0图5.在NYUCAD数据集上的草图可视化。通过提出的3D草图幻化模块,利用CVAE引导不可见区域的推理,草图边界更清晰,更完整,从而得到更好的语义预测。0数据集 分辨率 SC-IoU(%) SSC-mIoU(%)0NYU (60, 60) 71.3 41.10NYU (80, 60) 71.4 41.20NYU (80, 80) 76.5 40.00NYUCAD (60, 60) 84.2 55.20NYUCAD (80, 60) 84.1 55.90NYUCAD (80, 80) 86.0 54.90表8.输入/输出分辨率的消融研究。我们在NYU和NYUCAD数据集上进行了这项消融研究。分辨率(a, b)表示输入分辨率为(a × 0.6a ×a),输出分辨率为(b × 0.6b × b)。0基于相同的TSDF提供的结构先验,通过语义标签生成了更精确的语义标签,SSCmIoU提高了3.9%。从第1行、第2行和第3行可以看出,引入其他模态会导致在单模数据基础上相应的增益。不同的输入/输出分辨率。在这部分中,我们进行了消融研究,以验证不同的输入/输出分辨率对性能的影响。结果如表8所示。我们观察到,增加输入尺寸不会使性能变差。如果同时增加输入和输出分辨率,SC IoU显著增加,而SSCmIoU仅略微下降。因此,我们得出结论,增加输入或输出的分辨率对于语义场景补全任务是有益的。03D草图的定性结果0我们在图5中可视化了带有/不带有CVAE的预测3D草图。我们可以观察到,使用提出的3D草图幻觉模块,草图更加完整和精确。在更完整的草图的约束下,语义结果在具有相同语义标签的区域中显示出很大的一致性,并且具有更清晰的边界。0边界。例如,在第一行中,没有CVAE的情况下,书架上的一些区域被错误地标记为没有CVAE的物体,并且相应的草图中缺少这些区域。在第二行中,没有CVAE的情况下,草图无法提取墙上物体的轮廓,导致语义边界的不确定性。在第三行中,没有CVAE的情况下,草图中缺少边界,导致语义混乱。在最后一行中,没有CVAE的情况下,相框的草图不完整,导致更多的区域被错误地标记为墙壁。05. 结论0在本文中,我们提出了一种新颖的三维草图感知特征嵌入方案,该方案明确地将几何信息与保持结构的细节相结合。在此基础上,我们进一步提出了一个语义场景补全框架,该框架包含一个新颖的三维草图幻觉模块,通过结构先验指导从部分观测中进行完整的三维草图推断。实验证明了所提方法的有效性和效率,并在三个公共基准测试中取得了最先进的性能。0致谢:本工作得到了中国国家重点研发计划(2017YFB1002601,2016QY02D0304),国家自然科学基金(61375022,61403005,616
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功