没有合适的资源?快使用搜索试试~ 我知道了~
38030从2D图像中使用解耦属性流进行3D形状重建0Xin Wen 1,2,* , Junsheng Zhou 1 , � , Yu-Shen Liu 1 † , Hua Su 3 , Zhen Dong 4 , Zhizhong Han 50中国北京清华大学软件学院BNRist0中国北京京东物流 中国北京快手科技0中国武汉市武汉大学0美国底特律韦恩州立大学计算机科学系0wenxin16@jd.com zhoujs21@mails.tsinghua.edu.cn liuyushen@tsinghua.edu.cn0shlw@kuaishou.com dongzhenwhu@whu.edu.cn h312h@wayne.edu0摘要0从单个2D图像重建3D形状是一项具有挑战性的任务,需要根据2D图像中的语义属性估计详细的3D结构。到目前为止,大多数先前的方法仍然难以提取用于3D重建任务的语义属性。由于单个图像的语义属性通常是隐含的并且相互纠缠在一起,使用输入图像表示的详细语义结构仍然具有挑战性。为了解决这个问题,我们提出了3DAttriFlow,通过输入图像中的不同语义级别解耦和提取语义属性。这些解耦的语义属性将被整合到3D形状重建过程中,可以为3D形状上的特定属性重建提供明确的指导。因此,3D解码器可以在网络底部明确捕捉高级语义特征,并在网络顶部利用低级特征,从而能够重建更准确的3D形状。需要注意的是,这种显式解耦是在没有额外标签的情况下学习的,我们训练中使用的唯一监督是输入图像及其对应的3D形状。我们在ShapeNet数据集上进行了全面的实验证明,3DAttriFlow优于最先进的形状重建方法,并且我们还验证了它在形状补全任务上的泛化能力。代码可在 https://github.com/junshengzhou/3DAttriFlow 上找到。0* 相等贡献。†通讯作者为刘玉深。本工作得到了中国国家重点研发计划(2018YFB0505400,2020YFF0304100),中国国家自然科学基金(62072268)以及清华-快手未来媒体数据研究院的部分支持。01. 引言0从2D图像重建3D形状(2D到3D重建)是弥合2D和3D视觉理解差距的关键任务。典型的范式是首先通过图像编码器捕捉2D图像的语义特征,然后通过3D解码器在3D空间中正确重建它们。在3D形状的多种表示形式(如体素、点云和网格)中,本文主要关注从输入图像重建3D点云,因为它具有轻量级存储消耗和表示各种复杂形状的能力。0正如大多数先前方法的典型范式所指出的[26, 37, 42,51],2D到3D重建的关键在于如何将语义属性从图像解释到3D空间中。由于最近2D计算机视觉的进展,有许多众所周知的方法(如AlexNet [16],VGG [32]和ResNet[12])可以将语义属性编码为图像特征,并且它们的效率也已经通过广泛的跨模态任务(如图像字幕[34,53],跨模态检索[35,57])得到证明。然而,对于2D到3D重建的研究来说,如何将2D域的视觉信息解释到3D域中以进行准确的3D重建仍然是一项困难的任务。因为大多数先前的方法[26, 37, 38, 42,51,52]只依赖于特征通道(如逐元素相加、特征串联和注意机制)将图像编码器中的视觉信息传递给3D解码器,这些信息只包含有限的语义属性作为形状重建的指导。例如,总体几何信息(如腿的数量)将决定桌子有三条腿还是四条腿。这种几何信息可以被解码器轻松地注意到并重建。另一方面,详细的语义属性,如腿的长度或弯曲程度,将具体决定形状的细节。𝑧𝑖= 0.2𝑧𝑖= 0.4𝑧𝑖= 0.8𝑧𝑖= 1.038040隐式特征�0隐式特征�0显式属性�0(c)3DAttriFlow学习的第�个维度��可以控制椅子腿的长度。0(a) 先前的方法基于隐式特征�解码3D形状。0(b) 3DAttriFlow基于隐式特征�和显式属性�解码3D形状。0属性彼此交织在一起,通常由�中的多个维度揭示。0属性通过�的特定维度进行分解和揭示。0图1. 先前方法(a)和我们的3DAttriFlow(b)之间的比较。除了输入图像的隐式特征�之外,3DAttriFlow还学习了一个额外的属性代码�,它可以揭示关于3D形状更具体语义属性的一些提示(c)。0然而,由于这些语义属性在图像特征中深度交织在一起,因此在重建过程中解码器很难注意到它们。此外,语义属性通常分布在各种语义层次上,并且在图像编码器的金字塔层次结构中相互交织。因此,它们很难通过隐式特征通道充分利用。因此,先前的方法通常在引导解码器重建编码器提取的各种视觉信息方面存在困难,这导致了先前方法中语义特征用于预测3D形状的不充分使用。解决这个问题的一个直接方法是在解码器和编码器中的所有网络层之间构建大量的特征通道,这将增加巨大的计算时间和网络复杂性。另一方面,正如许多图像到图像转换方法(例如图像超分辨率[40,50],图像风格转换[58])所证明的那样,我们注意到全局特征能够对单个图像的大多数语义属性进行编码,因为它们可以用于高质量图像生成/恢复任务。因此,一个有希望的解决方案是深入探索从2D图像中提取的全局特征,并解码嵌入在全局特征中的丰富语义属性,这可能为3D形状的重建过程提供更详细和明确的指导。根据上述直觉,我们提出了一种新颖的神经网络,名为3DAttriFlow,用于从2D图像中分解语义属性,并以可控的方式利用这些语义属性进行3D形状重建。具体而言,如图1所示,先前的方法(图1(a))通常学习从隐式图像特征重建3D形状。相比之下,3DAttriFlow试图将属性代码(图1(b))分解为提示,以捕捉一些特定的语义属性(图1(c))。3DAttriFlow中提出的属性流管道通过将语义属性提示输入到点云的分层生成过程中,使解码器能够按照语义层次结构有选择地解释语义属性。我们的想法受到了最近的生成方法“EigenGAN[13]”的启发,该方法学习以无监督的方式操纵人脸的显式语义属性。然而,由于点云的离散性质,点的坐标仅以无序方式组织,这与以有序网格结构排列的图像像素形成对比。点云的这种性质使得在生成过程中每个点的位置是不可预测的,直到在解码器的最后揭示其三维坐标为止。因此,基于EigenGAN[13]的直接实现可能会失败,因为网络无法准确预测特定点的语义属性,而不知道其位置。为了解决这个问题,我们提出了形变管道作为解决方案,它遵循PMP-Net[47]的思想,将形状生成过程重新考虑为形状变形过程。也就是说,首先为每个点分配一个先验的三维空间位置,然后将其移动到目标位置以重新组合成新的形状。具体而言,3DAttriFlow将从3D球体采样的点云移动到由2D图像指示的目标形状中。总之,我们的主要贡献总结如下。0EigenGAN[13]是一种学习以无监督方式操纵人脸显式语义属性的方法。然而,由于点云的离散性质,点的坐标仅以无序方式组织,这与以有序网格结构排列的图像像素形成对比。点云的这种性质使得在生成过程中每个点的位置是不可预测的,直到在解码器的最后揭示其三维坐标为止。因此,基于EigenGAN[13]的直接实现可能会失败,因为网络无法准确预测特定点的语义属性,而不知道其位置。为了解决这个问题,我们提出了形变管道作为解决方案,它遵循PMP-Net[47]的思想,将形状生成过程重新考虑为形状变形过程。也就是说,首先为每个点分配一个先验的三维空间位置,然后将其移动到目标位置以重新组合成新的形状。具体而言,3DAttriFlow将从3D球体采样的点云移动到由2D图像指示的目标形状中。总之,我们的主要贡献总结如下。0•我们提出了一种新颖的深度网络,名为3DAttriFlow,用于从单个2D图像重建高质量的3D形状。与以前的方法相比,3DAttriFlow可以从图像中解释出明确的语义属性,并有效地利用它们来指导解码器进行详细和高质量的2D到3D形状重建。0•我们提出了属性流管道,明确解开嵌入在2D图像的全局特征中的语义属性,可以为3D解码器提供关于语义属性详细重建的明确指导,从而在整体和详细的形状结构方面更准确地预测3D形状。0•我们提出了变形管道,为属性流管道提供位置先验知识,通过利用该点的位置,可以将提取的语义属性分配给特定的点。因此,3DAttriFlow避免了将语义分配给无序数据的问题,并允许属性流管道和变形管道之间更准确的特征集成。380502. 相关工作0最近3D表示学习的改进[7,010,11,23,44,45],3D计算机视觉领域中的重建[6,8,9,18,24,25,48]和完成[43,46]推动了从2D图像重建3D形状的研究,可以根据输入图像的数量进行分类:单视图3D形状重建[5,26,37,38,42]和多视图3D形状重建[42,51,52]。另一方面,根据3D形状的不同表示形式,相关工作也可以分为基于体素的3D形状重建[26,38,51,52],基于点云的3D形状重建[4,5,21,36]和基于网格的3D形状重建[37,42]。具体而言,本文提出的3DAttriFlow属于基于点云的单视图3D形状重建。为了方便起见,相关工作的讨论将根据3D形状的输出形式进行组织。基于点云的方法。随着点云表示学习[20,23,30,31,41]的快速发展,这是由PointNet[30]的开创性工作引发的,近年来广泛研究了点云生成,并推动了从2D图像重建点云的研究。大多数基于点云的方法[2,4,5,14,27]都遵循生成的方式,根据2D图像预测点的坐标,他们的努力要么是改进图像编码器和3D形状解码器之间的特征通信[4],要么对生成的点云施加额外的监督/约束[14,27,55]。基于体素/网格的方法。对于基于体素的重建方法,3D体素的网格结构自然地应用于卷积神经网络中,这简化了将2D网格数据转换为3D网格数据的问题。沿着这条线的典型做法是在2D和3D领域中直接利用CNN结构,旨在从输入图像中提取2D网格特征,并重建相应的3D网格形状。典型的方法如3DR2N2 [3],Pix2Vox [51]和Pix2Vox++[52]已经全面探索了使用单个或多个图像作为输入的3D重建性能。然而,由于输入体素数据的立方增长,体素数据的分辨率通常受到限制,而进一步增加分辨率将导致不可接受的计算成本。至于基于网格的方法,大多数方法都遵循从先验形状进行变形的思路。例如,Pixel2Mesh[37]及其后继者Pixel2Mesh++[42]考虑将椭球网格变形为目标形状,结合多阶段融合策略将图像特征引入网格变形网络。李等人[19]进一步扩展了这种框架,以捕捉2D图像中的语义部分。潘等人[28]通过变形改进了生成复杂形状的能力。0修改其拓扑结构。然而,网格的交叉和流形表面的假设将阻碍生成具有内部或不规则结构的3D形状。讨论。从2D图像中重建3D形状需要对2D图像中的语义属性进行深入理解,并正确解释3D空间中的语义属性。上述方法要么选择直接从全局特征解码3D形状,要么依赖于特征通道来连接图像编码器和形状解码器之间的网络层。问题在于,所有这些做法只能将2D图像中的隐含特征传递给3D形状,导致对重建特定和详细的语义属性的模糊指导。与这些先前的方法不同,3DAttriFlow提出了直接从图像特征中分解语义属性并将其整合到形状重建过程中的解决方案,这可以为根据2D图像重建特定的语义属性提供明确的指导。此外,3DAttriFlow中的属性分解能力使解码器能够根据语义级别的层次结构灵活地重建语义属性,这与具有固定通道的网络形成对比,后者只允许解码器从编码器的固定层学习。03DAttriFlow的架构03DAttriFlow的整体架构如图2所示,根据输入图像重建一个具有N个点的3D点云。3DAttriFlow主要由以下两个流水线组成:(1)属性流管道(见图2(a))用于从输入特征中分离语义属性,通常是由图像编码器提取的全局特征。(2)变形管道(见图2(b))用于将从3D球体中采样的初始点云变形为目标形状,其受到属性流管道中的语义属性的指导。每个流水线的结构如下所述。03.1. 属性流管道0如图2(a)所示,属性流管道旨在逐步从图像特征x和球面点云{p k}中提取几何代码{σ, µ}和语义特征si,其中i表示第i步。然后,提取的特征和代码将被集成到变形管道中,以指导球面点云{pk}的变形。属性流管道的基本架构包括一个特征提取器和三个属性流模块(AF模块)。具体而言,对于输入图像,3DAttriFlow使用ResNet18从输入图像中提取图像特征x。然后,AF模块从图像特征x中提取和解释视觉信息,转化为几何信息和语义属性,这是Geometry: 𝝈1, 𝝁1Semantics: s1zi𝒖𝑖𝑗, 𝑙𝑖𝑗𝝁𝑖𝒔𝑖Reshape𝝈𝑖, 𝝁𝑖𝒙, 𝒑𝑖N×(2Ci)→ 2×N×Ci38060图形-0注意力0AdaIn0+ 图形-0注意力 +0ResNet AF模块0AdaIn0+ 图形-0注意力0AF模块0AdaIn0MLPs0(c) 第i阶段的AF模块0图像特征�和球面点云{p i}0(a) 属性流管道0(b) 变形管道0&catMLPs0CD损失0+ 逐元素相加0�0{� � }0几何子管道0语义子管道0AdaIn 自适应实例归一化0输入0图像0球体0点云0真实值0输出0点云0阶段1 阶段2 阶段30图2.3DAttriFlow的整体架构。3DAttriFlow由两个管道组成:(a)属性流(AF)管道根据输入图像和初始球形点云提取几何代码和语义特征;(b)变形管道根据属性流管道的输出将点云变形为目标形状。属性流模块的详细结构如(c)所示。0由几何子管道和语义子管道完成,如图2(c)所示。几何子管道旨在将图像的整体视觉信息解释为几何信息,以便变形管道可以利用它进行3D形状重建。受基于样式转换的生成方法[15,17]的启发,该方法从潜在随机向量中学习局部样式,我们提出将由初始点云{pk}给出的位置先验所编码的视觉信息解释为几何样式{σi,µi}。如图2(c)所示的几何子管道在第i个阶段,首先将图像特征x重复并与位置先验{pk}连接为{[x :pk]},其中“:”表示特征连接。然后,经过多层感知机(MLP)和重塑操作,将图像特征与位置先验耦合,解释为几何样式{σi | σi∈RN×Ci}和{µi |µi∈RN×Ci},其中Ci表示变形管道第i个阶段的点特征的维度。语义子管道旨在从图像特征x中分解出明确的语义属性,并通过属性代码z的某个维度上的激活来表示它们。因此,变形管道可以在属性代码给定的明确指导下产生精确的3D语义属性。具体而言,如图2(c)的下部分所示,在第i个阶段,语义子管道首先将图像特征x压缩为属性代码zi,如下所示:zi = ϕ(x | θi),(1)0其中ϕ表示MLP层,θi表示用于生成zi的MLP层的权重。根据He等人的方法[13],对于属性代码zi的第j个维度上的激活zi,将从线性子空间Ui ={uij}中选择一个正交基uij∈RN×Ci来发现潜在的语义属性ˆzij,如下所示:0ˆzij = zijlijuij,(2)0其中lij是表示由正交基发现的语义属性的重要性的可学习权重0uij。通过将语义属性ˆzj沿属性代码zi的所有维度相加,语义子管道输出具有明确属性信息的语义特征si,其公式如下:0si = �0jˆzij + bi,(3)0其中bi是可学习的偏置。语义特征si将流入变形管道,以指导3D语义属性的重建。03.2. 变形管道0变形管道的结构如图2(b)所示。变形管道底部的输入是一个点集P ={pi},该点集是从一个3D球体均匀采样得到的。需要注意的是,我们选择球体作为起始形状,因为球体上的每个点都可以视为一个L2正则化向量,这保证了输入到网络的各个点具有各向同性的形状先验。变形管道顶部的输出是一组位移向量{∆pi}。变形管道的输出是一个变形的点集Po = {(pi +∆pi)},其形状与目标点云Pt ={ptj}相同。为了预测每个点的位移向量{∆pi},我们遵循Wang等人的方法[41],通过图注意力模块从多个输入点集P中提取点特征,形成一个三阶段的点特征学习框架。在第i个阶段,变形管道将几何样式{σi,µi}和语义特征si作为输入,并根据从图像特征解释出的几何信息和语义属性推断出每个点的位移。为了方便起见,我们将第i个阶段生成的点特征表示为Qi ={qik}。对于几何样式{σi,µi},我们遵循样式转换的做法[15]引入自适应实例归一化,用于根据几何样式中编码的几何信息调整点特征。其公式如下:0ˆqik = σik ∙ qi0σ(qik) + µik,(4)AdaIn+PTFP(a)(b)38070表1. ShapeNet数据集上的2D到3D重建,以每点L1 Chamfer距离× 102(较低为更好)。0方法 平均 平面 书柜 汽车 椅子 展示灯 枪 套装 沙发 桌子 电话器皿03DR2N2 [3] 5.41 4.94 4.80 4.25 4.73 5.75 5.85 10.64 5.96 4.02 4.72 5.29 4.37 5.07 PSGN [4] 4.07 2.78 3.73 4.12 3.27 4.68 4.74 5.60 5.62 2.534.44 3.81 3.81 3.84 Pixel2mesh [37] 5.27 5.36 5.14 4.85 4.69 5.77 5.28 6.87 6.17 4.21 5.34 5.13 4.22 5.48 AtlasNet [5] 3.59 2.60 3.20 3.66 3.074.09 4.16 4.98 4.91 2.20 3.80 3.36 3.20 3.40 OccNet [26] 4.15 3.19 3.31 3.54 3.69 4.08 4.84 7.55 5.47 2.97 3.97 3.74 3.16 4.4303DAttriFlow(我们的方法)3.02 2.11 2.71 2.66 2.50 3.33 3.60 4.55 4.16 1.94 3.24 2.85 2.66 2.960AF模块0��,��0si0点云特征��0每点特征��0图0注意力0图像特征�0重复的图像特征��0PT 点变换器0特征传播FP0图3.将3DAttriFlow扩展到3D形状完成任务的示意图。这是通过(a)将属性流管道的输入替换为PointTransformer学习的全局点云特征,以及(b)通过特征传播模块学习的每点特征替换图像特征来实现的。0其中µ(qik)和σ(qik)分别表示通过移动平均算法估计的qik的均值和偏差,σik和µik分别表示σi和µi的第k行的向量。根据几何样式调整点特征后,将语义特征si通过MLP层和逐元素加法集成到点特征ˆqik中,给出为:ˆqik ← ˆqik + ϕ(si |θsi)。 (5)0在变形管道的顶部,我们使用MLP层将点特征转换为三维位移向量{∆pk},最后将变形后的形状输出为{pk+∆pk}。03.3. 扩展到形状完成03DAttriFlow也可以用于预测不完整形状的缺失部分,可以通过将属性流管道中的图像编码器替换为3D点云编码器(例如PointTransformer[56])来实现。因此,输入图像特征x被点云特征ˆx替换。受PMP-Net[47]的启发,我们发现不完整点云的每个点的特征可以用作位置先验,以指导基于移动的补全。因此,我们用特征传播模块在PointNet ++[31]中指定的每点特征{fk}替换重复的图像特征{xk}。之后,我们将{fk}与球形点云{pk}连接起来,形成{[fk:pk]}。图3说明了对属性流管道的修改。为了进一步提高完成性能,我们采用了粗到精的策略0大多数完成方法[29, 49]都采用了来自VRCNet[29]的附加细化模块,旨在改进预测点云的详细形状。03.4. 训练损失0通过正交性损失的正则化来保证Ui的正交性,其定义为:0L Orth = 0i ∈ 1, 2, 3 ∥UTiUi∥ - 1. (6)0通过Chamfer距离(CD)定义的地面真实点云对由图像和不完整形状引起的变形形状进行规范化:0L CD ( P o , P t ) = 102 N0p o ∈P o min p t ∈P t ∥ p o − p t ∥20+ 1 2N0p t ∈P t min p o ∈P o ∥ p t − p o ∥ 2 . (7)0总的训练损失定义为0L = L CD + α L Orth , (8)0其中α是一个平衡因子,用于确定LOrth的权重。在本文中,对于所有实验,α被设置为100。04. 实验0在本节中,我们通过2D到3D重建任务实验评估了3DAttriFlow的有效性,并通过点云完成任务分析了其泛化能力。消融研究将重点关注3DAttriFlow的每个部分的有效性,并通过形状操作对提取的语义属性进行视觉分析。04.1. 在ShapeNet数据集上的2D到3D重建0数据集简介和评估指标。我们遵循OccNet[26]的实验设置,在ShapeNet数据集[1]上评估我们的3DAttriFlow。整个数据集包含43,783个网格对象,分为13个类别,将按照OccNet[26]相同的策略划分为训练、验证和测试集。由于我们的方法专注于从2D图像重建3D点云,我们按照AtlasNet[5]的方法,在3D对象的网格表面均匀采样30k个点作为训练的真实值。我们使用L1Chamfer距离(由公式(7)描述)作为评估指标,这是之前方法[26,37]所采用的。38080表2. 在MVP数据集上的点云完成任务,以每点L2 Chamfer距离×10^4(数值越小越好)为指标。0方法 平均 平面 柜子 车 椅子 灯 沙发 桌子 水 床 长凳 架子 公共汽车 吉他 摩托 手枪 滑板0PCN [54] 9.80 4.22 8.92 6.49 12.46 19.54 9.92 12.45 8.78 19.0 9.0 13.39 5.15 1.87 6.03 6.04 4.70 TopNet [33] 10.34 4.09 9.71 7.36 13.46 20.53 11.21 12.46 8.50 18.98 8.58 15.155.47 2.13 7.19 7.33 4.15 MSN [22] 7.98 2.59 8.86 6.54 10.22 12.64 9.08 9.69 7.08 15.58 6.38 11.31 5.23 1.37 4.63 4.72 3.06 CRN [39] 7.34 2.45 8.62 5.97 8.95 11.16 8.63 9.306.43 14.93 6.11 10.39 4.97 1.67 4.33 4.47 3.39 VRCNet [29] 5.96 2.17 7.83 5.52 7.31 8.29 7.42 7.07 5.15 11.18 4.76 7.03 4.40 1.15 3.75 3.54 2.31 PMPNet [47] 6.24 1.99 8.84 6.367.77 6.18 8.72 7.71 5.19 11.77 5.07 8.34 5.27 1.27 3.95 3.57 2.35 SnowflakeNet [49] 5.86 2.04 7.76 5.61 7.07 7.42 6.92 7.13 5.05 11.32 4.87 7.72 4.46 1.16 3.94 3.52 3.6403DAttriFlow(我们的方法)5.06 1.59 7.40 5.44 6.05 5.01 6.81 6.14 4.25 10.62 3.73 6.53 4.30 0.95 3.27 2.78 1.780PSGN AtlasNet OccNet 3DAttriFlow0R2N20输入0图4.在ShapeNet数据集上使用不同方法进行2D到3D重建结果的视觉比较。0为了与其他重建3D体素或网格的方法进行比较,我们按照OccNet[26]从其输出表面采样2,048个点,然后计算与真实值之间的L1Chamfer距离。对于基于体素的方法,我们还将其体素输出转换为网格,然后在网格表面上进行点云采样。0定量比较。2D到3D重建的结果如表1所示,在这个表中,3DAttriFlow在与其他对比方法相比中取得了卓越的性能。特别是,PSGN [4]和AtlasNet[5]是基于点云的方法,与3DAttriFlow最相关。然而,3DAttriFlow相比这两种方法获得了超过25%的性能提升。正如我们在第1节中讨论的那样,上述两种方法采用了典型的2D到3D重建范式,其中0PCN TopNet PMP-Net VRCNet SnowflakeNet 3DAttriFlow 输入 Gt0图5. 在MVP数据集上使用不同方法进行点云完成结果的视觉比较。0AtlasNet[5]根据全局特征的隐含输入直接解码整个形状,而PSGN[4]利用编码器和解码器之间的特征通道引入各种级别的语义。这些做法都不能从图像中学习到明确的语义特征,而只是试图从隐含的全局特征或编码器的中间层解码形状。相比之下,3DAttriFlow可以同时利用从图像中学习到的隐含和明确的语义属性,这是通过几何子管道和语义子管道实现的。因此,3DAttriFlow能够根据来自明确的语义属性的更明确的指导预测3D形状的细节,并且比其对手取得更好的性能。定性比较。2D到3D重建的视觉比较如图4所示。请注意,对于AtlasNet,我们遵循其原始的可视化设置来展示重建的网格而不是点云。与其他方法相比,3DAttriFlow在各种对象类别上重建出更好的细节。例如,在椅子类别(图4的第5行)中,OccNet的预测中缺少了腿,而PSGN和AtlasNet的椅子预测模糊且充满噪音。至于飞机类别,PSGN和AtlasNet都无法重建出第1行和第2行中引擎的详细形状,而OccNet在第2行中无法稳定地进行正确的引擎预测。04.2. MVP数据集上的3D完成0数据集简介和评估指标。我们按照VRCNet[29]的实验设置来评估我们在MVP数据集[29]上的3DAttriFlow。该数据集包含从ShapeNet中选择的模型生成的16个类别的不完整/完整点云,并被划分为38090训练集(62,400个形状对)和测试集(41,600个形状对)。按照之前的方法[29, 33, 47],我们使用L2Chamfer距离作为评估指标。定量比较。点云完成的比较结果如表2所示。与当前最先进的完成方法SnowflakeNet[49]相比,3DAttriFlow在L2-CD方面的性能提高了13.7%。完成任务的直观理解与2D到3D重建任务相同,即基于给定的输入预测一个3D形状。在点云完成的情况下,输入是不完整的3D形状。3DAttriFlow取得更好的性能可以归因于对语义属性的更全面和明确的理解,这是通过AF模块中的语义子管道实现的。例如,为了推断缺失的椅子腿的长度,明确控制这种属性的语义代码能够指导解码器进行更精确的预测。相比之下,在表2中的其他方法中,它们的解码器必须从隐含特征中进行预测,其中腿的属性与隐含特征中的其他属性纠缠在一起。定性比较。在图5中,我们在MVP数据集上定性比较了3DAttriFlow与其他完成方法,从中我们可以发现3DAttriFlow产生比其他方法更精确和一致的完整形状。以第2行和第3行的椅子完成为例,3DAttriFlow对椅背和缺失的扶手的预测明显优于其他方法。至于第5行的滑板,所有五种比较方法都将车轮与板子混淆在一起,而3DAttriFlow可以产生一个干净且详细的目标滑板形状。04.3. 消融研究0在这个子节中,所有的定量分析结果通常在四个类别(即平面、汽车、椅子和桌子)下进行。默认情况下,所有的实验设置与第4.1节中的设置保持一致,除了在下面的每个消融实验中描述的修改部分。AF模块中每个子管道的分析。我们通过从原始网络结构中移除/替换模块(表示为Full)来分析3DAttriFlow的每个子管道的有效性。具体而言,我们开发了四种不同的变体进行比较:(1)w/o语义子管道是从AF模块中移除语义子管道的变体;(2)w/o几何子管道是从AF模块中移除几何子管道的变体;(3)语义MLPs是将语义子管道替换为简单的MLP层,其中输出直接添加到变形管道中的特征中;(4)几何MLPs是将几何子管道替换为简单的MLPs,其中输出添加到变形管道中的特征中。结果如表3所示,我们可以发现0我们的完整模型在所有四个变体中取得了最好的结果。这个结果证明了3DAttriFlow的每个部分的有效性。0此外,我们还得出了两个结论。首先,通过将无几何子管道和无语义子管道与完整模型进行比较,我们可以发现语义子管道对2D到3D重建的性能影响相对较小。原因是,尽管语义子管道可以明确地解开和提取2D图像中的语义属性,但总会存在某些无法明确捕获或解开的语义属性。因此,仍然需要隐式表示来编码这些隐式语义属性。其次,通过将几何MLP和语义MLP与仅MLP进行比较,我们可以发现几何子管道和语义子管道都比简单的MLP更有效,这证明了两个子管道的网络设计的有效性。0表3.每个子管道对3DAttriFlow的影响,以L1-CD×10 2为单位。0步骤。平均平面汽车椅子桌子0无语义子管道 3.16 2.58 2.80 3.89 3.35 无几何子管道 3.41 2.663.07 4.23 3.68 语义MLP 3.12 2.53 2.85 3.81 3.30 几何MLP3.08 2.47 2.73 3.80 3.30 仅MLP 3.21 2.67 2.82 3.91 3.45 完整3.03 2.49 2.69 3.73 3.230由语义编码z控制的语义属性的可视化。语义编码z预计将显式语义属性编码为单个维度的激活,旨在为3D形状的重建提供明确的指导。为了对由z捕获的编码语义属性进行视觉分析,我们遍历z的维度,并观察由插值z的单个维度引起的形状变形,如图6所示。具体来说,我们对每个类别的3个属性进行了观察,证明了语义编码z成功捕获了显式的语义属性,并有效地揭示了相应部分的3D形状的重建。例如,对于椅子的重建(图6(a)),编码z学习了两个特定的腿的语义属性,即弯曲(由第2阶段的第6维编码)和长度(由第3阶段的第5维编码)。从图6(c)的可视化结果中,我们可以发现改变激活值会导致相应语义属性的明显变形。此外,通过观察三个类别的提取的语义属性,我们可以发现语义编码z能够将其学习到的属性推广到多个类别,因为弯曲和长度这两个相同的属性也可以在桌子和飞机类别中找到。43.142.602.813.843.3083.112.512.733.833.3518*3.032.492.693.733.23323.202.582.753.853.34μ1z1μ2z2μ1z2μ2z1μ1z1μ2z2μ1z2z1 determines the existence of armrest.μ1 determines the overall shape.z2 determines the chair back.z2 determines the absence of armrest.38100第2阶段第9维的椅背形状。0第2阶段第5维的腿长。0第3阶段第6维的腿曲率。0第3阶段第2维的腿长。0第3阶段第6维的腿曲率。0第2阶段第5维的桌面曲率。0第2阶段第5维的机翼长度。0第3阶段第9维的机翼曲率。0第3阶段第3维的尾翼形状。0(c) 飞机 (b) 桌子 (a) 椅子0图6.通过语义编码z对3D形状进行可视化操作。子图的每一行显示了通过改变语义编码z的单个维度的值引起的相应形状变形结果,这证明了语义编码能够在2D到3D重建过程中控制显式的语义属性。由于我们无法控制网络编码的哪个语义属性,因此我们手动遍历语义编码z的维度,并揭示了学习到的语义属性。0表4. 以L1-CD × 10 2为指标的编码维度的影响0(基准标记为“*”)。0维度 平均 平面 车 椅子 桌子0语义编码z的分析。由于语义编码z的每个维度都可以潜在地编码某个语义属性,在本部分中,我们讨论了语义编码z在编码语义属性方面的能力,以编码维度为4、8和32,按照2的幂进行设置,并与我们的默认设置18进行比较。从结果中我们可以发现,使用18维语义编码的3DAttri-Flow获得了最佳性能,而其他设置导致了相对较小的性能下降。原因是对于小维度,语义编码只能编码有限的语义属性,这对于预测详细的3D形状是不足够的。另一方面,大维度可能存在学习正交基来表示语义属性的问题。此外,我们在图7中可视化了来自不同对象的编码z和µ的交换效果,从中我们可以观察到几个几何/语义属性明显由编码µ和z分别控制。05. 结论和局限性0在本文中,我们提出了3DAttriFlow来从2D图像重建3D形状。与先前的方法相比,这些方法仅仅基于隐式特征学习重建3D形状,3DAttriFlow利用了一种新颖的属性流管道,从隐式特征中显式提取语义属性,使得基于提取的语义属性的3D形状预测更加准确。为了克服生成离散点云数据的问题,我们提出了变形管道与属性管道相结合,为提取的语义属性提供位置先验。在ShapeNet数据集上进行的全面实验以及在点云补全的MVP数据集上的实验验证了3DAttriFlow的有效性,并且形状操作的可视化也展示了3DAttriFlow提取和控制3D形状的显式语义属性的能力。0(a) μ和z的视觉效果。(b) 不同z控制的语义特征的视觉效果。0chair-a10chair-a20chair-a30chair-b10chair-b20chair-b30chair-b40图7.替换语义/几何编码z/µ的效果。在(a)中,我们用来自chair-a2的编码z2替换chair-a1的语义编码z1。输出的chair-a3显示了几何编码µ1控制整体形状,而语义编码z2控制椅背的形状。在(b)中,我们进一步比较了不同语义编码z控制的语义属性。在(b)中的chair-b3通过语义编码z1从chair-b1继承了扶手,而chair-b4根据来自chair-b2的语义编码z2去掉了扶手。0综上所述,我们提出了3DAttriFlow来从2D图像重建3D形状。与先前的方法相比,这些方法仅仅基于隐式特征学习重建3D形状,3DAttriFlow利用了一种新颖的属性流管道,从隐式特征中显式提取语义属性,使得基于提取的语义属性的3D形状预测更加准确。为了克服生成离散点云数据的问题,我们提出了变形管道与属性管道相结合,为提取的语义属性提供位置先验。在ShapeNet数据集上进行的全面实验以及在点云补全的MVP数据集上的实验验证了3DAttriFlow的有效性,并且形状操作的可视化也展示了3DAttriFlow提取和控制3D形状的显式语义属性的能力。03DAttri-Flow的局限性和可能的未来工作可以如下解决。虽然语义编码z能够学习显式的语义属性并将其编码到特定维度中,但并不总能为每个维度学习到有意义或解耦的语义属性。在实验中,我们观察到一些维度可能对多个属性产生影响,而其他维度对输出形状的影响较小。我们认为,这可能是由于全局图像特征提取过程中的信息丢失/压缩导致的语义属性缺失或深度纠缠。因此,仍然有必要在编码器的多个层之间连接特征通道到属性流管道,以充分利用3DAttri-Flow的语义属性提取能力。38110参考文献0[1] Angel X Chang, Thomas Funkhouser, Leonidas J Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese,Manolis Savva, Shuran Song, Hao Su, 等. ShapeNet:一个信息丰富的3D模型库. arXiv:1512.03012,2015年。 50[2] Chao Chen, Zhizhong Han, Yu shen Liu, and MatthiasZwicker. 通过2D投影匹配无监督
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功