DeepSDF：学习连续有符号距离函数的3D形状表示

96 浏览量更新于2023-10-17 收藏 13.06MB PDF 举报

深度学习

3D建模

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11650DeepSDF：学习连续有符号距离函数进行形状表示0Jeong Joon Park 1 , 3 Peter Florence 2 , 3 Julian Straub 3 Richard Newcombe 3 Steven Lovegrove 301华盛顿大学2麻省理工学院3Facebook Reality Labs0图1：DeepSDF通过潜在代码条件的前馈解码器网络表示形状的有符号距离函数（SDF）。上方图像是DeepSDF在学习的形状潜在空间中两个形状之间插值的光线投射渲染。最好在数字设备上查看。0摘要0计算机图形学、3D计算机视觉和机器人学界已经提出了多种用于渲染和重建的3D几何表示方法。这些方法在保真度、效率和压缩能力之间进行权衡。在这项工作中，我们介绍了DeepSDF，这是一种学习的连续有符号距离函数（SDF）表示，用于从部分和噪声的3D输入数据中进行高质量的形状表示、插值和补全。DeepSDF与其经典对应物一样，通过连续的体积场来表示形状的表面：场中点的大小表示到表面边界的距离，符号表示该区域是形状内部（-）还是外部（+），因此我们的表示隐式地将形状的边界编码为学习函数的零级集，同时明确表示空间的分类是形状的一部分还是不是。虽然经典的SDF无论是在分析形式还是离散化体素形式上通常表示单个形状的表面，但DeepSDF可以表示整个形状类别。此外，我们展示了学习的3D形状表示和补全的最先进性能，同时将模型大小与之前的工作相比减小了一个数量级。0Park和Florence在Facebook实习期间进行了这项工作。01. 引言0深度卷积网络是基于图像的方法的主要组成部分，当直接推广到第三个空间维度时，它们的空间和时间复杂度迅速增长，而更经典和紧凑的表面表示，如三角形或四边形网格，在训练中会出现问题，因为我们可能需要处理未知数量的顶点和任意拓扑结构。这些挑战限制了深度学习方法在处理3D数据或为对象分割和重建产生3D推断时的质量、灵活性和准确性。在这项工作中，我们提出了一种新颖的表示和方法，用于生成3D建模，它高效、表达力强且完全连续。我们的方法使用SDF的概念，但与常见的表面重建技术不同，这些技术将SDF离散化为规则网格进行评估和测量去噪[14]，我们相反地学习了一个生成模型来产生这样一个连续场。所提出的连续表示可以直观地理解为一个学习的形状条件分类器，其决策边界就是形状本身的表面，如图2所示。我们的方法与其他试图将潜在空间映射到3D复杂形状分布的工作共享生成方面，但在中心表示上有着重要的区别。虽然在分析或离散化体素形式上的经典SDF通常表示单个形状的表面，但DeepSDF可以表示整个形状类别。此外，我们展示了学习的3D形状表示和补全的最先进性能，同时将模型大小与之前的工作相比减小了一个数量级。Decision boundaryof implicit surface(a)(b)(c)21660图2：我们DeepSDF表示应用于斯坦福兔子：（a）表示在SDF =0上训练的隐式表面SDF，该表面在SDF < 0内部和SDF >0外部的采样点上，（b）有符号距离场的2D截面，（c）从SDF =0恢复的渲染3D表面。注意，（b）和（c）是通过DeepSDF恢复的。0隐式表面被定义为SDF，在计算机视觉和图形学界广为人知，据我们所知，以前的工作尚未尝试直接学习连续的、可泛化的3D生成模型的SDF。我们的贡献包括：（i）使用连续的隐式表面对生成形状条件的3D建模进行公式化，（ii）基于概率自动解码器的3D形状学习方法，以及（iii）将这种公式化应用于形状建模和补全。我们的模型能够产生具有复杂拓扑结构的高质量连续表面，并在形状重建和补全的定量比较中取得了最先进的结果。作为我们方法有效性的一个例子，我们的模型仅使用7.4MB（兆字节）的内存来表示整个类别的形状（例如，成千上万个3D椅子模型）-这比单个未压缩的512x512x3的3D位图的内存占用（16.8 MB）少了一半。02. 相关工作0我们回顾了三个主要的相关工作领域：形状学习的3D表示（第2.1节），生成模型的技术（第2.2节）和形状补全（第2.3节）。02.1. 3D形状学习的表示0数据驱动的3D学习方法的表示可以大致分为三类：基于点的、基于网格的和基于体素的方法。虽然一些应用，如基于3D点云的对象分类，非常适合这些表示方法，但我们要解决的是它们在表达具有复杂拓扑结构的连续表面方面的局限性。基于点的。点云是一种轻量级的3D表示0tion，它与许多传感器（如LiDAR、深度相机）提供的原始数据非常匹配，因此非常适合应用于3D学习。例如，PointNet[36]使用最大池化操作提取全局形状特征，并且该技术广泛用作点生成网络的编码器[55,1]。有一份相当长的相关工作列表用于点云学习[37, 51,56]。然而，使用点云进行学习的一个主要限制是它们不能描述拓扑，并且不适合生成封闭的表面。基于网格的。各种方法使用预定义的模板网格表示类似形状的对象，例如可变形的人体部位，并且其中一些模型展示了高保真度的形状生成结果[2,31]。其他最近的工作[3]使用多立方体映射[48]进行形状优化。虽然使用模板网格是方便的，并且自然地提供了3D对应关系，但它只能对具有固定网格拓扑的形状进行建模。其他基于网格的方法使用现有的[45, 33]或学习的[19,20]参数化技术通过变形2D平面来描述3D表面。这种表示的质量取决于参数化算法，这些算法通常对输入网格质量和切割策略敏感。为了解决这个问题，最近的数据驱动方法[55,19]使用深度网络学习参数化任务。然而，他们报告说，(a)需要多个平面来描述复杂的拓扑，但是(b)生成的表面补丁没有拼接，即生成的形状不是封闭的。为了生成封闭的网格，可以使用球形参数化[19,20]，但所得到的形状仅限于拓扑球。与网格上的学习相关的其他工作提出了使用新的卷积和池化操作来处理网格[16,50]或一般图[8]。基于体素的。体素是用3D网格值描述体积的非参数化方法，它可能是在2D图像领域中表现出色的学习范式（例如卷积）在3D领域中的最自然的扩展。最直接的基于体素的学习变体是使用密集的占用网格（占用/未占用）。然而，由于计算和内存需求的立方增长，当前的方法只能处理低分辨率（ 1283或更低）。因此，基于体素的方法无法保留细节形状[54,13]，此外，体素在视觉上与高保真度的形状显著不同，因为当渲染时，它们的法线不平滑。基于八叉树的方法[49,41,22]缓解了密集体素方法的计算和内存限制，例如扩展到最高 5123分辨率的学习能力[49]，但即使这个分辨率远不能产生视觉上令人满意的形状。除了占用网格之外，与我们的方法更密切相关的是使用3D体素网格来表示有符号距离函数。这继承了SDF(x) = s : x ∈ R3, s ∈ R .(1)31670从使用截断的SDF（TSDF）的融合方法的成功开始，这些方法在[14,35]中首创，将嘈杂的深度图合并成一个单一的3D模型。基于体素的SDF表示已广泛用于3D形状学习[57, 15,46]，但它们使用离散体素在内存上是昂贵的。因此，这些方法通常呈现出低分辨率的形状。[27]报道了基于小波变换的方法和距离场的降维技术，但它们编码的是每个单独场景的SDF体积，而不是形状数据集。最近，与我们的工作同时进行，[12,34]使用了二进制隐式表面表示，他们训练深度网络来对形状的3D点进行内部或外部分类。请注意，二进制占用函数是SDF的一种特殊情况，只考虑SDF值的“符号”。由于DeepSDF模型度量了到表面的度量有符号距离，因此它可以用于对表面进行光线投射，并使用其梯度计算表面法线。02.2. 表示学习技术0现代表示学习技术旨在自动发现一组能够简洁但富有表现力地描述数据的特征。关于该领域的更详尽综述，请参考Bengio等人的研究[4]。生成对抗网络。GANs[18]及其变种[11, 39, 26,28]通过对抗性训练生成器与判别器，学习目标数据的深度嵌入，从中采样出逼真的图像。在3D领域，Wu等人[52]训练了一个GAN来生成体素形式的物体，而Hamu等人[20]则使用多个参数化平面来生成拓扑球的形状。然而，GAN的训练过程不稳定。自编码器。自编码器作为一种表示学习工具的能力已经在文献中的各种3D形状学习工作中得到了证明[15, 46, 2, 19, 53]。最近的3D视觉工作[5, 2,31]通常采用变分自编码器（VAE）学习方案，其中瓶颈特征被高斯噪声扰动以鼓励平滑和完整的潜在空间。对潜在向量的正则化使得可以通过梯度下降或随机采样来探索嵌入空间。优化潜在向量。与使用完整的自编码器不同，一种替代方法是通过训练仅有解码器的网络来学习紧凑的数据表示。这个想法至少可以追溯到Tan等人的工作[47]，该工作通过反向传播同时优化了分配给每个数据点的潜在向量和解码器权重。对于推理，可以搜索最佳的潜在向量来匹配具有固定解码器参数的新观测。类似的方法在[40, 7,38]中得到了广泛研究，应用包括噪声降低、缺失测量补全和故障检测。最近的方法0[6,17]通过应用深度架构扩展了这种技术。在本文中，我们将这类网络称为自解码器，因为它们是在仅有解码器的架构上通过自重构损失进行训练的。02.3. 形状补全03D形状补全相关工作旨在根据稀疏或部分输入观测推断出原始形状的未见部分。这个任务类似于2D计算机视觉中的图像修复。经典的表面重建方法通过拟合径向基函数（RBF）[9]来将点云补全为密集表面，或者将基于定向点云的重建视为泊松问题[29]。这些方法只建模单个形状而不是数据集。最近的各种方法使用数据驱动的方法进行3D补全任务。其中大多数方法采用编码器-解码器架构，将部分输入的占据体素[54]、离散SDF体素[15]、深度图[42]、RGB图像[13,53]或点云[46]转化为潜在向量，然后基于学习的先验生成完整体积形状的预测。03. 使用神经网络建模SDF0在本节中，我们介绍了DeepSDF，我们的连续形状学习方法。我们将形状建模为前馈网络的零等值面决策边界，该网络经过训练可以表示SDF。符号距离函数是一个连续函数，对于给定的空间点，输出该点到最近表面的距离，其符号编码了该点是否在（负值）或外（正值）封闭表面之内：0底层表面由SDF（∙）=0的等值面隐式表示。可以通过光线投射或使用例如Marching Cubes[32]获得的网格进行渲染来查看这个隐式表面。我们的关键思想是使用深度神经网络直接回归连续的SDF，从点样本中进行训练。训练后的网络能够预测给定查询位置的SDF值，从而可以通过评估空间样本来提取零等值面。这样的表面表示可以直观地理解为一种空间分类器，其决策边界就是形状本身的表面（图2）。作为一种通用的函数逼近器[24]，深度前馈网络在理论上可以以任意精度学习连续的SDF。然而，在实践中，由于有限数量的点样本引导决策边界以及由于计算能力的限制，逼近的精度是有限的。(x,y,z)SDF(x,y,z)SDFX := {(x, s) : SDF(x) = s} .(2)fθ(x) ≈ SDF(x), ∀x ∈ Ω .(3)L(fθ(x), s) = | clamp(fθ(x), δ) − clamp(s, δ) |,(4)fθ(zi, x) ≈ SDF i(x).(5)By conditioning the network output on a latent vector, thisformulation allows modeling multiple SDFs with a singleneural network. Given the decoding model fθ, the contin-uous surface associated with a latent vector z is similarlyrepresented with the zero iso-surface of fθ(z, x), and theshape can again be discretized for visualization by, for ex-ample, raycasting or Marching Cubes.Throughout the paper we use the coded shape DeepSDFmodel of Fig. 3b whose decoder is a feed-forward networkcomposed of eight fully connected layers, each of them ap-plied with dropouts. All internal layers are 512-dimensionaland have ReLU non-linearities. The output non-linearityregressing the SDF value is tanh. We found training withbatch-normalization [25] to be unstable and applied theweight-normalization technique instead [43]. For training,we use the Adam optimizer [30].In the next section we explain training the decodingmodel fθ(z, x) and introduce the ‘auto-decoder’ formula-tion for encoder-less training of shape-coded DeepSDF.41680（a）单一形状的DeepSDF0编码0（b）编码形状的DeepSDF0图3：DeepSDF网络在3D查询位置输出SDF值。虽然（a）网络可以记忆单个形状，但是（b）通过使用编码向量来给网络提供条件，DeepSDF可以模拟大量的形状空间，其中形状信息包含在与查询点连接的编码向量中。0这种方法最直接的应用是训练一个给定目标形状的单个深度网络，如图3a所示。给定一个目标形状，我们准备了一组由3D点样本和它们的SDF值组成的对X：0我们在训练集S上训练多层全连接神经网络fθ的参数θ，使得fθ成为目标域Ω中给定SDF的良好逼近器：0训练通过最小化X中点的预测SDF值和真实SDF值之间的损失之和来完成，使用以下L1损失函数：0其中clamp(x, δ) := min(δ, max(−δ,x))引入参数δ来控制我们期望维持度量SDF的表面上的距离。较大的δ值可以实现快速光线追踪，因为每个样本都提供了安全步长的信息[23]。较小的δ值可以用于将网络容量集中在接近表面的细节上。我们在实践中使用δ =0.1（详见补充材料）。训练完成后，表面被隐式表示为fθ(x)的零等值面，可以通过光线投射或MarchingCubes进行可视化。这种方法的另一个好处是可以通过通过网络进行反向传播计算出精确的法线。04. 学习形状的潜在空间0为每个形状训练一个特定的神经网络既不可行也不是很有用。相反，我们希望有一个能够表示各种形状、发现它们的共同属性并将它们嵌入到低维潜在空间中的模型。为此，我们引入了一个潜在向量z，可以将其视为编码所需形状的输入，作为神经网络的第二个输入，如图3b所示。概念上，我们将这个潜在向量映射到一个由连续SDF表示的3D形状上。0编码输入输出0（a）自动编码器0编码0输出0反向传播0（b）自动解码器0图4：与自动编码器不同，自动解码器直接接受潜在向量作为输入。在训练开始时，为每个数据点分配一个随机初始化的潜在向量，并通过标准反向传播优化解码器权重以及潜在向量。在推断过程中，解码器权重固定，估计出最优的潜在向量。04.1. 激励无编码器学习0自动编码器和编码器-解码器网络被广泛用于表示学习，因为它们的瓶颈特征往往形成自然的潜在变量表示。最近，在建模深度图[5]、人脸[2]和身体形状[31]等应用中，训练了一个完整的编码器-解码器网络，但只保留了解码器用于推理，它们在给定一些输入观察时搜索最优的潜在向量。由于训练后的编码器在测试时未使用，不清楚(1)训练编码器是否是有效利用计算资源的方法，以及(2)是否需要研究人员为各种3D输入表示设计编码器。Xi = {(xj, sj) : sj = SDF i(xj)} .(6)pθ(zi|Xi) = p(zi) �(xj,sj)∈Xi pθ(sj|zi; xj) ,(7)pθ(sj|zi; xj) = exp(−L(fθ(zi, xj), sj)) .(8)arg minθ,{zi}Ni=1N�i=1K�j=1L(fθ(zi, xj), sj) + 1σ2 ||zi||22 . (9)ˆz = arg minz�(xj,sj)∈XL(fθ(z, xj), sj) + 1σ2 ||z||22 . (10)51690对于研究人员来说，为各种3D输入表示（例如点、网格、八叉树等）设计编码器是困难的。这激励我们使用自动解码器来学习形状嵌入，而不需要编码器，如图4b所示。我们展示了使用自动解码器学习连续SDF可以得到高质量的3D生成模型。此外，我们为训练和测试自动解码器开发了一个概率公式，自然地引入了潜在空间正则化以提高泛化能力。据我们所知，这项工作是首次将自动解码器学习方法引入到3D学习社区。04.2. 基于自动解码器的DeepSDF公式0为了推导基于自动解码器的形状编码DeepSDF公式，我们采用概率的角度。给定一个由 N个形状组成的数据集，用符号距离函数 SDF iN i =1表示，我们准备一组 K 个点样本及其符号距离值：0对于自动解码器，由于没有编码器，每个潜在代码 z i都与训练形状 X i 配对。给定形状SDF样本 X i ，形状代码 zi 的后验可以分解为：0其中 θ参数化SDF的似然。在潜在的形状代码空间中，我们假设代码的先验分布 p ( z i )是一个零均值的多元高斯分布，具有球形协方差 σ 2 I。这个先验体现了形状代码应该集中的概念，我们经验性地发现它对于推断紧凑的形状流形和帮助收敛到良好的解决方案是必要的。在基于自动解码器的DeepSDF公式中，我们通过深度前馈网络 f θ ( z i , x j )表示SDF的似然，并且不失一般性地假设似然的形式为：0SDF预测 ˜ s j = f θ ( z i , x j ) 用全连接网络表示。 L (˜ sj , s j ) 是一个损失函数，惩罚网络预测与实际SDF值 s j的偏差。一个例子是成本函数是标准的 L 2损失函数，它假设SDF值上存在高斯噪声。在实践中，我们使用方程4中的夹紧的 L 1成本，原因在前面已经概述。在训练时，我们最大化关于各个形状代码 { z i } N i =1 和网络参数 θ 的联合对数后验：0图5：与使用OGN[49]记忆的汽车形状（右）相比，我们的模型（左）保留了细节并呈现出视觉上令人愉悦的结果，因为DeepSDF提供了定向的表面法线。0在推理时，在训练和修正 θ之后，可以通过最大后验（MAP）估计来估计形状 X i的形状代码 z i ：0关键是，这个公式对于任意大小和分布的SDF样本X都是有效的，因为可以分别计算损失相对于z的梯度。这意味着DeepSDF可以处理任何形式的部分观测，如深度图。这是与自动编码器框架的一个重要优势，自动编码器的编码器期望测试输入与训练数据相似，例如[15,56]的形状完成网络需要准备部分形状的训练数据。为了整合潜在的形状编码，我们将编码向量和样本位置堆叠在一起，如图3b所示，并将其输入到相同的全连接神经网络中，该网络在输入层和第4层附加层进行描述。我们再次使用Adam优化器[30]。潜在向量z从N(0,0.012)中随机初始化。请注意，虽然VAE和提出的自动解码器公式都共享潜在代码上的零均值高斯先验，但我们发现VAE优化的随机性并没有产生良好的训练结果。05. 数据准备0为了训练我们的连续SDF模型，我们为每个网格准备了SDF样本X（公式2），其中包括3D点和它们的SDF值。虽然可以通过距离变换计算任何实际或合成数据中的任何封闭形状的SDF，但我们使用合成对象（例如ShapeNet[10]）进行训练，因为我们提供了完整的3D形状网格。为了准备数据，我们首先将每个网格归一化为单位球，并采样500,000个空间点x：我们在靠近物体表面的地方更积极地采样，因为我们希望捕捉到更详细的表面附近的SDF。对于理想的有向封闭网格，计算x的有符号距离值只涉及找到最近的三角形，但我们发现人工设计的网格通常不是封闭的，并且包含不需要的内部结构。为了获得具有适当方向的网格的外壳，我们在物体周围设置等间距的虚拟相机，并密集采样朝向相机的表面点，记为Ps，双面三角形从两个方向都可见（表示形状不封闭）在这种情况下会引起问题，因此我们丢弃包含太多此类面的网格对象。然后，对于每个x，我们找到Ps中最近的点，从而可以计算出SDF(x)。更多细节请参见补充材料。OGN0.1670.1270.0430.042AtlasNet-Sph.0.2100.1850.0460.045AtlasNet-250.1570.1400.0600.060DeepSDF0.0840.0580.0430.04261700复杂封闭表面模型无评估0方法类型离散化拓扑结构法线大小（GB）时间（s）任务03D-EPN [15] 体素 SDF 32个 3个体素 � � � 0.42 - C0OGN [49] 八叉树 256个 3个体素 � � 0.54 0.32 K0AtlasNet 参数化 1个补丁 � 0.015 0.01 K, U0AtlasNet 参数化 25个补丁 � 0.172 0.32 K, U0DeepSDF 连续型无 � � � 0.0074 9.72 K, U, C0（我们的方法） SDF0表1：基准方法概述。AtlasNet-Sphere只能描述拓扑球体，体素/八叉树占用方法（即OGN）只提供8个法线方向，而AtlasNet不提供定向法线。我们评估的任务包括：（K）表示已知形状，（U）表示未知形状，以及（C）形状完成。0具有正确方向的网格，我们在物体周围设置等间距的虚拟相机，并密集采样朝向相机的表面点，记为Ps，双面三角形从两个方向都可见（表示形状不封闭）在这种情况下会引起问题，因此我们丢弃包含太多此类面的网格对象。然后，对于每个x，我们找到Ps中最近的点，从而可以计算出SDF(x)。更多细节请参见补充材料。06. 结果0我们进行了一系列实验来展示DeepSDF的表示能力，包括其描述几何细节的能力和学习理想形状嵌入空间的泛化能力。主要有四个实验，旨在测试其能力：1）表示训练数据，2）使用学习的特征表示重建未见过的形状，3）应用形状先验完成部分形状，以及4）学习平滑完整的形状嵌入空间，从中可以采样新的形状。对于所有实验，我们使用了流行的ShapeNet[10]数据集。我们选择了一组代表性的3D学习方法来进行比较评估：最近的基于八叉树的方法（OGN）[49]，基于网格的方法（AtlasNet）[19]和基于体素SDF的形状完成方法（3D-EPN）[15]（表1）。这些工作在各自的表示和任务中展示了最先进的性能，因此我们省略了与已经进行过比较的工作的比较：例如，OGN的八叉树模型优于常规体素方法，而AtlasNet与各种基于点、网格或体素的方法进行比较，3D-EPN与各种完成方法进行比较。06.1.表示已知3D形状0首先，我们评估模型表示已知形状的能力，即仅使用受限大小的潜在代码来表示训练集中的形状，以测试表示能力的极限。0CD，CD，EMD，EMD，0方法 \度量平均中位数平均中位数0表2：在ShapeNet上训练的汽车上表示已知形状（K）的比较。CD= Chamfer距离（30,000个点）乘以10 3，EMD = EarthMover's距离（500个点）。0表2中的定量比较显示，所提出的DeepSDF在Chamfer距离方面显著超过OGN和AtlasNet，这是通过使用大量点（30,000）计算的真实形状的差异。地球移动距离（EMD）的差异较小，因为500个点无法很好地捕捉到额外的精度。图5显示了DeepSDF与OGN的定性比较。06.2.表示测试3D形状（自动编码）0对于编码未知形状，即保留的测试集中的形状，DeepSDF在各种形状类别和度量标准上明显优于AtlasNet，如表3所示。请注意，AtlasNet在具有大致一致的拓扑结构且没有孔的形状类别（如平面）上表现得相当好，但在常常有孔的类别上（如椅子）上表现较差。这在图6中显示出来，AtlasNet无法表示椅子背部的细节。图7显示了DeepSDF在测试数据上的更多详细重建示例，以及两个失败案例。06.3.形状完成0所提出的DeepSDF方法在表示学习方面的一个主要优势是可以从任意数量的SDF样本中进行推断。在DeepSDF框架中，形状完成是通过求解最佳解释部分形状观察的形状代码来实现的，通过方程式10。给定形状代码，可以使用解码器中编码的先验知识渲染完整的形状。AtlasNet-Sph.0.7520.1880.7252.3810.445AtlasNet-250.3680.2160.3281.1820.411DeepSDF0.2040.1430.5530.8320.132AtlasNet-250.2760.0650.1950.9930.311DeepSDF0.0720.0360.0680.2190.088AtlasNet-250.0640.0410.0730.0620.063DeepSDF0.0490.0330.0500.0590.047AtlasNet-250.0180.0130.0140.0420.017DeepSDF0.0090.0040.0120.0130.004DeepSDF1.282.110.0710.0490.5000.766DeepSDF0.371.160.0490.0320.7220.823DeepSDF0.821.590.0590.0410.5410.81071710（a）真实值0（b）我们的结果0（c）[19]-25个补丁0（d）[19]-球体0（e）我们的结果0（f）[19]-25个补丁0图6：DeepSDF和AtlasNet[19]（使用25个平面和球面参数化）对测试形状的重建比较。请注意，AtlasNet无法捕捉椅子的细节，并且（f）显示沙发和平面表面上的孔。0图7：测试形状的重建。从左到右交替：真实形状和我们的重建。最右边的两列显示了DeepSDF的失败模式。这些失败可能是由于缺乏训练数据和最小化收敛的失败。0CD，平均椅子平面桌灯沙发0CD，中位数AtlasNet-Sph. 0.511 0.079 0.389 2.180 0.3300EMD，平均AtlasNet-Sph. 0.071 0.038 0.060 0.085 0.0500网格准确率，平均AtlasNet-Sph. 0.033 0.013 0.032 0.054 0.0170表3：对ShapeNet的各类未知形状（U）进行表示的比较。网格准确度如[44]中定义的最小距离 d ，使得生成的点中90%在距离 d内。对于所有指标，数值越低越好。0我们使用单视角深度观测来测试我们的补全方案，这是一种常见的用例，并且很好地映射到我们的架构中而无需修改。请注意，我们目前需要在规范形状参考框架中提供深度观测。为了从深度图像观测中生成SDF点样本，我们对每个深度观测采样两个点，它们分别位于测量点的 η 距离处。0数值越低越好数值越高越好0方法 CD, CD, 网格网格 Cos0\ 指标 med. mean EMD acc. comp. sim.0椅子 3D-EPN 2.25 2.83 0.084 0.059 0.209 0.7520飞机 3D-EPN 1.63 2.19 0.063 0.040 0.165 0.7100沙发 3D-EPN 2.03 2.18 0.071 0.049 0.254 0.7420表4：来自ShapeNet未知形状的部分范围扫描的形状补全（C）的比较。0表面点（沿表面法线估计）。当 η很小时，我们近似这些点的有符号距离值分别为 η 和 − η。我们使用 Eq. 10 的损失函数和 Eq. 4 的夹紧值 η来求解。此外，我们通过沿自由空间方向采样点并强制施加大于零的约束来引入自由空间观测（即表面和相机之间的空白空间）。如果 f θ ( z , x j ) < 0 ，则自由空间损失为 |f θ ( z , x j ) | ，否则为 0。给定SDF点样本和空白空间点，我们同样使用MAP估计优化潜在向量。Tab. 4 和图（8,9）分别显示了定量和定性的形状补全结果。与最近的一种形状补全方法[15]相比，使用体素网格的离散表示，我们的连续SDF方法产生了更具视觉效果和准确性的形状重建。DeepSDF models enable representation of more com-plex shapes without discretization errors with signiﬁcantlyless memory than previous state-of-the-art results as shownin Table 1, demonstrating an exciting route ahead for 3Dshape learning. The clear ability to produce quality latentshape space interpolation opens the door to reconstructionalgorithms operating over scenes built up of such efﬁcientencodings. However, DeepSDF currently assumes modelsare in a canonical pose and as such completion in-the-wildrequires explicit optimization over a SE(3) transformationspace increasing inference time. Finally, to represent thetrue space-of-possible-scenes including dynamics and tex-tures in a single embedding remains a major challenge, onewhich we continue to explore.81720(a) 输入深度0(b) 补全（我们的）0(c) 第二视角（我们的）0(d) 真实形状0(e) 3D-EPN0图8：对于给定的深度图像（以绿色点云可视化），我们展示了来自我们的DeepSDF方法的形状补全与真实形状和3D-EPN的比较。0(a) 噪声输入点云0(b) 形状补全0图9：通过部分噪声点云进行DeepSDF形状补全的演示。此处的输入是通过将地面真实深度图的3D点云位置扰动1.5%的平面长度生成的。我们在补充材料中对噪声鲁棒性进行了全面分析。0度量形状表示方面，我们的连续SDF方法产生了更具视觉效果和准确性的形状重建。虽然最近有一些形状补全方法被提出[21,53]，但我们找不到可以运行比较的代码，而且它们的底层3D表示是体素网格，我们对其进行了广泛比较。06.4. 潜在空间形状插值0为了显示我们学习到的形状嵌入是完整和连续的，我们在潜在向量空间中插值一对形状，并渲染解码器的结果（图1）。结果表明，嵌入的连续SDF是有意义的形状，并且我们的表示提取了常见的可解释形状特征，如椅子的扶手，在潜在空间中线性插值。07. 结论与未来工作0DeepSDF在形状表示和补全任务中明显优于可比较的基准方法，并同时解决了表示复杂拓扑、封闭表面以及提供高质量表面法线的目标。然而，尽管对于一个形状的SDF进行逐点前向采样是高效的，但形状补全（自动解码）在推断过程中需要更多的时间，因为需要对潜在向量进行显式优化。我们希望通过用更高效的Gauss-Newton或类似方法替换ADAM优化来提高性能，这些方法利用模型的解析导数。References[1] P. Achlioptas, O. Diamanti, I. Mitliagkas, and L. Guibas.Learning representations and generative models for 3d pointclouds. 2018.[2] T. Bagautdinov, C. Wu, J. Saragih, P. Fua, and Y. Sheikh.Modeling facial geometry using compositional vaes. 1:1.[3] P. Baqu´e, E. Remelli, F. Fleuret, and P. Fua.Geodesicconvolutionalshapeoptimization.arXivpreprintarXiv:1802.04016, 2018.[4] Y. Bengio, A. Courville, and P. Vincent.Representa-tion learning: A review and new perspectives.TPAMI,35(8):1798–1828, 2013.[5] M. Bloesch, J. Czarnowski, R. Clark, S. Leutenegger, andA. J. Davison.Codeslam-learning a compact, optimis-able representation for dense visual slam.arXiv preprintarXiv:1804.00874, 2018.[6] P. Bojanowski, A. Joulin, D. Lopez-Pas, and A. Szlam. Op-timizing the latent space of generative networks. In J. Dyand A. Krause, editors, Proceedings of the 35th InternationalConference on Machine Learning, volume 80 of Proceedingsof Machine Learning Research, pages 600–609. PMLR, 10–15 Jul 2018.[7] M. Bouakkaz and M.-F. Harkat. Combined input training andradial basis function neural networks based nonlinear princi-pal components analysis model applied for process monitor-ing. In IJCCI, pages 483–492, 2012.[8] J. Bruna, W. Zaremba, A. Szlam, and Y. LeCun. Spectralnetworks and locally connected networks on graphs. arXivpreprint arXiv:1312.6203, 2013.[9] J. C. Carr, R. K. Beatson, J. B. Cherrie, T. J. Mitchell, W. R.Fright, B. C. McCallum, and

下载后可阅读完整内容，剩余1页未读，立即下载