动态代码云：一种优化深度隐式函数学习的方法

89 浏览量更新于2023-10-25 收藏 1.88MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12840基于动态代码云的三维形状深度隐函数学习李田阳1，辛文1，2，刘玉申1*，苏华3，韩志忠41清华大学软件学院2京东物流，北京3快手科技，北京，中国4美国底特律韦恩州立大学计算机科学系wenxin16@jd.comliuyushen@tsinghua.edu.cnshlw@kuaishou.comh312h@wayne.edulity20@mails.tsinghua.edu.cn摘要深度隐式函数（DIF）作为一种高效的3D形状表示方法已经得到了广泛的应用。为了捕捉几何细节，现有的方法通常使用局部潜码来学习DIF，该方法将空间离散成规则的3D网格（或八叉树）并将局部代码存储在网格点（或八叉树节点）中。给定一个查询点，通过插值其相邻的本地代码与它们的位置来计算本地特征。然而，局部码被约束在离散的、规则的网格点位置上，使得局部码的位置难以优化，限制了局部码的表示能力。为了解决这个问题，我们提出了用动态代码云学习DIF，命名为DCC-DIF。我们的方法显式地将局部码与可学习的位置向量相关联，并且位置向量是连续的，可以动态优化，从而提高了表示能力。此外，我们提出了一种新的代码位置损失来优化代码位置，它启发性地引导更多的本地代码分布在复杂的几何细节。与以前的方法相比，我们的DCC-DIF更有效地表示三维形状与少量的本地代码，并提高了重建质量。经验-高低（a）ConvONet（b）NGLOD（c）Ours（d）Reference图1.我们的方法和其他方法之间的插图比较。在（a）中，我们选择基于网格的DIF（ConvONet [34]）。在（b）中，我们展示了基于八叉树的DIF（NGLOD [38]）。(c)就是我们的DC-DIF （一）参考。第一行显示了不同方法的代码与其他方法中码位离散、规则的情况相比，本文的码位连续、灵活。第二行显示了重建结果，其中我们的方法可以重建复杂形状的高度详细的几何形状，如牙齿。实验结果表明，DCC-DIF方法比以往的方法具有更好的性能。代码和数据可在https://github.com/lity20/DCCDIF上获得。1. 介绍学习3D形状表示对于3D计算机视觉中的许多下游应用非常重要[3，14*通讯作者是刘玉申。这项工作得到了国家重点研发计划（2018YFB 0505400 ， 2020 YFF 0304100 ），国家自然科学基金（62072268）和清华-快手未来媒体数据研究院的部分支持。诸如网格、体素和点云的显式3D表示已被广泛用于各种任务[22，30，35，36，42 最近，深度隐式函数（DIF）[4，26-与显式三维表示不同，DIF可以压缩存储，并通过网络学习形状此外，由于DIF的可区分性，在基于学习的任务中使用DIF是简单和自然的。先前的DIF方法[4，31，33]通过自动编码器或自动解码器[39]框架将整个3D形状编码为单个全局潜在代码，这导致12841(a)State1(b)状态2(c)状态3(d)国家4图2. 优化过程中移动代码位置的图示。我们的代码位置在优化过程中动态更新，这使得3D形状表示更有效。我们通常在优化过程中显示四种状态，其中第一行和第二行显示代码位置和重建。初始状态和最终状态分别在（a）和（d）中示出，而（b）和（c）示出两个中间状态。局部区域的信息丢失。因此，这些方法不能很好地捕捉局部几何细节，并且难以表示复杂形状。为了解决这个问题，一些方法[1，21]将3D空间划分为小的局部体积，并为每个体积分配一个潜在代码。然后分别重建每个局部体积，并将所有体积组合在一起以获得最终的重建。由于小的局部体积包含简单的形状和共同的模式之间的体积共享，这些方法可以表示三维形状具有高精度和推广到不同的形状。类似地，一些方法[11，12]将3D形状分解为局部部分，每个局部部分与用于学习局部细节的潜在代码相关联。另一方面，最近的方法将空间离散化为规则的3D网格[5，6，34]（或八叉树）[29，38]，并将本地代码存储在网格点（或八叉树节点）中。给定3D空间中的查询点，通过内插其相邻的局部码及其位置权重来计算局部特征接下来，将局部特征馈送到解码器中以预测带符号距离或内部/外部。随着网格分辨率或八叉树深度的提高，这些方法在几个形状重建任务中达到了最先进的结果。然而，分辨率或深度的增加将导致局部码的数量显著增加。此外，这些方法中的局部码被限制在离散和规则的位置，如网格点或八叉树节点，这使得码位置难以优化[5，6，29，34，38]，并限制了表示能力。为了解决上述问题，我们提出了一种新的方法来学习DIF的三维形状与动态代码云，命名为DCC-DIF。具体而言，我们表示一个3D形状与一组本地潜在代码，其中每一个是明确地与可学习的位置向量相关联使用这些位置向量，查询点的局部特征为通过用其位置权重内插本地代码来计算，位置权重是使用相对于该查询点的距离来计算的。与以前的局部DIF方法[5，6，34，38]不同，本文方法中局部代码的位置是连续的，而且灵活。特别地，我们的代码位置可以动态优化，其中位置向量是可学习的，并且可以通过反向传播和梯度下降来更新因此，我们将我们的方法命名为动态代码云（DCC），如图所示1和图二、此外，我们设计了一种新的代码位置（CP）损失优化的位置的本地代码，其中更多的本地代码被引导到复杂的几何细节周围分布。在CP损失的帮助下，我们的方法可以用少量的本地代码更有效地表示3D形状。因此，当使用与以前的方法相同数量的本地代码时，我们的方法实现了更好的结果，并重建了高度详细的3D形状的几何形状。我们的主要贡献总结如下。• 我们提出了一种新的DCC-DIF来学习三维形状的与以往将局部编码限制在离散和规则网格点上的方法相比，DCC-DIF中的编码位置是连续的，并且可以动态优化，提高了编码的表达能力。• 我们进一步提出了一种新的代码位置（CP）的损失，以优化本地代码的位置，使更多的本地代码分布在复杂的几何细节。在CP损失的帮助下，我们的DCC-DIF可以以更高的质量和效率表示3D形状• 与以前的方法相比，我们的方法可以实现更好的精度与更少的本地代码时，重建高度详细的三维形状的几何形状。实验表明，我们的DCC-DIF可以达到国家的最先进的结果。2. 相关工作近年来，隐式表征的研究在三维计算机视觉领域引起了越来越多的关注。与之前基于显式表示的方法（例如体素[30]，网格[22]和点云[35，36]）相比，隐式方法可以以任意分辨率表示3D形状。在本文中，我们利用隐式3D表示的优势，并专注于重建高质量的3D符号距离函数（SDF）的任务。这方面的相关工作大致可以分为两大类，即全局DIF方法和局部DIF方法。全球DIF方法。对于以往的全局DIF方法，通常的做法是借鉴传统的隐式表示方法，并将它们结合起来12842qBQJ年q1联系我们CnCiC1qBQJ年q1CP损失公司简介pnCnpiCip1C1qBQJ年q1（a）全球方法背道公司简介查询点潜在代码解码器输出GT(b)局部方法背道查询点潜在代码解码器输出GT（c）我们的方法背道查询点潜在代码和位置解码器GT输出C基于深度学习的框架。DeepSDF [33]这样的典型方法通过其零级集合隐式地表示3D形状。它为每个3D形状优化了全局潜在代码，并使用解码器预测采样点到形状表面的另一方面，OccNet [31]通过深度神经网络的决策边界表示形状的表面。它利用自动编码器框架来预测3D空间中采样点的内部/外部值继先驱者之后，最近出现的一些方法进一步提高了DIF研究的前沿例如，Duan等人。[10]通过曲线策略学习DIF，Zheng等人。[49]开发了基于变形的方法来从形状模板预测DIF。然而，问题是这些方法仍然难以保持局部表面的细节，由于单一的全局代码的固定维度。本地DIF方法。为了克服全局DIF方法的局限性，已经开发了局部DIF方法以在更详细的几何级别上学习3D形状。例如，LIG和DeepLS [1，21]将形状/场景划分为体积，其中每个体积都使用分配的潜在代码独立重建。之后，将所有卷合并在一起以获得最终的reviewc- tion。SIF，LDIF和PatchNets [11，12，41]将形状分解为局部补丁并使用一个潜在的密码最近，IMLSNets [24]将隐式移动最小二乘曲面公式用于基于学习的方法。ConvONet [34]在每个轴平面上构建3D网格或2D网格，并在每个网格点中存储潜在代码。然后在3D空间中给定一个查询点，利用该点及其相邻网格点的位置将存储的潜在代码内插到一个向量中。IF-Nets [6]构造了具有不同分辨率的层次隐网格来捕获不同尺度的局部几何信息类似地，MDIF [5]也构造了分层潜在网格。此外，它将顶层潜在网格设置为全局潜在代码，并通过转置卷积[23]和级联将不同级别之间的潜在代码连接起来，这使得它能够进行全局操作，如完成。然而，对于潜在的，需要高的网格分辨率。D1...DJ...DBd2001年...dj...b图3.我们的方法和其他方法的架构之间的插图比较。我们在（a）中展示了全局DIF方法的整体架构，在（b）中展示了局部DIF方法，在（c）中展示了我们的方法。方法是灵活和连续的。我们还通过反向传播和梯度下降来动态优化代码位置，这比解决整数线性规划问题更有效3. 方法我们的目标是设计一个灵活的3D形状表示，可以有效地适应一个单一的形状或重建高质量的3D数据集。图3说明了我们的方法的总体架构以及全局、局部和全局之间的差异。基于网格的方法，以达到良好的效果，这导致了潜在的代码数量的立方增长NGLOD [38]利用稀疏八叉树而不是均匀网格来减少潜在代码的数量，并实现最先进的重建精度。ACORN [29]也采用了八叉树，并且八叉树的结构可以在优化过程中进行调整。然而，该步骤是不可微的，并且需要求解整数线性规划问题。这些基于网格或八叉树的方法限制了潜在代码位于像网格点或八叉树节点这样的离散和规则的位置。并且代码位置是静态的[5，6，34，38]或要优化的非平凡的[29]。相比之下，我们的研究卡尔和我们的方法。为了表示3D形状，如图3（a）所示，全局方法利用单个全局潜在代码，并通过最小化输出与地面实况之间的误差来优化潜在代码局部方法用一组局部潜在代码替换全局潜在代码，如图3（b）所示。在我们的方法中，如图3（c）所示，我们显式地将位置向量分配给每个局部代码，其指示对应位置的（x，y，z）局部编码，并进一步提出了一种新的CP损失以优化位置向量。在这一节中，我们首先介绍了神经符号距离函数（SDF）的背景知识。第3.1条那么我们的设计.....................……............D1...DJ...DBd2001年...dj...bD1...DJ...DBd2001年...dj...b12843→D∈∈∈WD∈ ≤≤∈∈∈W∈JKJ3方法在第二节中详细解释。3.2.接下来，我们介绍我们的新CP损失在秒。三点三最后，我们描述了SEC的培训过程。三点四分。3.1. 深度隐函数有不同的方法，深隐函数表示表面。主流方法包括占用函数[31]和符号距离函数（SDF）[33]。在本文中，我们遵循的范式，QJzj(a) 隐网格（ci，pi）WQJzj(b) 我们的插值SDF. SDF可以表示为f：R3R，且d = f（x）是从查询点x到基础3D形状的表面。符号决定它是在3D形状的内部还是外部。因此，3D形状的表面是SDF的零水平集，表示为S={x∈R|f（x）= 0}。（一）基于学习的SDF通常将3D形状编码为单个全局Latant代码或局部Latant代码。多层感知器被用作解码器，它需要-图4.插值的图解（a）给定查询点qj，先前的基于网格的方法[5，6，34，38]利用qj及其相邻网格点的位置将存储的潜在代码内插到向量zj中，其中三线性内插通常应用于这些方法中。（b）在我们的方法中，每个潜在代码ci与位置向量pi显式地相关联以指示其在3D空间中的位置，其中qj和pi两者的位置用于计算用于插值的权重Wji。哪里帐篷代码和查询点作为输入，并预测有符号的距离。使用采样的查询点作为训练数据，Wj′i1=3。（四）纪相应的地面实况标记距离作为监督，通过最小化预测距离和地面实况符号距离之间的误差来优化潜在码和网络参数。在学习 SDF 之后，Marching Cubes算法[25]通常用于提取等值面并输出用于渲染或可视化的网格。3.2. 动态代码云在我们的方法中，我们利用自动解码器框架[39]。我们使用一种新的动态代码云（DCC-DIF）来学习DIF在图3中，我们展示了我们的方法的整体架构以及我们的方法与比较方法之间的差异。我们使用由矩阵C表示的一组潜在代码和对应的代码位置来表示3D形状Rn×m与矩阵PRn×3。这里，n表示我们使用的局部码的数量，m表示局部码的维数C的每一行是一个潜在码ciRm，P的每一行是一个位置向量piR3，其中1我n.每个ci和pi形成一对，并且pi指示3D空间中的对应潜在代码的（x，y，z）给定一批查询点Q3D空间中的RB×3对于批量大小 B ，其中每行是查询点 qj∈R3 （ 1≤j≤B），我们首先获得查询点Q和代码位置P之间的距离矩阵D ∈RB×n，其中Dji的每个元素计算为：Dji=||qj−pi||二、（2）然后基于获得权重矩阵，其中每个元素被计算为W′由于我们期望远离查询点的局部码具有小的权重，因此我们将 cubic 距离的倒数作为等式中的权重（四）、然后，我们将等式中的权重归一化。（三）、之后，将矩阵乘法应用于权重矩阵和潜在码C，这产生矩阵ZRB×m。直观地，Z的每一行是查询点qj的向量zjRm，其基于距离从潜在码C内插。图4显示了我们的方法的插值过程，以及与传统的基于网格的方法（例如[34]）的差异。最后，像大多数方法一样，我们利用多层感知器作为解码器。我们将Q和Z连接在一起作为解码器的输入，并得到输出向量dRB，其中每个元素dj是q j的预测有符号距离。由于pi可以是边界框中的任何（x，y，z）此外，我们可以在优化过程中直接通过反向传播和梯度下降动态更新代码位置，因为pi和网络中的其他可训练参数之间没有本质区别3.3. 代码位置丢失为了充分利用潜在的代码，我们进一步提出了一种新的代码位置（CP）的损失。我们的动机是引导更多的潜在代码分布在具有复杂几何细节的区域附近。如图5，我们首先将每个查询点qj的预测误差定义为ej，即Wji=nji，W′（三）e=|D -d'|,(5)k=1JJ12844WW一个DWWB一其中dj是查询点的预测有符号距离qj是我们的方法，dj是地面真值。直觉告诉我，越大意味着在对应的查询点附近重建局部区域越困难，这进一步表明该区域上可能存在复杂的几何细节。由于我们期望潜在代码更接近具有更高预测误差的查询点，因此我们假设查询点和潜在代码之间存在一定的吸引力此外，这种吸引力应该与ej成正比，并且随着潜在代码和查询点之间的距离的增长而衰减。作为元素GT输出预测误差W权重D距离一景点CP损失的权重矩阵。3.2具有随着距离的增加而减小的性质，我们将其用作吸引力的衰减。因此，我们定义查询点Q和潜在码C之间的吸引矩阵A ∈RB×n为Aji=ej<$Wji。（六）然后，我们在吸引矩阵和距离矩阵之间应用逐元素乘法，并将所有元素的平均值作为最终的码位置损耗LCP，表示为图5. 代码头寸损失。我们假设查询点是吸引人的-对潜在代码敏感并根据查询点的预测误差定义吸引点作为权重矩阵的元素，秒3.2具有随距离增加而减少的性质最后，我们对距离矩阵和吸引矩阵进行元素乘法，并将所有值的平均值作为最终的CP损失。地面实况d<$j，表示为BLMSEB n=1Σ||D-d'j||二、（八）LCP1=本 j=1李彦宏.（七）j=1我们还最小化CP损失以优化代码位置。因此，我们的最终损失L被定义为请注意，我们切断梯度反向传播，. 因此，在本发明中，基于吸引力，最优化潜在代码和查询点之间的距离，导致代码位置P的进一步更新。在CP损失的指导下，更多的潜在代码将分布在具有复杂几何细节的区域另一方面，由于简单几何区域周围的潜在代码较少，因此与以前的基于网格的方法相比，这允许我们的方法用少量的潜在代码表示3D形状[5，6，34，38]。虽然其他方法也可以将更多的潜在代码分配给复杂区域，例如通过细化oc树的深度[29]，但我们的方法更灵活有效，因为我们的代码位置是连续的。此外，我们优化的代码位置直接通过反向传播和梯度下降，这是更有效的。3.4. 培训我们在自动解码器框架中训练我们的网络[39]为了优化潜在代码和代码位置，应提供采样查询点及其地面真值有符号距离为了公平比较，我们在不同的实验中采用不同的抽样方案，以保持与比较方法相同的设置。为了优化潜在代码，我们最小化预测的有符号距离dj和dj之间的均方误差（MSE）。L=LMSE+λLCP，（9）其中λ是平衡LMSE和LCP的参数。4. 实验在本节中，我们进行实验来评估DCC-DIF的性能。具体来说，在Sec。4.1，我们证明了DCC-DIF描述几何细节的能力，节中4.2中，通过应用DCC-DIF重建看不见的形状，进一步评估了DCC-DIF学习形状先验知识和泛化到新对象的能力。节中4.3、验证了DCC-DIF各部分的作用由于篇幅所限，更多的讨论可以在附录中找到。4.1. 单一形状拟合我们将DCC-DIF应用于单个形状拟合任务，以评估其描述几何细节的能力在本实验中，通常选择最新的NGLOD [38]进行比较，这是一种基于八叉树的方法，在单一形状拟合中获得了最先进的结果。网络设置。为了公平比较，我们使用与NGLOD相同的设置 [38]。具体来说，我们将解码器设置为只有一个隐藏层的多层感知器JD1...DJ...DB纪d2001年...dj...be1...eJ...eB12845D度量DeepSDF [33]FFN [40]Siren [37]方法美国[9][38]第三十八话NGOD 4 [38][38]第三十八话我IoU↑96.897.795.196.099.099.399.499.53.555.6K4.7K−1 .一、−8M−52−7K−26−4K−7 .第一次会议。-6K3.695.7K/0.9K3.5941.7K/3.7K3.57316K/15KCD↓代码数量#参数。4.7K4.7K4.7K表1. [50]第50话我们比较了我们的方法和其他方法之间的重建质量和效率（LOD等于3，4和5的NGLOD [38]分别表示为NGLOD3，NGLOD4和NGLOD5）。对于质量，我们使用IoU和CD作为指标。为了提高效率，我们使用#Codes和#Param。作为指标。#Codes表示每种方法中使用的潜在代码的数量 #Param。表示用于单个距离查询的网络参数的数量。在#Codes行中，对于NGLOD的每个LOD [38]，我们在移除八叉树的空节点之前/之后呈现潜在代码的平均数量。我们的方法同时实现了最佳的质量和高效率。它是128维的，并利用了ReLU [13]激活功能。我们将m设置为32，这与NGLOD [38]相同 NGLOD [38]在去除不包含表面的八叉树的空节点后，对于不同的形状具有不同数量的潜在代码。我们简单地为每个形状使用n = 5600个潜在代码，这大约等于具有3个LOD的NGLOD [38]中使用的潜在代码的数量（在删除八叉树的空节点之前）。作为预测误差ej和距离ji趋于小，我们选择λ作为相对较大的数以平衡L MSE和L CP，其中在该实验中λ通常被设置为7000。数据和指标。在 NGLOD [38] 之后，我们还从Thingi10K [50]中选择了相同的32个形状，并遵循与NGLOD相同的预处理实践。具体来说，遵循DualSDF[20]，我们规范化网格并重新移动内部三角形。我曾以《易经》为题，以《易经》为题，以《易经》为题。我们采用与NGLOD相同的方案[38]以获得用于训练的点集。具体来说，我们在每个历元采样500K点，其中100K点在边界框中均匀采样，200K点从物体表面采样，其他点在物体表面附近采样。对于度量，我们使用倒角距离（CD）和交集对并集（IoU）来评估结果。遵循NGLOD [38]，我们还关注存储和计算的效率。这里，在每种方法中使用的潜在代码的数量被表示为#Codes，其大致示出了存储成本。用于单个距离查询的网络参数的数量表示为#Param。，这大致表明了计算成本。结果和分析。选项卡. 1显示了我们的方法与其他方法的结果比较，包括DeepSDF [33]，FFN [40]，SIREN[37]，NI [9]和NGLOD [38]。特别是NGLOD的LOD选择为3、4和5，分别表示为NGLOD3、NGLOD 4和NGLOD 5。由于我们的实验设置与NGLOD [38]完全相同，因此表中的一些结果直接来自它。由于CD可能受到一些因素的影响，例如数量，图6.Thingi32上的可视化结果[50]。我们在视觉上与具有等于3和5的LOD的NGLOD [38]进行了比较，分别由NGLOD 3和NGLOD 5我们取得了比NGLOD3更好的结果，特别是对局部几何细节。虽然NGLOD5可以达到与我们的方法类似的结果，但我们的方法比NGLOD5具有更少的潜在代码。我们重新计算CD。Tab中的结果。1表明，我们的方法实现了最高的IoU和最低的CD，这是超越其他方法，(a)NGLOD3 （b）非政府组织联络处5（c）我们的（d）参考资料12846类别倒角（↓）F评分（↑，%）发生率[三十一]SIF [12]LDIF [11]如果.[6]美国MDIF [5]我们发生率[三十一]SIF [12]LDIF [11]如果.[6]美国MDIF [5]我们飞机0.160.440.100.520.0280.01187.871.496.994.498.699.7板凳0.240.820.170.310.0520.01787.558.494.892.696.099.5内阁0.411.100.330.110.0510.13186.059.392.093.096.696.4车0.611.080.280.300.0880.21877.556.687.287.493.092.7椅子0.441.540.340.100.0350.03777.242.490.994.597.699.1显示0.340.970.280.070.0190.02882.156.394.896.198.799.4灯1.673.421.801.170.7950.32762.735.084.089.193.597.3步枪0.190.420.091.070.0570.00786.270.097.393.596.999.9沙发0.300.800.350.130.0370.03685.955.292.892.598.499.1扬声器1.011.990.680.140.0440.14674.747.484.390.297.396.1表0.441.570.560.170.0460.02984.955.792.493.497.699.3电话0.130.390.080.080.0100.02794.881.898.198.899.699.3船只0.410.780.200.900.0670.04277.354.293.292.797.298.3是说0.491.180.400.390.1020.08181.959.092.292.997.098.2表2. ShapeNet上的结果[2]。我们使用倒角距离（CD）和F-Score来评估我们和比较方法的重建结果。我们的方法实现了最低的平均CD和最高的平均F-Score，优于所有其他方法。耗氧物质我们显示了NGLOD [38]在删除八叉树的空节点之前/之后使用的潜在代码的平均数量。值得注意的是，与NGLOD5相比，我们的方法利用了少量的潜在代码，但仍然取得了略好的结果。这表明我们的方法可以更有效地表示3D形状。我们的方法在存储和计算效率方面也有优势。如图6所示，我们的方法与NGLOD5相比实现了类似的重建质量，同时使用了少量的潜在代码。与NGLOD3算法相比，该算法具有更好的重建质量，尤其是对局部几何细节的重建。4.2. 重建3D数据集我们进行了实验，重建三维数据集使用我们的方法。具体来说，我们优化的潜在代码，代码的位置和解码器参数在训练阶段。在推理过程中，我们固定解码器参数，只优化潜在的代码和代码位置上看不见的形状。这个实验显示了我们的方法学习形状先验和推广到新对象的能力。网络设置。我们利用与IM-Net [4]相同结构的解码器，这是一个层间连接的全连接网络。我们设置m=32和n=1376，因此我们在MDIF [5]的潜码中具有相同数量的参数为了平衡LMSE和LCP，我们在该实验中设置λ=3000数据和指标。我们在ShapeNet [2]中使用了13个类别的子集，并将数据集与来自3D-R2 N2 [7]的训练/测试分割分开。我们使用OccNet [31]中的工具生成水密网格。在这个实验中，我们从每个形状中采样一个点集，并在训练过程中对所有时期每个点集包含200K采样，其中一半点来自均匀采样，而其他点在物体表面附近采样我们使用Chamfer L2距离和F-Score作为度量标准，其设置与LDIF和MDIF相同[5，11]。结果和分析。结果见表。二、由于我们与MDIF [5]保持完全相同的实验设置，表中的一些结果直接来自MDIF。我们的方法在平均CD和平均F-Score上都优于所有其他方法，这表明我们的方法能够学习形状先验并推广到新的对象。ShapeNet [2]的不同类别之间，重建的难度有很大差异。有些类别的武器往往是复杂多样的，如灯和步枪。相比之下，其他一些类别中的形状相对简单且彼此相似，例如扬声器和显示器。从Tab。2.我们发现，该方法在重建复杂多变的形状时具有很大的优势。图7直观地显示了我们在ShapeNet [2]上重建的质量，与IF-Net [6]进行了比较。我们的方法取得了更好的重建效果，特别是在局部区域的细条和洞。这表明，我们的方法有能力表示复杂的形状和捕捉精细的局部几何细节。4.3. 消融研究在现有的DIF方法中，基于网格和八叉树的方法在单个形状拟合和三维数据集重建方面都取得了良好的性能与这些方法相比，DCC-DIF方法有三个不同之处，包括插值过程、新的位置矢量和CP损失。为了评估每种差异的影响，我们对ShapeNet [2]中的显示器和船只类别进行了消融研究，其中显示器类别包含相对简单的形状，船只类别往往比较复杂。12847类别倒角（↓）F评分（↑，%）三线性我们三线性我们显示0.0380.045九十九点二九十八点八船只0.0900.10897.2 96.3表3.插值过程的比较。倒角（）F评分（，%）表4.位置向量消融和CP丢失。“p.v.”删除位置向量的注释。图7. ShapeNet上的可视化[2]。与IF-Net [6]相比，我们的方法在具有复杂几何细节的局部区域（如细条和孔）中实现了更好的重建质量。我们保持其他实验设置与Sec相同四点二。为了评估插值过程的影响，我们设计了两种不同的DCC-DIF。第一种变体将所有潜在代码固定在网格点处，并应用三线性插值。第二种变体也固定了网格点处的潜在代码，但利用了基于距离的插值，如第2节所3.2. 由于潜在代码的位置是固定的，我们从两个变化中删除CP损失。如Tab.所示。3、采用三线性插值的变分方法取得了较好的效果。它表明，我们的DCC-DIF的性能并没有受益于新的插值算法，但从我们提出的位置向量和CP损失。接下来，我们验证我们提出的位置向量和CP损失的影响。作为基线，我们从完整版本管道中删除CP损失，并在网格点处修复所有潜在代码然后，我们评估位置向量的益处，CP损失分别由我们的DCC-DIF的两个变化第一种变化仅将位置矢量添加到基线，而第二种变化将位置矢量和CP损失添加到基线。结果见表1。4.第一章我们可以发现位置矢量和CP损失在三维形状表示中起着积极的作用，这支持了我们的建议。此外，CP损失显示出更显着的影响与复杂的形状，这是与我们的设计，以引导更多的潜在代码分布在复杂的几何细节。5. 结论和局限性在本文中，我们引入了一种新的DCC-DIF来学习3D形状的深度隐式函数在现有的DIF方法中，基于网格或八叉树的方法取得了最好的结果。然而，这些方法中的潜在代码相比之下，在我们的DCC-DIF中的代码位置是连续的和灵活的，通过显式地向每个潜在代码分配位置向量。我们进一步提出了一种新的CP损失优化的潜在代码的位置，使更多的潜在代码分布在复杂的几何细节。在实验中，我们的方法优于其他方法，并取得了最先进的结果，这表明了其性能和效率。消融研究显示了我们设计的每个部分的效果，这支持了我们的建议。本文的DCC-DIF还存在一定的局限性，这也是今后工作的改进方向。首先，目前的DCC-DIF 无法像NGLOD那样代表不同层次的细节[38]。为了解决这个问题，我们计划设计一个分层网络，其中每一层都有一个DCC-DIF，潜码的数量随着层的增加而增加。另一个限制是当前的DCC-DIF不适合全局操作，例如完成[8]。受MDIF [5]的启发，我们可以进一步将上述分层DCC-DIF的第一层设置为单个全局潜码，并设计一种新的全局和局部代码之间的信息交换模块如果.我们GT如果.我们GT如果.我们GT类别基线范纳特↓p.v. + CP基线范纳特↑p.v. + CP显示0.0450.0330.02898.899.399.4船只0.1080.0810.04296.397.898.312848引用[1] 放大图片作者：Rohan Chabra，Jan Eric Lenssen，EddyIlg ， Tanner Schmidt ， Julian Straub ， S.Lovegrove 和Richard A.纽科姆深度局部形状：学习局部SDF先验用于详细的3D重建。2020年欧洲计算机视觉会议。二、三[2] 天使 X 作者： Thomas A. Funkhouser ， Leonidas J.Guibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese ， Manolis Savva ， Shuran Song ， Hao Su ，Jianxiong Xiao，L. Yi和Fisher Yu。ShapeNet：一个信息丰富的3D模型库。ArXiv，abs/1512.03012，2015。七、八[3] Chao Chen，Zhizhong Han，Yu shen Liu，and MatthiasZwicker.基于二维投影匹配的三维点云精细结构生成的无监督学习。IEEE International Conference on ComputerVision，2021。1[4] 陈志勤和张浩。生成式形状建模的隐式场学习。IEEE/CVF计算机视觉和模式识别会议，第5932- 5941页，2019年。1、7[5] Zhang Chen ， Yinda Zhang ， Kyle Genova ， SeanFanello，SofienBouaziz，ChristianHan′ ne，RuofeiDu，CemKeskin，Thomas Funkhouser和Danhang Tang。用于三维形状表示的多分辨率深度隐函数。在IEEE/CVF计算机视觉国际会议上，第13087-13096页，2021年10月。二三四五七八[6] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间隐式函数三维形状重构与完成。IEEE/CVF计算机视觉和模式识别会议，第6968-6979页，2020年。二三四五七八[7] Christopher Bongsoo Choy ， Danfei Xu ， JunYoungGwak，Kevin Chen，and Silvio Savarese. 3D-R2 N2：一种用于单视图和多视图三维物体重建的统一方法。2016年欧洲计算机视觉会议7[8] Angela Dai，C. Qi，and Matthias Nießner.使用3D编码器预测器CNN和形状合成的形状完成。IEEE计算机视觉和模式识别会议，第6545-6554页，2017年。8[9] T. 作者声明：John W.作为紧凑形状表示的过拟合神经网络ArXiv，abs/2009.09808，2020。6[10] Yueqi Duan ， Haidong Zhu ， He Wang ， Li Yi ， RamNevatia，and Leonidas J. Guibas. 课程DeepSDF ，2020年。3[11] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas A.放克豪瑟三维形状的局部深隐函数。IEEE/CVF计算机视觉和模式识别会议，第4856-4865页，2020年。二、三、七[12] Kyle Genova ， Forrester Cole ， Daniel Vlasic ， AaronSarna，William T. Freeman和Thomas A.放克豪瑟用结构化隐函数学习形状模板。IEEE/CVF计算机视觉国际会议，第7153-7163页，2019年。二、三、七[13] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流器神经网络。在人工智能和统计国际会议上，2011年。612849[14] Zhizhong Han，Chao Chen，Yu-Shen Liu，and MatthiasZwicker. DRWR：一个无渲染的可微分渲染器，用于从剪影图像中进行无监督的3D结构学习2020年国际机器学习会议。1[15] Zhizhong Han ， Honglei Lu ， Zhenbao Liu ， Chi-ManVong，Yu-Shen Liu，Matthias Zwicker，Junwei Han，andC. L.菲利普·陈。3D2SeqViews：Aggregating SequentialViews for 3D Global Feature Learning by CNN WithHierarchical Attention Aggregation.IEEE Transactions onImage Processing，28：3986-3999，2019。1[16] Zhizhong Han，Baorui Ma，Yu-Shen Liu，and MatthiasZwicker. 使用直接形状优化从多个草图重建3D草图IEEE图像处理学报，29：8721-8734，2020。1[17] Zhizhong Han，Mingyang Shang，Zhenbao Liu，Chi-Man Vong ， Yu-Shen Liu ， Junwei Han ， MatthiasZwicker，andC.L.菲利普·陈。SeqViews2SeqLabels：通过RNN的关注聚合顺序视图来学习 3D 全局特征。 IEEETransactions on Image Processing ， 28 ： 658-672 ，2019。1[18] Zhizhong Han ， Xiyang Wang ， Yu-Shen Liu ， andMatthias Zwicker. Multi-Angle Point Cloud-VAE：通过联合自重建和半对半预测从多个角度对3D点云进行无监督IEEE/CVF计算机视觉国际会议，2019年。1[19] Zhizhong Han ， Xiyang

下载后可阅读完整内容，剩余1页未读，立即下载