3D感知图像变形方法的研究

159 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

18532输入Marching Cubes弹出运动（我们的）变形弹出运动：通过学习形状拉普拉斯算子的Jihyun Lee*1Minhyuk Sung*<$1Hyunjin Kim1Tae-KyunKim1，21 KAIST2 Imperial College London图1. 2D人体图像的3D感知图像变形。与通过直接变形使用PIFu [39]和Marching Cubes [32]（蓝色）重建的网格生成的图像相比，我们的方法（红色）可以通过推断额外的内在形状属性产生更合理的3D感知图像摘要我们提出了一个框架，可以变形的对象在2D图像中，因为它存在于3D空间。用于3D感知图像操纵的大多数现有方法限于（1）仅改变全局场景信息或深度，或（2）操纵特定类别的对象。在本文中，我们提出了一种三维感知的图像变形方法，形状类别和变形类型的限制最小。虽然我们的框架利用2D到3D重建，我们认为，重建是不够的现实变形，由于易受拓扑错误。因此，我们建议采取基于监督学习的方法来预测表示为点云的3D重建的下层体积的形状拉普拉斯算子给定使用预测形状拉普拉斯算子和用户定义的变形控制柄（例如，关键点），我们获得有界双调和权重来建模似然的基于图像变形的图像变形。在实验中，我们提出了我们的变形的2D字符和穿着的人的图像的结果我们还定量地表明，与替代方法相比，我们的方法可以产生更准确的变形权重（即，网格重建和点云拉普拉斯方法）。1. 介绍照片编辑功能过去一直局限于2D空间，最近突然出现在3D空间* 同等贡献，通讯作者空间例如，从2D图像预测深度可以实现图像中对象的合成[41，57]。对象分割允许将图像投影到新视图[27，36，52]。照明和地平面估计可以重新照亮物体并在图像中生成新的阴影[9，14，15，54]。这种用于3D感知图像编辑的技术已经允许用户以更直观的方式操纵图像-就好像对象存在于3D空间中一样-并且在下游应用中打开了新的机会。作为现有的三维感知图像处理方法的一个缺失部分，我们专注于三维感知图像变形。与上述技术不同，3D感知变形不仅改变场景信息（例如，摄像机参数、光照条件）或修改2.5D信息。相反，它允许用户直接操纵对象的3D几何形状和外观。与3D感知变形更相关的主题是（1）人类姿势转移[6，29，33]，其仅适用于人体，（2）新颖的视图合成[13，37，51]，其限于改变图像的视点，以及（3）基于3D模型的操纵[26]，其需要图像中对象的精确3D为了解决这些限制，我们的目标是使3D感知图像变形的形状类别和变形类型的限制最小。对于3D感知变形，有必要将2D图像中的对象重建到3D空间;然而，通常这是不够的。变形需要表面或体积信息[21，48]。然而，大多数现有的18533基于图像的3D重建方法不直接输出表面或体积[8，45]，或者在没有适当考虑内在形状特性的情况下产生表面[12，23，28，39，40，46，49，53]请参见图1中红色分支中的示例。连接腿的拓扑预测不准确会导致变形中出现不需要的视觉伪影事实上，由于三维重建的性质是由连续量和离散量共同定义的，因此在三维重建中实现拓扑正确性是一项困难的任务。在本文中，给定输入图像中对象的3D点云（其2D到3D重建由PIFu [39]执行），我们建议通过学习附加的内在几何属性：形状拉普拉斯算子来实现3D感知图像形状拉普拉斯算子是几何本征函数的基本编码信息。特别是，有界双调和权重[21]在我们的框架中，我们利用三维重建的估计形状拉普拉斯算子来获得有界的双调和权重，从而对基于几何的图像变形进行合理建模。为此，我们引入了一个神经网络，它可以预测从2D图像重建的3D点云的基础体积的形状拉普拉斯算子-而无需直接将点云转换为体积。考虑到变形能可以用标准线性FEM Laplacian LM −1L离散化（其中L是对称余切Laplacian矩阵，M是对角集中质量矩阵），我们设计我们的网络来从地面真实3D网格获得的监督中学习矩阵L和M −1。逆质量矩阵M-1中的元素是针对每个单独的点预测的，而余切拉普拉斯矩阵L的元素是通过取输入点对来预测的我们使用对称的功能aggregation功能，这样的对，也是一个权重模块，以强制输出矩阵L是对称的和稀疏的。在测试时，我们从预测的L和M −1中恢复变形能量，以使用用户指定的变形手柄计算有界双调和权重。由于我们的方法学习形状Laplacian而不是依赖于形状的变形权重，因此它可以很好地推广到任意手柄配置。在实验中，我们展示了我们的结果，三维感知变形的二维字符和穿着的人的形象。我们还展示了一个用户交互式图像编辑场景，用户可以根据指定的控制点产生直观的3D变形。对于定量评估，我们在大规模3D点云数据集上测试我们的方法（即，DFAUST [4]），其中我们的方法被证明是亲-与网格重构和点云Laplacian方法相比，该方法可以得到更精确的我们的主要贡献可概括如下：• 我们提出了一种方法，三维感知变形的2D图像，它可以适用于形状类别和变形类型的最小• 我们介绍了一种新的网络架构，它可以学习具有几个期望属性的形状拉普拉斯算子（即，正半定性、对称性和稀疏性）。据我们所知，这是第一个研究表明，基于学习的方法可以有效地预测点云的底层体积的形状拉普拉斯算子。• 我们的经验表明，我们的学习为基础的方法，导致更合理的变形com-court的替代情况下，计算近似的形状Laplacian使用网格reflection- tion或点云Laplacian方法。2. 相关工作基于句柄的变形在几何处理中，基于句柄的变形方法已经研究了几十年。一个常见的工作流程，基于变形的两个阶段组成：绑定时间和姿势时间。在绑定时，源形状绑定到用户定义的一组控制手柄.在姿势时间中，操纵控制柄以产生形状变形，使每个控制柄处的变换平滑地传播到形状的其余部分。大多数现有方法基于求解优化问题来计算基于变形的变形权重，以最小化形状光顺泛函（例如，离散拉普拉斯能量[21]，线性精确平滑能量[48]）。在这项工作中，我们利用有界双调和权重[21]来对2D图像的基于变形的变形建模。学习形状变形3D视觉和图形中的大多数最新方法都利用神经网络来学习形状变形。通常，这种现有工作的主要目标是使源适合于目标形状。这些目标驱动变形方法已被证明在各种任务中有效，例如3D重建[20，46，47]，形状自动编码[44]，变形转换[43]和数据增强[1，35]。与这些方法不同，我们工作的主要目标是计算与用户定义的控制手柄相关的变形权重-其可以用作直观的变形界面-用于其地面真实拓扑未知的3D重建。我们还注意到，我们的框架不需要任何源和目标形状对或语义标签进行训练。18534Σ（∈ V--联系我们HΣ2K网格重建方法计算3D点云的基于网格的变形权重的替代方法之一是使用从表面重建方法、可选流形转换算法[17，18]和四面体网格化方法[16]估计的网格拓扑来计算形状拉普拉斯算子。外显式曲面重建方法[3，5，30]直接估计输入点的连接信息。隐式表面重建方法[24，25，38]预测可用于等值面网格的场函数，这通常通过Marching Cubes [32]执行。然而，当模糊结构（例如，空间相邻表面、高曲率表面）存在。在本文中，我们建议绕过这种显式的网格转换过程，并直接从地面实况拓扑监督学习点云的形状拉普拉斯算子。在第4节中，我们通过经验证明，我们的方法可以产生比上述情况更准确的变形权重计算重建的3D点云的基于变形权重的另一替代方法是直接构建点云拉普拉斯算子。虽然存在近似点云的形状拉普拉斯算子的现有方法[2，42]，但主要挑战是推断点云的底层结构的正确拓扑-这仅使用给定的点云是不可行的。点云拉普拉斯算子的构造通常基于从欧几里得空间中每个点的k个最近邻估计的切平面上的三角剖分。因此，所得到的形状拉普拉斯算子相对于具有长的基本测地距离的两个相邻点是错误的。为了解决这个问题，我们建议利用神经网络的预测能力，该神经网络使用地面真值形状拉普拉斯算子作为监督信号进行训练。据我们所知，这是第一项采用基于学习的方法从点云预测底层体积的形状拉普拉斯算子3. 基于句柄的变形与使用网格重建或点云拉普拉斯方法直接计算形状拉普拉斯的近似相比，低更鲁棒和准确的变形（请参考第4节的实验结果）。此外，由于我们预测形状拉普拉斯算子-而不是直接预测依赖于变形手柄的变形混合权重，因此我们的方法可以对任意变形手柄配置的变形鲁棒性进行在下文中，我们首先简要回顾有界双调和权重[21]，这是计算网格的基于顶点的变形权重的现有方法之一，其地面真实拓扑可用。然后，我们introduce我们的方法，以获得强大的有界双调和权重的三维重建。3.1. 背景：有界双调和权有界双调和权重[21]是线性混合权重，其将任意控制手柄处定义的仿射变换传播到形状中的其他点。给定四面体网格1M={V，F}，其表示分别具有顶点和面V和F的集合的形状的体积，控制柄H被定义为网格2上的点H（V）或区域（H（V））。特别地，给定（1）具有n个顶点的源形状M（V ={vi}i=1···n）（2）m个控制柄{Hk}k=1···m，以及（3）在每个控制柄上定义的仿射变换Tkk=1···m，第i个顶点vi的新位置可以使用以下线性公式计算：Mvi′=wk，iTkvi，（1）k=1其中wk，i是与第k个控制柄k和第i个顶点vi相关联的变形权重。每个手柄的变形权重wk=wk，1，.，wk，nT被计算为关于变形能量的最小值，该变形能量受到用于期望的变形属性的若干约束单位的分割，非负性）。最小化问题可以写为：Margmin1wTAw{wk}k=1··· mk=1（二）年龄变形首先，我们使用3D重建方法(i.e.、PIFu [39]）来构建表示输入图像中对象的3D形状接下来我们服从：w k，i= 1is.t. vi∈ Hkwk，i=0is. t.vi∈Hl，l∈k使用精心设计的神经网络来预测形状Mk=1 wk，i= 1，i= 1，···，n，重建的基础体积的拉普拉斯算子0≤wk，i≤1，k= 1，···，m，i= 1，···，n，三维点云。然后，估计的形状拉普拉斯算子为用于计算变形混合权重（即，有界双调和权重[21]），对应于用户定义的句柄，以建模3D感知图像变形。我们认为，我们的方法来学习形状拉普拉斯al-1虽然也可以从表面计算形状拉普拉斯算子，网格，我们专注于体积拉普拉斯在这项工作中。2控制柄也可以在网格外定义为骨架骨骼或框架的顶点。在这里，我们只描述当控制柄被定义为网格上的点或区域时的情况。我们提出了一种基于学习的3D感知的方法，K18535处理∈PP{}IMM∈∈M∈∈∈P {}PF∈P∈ PF {}∈点云点要素基于KNN的点对采样（KPS）采样点对对称特征聚集点对特征MLPMLP分配余切拉普拉斯算子余切拉普拉斯预测模块数据预处理（2D到3D重建）特征提取模块点采样采样点MLP分配逆质量网络操作批次反向质量预测模块变形能计算图2.体系结构概述。给定点云= pi i=1···n（即，RGB图像的3D重建），我们的方法学习形状拉普拉斯算子来计算底层体积的变形能量矩阵A Rn×n。该框架主要由三个模块组成：（1）特征提取模块，（2）余切拉普拉斯预测模块，（3）逆质量预测模块。特征提取模块首先提取P的每点特征F ={fi}i=1···n。给定P和F，余切拉普拉斯预测模块估计余切拉普拉斯矩阵L ∈ Rn×n，逆质量预测模块预测P的逆质量矩阵M −1∈ Rn×n。最终的变形能A可以用LM-1L表示。其中A = LM −1L是源网格的变形能量矩阵，L Rn×n是的余切拉普拉斯矩阵，MRn×n是集中质量矩阵，其对角元素表示与中每个顶点相关的体积。 L和M都是根据形状的体积信息定义的，因此不能从点云直接计算。尽管可以使用网格重建方法（例如，[3，5，16，24，25，30，38]），它可能会引入拓扑噪声，导致错误的变形权重。为了解决这个问题，我们认为学习变形能A能够实现更准确和鲁棒的变形。3.2. Laplacian学习网络我们现在介绍我们的网络，它可以学习底层体积的变形能量矩阵ARn×n。表示为点云的3D重建=pii=1···n。与直接估计质量A不同，我们建议学习余切拉普拉斯质量 LRn×n 和逆质量矩阵M−1Rn×n，这样变形能可以稍后恢复为A = LM−1L。这种设计背后的第一个动机是自动保证预测A的半正定性;当使用神经网络直接预测平方矩阵时，强制执行此属性是不平凡的。第二个动机是更好地学习和加强余切拉普拉斯矩阵L的对称性和稀疏性结构，以允许更准确的预测。在下文中，我们解释了我们的拉普拉斯学习网络的详细架构，它由三个模块组成：（1）特征提取模块，（2）余切拉普拉斯预测模块，和（3）逆质量预测模块。特征提取模块给定点云P={pi}i=1···n，特征提取模块提取点云特征=fii=1···n，其中fiRd表示对应于pi的每点特征向量。对于网络架构，我们采用Point Transformer [55]，它可以通过自注意操作提取点云的排列和基数不变特征。余切拉普拉斯预测模块给定点云和点云特征，余切拉普拉斯预测模块学习余切拉普拉斯模型Rn×n的基础体积. 根据余切拉普拉斯算子的定义，L是一个对称矩阵，其元素Lij只有在pi和pj通过一条边拓扑连接时才非零。由于L是高度稀疏的，并且点云基数n通常很大（例如，数以千计），学习所有点对之间的关系是低效因此，我们使用欧几里德先验来选择可能具有局部连通性的初始点对候选者-更具体地说，对于每个点pi，，我们基于欧氏距离计算k个最近邻点。然后，我们将每个相邻点与源点pi耦合以形成点对坐标。我们将这种采样策略称为基于KNN的点对采样（KPS）。我们注意到，使用KPS不仅可以提高推理时间，还可以通过缓解不平衡回归问题来帮助网络训练，因为在训练之前可以过滤掉大量的零值回归目标在我们的实验中，我们经验性地将k设为32。我们现在为每个点对候选提取一个特征，如下所示：gm =（γ 1（pi，pj），γ 2（fi，fj））.（三）其中{pi，pj}是第m个点对候选，并且γ1（·）点Transformer.-是的 -RGB图像PIFu18536·PGTGT·∈·∈·--PP∈PF+<$λM−1<$M−1−M−1gt<$，（5）K P和γ2（）是用于成对特征聚集的对称函数由于期望矩阵L是对称的，所以成对特征聚合必须是对称的。输入点云。我们的框架的整体损失函数可以写为：ric以产生输入（pi，pj）的相同特征，以及L=Σ1吉尔·伊杰 — Lij1+λWWuhuij— Wij1（pj，pi）-因此保证了L ij和L ji的后续预测之间的相等性。我们凭经验选择绝对-i，j∈K（P）|K（P）||P|i，j∈K（P）|K（P）|对于γ1和γ 2，γ2，分别。（消融研究参见第4我|P|II1接下来，我们估计余切拉普拉斯算子L的项其对应于每个点对候选，如下所示：Lij=α（gm）ε（gm），（4）其中，i和j是第m个点对的索引，k（）是输出实值标量的函数，α（）是预测权重Wij[0，1]的函数，该权重指示余切拉普拉斯算子中的元素Lij权重预测的加入是提高变形精度的关键。如前所述，L只有通过边连接的点对才有非零元素;这表明L是一个非常稀疏的矩阵。捕获其稀疏结构是必不可少的，因为它编码了有关形状拓扑的信息为了更好地模拟这种稀疏结构，我们引入函数α（）并预测指示L中每个元素是否为零的权重。我们emperically发现，这种额外的稀疏结构预测显着提高变形的质量，如第4节所示。我们还注意到，我们的余切拉普拉斯预测模块的架构-将点对作为输入-具有即使从稀缺的训练数据集也能很好地学习的优势，因为训练示例的数量随着采样点的数量增加k在测试时间，整个余切拉普拉斯矩阵L可以通过预测非对角元素来计算{Li j}i=1，···，n作为行中的非对角元素的负和来并行计算对角元素L i i i =1，···，n，以遵循余切拉普拉斯算子的定义。逆质量预测模块给定点云和点云特征，逆质量预测模块学习底层体积的逆质量矩阵M −1Rn×n 。对于中的每个点，我们首先将其3D坐标pi和相应的特征fi连接起来，以生成新的每点特征f ′i=[pi; fi]R3+d。然后，每个点pi的倒数质量可以预测为ω（f ′i），其中ω是实例化为MLP的函数。在测试时，整个逆质量矩阵M-1可以通过预测批处理中的对角元素和填充来非对角线项为零。损失函数。我们使用从地面实况网格获得的监督来训练我们的网络，其中Lgt、Wgt和M−1gt分别是L、W和M−1的地面真值矩阵（）表示由KPS采样的点对索引的集合。对于损失项λW和λM−1的权重，我们根据经验分别选择100和1。变形权重计算。在测试时，一旦我们预测余切拉普拉斯矩阵L和逆质量对角矩阵M−1以恢复变形能量矩阵A=LM−1L，则通过求解二次规划问题来计算变形手柄集合的方程3.1请注意，虽然变形混合权重取决于给定的变形控制柄集，但我们预测的量（L和M-1）并不取决于变形控制柄。因此，我们的框架可以允许用户选择任意一组变形手柄，并自由移动它们，没有任何限制。3.3. 实现细节网络架构。对于特征提取模块，我们采用 PointTransformer [55]架构为每个点pi输出64维特征。对于余切Laplcian预测模块中的α和ω以及逆质量预测模块中的ω，我们使用由三个完全连接的层组成的多层感知器（MLP）架构，除了最后一个激活之外，每个层后面都有批量归一化，dropout和LeakyReLU对于α和ω，我们采用sigmoid作为最终的激活，而对于最后一层，我们不使用激活。每个层的输出要素尺寸分别为128、256和1。我们特意为α、ω和ω设计了一个轻量级的架构，因为它们需要并行操作来批量计算整个余切拉普拉斯矩阵L和逆质量矩阵M−1。由于篇幅所限，请参阅补充资料，了解我们网络培训的更多详情（例如，学习率，批量大小）。变形权重计算。我们使用libigl [22]的实现来计算有界双调和权重。该实现通过执行Mosek [34]解决了方程3.1中的二次规划问题，Mosek [ 34 ]是一个用于解决大规模优化问题的软件包我们还利用libigl库来计算地面真值余切刚度矩阵L和质量矩阵M，以获得我们的网络训练的监督。II18537输入GTPSRAPSSBPADeepSDFDGPMIERPCDLap NMLap变形[25][11][38][50][30][2][42]我们表1. DFAUST [4]数据集上3D点云变形结果的定量比较。使用最远点采样选择源图形的点操纵柄。数量处理度量PSR [25]APSS [11]双酚A[3][38]第三十八话DGP [50]MIER [30]PCDLap [2][42]第四十二话我们16重量L1（×100）↓形状CD（×100）↓形状HD（×0.1）↓3.863.841.813.463.041.314.323.831.732.662.610.484.154.092.853.263.161.133.532.970.423.344.040.432.101.810.4232重量L1（×100）↓形状CD（×100）↓形状HD（×0.1）↓3.085.123.391.532.390.791.722.290.831.382.150.573.014.554.251.091.262.101.542.060.531.492.180.531.061.450.534. 实验在本节中，我们通过实验验证了我们的方法的有效性。在第4.1节中，我们首先在大规模3D点云数据集上评估我们的方法，以与替代方法进行定量比较。在第4.2节中，我们给出了3D感知图像变形的结果。最后，我们在第4.3节中报告了我们的消融研究。4.1. 三维点云变形为了定量评估我们变形的形状质量，我们首先在大规模3D点云数据集上测试我们的方法（即，DFAUST[4]）。我们还报告了我们在3D部分点云上的变形结果（即，SHREC4.1.1三维点云在本小节中，我们对DFAUST [4]数据集进行定量评估，该数据集包含40，000个3D人体网格，代表10个真实人体的129个运动序列。虽然在这个实验中没有使用图像，但是为了定量比较，我们认为从网格生成的点云是3D重建的。为了准备数据，我们首先对每个序列中的形状进行子采样，由于运动序列的帧速率很高，所以子采样系数为16。然后，我们使用八个人的形状进行训练，剩下两个人的形状进行测试。对于评估指标，我们使用（1）地面实况和预测变形权重之间的L1距离（权重L1）有关度量计算的更多详细信息，请参阅我们的补充部分。我们将我们的3D点云变形结果与使用网格重建方法计算的结果进行了比较-对于不直接输出网格表示中的形状的隐式重建方法，我们还应用Marching Cubes [32]来提取表面网格。然后我们将表面网格转换为四-使用[16]和[17]的面体网格，以允许计算底层体积的形状拉普拉斯算子。我们还将我们的方法与点云拉普拉斯-在表1中，我们的方法在三个评估指标方面优于所有替代方法这表明，我们的方法可以通过直接从地面实况监督中学习形状拉普拉斯算子，以更准确的方式对基于几何的变形进行建模在图3中，我们还提供了变形点云的可视化我们的变形可以更好地保持源形状的局部几何平滑性;它们也更准确地匹配地面真实变形。4.1.2三维局部点云我们还在SHREC'16 [ 7 ]数据集上进行了实验它包含两个子数据集由于SHREC在我们的实验中，我们以8：2的比例将切口和孔图3. DFAUST [4]数据集上的3D点云变形结果的定性比较（最佳视图为200%放大）。这些变形使用32个控制手柄通过最远点采样选择建模。18538方法重量L1（×100）↓[32]第十一届全国政协副主席我们的4.47图4. Mixamo [19]字符图像的3D感知变形。手动选择32个控制点及其新位置。由于我们的方法采用基于学习的方法来估计形状拉普拉斯算子，因此可以训练我们的网络以从部分形状预测对应于地面真实完整形状的形状拉普拉斯算子。通过这种方式，我们可以将完整形状的形状本征函数的知识类似于以前的实验，我们评估我们的结果之间的L1距离的地面真相和预测的变形权重。如表2所示，与从由APSS [11]、Marching Cubes [32]和体积转换方法[16]构建的网格计算形状拉普拉斯算子表2.SHREC'16 [ 7 ]数据集上3D部分点云变形结果的定量比较所有权重都是相对于通过最远点采样选择的16个点控制柄计算的。地面实况变形权重使用对应于部分形状的全4.2. 3D感知图像变形现在，我们提出我们的3D感知图像变形的字符和穿着人类图像的结果4.2.1字符图像我们给出了Mixamo [19]数据集中Mousey和Michelle角色的3D感知图像变形的定性结果我们注意到，使用现有的参数模型拟合[31，58]或人体姿势转换[6，29，33]方法无法操纵此类角色的图像。在本实验中，我们直接利用在DFAUST [4]上训练的拉普拉斯学习网络（在第4.1.1节中使用），并在3D重建上评估模型Mixamo字符图像的实例-然而，对于2D到3D重建，PIFu [39]的预训练模型尚未显示出很好地推广到字符图像。因此，我们通过渲染Mixamo模型来填充单独的训练图像，并从头开始训练PIFU。我们通过使用随机采样的动画帧、相机和光源位置渲染3D角色模型来数据集中的图像总数为45，000，训练集和测试集之间的比例为9：1。图4显示了我们对Mousey和Michelle角色的图像进行3D感知图像变形的结果。我们的图像变形方法可以以3D感知的方式对角色姿势的变化进行合理建模。这证明了我们的方法在交互式图像编辑应用中的潜力，因为它可以提供简单和直观的界面（即，控制手柄）用于图像操作。我们还再次强调，我们的拉普拉斯学习网络不是在Mixamo [19]上训练的，而是在DFAUST [4]上训练的，DFAUST只由人体模型组成。因此，这些结果表明，通过学习形状的局部几何信息，我们的网络可以零拍推广请注意，虽然图4中示出了两个示例，但是在补充部分中呈现了更多不同的4.2.2穿着衣服的人体图像我们还报告了我们的结果，3D感知图像变形上穿衣服的人的图像。我们使用RenderPeople [10]和DeepHuman[56]，它们是包含纹理3D网格的真实世界人类模型数据集。与前面的实验类似，我们通过随机视点和光照渲染纹理化的 3D 人体网格来准备数据由于RenderPeople只公开提供9个模型，因此我们只展示使用它的定性结果相反，我们使用DeepHuman数据集进行定量评估，该数据集有大约7000个模型，但纹理质量较低。18539- -方法[32]第三十二话重量L1（×100）↓3.092.14度量重量L1（×100）↓形状CD（×100）↓形状HD（×0.1）↓KPS2.792.460.43−αEM Only AD OnlyOurs4.954.071.233.543.270.692.352.102.201.810.470.42在实验中，我们再次使用在DFAUST [4]数据集上训练的拉普拉斯学习网络，该数据集由3D人体模型组成。对于使用PIFU [39]的2D到3D重建，我们使用官方的预训练模型。图5. RenderPeople [10]人体图像的3D感知变形。蓝点表示用户定义的控制柄，红色箭头表示应用于选定控制柄的平移。图1和图5显示了RenderPeople [10]数据集上3D感知图像变形的定性结果32个控制点是手动拾取和操纵的。在图1中，我们的方法显示，与直接从PIFu [ 39 ]重建的网格计算形状拉普拉斯算子的情况相比，我们的方法产生了更合理的图像变形（PIFu [39]的拓扑预测基于Marching Cubes [32]）。图5显示了我们在用户交互场景中的图像变形示例。我们还在表3中提供了DeepHuman [56]数据集上学习的变形权重的定量评估结果。我们再次将我们的结果与使用直接从PIFU重建的网格计算的形状Laplcian获得的变形权重进行比较。我们的方法是估计有界双调和权重在一个更准确的方式。表3.DeepHuman [56]数据集上图像变形结果的定量比较。所有权重都是根据相同的控制手柄配置计算的：通过最远点采样选择32个点使用由DeepHuman数据集的地面实况3D网格提供的几何固有函数来计算地面实况4.3. 消融研究在本节中，我们进行消融研究，以比较拉普拉斯学习网络的不同设计选项。我们首先探讨了基于KNN的点对采样（KPS）的有效性和对余切拉普拉斯算子的稀疏结构进行建模的权重函数α从表4（第2列和第3列）中可以看出，当KPS或α被移除时，我们观察到在同一表中（第4列和第5列），我们还评估了在余切拉普拉斯预测模块中使用不同对称函数对γ1和γ2的影响我们观察到，当使用所提出的函数时可以实现最佳性能-有关（1）该消融研究的定性结果和（2）与直接学习有界双调和权重表4. 消融研究。KPS和α分别表示从我们的方法中删除KPS或α仅EM和仅AD表示γ1和γ2都分别实例化为逐元素乘法和绝对差的设置。所有其他实验设置（例如，数据集，控制手柄配置）与第二节中的DFAUST实验相同第4.1节。5. 结论和未来工作我们提出了一种通过学习形状拉普拉斯算子来实现2D图像的3D感知变形的方法。为此，我们引入了一种新的网络架构，可以从2D图像重建的3D点云中学习形状拉普拉斯算子。据我们所知，这是第一项研究，证明了基于学习的方法可以有效地预测点云底层体积的形状拉普拉斯算子负面社会影响我们的方法可能被滥用来创建deepfake，而操纵图像的范围仅限于3D感知变形。限制和未来的工作由于我们的方法基于有界双调和权重对变形进行建模，因此不能保证避免自相交。此外，当前流水线仅从直接监督（矩阵的L1损失）而不是从变形的输出学习形状拉普拉斯算子。我们计划进一步研究提高变形质量的方法。致谢。我们要感谢Duygu Cey- lan进行了有益的讨论。这项工作得到了韩国政府（MOLIT）资助的KAIA赠款（22 CTAP-C163793 -02）和韩国政府（MSIT）资助的NST赠款（CRC 21011）的部分支持。 M. Sung还感谢韩国政府（ MSIT ）资助的 NRF 赠款（2021R1F1A1045604）、韩国政府（MOTIE）资助的技术创新计划（20016615）以及Adobe和KT公司的赠款18540引用[1] Matan Atzmon，David Novotny，Andrea Vedaldi，andYaron Lipman.用显式变形场增强隐式神经形状表示。CoRR，abs/2108.08931。2[2] Mikhail Belkin，Jian Sun，and Yusu Wang.利用Rd中的点云构造拉普拉斯算子。在SODA，2009年。三、六[3] FaustoBernardini、JoshuaMittleman、HollyRushmeier、Claudio Silva和Gabriel Taubin。曲面重构的球轴算法。IEEE TVCG，1999年。三、四、六[4] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J. 黑色 . 动态浮士德：登记人体运动。在CVPR，2017年。二、六、七、八[5] Jean-Daniel Boissonnat和Bernhard Geiger。基于Delaunay三角剖分的复杂形体三维重建。生物医学图像处理和生物医学可视化，1993年。三、四[6] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei Efros.大家跳舞吧在ICCV，2019年。1、7[7] 放大图片作者： Michael M. Bronstein ， AndreaTorsello ， Daniel Cremers ， and Y. 萨希利奥卢SHREC'16：可变形形状的部分匹配。2016. 六、七[8] Haoqiang Fan，Hao Su，and Leonidas Guibas.一个点集生成网络从一个单一的图像三维物体重建。在CVPR，2017年。2[9] 马克·安德烈·加德纳、扬尼克·霍尔德·杰弗里、卡利扬·桑克·阿里、克里斯蒂安·加格·恩·埃和让·弗朗索瓦·拉隆德。深度参数化室内照明估计。在ICCV，2019年。1[10] RenderpeopleGmbH.RenderPeoplerenderpeople.com/。七、八[11] G aeülGuennebaud和MarkusGross。代数点集曲面。SIGGRAPH，2007年。六、七[12] Tong He ， John Collomosse ， Hailin Jin ， and StefanoSoatto. Geo-PIFu：用于单视图人体重建的几何和像素对齐隐式函数在NeurIPS，2020年。2[13] Derek Hoiem、Alexei A Efros和Martial Hebert。自动照片弹出。SIGGRAPH，2005年。1[14] Yannick Hold-Geoffroy 、 Kalyan Sunkavalli 、 JonathanRumen- mann 、 Matt Fisher 、 Emiliano Gambaretto 、Sunil Hadap和Jean-Francois Lalonde。深单图像摄像机标定的感知测度。在CVPR，2018年。1[15] Yannick Hold-Geoffroy 、 Kalyan Sunkavalli 、 SunilHadap、EmilianoGambaretto和Jean-Fran c oisLalonde。深度室外照明估计。在CVPR，2017年。1[16] Yixin Hu ， Teseo Schneider ， Bolun Wang ， DenisZorin，and Daniele Panozzo.野外快速四面体网格化。在SIGGRAPH，2020年。三、四、六、七[17] Jingwei Huang，Hao Su，and Leonidas Guibas.shapenet模型的鲁棒CoRR，abs/1802.01698，2018。三、六[18] Jingwei Huang，Yichao Zhou，and Leonidas Guibas.一个强大的和可扩展的水密流形表面生成方法的三角汤。CoRR，abs/2005.11621，2020。3[19] Adobe Systems Inc.米萨莫https://www.mixamo的网站。com. 7[20] Dominic Jack 、 Jhony K Pontes 、 Sridha Sridharan 、Clinton Fookes、Sareh Shirazi、Frederic Maire和AndersEriksson。学习3D物体反射的自由变形。在ACCV，2018年。2[21] Alec Jacobson ， Ilya Baran ， Jovan Popovic ， and OlgaSorkine.实时变形的有界双调和权重。InSIGGRAPH，2011. 一、二、三[22] Alec Jacobson，Daniele Panozzo，et al. libigl：A simpleC++ geometry processing library. https：//libigl.github.io/. 5[23] 放大图片作者：Angjoo Kanazawa，Shubham Tulsiani，Alexei A.埃弗罗斯和吉坦德拉·马利克从图像集合学习特定类别的网格在ECCV，2018。2[24] Michael Kazhdan，Matthew Bolitho，and Hugues Hoppe.泊松曲面重建《小额赠款方案》，2006年。三、四[25] Michael Kazhdan和Hugues Hoppe筛选泊松曲面重建。ACM TOG，2013年。三、四、六[26] Natasha Kholgade ， Tomas Simon ， Alexei Efros ， andYaser Sheikh. 使用库存3D模型在单张照片中进行3D对象操作InSIGGRAPH，2014. 1[27] Hyunjoon Lee ， Eli Shechtman ， Jue Wang ， andSeungyong Lee.自动垂直调整的照片与鲁棒相机校准.IEEE TPAMI，2014年。1[28] Jiahui Lei ， Srinath Sridhar ， Paul Guerrero ， MinhyukSung，Niloy Mitra，and Leonidas J. Guibas. Pix2Surf：从图像中学习对象的参数化3D表面模型。在ECCV，2020年。2[29] Yining Li，Chen Huang，and Chen Change Loy.用于人体姿势转移的密集内在外观流。在CVPR，2019年。1、7[30] Minghua Liu，Xiaoshuai Zhang，and Hao Su.用预测的内在-外在比率制导的网格在ECCV，2020年。三、四、六[31] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J. Black。SMPL：一个有皮肤的多人线性模型. SIGGRAPHAsia，2015. 7[32] 威廉·E·洛伦森和哈维·E·克莱恩。Marching Cubes：一个高分辨率的3D表面构造算法。在SIG中-GRAPH，1987. 一、三、六、七、八[33] 马丽倩、徐佳、孙倩茹、Bernt Schi

下载后可阅读完整内容，剩余1页未读，立即下载