可学习的动态表面表示：CaDeX

141 浏览量更新于2023-10-25 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6624CaDeX：通过神经同胚学习动态表面表示的典型变形宾夕法尼亚大学leijh@seas.upenn.edu宾夕法尼亚大学kostas@cis.upenn.edu图1. 我们通过学习的规范形状（中间的形状）对可变形表面进行建模，并通过可学习的连续双射规范映射（绿色双向箭头）对变形（橙色箭头）进行分解，这些映射提供了循环一致性和拓扑保持。视觉结果来自动态动物、人体和铰接物体的测试集。摘要虽然静态3D形状的神经表示被广泛研究，但可变形表面的表示限于模板依赖性或缺乏效率。我们引入了正则变形坐标空间（CaDeX），它是形状和非刚性运动的统一表示.我们的主要观点是通过连续双射正则映射（同胚）及其逆来分解框架之间的变形，这些映射通过学习的正则形状进行。我们新的变形表示和它的实现是简单的，有效的，并保证循环的一致性，拓扑preservation，如果需要，体积守恒。我们的mod-elling的学习规范的形状提供了一个灵活和稳定的空间形状先验学习。我们展示了最先进的性能，在建模范围广泛的可变形几何形状：人体，动物体和铰接对象。11. 介绍人类在不断变化的现实世界中感知、互动和学习。我们的关键感知能力之一是动态3D世界的建模。这种几何智能需要足够通用的神经表示，可以在4D序列中建模不同的动态几何形状，以促进解决机器人[55]，计算机视觉[29]和图形[44]任务。与广泛研究的3D神经表征不同，动态表征-1https://www.cis.upenn.edu/www.example.comleijh/projects/cadex必须能够关联（例如，找到对应）和聚集（例如，重构和纹理化）世界的变形状态上的信息。直接将成功的静态3D表示（例如，[33]）扩展到每个变形帧会导致效率低下[36]，并且无法对跨帧的信息流进行建模，这在解决[44]中的不适定问题时至关重要。我们所期望的动态表示需要同时表示所有帧上的全局表面（规范/参考形状）和任何帧对之间的一致变形（对应/流动/运动）（图2）。1），从而我们可以通过仅重建一个参考表面并通过使用一致的变形表示生成其余的变形表面以及跨帧关联和聚合信息来恢复动态几何形状（图2A）。满足上述期望属性的大多数动态表示是基于模型的，并且依赖于特定类别的参数模型，如人体[1，31]（图2B），面部[4，30]或手[47]。相反，最近的无模型方法，如隐式流[36，50]（图2C）应用一个通用的4D表示，但在一个特设的选择框架[36，50]中对规范形状进行建模，这使形状先验变得复杂。或者，选择近似的平均/中性形状[58]作为规范形状可能会限制形状的可表达性。变形的建模是通过忽略真实世界变形属性的MLP [50，58]，或通过对空间变形无效的ODE [36]，或通过优化的嵌入来完成的。[6]或Atlas [2]，它们是序列特异性的。在这项工作中，我们介绍了一种新颖的和一般的archi-6625S {}结构和表示，使每个帧的竞争性重建和跨帧的一致对应的恢复成为可能。我们的方法是植根于变形的因式分解（Sec. 第3.1节）。如果假设变形过程中拓扑不变，则同一实例的所有变形曲面通过连续双射映射（自同态）可视为等价的这允许我们通过两个连续可逆函数的组合来分解两个帧之间的变形，使得一个将源帧映射到公共3D规范变形坐标空间（CaDeX）中，而另一个将其映射回目的帧。这种分解及其实现（第二节）。3.2）是新颖的，简单的，有效的（与ODE[36]相比），同时它保证了循环一致性，拓扑保持，如果必要的话，体积守恒（第3.2节）。3.3）。嵌入在CaDeX中的规范形状可以被视为代表元素，而在变形框架和CaDeX之间变换的相关联的可逆映射是规范映射。因此，我们通过隐式场直接在CaDeX中对参考表面进行建模[33]（Sec. 3.4），它可以在训练期间与规范映射一起综上所述，我们的主要贡献包括：（1）提出了一种新的动态曲面的通用表示和体系结构，它联合解决了正则形状和一致变形问题。(2)可学习的连续双射规范映射和规范形状，共同分解形状变形，并且是新颖的，简单的，有效的，并保证循环一致性和拓扑保持。(3)提出了一种新的基于稀疏点云或深度视图的动态表面重建和对应任务的解决方案。（4）我们展示了对不同可变形类别建模的最先进性能：人体[5]，动物[57][53 ]第53话：2. 相关工作提出的静态3D几何学的神经表示[9，11，17，18，20，26，33，34，37，40，43，56]是有希望的，但是它们中的大多数不涉及变形的建模。一些最近的方法通过变形来表示或处理3D形状[13，22，23，25，59]，但是它们集中在不满足处理4D数据的要求（例如，效率）的静态3D形状集合我们将把我们的相关工作集中在可变形几何的动态表示上。基于模型的动态表示：已经引入了许多针对特定形状类别的成功3D参数模型，例如，用于面部的变形模型[4]和FLAME[30]，用于人体的SCAPE [1]和SMPL [31]，以及用于手的MANO [47这些基于模型的表示（图2B）的表达能力有限，这可以通过神经网络来缓解净-图2. （A）问题定义：一个实例的变形曲面=Si的列表或集合应该由1表示。一个规范3D曲面U（在绿色框中）和2.）一贯的表面之间的变形（黄色箭头）;（B）基于模型的方法：通过模板网格的蒙皮函数（绿色箭头）获得Si [31];（C）隐式流方法：第一帧用作参考形状，变形由神经元ODE [36]或MLP[50]建模。Works可以基于模板网格[32，38，48，52]或骨架[12，27，51]来表达详细的模板形状，并且可以学习更详细的蒙皮函数[8，48，52]或for-ward变形[38]。然而，它们依赖于通过姿势、骨架和模板网格规范化的强假设，这使得它们限于特定类别，并且不足以对丰富的动态3D世界建模。我们的方法不依赖于任何硬连线的模板网格或骨架，并且相同的架构对于所有形状类别都是无模型动态表示：最近的作品[6，24，36，50]通过对帧之间的变形建模，将静态3D表示[9，33，40图图2C说明了两个最接近我们的作品，O-Flow [36]和LPDC[50]，是如何首先，我们的方法不同于O-Flow [36]和LPDC [50]中的空间变形的表示我们通过一种新的规范映射因式分解来表示变形，该因式分解是有效的，并且基于条件神经自同态[14，15]来保证现实世界的属性，而O-Flow [36]使用神经ODE [ 7 ]，该神经ODE [7]也保证了良好变形的产生（详细信息参见[22]），但具有比我们更高的计算复杂度。LPDC [50]用多层感知器（MLP）代替神经元ODE [7]来并行学习对应关系。然而，MLP变形[20，41，44，50]难以对自同构进行建模或表达真实世界的变形属性。请注意，O-Flow[36]和LPDC [50]都计算第一帧中的参考表面，这是一个随机选择，因为形状在第一帧中可以处于任意我们的参考形状是在由正则映射诱导的学习正则空间中建模的，它更稳定并且可以被优化（图1）1）。I3 DMM [58]从人类头部扫描中学习接近中性/平均的规范模板，这限制了其表达能力。CASPR [46]和Garment Nets [10]学习可变形物体的规范化，但依赖于地面6626H我.ΣF∈S{} HHH›→H·|›→·|›→J真理规范协调监督，这往往是不可能的。其他神经动态表示包括在[49]中首次提出的学习嵌入图[6]和参数图谱[2]。除了4D数据之外，A-SDF [35]还使用专门设计的解缠结网络对一般铰接对象进行建模，但它无法对对应关系进行建模。相反，我们的方法通过显式地对变形进行建模来实现更强的解纠缠。用于3D表示的可逆网络：许多作品[3，7，14，15，19，28，39]已经被提出来构建用于生成模型的可逆网络在3D深度学习中，Neural-ODE [7]被广泛用作变形[22 ， 23 ， 25 ， 36] 或点云变换 [56] 的良好模型。ShapeFlow [25]通过ODE学习用于3D形状收集的“轴辐式”表面变形，但当应用于4D数据时效率低下，因为每个帧都需要通过集成提升到“中心”。除ODE外，I-ResNet [3]在[21]中用于构建用于形状编辑的可逆变形我们的方法受到Neural- Parts [42]的启发，其中Real-NVP [15]用于对从球体图元到局部部分的虽然我们也使用Real-NVP [15]以实现其简单性和效率，但与[42]相比，我们有两个明显的差异：我们的标准形状是一个学习的隐式曲面，而不是只能捕获局部部分的固定球体;我们使用Real-NVP的逆来关闭因子分解循环，而[42]在互补训练路径中使用逆。3. 方法如图2A所示，给定一个变形实例的点云观测的序列2我们提出了一种架构（图3），其中通过枢轴规范形状计算帧间对应关系，而不是在重建期间直接求解两帧之间的对应映射。我们将把任何变形标架中的曲面与规范形状之间的映射称为规范映射。3.1. CaDeX和Canonical Map让我们表示[xi，yi，zi]R3作为输入3D空间3的3D坐标，其中嵌入了在时间ti的变形表面Si。考虑一个连续的双射映射（同胚）i：R3R3在时间ti将每个变形的坐标映射到其全局（在不同的时间帧上共享）3D坐标[u，v，w] =i（[xi，yi，zi]）.注意，[u，v，w]没有时间索引，并且可以被视为输入3D空间中跨时间的每个对应轨迹的全局一致指示符。因此，我们将位置[xi，yi，zi]在时间ti的正则变形坐标命名为[u，v，w]，并将uvw称为3D空间[2]或者说是一个集合，但为了简洁起见，我们将只提及序列。3上标i表示时间索引。序列的正则变形坐标空间（CaDeX）=Si。将[xt，yt，zt]变换为[u，v，w]的同胚t称为典范映射。由于CaDeX 是跨时间全局共享的，因此我们直接在CaDeX中对规范形状（表面）U建模，而不是像[36，50]中那样选择输入帧利用神经场[54]，我们将U建模为占用场的水平集[33]：U={[u，v，w] |OccField（[u，v，w]）= 1}，（1）其中L是表面水平。使用时间ti处的每个正则映射i的逆，我们可以直接获得输入3D空间中的时间ti处的每个变形表面，如下：Si=H−1（[u，v，w]）|n[u，v，w] ∈ U.（二）将来自时间ti处的3D空间的任何坐标（对于表面点和非表面点两者）关联到时间tj处的3D空间的对应性/变形ij可以由正则映射因式分解为：[xj，yj，zj]=Fi j（[xi，yi，zi]）=H−1<$Hi（[xi，yi，zi]）.注意，t必须是可逆的;否则，不能定义上述变形函数到目前为止，任何与可变形实例拓扑同构的曲面都满足上述定义，从而产生无限多个有效的规范形状和映射。在下文中，我们将优化由图1中的架构预测的规范形状和映射3服从于数据集的先验3.2. 规范映射实现神经同胚我们实现的一个关键技术是一种有效的方法来参数化和学习坐标空间之间的同胚。不幸的是，广泛使用的神经元ODE [7]不满足我们的效率要求，因为必须对每个帧应用完全集成。受[42]的启发，我们利用条件实NVP [15]（实值非体积保持）或NICE [14]（非线性独立分量估计）归一化流实现来学习同胚。以更常见的NVP [15]为例（图3-C），网络是一堆耦合块[15]，我们将NVP应用于3D坐标。在初始化过程中，每个块都被随机分配一个输入分割模式;例如，一个块总是将[x，y，z]分割为[x，y]和[z]。给定一个条件潜在代码c.每个块接受3D坐标[x，y，z]，并通过基于输入坐标分割中的另一部分改变一部分来输出变换后的坐标[x′，y′，z′][x′，y′，z′]=[x，y，z exp（sθ（x，y|c））+tθ（x，y|c）]（4）其中sθ（c）：R2R和tθ（c）：R2R是任何以c为条件的网络预测的尺度和平移。（三）6627HΣΣH·|≡H··.Σ图3. （A）Canonical Map（经典地图）3.2）：输入点云的序列（或集合）首先被发送到变形编码器，从而为每个帧生成变形嵌入。然后正则映射H可以变换任何坐标（例如，点云中的黄色点、用于隐式场的蓝色查询位置或用于对应的紫色源点）经由对相应变形嵌入的H条件化从任何变形帧到规范坐标。对应预测（右下）可以通过H-1直接映射回正则坐标来获得。（B）规范形状编码器-解码器（第3.4）：所有输入的多帧点云首先通过H变换到规范空间，并直接合并以聚合规范观测。全局几何嵌入g（跨帧唯一）通过PointNet [45]编码，并且通过标准OccNet [ 33 ]预测查询位置t i（蓝点）的规范坐标的占用值。在训练期间，占用由LR监督，并且对应性可以可选地由LC监督（第12节）。3.5）。（C）H的实NVP [ 15 ]可逆结构（第二节）。3.2）。这样的块对双射进行建模，因为逆可以立即导出为：[x，y，z] =x′，y′，z′− tθ（x′，y′|c）.（五）exp（sθ（x′，y′|（c））因此，整个块堆栈是可逆的。如果每个块中的激活函数是连续的，则整个网络模型是同胚的。NICE [14]只是从NVP块中移除尺度自由度，即：sθ（c）0。请注意，NVP和NICE的逆运算与正运算一样简单，这就产生了我们所期望的效率和简单性，并且能够使用等式中的定义。3 .第三章。注意，在Eq. 2，每个变形曲面Si具有将Si与U相关联的不同的正则映射i。我们用条件实NVP或NICE来实现它们，用H（noncalligraphic）表示。给定向量ci，其在时间ti对变形信息进行编码，使得i（）H（;ci），其中网络H跨不同时间帧共享。正则变形坐标被预测为（图1）。3-A，标有H的盒子）：[u，v，w]=H（[xi，yi，zi];ci）。（六）注意，在等式的右侧。6，输入坐标和变形嵌入具有索引ti，因为它们来自每个变形帧。然而，在应用正则映射之后，左侧的坐标与索引无关，因为对于该序列只有一个全局CaDeX。最后，两个变形帧之间的对应/变形（等式10）。3）可以实现为：[x<$j，y<$j，z<$j]=H −1H（[xi，yi，zi];ci）;cj（7）其中[xj，yj，zj]是时间ti处的原始位置[xi，yi，zi]在时间tj处的映射位置。考虑到H的选择，Real-NVP [15]可以提供更灵活的变形，因为它有一个更多的自由度（尺度）; NICE [14]保证体积守恒（第2节）。3.3），这导致更规则化的变形。变形编码器为了获得作为H条件的每帧变形嵌入ci，我们演示了两种输入和三种编码器类型（图3-A，橙色框）。一种直接的方法是采用PointNet，该PointNet单独总结每帧（PF）的变形代码。如果输入是点云序列6628S.ΣS{}KQL L LLJ J JJ J JR不MiJ 我JC|（pi，pj）∈Q|(pi,pj)∈QK我 JKJ J JJJ}我们可以选择使用[50]中提出的ST-PointNet变体来获得变形代码（ST）。ST编码器处理4D坐标并在空间和时间上应用池化。如果输入是一个没有顺序的集合，我们开发了一个2阶段的PointNet来获得一个全局集合变形。以输出将查询铰接角和全局变形码作为输入的变形嵌入Ci由于这些不是我们的主要贡献，我们建议读者补充这些编码器的细节。3.3. 正则映射新的因式分解及其实现方式引起了现实世界变形的以下期望性质：周期一致性：通过我们的因式分解预测的变形帧之间的变形/对应性（等式2）。3，7）是循环一致的（路径不变的）。原因是每个正则映射都将序列（或集合）中的任何变形框架映射到该序列（或集合）的全局CaDeX，并且正则映射是可逆的：Fjk<$Fij=H−1<$Hj<$H−1<$Hi=H−1<$H i= Fik。以获得典型的聚合观察。给定每帧的变形嵌入ci，规范观测通过集合并合并为：X<$=[{H（[xi，yi，zi];ci）|<$[xi，yi，zi]∈Xi}.（九）我不是序列的全局几何嵌入g由PointNet编码：g=（X<$）。几何解码器给定全局几何嵌入g，我们通过占用网络[33]获得在g中编码的规范形状，该占用网络将g以及CaDeX中的查询位置[u，v，w]作为输入，并预测CaDeX中的占用cy：on=n（[u，v，w];g），其中解码器n是MLP。然而，在CaDeX中，地面实况（[u，v，w]，o_n）监督对不可用，因为规范形状事先是未知的，并且是在训练期间学习的。可用的监督类型是在每个变形坐标中的查询查询cy对（[xi，yi，zi]，oii）变形表面Si嵌入的自然空间每次我。因此，我们通过正则映射预测任何变形帧的占有场，通过方程。第六章：kjk（八）拓扑保持变形：由于我们的因式分解（方程。3，7）是两个同胚的合成，因此诱导变形函数也是同胚，因此永远不会改变曲面拓扑。体积守恒（NICE）：如果H由NICE [14]，则预测的变形保持几何体的体积，这可以通过以下事实来证明：on=nH（[xi，yi，zi];ci）;g（10）3.5.损失、训练、推理我们的模型是完全可区分的，并且是端到端训练的。下式10，主损失函数是每个变形帧中的重构损失：TMi每个耦合块的雅可比行列式[14][15][16][17][18][19][了解更多详情）。连续变形，如果c是连续的：一些应用程序-阳离子要求序列=S在时间轴上是密集的，例如，建模跨时间的连续变形[36]。在这种情况下，变形代码c变为aL=11BCE。H（pi;c）;g，oi（11）其中，T是具有占用字段监督的帧的总数，Mi是每个帧处我们用pi表示第j个查询位置，时间函数c（t）因为所有的激活函数，在正则映射中使用的是连续的，很明显，帧我不是J，并通过使用相应的地面真实事件。如果c（t）是连续的，则方程中的预测变形7必须连续穿过t。美国。可选地，如果给出了地面实况对应对，则我们可以通过等式（1）将它们用作监督信号。7 .第一次会议。另一项通信损失如下：3.4.表示规范形状L=1ΣKK-1. H（pi;c）;c−pj（十二）正则映射为编码全局几何嵌入带来了额外的好处（图3-B）。表示ob-其中是地面实况对应对的集合：是帧中的源位置（图3紫色坐标）时间t时的服务点云为X我不是={[xi，yi，zi]|j=jii j jJ以及pk是帧0、1、. -是的-是的其中[xi，yi，zi]是点云中每个点的3D坐标。来自不同ti的观测值我们克服了这种不规则性使用相同的规范地图（第二。3.2）4注意这里的上标仍然是时间的索引，下标是云中点的索引。t;k是所有监督对的索引我们用l表示误差范数的阶。请注意，我们的方法保证的周期一致性（Sec. 3.3）不依赖于C。总损失函数为=wRR+wCC，其中如果不提供对应监督，则wC注意，没有直接应用于查询码（SET），然后使用一维码查询网络i=1j=1几何编码器我们将正则形状表示为L一个标准的占领网络的CaDeX [33]。的6629方法所见个体看不见的个体V EEV E VE预测的正则变形坐标[u，v，w]。这为规范形状提供了最大的自由度，以形成有助于预测准确性的模式。在训练过程中，规范形状的所有模式都会自动出现（有关更多讨论，请参见补充）。在训练过程中，我们的模型是直接从头开始训练的，具有强制性重建损失（等式2）。第11段）。为了提高效率，在每次训练迭代中，我们随机选择输入序列中的一个帧子集，并监督占用预测。如果地面实况对应IoU↑CD↓Corr↓IoU↑CD↓Corr↓PSGN-4D [16]-0.1083.234-0.1273.041[33]第三十三话百分之七十七点九0.084-百分之六十六点六0.140-O-Flow [36]79.9%0.0730.12269.6%0.0950.149LCR [24]百分之八十一点八0.068-68.2%0.100-LCR-F [24]百分之八十一点五0.068-百分之六十九点九0.094-我们百分之八十五点五0.0560.10075.4%0.0740.126表1.在D-FAUST [5]人体上的结果，未经训练，通信监督还提供了监督，我们预测相应每隔一帧在第一帧中的表面点的位置，并最小化等式2中的对应性损失。12个。在推理过程中，我们的模型生成一个序列的所有表面并行后，一个单一的行军立方体网格提取。直接进军CaDeX是棘手的，因为它是学习的。然而，使用Eq。10作为查询函数，我们可以在第一帧中提取网格（0，0），这相当于在给定canoni的情况下进行CaDeX方法见个体看不见的个体卡尔地图 CaDeX中的等效正则网格是（c，c）=（H（0;c0），0）。然后，其他帧中的任何网格可以提取为：（Vi，Ei）=（H−1（Vc; ci），Ec）.（十三）请注意，上述所有网格共享相同的连通性0，因此会产生网格对应关系。当量13可以批量实施，以达到更好的效率。4. 结果为了证明CaDeX作为一个通用的和富有表现力的代表，我们研究了建模三个不同类别的性能：人体（第二节）。4.1），动物（Sec. 4.2）和铰接对象（第4.3）。最后，对设计方案的有效性进行了检验.4.4图：为了测量我们的形状和对应建模性能，我们遵循[36，50]的范例并使用相同的度量：使用IoU和倒角距离评估重建准确度，并通过对应l2距离误差评估基线：我们与最接近的无模型动态表示进行比较。第二节中描述的主要基线。2个是：用于序列输入的O-Flow[36]和LPDC[50]以及用于铰接对象集输入的A-SDF[354.1. 动态人体建模我们首先展示了跨时间动态人体建模的力量我们使用与[24，36，50]相同的实验设置，数据集和分裂。数据来自D-FAUST [5]，一个真实的4D人体扫描数据集。根据[36]的设置，输入是随机采样的稀疏点云轨迹（300个点），具有17帧，在时间上均匀采样地面实况占有率IoU↑CD↓Corr↓IoU↑CD↓Corr↓PSGN-4D [16]-0.1010.102-0.1190.131O-Flow [36]百分之八十一点五0.0650.09472.3%0.0840.117LPDC [50]百分之八十四点九0.0550.080百分之七十六点二0.0710.0986630表2.D-FAUST [5]人体的结果，用cor-faust训练反应监督字段以及可选的表面点对应关系。我们的默认模型是通过使用ST编码器配置的（第二节）。3.2）和NVP同胚。如果没有另外说明，则以下表格和章节假设了这种情况。我们测试PF编码器和NICE同胚变体的性能。实验分为训练没有对应（表。1）和通信培训（表。（2）方法之间的公平比较。测试集有两个难度级别：看不见的运动和看不见的个体[36]。表中的定量比较。1，2表明，我们的方法优于国家的最先进的方法的显着保证金。图中的定性比较图4显示了我们的方法在捕捉快速移动部件和形状细节方面的优势（用红色标记）。我们将这种改进归因于两个主要原因：首先，我们对变形的因式分解及其实现提供了一种强大的规则化，其他方法（如O-flow[36]）只能通过ODE积分实现。此外，在我们的模型中监督每帧隐式重建相当于[50]中的密集跨帧重建监督。其次，我们的形状先验存储在学习的标准空间（图4中标记为绿色）中，该空间在不同序列中相对稳定，如图所示当培训没有通信（表。1），我们的方法可以隐式地学习对应关系，并达到与表[50]中类似的重建性能2，它是用密集并行通信监督训练的。比较我们的方法在Tab.2，NICE [14]版本的性能下降，因为变形是强正则化的，以节省体积，但6631LL图4. 左：人体建模（第二节）4.1）;右：动物身体建模（第4.1节）4.2）。左上角绿色框中标记的图形是我们的规范形状，第一个输入不显示。网格的颜色对对应关系进行编码。更多的结果在Supp.表3.DeformingThings4D [57]动物身体、PCL和Dep上的结果对应于输入类型。这是通过冻结一半的容量（无标度）来实现的。我们注意到，与时空编码器[50]（ST）相比，朴素的每帧编码器（PF）一个潜在的原因是，每帧编码器提供了更高的规范化水平，因为当决定变形码ci时，不能考虑来自其他帧的信息，因此PF编码器可以避免过拟合。4.2. 动态动物我们用一个更具挑战性的设置进行实验：用一个模型模拟不同类别的动物。我们生成与SEC相同的监督类型。4.1基于DeformingThings 4D-Animals [57]数据集（DT 4D-A）。我们使用17种动物类别，并生成2种类型的输入观察：稀疏点云输入为Sec。4.1以及来自随机放置的静态相机的单目深度视频输入。我们假设摄像机视点估计问题已经解决，因此所有部分观测都存在于一个全局世界帧中。所有模型都是在所有动物类别中训练的。我们建议读者参阅补充材料以了解更多细节。这样的设置更具挑战性，因为动物在类别之间具有较大的形状和运动此外，模型需要跨时间聚合信息，并在深度观察输入中消除在Tab中显示稀疏点云输入和深度输入的定量结果。3以及图中的定性结果4表明我们的方法在这些具有挑战性的设置中优于最先进的方法。除了上述原因，在SEC。4.1、从深度表4. Shape2Motion [35，53]关节连接对象、PCL和Dep的结果对应于输入类型。报告了7个类别的平均表现，我们请读者参阅我们的补充报告以获得完整的表格。t是表面生成平均时间，θ是平均角度预测误差。观测可以归因于我们设计的canonical观测编码器（第二节）。3.4），明确地聚集了CaDeX中的观察结果。4.3. 建模铰接对象我们将CaDeX从4D非刚性表面序列建模扩展到表示半非刚性铰接对象集。我们生成数据集和输入，如第二节所示。4.2来自[35]，基于Shape2Motion [53]，其中包含7类具有1或2个可变形角度的铰接对象。我们使用SET编码器配置模型（第二节）。3.2），生成全局动态代码，然后使用铰接角查询每个帧的变形代码在训练过程中，我们输入一个对象的4个随机采样的变形帧的稀疏点云我们监督R和C。为了完整性，我们还预测的发音角度的输入帧的编码器中的一个小的头和监督他们。每个类别都针对所有方法进行单独训练。请注意，A-SDF [35]演示了自动解码器设置，但它只解决了我们问题的一半，没有对应关系。同时解决形状和对应关系导致在测试期间应用具有优化的自动解码器时的困难为了公平比较，我们采用A-SDF输入方法看到的个人隐形个体输入方法IoU↑CD↓Corr↓t（s）θ（deg）IoU↑CD↓Corr↓IoU↑CD↓Corr↓O-Flow [36]70.6%0.1040.20457.3%0.1750.285PCLLPDC [50]百分之七十二点四0.0850.16259.4%0.1490.262我们80.3%0.0610.133百分之六十四点七0.1270.239O-Flow [36]63.0%0.1310.25049.0%0.2280.374A-SDF [35]55.2%0.127-3.443.38PCLLPDC [50]49.2%0.1710.2300.533.00我们百分之五十八点九0.1180.1601.122.75A-SDF [35]百分之五十三点九0.127-3.655.06DEPLPDC [50]46.4%0.1950.2690.544.856632IoU↑CD↓Corr↓t（s）全部66.5%0.1280.2231.8MLP 61.9%0.1610.30320.5无G-Enc 百分之六十三点四0.1410.2161.7图5.关节式物体建模（Sec. 4.3）有7个不同的类别。左上角绿色框中标记的图形是我们的标准图形，旁边的四个小图形是输入。第一行是观察到的变形角度的重建请注意，A-SDF没有对应关系，因此没有着色。与我们的模型类似的编码器，并调整解码器来预测占用率。我们还与LPDC [50]进行了比较，后者也适用于使用与我们类似的编码器。选项卡. 图4总结了7个对象类别的平均性能，而图5显示了定性结果。这两个模型都展示了我们在建模一般铰接对象方面的最先进的性能。我们产生了准确的重建，同时提供了A-SDF [35]无法预测的相应预测因此，[35]中的每一帧都需要行进立方体，并导致更长的推理时间，如Tab所示4.第一章请注意，我们的方法在变形对象时保留了拓扑结构（图1）。[5]而[35]则没有这样的保证。这是我们的方法在眼镜类别上性能下降的主要原因，因为数据集包含许多不真实的变形，其中眼镜的腿交叉。此外，我们的方法在运动部件（例如，图1中的冰箱门的内侧）5）由于学习的规范空间，它为形状先验提供了一个稳定的容器。4.4. 消融研究我们证明了我们设计的有效性如下：首先，我们用单向MLP替换可逆正则映射，该单向MLP将变形坐标映射到正则空间（这种设置类似于[13，58，59]）。由于映射是单向的，我们通过强制规范空间中的一致性来监督对应关系。每个帧都需要单独应用移动立方体表5.烧蚀研究，t是平均表面生成时间。在此版本中提取网格。其次，我们移除规范空间中的几何编码器，并使用ST编码器通过潜在融合获得全局几何嵌入[50]。我们证明了DT 4D-A [57]中鹿子类别的性能，并使用点云输入（第4.2）。选项卡. 5显示了性能差异，其中我们观察到使用MLP而不是同胚时的显着性能下降以及更长的推理时间。此外，我们观察到当在规范空间中移除几何编码器时重建精度的下降（第二节）。第3.4段）。我们在补充材料中提供更多细节。5. 限制我们的方法保证了几个理想的属性，并在各种形状上实现了最先进的性能，但仍然存在局限性，需要进一步探索。虽然如果c（t）是连续的，我们可以产生跨时间的连续变形，但是在我们使用的ST编码器[50]中不能保证c的连续性。因此，当输入经历大的不连续性时，我们确实观察到LPDC [50]和我们的方法的输出中另一个问题是，虽然我们的方法保留了拓扑结构，但有时真实世界的变形也会导致拓扑结构的变化。未来的工作可以探索如何选择性地保持或改变拓扑结构。最后，目前在自动解码器框架[35，40]中调整我们的方法是不平凡的，因为它需要在测试期间同时优化规范映射（变形）和规范形状，未来的工作可以探索。6. 结论提出了一种新的通用的动态曲面重构和对应表示方法我们的关键见解是通过学习的规范形状的连续双射规范映射的变形的因式分解我们证明，我们的代表保证循环consis- tency和拓扑保持，以及（如果需要）体积守恒。大量的实验重建人类，动物和关节的对象证明了我们的方法的有效性和多功能性。我们相信CaDeX为未来的建模研究和从动态现实世界中学习提供了更多的可能性。鸣谢：作者感谢以下资助的支持：ARL MURI W 911 NF-20-1-0080、NSF TRIPODS 1934960、NSF CPS 2038873、ARLDCIST CRAW 911 NF-17-2-0181和ONR N 00014 -17-1-2093。6633引用[1] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。ACM SIGGRAPH 2005论文，第408-416页。2005. 一、二[2] Jan Bednarik，Vladimir G Kim，Siddhartha Chaudhuri，Shaifali Parashar，Mathieu Salzmann，Pascal Fua，andNoam Aigerman.通过度量一致的地图集进行时间相干表面重建。arXiv预印本arXiv：2104.06950，2021。第1、3条[3] JensBehrmann、Will Grathwohl、Ricky TQ Chen、DavidDu-venaud和J？ rn-HenrikJacobsen。无形的剩余网络。国际机器学习会议，第573-582页。PMLR，2019年。3[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。一、二[5] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态浮士德：登记人体运动。在IEEE会议计算机视觉和模式识别（CVPR），2017年7月。二、六[6] Aljaz Bozic，Pablo Palafox，Michael Zollhofer，JustusThies，Angela Dai，and Matthias Nießner.用于全局一致非刚性重建的神经变形图。在IEEE/CVF计算机视觉和模式识别会议论文集，第1450-1459页，2021年。一、二、三[7] Ricky TQ Chen，Yulia Rubanova，Jesse Bettencourt和David Duvenaud 。神经元常微分方程 arXiv 预印本arXiv：1806.07366，2018。二、三[8] Xu Chen ， Yufeng Zheng ， Michael J Black ， OtmarHilliges，and Andreas Geiger. Snarf：用于动画非刚性神经隐式形状的可区分向前蒙皮。arXiv预印本arXiv：2104.03953，2021。2[9] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页2[10] 程迟和宋舒然。Garmentnets：通过规范空间形状完成服装的类别级姿势估计。 arXiv 预印本 arXiv ：2104.05177，2021。2[11] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE/CVF计算机视觉和模式识别会议论文集，第69702[12] Boyang Deng ， John P Lewis ， Timothy Jeruzalski ，GerardPons-Moll ， GeoffreyHinton ， MohammadNorouzi，and Andrea Tagliasacchi.美国宇航局神经关节形状近似。在计算机Springer，2020年。2[13] 登宇，杨蛟龙，童欣。变形隐式场：用学到的密集对应建模3D形状。IEEE/CVF Conference on Com-计算机视觉和模式识别，第10286-10296页，2021年。二、八[14] Laurent Dinh ， David Krueger ， and Yoshua Bengio.Nice ：非线性独立分量估计。 arXiv 预印本 arXiv ：1410.8516，2014。二三四五六[15] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Ben-gio.使用实 nvp 的密度估计。 arXiv 预印本 arXiv ：1605.08803，2016。二、三、四[16] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页，2017年。6[17] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。IEEE/CVF会议论文集计算机视觉和模式识别，第4857- 48

下载后可阅读完整内容，剩余1页未读，立即下载