等变形状空间学习的帧平均算法

167 浏览量更新于2023-10-25 收藏 2.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

631等变形状空间学习的帧平均算法Matan Atzmon1，2*Koki Nagano1 Sanja Fidler1，3，4 Sameh Khamis1 Yaron Lipman21 NVIDIA2Weizmann Institute of Science3 University of Toronto4 Vector Institute摘要形状空间学习的任务包括将一组训练形状映射到具有良好泛化特性的潜在表示通常，真实世界的形状集合具有对称性，其可以被定义为不改变形状的本质的变换。在形状空间学习中结合对称性的自然方式是要求到形状空间的映射（编码器）和从形状空间的映射（解码器）与相关对称性是等变的。在本文中，我们提出了一个框架，将等变的编码器和解码器引入两个贡献：（i）适应最近的帧平均（FA）的框架，以建立通用的，高效的，最大限度地表达等变的自编码器;和（ii）构建自编码器等变的分段欧几里得运动应用到不同的部分的形状。据我们所知，这是第一个完全分段欧几里德等变的autoencoder建设。训练我们的框架很简单：它使用标准的重建损失，并且不需要引入新的损失。我们的架构是建立在标准（骨干）架构与适当的帧平均，使他们等变。在使用隐式神经表示的刚性形状数据集和使用基于网格的神经网络的铰接形状数据集上测试我们的框架显示了对看不见的测试形状的最新概括，大幅改善了相关基线。特别是，我们的方法在推广到看不见的关节姿势方面表现出显着的改进。1. 介绍学习形状空间是找到输入训练形状集合的潜在表示的任务，该输入训练形状集合很好地概括了看不见的测试形状。这通常在自动编码器框架内完成，即编码器Φ：X→Z，将X中的输入形状（在某些3D表示中）映射到潜在空间Z，以及解码器Φ：Z→Y，*在NVIDIA实习期间完成的工作。将Z中的潜在表示映射回形状Y（可能是X之外的其他3D表示）。许多形状集合显示对称性。也就是说，不改变形状的本质的例如，将欧几里德运动（旋转、反射和/或平移）应用于诸如一件家具的刚性对象将产生该对象的等效版本类似地，相同的铰接身体（诸如动物或人）可以在空间中呈现不同的姿势。在形状空间学习中结合对称性的自然方式是需要映射到潜在空间，即，编码器;以及从潜在空间，即，解码器，是等变的相关对称。也就是说，将对称性应用于输入形状并且然后对其进行编码将导致应用于原始形状的潜在代码的相同对称性。类似地，从经变换的潜在码重构在形状空间学习中施加等方差的主要好处是实现了非常有用的归纳偏差：如果模型已经学习了单个形状，它已经可以完美地泛化到所有对称版本！不幸的是，即使在全局欧氏运动的假设更简单的设置中，构建一个既有表现力又有效率的等变神经网络已知唯一通用于欧氏运动等变函数的架构是张量场网络[17，49]和组平均[8，57]，两者都是计算和内存密集型的。其它体系结构，例如，向量神经元[15]在计算上是有效的，但并不普遍。在本文中，我们提出了一个新的框架，用于构建灵活，高效和最大表达力的形状空间学习的等变编码器和解码器（即，通用的）。特别是，我们介绍了两个贡献：（i）我们将最近的帧平均（FA）框架[39]适应于形状空间学习，展示了如何有效地构建强大的形状自编码器。该方法是通用的，易于适应不同的架构和任务，其训练只使用标准的自动编码器重建损失，而不需要引入新的损失。（ii）我们同意─632∈构造我们认为是第一个完全等变于形状部分的关节连接的人体我们已经在两种类型的形状空间学习任务上测试了我们的框架：从图像序列中提取的真实输入点云学习形状的隐式表示[42]，以及学习人类（身体和手）和动物形状空间的网格变形[1，6，31，62]。在这两个任务中，当与相关基线相比时，我们的方法产生了最先进的结果，与亚军相比通常显示出较大的裕度，证明了使用帧平均和等方差注入的感应偏置的功效。2. 相关工作欧氏等变点网络原始点云网络，如PointNet [40，41]，PCNN [4]，PointCNN [26]，Spider-CNN [56]和DGCNN [52]是置换等变的，但不是欧几里得等变的。因此，这些架构通常难以概括转换和/或旋转的输入。欧氏等变点云网络是一种有用的归纳偏差，因此欧氏等变点云网络的研究受到了广泛的关注。欧几里得不变性可以通过根据点之间的距离或角度[16，60]或从输入点云的法线测量的角度和距离定义网络层来实现[20]。其他作品使用一些局部或全局坐标系对局部邻域进行编码，以实现旋转和平移的不变性。[16，55，58]使用PCA来定义旋转不变性。等方差是自动编码器的理想特性。一些作品使用旋转群的表示理论（例如，球面谐波），以建立旋转等变网络[29，53，54]。张量场网络(TFN)[19，43，49]实现平移和旋转的等方差。然而，TFN架构是为旋转量身定制的，并且需要高阶特征以实现通用性[17]。最近[15]提出了一种利用旋转群的前两个不可约表示（张量特征）对特征进行编码的旋转等变网络，并在特征之间构造线性等变层以及等变非线性。这种架构并没有被证明是通用的。另一种实现欧几里德等效的方法是通过组平均或卷积[57]。[12使用球面卷积来实现旋转或欧几里得等方差。[8]表示6D欧几里德群的平均。最近，[39]建议帧平均（FA）作为构建等变架构的通用方法，这些架构具有最大的表达能力，并且通常提供比组表示或平均技术更有效的计算内隐形状空间学习。从输入点云学习神经隐式表示是通过将符号距离函数回归到表面[35]或发生概率[10，32]来完成的。输入点云通常使用类似PointNet的编码器[40，59]或自动解码器[35]在潜在空间中编码。[2，3]将无符号距离回归到输入点云，避免了训练隐式函数监督的需要。正常数据和梯度损失可以用来改善学习隐式的训练和保真度[3，21，27，47]。通过使用空间变化的潜码实现了更高的空间分辨率[11，37]。上述工作没有纳入Eu-clides等变。据我们所知，[15]是第一个将欧几里得等方差纳入隐式形状空间学习框架的人。隐式表示通过将隐式表示与一些后向参数变形（如线性混合蒙皮（LBS）[23，33，44]，位移）和/或旋转场[36，38]和流[5，34]。NASA [14]建议将可变形组件的集合组合起来，这些组件使用在反转每个组件的欧几里德变换后采样的单个占用网络表示。SNARF [9]应用LBS运算符的近似逆，然后是占用查询。NASA和SNARF都在单个形状上工作，并且不学习姿势的潜在表示。网格形状空间学习。网格形状空间通常表示为分配给固定模板网格的坐标，并且GNN用于学习它们的坐标和潜在表示[22，24，28，50]。[25]使GNN适应表面，提倡狄拉克算子将信息从节点传递到面，反之亦然。[24，28]使用可变自动编码器（VAE）来改进泛化。我们在这个领域的最新相关工作是[22]，建议纳入尽可能刚性（ARAP）[48，51]变形损失，以鼓励形状的局部部分的欧几里得运动。3. 方法3.1. 分类：集团行动在这项工作中，我们考虑表示形状和特征空间的向量空间。在下文中，我们用一般术语定义这些向量空间，并指定不同的对称群如何我们用大写字母来表示向量空间，例如，V，W，X，Y，Z.我们使用两种类型的向量空间：i）Ra+b×3，其中a，bN≥0分别是不变维数和等变维数; ii）C1（R3），连续可微标量体积函数空间。本文所考虑的对称性是R3中的欧氏运动群，记为E（3）=O（3）<$R3，其中O（3）是正交矩阵633∈∈→{|}∈ ∈⊂∈∈∈∈FF →\N→≥∈FURb×3，我们简单地通过应用变换为等变部分：1（V）=|F（V）|（g）−1V·FWVR3×3组。我们将这个组中的元素表示为对g=（R，t），其中RO（3）和tR3，其中默认向量总是列向量。G在向量空间V上的作用，记作ρV，定义如下。首先，设V=（u，U）∈V=Ra+b×3，对于所有g G，VV，其中对于集合A G，我们定义（像往常一样）gA=ga A，并且等式5中的等式应该在集合的意义上理解然后，如[39]中所示，任意的映射：V W可以通过在等变框架上求平均来等变：由一个不变部分u ∈ Ra和一个等变部分n组成。ΣρV（g）V=（u，URT+1tT）（1）其中g=（R，t）E（3），1Rb是所有1的向量。其次，对于fV=C1（R3），我们使用变量的变化来定义动作：（ρV（g）f）（x）=f（RT（x-t））（2）对所有x∈R3和g=（R，t）∈G.3.2. 形空间与等变性我们考虑输入形状空间X，潜在空间Z和输出形状空间Y，表示R3中的形状。所有三个空间X，Z，Y都是如上所述的向量空间，每个空间都被赋予欧几里得群G=E（3）的作用（使用等式1或2），分别表示为ρX，ρZ，ρY。我们的目标是学习编码器Φ：X→Z和解码器该运算符称为帧平均（FA）。FA的另一种方法是全群平均[8，57]，这相当于用G上的积分代替方程6中对（V）的求和。全组平均还提供了等方差和普适性。然而，FA的关键好处是，它只需要在不牺牲表现力的情况下对少数群体元素进行平均相反，在整个群E（3）上求平均值需要近似6D积分（具有无界平移部分）。因此，它只能是近似的，并且是内存和计算密集型的[8]。框架结构。我们在本文中使用的所有框架都具有以下形式：V2G对于V=Rd×3，G=E（3），作用量如公式1所定义。在某些情况下，我们进一步假设具有某个非负权重向量w=（w1，. . .，wd）∈Rd.给定V∈V= Rd×3：Z Y是等变的。也就是说，给定一个E（3）变换的输入，ρX（g）X，我们希望它的潜在代码为我们定义第一，0使用加权PCA的F（V）ΔE（3），如下所示。1满足Φ（ρ （g）X）=ρ（g）Φ（X），（3）t=1TwVTw（7）X Z以及它的重建以满足<$（ρZ（g）Z）= ρY（g）<$（Z）。（四）这样的X，Z，Y被称为可操纵空间[13]。下面的交换图总结了编码器、解码器和变换组动作之间的相互作用：是加权质心协方差矩阵为R3×3C=（V−1tT）Tdiag（w）（V−1tT），其中diag（w）Rd×d是一个对角矩阵，w沿其主对角线。在一般情况下（我们在本文中假设），C的特征值不重复，即， λ1λ2λ3 （关于理由参见例如，<<[7]）。设r1，r2，r3为相应的特征向量。框架定义为：ΦF（V）={（R，t）|R =[±r1，±r2，±r3]}，其中包含X ZY23= 8个元素。直观地说，V是R3中的点云，ρX（g）ρZ（g）ΦρY（g）它的坐标系（V）包含所有以V的加权质心为原点、以V的加权质心为轴的欧几里得运动。X Z Y3.3. 帧平均⟨ϕ⟩g∈F（V）ρ（g）ρ.（六）634F →\n∈→我们将使用帧平均（FA）[39]来构建Φ，Φ。FA允许构建计算效率和最大表达的等变网络。一个框架就是一张地图：V2G.即，对于每个元素V，它提供群G=E（3），F（V）<$G的一个非空子集。框架F称为等变的，如果它满足F（ρV（g）V）=gF（V）（5）加权的主要方向。以下证明补充问题中的命题1.提案框架F是等变的。3.4. 形状空间实例全局欧几里德：网格。在这种情况下，我们希望学习与全局欧几里得运动等变的网格编码器和解码器。我们考虑了形空间X=Y=Rn×3，它表示了某个固定n-顶点的所有可能的坐标赋值635∈∈∈→→→.Σ⟨ ⟩F ⟨ ⟩F→→∈∈j=1.Σ联系我们K×· ·· ×∈→∈→→联系我们×→Σ模板网格潜空间定义为Z=Rm+d×3，由形式为Z=（u，U）Z的向量组成，其中uRm部分包含不变特征，URd×3部分包含等变特征.群作用量ρX、ρZ、ρY如等式1所定义。我们通过FA（等式6）来定义我们的编码器Φ和解码器Φ，即，Φ =ϕ，则=ψ其中框架如第3.3节中所定义，具有恒定权重w=1，：X Z和：Z Y是适用于网格的标准 GNN （实现细节在第 4 节中提供）。全局欧几里得：点云隐式。这里我们采用[15]的设置，其中X=Rn×3表示R 3中所有可能的n点云，Y=C1（R3）包含R 3中a形状的隐式表示。也就是说，对于f∈Y，我们考虑它的零原像，f−1（0）= x∈ R3|f（x）= 0（8）我们在R3中的形状表示。如果0是f的正则值，则隐函数定理意味着f−1（0）是R3中的曲面。f的正则值r∈ R意味着在每一个原像x∈f−1（r）处，梯度不变化，图1.分段欧几里得：网格。每个部分的等变编码都使用相同的编码骨干.类似地，相同的卷积骨干被用于每个部分最后，最终的预测是每个部分的等变输出网格的加权和分段欧几里得：网格。在这种情况下，我们将我们的框架推广到应用于不同对象部分的不同欧氏运动的等变（见图1）。我们考虑（如前所述）形状空间X=Y=Rn×3，它表示某个固定n顶点模板网格的顶点的所有可能的坐标分配使用划分权重矩阵（例如，如线性混合蒙皮中所用）WRn×k，其中Wi，j[0，1]表示第i个顶点属于ish，pk10f（x）0的情况。潜空间又是Z= Rm+d×3，∈第j部分，以及Wi，j= 1时。潜在空间具有由形式为Z=（u，U）Z的向量组成。AC-如等式1所定义，而作用ρY的定义如公式2所示。定义ρY的动机是ρY（g）f将f表示的形状，即f −1（0），变换为g：（ρY（g）f）−1（0）= x |f（RT（x −t））= 0={Rx + t|f（x）= 0}=Rf−1（0）+t编码器被定义为Φ =Φ ，其中框架形式Z=Z1Zk，其中ZjRm+d×3。注意如上所述，k= 1表示全局欧几里德运动的情况动作ρX，ρY，ρZj，j[k]=1，. -是的-是的，k，如等式1中所定义。最后，我们定义编码器和解码器，Φ（X）=.Fj（Xj）|j∈[k]（10）（Z）=如F3.3节所述计算，权值w=1，且x：X Z是点云网络（实现细节在第4节中提供）。由于解码器需要输出Y中的元素，Y是一个函数空间，我们定义解码器为：（Z）=其中Z×R3=Rm+3×（d+1）→R. Following[15]，使解码器作为映射Z等变 →Yj=1其中，X：X Z，X：Z Y是如上所述的图形神经网络（GNN）;XjX是每个零件的几何形状，其中所有其他顶点都映射到零件wT XXj=（1−wj）wT1+wj<$X，wj=W：，j是矩阵W的第j列，每个部分的框架F j的定义与第3.3节中的权重相同这就足以说明，在适当的情况下，wj. 该零件的潜码为Zj = Fj （Xj ） ∈ Zj。吃行动。即，等式1中的作用应用于V=Rm+3 ×（d+1），W=R，其中后者只是提供不变性的平凡作用，即ρR（g）≠1。反对意见2. 如果f是等变的，则f是等变的。因此，解码器被定义为：对于向量a∈Rn和矩阵B∈Rn×3，我们定义a B乘以（a B）i，j= aiBi，j。如果使用硬砝码，W0，1n×k，该结构保证了部分等变性。也就是说，如果输入形状X ∈ X的第j部分被变换为gj∈G，j∈[k]，即，ZR3R是一个MLP（实现细节是在第4节中提供），并且框架如第3.3节中定义，具有恒定权重w=1。KX′=wj<$（ρX（gj）X）j=1636Σ∈→⊂{−}Σ¨¨¨¨→Σ1L→i=1→∈∈→Σ1LNN.Σ则相应的潜在代码Zj将被trans-t-j。由ρZj（gj）构成，即Zj′=ρZj（gj）Zj并且解码的网格也将相应地变换，KY′=wj<$（ρY（gj）Y）.j=1定理1. 等式10和11中的编码器和解码器是部分等变的。在实践中，我们使用允许[0，1]中的值的平滑加权矩阵，即，W[0，1]n×k，为了更好地处理部件之间的过渡区域，损失了一些精确的部件等方差表1.全局欧几里得网格形状空间实验; DFAUST[6]数据集，详见正文。minf（x）g（x）2，f（x）+g（x）2.上述积分的范围，即ΔR3，是根据场景的边界框来设置的. 实际上，积分近似为使用Monte-Carlo抽样进行交配。请注意，这种重建损失是无监督的（即，仅使用输入原始点云）。VAE损失的定义也如[3]中所述，N4. 实现细节在本节中，我们提供了主要的实施细节，更多细节可以在补充文件中找到。（θ）=µ（i）1i=1其中，n·n1表示1-范数。5. 实验+η（i）+1，（15）1网眼网眼。KNN，KNN的骨干架构是一个6层GNN，与[22]中使用的完全相同;每个实验的层和隐藏特征的具体尺寸在补充附录中详细说明。我们用θ表示两个网络的可学习参数。训练损失是以下形式的标准自动编码器重构损失：我们已经在两种对称G下测试了我们的FA形状空间学习框架：全局欧几里得变换和分段欧几里得变换。5.1. 整体欧几里得在这种情况下，我们在网格中测试了我们的方法。Nrec（θ）=Ni=1（Φ（X（一）））−X（一）中文（简体）网格和点云→隐式设置。网眼网眼。在这个实验中，我们考虑使用参数化的人类网格的DFaust数据集[6]，其中，F·F是Frobenious范数，X（i）⊂Rn×3是从形状空间的训练集中抽取的一批点云隐式。骨干编码器架构完全如[32]中所述，由PointNet [40]构建，具有 4 层。解码器是如[3]中的MLP，具有8个层，每个层具有512个特征我们训练了一个VAE，其中潜在空间为Z=Rd+m+d×3，包含形式为（μ，η）的代码，其中μRm+d×3是潜在平均值，ηrld是不变的潜在对数标准差为了训练VAE，我们使用两种损失L（θ）=Lsald（θ）+0. 001L（θ），（13）其中Lsald是SALD损失[3]，SMPL [30].该数据集由41，461个人体形状组成，其中随机分割用于生成37，197个模型的训练集和4，264个模型的测试集。我们使用了与[22]中相同的生成数据和分割。我们生成了两个随机定向模型的额外测试集：围绕向上轴随机旋转的模型（均匀），用z表示，以及随机旋转的模型（均匀），用SO3表示。我们用I表示原始的对齐测试集。我们将我们的全局欧几里得网格自动编码器与以下基线进行比较：Vanilla Graph自动编码器，由AE表示;以及用随机旋转增强训练的相同AE，由AE-Aug表示。注意，用于AE和AE-Aug的架构与用于我们的FA架构的骨干架构相同。表1报告了各种测试的平均每顶点欧几里得距离（MSE）Nsald（θ）=Ni=1∫τ（N（µΩ（一），η（i）（h）（x）dx（14）集合：I，z和SO3。请注意，FA在所有测试中都优于基线。点云→隐式。在这个实验中，我们考虑其中（μ（i），η（i））=Φ（X（i）），（a，b）是轴对齐的高斯i.i.d.。具有平均值a和标准偏差exp的样品（诊断（b））。h（·）是到X（i）的无符号距离函数，τ（f，g）（x）为||f（x）|−g（x）|+的CommonObject3D数据集[42]包含来自50个不同类的19k个对象。我们仅使用了使用COLMAP [45]从视频中提取的观测点云。点云非常嘈杂且不完整（请参见L方法我z高级官员（3）AE5.169.9615.41AE-Aug5.225.865.12我们4.394.354.66637→→→→∈泰迪熊瓶行李箱香蕉方法d→CDCd→CDCd→CDCd→CDCVAE5.112.6110.4190.2250.6190.3410.309 0.177越南[15]0.0470.4210.6380.3340.3480.2180.157 0.087我们的0.0460.4510.2260.1290.0790.0860.1180.074表2.全局欧几里得点云隐式形状空间实验; CommonObject 3D[42]数据集。图2.全局欧几里得点云隐式，定性测试结果; CommonObject3D [42]数据集。例如，图2，其中输入点云显示为红色），提供了一个“真实”的挑战性数据集。请注意，我们没有使用任何其他监督的内隐学习。我们使用了4个对象类别：泰迪熊（747个点云），瓶子（296个点云），行李箱（480个点云）和香蕉（197个点云）。我们根据70%-30%的划分将每个类别随机划分为训练集和测试集。我们比较以下基线：变分自动编码器，由VAE表示;向量神经元[15]这个VAE的版本，表示为VN。我们使用了官方的VN实现。对于我们的方法，我们使用了相同基线VAE架构的FA版本。表2报告了测试集上的错误度量：d→C这意味着一个从输入点云到生成的形状和表示对称Cham- fer距离的dC（关于精确定义，参见补充材料）。请注意，我们的方法在几乎所有情况下都改进了对称倒角度量图2显示了每个类别中的一些典型重建implanet（轮廓绘制后），以及输入测试点云（红色）。质量我们的框架提供了一个更忠实的重建，即使在这种chal-cheating嘈杂的情况下，没有监督。注意，对于5.2. 分段欧几里得网眼网眼。在这个实验中，我们考虑三个不同的数据集： DFaust [6] ， SMAL [62] 和 MANO [43] 。对于DFaust数据集，我们使用训练测试拆分，难度越来越高：如上所述，随机拆分来自[22]的训练测试;看不见的随机姿势-从每个人身上重新移动随机（不同）姿势序列并将其用作测试;以及看不见的姿势-从所有人身上移除相同的姿势序列并将其用作测试。SMAL数据集包含不同姿势的四条腿动物。我们使用[22]中生成的400个形状的数据，随机分为300个训练集和100个测试集。MANO数据集包含不同姿势的真实人手的3D模型使用MANO SMPL模型，我们生成了150个形状，随机分为100个训练集和50个测试集。我们将我们的方法与以下基线进行了比较：Vanilla自动编码器，由AE和ARAPReg表示[22]，报告了该数据集的最新结果。请注意，AE和我们的方法都使用相同的主干架构。ARAPReg，报告自动解码器在他们的实验中是优越的，因此我们比较了版本。请注意，所有比较的方法都有相同的（骨干）解码器架构.图3示出了测试集上的典型重构结果：绿色标记随机（容易）分裂;橙色标记随机未看见的姿势分裂;以及红色标记全局未看见的姿势分裂。请注意，我们的方法能够产生非常高保真的地面实况近似值，在视觉上改善基线中的伪影、噪声和不准确性（放大查看细节）。最后，我们注意到，我们还使用分区蒙皮权重矩阵（在单个静止姿态模型上定义）作为ARAPReg未使用的额外方法随机不可见随机姿态不可见姿态SMAL马诺AE5.457.996.279.111.34ARAPReg4.527.773.386.681.15我们1.681.891.902.440.86表3.分段欧几里得网格实验; MSE误差（越低越好）; DFaust[6]，SMAL [62]和MANO [43]数据集。形状空间中的插值。在这个实验中，我们给出了插值两个潜码Z（j ）=（q（j ），Q（j ））的定性结果。Z，j=0，1，使用我们的编码器针对两个输入形状X（j），j= 0，1计算。我们使用编码器和解码器在上面描述的“看不见的姿势”分裂中学习由于Z是一个等变特征空间，如果X（1）是X（0）的欧几里德变换版本，即，X（1）=ρX（g）X（0），则等方差意味着Z（1）=ρZ（g）Z（0）。因此，在这种情况下，插值应该通过找到Z（0）和Z（1）的等变部分之间的最佳旋转和平移，并连续地将Z（0）旋转和平移到Z（1）来完成。这可以使用旋转的闭合形式解来完成。638→∈∈→图3.分段欧氏网格，定性结果; DFaust [6]数据集。颜色标记不同的分割：绿色是随机（容易）分割;橙色是看不见的随机姿势分割;红色是看不见的姿势分割，请参阅文本了解详细信息。我们的方法在不同难度级别的拆分中展示了一致的高质量结果。Procrustes问题（参见例如，[46，61]）。对于两个一般的代码Zj，我们使用这个过程，同时线性地添加后，消除最佳的旋转和代码之间的平移的残余差异在补充中，我们提供了表示为Zt，t[0，1]的该插值的完整推导。图4示出了利用学习的解码器对内插的潜在码Zt，t[0，1]进行解码的结果。请注意，形状和姿态都优雅而自然地沿着插值路径变化。与隐式条件方法的比较。最后，我们在AMASS的DFaust子集上训练了我们的分段欧几里得网格网格框架[31]。根据[9]中定义的方案，我们对10名受试者中的每一名进行了我们使用SNARF [9]和NASA [14]作为基线。表4报告了定量误差指标：使用界内采样的区间对并集（IoU）639→→→→内分布出分布IoU bboxIoU曲面IoU bboxIoU曲面NASASNARF我们NASASNARF我们NASASNARF我们NASASNARF我们5000296.56%97.50%98.67%84.02%89.57%93.28%87.71%94.51%96.76%百分之六十点二五百分之七十九点七五85.06%5000496.31%97.84%百分之九十八点六四85.45%91.16%94.57%86.01%95.61%96.19%62.53%83.34%85.84%5000796.72%百分之九十七点九六98.62%86.28%91.02%94.11%80.22%93.99%95.31%51.82%77.08%81.91%50009百分之九十四点九六96.68%百分之九十七点七五84.52%88.19%92.84%78.15%91.22%百分之九十四点七五55.86%75.84%84.60%50020百分之九十五点七五96.27%97.61%87.57%88.81%92.60%83.06%93.57%百分之九十五点一七62.01%81.37%85.66%50021百分之九十五点九二96.86%百分之九十八点五五87.01%百分之九十点一六95.38%81.80%93.76%96.35%65.49%81.49%88.86%5002297.94%百分之九十七点九六98.39%91.91%92.06%93.68%87.54%94.67%96.12%70.23%83.37%85.80%50025百分之九十五点五百分之九十七点五四98.48%86.19%91.25%94.74%83.14%94.48%百分之九十五点九九60.88%82.48%86.58%5002696.65%97.64%98.61%87.72%91.09%94.64%84.58%94.13%96.45%59.78%80.01%87.10%5002795.53%96.80%97.95%86.13%89.47%93.46%83.97%93.76%95.61%61.82%81.81%86.60%表4.分段欧几里得网格→网格，与隐式连接方法的比较[6]和[1]数据集。图4.在来自“看不见的姿势”分割（最左和最右列）的两个测试示例之间的等变潜在空间中的插值ing box（bbox）和靠近表面，详见补充资料。图5显示了来自“分布外”集的测试重建与SNARF的比较。我们注意到，我们的设置比SNARF和NASA所面临的设置更容易一些（我们使用固定的网格连接和蒙皮权重执行网格网格学习;蒙皮权重由NASA使用，并由SNARF学习尽管如此，我们不假设或强加任何东西在潜在空间上，除了欧几里得等方差，不显式地使用输入姿势，并且仅用简单的重建损失进行训练（参见等式12）。在此免责声明中，我们注意到，与基线相比，我们在定性和定量方面都改善了重建误差。6. 局限性和今后的工作我们已经介绍了一种通用的方法，用于在形状空间学习的背景下，通过构造将对称性并入编码器和/或解码器。使用帧平均，我们展示了如何构建有表现力但有效的等变自编码器。我们实例化了我们的框架工作的情况下，全球和分段欧几里德运动，以及网格网格，点云ims。明确的情节在所有实验中，我们都取得了最先进的定量和定性结果。我们的方法有几个局限性：首先，在网格网格的情况下，我们使用固定的连接和蒙皮权重。640图5.在“分布外”测试集上与SNARF进行比较将分段欧几里得的情况推广到隐式表示，处理具有多个对象的大规模场景，或学习蒙皮权重将是未来的工作。尝试使用线性混合蒙皮来定义E（3）k的群作用也很有趣。最后，使用这个框架来探索其他对称类型，几何表示（包括图像，点云，implant和mesh）的组合以及不同的架构可能会导致令人兴奋的新方法来学习和使用计算机视觉中的形状空间。641引用[1] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制。在 Proceedings of the IEEEconference on computer vision and pattern recognition，第1446-1455页[2] Matan Atzmon和Yaron Lipman。销售：从原始数据中学习形状的符号不可知性。In Proceedings ofIEEE/CVF计算机视觉和模式识别会议，第2565-2574页，2020年。[3] Matan Atzmon和Yaron Lipman。SALD：符号不可知学习与衍生物。第九届国际学习表征会议，ICLR 2021，2021。[4] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络。ACM Transactions onGraphics（TOG），37（4）：1[5] Matan Atzmon，David Novotny，Andrea Vedaldi，andYaron Lipman.用显式变形场增强隐式神经形状表示。arXiv预印本arXiv：2108.08931，2021。[6] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J.黑色. 动态浮士德：登记人体运动。在IEEE会议计算机视觉和模式识别（CVPR），2017年7月。[7] 保罗·布雷丁，哈扎夫·科扎索夫，安东尼奥·莱里奥.关于重特征值对称矩阵集的几何。Arnold MathematicalJournal，4（3）：423[8] 陈海伟，刘世晨，陈伟凯，李浩，和冉德尔希尔.三维点云分析的等变点网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第14514-14523页，2021年。[9] Xu Chen ， Yufeng Zheng ， Michael J Black ， OtmarHilliges，and Andreas Geiger. Snarf：用于动画非刚性神经隐式形状的可区分向前蒙皮。arXiv预印本arXiv：2104.03953，2021。[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页[11] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE/CVF计算机视觉和模式识别会议论文集，第6970-6981页[12] TacoSCohen， MarioGeiger ， JonasK？hler ，andMaxWelling.球形cnns。在2018年国际学习代表会议上[13] Taco S Cohen和Max Welling。可控cnn。arXiv预印本arXiv：1612.08498，2016.[14] Boyang Deng ， John P Lewis ， Timothy Jeruzalski ，GerardPons-Moll ， GeoffreyHinton ， MohammadNorouzi，and Andrea Tagliasacchi.美国宇航局神经关节形状近似。在计算机Springer，2020年。[15] Congyue Deng ， Or Litany ， Yueqi Duan ， AdrienPoulenard，Andrea Tagliasacchi，and Leonidas J Guibas.向量神经元：SO（3）-等变网络的一般框架. IEEE/CVF计算机视觉国际会议论文集，第12200-12209页，2021年[16] Haowen Deng ， Tolga Birdal ， and Slobodan Ilic.Ppf-foldnet：旋转不变3d局部描述符的无监督学习在欧洲计算机视觉会议（ECCV）的会议记录中，第602-618页[17] Nadav Dym和Haggai Maron。关于旋转等变点云网络的普适性。在2020年的学习代表国际[18] Carlos Esteves 、 Christine Allen-Blanchette 、 AmeeshMaka- dia和Kostas Daniilidis。用球面cnn学习so（3）等变在欧洲计算机视觉会议（ECCV）的会议中，第52[19] Fabian Fuchs，Daniel Worrall，Volker Fischer，and MaxWelling. Se（3）-transformers：3d旋转平移等变注意网络。神经信息处理系统的进展，33，2020。[20] Zan Gojcic 、 Caifa Zhou 、 Jan D Wegner 和 AndreasWieser。完美匹配：平滑密度的三维点云匹配。在IEEE/CVF计算机视觉和模式识别会议论文集，第5545-5554页[21] Amos Gropp、Lior Yariv、Niv Haim、Matan Atzmon和Yaron Lipman。用于学习形状的隐式几何正则化在Proceedings of Machine Learning and Systems 2020中，第3569-3579页。2020年。[22] 黄启兴，黄相如，孙波，张再伟，姜俊峰，昌德拉吉.Arapreg：一个尽可能刚性的正则化损失，用于学习可变形形状生成器。IEEE/CVF计算机视觉国际会议论文集，第5815-5825页，2021年[23] Timothy Jeruzalski，David IW Levin，Alec Jacobson，Paul Lalonde ， Mohammad Norouzi ， and AndreaTagliasacchi. Nilbs：神经逆线性混合蒙皮。arXiv预印本arXiv：2004.05980，2020。[24] Boyi Jiang ， Juyong Zhang ， Jianfei Cai ， and JianminZheng.基于深度层次神经网络的人体去纠缠嵌入。IEEEtransactions on visualization and computer graphics，26（8）：2560[25] Ilya Kostrikov，Zhongshi Jiang，Daniele Panozzo，DenisZorin，and Joan Bruna.地面网络。在IEEE计算机视觉和模式识别会议论文集，第2540-2548页[26] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积神经信息处理系统的进展，31：820[27] 亚龙·李普曼相变、距离函数和隐式神经表征。arXiv预印本arXiv：2106.07689，2021。[28] 或者 Litany ， Alex Bronstein ， Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在IEEE会议642计算机视觉和模式识别会议，第1886-1895页[29] Min Liu ，Fupin Yao ，Chiho Choi，Ayan Sinha，andKarthik Ramani.使用alt-az各向异性2球卷积深度学习3d形状。在2018年国际学习代表会议上[30] Matthew Loper 、 Naureen Mahm

下载后可阅读完整内容，剩余1页未读，立即下载