自监督的LBS自动编码器用于拟合铰接的网格点云

135 浏览量更新于2023-10-18 收藏 1.75MB PDF 举报

点云配准

无监督方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11967LBS自动编码器：铰接网格点云自监督拟合李春亮1，托马斯·西蒙2，杰森·萨拉吉2，巴纳布·阿的波茨1，亚瑟·谢赫1，2卡内基梅隆大学和2Facebook现实实验室{chunlial，bapoczos}@ cs.cmu.edu{first name.lastname}@ fb.com摘要我们提出了 LBS-AE; a self-supervised autoencodingal- 出租 m for fitting articulated mesh models to pointclouds.作为输入，我们采取了一系列的点云要注册，以及艺术家操纵的网格，即。一个模板网格配备了一个线性混合蒙皮（LBS）变形空间参数化的骨架层次结构。作为输出，我们学习了一个基于LBS的自动编码器，该编码器从输入点云生成配准网格为了弥合艺术家定义的几何体和捕获的点云之间的差距，我们的自动编码器模型与模板几何体的姿势相关的偏差。在训练过程中，我们的方法利用LBS变形来引导学习过程，而不是使用显式的对应关系，如关键点或姿势为了避免错误的点对点对应关系导致的局部最小值，我们利用了基于部分分割的结构化倒角距离，这些部分分割是使用自我监督同时学习的。我们展示了真实捕获的手的定性结果，并报告了对身体登记的FAUST基准的定量评估。我们的方法实现的性能优于其他无监督的方法和com-parable使用监督的例子的方法。1. 介绍非结构化点云到普通网格的配准是计算机视觉中的一个重要问题，在过去的几十年里得到了广泛的研究。这方面的工作可以粗略地分组，以gether的基础上有多少先验知识和监督纳入拟合方法。在频谱的一端，有完全无监督和对象不可知的模型，如FoldingNet[49]或PockasNet [13]。这些方法学习使平坦的2D表面变形以匹配目标几何形状，同时除了它们可以表示为2D表面之外，不对被建模的对象进行任何假设添加稍微更多的先验知识，3D编码[12]使用模板网格（例如，手或身体）具有更适合于感兴趣对象的拓扑输入分割模板变形重建（a）（b）（c）（d）（e）图1：给定从输入形状的表面采样的点云（a），我们的模型推断出粗略的分割（b），并通过模板的变形（d）以及由LBS参数化的姿势变形的组合来学习变形给定的模板（c）以匹配重建（e）。我们使用结构化的Chamfer距离，其使用数据（b）的推断分割作为粗略对应来测量匹配区域之间的距离，以避免Chamfer距离中的局部最优值。在光谱的另一端是针对特定对象的高度特殊化的模型，例如手和身体。这类作品包括SCAPE [2]、Dyna[34]、SMPL [28]和MANO [38]。这些模型是使用高分辨率3D扫描建立的，具有对应性和人性化。他们为不同的姿势和模式（例如，身体类型）并且可以用作高质量的几何生成模型许多作品学习操纵这些模型，以根据不同的监督来源拟合数据，例如关键点[6，22，31，15]和/或模型参数的先验分布[18，17]。在本文中，我们提出了一种无监督/自监督算法，LBS自动编码器（LBS-AE），以适应这种关节网格模型的点云数据。所提出的al-出租m在两种意义上是上述频谱两端的中间地带。首先，我们假设对象类的铰接模板模型是可用的，但不是它在我们的数据集中的铰接的统计数据我们认为，这种先验信息是广泛适用于许多共同感兴趣的对象的形式11968i=1i=1FF·i=1∈--F·----或“蒙皮”网格模型，其通常由艺术家创建以用于动画。除了描述几何形状的模板网格之外，这些现有模型还有两个组件：（1）描述自由度的变换的运动学层次，以及（2）定义层次中的变换如何影响每个网格顶点的蒙皮函数。这允许通过操纵模型中的变换来注册到数据。一个常见的例子是线性混合皮肤（LBS）。因此，我们不是依靠深度网络从单个模板学习完整的变形过程[12]，而是利用LBS作为解码器的一部分来建模粗糙的与手工制作的模型（如SMPL [28]）不同，LBS本身并不对模板和数据之间的姿势相关校正进行建模，也不对非关节形状变化的空间进行建模（例如，身体形状）。为了对这些进行建模，我们还允许我们的网络学习模板网格的变形，当由LBS构成时，这些变形会导致更好地拟合数据。因此，编码器学习潜在表示，从该潜在表示，编码器可以推断由LBS变形使用的关节角度以及对模板网格的校正变形。第二，为了在训练过程中将模型拟合到数据，实验室要么依赖于明确的监督（例如，对应性[12]和关键点[15]）或无监督的最近邻搜索（例如，倒角距离（CD）[49]），以找到模型和数据之间的点对应关系，用于测量重建损失。而不是使用外部监督，我们引入了一个我们的想法是将点云分割成相应的区域（我们使用由LBS权重定义的区域）。在对输入点云和模板进行分割后，我们在相应区域之间应用最近邻搜索作为高级对应。挑战是我们不假设外部监督可用于输入点云。相反，我们利用学习的LBS-AE模型来生成自我监督，从头开始训练分割网络。随着LBS-AE拟合在训练期间得到改善，来自用于分割的自监督的训练数据也得到改善，从而改善了对真实数据的分割。然后，我们能够使用改进的分割来实现更好的对应性，进而实现更好的LBS-AE模型拟合。在本文中，我们提出了一个联合训练框架，同时学习这两个组件。由于LBS-AE不需要任何明确的对应关系或关键点，因此它类似于姿态估计文献[ 42，9 ]中有时被称为“无监督”的方法在这项工作中，我们表明，空间的变形去-由艺术家定义的装备描绘的图像有时可能已经被充分约束以允许拟合到真实数据而无需任何附加的标记。这种没有额外监督的模型拟合流水线具有通过需要更少的人工标记工作来简化几何配准任务的潜力。例如，当将艺术家定义的手部装备拟合到手部的点云时，我们的方法允许无监督的手部姿势估计。当将身体模型拟合到身体数据的3D扫描时，这允许恢复身体的关节角度以及配准网格顶点。在实验中，我们提出了拟合真实的手，以及基准身体数据上的SURREAL和FAUST数据集的结果。2. 该方法我们建议学习一个函数（），该函数将非结构化点云X=xn作为输入，其中每个xi是一个3D点，n是一个变量，并产生一个固定数量m的对应顶点V=v im作为输出，其中V=（X）。顶点V形成具有固定拓扑的网格，其几何形状应该与输入1的几何形状紧密匹配。我们不允许（）是由深度神经网络产生的任何任意变形（如[49，13]），而是强制输出由线性混合蒙皮（LBS）产生，以显式编码关节的运动我们允许额外的非线性变形（也由神经网络给出）来模拟与LBS近似的偏差。然而，与类似模型（如SMPL [28]或MANO [38]）的一个重要区别是，我们不会预先学习策展集上的非LBS变形空间（然后修复它们），而是在要对齐的数据上同时学习这些变形，没有额外的监督。线性混合皮肤我们首先简要介绍LBS [29]，这是拟议工作的核心构建组件。LBS将静止姿势的网格变形建模为应用于每个顶点的骨架骨骼变换的加权和。我们遵循[28]中概述的符号，这对我们的模型有很大的影响。具有J关节的LBS模型可定义如下V=M（Θ，U），（1）其中V是LBS之后的变形形状的顶点 LBS函数M采用两个参数，一个是基础网格（模板）的顶点U=u im，另一个是每个关节j相对于其父关节的相对关节旋转角度ΘRJ×3。如果Θ=0，则M（0，U）= U。LBS需要两个附加参数，蒙皮权重w和关节层次K。我们将考虑由艺术家定义的钻机固定它们。特别是，1请注意，虽然我们假设输入是点云，但它们也可以是网格的顶点，而不使用任何拓扑信息。11969·T∈→≈F1i=1(a) U（b）M（θ，U）（c）Ud图2：（a）模板网格，（b）使用关节角θ的模板LBS变形，以及（c）变形模板。w∈Rm×J定义了每个顶点x的权重，图3：LBS-AE。给定输入形状的点云X，我们将X编码为潜在代码φ（X）和推断的关节角度f（X）。解码器包含变形网络d以将模板U变形为Ud，然后使用LBS将Ud姿态化为Vd作为重建。ing到关节j和jwi，对于所有i，j=1。 K是关节等级制度每个顶点vi∈V可以写成：找到最近的邻居，我们通过反向传播来学习fvi=（I3，0）·Jj=1 wi，jTj（Θ，K）.Σui，1通过可微LBS V=M（f（X），U）的这种逐点损耗。还要注意的是，我们只对SGD训练方案下估计（3）在实践中，我们观察到，哪里j（Θ，K）SE（3）是变换矩阵，每个关节j，其编码来自其余关节的变换，在世界坐标系中，通过从根到j遍历层次结构K来构造对已设定的网格的姿势。由于每个vi由一系列线性运算构造，所以LBSM（Θ，U）相对于Θ和U是可微的。图2a和2b显示了一个简单的示例，该示例由SMPL [28]中的LBS组件构建。在这项工作中，LBS功能中使用的关节角度和模板网格都是由深度网络从输入点云数据中产生的，V=M（f（X），d（X，U）），（2）其中我们识别联合角度估计网络f，并且模板变形网络D，我们在下面描述给定在（1）中定义的LBS模型，目标是经由函数f ： XΘ 基于输入 X 回归关节角度，使得 M （ f（X），U）X。我们使用一个深度神经网络，它获取集合数据（例如，点云）作为f的输入[35，50]，但我们还必须指定如何从M（）中比较X和V。假设均匀采样表面（如分布匹配[26]或最佳传输）的损失不太合适，因为重建的点云通常会出现一定量的丢失数据和非均匀采样。相反，我们采用倒角距离（CD）[49]，定义为Lc（X，V）=PointNet [35]或DeepSet [50]架构，以改善目标损失是CD而不是相应的监督。在[49，26]中观察到类似的行为，其中算法可能需要数百万次迭代才能收敛。为了解决这个问题，我们利用LBS生成基于给定Θ′的数据，通过优化minLΘ= Δf（M（Θ′，U））-Θ′Δ2.它类似于环回损失[9]，确保f可以正确地重新解释M的模型与[9，17]不同，我们不假设先验姿势分布可用。我们的Θ′来自两个随机性的来源。一个是在给定的关节角度范围内的均匀分布（由艺术家定义的装备指定），第二个是我们均匀地扰动从具有小的均匀噪声的输入样本中推断的角度，当估计随着训练进行而改进时，其可以逐渐适应训练数据分布（参见第2.1节和图6）。模板变形虽然LBS可以表示大的姿势变形，但由于LBS的限制以及艺术家建模的网格与真实数据之间的差异我们将这种残差称为模型和现实之间的模态差距，并通过使用神经网络来产生由LBS构成的模板网格来减轻这种差异。变形网络d（φ（X），ui）取两个源作为1ΣnΣm2 2输入，其中u是是模板网格U中的每个顶点，ni=1xi− NV（xi）+mj=1n（vj）− NX（vj）n，（3）φ（X）是来自f中的中间层的特征，包含X的状态信息。这就产生了一个de-其中NV（xi）= arg minvj∈V<$xi−vj<$是最近形成的模板Ud={d（φ（X），u i）}m.一个例子是xi在V中的邻居。这也被称为迭代Clos- 注册文献[5]中的估计点（ICP）。后如图2C所示。在LBS之后，我们将变形和设定的网格表示为Vd=M（f（X），Ud），并表示为11970NC⊂CCNC∈联系我们22≈ǁǁL∈(a)输入（b）估计数图4：当我们试图将当前估计值（b）的中指移向目标（a）时，倒角距离在减小之前会增加，显示出难以克服的局部最优值。X（v）in X.在CD中，我们使用最近邻X（v）来近似X（v），这可能是错误的，如图4所示。代替在整个集合X上搜索最近邻X（v），我们建议在子集X′X内搜索，其中X（v）X′，通过消去X中的不相关点. 按照这个想法，我们将X划分为k个子集，X1。. . Xk，其中我们使用s（x; X）1，. . .，k来表示x属于哪个子集。一个理想的划分应该确保s（v;V）=s（X（v）;X）;然后，为了找到v的最近邻居，我们只需要考虑Xs（v）X。然后，我们将结构化倒角距离（SCD）定义为：Ls（X，V）=V=M（f（X），U）是初始模板。如果d是高容量的，则f（X）可以学习为LBS分量生成全零关节角度（忽略输入X），并且代替地用d解释所有变形。的1Σnni=1xi− NVs（x）（xi） 1ΣmMj=1vj− NXs（v）（vj）（五）即M（f（X），Ud）=M（0，Ud）=UdX，这简化了[12]的无监督版本. 而不是使用显式正则化来约束d（例如，d（φ（X），UB）），我们提出两个倒角距离的合成为.dΣ其中我们将s（x，X）和s（v，V）的符号简化为s（x）和s（v）。与从所有到所有查找最近邻居的CD相比，SCD通过利用数据的结构基于高层对应来使用区域到区域。与（4）类似，我们定义Lc2，λ=LcX，V+ λLc（X，V）.（四）、Σ（4）中的第二项强制f（X）学习正确的联合Ls2，λ=LsX，Vd+λLs（X，V）.（六）角度甚至没有模板变形。最后，我们遵循[18，12]并应用拉普拉斯正则化lap=LVd来促进变形模板的平滑性，其中L是从网格U及其面构造的离散拉普拉斯-贝尔特拉米算子。基于LBS的自动编码器所提出的算法可以被解释为一个编码器-解码器方案。联合和-在本文中，我们划分的顶点的基础上，在选定的粒度LBS蒙皮权重。手和身体数据的示例如图5所示，它使用了结构和我们的先验知识，图5：联合分区。gle regressor是编码器，它将X压缩为样式代码φ（X）和可解释的关节角度f（X）。与标准的自编码器不同的是，该编码器是通过在基本模板上结合一个人工设计的LBS函数和一个风格变形网络来构造的。我们将所提出的算法称为LBS-AE，如图3所示。2.1. 结构化倒角距离为了训练自动编码器，我们必须为不同的数据定义适当的重构误差在LBS-AE中，提供关于输入点云的信息的目标仅为CD（3）。然而，众所周知，CD有许多不理想的局部最优，这阻碍了算法的改进。CD的局部最优示例如图4所示。若要将中指从当前估计值移向食指以拟合输入，倒角距离必须先增大后减小。这种局部最优是由最近邻搜索（当前es的中指的最近邻）发现的不正确对应引起的估计是输入的无名指）。高级别对应给定一对个集合（V，X），对于每个v∈V，我们要找到它的对应人体这些满足的性质，即真正的corre-在同一个分区内。使用所提出的SCD，我们可以改进图4中的局部最优值。对于变形的网格V，我们可以很容易地推断出分区s（v; V），因为顶点和关节之间的映射是由LBS蒙皮权重w定义的。我们直接使用argmaxjw i，j作为标签。在没有附加标记或关键点信息的情况下，困难在于推断xX的s（x;X），这是一个点云分割任务[35]。然而，如果没有X的标签，我们就无法直接在X相反，类似于用于训练联合角度回归器的自监督技术，我们提出用LBS生成的数据（Vd，Y）训练分割网络s，其中Y是LBS中定义的w的标签，V =M（Θ，Ud）。注意，Θ遵循与之前相同的分布，其包含用于探索的均匀采样和推断角度f（X）的扰动，如图6所示。代替仅使用基本模板U，我们使用推断的变形模板Ud来适应真实数据模态，这提高了性能（参见第4.1节）。训练形状变形的最终目标是11971i=1i=1我i=1我 i=1联系我们--联系我们P（Θ）ft（X1）ft（X2）ft（X3）Θ（一）（二）图6：迭代t时LBS自我监督数据的混合分布。我们从（1）以ft（Xi）为中心的扰动分布和（2）均匀分布中取样。算法1LBS-AE与SCD输入：·点云：{X}• LBS：M（;w，K，U）和角度范围（Rl，Ru）基于LBS的均匀采样姿势进行预训练而f和d没有收敛：1. 样品小批次XiB，X′B2. Θ′=f（Xi）+θiBΘrUnif（Rl，Ru）3. 基于Θ′生成（Vd，Y）以更新s4. 推断分割标签s（X′）B5. 基于（1）-（3）更新f和d（等式（七））包含f（·）和d（·）的流水线L= Lc2，0. 5+ λsLs2，0. 5+λlapLlap+λθLΘ，（7）我们使用标准的交叉熵来训练s。在实践中，由于s在第一次迭代期间是有噪声的，因此我们使用来自关节角度上的均匀分布的姿势对它进行50K次迭代的预训练。请注意，对于预训练，我们只能使用基本模板U来合成数据。之后，我们通过交替更新每个网络来共同学习所有内容。在算法1中示出了最终算法，具有SCD作为重建损耗的LBS-AE。3. 相关作品LBS扩展已经提出了各种扩展来修复LBS的一些缺点[24，41，45，20，37，16，19，23，51，28，4]，我们在这里只举几个例子。所提出的模板变形遵循[21，37，51，28]的思想，以对基础模板静止姿势上的LBS的模态和校正进行建模。[51，28]使用PCA类算法通过学习形状基础的加权和来建模模态。相反，我们的方法类似于[4]，通过变形网络学习模态LBS-AE和[51，28，4]之间的主要区别是我们不依赖于对应信息来先验地学习模板变形d我们同时学习d和推断[2]我们使用λ = 0。5，λlap= 0. 005，λθ= 0。5在所有实验中没有外部标签的姿势参数。3D数据的深度学习许多深度学习技术已经开发用于不同类型的3D信息，例如3D体素[10，48，47]，几何图像[39，40]，网格[8]，深度图[44]和点云[35，36，50]。点云的自动编码器由[49，13，26，1]探索。不同的模型拟合知识不同的作品已经研究了通过利用关于数据的不同级别的信息来[17]使用SMPL [28]通过使用关键点和姿态参数分布的先验知识从图像重建网格。[18]探索使用模板而不是可控模型来重建具有关键点的网格[6，15]还采用来自其他数据源的预训练关键点检测器作为监督。[22，31]探索了同时训练以与LBS-AE中提出的联合训练的主要区别在于，我们不依赖于额外的真实数据源来预训练网络，因为需要训练这些关键点检测器。[46]分享了使用分割进行最近邻搜索的类似想法，但他们从标记的示例中训练分割。[9]建议控制变形模型，而不是钻机模型建模的脸。它们还利用真实面部的3DMM参数分布的先验知识。我们注意到，上面讨论的大多数工作旨在从图像中恢复3D模型。[12]是与所提出的LBS-AE最相关的工作，但他们使用一个基本模板，并学习完整的变形过程与神经网络训练的对应提供了先验或从最近的邻居搜索。[12]和LBS-AE之间的更多比较将在第4节中研究。最后，[43]研究了通过SMPL学习身体分割，但重点是使用SMPL学习分割，参数从真实世界数据推断，综合训练实例。使用辅助神经网络来定义训练目标模型的目标在GAN文献中也得到了广泛的研究（例如，[11、30、33、3、25、32、14]）。[26]第二十六话失去一个人匹配输入和重建的点云。LBS-AE采用的辅助网络是一个可解释的分割网络，通过利用先验知识，无需对抗训练即可训练。4. 实验我们考虑手部和身体数据。对于身体数据，我们在FAUST基准[7]上进行测试，该基准捕获具有对应标记的真实人体。对于手部数据，我们使用多视角捕获系统捕获了三个人的1，524个姿势，这些姿势有缺失区域和不同的11972−×L图7：捕获的手的示例。区域内点的密度。重建网格的示例如图7所示。对于数值评估，除了FAUST，我们还考虑合成数据，因为我们没有关于手部数据的标记信息（例如，关键点、姿势、对应）。为了生成合成手，我们首先估计LBS下捕获的数据的姿态参数。为了对模态间隙进行建模，我们准备了具有不同厚度和长度的手掌和手指的不同基础模板。然后，我们根据这些模板和推断的姿势参数生成LBS数据。我们还使用SMPL生成合成人体形状[6]。我们对由SURREAL [43]估计的20，000个参数配置和来自[12]的3，000个对于合成的手和身体数据，每个形状的比例都在[1，1]3中，我们生成2300和300个示例作为保持测试集。f的架构遵循[26] 使用DeepSet [50] ，它显示出与PointNet [35]竞争的性能，参数数量只有一半。输出被设置为J3维，其中J是关节的数量.我们使用前一层D. 我们使用三层MLP来建模d，其中输入是v，f（X）和φ（X）的级联，隐藏层大小为256和128。对于分段网络，我们使用[35]，因为它具有更好的性能。对于手部数据，我们使用艺术家创建的LBS，而对于身体数据，我们使用SMPL [28]的LBS部分。4.1. 分段学习研究所提出的LBS-AE的一个目标是通过联合学习分割来利用形状的几何结构，以在测量两个形状之间的差异时经由最近邻搜索来不同于以往的作品（如[46]），我们不依赖任何人类标签。我们研究了具有自我监督的分段学习如何与模型拟合数据相互作用。我们训练LBS-AE的不同变体第一种是学习LBS-AE CD（LBS-AECD）。目标是（7），没有s2，0。五、然后，我们训练SCD的分割网络s，其中手部姿势从基于U而不是Ud的均匀分布中采样。注意，学习s与其他网络f和d之间没有交互作用。分割和重建结果如图8a所示。我们观察到，在来自均匀分布的随机采样姿势上训练的分割网络只能正确地分割简单的姿势，并且在具有挑战性的情况下失败，(a) LBS-AE CD（b）模态间隙（c）LBS-AE图8：拟定LBS-AE的消融研究。对于每个块，左列是输入的推断分割形状，而右列是重建。例如盛宴姿态，因为真实姿态分布和所使用的均匀分布之间的差异以及真实手和来自LBS的合成手之间的模态间隙另一方面，LBS-AECD卡在不同的局部最优。例如，它恢复到伸展无名指而不是小指以用于第三姿势。其次，我们研究了适应不同模式的重要性。在图8b中，我们用SCD联合训练分割和LBS拟合。然而，当我们增加训练分割的数据时，我们只通过f（X）适应姿势分布，而不是使用变形的Ud。因此，这种情况下s的训练数据与真实数据之间存在与图8a相比，联合训练有益于例如在盛宴姿势上的表现。它表明了良好的分割学习如何有利于重建。然而，它仍然在第三个姿势失败。通过训练LBS-AE和分割与推断的模态和姿态联合，我们可以更好地拟合姿态，如图8 c所示。这种差异说明了训练分割适应姿态分布和不同模态的重要性。数值结果我们还定量研究了学习分割时，地面真相。我们用（1）从关节角度范围内的均匀分布中随机采样的形状（随机）和（2）提出的联合训练（联合）来训练s我们使用预训练作为初始化，如2.1节所述。然后，我们在合成的手部和身体数据上训练这结果示于图9中。随机和预训练完全一样。经过预训练后，Random几乎收敛了。另一方面，当关节角度回归量f被改进时，关节通过逐渐适应真实姿态分布来改进两种情况下的分割准确性。它证明了所提出的联合训练的有效性，我们可以以自我监督的方式推断分割。对于手部数据，如图8所示，有许多手指相互接触的触摸皮肤姿势对于这些姿势，119730.900.850.800.9600.9550.9500.75 0 50000 100000迭代(a) 合成手0.9450 2500050000 75000迭代(b) SMPL图9：保持测试集的分割精度。每个姿势中的关节，其难以通过简单的均匀分布进行采样，并导致图9a中的性能差距。对于身体数据，SURREAL中的许多姿势都是独立的肢体，Random可以很好地概括虽然联合似乎只导致随机的增量改进，但我们认为这种差距是巨大的，特别是对于解决具有挑战性的接触皮肤的情况，我们将在第4.3节中展示。4.2. 定性研究我们将所提出的算法与[12]的非监督学习变体进行了比较，后者完全依赖于神经网络来学习他们的目标类似于（7），但仅使用CD和拉普拉斯正则化。为了公平比较，我们还使用随机采样的姿势和对应关系动态生成合成数据[12]，这提高了其性能。我们还比较了所提出的算法的简化版本，通过使用CD代替SCD，这表示为LBS-AECD如上。我们拟合并重建手和身体数据，如图10所示。对于竖起大拇指的姿势，由于最近邻搜索的错误对应，[12]和LBS-AECD都重建了错误的姿势。错误的对应会导致[12]的问题。由于从模板到目标形状的变形完全依赖于深度神经网络，因此当对应关系错误且网络功能强大时，即使使用拉普拉斯正则化，它也会学习扭曲变形。另一方面，由于LBS-AECD仍然利用LBS，因此变形网络d更容易规则化，这导致更好的手指重建。我们注意到[12]学习适当的变形，如果可以正确地找到对应，例如图10中的第三行。在这两种情况下，所提出的LBS-AE可以很好地学习分割并更好地恢复姿势。最后，我们考虑仅用200个样本拟合FAUST，如图11所示。由于姿势有限且多样，我们对姿势如何变形的提示较少[46]，最近邻搜索很容易陷入不良的局部优化，正如我们在图4中提到的那样。所提出的LBS-AE仍然导致合理的重建和分割，尽管第二行中的右臂遭受分割内的一个解决办法是学习更细粒度的分割，但这会带来权衡(a) 投入（b）部分（c）[12]（d）CD（e）LBS-AE图10：捕获手和SURREAL（SMPL）的定性比较。从输入形状（a）、（c-e）的表面采样的给定点云是来自不同算法的重建。(b)是输入形状上的LBS-AE的推断分割。(a)投入（b）部分（c）[12]（d）CD（e）LBS-AE图11：FAUST上的定性比较任务难度和模型容量之间的关系，我们将其留给未来的工作。联合随机隔离区ACC隔离区ACC11974算法中间截留误差（cm）内部误差（cm）[27]第二十七话4.8262.44不好[12]（230K）4.88-辅助核算[12]（10K）4.70-辅助核算[12]（230K）3.261.985LBS-AE（23K）4.082.161表1：合成数据的定量结果。4.3. 定量研究我们对重建、姿态、对合成手和身体的评价和评价表2：FAUST测试集的对应结果数据我们使用 CD作为重建的代理构成估计比较真实关节位置与推断关节位置之间的平均Δ2距离，而对应性也测量发现的对应性与真实对应性之间的平均Δ2我们从测试数据中随机产生4000个测试对进行对应比较。给定两个形状，我们通过训练的模型拟合形状。由于我们知道重建的对应关系，我们将数据投影到重建上以找到对应关系。有关更多详细信息，请参阅[12]。我们比较了[12]的三个变体，包括具有完全对应性的监督版本，以及具有和不具有上述合成数据增强的非监督版本对于LBS-AE，我们还考虑了三种变体，包括简单CD基线（LBS-AECD）、在来自均匀分布LBS-AERAND 的姿势上训练的分割网络和联合训练版本（LBS-AE）。结果示于表1中。对于LBS-AE变体，联合训练的LBS-AE优于LBS-AECD和LBS-AERAND。它支持4.1节中的假设，即联合训练有助于改进模型拟合和分割。此外，如第4.1节所示，预训练的分割网络仍然具有合理的测试精度，并比仅使用CD损失带来了改进。另一方面，由于泛化能力，用完全对应训练的[12]的监督版本比提出的无监督LBS-AE更差。对于SMPL训练集上的对应关系，supervised [12]达到0。065而LBS-AE达到0. 069如果我们将训练数据的大小增加三倍，超级-ved [12]将其对应结果改进为0。095对于手部数据，监督[12]的泛化效果更差，只有1500个训练样本。它表明，利用LBS模型到模型中不仅可以使用更小的网络，而且比依赖于深度网络的非约束变形更好地泛化。变形网络我们还研究了LBS-AE的变形能力。对于通过SMPL生成的数据，我们知道变形模板Ugt的真实情况，(a)(b)（c）第（1）款图12：FAUST测试数据的推断对应关系每个形状。 Ugt和Ud的对应点之间的平均距离为0。02，而U gt和U之间的平均距离为0。03.真实世界基准。一个代表性的真实世界基准是FAUST[7]。我们遵循的是在[12]中进行比较，他们在SMPL上使用SURREAL参数进行训练，然后在FAUST上进行微调。在[12]中，他们使用了来自SMPL的不同数量的数据和SURREAL参数，而我们只使用了23K。数值结果如表2所示。只有23K SMPL数据和自我监督，我们优于50K数据的无监督[12]，10K数据的监督[12]和监督学习算法FMNet [27]。我们在图12中展示了推断的对应关系的一些可视化。5. 结论我们提出了一个自我监督的自动编码算法，LBS-AE，对齐铰接网格模型的点云。解码器利用艺术家定义的网格装备，并使用LBS。我们约束编码器来推断可解释的关节角度。我们还提出了用于训练LBS-AE的结构化Chamfer距离，通过推断目标数据的有意义的分割来定义，以通过在原始Chamfer距离中的最近邻搜索来改善对应发现。通过结合LBS-AE和分段推理，我们证明了我们可以同时训练这随着训练的进行，所提出的模型可以开始适应数据分布并通过自我监督进行改进除了开辟了一条无需监督的模型拟合新途径外，该算法还提供了一个成功的例子，展示了如何在几何深度学习模型中编码SMPLSyn. 手算法Recon构成Corre. Recon构成Corre.不好[12个]0.0760.0820.1360.0990.0350.176不支持+ [第12话]0.0810.0810.1320.0690.0490.140辅助核算[12个]0.0730.0710.1040.0620.0470.135LBS-AECD0.0510.1520.1470.0820.069 0.168LBS-AERAND0.0410.0580.1000.0690.0500.137LBS-AE0.0370.0480.0910.0530.0350.11111975引用[1] P. Achlioptas、O.迪亚曼蒂岛Mitliagkas和L. Guibas三维点云的学习表示与生成模型。在ICML，2018。[2] D. Anguelov ， P. 斯里尼瓦桑 D.Koller ， S.Thrun ，J.Rodgers和J.戴维斯Scape：人物的形状完成和动画。TOG，2005年。[3] M. Arjovsky，S.Chintala和L.博图Wasserstein ganICML，2017.[4] S. W. Bailey，D. Otte，P. Dilorenzo，and J. F.奥布莱恩快速和深度变形近似。TOG，2018。[5] P. J. Besl 和 N.D. 麦凯一种三维形状配准方法载于TPAMI，1992年。[6] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J.布莱克。保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。[7] F. Bogo，J. Romero，M. Loper和M. J.布莱克。Faust：3D网格配准的数据集和评估。CVPR，2014。[8] M. M. 布朗斯坦Bruna，Y.LeCun，A.Szlam和P.范德根斯特。几何深度学习：超越了欧盟-加勒比数据。IEEE信号处理杂志，2017年。[9] K.热那亚湾Cole，A. Maschinot，A. Sarna，D.弗拉西奇，W. T.弗里曼。三维变形模型回归的无监督训练。在CVPR，2018年。[10] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成矢量表示。在ECCV，2016年。[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。[12] T. Groueix，M. 费希尔金湾，澳-地 C. 罗素和M.奥布莉3D编码：通过深度变形的3D对应。在ECCV，2018。[13] T. Groueix，M. 费希尔金湾，澳-地 C. 罗素和M.奥布莉Aapier-m\ emaach\在CVPR，2018年。[14]I. Gulrajani，F.艾哈迈德，M。阿尔约夫斯基河谷Dumoulin，以及A. 考维尔改进的瓦瑟斯坦甘斯训练。在NIPS，2017年。[15] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的三维变形模型。在CVPR，2018年。[16] P. Joshi，M.迈耶，T.德罗斯湾绿色和T.萨诺奇字符清晰度的调和坐标。InTOG，2007.[17] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR，2018年。[18] A. Kanazawa，S. Tulsiani，A. A. Efros和J.马利克从图像集合中学习特定类别的网格重建。在ECCV，2018。[19] L. K avan，S. Collins，J. Za′ra和C. O'Sulliv an. 几何蒙皮与近似对偶四元数混合。TOG，2008年。[20] L. K av an和J. 你好球形混合蒙皮：关节模型的实时在SI3D，2005年。[21] T. Kurihara和N.宫田从医学图像中建立可变形的人手模型。SCA，2004年。[22] C.放大图片作者：J. Romero，M.基费尔F. Bogo，M. J.Black和P.V.盖勒。团结人民：闭合3d和2d人类表征之间的循环。在CVPR，2017年。[23] B. H. Le 和Z.邓小平更使用刚性骨骼平滑蒙皮分解TOG，2012年。[24] J. P. Lewis，M. Corpus，N.十方姿势空间变形：一个统一的方法，形状插值和骨架驱动变形。SIGGRAPH，2000年。[25] C.- L. 李伟C. 昌，Y. 郑，Y. Yang和B. Po 'czos。MMD甘：走向更深层次的理解时刻匹配网络.在NIPS，2017年。[26] C.- L. Li，M. Zaheer，Y.张湾，澳-地Poczos和R.萨拉赫特-迪诺夫。点云根arXiv预印本arXiv：1810.05795，2018。[27] O. Lita ny，T. Remez，E. Rodol a`，A. M. Brons t ein和M. M. 布朗斯坦深层功能图：密集形状对应的结构化预测。InICCV，2017.[28] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。Smpl ：一个皮肤的多人线性模型。 TOG ，2015。[29] N.马格嫩纳特-塔尔曼河Laperrire和D.塔尔曼手部动画和物体抓取的关节相关局部变形。在1988年的GI[30] X. 茅角，澳-地Li，H.谢河，巴西-地Y. Lau和Z.王. 最小二乘生成对抗网络。InICCV，2017.[31] D. 梅塔S. 斯里达O. 索特尼琴科H. 罗丹M. Shafiei，H. P. Seidel，W. Xu，L. Casas和C.希奥博尔特Vnect：使用单个rgb相机进行实时3d人体姿势估计。TOG，2017年。[32] Y. Mroueh和T.塞尔古费希尔·甘。在NIPS，2017年。[33] S.诺沃津湾Cseke和R.富冈f-gan：使用变分发散最小化训练生成神经采样器在NIPS，2016年。[34] G. Pons-Moll，J.罗梅罗，北Mahmood和M. J.布莱克。Dyna：动态人体运动模型。TOG，2015。[35] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR，2017年。[36] C. R.齐湖，加-地Yi，H. Su和L.吉巴斯Pointnet++：度量空间中点集的深度层次特征学习。在NIPS，2017年。[37] T. Rhee，J.P.Lewis和U.诺伊曼gpu上的实时加权位姿空间变形。《欧洲地理》，2006年。[38] J. Romero，D. Tzionas和M. J.布莱克。具体化的手：建模和捕捉手和身体在一起。TOG，2017年。[39] A. Sinha，J. Bai，and

下载后可阅读完整内容，剩余1页未读，立即下载