几何对比Transformer实现广义三维位姿变换

103 浏览量更新于2023-12-01 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文258第36届AAAI人工智能会议（AAAI-22）几何对比Transformer实现广义三维位姿变换陈浩宇1唐昊2于梓桐1Nicu Sebe3赵国英*11奥卢2苏黎世联邦理工学院计算机视觉实验室3DISI，特伦托陈浩宇@ oulu.fi，唐浩@ vision.ee.ethz.ch，于梓彤@ oulu.fi，nicu. unitn.it，赵国英@ oulu.fi摘要我们提出了一个自定义的三维网格Transformer模型的姿势转移任务。由于3D姿态转移本质上是一个依赖于给定网格的变形过程，这项工作的直观性在于利用强大的自注意机制感知给定网格之间的几何不一致性。具体地说，我们提出了一种新的几何对比Transformer，它具有有效的三维结构感知能力的全局几何不一致性在给定的网格。此外，在局部，一个简单而有效的中心测地线对比损失进一步提出了改善区域几何不一致性学习。最后，我们提出了一个潜在的等距正则化模型，连同一个新的半合成数据集的跨数据集的三维姿态转移任务向未知空间。大量的实验结果证明了我们的方法的有效性，通过展示SMPL-NPT，FAUST和我们新提出的数据集SMG- 3D数据集上最先进的定量实验结果表明，该方法可以实现鲁棒的3D位姿转换，并可推广到跨数据集任务中未知空间的挑战性网格。代码和数据集已可用。代码可用：https://github.com/mikecheninoulu/CGT.介绍位姿转换是将源网格的期望位姿应用于目标网格的过程，是三维计算机视觉中一项极具前景和挑战性的任务，可广泛应用于各种工业领域。然而，现有方法（ Wang 等人， 2020; Cosmo 等人， 2020; Zhou ，Bhatnagar和Pons-Moll，2020; Chen等人，2020）2021b）只能在合成/已知姿态和形状空间的给定数据集内表现良好为了在未知潜在空间和其他域上实现鲁棒性能，具体而言，一种新的几何对比变换器与几何结构编码器的设计，旨在提高身份网格表示un-mesh。*通讯作者。Copyright © 2022 ， Association for the Advancement ofArtificial Intelligence（www.aaai.org）. All rights reserved.通过它们的全局几何对比来引导姿势网格。局部地，我们引入了一种新的中心测地线对比度损失，以改善几何表示，考虑区域对比度的所有测地线方向的每个顶点作为反向传播梯度。此外，我们提出了一个潜在的等距正则化模块，以稳定跨数据集的姿态转移问题的不可靠性能此外，我们提出了一个新的三维网格数据集，即，SMG- 3D，用于定量评估未知空间的3D位姿转移。SMG-3D基于每日自发进行的身体姿势，具有更合理和更具挑战性的身体动作，并且与那些表现良好的姿势不同（Mahmood等人，2019; Bogo等人，2017）。我们使用半合成的方式来构建数据集，为训练和验证提供必要的GT网格我们的SMG- 3D数据集可以与其他现有的人体网格数据集联合使用，以进行跨数据集的定性分析。一个自然的问题是：为什么不简单地使用纯合成网格来训练和评估模型？简短的回答是，在纯合成网格上训练的模型无法覆盖整个潜在空间，并且会失败在跨数据集任务中。事实上，使用SMPL系列（Bogo et al.2016; Zuffi et al. 2017; Pavlakos et al. 2019）等网格合成模型可以合成可以覆盖整个潜在空间的无限姿态，或者大规模数据集AMASS（Mahmood et al. 2019），以消除与未知数据集空间的不一致。然而，在实践中，即使对于只有10个姿势类别的小数据集FAUST，也需要超过26小时来训练模型（Cosmo等人，2020）以完全学习潜在空间。因此，由于姿势和运动的惊人可变性，使用覆盖整个姿势空间的合成样本来训练模型是不可行的。期望模型能够以更有效的方式直接推广到未知的潜在空间。为此，我们提出了SMG-3D数据集来解决跨数据集学习问题。它可以提供挑战性的潜在分布分配在自然和可行的身体姿势与闭塞和自我接触代替像AMASS（Mahmood et al. 2019）这样的姿势良好的身体移动，这可以将研究进一步推进到现实世界的场景中。概括而言，我们的贡献如下：• 一种新型位置几何对比Transformer+v：mala2255获取更多论文259拓扑图1：我们的3D GC-Transformer的姿势转换结果示例。蓝色、粉色和紫色分别代表身份、姿势和结果网格。左侧部分示出了人体姿势转移结果。身份网格来自FAUST（Bogo et al.2014）、MG-布（Bhatnagar et al.2019），SMPL-NPT（Wang et al.2020年），以及我们新的SMG-3D数据集。右侧部分显示了SMAL数据集上的动物姿势转移结果（Zuffi等人，2017）。我们的方法可以推广到不同的空间，甚至现实世界的场景和动物。更多的实验结果可以在补充材料中找到在具有挑战性的3D姿态转换任务中嵌入具有最先进性能的自由架构。• 一个简单有效的中心测地线对比损失，可以通过保留3D顶点的方向梯度来进一步改善几何学习。• 具有挑战性的3D人体网格数据集（即，SMG- 3D）提供了具有挑战性遮挡和自接触的自然合理身体姿势的未知空间，用于跨数据集定性评价。• 一个新的潜在等距正则化模块，用于适应跨数据集任务的挑战性未知空间。相关工作三维网格变形传递。变形转移的目的是生成一个新的3D形状与一对给定的源姿势和目标形状。尽管现有方法（Groueix et al. 2018; Sumner and Popovic 2004）可以带来令人印象深刻的变形结果，但出色的性能在很大程度上依赖于源和目标网格的给定对应关系，这限制了它们的泛化能力。一些基于解缠结的方法，如（Zhou，Bhatnagar，and Pons-Moll 2020; Cosmo et al.2020; Chen et al.2021a）试图将网格分解成形状和姿态因子，并自然地实现姿态转移。然而，仍然需要对数据集进行额外的约束稀疏且无组织的点云。之后，网格可变自动编码器（Aumentado et al.2019; Tan等人2018）也被提出来学习用于形状合成的网格嵌入，但是它们处于目标对象的形状应该被给定为先验的强条件另一方面，对自我注意机制的利用也有趋势变形金刚的结构几何信息学习。然而，如表1所示，这些初步工作（Lin，Wang，and Liu 2021; Nash et al. 2020; Engel，Bela- giannis，and Dietmayer 2020）试图用计算需求嵌入直接编码顶点拓扑结构，因此只能处理小尺寸网格。在这项工作中，我们的GC-Transformer是完全不同的，它实现了深度方向的1D卷积，而不是任何计算嵌入，以保留顶点拓扑结构，从而免费处理具有细粒度细节的大型网格，这可以提高Transformer框架在3D领域的有效实现。跨数据集3D姿势转换。很少有3D网格数据集适合于姿势转换任务。尽管已经开发了许多用于3D数据分析的技术和身体模型，例如SMPL系列（Bogo等人，2016年;Romero，Tzionas和Black 2017年; Pavlakos等人，2019年; Zuffi等人，2019年）。2017），以及各种3D人体数据集（ Bogo et al. 2014 ， 2017; Bhatnagar et al. 2019;Pavlakos et al.2019; Mahmood et al.2019），它们都是原本模型顶点算子顶点网格尺寸网格类型设计用于其它任务，例如扫描配准、识别或形状检索。因此，这些数据集中的姿势香草MLP损坏--都是夸张的、摆出完美姿势的动作，例如，地铁位置嵌入指针保存，成本高保存，从6890降采样到431过滤网更大后处理以确保扫描配准的质量。然而，具有遮挡和自接触的真实物体的潜在空间分布可以有很大的不同。除此之外，现有的PolyGen嵌入成本高超过800个顶点真实网格数据集可以在潜在的GCT（我们的）深度方向一维转换保存，不收费原始尺寸如6890实网格空间朝向期望的姿势，因此没有标准GT可用于训练和定量评估。现有表1：我们的GC-Transformer与其他3D Transformer变体的比较。深度学习几何表示。Point- Net（Qi et al. 2017 a）和PointNet++（Qi et al. 2017 b）已经成为可以直接在方法（Cosmo等人，2020）只能使用近似值，作为替代品的测地线保护。方法我们将三维参数网格定义为M（α，β），其中α，β表示身份的参数（即，形状和姿势。让+v：mala2255获取更多论文260n我J构成我图2：我们的GC变压器的俯视图。左边部分是GC变压器的整体架构。右边的部分说明了一个GC-变压器解码器的架构细节。GC变压器借用的想法，从工作（Dosovitskiy等人。2021），但广泛扩展到编码器和解码器的3D数据处理任务M1（αpose，βpose）是具有用于样式转换的期望姿态的网格，M2（αid，βid）是具有其标识的网格要保存。然后，多边形网格M′（αid，βpose）是要生成的目标。姿态转移的目标是学习变形函数f，该函数取一对M1和M2并产生新的网格M′，使得所得网格M′的测地线保持与源网格M2相同，并且姿态样式与M1相同。f（M1（α id，β id），M2（α pose，β pose））=M ′（α id，β pose）.（一）下面，我们将首先介绍如何使用基于Transformer架构的模型，称为几何对比 Transformer （ GC-Transformer）来学习变形函数f，然后使用中心测地线对比（CGC）损失来进行详细的几何学习，最后使用LIR模块来进行跨数据集任务的鲁棒姿态传输。几何对比TransformerGC变压器的概述如图2所示。我们的GC-Transformer由两个关键组件组成，一个是结构化的3D网格特征编码器，另一个是Transformer解码器。3D编码器如前所述，现有的3D变换器需要计算上苛刻的嵌入来编码顶点位置，因此实际上只能处理“玩具”网格。受NeuralBody（Peng et al.2021），其使用结构化潜在代码来保持顶点拓扑，结构.GC- 变压器解码器。我们鼓励读者参考 ViT（Dosovitskiy et al. 2021），以获得标准的Trans-former结构，该结构在许多任务上实现了最先进的结果（Li etal.2021; Yang等人2021年）。我们提出了GC-变压器解码器，继承了经典的结构与定制的设计为3D网格。GC-变换器解码器的结构二、GC-Transformer与标准Transformer的核心区别在于多头自关注的设计。为了学习给定网格之间的相关性以进行几何变形，模型应该能够从两个网格中感知几何信息因此，我们将GC-变换器的输入作为两个网格的潜在嵌入向量，而不是像经典的变换器那样的单个输入。此外，由于这是一个风格转换任务，我们使用实例规范（Huang和Belongie 2017）作为我们的规范化层。最后，为了保留三维数据的结构信息，将MLP层替换为一维卷积层。我们将来自编码器的姿势网格和身份网格的潜在嵌入向量表示为Zpose和Zidrepresentation。我们将两个嵌入向量馈送到不同的1D卷积层中，以生成标准多头自注意力的表示qvod（Vaswani et al. 2017）。查询q来自Zpose，值v和键k来自Zid。然后，基于q和k的两个元素之间的几何成对相似性的注意力权重Ai，j由以下公式给出：我们将传统的PointNet（Qi et al. 2017 a）修改为exp（qikj）（二更）结构化的3D编码器来捕获顶点拓扑，实现深度方向的1D卷积，而不是Redun，Ai，j=n.exp（qk）在传统的嵌入技术中，变压器.同时，我们将批处理规范化层替换为实例规范化（Ulyanov，Vedaldi和Lempitsky 2016）层，以保留广泛用于样式传输任务的实例样式（Huang和Be- longie2017; Park等人）。2019年）的报告。最终的潜在嵌入-在此之后，v和trans-t之间的矩阵乘法，通过A的姿态来感知网格之间的几何不一致性。最后，我们用尺度参数γ对结果进行加权，并与原始潜在嵌入Z姿势进行元素求和运算，以获得细化的潜在嵌入Zp′ose，维度为N的丁向量Z潜从编码器将Z′=γπ（Ai=1v）+Z、（3）我们的GC-Transformer可以免费处理具有细粒度细节的网格，同时保留顶点其中γ被初始化为0，并且在训练期间用梯度逐渐更新。所得到的Zp′糖如下：i=1通过1D卷积进行降维，并输入到下面的GC-Transformer解码器中。这样，大i、j构成+v：mala2255获取更多论文261LL LL图3：左：我们的半合成3D网格身体姿势数据集SMG-3D的俯视图。它是一个3D数据集，其姿势空间符合真实世界数据集姿势分布，包括自然和自发执行的身体运动在日常交流中充满挑战性的闭塞和自我接触。右图：用于未知潜在空间学习的潜在等距正则化（LIR）模块的架构。图2上介绍的典型Transformer算子，具有卷积层和Tanh激活，生成最终输出M′。具体实施详见补充资料。通过这种交叉方式，几何感知特征码可以被原始身份网格及其潜在嵌入表示一致地纠正。请注意，与以前的基于注意力的模块不同（Wang et al. 2018 b; Tang etal. 2020 b; Huang and Belongie 2017; Tang et al. 2020a），我们的GC-Transformer不仅可以以交叉网格的方式计算成对的相关性和对比度，而且可以完全保留残留层的局部几何细节。最重要的是，我们的 GC-Transformer是专为3D网格处理而设计的，这在这些作品中从未尝试过。请注意，输入网格顶点都是随机洗牌的，以确保网络是顶点顺序不变的。中心测地线对比损失现有的大多数3D网格表示学习损失，如三角形正则化损失，边缘损失，倒角损失和拉普拉斯损失（Wang etal. 2018 a，2020; Groueix et al. 2018; Sorkine 2005; Zhouet al. 2020）都废除了3D顶点方向信息的梯度。它们只比较网格顶点的标量（或弱矢量）差（如单环测地线长度）来构造目标函数，而没有利用网格曲面的凸性（包含丰富的方向梯度信息）为此，受中央差分卷积（Yu et al.2020，2021a，b）考虑到深度空间的方向差异，我们建议通过提出如下的简单而有效的中心测地线对比损失其中，Γ（p）表示顶点p的相邻边，V是网格的总顶点数uM表示网格M的边，θ表示uM和uM'的边的夹角。在实践中，contra可以很容易地通过取每个顶点p的坐标内的uM和uM'的向量差除以总顶点数作为全局归一化来计算。我们的CGC损失相比于Experimental损失有三个改进：1）计算顶点向量的完全不一致性以保持方向梯度;2）单独考虑顶点的每个方向而不是简单的求和; 3）等式中p的相邻顶点的采样方法(4)不同的是：CGC损失对连接到p的所有顶点进行采样，从而产生灵活的N个相邻顶点，而其他顶点（Wang et al. 2018 a; Groueix et al.2018）位于顶点p的网格三角形内并固定为3。请参考图4以更好地理解。网格顶点的逐点L2重建损失只能捕获坐标空间中的相比之下，我们的CGC损失捕获了每个顶点处所有测地线方向的不一致性，因此可以在反向传播中保留方向梯度。注意，我们的CGC损失类似于拉普拉斯损失，但可以在没有拉普拉斯归一化的情况下保留完整的向量差，因此不仅限于光滑表面。如图4所示，我们的CGC损失可以提供额外的强有力的监督，特别是在收紧输出网格表面。总体目标函数。对于我们提出的CGC损失，我们定义完整的目标函数如下：Lfull=λrecLrec+λedgeLedge+λcontraLcontra，（5）哪里rec，边缘和contra是用作我们的完全优化目标的三种损失，包括重建损失，边缘损失和我们新提出的CGC损失。λ是1个小时。22每种损失的相应重量由方程式（5）第（1）款所指的是─LLcontra=Vpu∈Γ（p）uM'+uM−2uM'uM·cos（θ），（四）tion lossrec是逐点L2距离，而边缘loss（Groueix et al. 2018）是一种边方向正则化，GT网格和预测网格之间的过渡。+v：mala2255获取更多论文262图4：相邻顶点采样策略和局部不一致性的不同损失比较我们的CGC损失考虑了每个顶点处所有测地线方向的不一致性，因此可以在反向传播中保留方向梯度。结果表明，CGC损失可以使局部细节更加紧密和真实。跨数据集姿势转移虽然现有的姿态转移方法可以处理完全合成/已知的姿态空间，但它们不能对不同于训练姿态空间的姿态空间具有鲁棒性为了促进人类行为的3D分析到真实世界的实现，我们提出了一个新的SMG-3D数据集以及一个LIR模块，以解决跨数据集的问题。新的SMG-3D数据集。SMG-3D数据集的主要贡献是通过在具有挑战性的潜在姿势分布（与完美合成大小/执行的已知分布不同）下提供标准GT来提供针对交叉数据集任务如图3所示，SMG-3D是从称为SMG数据集的现有2D身体姿势数据集导出的（Chen et al.2019年），由具有挑战性的闭塞和自我接触的自发性身体运动组成具体来说，我们首先采用三维网格估计模型STRAPS（Sengupta，Budvytis和Cipolla 2020）从SMG的原始二维图像生成三维网格估计。然后，我们选择200个姿势和40个身份作为模板，以形成潜在的姿势空间，并通过Vposer对其进行优化（Pavlakos et al. 2019）。最后，将生成的3D网格分解为数值配准作为潜在参数，并将其配对，以通过SMPL模型（Bogo等人，2016）合成生成的8，000个人体网格与合成/性能良好的网格相比，我们的野外3D人体网格更实用，并且具有较大的多样性和棘手的遮挡，以提供未知的潜在空间。请在补充材料中查看有关我们数据集的更多信息。隐等距正则化模块。当姿态和形状来自未知的潜在空间时，现有方法遭受不同程度的退化（见图5）。我们通过引入如图3右部所示的LIR模块来解决这个问题，该模块可以聚合目标集和源集的数据分布。LIR可以堆叠到现有的标准模型，以增强跨数据集的性能。具体地，通过比较潜在姿态代码zM以及来自目标集合的形状网格M′和来自源数据集的姿态网格M的zM目标形状网格将与另一个范围一起送入GC-变压器以获得新生成的网格M′。这将被迭代地执行，直到潜在姿态代码差zM'和zM收敛到小于θ，从而产生归一化的目标集合。这样，（×10−4）表2：SMG-3D和SMPL-NPT数据集的数据集内性能“NPT MP”代表具有最大池化层的NPT模型。请注意，目标集的潜在位姿分布将被调整，同时其等距信息仍能被保留。本质上，我们的LIR模块作为一个域自适应规范化预热未知的目标集，以更好地适应源姿态空间上训练的模型。实验数据集SMPL-NPT（Wang等人2020）数据集包含24，000个通过在参数空间中采样而使用SMPL模型（Bogo等人，2016）合成的体网格。为了训练，随机选择16种不同的身份和400种不同的姿势，并成对作为GT。为了测试，14个新的身份与400个姿势和200个新姿势配对，作为注意，SMG-3D（Chen等人，2019）数据集包含8，000对自然合理的身体网格，其中40个身份和200个姿势，35个身份和180个姿势用作训练集。其余5个身份与180个姿势和其他20个姿势用于请注意，SMPL-NPT和SMG-3D都提供了GT网格，因此它们可以用于跨数据集的定量评估。FAUST（Bogo等人，2014）数据集由10个不同的人类受试者组成，每个受试者以10种姿势捕获。FAUST网格结构类似于SMPL，具有6，890个顶点。MG-Cloth（Bhatnagar等人，2019）数据集包含96个具有不同姿势和衣服的着装身份网格。MG布料网格包含更多的顶点（超过27，000个），这对于更细粒度的几何细节更具挑战性。请注意，FAUST和MG-布料中的网格不是参数化SMPL模型，因此基于测地线的近似（Crane，Weischedel和Wardetzky 2013）始终用于先前工作中的评估。PMD↓NPT-MP看到扩散条约GCT（我们的）NPT-MP看不见扩散条约GCT（我们的）SMG-3D70.362.130.7120.394.652.8SMPL-NPT2.11.10.612.79.34.0+v：mala2255获取更多论文263×|V|×v2并生成一个M。最终的实验结果图5：SMPL-NPT、FAUST、MG-cloth、SMG-3D和SMAL数据集的数据集内和数据集间定性结果SMAL（Zuffi et al. 2017）动物数据集基于参数铰接四足动物模型，我们采用它来合成训练和测试数据集。数据集内姿势转移评价首先，我们在SMPL-NPT和SMG-3D上评估了我们的GC-Transformer的数据集内姿态传输性能。给定GT网格，我们遵循（Wang et al.解除锁定错误VAELIMP-EucLIMP-Geo GCT（我们的）7.164.043.480.11表3：FAUST数据集上的跨数据集性能由于我们使用FAUST的原始网格，没有GT，因此使用几何近似进行评估。2020）采用逐点网格欧氏距离（PMD）作为评价指标：PMD=1μmv-M 'E2。（六）跨数据集PMD↓（×10−4）NPT-MP NPT GCT（我们的）SMPL-NPT 12.7 9.34.0其中MvMv′是GT网格中的点对′SMPL-NPTSMG-3D无/LIR 321.4 240.1 178.7SMG-3D w/LIR 132.3 121.479.2可以在表2中找到。对于SMPL- NPT的两种设置：1.1和9.3。为了简单起见，我们将PMD（10−4）表示为PMD，下面的在我们的SMG-3D数据集上，我们的网络再次在PMD为（30.7和52.8）的其他方法中产生最佳性能如图所示，SMG-3D比SMPL-NPT数据集更具挑战性，所有模型的PMD值都要与完全合成的数据集SMPL-NPT相比潜在空间中姿态的分布是显著不均匀和不连续的，而SMPL-NPT数据集中合成的姿态更容易，噪声更少。广义位姿转换评价具有相同位姿空间的跨数据集位姿传输。我们通过在SMPL-NPT数据集上训练模型来将设置扩展到交叉数据集，并直接在FAUST和MG-cloth数据集上的不可见网格上进行姿势转移作为SMG-3D SMG-3D 120.3 94.6 52.8表4：以标准GT作为指标的跨数据集性能。我们的LIR模块可以堆叠到现有的模型，并在未知空间上鲁棒地提高性能如图5第二/第三行所示，当目标姿态不在训练潜在空间内时，NPT可能失败，而我们的方法仍然可以执行得很好。由于这里没有可用的 GT ，我们采用 LIMP（Cosmo et al. 2020）的工作中说明的姿态转移任务的解纠缠误差作为度量，更多细节请参见LIMP（Cosmoet al. 2020）。在表3中，我们报告了FAUST上GC变压器和最先进模型的性能。与保留测地距离训练的LIMP相比，我们的性能明显优于它：0.23 vs. 3.48。正如所料，保持测地距离，测地距离只能作为GT的近似。不同位姿空间的跨数据集位姿转换。在这一部分中，我们定量地分析了SMPL-NPT的不同潜在空间之间的交叉数据集性能，v+v：mala2255获取更多论文264图6：逐步启用每个组件的消融研究最右边的网格来自完整的GC变压器。位姿源PMD↓（×10−4）1块2块3块4块Seen-pose1.41.00.90.8隐形姿势7.34.94.94.2表5：GC变压器的影响。我们评估GP- Transformer通过改变其多头注意力块数与其余的模型不变。SMG-使用GT作为度量的3D数据集。如表4所示。我们直接使用在SMPL-NPT上训练的模型在SMG-3D的网格上进行位姿传递。GC变压器（PMD 79.2和178.7）的性能始终优于比较方法（PMD 121.4和240.1），如表4所示。可以看出，采用我们的LIR模型后，所有的模型都能有效地提高性能，证明了它的有效性，同时也证明了潜在位姿空间的不一致性影响了位姿传递的泛化能力。SMG-3D数据集的有效性。从表4中，我们观察到在合成的SMPL-NPT数据集上训练的模型可以在相同的姿势空间内表现良好（表的第一行然而，当直接将模型转移到SMG-3D等未知空间时，PMD会急剧下降。这证明了用纯合成大小的数据集训练的模型不能拟合真实世界姿势的空间分布。相比之下，通过引入SMG-3D数据集，我们可以用半合成数据训练模型，以更好地拟合真实世界的姿态空间，如最后一行所示（NPT的PMD从321.4提高到120.3，如上所述，在整个潜在姿势空间上工作的模型是具有挑战性的，这证明了我们SMG-3D数据集的必要性。在不同域上的姿势转移。最后，我们在图5中展示了GC-Transformer在动物姿势转移上的鲁棒性能。我们的模型可以直接在SMAL数据集上训练，而无需进一步修改以适应非人类网格，表现出很强的泛化能力。消融研究在SMPL-NPT数据集上进行实验以呈现每个建议组件的有效性。GC变压器的效果。我们改变多头注意力块的数量，以显示表5中GC-变压器带来的效果。我们观察到，建议的GC变压器与四个多头注意力块工作得最好。然而，增加位姿源PMD↓（×10−4）λconstra=00.0005 0.001 0.005 0.05Seen-pose0.830.640.840.921.13隐形姿势4.213.984.274.554.71表6：CGC损失的影响我们通过改变CGC损失的权重来验证CGC损失的贡献我们可以看到，CGC损失明显提高了几何学习20%以上。块还需要大量的计算消耗并且达到GPU存储器限制。因此，我们在实验中采用四个块作为默认值。CGC损失的影响。我们还验证了不同λconstra设置下CGC损失的影响，如表6所示。实验结果表明，当λconstra为0.0005时，该算法的性能最好，证明了CGC损失可以有效地改善几何重建效果。最后，我们在图6中直观地展示了GC变压器中每个组件的贡献。我们禁用所有关键组件作为一个香草模型，并使每一步。与 Vanilla 模型相比， GC-Transformer、LIR模块和CGC损失可以一致地改善几何表示学习。所有组件都可以轻松堆叠到其他现有模型。结论我们介绍了新的GC-Transformer，以及CGC损失，可以免费在大型网格上自由进行鲁棒的姿态转移，这可能是3D领域中Transformer的一个推动此外，SMG-3D数据集与LIR模块一起作为跨数据集基准可以解决传输性能不稳定的问题。新的SOTA结果证明了我们的框架所提出的组件可以很容易地扩展到其他三维数据处理模型。确认这项工作得到了芬兰科学院的支持，用于学院教授项目 programmationAI （赠款 336116 ， 345122）和项目MiGA（赠款316765），欧盟H2020 AI4Media（编号951911）和Infotech Oulu项目。作者还要感谢芬兰CSC-IT科学中心提供的计算资源。+v：mala2255获取更多论文265引用Aumentado，T.，Armstrong; Tsogkas，S.; Jepson，A.;和Dickinson，S. 2019.生成的潜在形状模型的几何解纠缠。在ICCV。巴特纳加尔湾L.的; Tiwari，G.; Theobalt，C.;还有庞斯-莫尔G. 2019. Multi-Garment Net：学习从图像中为3D人物穿衣。在ICCV。Bogo ， F.;Kanazawa ， A.;Lassner ， C.;Gehler ，P.;Romero，J.;黑色，M。J. 2016年。SMPL：从单个图像自动估计3D人体姿势和形状在ECCV。Bogo，F.; Romero，J.; Loper，M.;黑色，M。J. 2014.FAUST：3D网格配准的数据集和评估在CVPR。Bogo，F.;Romero，J.;Pons-Moll，G.;黑色，M。J. 2017年。动态浮士德：登记人体运动。在CVPR。陈，H.;刘，X.;李，X.; Shi，H.;和Zhao，G. 2019.分析情绪压力状态识别的自发手势：微手势数据集和深度学习分析。在FG。陈，H.;唐，H.; Henglin，S.; Peng，W.; Sebe，N.;和Zhao，G.2021年a. 用于无监督3D姿势转移的内在-外在保留GAN在ICCV。陈，H.;唐，H.; Sebe，N.;和Zhao，G. 2021b的最后一页。An- iFormer：使用Transformer的数据驱动3D动画。在BMVC。Cosmo ， L.;Norelli ， A.;Halimi ， O.;Kimmel ， R.; 和Rodola`，E. 2020年。LIMP：学习潜在的形状表示与度量保存先验。ECCV。Crane，K.; Weischedel，C.;和Wardetzky，M. 2013.热测地线：一种基于热流计算距离的新方法第三十二章Dosovitskiy，A.;拜尔湖; Kolesnikov，A.;魏森伯恩，D.;翟某; Unterthiner，T.; Dehghani，M.;明德勒，M。;海戈尔德，G.; Gelly，S.;乌斯科里特，J.;和Houlsby，N.2021年一张图像值得16x16字：大规模图像识别的变形金刚。在ICLR。Engel，N.; Belagiannis，V.;和Dietmayer，K. 2020.点Transformer。arXiv预印本arXiv：2011.00931。Groueix，T.; Fisher，M.; Kim，V.G.; Russell，B. C.的;和Aubry，M.2018年3D编码：通过深度变形的3D对应在ECCV。黄，X.;和Belongie，S. 2017.任意风格的实时传输与自适应实例规范化。在ICCV。李，W.;刘，H.;唐，H.;王，P.;和Van Gool，L.2021年MHFormer ：用于三维人体姿态估计的多假设Transformer。arXiv预印本arXiv：2111.12707。林，K.;王，L.;和Liu，Z.2021年使用transformers进行端到端人体在CVPR。Mahmood，N.; Ghorbani，N.; F.Troje，N.; Pons-Moll，G.;黑色，M。J. 2019年。AMASS：Archive of MotionCapture as Surface Pro.在ICCV。Nash，C.; Ganin，Y.; Eslami，S.一、Battaglia，P. 2020.Polygen：3D网格的自回归生成模型在ICML。+v：mala2255获取更多论文266帕克，T.;刘文Y的;王德铭C.的;和Zhu，J. - Y. 2019. 塞-具有空间自适应归一化的Mantic图像合成。在CVPR。Pavlakos，G.; Choutas，V.; Ghorbani，N.; Bolkart，T.;Os-man，A. A.一、Tzionas，D.;黑色，M。J. 2019年。表达身体捕捉：3D手，脸，从一个单一的图像身体在CVPR。彭，S.;张玉;徐，Y.;王，Q.; Shuai，Q.;鲍，H.; Zhou，X. 2021. Neural body：隐式神经表示与结构化的潜在代码，用于动态人类的新视图合成。在CVPR，9054Qi，C.的R.; 苏，H.;Mo，K.;和Guibas，L.J. 2017年a。Pointnet：对点集进行深度学习，用于3D分类和分割。在CVPR。Qi，C.的R.; Yi，L.;苏，H.;和Guibas，L. J. 2017 b.Point- net++：度量空间中点集的深度层次特征学习。在NeurIPS中。Romero，J.; Tzionas，D.;黑色，M。J. 2017.嵌入的手：手和身体的建模和捕捉. 第三十六章Sengupta，A.;布德维蒂斯岛;和Cipolla，R. 2020.在野外进行精确的3D人体姿势和形状估计的合成训练。在BMVC。Sorkine，O. 2005.拉普拉斯网格处理。在欧洲-图形（最先进的报告）。苏姆讷河 W的; 和Pop o v ic'，J。2004年。三角形网格的变形传递ACM TOG，23（3）：399谭，Q;高湖;赖，Y.- K.的;和Xia，S. 2018.变分自动编码器用于变形三维网格模型。在CVPR。唐，H.; Bai，S.;托，P.H.;和Sebe，N. 2020年a。用于人物形象生成的双极图推理gans。在BMVC。唐，H.;Bai，S.;张，L.;Torr，P.H.的; 和Sebe，N.2020年b。XingGAN用于人物图像生成。在ECCV。Ulyanov，D.;Vedaldi，A.;和Lempitsky，V.2016年。实例规范化：快速风格化缺少的成分。arXiv预印本arXiv：1607.08022。瓦斯瓦尼，A.;沙泽尔，N.;帕尔马，N.;乌斯科里特，J.;琼斯湖; Gomez，A. N.的; Kaiser，u.;和Polosukhin，I.2017.注意力是你所需要的。在NeurIPS中。王，J.; Wen，C.;傅，Y.;林，H.; Zou，T.;薛，X.;和Zhang，Y.2020年。基于空间自适应实例归一化的神经姿态转换在CVPR。王，N.;张玉;Li，Z.;傅，Y.;刘，W.;和Jiang，Y.-G.2018年a。Pixel2mesh：从单个rgb图像生成3d网格模型在ECCV。王，X.;格希克河;古普塔，A.;他，K。2018年b。非局部神经网络。在CVPR。杨，G.;唐，H.;丁，M.;Sebe，N.;和Ricci，E.2021年用于连续像素预测的基于变换器的注意力网络。载于ICCV，16269Yu，Z.;万，J.;Qin，Y.;李，X.;Li，S.Z的; 和Zhao，G.2021年a.Nas-fas：静态-动态中心差分网络搜索，用于人脸防欺骗。IEEE TPAMI。+v：mala2255获取更多论文267Yu，Z.; Zhao，C.;王志; Qin，Y.;苏，Z.;李，X.;周，F.;和Zhao，G. 2020.搜索中心差分卷积网络的脸反欺骗。在CVPR，5295- 5305。Yu，Z.;周，B.;万，J.;王，P.;陈，H.;刘，X.; 李鹏说，S. Z的;和Zhao，G. 2021b的最后一页。搜索用于手势识别的多速率和多模态时间增强网络。IEEE Transactionson Image Processing.周，K.;巴特纳加尔湾L.的;和Pons-Moll，G. 2020. 三维网格的非监督形状和姿态解纠缠。在ECCV。周，Y.;吴，C.;Li，Z.;Cao，C.;叶，Y。Saragih，J.;李，H.;Sheikh，Y.2020年。使用高效空间变化内核的全卷积网格在Nerips。Zuffi，S.; Kanazawa，A.; Jacobs，D. W的;黑色，M。J.2017. 3D动物园：为动物的3D形状和姿势建模。在CVPR。

下载后可阅读完整内容，剩余1页未读，立即下载