网格Graphormer：基于变压器的网格重构方法

115 浏览量更新于2023-10-13 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12939网状石墨分子林丽娟王自成刘微软{keli，lijuanw，zliu} @microsoft.com摘要我们提出了一个图形卷积增强Transformer，命名为网格Graphormer，三维人体姿势和网格重建从一个单一的图像。最近，变换器和图卷积神经网络（GC-NNs）在人类网格重构方面都取得了可喜的进展。基于变换器的方法在3D网格顶点和身体关节之间的非局部交互建模中是有效的，而GCNN擅长基于预先指定的网格拓扑来开发邻域顶点交互。在本文中，我们研究了如何结合图卷积和自注意力在一个变压器模型的本地和全球的相互作用。实验结果表明，我们提出的方法，网格Graphormer，显着优于以前的国家的最先进的方法在多个基准，包括胡曼3.6M，3DPW，和FreiHAND数据集。代码和预训练模型可在https：//github上获得。com/microsoft/MeshGraphormer.1. 介绍基于单幅图像的三维人体姿态和网格重建是一个热门的研究课题，因为它为人机交互提供了广泛的应用。然而，由于复杂的身体关节，这是一个具有挑战性的任务。最近，变压器和图卷积神经网络（GCNN）在人体网格重建方面取得了可喜的进展。例如，最近的研究[20，5]建议使用GCNN通过考虑相邻顶点之间的在最近的一项研究[22]中，Transformer编码器与自我注意一起使用，以捕获身体关节和网格顶点之间的全局相互作用，这导致进一步的改进。然而，如文献[41，40，8，41，3]中所讨论的转换器擅长于对输入令牌的长范围依赖性进行建模，但是图1：总结。本文研究了如何将自关注和图卷积结合在一个 Transformer 中进行人的网格重构 . 所提出的Graphormer以明显的优势胜过现有的图卷积网络[5，20]和基于变换器的方法[22]数字是以毫米为单位的重建误差（PA-MPJPE）。越低越好。但是它们在捕获细粒度的局部信息时效率较低。另一方面，卷积层对于提取局部特征是有用的，但是需要许多层来捕获全局上下文。在自然语言处理和语音识别中，Conformer [8]是最近提出的一种技术，它利用自我注意和卷积的互补性这促使我们将自我注意力和图形卷积结合起来，用于人体网格的3D重建（图1）。我们提出了一个图形卷积增强的Transformer称为网格Graphformer重建人体姿势和网格从一个单一的图像。我们将图卷积注入到Transformer块中，以改善相邻顶点和关节之间的局部交互。为了利用图形卷积的功能，Graphormer可以自由地关注所有包含更详细的局部信息的图像网格特征，并且有助于改进3D坐标预测。因此，Graphormer和图像网格特征相互增强，以在人体姿态和网格重建中实现更好的性能。大量的实验表明，所提出的网格Graphormer模型的局部和全局的相互作用有效，明显优于以前的国家的最先进的12940图2：Graphormer编码器的架构。我们提出了一个图形卷积增强的Transformer编码器，以捕获全局和局部的三维人体网格重建的相互作用。编码器由一堆N=4个相同的块。在几个数据集中重建人体网格的方法此外，我们还提供了各种模型设计选项的消融研究，以将图形卷积和自我注意力纳入Transformer编码器中。本文的主要贡献包括• 我们提出了一个图形卷积增强的变换器称为网格Graphormer模型的局部和全局的相互作用的三维重建的人的姿态和网格。• 网格Graphormer允许关节和网格顶点自由地关注图像网格特征以改进3D坐标预测。• MeshGraphormer 在 Human3.6M 、 3DPW 和FreiHAND数据集上的表现优于以前的最先进方法。2. 相关作品人体网格重建通常可以分为参数和非参数方法。绝大多数以前的工作[19，14，34，7，18，21，31]使用参数化人体模型，如SMPL [24]，并侧重于使用SMPL参数空间作为回归目标。给定姿态和形状系数，SMPL是强大的和实用的创建人体网格。然而，如文献[20，29，5，42]中所讨论的，仍然难以从单个图像中估计准确的系数，并且研究者[4，30，18，27]正在尝试预测3D姿势，使用更多的视觉证据进行学习，或者采用密集的对应图[42，9]来改善重建。代替回归参数系数，非参数方法[5，26，20]直接从图像回归顶点。在以前的研究中，图卷积神经网络（GCNN）[17，5，20]是最受欢迎的选择之一，因为它能够基于给定的邻接矩阵[32，5，20，38]对相邻顶点之间的局部交互进行建模。然而，捕捉顶点和身体关节之间的全局相互作用为了克服这种限制，基于变换器的方法[22]使用自注意机制来自由地在网格中的顶点和身体关节处，从而对人类网格的非局部关系进行编码。然而，与基于GNN的方法相比，对局部相互作用进行建模不太方便[5，20]。在上述工作中，METRO [22]是与我们提出的方法最相关的研究。METRO和我们提出的模型之间的主要区别是，我们正在设计一个图形卷积增强变压器编码器重建人体网格。此外，我们将图像网格特征作为输入令牌添加到变换器中，并允许关节和网格顶点参加网格特征。Transformer架构正在为不同的应用快速发展[6，35，33，15，10]。一个重要的方向是提高Transformer网络的表现力，以更好地进行上下文建模。最近的研究[40，8]表明，卷积和自我注意力的组合Transformer编码器有助于改进表示学习。然而，以前的工作主要集中在语言建模和语音识别。当涉及到复杂的数据结构，如三维人体网格，这仍然是一个开放的问题。为了解决这些挑战，我们研究了如何将图卷积注入到Transformer编码器块中，以更好地对3D网格顶点和身体关节之间的局部和全局交互进行建模。3. 石墨烯编码器图2示出了我们提出的Graphormer编码器的架构。它由N=4个相同块的堆叠组成。每个块由五个子模块组成，包括层范数、多头自注意力模块、图残差块、第二层范数和最后的多层感知器（MLP ）。我们的Graphormer编码器具有与传统变换器编码器类似的架构[35]，但我们将图卷积引入网络以模拟细粒度的局部交互。在以下部分中，我们描述了多头自注意（MHSA）模块和图形残差块。12941联系我们∈·H·我∈H1 2N图3：用于人体网格重建的绘图器。 (a)我们的端到端网格回归框架将图像作为输入，并在同一时间预测3D关节和网格顶点。我们使用预先训练的CNN提取网格特征和全局特征向量。然后，特征被标记化并馈送到多层Graphormer编码器。网格特征和多层Graphormer编码器相互加强，以重建精确的人体网格。(b)我们的多层Graphormer编码器由三个Graphormer编码器块组成。所有编码器具有相同数量的输入令牌。我们逐步减小隐藏尺寸，并输出身体关节和网格顶点的三维坐标。3.1. 多头自注意我们采用 Vaswani 等人提出的多头自我注意（MHSA）模块。[35]，其并行地使用几个自我注意功能来学习上下文表示。给定输入序列 X=x1 ，x2，. . . ，xnRn× d，其中d是隐藏大小。它首先通过使用可训练参数将输入序列投影到查询Q、键K和值V{WQ，WK，WV}∈Rd×d.这是写为Q，K，V=XWQ，XWK，XWV∈ Rn× d.（一）三个特征表示被分成h个不同的子空间，例如，Q=[Q1，Q2，. . .，其中Qi∈D复杂数据结构（如3D网格）中的信息。我们提出的网络中的Graph Residual Block旨在解决这一挑战。给定情境化特征Y Rn×d生成通过MHSA，我们在图卷积的帮助下改进了局部交互：Y′=GraphCo nv（A′，Y;WG）=σ（A′YWG）.（三）ARn×n表示图的邻接矩阵，WG表示可训练参数。σ（）是给出网络非线性的激活函数。根据BERT[6] ，我们在这项工作中使用高斯误差线性单元（GeLU）[11]。为了使用多个图卷积层进行训练，我们遵循以下步骤：Rh，这样我们就可以对每一个亚-空间独立。对于每个子空间，输出Yh={yh，yh，. . . ，y，h}通过下式计算：yh=Att（qh，Kh）Vh∈Rd，（2）使用GraphCMR [20]中的设计原理来构建我们的图残差块。该网络架构在精神上类似于[20]，但我们用层规范化[2]替换了组规范化[39]，并替换了我我其中，Att（）表示注意力函数[35]，该注意力函数通过下式量化查询qh与键Kh在语义上有多相关：[ 28 ][29][29][29][29]这是为了使层的类型与Transformer一致。缩放的点积和softmax。输出Yh∈Rn×d我们的Graph Residual Block可以显式地对网络内的图形结构进行编码，然后将每个子空间中的所有子空间连接起来，形成最终输出Y∈Rn×d。3.2. 图形残差块虽然MHSA对于提取长程依赖性是有用的，但是在捕获细粒度局部依赖性方面效率较低改善特征的空间局部性。4. Graphormer在网格重构中的应用在本节中，我们描述了Graphormer编码器如何应用于人体姿势和来自人体模型的网格重建12942×××单个图像。图3（a）给出了我们的端到端网格回归框架的概述。使用大小为224x224的图像作为输入，并且提取图像网格特征。图像特征被标记为多层Graphormer编码器的输入。最后，我们的端到端的框架预测三维坐标的网格顶点和身体关节在同一时间。在下文中，我们描述了基于图像的架构，我们提取图像网格特征。接下来，我们描述用于3D顶点和身体关节的回归的多层Graphormer编码器。最后，我们将讨论一些重要的训练细节。4.1. CNN和图像网格特征在我们模型的第一部分中，我们使用预训练的基于图像的CNN进行特征提取。先前的工作[20，14，22]提取全局2048-Dim图像特征向量作为模型输入。缺点是全局特征向量不包含细粒度的局部细节。这促使我们添加网格特征[13]作为输入标记，并允许关节和网格顶点自由地关注所有网格特征。如我们将在实验中所示，由网格特征提供的局部信息被Graphormer中的图形卷积有效地杠杆化，以细化网格顶点和身体关节的3D位置。如图3（a）所示，我们从CNN中的最后一个卷积块中提取网格特征。格网要素通常为771024大小它们被标记为49个令牌，并且每个令牌是1024-Dim向量。与[22]类似，我们还从CNN的最后一个隐藏层中提取2048-Dim图像特征向量，并使用人体模板网格中每个顶点和身体关节最后，我们应用MLP使所有输入令牌的大小一致。之后，所有输入令牌都具有2051-Dim。4.2. 多层石墨烯编码器给定网格特征、关节查询和顶点查询，我们的多层Graphormer编码器顺序地降低维度，以同时将输入映射到3D身体关节和网格顶点。如图3（b）所示，我们的多层Graphormer编码器由三个编码器块组成。三个编码器块具有相同数量的令牌，包括49个网格特征令牌、14个联合查询和431个顶点查询。然而，三个编码器具有不同的隐藏尺寸。在这项工作中，三个编码器的隐藏维数分别为1024，256和64类似于[22]，我们的多层Graphormer编码器处理具有431个顶点的粗网格。我们使用粗模板网格进行位置编码，并且我们的Graphormer编码器输出粗网格。然后，我们使用线性亲-投影对粗网格进行采样，直至达到原始分辨率（SMPL网格拓扑中具有6K顶点）。如文献[20，22]中所解释的，学习粗网格，然后进行上采样有助于避免原始网格中的冗余，并使训练更有效。4.3. 培训详细信息在METRO [22]之后，除了Graphormer输出之外，我们还通过应用L1的损失来训练我们的模型在我们的训练中，我们还使用掩蔽顶点建模[22]来提高模型的鲁棒性具体来说，我们将L1损失应用于3D网格顶点和身体关节。我们还应用L1损失的2D投影身体关节，以提高图像和重建网格之间的对齐。此外，我们在粗网格上应用中间监督来加速收敛。我们用Adam优化器训练Graphormers [16]。对于Graphormer和CNN主干，我们使用1 10-4我们训练了200个epoch，并在100个epoch后将学习率降低了10倍所有Graphormer权重都是随机初始化的，CNN主干是用ImageNet预先训练的权重。在[22]之后，我们报告了HRNet主干的结果[37]。5. 实验在本节中，我们首先讨论我们在训练中使用的数据集然后，我们比较我们的方法与以前的国家的最先进的方法。最后，我们对我们的模型架构进行了深入的消融研究。5.1. 数据集我们使用公开可用的数据集进行广泛的训练，包括Human3.6M [12] ， MuCo-3DHP [25] ， UP-3D [21] ，COCO [23]，MPII [1]。请注意，由于许可问题，来自Human3.6M [12]的3D网格训练数据不可用。因此，我们使用来自[5，26]的伪3D网格训练数据。我们遵循一般设置，其中在训练中使用受试者S1、S5、S6、S7和S8，并且测试受试者S9和S11。我们使用P2协议[14，19]呈现所有结果。为了与早期的最先进技术[18，22]进行公平的比较，我们还使用3DPW [36]训练数据进行3DPW实验。我们也将我们的方法应用于三维手的重建。我们在FreiHAND [44]上进行培训，并使用其在线服务器进行评估请注意，我们使用FreiHAND实验的测试时间增强。5.2. 主要结果我们比较了我们的方法与以前的方法来重建人体网格Human3.6M和3DPW数据集。在表1中，我们可以看到我们的方法对于两个数据集都优于先前的现有这既12943图4：我们的方法在不同数据集上的定性结果。上面两行是Human3.6M上的结果，下面两行是3DPW上的结果。一百一十六4九十九。189岁。281.3880568表1：在3DPW和Human3.6M数据集上与先前最先进方法的性能比较基于GCNN的模型[20，5]和基于变换器的方法[22]。这表明Graphormer更好地模拟了局部图4显示了我们的方法在Human3.6M和3DPW数据集上的定性结果。我们看到，我们的方法是强大的挑战性的姿势和嘈杂的背景。我们还将我们的方法应用于3D手部重建，并将其与FreiHAND数据集上的其他现代方法[22，5，26，44在表2中，我们看到我们的方法比现有技术好得多。这证明了我们的方法对其他对象的泛化能力。图5显示了我们的方法在FreiHAND测试集上的定性结果。我们可以看到Graphormer可以3DPWHuman3.6M方法HMR [14]MPVE↓MPJPEPA-MPJPE↓MPJPE↓ PA-MPJPE↓GraphCMR [20][19]第十九话[5]第五话I2LMeshNet [26]VIBE [18]地铁[22]−−−−88岁2−−−九十三282岁0七十七。1七十2五十九2五十八9五十七751岁9四十七9-501-411六十四九点四十七055. 七点四十一。1六十五6414五十四036712944−−图5：我们的方法在FrieHAND测试集上的定性结果。Graphormer可以推广到3D手部重建，即使手势是新颖和复杂的。0的情况。4350. 898[19]第十九话705290. 935[5]第五章：八点七706740. 969[ 26 ]第二十六话六七。406810973[22]第二十二话七点六八点零分七一七0。981网格石墨分子筛5.9 6.0 0.764 0.986表2：在FreiHAND数据集上与先前最先进方法的性能比较用于重建3D手，即使目标姿势是新颖和复杂的。5.3. 消融研究我们对Hu-man 3. 6 M [12]进行了大规模消融研究，以研究我们的模型能力。我们使用3D姿态准确度评估我们的模型，并使用PA-MPJPE度量报告准确度[43，14，19，20]。网格特征的有效性在我们的第一次消融研究中，我们感兴趣的是将图像网格特征添加到Transformer编码器的效果我们已经实现了一个基线模型[22]，它使用图像网格特征作为输入。表3示出了图像网格特征的添加通过明显的裕度改善了重建性能。这表明使用单个全局特征向量是现有技术中的性能瓶颈之一。人们可能会问的下一个问题是什么特征图对于训练Transformer编码器很重要。我们执行方法PA-MPVPE↓PA-MPJPE↓F@5 mm↑F@15 mm↑哈森等人[14]Boukhayma等人[二十十三岁2]13. 0−0的情况。4360的情况。90812945方法PA-MPJPE[22]第36话. 7Transformer +电网特性35.9表3：在Transformer框架中使用图像网格特征的有效性的分析。网格特征一BCDE FPA-MPJPE三十七1三十七7三十六3三十八岁。1三十六035.9表4：使用来自HRNet的不同图像网格特征的性能比较。图6：我们从HRNet [37]中提取的用于消融研究的不同网格特征的图示。编码器1编码器2编码器3PA-MPJPE✗✗✗三十五9✓✗✗三十六7✗✓✗三十六2✗✗✓35.1✓✓✓三十六0表5：用于人类网格回归的三个编码器的Graphormer块的消融研究。 ✓ ：将图形卷积添加到指定的Transformer编码器中;：指定的Transformer编码器中没有图形卷积。分析HRNet中的各种特征图[37]。图6显示了我们为实验选择的六个特征图，表4显示了性能比较。我们的发现是，最新的特征图（图6中标记为F）比其他的更好。结果表明，特征金字塔有助于提高Transformer编码器的性能。添加图形卷积的有效性：一个重要的问题是是否添加一个图形卷积的Transformer器是有用的。在这个实验中，我们研究了图卷积的效果以及图卷积和12946模型架构PA-MPJPE图形转换和并行的MHSA36。4图形转换在MHSA35之前6图形转换MHSA35.1之后表6：Graphormer Block架构的不同设计选项之间的性能比较。设计选择PA-MPJPE35.我的超次元帝国9栅格要素+图形转换三十五1网格要素+图形资源第34.5项表7：基本图形卷积和图形残差块的消融研究。Transformer可以组合。由于我们提出的框架包含三个编码器块，我们通过逐步向每个编码器添加图形卷积层并比较性能来检查图形卷积的效果在表5中，第一行对应于在网络中不使用任何图形卷积的基线其余行示出了将图形卷积层添加到不同编码器块的结果。结果显示了一些有趣的观察结果：（i）向编码器1或编码器2添加图形卷积不会提高性能。（ii）将图形卷积添加到编码器3改进0。9PA-MPJPE。研究结果表明，低层模型关注网格顶点间的全局交互作用来模拟人体的姿态，而上层模型则关注局部交互作用来更好地进行形状重建。编码器架构分析：我们进一步检查- ine的网络架构中的编码器块。也就是说，我们通过使用三种不同的设计来研究MHSA模块（多头自注意）和图形卷积模块之间的关系：（ i ）我们并行使用图形卷积层和MHSA，类似于[40]。(ii) 我们首先使用图卷积层，然后使用MHSA。(iii) 我们首先使用MHSA，然后使用图卷积层。请参阅补充材料，了解三个建筑设计的图解说明。在表6中，我们可以看到在MHSA之后直接添加图形卷积层比其他设计选项好得多。添加图形残差块的有效性：在前面的部分中，我们探索了在Transformer编码器中使用基本图形卷积层。在这里，我们将我们的实验扩展到图残差块。特别地，我们用图残差块替换图卷积层以提高模型容量。在表7中，我们可以看到12947图7：定性比较。顶行（粉色网格）显示了没有图形卷积的Transformer baseline [22]的结果。底行（蓝色网格）显示了我们使用Graphormer的结果。注意力可视化显示了左膝和所有其他顶点之间的交互，颜色越亮表示交互越强。可以看出，Graphormer有助于对顶点和身体关节之间的全局和局部交互进行建模，并且实现更准确的重建。请注意，每个注意力地图的颜色都是相对于最大注意力标准化的。补充材料中的图6显示了未进行颜色归一化的注意力图。网格特征图形转换图表研究PA-MPJPE✗✗✗三十六7✗✓✗三十六7✗✓✓三十六6✓✗✗三十五9✓✓✗三十五1✓✓✓34.5表8：图像网格特征和图形卷积的不同组合的消融研究。图形残差块比基本图形卷积层更好地工作。网格特征与图形卷积之间的关系：一个有趣的问题是，当我们使用Graphormer编码器而不是网格特征时会发生什么。为了回答这个问题，表8显示了比较。首先，表8的第一行对应于在Transformer中没有网格特征或图形卷积与表8的第四行相比，我们看到我们可以实现0的改进。8PA-MPJPE，如果我们只启用网格功能。接下来，如果我们单独启用图卷积，如表8的第三行所示，则只有0。1改进了PA-MPJPE。最后，如表8的底行所示，当我们启用网格特征和图形卷积时，它最终将PA-MPJPE提高了2。2，这是远远大于两个单独的改善（0。1 + 0。（八）。它表明网格特征和图形卷积相互加强，这导致性能的进一步提高。局部交互的可视化：我们进一步研究Graphormer在学习身体关节和网格顶点之间的全局和局部交互中的效果。我们从我们的最后一个编码器的最后一层提取注意力图（即，编码器3），并计算所有注意力头部的平均注意力。我们将Graphormer的自注意力与现有方法的自注意力进行比较[22]。图7示出了定性比较。我们可以在图7的顶行中看到，先前的方法[22]未能对左膝和左脚趾之间的相互作用进行建模。相反，如图7的底行所示，Graphormer能够对全局和局部相互作用进行建模，特别是左膝和左脚趾之间的相互作用。因此，Graphormer与先前的作品相比重建了更有利的形状。6. 结论我们介绍了 Mesh Graphormer ，这是一种新的Transformer器架构，它结合了图卷积和自关注，用于从一个单一的形象。我们探索了各种模型设计选项，并证明了图卷积和网格功能都有助于提高Transformer的性能。实验结果表明，我们的方法在Human3.6M，3DPW和FreiHAND数据集上产生了新的最先进的性能12948引用[1] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。4[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。3[3] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A2-nets：双重注意网络。arXiv预印本arXiv：1810.11579，2018。1[4] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.来自视频的时间上一致的3d人体姿势和形状的远距离静态特征arXiv电子印刷品，第arXiv-2011、2020页。2[5] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络在ECCV，2020年。一二四五六[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。二、三[7] Peng Guan，Alexander Weiss，Alexandru O Balan，andMichael J Black. 从人体模型估计人体形状和姿态一个单一的形象。ICCV，2009年。2[8] Anmol Gulati ， James Qin ， Chung-Cheng Chiu ， NikiParmar ， Yu Zhang ， Jiahui Yu ， Wei Han ， ShiboWang，Zheng-dong Zhang，Yonghui Wu，et al.共形变换器：用于语音识别的卷积增强Transformer.在国际米兰-演讲，2020年。一、二[9] RızaAlpGuéler，Na taliaN ev er ov a，andIasonasKokkinos. 密度：野外密集的人体姿势估计。在CVPR，2018年。2[10] 韩凯，王云鹤，陈汉庭，陈兴浩，郭建元，刘振华，唐业辉，安晓，徐春静，徐义兴，等.视觉Transformer的研究概况。arXiv预印本arXiv：2012.12556，2020。2[11] 丹·亨德里克斯和凯文·金佩尔。高斯误差线性单位（gelus）。arXiv预印本arXiv：1606.08415，2016。3[12] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu.人类3。6m：自然环境中3D人体感知的大规模数据集和预测方法。IEEE Transactions onPattern Analysis and Machine Intelligence，36（7 ）：1325-1339，2014. 四、六[13] Huaizu Jiang ， Ishan Misra ， Marcus Rohrbach ， ErikLearned-Miller，and Xinlei Chen.为可视化问答的网格特征辩护在CVPR，2020年。4[14] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik 。端到端恢复人体形状和姿势。在CVPR，2018年。二、四、五、六[15] Salman Khan 、 Muzammal Naseer 、 Munawar Hayat 、Syed Waqas Zamir 、 Fahad Shahbaz Khan 和 MubarakShah。视觉中的变形金刚：一个调查。arXiv预印本arXiv：2101.01169，2021。2[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。4[17] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。2[18] Muhammed Kocabas、Nikos Athanasiou和Michael J.黑色.Vibe：用于人体姿势和形状估计的视频推理。在CVPR，2020年。二、四、五[19] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilidis.学习通过循环中的模型拟合重建3d人体姿势和形状。在ICCV，2019年。二、四、五、六[20] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR，2019年。一二三四五 6[21] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民：关闭3D和2D人类表现之间的循环。在CVPR，2017年。二、四[22] Kevin Lin，Lijuan Wang，and Zicheng Liu.端到端的人类姿势和网格重建与变压器。在CVPR，2021年。一、二、四、五、六、七、八[23] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。4[24] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl：一个皮肤的多人线性模型。 ACM Transactions on Graphics ， 34（6）：248，2015. 2[25] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.基于单目rgb的单镜头多人三维姿态估计。在3DV，2018年。4[26] 文敬植和李敬武I2 l-meshnet：图像到像素预测网络，用于从单个rgb图像进行准确的3d人体姿势和网格估计在ECCV，2020年。二、四、五、六[27] 文敬植和李敬武。 Pose2pose ： 3d posi- tional pose-guided 3d rotational pose prediction for expressive 3dhuman pose and mesh estimation. arXiv 预印本 arXiv ：2011.11534，2020。2[28] Vinod Nair和Geoffrey E Hinton。校正线性单元改善受限玻尔兹曼机。ICML，2010年。3[29] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合：统一深度学习和基于模型的人体姿势和形状估计。在3DV，2018年。2[30] Georgios Pavlakos Jitendra Malik和Angjoo Kanazawa从多个镜头中恢复人体网格。 arXiv 预印本 arXiv ：2012.09843，2020。2[31] Georgios Pavlakos， Luyang Zhu ， Xiaowei Zhou ， andKostas Daniilidis.学习从单色图像估计三维人体姿态和形状。在CVPR，2018年。2[32] Anurag Ranjan ， Timo Bolkart ， Soubhik Sanyal ， andMichael J Black.使用卷积网格自动编码器生成3d人脸。12949在ECCV，2018。212950[33] Yi Tay ， Mostafa Dehghani ， Dara Bahri ， and DonaldMetzler.高效变压器：一个调查。arXiv预印本arXiv：2009.06732，2020。2[34] Hsiao-Yu Tung ， Hsiao-Wei Tung ， Ersin Yumer ， andKaterina Fragkiadaki. 动作捕捉的自监督学习。NeurIPS，2017。2[35] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser ， and Illia Polosukhin. 注意力是你所需要的。NeurIPS，2017。二、三[36] Timo von Marcard，Roberto Henschel，Michael Black，Bodo Rosenhahn，and Gerard Pons-Moll.使用imus和移动摄像机在野外恢复精确的三维人体姿态。在ECCV，2018。4[37] Jingdong Wang ， Ke Sun ， Tianheng Cheng ， BoruiJiang，Chaorui Deng，Yang Zhao，Dong Liu，YadongMu，Mingkui Tan，Xinggang Wang，Wenyu Liu，andBin Xiao.用于视觉识别的深度高分辨率表示学习。IEEETransactionsonPatternAnalysisandMachineIntelligence，2019。四、七[38] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2mesh：从单个rgb图像生成3d网格模型。在ECCV，2018。2[39] Yuxin Wu和Kaiming He。组归一化。在ECCV，2018。3[40] Zhanghao Wu ， Zhijian Liu ， Ji Lin ， Yujun Lin ， andSong Han.建兴Transformer与长短程的注意。在ICLR，2020年。一、二、七[41] Adams Wei Yu，David Dohan，Minh-Thang Luong，RuiZhao，Kai Chen，Mohammad Norouzi，and Quoc V Le.Qanet：结合局部卷积和全局自我注意力进行阅读理解。在ICLR，2018年。1[42] Hongwen Zhang，Jie Cao，Guo Lu，Wanli Ouyang，andZhenan Sun.从密集的身体部位学习3d人体形状和姿势IEEE Trans. 模式分析马赫内特尔，2020年。2[43] Xiaowei Zhou ， Menglong Zhu ， Georgios Pavlakos ，Spyri- don Leonardos ， Konstantinos G Derpanis ， andKostas Dani- ilidis. Monocap：使用cnn结合几何先验的单目人体运动捕捉。 IEEE Transactions on PatternAnalysis and Machine Intelligence，2018。6[44] Christian Zimmermann 、 Duygu Ceylan 、 Jimei Yang 、Bryan Russell、Max Argus和Thomas Brox。Freihand：一个用于从单个rgb图像无标记捕获手部姿势和形状的数据集。在ICCV，2019年。四、五

下载后可阅读完整内容，剩余1页未读，立即下载