跨数据集适应性的可学习生成的3D人体姿势生成模型

176 浏览量更新于2023-10-26 收藏 21.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{mgholami, rababw, zjanew}@ece.ubc.ca {wandt, rhodin}@cs.ubc.cafrom a different viewpoint or when they contain an activitythat is not present in the training dataset [42,45]. As an ex-ample, Figure 1 shows images from the Human3.6M [15]dataset on the left and images from the Ski-Pose [33, 35]dataset on the right which we deﬁne as source domain andtarget domain, respectively. Camera viewpoint, position,human action, speed of motion, and body size signiﬁcantlydiffer between the source and target domain. This large do-main gap causes 3D pose estimation models trained on thesource domain to make unreliable predictions for the targetdomain [42,45,46]. We address this problem by generatingsynthetic 3D data that lies within the distribution of the tar-get domain and ﬁne-tuning the pose estimation network bythe generated synthetic data. Our method does not require3D labels or camera information from the target domain andis only trained on sample videos from the target domain.To the best of our knowledge, there are only two ap-proaches that generate synthetic 2D-3D human poses forcross-dataset generalization of 3D human pose estimators[13, 23].Li et al. [23] randomly generate new 2D-3Dpairs of the source dataset by substituting parts of the hu-man body in 3D space and projecting the new 3D pose to130750AdaptPose：可学习运动生成的3D人体姿势跨数据集适应0Mohsen Gholami，Bastian Wandt，Helge Rhodin，Rabab Ward和Z. JaneWang英属哥伦比亚大学0摘要0本文解决了3D人体姿势估计模型在跨数据集上的泛化问题。在新数据集上测试预训练的3D姿势估计器会导致性能大幅下降。以往的方法主要通过改善训练数据的多样性来解决这个问题。我们认为仅仅多样性是不够的，还需要将训练数据的特征调整到新数据集的特征，如相机视角、位置、人体动作和体型。为此，我们提出了AdaptPose，一个端到端的框架，它从源数据集生成合成的3D人体动作，并用它们来微调3D姿势估计器。AdaptPose采用对抗训练的方案。生成器从源3D姿势生成一系列3D姿势和相机方向，然后将生成的姿势投影到新视角。在没有任何3D标签或相机信息的情况下，AdaptPose成功地学习到了如何从目标数据集中生成合成的3D姿势，而只是在2D姿势上进行训练。在Human3.6M、MPI-INF-3DHP、3DPW和Ski-Pose数据集上的实验证明，我们的方法在跨数据集评估中优于以前的工作14%，优于使用部分3D注释的半监督学习方法16%。01. 引言0单目3D人体姿势估计旨在从2D图像中重建人体的3D骨架。由于姿势和深度的不确定性，众所周知，这是一个本质上不适定的问题。然而，深度学习模型能够学习2D到3D的对应关系，并在类似数据集上进行训练和测试时取得令人印象深刻的准确结果[1, 3, 6, 14, 27, 31,32]。一个常常被忽视的方面是数据集中特征的分布，例如相机方向和人体姿势在不同数据集之间的差异。因此，当应用于捕获的图像时，预训练的网络表现不佳。0源域目标域0域？0�03D标签0�0相机内参0�0相机外参0�03D标签0�0相机内参0�0相机外参0�0样本视频0合成动作0动作0生成器0图1.AdaptPose生成合成动作以改善跨数据集的泛化性能。源数据集具有3D标签和相机信息，而目标数据集只有样本视频。生成的合成动作被生成为属于目标数据集。因此，使用合成动作对3D姿势估计器进行微调可以提高模型的泛化性能。1307602D。PoseAug[11]提出了一个差分数据增强框架，与姿势估计器一起训练。[23]和[11]都仅仅改善了源域的多样性，而没有考虑目标域的分布。此外，这些方法都是基于单个图像的，没有考虑时间信息。0我们将数据增强过程形式化为一个领域适应问题。图2展示了我们的训练流程。我们的目标是生成在目标域分布内的合理的合成2D-3D对。我们的框架AdaptPose引入了一个人体运动生成器网络，它从源数据集中获取3D样本，并通过学习的变形对其进行修改，生成一系列新的3D样本。我们将生成的3D样本投影到2D并将其输入到一个领域判别器网络中。领域判别器使用来自目标数据集的真实2D样本和生成器的伪样本进行训练。我们使用生成的样本对姿势估计网络进行微调。因此，我们的网络仅使用目标数据集中的图像适应于任何目标。不需要来自目标域的3D标注。与[13,23]不同，这使得我们的网络能够生成来自目标域的合理3D姿势。另一个贡献是将相机视点生成从确定性方法扩展为概率方法。我们假设目标域的相机视点来自一个特定的、但未知的分布。因此，我们提出学习相机视点的分布，而不是学习生成确定性旋转矩阵。我们的网络将生成的3D姿势旋转到在学习的分布内的随机相机坐标系中。生成的样本是一个包含时间域合理性的2D-3D姿势对序列。我们相信所提出的运动生成器的应用不仅仅局限于改善3D姿势估计的跨数据集性能，还可以用于其他任务，如人体动作识别。0贡献。1）我们提出通过一个运动学感知的领域判别器来消除训练和测试数据集之间的领域差距。领域判别器与人体运动生成器（HMG）一起训练，该生成器使用源训练数据集生成接近目标数据集中的人体动作。2）我们证明学习相机视点的分布比学习生成确定性相机矩阵更有效。3）据我们所知，这是第一个专门为3D人体姿势估计的跨数据集泛化提出生成人体动作的方法，而不是专注于单帧数据增强的先前工作。02.相关工作0在接下来的内容中，我们将重点讨论与跨数据集适应相关的工作。弱监督学习。弱监督学习被提出来减少网络对3D标注的依赖。这些方法依赖于无配对的3D标注[21, 39,43]，多视角图像[10, 16, 19, 33, 40]或循环一致性[4,9]。与我们的工作最相关的是通过弱监督学习将网络适应到目标领域。张等人[46]提出了一种基于弱监督学习方法[4]的在线适应目标测试数据的方法。杨等人[43]使用无配对的3D标注在野外图像上进一步微调网络。Kundu等人[22]使用自监督学习方法改善预训练网络在有遮挡图像上的泛化能力。跨数据集泛化。最近，对3D姿势估计器的跨数据集适应引起了人们的关注。Guan等人和张等人[13,46]提出了在推理阶段对姿势估计器进行在线适应的方法。Guan等人[13]使用时间一致性损失和2D投影损失对流式测试数据进行适应，以适应目标测试数据集。张等人[46]使用循环一致性方法在每个单独的测试帧上优化网络。虽然在线适应方法改善了跨数据集的泛化能力，但也增加了推理时间，特别是如果网络利用了时间信息。Wang等人[42]认为，在3D姿势估计的跨数据集泛化中，估计相机视点除了3D关键点之外也很重要。然而，相机视点并不是数据集之间唯一的差异标准。Split-and-Recombine[45]提出将人体骨架分割成不同的身体部分，以便目标数据集中罕见姿势的不同身体部分可以在源数据集中看到。数据增强。数据增强是减少跨数据集误差的另一种方法。以前的方法对图像[34]、3D网格模型[5, 36, 47]或2D-3D对[7, 13,23]进行数据增强。与我们的工作最相关的是增强2D-3D对。Li等人[23]通过从源训练集中替换身体部位来生成合成的3D人体样本。[23]的进化过程成功地生成了新的姿势，然而，忽略了生成自然相机视点。相反，它随机扰动源相机姿态。PoseAug[11]提出了一个端到端的数据增强框架，与姿势估计网络一起训练。虽然它提高了训练数据的多样性，但不能保证生成的样本在目标数据集的分布中。此外，根据PoseAug的消融研究，主要的改进来自于生成相机视点而不是生成新的姿势。这意味着PoseAug在有效改进跨数据集泛化能力方面能力有限。N(σ,𝜇)130770评估0选择0运动生成器0源数据集0目标数据集0域0鉴别器03D0鉴别器0随03D X r03D X r02D0X'02D X'03D0训练0提升网络0随机0扰动0图2. 所提出网络的概述。输入是源数据集中的3D关键点向量与高斯噪声的连接。运动生成器学习生成一系列3D关键点 X b 3D，以及正态分布 N 的均值和标准差。从学习到的正态分布中随机采样一个旋转矩阵，并将 X b 3 D 转换为 X r 3 D并投影到2D。域鉴别器使用来自目标域的 X r 2 D 和2D关键点进行训练。提升网络是一个预训练的姿势估计器，从2D估计3D。它用于评估X r 2 D，X r 3 D，并向运动生成器提供反馈，并选择一部分样本进行提升网络的微调。整个流程进行端到端的训练。0为了提高训练集中的姿势多样性。与 PoseAug不同，我们展示了即使不增加摄像机视角，我们的运动生成网络也显著改善了跨数据集的结果。03. 问题表述0设 X src = ( X src 2 D , X src 3 D )为源数据集中的2D和3D姿势对，X tar = X tar 2 D为目标数据集中的2D姿势。我们模型的输入是带有长度为 n的帧序列，X src 2 D: [ x 2 D ] n t =0 , X src 3 D: [ x 3 D ]n t =0 , 以及 X tar 2 D: [ y 2 D ] n t =0，其中 x 2 D，y 2D ∈ R J × 3。AdaptPose 包括一个生成器函数0G ( X src , z ; θ G ) → X fake , (1)0使用参数 θ G 的生成器 G，将源样本 X src 和噪声向量 z � pz 映射到一个假的2D-3D对 X fake = ( X fake 2 D , X fake3 D )。假样本 ( X fake 2 D , X fake 3 D )是一个2D-3D关键点序列 X fake 2 D: [ x fake 2 D ] n t =0, X fake 3 D: [ x fake 3 D ] n t =0。生成器 G生成一个适应的数据集 X fake = G ( X src , z)，其大小可任意设定。为了在没有3D目标姿势的情况下将源域适应到目标域，我们引入了一个域鉴别器 D D和一个3D鉴别器 D 3 D。域鉴别器 D D ( x ; θ D )给出2D输入 x 来自目标域 X tar 2 D 的可能性d。生成器试图尽可能地生成与目标样本 X tar 2 D接近的假样本 X fake 2D，而鉴别器则试图区分它们。与标准的GAN网络[12]不同，其中生成器仅以噪声向量为条件，我们的生成器同时以噪声向量和源数据集中的样本为条件，这在生成合成图像方面已被证明是有效的[2]。此外，该模型是有条件的。0在一个3D鉴别器 D 3 D ( x ; θ D )上进行条件，输出生成的3D X fake 3 D来自真实3D分布的概率d'。理想情况下，我们希望以目标3D数据集为条件。由于目标域中的3D数据不可用，我们将其条件设定为源3D数据集。然而，直接将3D鉴别器 D 3 D条件设定为源3D姿势会限制运动生成器的源分布。相反，我们将3D鉴别器 D 3 D 条件设定为数据的扰动版本 X psrc 3D = y + X src 3 D，其中 y � p y是一个小的噪声向量。噪声向量 y 被选择为使 X psrc 3 D成为源分布中的有效姿势。AdaptPose的目标是优化以下目标函数0L = minθGmax(θDD, θD3D)αL(G, DD) + βL(G, D3D), (2)0其中α和β是损失函数的权重。04. 人体运动生成器0我们将GAN网络的生成器命名为人体运动生成器(HMG)。HMG由两个主要组件组成。1）骨骼生成器，用于旋转骨骼向量并改变骨骼长度比例。骨骼生成操作产生新的3D关键点Xb3D。2）相机生成器，用于生成新的相机视角{R,T}，其中R∈R3×3是旋转矩阵，T是平移向量。Xb3D通过以下方式转换为生成的相机视角0Xfake3D = RXb3D + T, (3)0与相应的2D关键点一起0Xfake2D = Π(Xfake3D), (4)),(8)xyxyBG2BG1ΔB→r→ΔB→=0n000 B →st B →st).(13)130780其中Π是使用源数据集的内参参数进行的透视投影。04.1. 骨骼生成0在本节中，我们分析了时间域中骨骼向量生成的不同方法。主要挑战是使每个帧的骨骼变化在时间域内保持合理，并保持时间上的一致性。我们提出并分析了图3中显示的三种不同方法BG1、BG2和BG3。BG1。骨骼生成网络接受源数据集的一系列3D关键点。将3D关键点序列转换为骨骼向量表示[�Bsrct]t0+nt=t0，其中�Bsrct∈R(J−1)×3，J是关键点的数量。BG1生成位移向量∆�B∈R(J−1)×3和骨骼比例λ∈R(J−1)×1。新的骨骼向量为[�Bfaket]t0+nt=t0，其中0�Bfaket0∥�Bsrct+∆�B∥∥�Bsrct∥(1+λ). (5)0∆�B可能改变骨骼长度而不是旋转到新的配置，如图3所示。为了避免这种情况，在公式5中我们将生成的骨骼向量除以∥�Bsrct+∆�B∥。BG2。骨骼生成网络接受源数据集中的单个3D关键点样本，并将其转换为骨骼表示�Bsrct0。BG2生成∆�B和λ。新的骨骼向量为[�Bfaket]t0+nt=t0，其中0�Bfaket�Bsrct00∥�Bsrct0+j∆�B/n∥∥�Bsrct0∥(1+λ). (6)0BG3。骨骼生成网络生成向量�r∈R(J−1)×3和角度θ∈R(J−1)×1。通过以下方式计算一系列旋转矩阵[Rt]nt=00Rt+j = H(�0∥�r∥jθn), (7)0其中H将(θ,�r)的轴角旋转转换为四元数表示的旋转矩阵q =qr + qxi + qyj + qzk0q = cos(02) + 0∥�r∥sin(θ0R = v�v + q2rI + 2qr[v]× + [v]2×, (9)0其中�是外积，I是单位矩阵，0[v]× =0�0 −v3 v2 v3 0 −v−v2 v1 00�0�. (10)0{B}0z0z0y0z0BG30{�/n, 2�/n, ..., �0x0{B}→0{B}→0{B}→0图3.骨骼生成方法。蓝色向量表示旋转前的骨骼向量，绿色向量表示旋转后的骨骼向量。∆�B是网络生成的旋转骨骼方向。�r和θ分别是旋转的轴和角度。04.2. 相机生成0在本节中，我们介绍两种不同的相机生成方法：1）确定性，它生成一个单一的相机旋转矩阵和平移，以及2）概率性。网络学习旋转矩阵的分布。从学习到的分布中随机采样一个旋转矩阵。此外，我们探索了三种不同的旋转表示：轴角、欧拉角和四元数。接下来，我们将讨论每种旋转表示的每个过程。确定性轴角。网络生成一个轴�r和一个平移T，其中旋转角度为∥�r∥。旋转矩阵R∈R3×3由R =H（�r）产生，其中H在方程8中解释。概率性轴角。网络学习三个独立的正态分布N1（µ1，σ1），N2（µ2，σ2）和N3（µ3，σ3），一个角度θ和一个平移T。轴r ={r1，r2，r3}从学习到的正态分布中采样，并转换为旋转矩阵0R = H（0∥�r∥θ）。（11）0概率性欧拉角。网络学习三个高斯分布N1，N2和N3，以从指定的分布中采样欧拉角（α，β，γ）。旋转矩阵的获取方式如下：0R = Rz（α）Ry（β）Rx（λ），（12）0其中Rz（α），Ry（β）和Rx（λ）分别是绕z、y、x轴旋转α、β和γ度的旋转。概率性四元数。四元数表示绕轴�u=（ux，uy，uz）旋转的角度θ，如下所示0q = cos（02）+�usin（θ0因此，q可以由四个元素表示。我们的网络学习四个分布N1，...，4，并从这些分布中随机采样q的元素。四元数qLD3D =130790然后将其转换为旋转矩阵表示，如第4.1节所述。04.3. 域和3D判别器0我们采用二维空间中的运动链空间（KCS）[38，39]来生成图像平面中的关节角度和肢体长度矩阵。域判别器有两个分支，分别接受二维关键点和KCS矩阵。KCS矩阵的对角线包含图像空间中的肢体长度。KCS矩阵的其他组成部分表示二维姿势的角度关系。值得注意的是，我们不将输入的二维关键点相对于根关节进行归一化，因为这会导致透视模糊[44]。因此，diag（KCS）是位置和身体比例的函数。相反，KCS -diag（KCS）是相机视角和人体比例的函数。因此，KCS矩阵解开了运动生成器需要学习的不同参数。对于三维判别器，为了不将其条件设置为源域，我们首先对输入的骨骼向量施加随机扰动β度，其中β <10°，然后将扰动后的三维输入分别输入到部分KCS分支[11]和原始KCS分支。有关三维判别器的更多详细信息，请参见补充材料。04.4. 选择0为了稳定提升网络的训练，我们通过评估样本来引入选择步骤。在这一步中，提升网络接收（X src 2 D，X src 3D）和（X fake 2 D，X fake 3D），它们分别是源样本和生成的样本。我们使用以下规则排除过于简单或过于困难的样本0选择=0� 是的，如果（LD0L（N（X src 2 D）） - a）2 < b0否则为0，(14)0其中L是L2损失。05. 训练0在每个时期，我们生成150万个合成样本，然后对提升网络进行微调。运动生成器。我们的对抗框架使用三个损失函数对运动生成器和判别器进行训练，定义如下：02E[(D(X src 3 D) - 1) 2] 10L D 3 D = 10L D D = 02E[D(X fake 3 D) 2], (1502E[D(X fake 2 D) 2], (16)02E[(D(X tar D) - 1) 2] + 02E[(D(X fake 2 D) - 1) 2], (17)0L G adv = 10其中(X tar 2 D, X fake 2D)分别是目标数据集和生成的合成数据的2D关键点。生成器还从提升网络接收反馈损失。反馈损失有两个组成部分：1）目标域估计的3D关键点的投影损失2）从[11]中适应的固定的难度比例反馈损失。提升网络N接受来自目标数据集的X tar 2 D并预测X tar 3 D。我们将投影损失定义为：0[X fake proj]0L proj =0||X fake2 D||0||X fake proj|| -X fake 2 D0其中||∙|| 1是L1范数，0X fake proj = [1 00 0 1 0]0N(X tar 2 D)。 (19)0固定的难度比例损失根据生成样本相对于源样本的难度提供反馈，如下所示：0f = (L(0L(N(X src 2 D)) - c) 2，(20)0L hr =0如果f < d 2，则为00否则为0，(21)0其中L是L2损失。上述损失的总和是我们的生成器损失。0L G = L G adv + L proj + L hr. (22)0Lifting Network. 提升网络N使用(X src 2 D, X src 3D)和(X fake 2 D, X fake 3 D)进行训练，得到提升损失。0L N = ||X src 3 D - N(X src 2 D)|| 2 + ||X fake 3 D - N(X fake2 D)|| 2. (23)06. 实验0我们进行了大量实验来评估AdaptPose在跨数据集泛化方面的性能。我们还对网络的不同元素进行了消融研究。接下来，我们将讨论不同的数据集，然后是基线和评估指标。0•Human3.6M（H3.6M）包含来自七个受试者的3D和2D数据，采样率为50fps。我们将H3.6M的训练集（S1、S5、S6、S7、S8）作为我们进行跨数据集评估的源数据集。在对H3.6M数据集本身进行实验时，我们将使用S1作为源数据集，S5、S6、S7和S8作为目标数据集。0•MPI-INF-3DHP（3DHP）包含来自8个受试者的3D和2D数据，涵盖8种不同的活动。我们将使用3DHP训练集的2D数据[28]。130800在评估3DHP时，我们将其测试集作为目标数据集。3DHP的测试集包含超过24K帧。然而，之前的一些工作使用了测试数据的子集，其中包括2,929帧用于评估[11,20]。2,929版本存在时间不一致性，这对于单帧网络来说是可以接受的。我们使用3DHP的官方测试集，并将我们的结果与之前的工作在3DHP的官方测试集上进行公平比较。0•3DPW包含在室外环境中捕获的3D和2D数据。相机在某些试验中移动。3DPW[37]以25fps的速度捕获，并且在相机姿势方面比3DHP和H3.6M具有更多的变异性。在对该数据集进行实验时，我们将使用3DPW的训练集作为目标数据集。0• Ski-PosePTZ-Camera（Ski）包括来自滑雪度假村的5名专业滑雪运动员的3D和2D标签。该数据集以30fps的速度捕捉，帧被裁剪为256×256。相机在移动，相机姿势/位置方面与之前的数据集存在较大的领域差异。0评估指标。我们使用平均每关节位置误差（MPJPE）和经过Procrustes对齐的MPJPE（P-MPJPE）作为主要评估指标。P-MPJPE在预测姿势和目标姿势进行Procrustes对齐后测量MPJPE。我们还报告了关键点正确的百分比（PCK），阈值为150mm，以及曲线下面积（AUC）用于评估3DHP。基线（LiftingNetwork）。我们使用VideoPose3D[32]（VPose3D）作为基准姿势估计模型。VPose3D是一个从输入2D关键点回归3D关键点的提升网络。我们在实验中使用27帧作为输入。对于H3.6M、3DHP和3DPW数据集的预处理，我们将图像坐标归一化，使[0, w]映射到[-1,1]。注意，3DPW数据集中有一些纵向帧的高度大于宽度。在这些情况下，我们填充宽度，使高度等于宽度，以避免归一化后的2D关键点坐标大于图像帧。我们的实验表明，与根中心化和Frobenius归一化的2D关键点相比，这种预处理具有更低的跨数据集误差。在对Ski数据集进行实验时，我们使用根中心化和Frobenius归一化的2D关键点，因为图像帧已经裁剪为256×256，人物位于图像中心。由于源数据集和目标数据集之间存在fps差异和运动速度差异，我们在数据加载器中进行随机下采样来训练基线网络。具体而言，我们的数据加载器从源数据集中采样{xr(t-n), ..., xr(t+n)}，0r是从[2,5]的均匀分布中采样的随机数。表5显示，基准模型在以3DHP作为目标数据集时的跨数据集MPJPE为96.4mm。06.1. 定量评估0H3.6M.我们将我们的结果与之前只使用来自S1的3D标签和其余主体的2D注释进行训练的半监督学习方法[32]以及数据增强方法进行比较。我们的结果比之前的最新方法提高了16%。我们使用了真实的2D关键点，因此与之前的工作在相同设置下进行比较。由于主体之间的相机姿势变化不大，我们假设在当前设置中，我们的骨骼生成方法与之前的工作进行了比较。3DHP.表2给出了3DHP测试集上的MPJPE、AUC和PCK。我们报告了PoseAug发布的预训练模型在完整的3DHP测试集上的结果。与之前报告的跨数据集评估结果[11, 13, 23, 42,45]相比，我们的结果在MPJPE方面有14%的优势。这包括与使用目标测试数据信息进行测试时间优化的[46]的比较。3DPW.表3给出了3DPW测试集上的MPJPE和PA-MPJPE。我们的方法在PA-MPJPE方面比之前的方法提高了12mm。这包括之前特别设计用于跨数据集泛化的方法[8, 11,13]以及使用时间信息的方法[13,19]。与测试时间优化方法[13,46]相比，我们的方法还具有快速推理的优势。SKI.表4给出了Ski数据集上的跨数据集结果。滑雪速度快，Ski数据集的序列长度只有5秒。这为时间模型提供了很少的训练数据，因此我们使用了单帧输入模型。我们报告了VPose3D在跨数据集场景中使用单帧输入的性能作为基准模型。此外，与使用Ski训练集的多视图数据的Rhodin等人[33]和CanonPose[40]相比，我们的结果在MPJPE方面提高了28mm，在PA-MPJPE方面提高了2mm。06.2. 定性评估0图4显示了Ski、3DHP和3DPW数据集上的定性评估。基准和AdaptPose的预测与真实值进行了对比。我们观察到AdaptPose成功地改善了基准的预测。图5展示了生成的动作和输入的3D关键点的一些示例。生成的动作平滑且逼真。我们在补充材料中提供了更多的定性示例。130810表1. H3.6M上的跨场景学习。来源：S1. 目标：S5、S6、S7、S80方法 3D PA-MPJPE MPJPE0Martinez等[27] Full - 45.5 Pavllo [32] Full 27.2 37.2Lui等[25] Full - 34.7 Wang [41] Full - 25.60PoseAug [11] S1 - 56.7 Pavllo [32] S1 - 51.7Li等[23] S1 - 50.50我们的 S1 34.0 42.50表2.3DHP数据集上的跨数据集（CD）评估。来源：H3.6M-目标：3DHP0方法 CD PCK AUC MPJPE0Mehta等[28] 76.5 40.8 117.6 VNet [30] 76.6 40.4124.7 MultiPerson [29] 75.2 37.8 122.2 OriNet[26] 81.8 45.2 89.40BOA [13] � 90.3 - 117.6 Wang等[42] � 76.1 - 109.5SRNET [45] � 77.6 43.8 - Li等[23] � 81.2 46.1 99.7PoseAug [11] � 82.9 46.5 92.6 Zhang等[46] � 83.648.2 92.20我们的 � 88.4 54.2 77.20表3.3DPW数据集上的跨数据集（CD）评估。来源：H3.6M-目标：3DPW0方法 CD PA-MPJPE MPJPE0EFT [17] 55.7 - Vibe [18] 51.9 82.9 Lin等[24]45.6 74.70Sim2real [8] � 74.7 - Zhang等[46] � 70.8 -Wang等[42] � 68.3 109.5 SPIN [20] � 59.2 96.9PoseAug [11] � 58.5 94.1 VIBE [18] � 56.5 93.5BOA [13] � 49.5 77.20我们的 � 46.5 81.20表4.Ski数据集上的跨数据集（CD）评估。来源：H3.6M-目标：Ski0方法 CD PA-MPJPE MPJPE0Rhodin等[33] 85 - CanonPose [40] 89.6 128.10Pavllo等[32] � 88.1 106.0 PoseAug [11] � 83.5105.4 我们的 � 83.0 99.406.3. 消融研究0AdaptPose各组件的消融研究。我们消融了我们框架的组件，包括骨骼生成、相机生成、域鉴别器和选择。0表5提供了从基准开始添加任何组件所带来的性能改进。所有组件对结果都有重要贡献。与骨骼生成和相机生成相比，后者对性能影响更大。然而，与PoseAug[11]相比，我们的骨骼生成方法对结果有显著贡献（10毫米对1毫米）。A3表明骨骼和相机生成的组合与仅相机生成一样好。因此，A4从流程中排除了骨骼生成，导致MPJPE下降了9毫米。A3和A5显示了域适应的作用，即10毫米的改进。0表5.关于所提模型的监督元素的消融研究。来源：H3.6M-目标：3DHP0索引 BG Cam DD Select PMPJPE MPJPE0基准 66.5 96.4 A1 � 61.7 90.1 A2 � 62.0 88.2 A3 � � 61.888.1 A4 � � � 59.3 86.5 A5 � � � 54.0 78.6 AdaptPose � � � � 53.677.20对骨骼生成方法的消融研究。在本节中，我们比较了在第4.1节中解释的三种不同的骨骼生成方法的性能。表6给出了BG1、BG2和BG3在3DHP上进行跨数据集评估时的性能。我们观察到，使用轴角表示旋转骨骼向量优于生成骨骼方向。我们假设学习∆�B是一项更困难的任务，因为有无限多个∆�B可以从�Bt生成[�B′]Nt=0。相反，只有两个轴角可以将�Bt映射到[�B′]Nt=0。0表6. 对骨骼生成策略的消融研究0方法 PMPJPE MPJPE0BG1 59.3 85.1 BG2 56.2 80.0 BG353.6 77.20对相机生成方法的消融分析。在本节中，我们对第4.2节中介绍的三种不同的相机生成方法进行分析。在旋转表示方面，轴角优于四元数和欧拉角。欧拉角对旋转顺序敏感，可能导致退化解。比较概率和确定性方法，前者获得了更准确的结果，提高了5mm。对时间信息的消融分析。表8显示了在输入中排除时间信息并生成单个2D-3D对时网络的性能。我们的跨数据集MPJPE为86.4mm，仍然优于以前的方法（86.4mm vs.92.2）。因此，尽管使用时间信息对结果有很大贡献130820表7. 对相机生成策略的消融研究方法表示 PMPJPEMPJPE0确定性轴角 58.0 82.8 概率轴角 53.6 77.2 概率四元数58.7 83.5 概率欧拉角 60.9 85.30表8. 对时间信息的消融研究0输入 PCK AUC MPJPE01帧 84.6 50.3 86.4 27帧 88.4 54.2 77.20图4.Ski和3DPW样本的3D人体姿势预测（红色）与真实值（蓝色）。0输入生成的0图5. 生成的动作样本及其对应的输入3D关键点。动作流畅而逼真。0对于我们的框架，我们的网络在非时间设置中仍然表现出色。06.4. 我们真的在适应新的数据集吗？0为了评估我们适应目标数据集的姿势和相机视角的主张，我们在图6中可视化了3DHP和3DPW数据集中生成的动作样本。第一行的天花板视角来自3DHP，超出了我们源数据集的分布。虽然2D输入来自胸部视角的相机，但生成的样本来自天花板视角，与目标样本类似。我们观察到我们的方法生成了 qualitatively相似的相机姿势。第二行和第三行还提供了源姿势分布之外且与目标数据集中的样本相似的新姿势的示例。0从目标生成的输入样本0图6.来自源数据集的输入图像和生成的3D关键点的样本。为了可视化目的，我们仅绘制了生成帧序列的中间帧。我们手动从右侧选择与生成的目标匹配的图像。0我们在补充材料中提供了更多的定性示例。表5还提供了我们框架中领域判别器的重要性的数据（A5 vsA3）。需要注意的是，当在表5中排除领域判别器时，我们用源数据集的2D判别器替代领域判别器。因此，在排除领域判别器时的性能下降主要是由于未适应目标空间，而不是由于排除2D判别器。补充材料提供了关于领域适应的进一步实验。07. 结论0我们提出了一个端到端的框架，通过仅查看2D目标姿势生成合成动作，将预训练的3D人体姿势估计模型调整到任何目标数据集上。AdaptPose在四个公共数据集上的表现大大优于以前的工作（>10%）。我们提出的解决方案可以应用于只有有限运动数据的应用程序。此外，我们的方法能够为其他任务生成合成的人体动作，如人体动作识别。我们工作的主要限制是在源数据集和训练集之间存在较大的身体尺度差异时性能不佳。尽管我们定义了一个学习调整身体骨骼长度的参数，但我们观察到当源数据集和目标数据集之间存在较大的尺度差异（在3DPW的跨数据集上）时，归一化MPJPE和实际MPJPE之间存在10mm的差异。未来的工作应解决源域和目标域之间的尺度模糊问题。130830参考文献0[1] Anurag Arnab，Carl Doersch和AndrewZisserman。利用时间上下文进行野外3D人体姿势估计。在IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中，2019年6月。10[2] Konstantinos Bousmalis，Nathan Silberman，DavidDohan，Dumitru Erhan和DilipKrishnan。无监督的像素级域自适应与生成对抗网络。在IEEE计算机视觉和模式识别（CVPR）会议论文集中，2017年7月。30[3] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan和Nadia MagnenatThalmann。通过图卷积网络利用时空关系进行3D姿势估计。在IEEE/CVF国际计算机视觉会议（ICCV）论文集中，2019年10月。10[4] Ching-Hang Chen，Ambrish Tyagi，AmitAgrawal，Dylan Drover，Rohith MV，StefanStojanov和James M.Rehg。具有几何自我监督的无监督3D姿势估计。在IEEE/CVF计算机视觉和模式识别（CVPR）会议论文集中，2019年6月。20[5] Wenzheng Chen，Huan Wang，Yangyan Li，Hao Su，ZhenhuaWang，Changhe Tu，Dani Lischinski，Daniel Cohen-Or和BaoquanChen。合成训练图像以提升人体3D姿势估计。在3DVision（3DV）中，2015年。20[6] Yu Cheng，Bo Yang，Bo Wang和Robby T.Tan。使用显式遮挡训练的时空网络进行3D人体姿势估计。在AAAI人工智能会议论文集中，34（07）：10631-10638，2020年4月。10[7] Yu Cheng，Bo Yang，Bo Wang，Wending Yan和RobbyT.Tan。视频中考虑遮挡的3D人体姿势估计网络。在IEEE/CVF国际计算机视觉会议（ICCV）论文集中，2019年10月。20[8] Carl Doersch和AndrewZisserman。用于3D人体姿势估计的模拟到真实迁移学习：动作拯救。在H. Wallach，H. Larochelle，A. Beyg

下载后可阅读完整内容，剩余1页未读，立即下载