没有合适的资源?快使用搜索试试~ 我知道了~
CameraPose:利用野外2D注释的弱监督单目3D人体姿势估计
Cheng-Yen Yang1,2∗, Jiajia Luo2, Lu Xia2, Yuyin Sun2, Nan Qiao2, Ke Zhang2,112cycyang,zyjiang,hwang @uw.edu,29240CameraPose:利用野外2D注释的弱监督单目3D人体姿势估计01 华盛顿大学电气与计算机工程系,美国华盛顿州 2 亚马逊Lab126,美国0{ lujiajia,luxial,yuyinsun,kezha,qiaonan,chkuo } @amazon.com0摘要0为了提高3D人体姿势估计器的泛化能力,许多现有的基于深度学习的模型专注于为训练姿势添加不同的增强。然而,数据增强技术仅限于“已见”姿势组合,难以推断具有罕见“未见”关节位置的姿势。为了解决这个问题,我们提出了CameraPose,这是一个用于从单个图像中进行3D人体姿势估计的弱监督框架,它不仅可以应用于2D-3D姿势对,还可以应用于仅有2D注释的情况。通过添加一个相机参数分支,任何野外2D注释都可以被输入到我们的流程中以增加训练的多样性,并且可以通过重新投影到2D来隐式学习3D姿势。此外,CameraPose引入了一个带有置信度引导损失的细化网络模块,以进一步改善由2D姿势估计器提取的嘈杂2D关键点的质量。实验结果表明,CameraPose在跨场景数据集上带来了明显的改进。值得注意的是,它在最具挑战性的数据集3DPW上的性能比基线方法提高了3mm。此外,通过将我们提出的细化网络模块与现有的3D姿势估计器相结合,它们的性能在跨场景评估中可以得到改善。01. 引言0人体姿势估计(HPE)是一项从图像或视频等视觉输入中预测特定一组人体部位配置的任务。根据输出格式,它可以进一步分为2D和3DHPE。与预测带有x、y坐标的人体关键点的2DHPE不同,3D0* 这项工作大部分是在Cheng-Yen在亚马逊Lab126实习期间完成的。0图1.训练数据扩展概述。对现有的2D姿势进行数据增强可以在一定程度上提高训练的多样性。通过利用野外2D注释的优势,可以利用更多罕见但具有挑战性的姿势来进一步提高模型的泛化能力。03DHPE回归x、y、z,这对于解决困难的任务(如动作和运动预测[3, 7]、姿势和手势识别[14,22]、增强现实和虚拟现实[10, 12]、医疗保健[6,19])更有帮助。尽管基于深度学习的方法提高了3DHPE的性能[23, 24, 27, 28,37],但由于模型泛化能力差[11],从Human3.6M[15]到3DHP [24]的误差通常会增加到大约两倍。29250表1.使用不同2D关键点来源(HRNet和地面真值)在Human3.6M上的MPJPE。03D姿势估计器 Human3.6M(MPJPE)02D关键点来源HRNet地面真值0Zhao等人[36] 57.5 44.4 Martinez等人[23]53.0 43.3 Pavllo等人[28] 52.2 41.80最近的研究表明,通过增加训练数据的方差可以减轻模型泛化能力差的问题。因此,已经提出了许多与增强相关的算法来提高3D HPE的准确性。然而,无论是基于图像的增强[31,25],还是基于合成的增强[5,34],预定义的变换[20]或基于GAN的增强[11],添加到训练数据中的方差仍然限制在原始的2D-3D对中。图1显示了使用不同算法进行增强的2D-3D对的示例。我们可以观察到生成的新的2D-3D对不能提供姿势变化(例如从躺着到坐着等)。由于训练数据的限制,场景或情境仍然相对简单,无法适用于野外环境,这限制了这些算法在现实世界中的应用。与依赖数据增强进行训练数据扩展的现有方法不同,我们提出了一种新颖的弱监督框架CameraPose,通过利用丰富的2D注释来改善3DHPE的模型泛化能力。与昂贵的3D注释相比,2D注释更加经济实惠,并且文献中提供了许多具有丰富动作、姿势和场景的具有挑战性的2D数据集[21, 1,17]。所提出的CameraPose网络可以通过添加一个相机参数估计分支将任何现有的2D或3D数据集结合到一个单一的框架中。我们的方法还集成了基于GAN的姿势增强框架,以改善训练数据的多样性并确保相机分支的泛化能力。现有的3DHPE网络通常直接使用一些预训练的检测器的2D关键点作为输入来训练3D关节。然而,推断出的2D关键点会导致图2所示的情况。2D关节估计步骤中的误差会在一些关键点上产生3D预测误差。此外,对不准确的2D关键点进行增强将进一步放大3D关节中的误差。如表1所示,地面真值输入显著提高了所有测试情况下不同姿势估计器的准确性。因此,在将它们输入到我们的3D估计器网络之前,改进2D关键点是必要的。为了减轻2D输入中的误差,我们提出了一个细化网络,旨在根据检测到的2D关节的位置和置信度得分推断出更好的2D关节。我们的贡献有三个方面:1)我们提出了一个相机0图2.将不同来源的2D关节预测输入相同的3D提升网络的示例。由于HRNet对右肘的预测不准确,同一关键点的错误在3D姿势中会被放大。0参数分支将生成每个实例的相机参数推断,以便可以在模型训练中利用任何没有3D标记的2D关键点数据集。2)我们提出了一个改进2D关节准确性的RefinementNetwork,这对基于GAN的增强阶段以及最终的3D关节预测都有帮助。3)我们在损失设计中引入了重投影损失、置信度引导的改进损失以及相机损失,使网络可微分。02. 相关工作0完全监督的3D人体姿势估计。有很多论文和研究使用2D-3D注释对进行完全监督的训练。例如,Tekin等人直接从边界框的时空体积中回归3D人体姿势,Martinez等人使用2D关键点作为输入,回归3D关键点作为输出的朴素MLP回归3D人体姿势。在类似的数据集上,这些端到端的方法通常表现得非常好。然而,它们的泛化能力受到限制。许多研究使用跨数据集训练或数据增强来解决这个问题。最近,Li等人通过在源数据集上随机应用部分骨架重组和关节角度扰动来直接增强2D-3D姿势对。然后,Gong等人使用基于生成的模型来操作3D地面真值的转换,然后将其重新投影到图像空间以获取相应的2D关键点。这可以与3D提升网络一起训练,并且一些判别性的29260图3. 我们提出的CameraPose的整体框架。它由三个主要部分组成:(1) RefineNet,(2) Pose Generator/Discriminator,以及(3)弱监督的重投影相机分支。当使用2D-3D注释数据集进行训练时,所有的损失都会被使用;而当使用仅有2D数据集时,只有2D投影损失会被考虑用于更新权重。0为了确保增强的姿势真实且增加训练数据集的多样性,一些方法使用inator来处理。然而,所有监督方法的主要缺点是它们对未知姿势的泛化能力不强。因此,它们在野外场景中的应用受到限制。有些方法甚至使用部分数据集来通过转移学习的方法进行人体姿势估计的训练。它们都试图通过共享表示从野外图像中混合2D姿势和实验室设置中的3D姿势来学习深度特征。这些方法对未知姿势的泛化能力更强,因为它们学习了现实3D姿势及其特征的分布。它们可以在一定程度上重新创建超出分布范围的位置,但对于完全未检测到的姿势却有困难。弱监督的3D人体姿势估计。一些方法使用不配对的2D-3D注释来获取一些3D先验或基础,以从单目摄像机进行3D人体姿势估计。Drover等人提出了一个随机投影层,将预测的3D姿势随机投影回2D姿势,然后输入鉴别器。Chen等人将循环一致性损失引入到[9]中,通过将投影的2D姿势再次提升为3D姿势来扩展训练。Habibie等人设计了一个包含显式2D和3D特征编码的架构,并使用从预测的3D姿势中单独学习的投影模型进行监督。然而,监督算法和无监督算法之间的差距在一些具有挑战性的数据集上可能很大。最近,一些研究使用多视角约束进行3D关节预测。Rochette等人通过将立体重建问题转化为损失函数来使用多视角一致性。Kocabas等人提出了另一种多视角方法,通过在不同视角下应用极线几何来预测2D姿势。0为了构建训练的伪地面真值。Iqbal等人[16]提出了一个端到端的学习框架,采用了一个2.5D姿势表示,没有任何3D注释。然后,Wandt等人[35]提出了一种自监督方法,不需要关于场景、3D骨架或相机校准的先验知识,并且还将2D关节置信度引入了3D提升流程。然而,由于它们的多视图流水线设计,这些算法很难应用于单视图或野外预测。带有数据增强的HPE。正如我们在介绍中提到的,数据增强可以通过扩大训练数据[31, 25, 5,34]来帮助模型的泛化能力。最近,Li等人[20]通过在源数据集上随机应用部分骨架重组和关节角度扰动来直接增强2D-3D姿势对。然后,Gong等人[11]使用基于生成的模型来操作3D真实值的变换,然后将其投影回图像空间以获得相应的2D关键点。这可以与3D提升网络和一些鉴别器一起训练,以确保增强的姿势是真实的,并增加训练数据集的多样性。03. 提出的方法0CameraPose网络由三个主要部分组成:(1)细化网络,(2)姿势生成器/鉴别器,(3)弱监督相机参数分支。图3总结了我们的CameraPose架构设计。令x∈R2×NJ表示2D关键点,X∈R3×NJ表示相应的3D关节位置在相机坐标系中,NJ表示框架中的关节数。我们提出的网络将在两种不同的数据集情况下进行训练:(1)2D-3D注释数据集ϕ=(x,X),和(2)仅有2D注释的数据集ϕ'=(x',-),通过优化以下方程式:minθ3D,θref Lϕ Pθ3D Rθref (x) , ϕ +Lϕ′ Pθ3D Rθref (x′) , ϕ′minθ3D,θrefmaxθA Lϕ�ϕ ∪ A(ϕ)�+ Lϕ′�ϕ′�.(2)1(3)29270(1)其中θ3D和θref表示我们的3D提升模型和细化网络的权重。此外,我们扩展了姿势增强器A的设计,以扩大2D-3D注释数据集与增强的数据集A(ϕ)=(x*,X*)。因此,我们的端到端优化过程将变为:0表2.方程中使用的数学符号。0符号说明0NJ使用的关节数NS批次中的样本数0ϕ带有2D-3D注释的数据集ϕ'仅带有2D注释的数据集ϕ*由姿势生成器生成的数据集0(x,X)地面真值2D-3D注释来自ϕ(x',-)地面真值2D注释来自ϕ'0(x*,X*)增强的2D-3D注释来自ϕ*ˆX预测的3D姿势从3D提升网络中03.1.细化网络0而不是在原始嘈杂的2D关键点上进行细化,我们利用置信度分数与2D(x,y)坐标结合作为细化网络的输入。我们首先将关键点的坐标归一化到(-1,1)与输入图像的高度和宽度相对应。我们还通过公式3将置信度分数归一化到可比较的尺度上:0c'ij=cij0其中||∙||1表示L1范数,Ci表示第i个训练样本中的所有热图,cij表示第j个热图上的最大值(置信度分数)。归一化的置信度分数将用作计算方程4中关节均方误差的权重。我们的细化网络的神经网络架构是一个标准的残差块,由具有隐藏维度512的全连接层组成。细化损失Lref的公式为:0Lref = 10NS∙NJ0NS0i0jc′ij(xij−ˆxij)2(4)0在这篇论文中,2D-3D姿势对在相机坐标系中计算,因此相机参数可以简化为方程5中的内部矩阵Mint和3D偏移t3D。对于内部矩阵Mint,我们实际上是在预测一个4维向量,即fx,fy,cx,cy,焦距fx,fy和主中心偏移cx,cy沿x和y方向分别。0图4.热图可视化示例。左上角的图像是原始图像,上面叠加了HRNet提取的关键点。其余的图像显示了不同关键点的叠加热图。每个关键点的最大分数不同,较低的分数表示较低的置信度水平。03.2.相机参数分支0在本文中,2D-3D姿势对在相机坐标系中计算,因此相机参数可以简化为方程5中的内部矩阵Mint和3D偏移t3D。对于内部矩阵Mint,我们实际上是在预测一个4维向量,即fx,fy,cx,cy,焦距fx,fy和主中心偏移cx,cy沿x和y方向分别。0Mint =0�fx0cx0fy0cy1010�0�(5)0对于3D偏移t3D,我们预测一个3维向量:0t3D =0�txtyz0�0�.(6)0相机参数分支由2个隐藏维度为512的残差块组成,可以插入任何标准的3D姿势估计器。根据注释的可用性,可以涉及三个损失。如方程7所示的2D重投影损失L2D计算重投影的2D姿势与真实值之间的欧氏距离。均方误差(MSE)在相机参数损失和3D推断损失的损失计算中使用,如方程8和9所示。0L2D,ϕ′ = 10N0N�0i0j(ˆMinti∙(ˆXij+ˆt3D,i)−xij)2,(7)0Lcam = ||Mint−ˆMint||22 +||t3D−ˆt3D||22,(8)L2ddis = 12Ex[(D2D(KCS(x)) − 1)2](12)+ 12Ex[(D2D(KCS({x∗, x′2D})) − 1)2](13)L3ddis = 12Ex[(D3D(KCS(X)) − 1)2](14)+ 12Ex[(D3D(KCS(X∗)) − 1)2](15)Lϕ = λref,ϕLref + λcamLcam + λ2D,ϕL2D,ϕ + λ3DL3D(16)andϕ′ = λref,ϕ′ref + λ2D,ϕ′2D,ϕ′.(17)29280L3D = 10NS∙NJ0NS0i0j(Xij−ˆXij)2(9)0其中ˆX代表我们的3D提升网络预测的3D姿势。由于CameraPose可以处理2D-3D姿势对以及仅2D姿势估计,因此损失设计可以根据标签的可用性而不同。在训练阶段所有注释都可用的情况下,相机损失可以计算为:0Lϕ = λcamLcam + λ2D,ϕL2D,ϕ + λ3DL3D(10)0在仅有2D注释的训练步骤中,损失计算将来自2D重投影误差:0Lϕ′ = λ2D,ϕ′L2D,ϕ′(11)03.3.姿势生成器和判别器0与[11]中的框架类似,我们利用生成器和判别器来进一步提高训练姿势的多样性。如图5所示,生成器插入到2D姿势生成阶段,判别器应用于2D和3D姿势推断。生成器实际上由3个简单的多层感知器组成,分别为3个不同的增强操作生成不同的参数:(1)改变骨角度Xba,(2)改变骨长Xbl和(3)改变输入3D姿势的相机视图和位置R∙Xbl+t。框架的判别器部分可以分为两部分,即D2D和D3D,我们希望确保增强后的X�和x�在图像坐标和相机坐标中都形成合理的人体姿势。但在我们的工作中,我们不仅要确保生成器生成的增强姿势的好处,还要利用判别器来调整我们的重投影2D姿势,以适应仅有2D注释的数据集情况。判别器还采用了[11]中提出的部分感知运动链空间(KCS),它们是完全连接的网络,结构类似于使用KCS表示的2D或3D姿势的姿势回归网络。这里我们使用LS-GAN损失:0图5. 姿势生成器和判别器的可视化。我们从原始的2D-3D标注数据集ϕ= (x,X)中扩充,使用3D姿势作为生成器的输入,生成3个不同的参数集γba,γ bl和(R, t),以顺序修改3D姿势成为我们的扩充数据集ϕ� = (x�,X�)。0作为姿势判别损失来训练生成器和判别器。03.4. 整体损失0整体框架是可微分的,可以进行端到端的训练。我们通过最小化Eq. 4、Eq. 10、Eq.11以及生成器和判别器的损失来交替更新不同的模块,并使用一些预分配的超参数λ。然后,我们交互式地训练整个模型,并使用以下损失更新3D提升网络的权重:0根据我们使用的不同数据集ϕ或ϕ′,我们将介绍更多的训练细节和超参数设置在第4.3节中。04. 实验04.1. 数据集0对于2D-3D配对的标注,我们使用最流行的数据集3DHPE数据集Human3.6M [15],3DHP [24]和3DPW[33]。Human3.6M和3DHP都是在实验室环境中室内收集的。MPI-INF-3DHP [24]1.3MvvvSki-Pose PTZ [29]20kvvvMS-COCO [21]250kv29290表3.在我们的工作中使用的不同人体姿势估计数据集。粗体字体的数据集用于训练,斜体字体的数据集用于跨数据集评估。其余的数据集将用于可视化和作为定性分析的目标。0数据集 样本数量 2D标注 3D标注 相机参数0Human3.6M [15] 3.6M v v v03DPW [33] 51k v v0MPII [1] 25k v0图6. 使用预训练的基线[11]和我们提出的方法进行Human3.6M [15](左)、3DHP [24](右)和3DPW[33](底部)的泛化能力分析的定性比较。基线和我们的模型仅使用Human3.6M进行训练,因此在这种情况下,3DHP和3DPW被视为跨数据集。绿色箭头标出模型预测不同的位置。0MoCap(运动捕捉)系统[26]使用多个校准相机。3DPW是在户外环境中使用IMU(惯性测量单元)传感器和手机镜头收集的更具挑战性的数据集。0对于仅有2D标注的数据集,我们使用包含各种野外日常人体活动的MPII [1]。另一个流行的2D数据集MS-COCO[21]也用于定性分析目的。尽管与Human3.6M或3DHP相比,MPII等2D标注数据集的样本数量要少得多,但这些2D标注数据集包含了更具挑战性的不同活动的人体姿势。需要注意的是,Human3.6M和3DHP都是基于视频的数据集,因此图像的总数要比MPII和MSCOCO大得多。我们在表3中总结了我们实验中使用的数据集。04.2. 预处理0不同的数据集具有不同的关节标注,这使得模型训练变得困难。在本文中,我们使用Human3.6M格式作为标准格式,并通过为其他数据集标记附近的关节来解释缺失的关节。所有不包含在Human3.6M格式中的关节将被丢弃。许多现有的3DHPE算法使用真值作为模型输入进行评估。然而,在实际应用中,真值是不可用的。为了评估模型在真实世界应用中的性能,我们还使用现有的2D检测器HRNet提取2D关键点作为模型输入,并在不同的数据集上重新运行结果。由于各种标注方案或关节格式的差异,我们通过简单插值一些相关关节和删除未使用的关节将其他方案预处理为Human3.6M格式。例如,pelvis不存在;29300表4.使用2D地面真实关键点作为输入在Human3.6M、3DHP和3DPW上的结果,以MPJPE为单位,注意我们在所有数据集上使用相同的模型进行评估以模拟跨数据集评估。最佳结果以粗体显示。0方法 Human3.6M(MPJPE) 3DHP(MPJPE) 3DPW(PA-MPJPE)0Wnadt等人[35] 74.3 104.0 - Rhodin等人[29] 80.1 121.8 -0Zhao等人[36] 44.4 97.4 - Martinez等人[23] 43.3 85.3 - Cai等人[2] 41.7 87.8 -Pavllo等人[28] 41.80 92.64 76.38 Gong等人[11] 39.02 76.13 66.270我们的(CameraPose) 38.87 78.85 63.260我们通过计算给定标签的左右臀部的中点来简单地创建这样的关节。尽管由于每个数据集的特性,这样的插值并不总是完美的,但这种预处理过程使我们能够更好地了解和比较跨数据集的情况。04.3. 训练0CameraPose网络在2个数据集上进行训练:Human3.6M(2D +3D)和MPII(2D)。对于前者,我们按照大多数3D人体姿势估计训练协议使用Human3.6M的S1、S5、S6、S7、S8作为我们的2D-3D训练数据,S9、S11作为评估目的。对于后者,我们通过检查关节注释来筛选和选择了约10k个训练样本。评估时,使用MPI-INF-3DHP和3DPW得到MPJPE(关节位置误差的平均值)和PA-MPJPE(通过刚性变换与真实值对齐)的定量结果。0模型训练可以分为3个步骤。首先,使用学习率为0.0001和权重衰减在第30、60和90个epoch时对细化网络进行了100个epoch的训练。接下来,使用Human3.6M数据集对3D提升网络以及姿势生成器和鉴别器进行了10个epoch的训练,学习率为0.0001。这一步是为了预热和GAN调优,可以使后续的模型训练更加稳定。最后,使用2D-3D配对注释和仅2D注释进行端到端的模型训练。在每次迭代中,我们首先更新生成器和鉴别器的权重,使生成器更加稳定。然后,基于增强的姿势和2D-3D注释数据集更新3D提升网络。之后,使用仅2D注释来调整相机参数分支。模型使用学习率为0.0005和权重衰减在75个epoch中进行训练,权重衰减在30和60个epoch时进行。我们选择的损失权重为 λ cam = 0 . 01, λ 2 D, ϕ = 0 . 5 , λ 2 D, ϕ ′ = 0 . 2 , 和 λ 3 D = 1 . 0 .0图7. 在MPII [1](测试)、MS-COCO [21]和SKiPose-PTZ[29]上进行3D人体姿势估计的定性分析可视化。即使目标姿势通常很少或从未在训练中见过,我们的模型仍然能够生成可靠的3D姿势。04.4. 定量结果0CameraPose网络准确性。我们将CameraPose与其他在Human3.6M上训练的最先进方法[28, 2, 36, 11,23]进行了比较。对于基于时间的方法[28,2],我们实现了单帧版本以进行公平比较。表4总结了不同方法的实验结果。对于每一列,MPJPE或PA-MPJPE是通过评估得到的,这些评估结果来自于在Human3.6M的评估数据集上训练和选择的相同模型。一些现有算法在不同的测试数据集上选择了不同的最佳模型,这可能不能很好地反映模型的泛化能力。相反,我们选择了一个基于Human3.6M验证准确性的单一模型,使其对实际应用更加真实。如表4所示,我们的方法在最具挑战性的数据集3DPW上的表现优于SOTA(3 mm和13mm的明显差距)。它还具有更高的准确性。We propose CameraPose, a weakly-supervised frame-work for 3D human pose estimation from a single imagethat can aggregate 2D annotations by designing a cameraparameter branch. Given any noisy 2D keypoints from pre-trained 2D pose estimator, CameraPose is able to refine thekeypoints with a confidence-guided loss and feed them intothe 3D lifting network. Since our approach uses the cameraparameters learned from the camera branch to do the repro-jection back to 2D, it can solve the problem of the lacking ofthe 2D-3D datasets with rare poses or outdoor scenes. Weevaluate our proposed method on some benchmark datasets;the results show that our model can achieve higher accuracyon challenging datasets and be able to predict meaningful3D poses given in-the-wild images or 2D keypoints.29310表5. 我们使用HRNet检测结果对训练和评估目的进行了细化模块的有效性检验的实验结果。0方法训练来源 (2D估计器) Human3.6M (MPJPE) 3DHP (MPJPE)0Pavllo等人 [28] Human3.6M (HRNet) 57.90 103.86 Gong等人 [11] Human3.6M (HRNet)55.18 99.500Gong等人 [11]带有细化网络的Human3.6M (HRNet) 54.32 97.450CameraPose带有细化网络的Human3.6M (HRNet) 54.20 97.35CameraPose不带细化网络的Human3.6M (HRNet) 54.38 98.120与其他弱监督方法(如[29]和[35])相比,我们的模型具有更高的准确性。我们的模型还在Human3.6M数据集上实现了最高的准确性。实验结果清楚地显示了我们提出的方法的强大的泛化能力。添加相机参数分支可以帮助模型从带有2D注释的野外数据集中学习,对于困难的例子非常有效。在3DHP上的结果略低于SOTA方法,我们认为这是因为我们从MPII添加的2D注释对于像3DPW数据集这样的具有挑战性的情况更有帮助。使用我们的模型,3DHP数据集上的最佳准确性可以达到75.54MPJPE,超过了当前SOTA方法,如果我们为3DHP数据集选择特定的模型。细化网络准确性。为了展示细化网络的有效性,我们使用不同的设置训练了不同的模型,如表5所示。我们使用HRNet作为2D检测器,在所有训练和评估数据集上提取2D关键点。我们将细化网络添加到SOTA方法[11]和我们提出的模型中。通过添加细化网络,PoseAug和我们的模型在Human3.6M和3DHP上的准确性都有所提高。此外,我们的模型在两个测试数据集上的表现优于SOTA。因此,我们提出的相机参数网络和细化网络对于3DHPE都是有用的。04.5. 定性可视化03D姿势估计。我们选择了3个数据集(Human3.6M、3DHP和3DPW)来定性比较我们提出的方法和基线[11]。如图6所示,我们的模型在具有挑战性的数据集(如3DPW)上具有更准确的预测。请注意,我们使用跨场景训练来确保训练和测试数据集之间没有重叠。我们还在没有3D注释的数据集(如MPII、MSCOCO和SkiPose-PTZ[29])上可视化了我们的结果,如图7所示。可视化结果非常合理,表明我们的模型对于野外预测具有能力。2D重投影。为了验证相机参数分支,我们在不同阶段可视化了我们模型的结果。图8显示了原始图像,来自HRNet的输入2D关键点,推断的3D姿势以及从左到右的列中的重投影的2D姿势。它清楚地显示了我们的CameraPose在未见过的姿势上的良好预测,重投影的2D姿势也是有意义的。0图8. 在MPII[1]上的3D-2D重投影可视化。从左到右的列:原始图像,HRNet的2D关键点,推断的3D关键点,重投影的2D关键点。CameraPose预测的相机参数可以成功将3D姿势重新投影到图像坐标中。0我们提出了CameraPose,一种从单张图像中进行弱监督的3D人体姿势估计的框架,可以通过设计相机参数分支来聚合2D注释。给定任何来自预训练的2D姿势估计器的嘈杂的2D关键点,CameraPose能够通过自信度引导的损失对关键点进行细化,并将其输入到3D提升网络中。由于我们的方法使用从相机分支学习到的相机参数进行2D的重投影,它可以解决缺乏稀有姿势或户外场景的2D-3D数据集的问题。我们在一些基准数据集上评估了我们提出的方法;结果表明,我们的模型在具有挑战性的数据集上可以实现更高的准确性,并且能够在野外图像或2D关键点给出有意义的3D姿势预测。05. 结论29320参考文献0[1] Mykhaylo Andriluka,Leonid Pishchulin,PeterGehler和BerntSchiele。2D人体姿势估计:新的基准和最新技术分析。在IEEE计算机视觉和模式识别(CVPR)会议中,2014年6月。0[2] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan和Nadia MagnenatThalmann。通过图卷积网络利用时空关系进行3D姿势估计。在IEEE/CVF国际计算机视觉会议(ICCV)论文集中,2019年10月。0[3] Zhe Cao,Hang Gao,Karttikeya Mangalam,Qi-Zhi Cai,MinhVo和JitendraMalik。具有场景上下文的长期人体运动预测。CoRR,abs/2007.03672,20200[4] Ching-Hang Chen,Ambrish Tyagi,Amit Agrawal,DylanDrover,M. V. Rohith,Stefan Stojanov和James M.Rehg。基于几何自我监督的无监督3D姿势估计。CoRR,abs/1904.04812,2019年。0[5] Wenzheng Chen,Huan Wang,Yangyan Li,HaoSu,Changhe Tu,Dani Lischinski,Daniel Cohen-Or和BaoquanChen。合成训练图像以提高人体3D姿势估计。CoRR,abs/1604.02703,2016年。0[6] Henry M. Clever,Zackory Erickson,Ariel Kapusta,GregTurk,Karen Liu和Charles C.Kemp。静止的身体:使用合成数据的压力图像进行3D人体姿势和形状估计。在IEEE/CVF计算机视觉和模式识别(CVPR)会议记录中,2020年6月。0[7] Enric Corona,Albert Pumarola,GuillemAlenya和FrancescMoreno-Noguer。上下文感知的人体运动预测。在IEEE/CVF计算机视觉和模式识别(CVPR)会议记录中,2020年6月。0[8] Carl Doersch和AndrewZisserman。用于3D姿势估计的Sim2real迁移学习:运动拯救。CoRR,abs/1907.02499,2019年。0[9] Dylan Drover,M. V. Rohith,Ching-Hang Chen,AmitAgrawal,Ambrish Tyagi和Cong PhuocHuynh。仅从2D投影中学习3D姿势?CoRR,abs/1808.07182,2018年。0[10] Ahmed Elhayek,Onorina Kovalenko,PramodMurthy,Jameel Malik和DidierStricker。用于VR应用的全自动多人人体动作捕捉。在EuroVR,2018年。0[11] Kehong Gong,Jianfeng Zhang和JiashiFeng。Poseaug:用于3D人体姿势估计的可微分姿势增强框架。CoRR,abs/2105.02465,2021年。0[12] Onur G. Guleryuz和ChristineKaeser-Chen。用于AR/VR应用中的3D手部姿势估计的快速提升。2018年第25届IEEE国际图像处理会议,第106-110页,2018年。0[13] Ikhsanul Habibie,Weipeng Xu,DushyantMehta,Gerard Pons-Moll和ChristianTheobalt。在野外使用显式2D特征和中间3D表示的人体姿势估计。CoRR,abs/1904.03289,2019年。0[14] Zhiwu Huang,Chengde Wan,Thomas Probst和Luc VanGool。基于李群的骨架深度学习用于0动作识别。在IEEE计算机视觉和模式识别(CVPR)会议中,2017年。0[15] Catalin Ionescu,Dragos Papava,Vlad Olaru和CristianSminchisescu。Human3.6m:大规模数据集和预测方法用于自然环境中的3D人体感知。IEEE模式分析和机器智能交易,36(7):1325-1339,2014年7月。0[16] Umar Iqbal,Pavlo Molchanov和JanKautz。通过野外多视图图像进行弱监督的3D人体姿势学习。CoRR,abs/2003.07581,2020年。0[17] Sam Johnson和MarkEveringham。聚类姿势和非线性外观模型用于人体姿势估计。在英国机器视觉会议论文集中,第12.1-12.11页。BMVA出版社,2010年。doi:10.5244/C.24.12。0[18] Muhammed Kocabas, Salih Karagoz, and Emre Akbas.使用多视图几何进行自监督学习的3D人体姿势. CoRR ,abs/1903.02330, 2019.0[19] Jyothsna Kondragunta and Gangolf Hirtz.利用3D人体姿势估计早期检测老年人步态参数以检测痴呆症. In2020 42nd Annual Inter- national Conference of the IEEEEngineering in Medicine Biology Society (EMBC) , pages5798–5801, 2020.0[20] Shichao Li, Lei Ke, Kevin Pratama, Yu-Wing Tai,Chi-Keung Tang, and Kwang-Ting Cheng.使用进化训练数据的级联式深度单目3D人体姿势估计. CoRR ,abs/2006.07778, 2020.0[21] Tsung-Yi Lin, Michael Maire, Serge J. Belongie, LubomirD. Bourdev, Ross B. Girshick, James Hays, Pietro Perona, DevaRamanan, Piotr Doll´ar, and C. Lawrence Zitnick. MicrosoftCOCO: 上下文中的常见物体. CoRR , abs/1405.0312, 2014.0[22] Diogo C. Luvizon, David Picard, and Hedi Tabia.使用多任务深度学习的2D/3D姿势估计和动作识别. CoRR ,abs/1802.09232, 2018.0[23] Julieta Martinez, Rayat Hossain, Javier Romero, andJames J. Little. 3D人体姿势估计的简单而有效的基准. In ICCV ,2017.0[24] Dushyant Mehta, Helge Rhodin, Dan Casas, Pascal Fua,Oleksandr Sotnychenko, Weipeng Xu, and Christian Theobalt.使用改进的CNN监督在野外进行单目3D人体姿势估计. In 3DVision (3DV), 2017 Fifth International Conference on . IEEE,2017.0[25] Dushyant Mehta, Oleksandr Sotnychenko, FranziskaMueller, Weipeng Xu, Srinath Sridhar, Gerard Pons-Moll, andChristian Theobalt.单镜头RGB输入的多人3D身体姿势一次性估计. CoRR ,abs/1712.03453, 2017.0[26] Pedro Alves Nogueira.动作捕捉基础知识:对真实世界应用的关键和比较分析. 2012.0[27] Georgios Pavlakos, Luyang Zhu, Xiaowei Zhou, andKostas Daniilidis. 从单个彩色图像
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功