没有合适的资源?快使用搜索试试~ 我知道了~
Jian Wang1,2Lingjie Liu1,2Weipeng Xu3Kripasindhu Sarkar1,2Diogo Luvizon1,2Christian Theobalt1,21MPI Informatics2Saarland Informatics Campus3Facebook Reality Labs{jianwang,lliu,ksarkar,theobalt}@mpi-inf.mpg.dexuweipeng@fb.com131570使用外部弱监督在野外估计自我中心3D人体姿势0摘要0最近,使用单个鱼眼摄像头进行自我中心3D人体姿势估计引起了很大的关注。然而,现有方法在从野外图像中估计姿势时存在困难,因为它们只能在合成数据上进行训练,由于缺乏大规模的野外自我中心数据集。此外,这些方法在人体部位被周围场景遮挡或与之交互时容易失败。为了解决野外数据的不足,我们收集了一个名为Egocentric Poses in theWild(EgoPW)的大规模野外自我中心数据集。该数据集由一个佩戴在头部的鱼眼摄像头和一个辅助的外部摄像头捕捉,提供了第三人称视角下的人体观察,用于训练。我们提出了一种新的自我中心姿势估计方法,可以在新数据集上进行弱外部监督的训练。具体而言,我们首先使用时空优化方法为EgoPW数据集生成伪标签,结合外部视角监督。然后,使用这些伪标签来训练自我中心姿势估计网络。为了促进网络训练,我们提出了一种新的学习策略,用预训练的外部视角姿势估计模型提取的高质量特征来监督自我中心特征。实验证明,我们的方法可以从单个野外自我中心图像中预测准确的3D姿势,并在定量和定性上优于现有方法。01. 引言0最近,使用佩戴在头部或身体上的摄像头进行自我中心动作捕捉变得流行,因为传统的外部摄像头的运动捕捉系统在人物在大空间中移动时有限制,从而限制了应用的范围。与传统系统不同,自我中心动作捕捉系统0输入图像 Mo 2 Cap 2 我们的方法0外部参考0图1. 与Mo 2 Cap2相比,我们的方法从单个野外图像中获得更准确的自我中心姿势,尤其是当身体部位被遮挡时。请注意,外部图像仅用于可视化,而不是我们方法的输入。0手机灵活,对录制空间没有要求,可以捕捉广泛的人类活动,适用于许多应用,如可穿戴医疗监测、运动分析和 xR。在这项工作中,我们专注于从单个佩戴在头部的鱼眼摄像头估计完整的3D人体姿势。最相关的工作是Mo 2 Cap 2[44]和 x R-egopose[35]。虽然这些方法已经取得了令人信服的结果,但它们只是在合成图像上进行训练,因为真实数据有限,因此在真实场景中性能大幅下降。此外,这些方法在人体部分被周围场景遮挡或与之交互的情况下往往难以处理(请参见图1中的Mo 2 Cap2结果)。这是由于合成数据和真实数据之间的领域差异,以及它们处理遮挡的能力有限所致。为了解决真实自我中心数据的问题,//people.mpi-inf.mpg.de/˜jianwang/projects/egopw;131580我们捕捉了一个名为Egocentric Poses in theWild(EgoPW)的大规模野外自我中心数据集。这是目前最大的野外自我中心数据集,包含超过312k帧,涵盖了8个日常场景中的20种不同的日常活动。为了获得网络训练的监督,一种可能性是使用多视角摄像机设置捕捉具有真实3D人体姿势的训练数据,或者应用多视角弱监督。然而,这种设置在有限空间的环境中进行录制是不切实际的(例如,在图3中显示的小厨房中),这是一种常见的录制场景。因此,考虑到灵活性和3D准确性之间的权衡,我们使用由自我中心摄像头和单个辅助外部摄像头组成的新设备设置。我们证明了外部视角可以在训练过程中提供额外的监督,特别是对于自我中心视图中高度遮挡的区域(例如下半身部分)。为了处理遮挡并估计准确的姿势,我们提出了一种新的自我中心姿势估计方法,以弱监督的方式在EgoPW数据集上进行训练。具体而言,我们提出了一种时空优化方法,为EgoPW数据集中的每一帧生成准确的3D姿势。生成的姿势进一步用作训练自我中心姿势估计网络的伪标签[44]。为了提高网络性能,我们利用在大规模野外人体姿势数据集上训练的外部姿势估计网络提取的特征来促进自我中心姿势估计网络的训练。具体而言,我们通过欺骗一个鉴别器无法检测出特征来自哪个视角,来强制这两个视角提取的特征相似。为了进一步提高姿势估计网络的性能,除了EgoPW数据集,我们还使用了一个合成数据集[44]来训练网络,并采用域自适应策略来减小合成数据和真实数据之间的领域差距。我们在Wang等人[42]和Xu等人[44]提供的测试数据上评估了我们的方法。我们的方法在定量和定性上都显著优于现有方法。我们还展示了各种野外图像的定性结果,证明我们的方法可以在非常具有挑战性的场景中预测准确的3D姿势,特别是当身体关节严重遮挡时(请参见图1中的我们的结果)。总之,我们的贡献如下:0•一种新的方法,利用外部视角的弱监督来估计自我中心人体姿势,在野外数据上明显优于现有方法,特别是在存在严重遮挡的情况下;0•一个大规模的野外自我中心数据集(EgoPW),使用头戴式鱼眼相机和外部相机进行捕捉。可在https://公开获得0•一种新的优化方法,通过结合外部视角的监督生成野外自我中心数据集的伪标签;0•通过学习外部特征表示来训练网络的对抗方法,用于学习自我中心图像的特征表示。02. 相关工作0自我中心的3D全身姿势估计。Rhodin等人[30]开发了一种从头戴式立体鱼眼相机估计全身姿势的方法。Cha等人[4]提出了一种基于RNN的方法,利用头部安装的两个针孔相机估计身体姿势。Xu等人[44]引入了一种单一广角鱼眼相机设置,并提出了一种基于单帧的自我中心运动捕捉系统。在相同的设置下,Tome等人[35]使用自动编码器网络捕捉了预测热图中的不确定性。为了进一步减轻图像畸变的影响,Zhang等人[46]提出了一种自动校准模块。Hwang等人[14]在用户的胸部放置了一个超广角鱼眼相机,同时估计身体姿势、相机旋转和头部姿势。Jiang等人[16]在用户的头部安装了一个前视鱼眼相机,并通过利用环境的运动和人体的极端性来估计身体和头部姿势。Wang等人[42]提出了一种优化算法,通过从MoCap数据集中学习的运动先验获得时间稳定的自我中心姿势。然而,这些方法都是在合成数据集上训练的,因此由于领域差异和缺乏外部监督而在真实图像上性能下降。相反,我们的方法在野外场景上取得了更好的性能。0伪标签生成。伪标签[20, 34,45]的任务是一种半监督学习技术,为无标签数据生成伪标签,并使用生成的标签训练新模型。这已经应用于分割[8,22, 47, 48]、姿势估计[2, 21, 23, 25]和图像分类[1, 13,29]等领域。由于伪标签可能不准确,一些方法已经提出来过滤不准确的标签以增加标注的稳定性。Shi等人[34]通过测量样本密度在无标签样本上设置置信水平。Chen等人[5]通过采用易于困难的转移策略来强化伪标签的稳定性。Wang和Wu[41]引入了一种重复预测策略来更新伪标签,而Rizve等人[32]提出了一种基于不确定性的伪标签选择框架来选择伪标签。Morerio等人[24]使用条件External Pose Estimator Ψ���External Feature Extractor Θ���Egocentric Pose Estimator ΨEgocentric Feature Extractor ΘExternal Images 𝐼����Egocentric Images 𝐼����External 2D JointsExternal 3D PosePredicted Heatmap Predicted 3D PoseOptimized Heatmap Optimized 3D Poseℒ�Egocentric/External View Classifier Λ(Sec. 3.3.2)ℒ�Synthetic Images 𝐼�ℒ𝒮Predicted Heatmap Predicted 3D PoseGT HeatmapGT 3D PoseEgocentric Pose Estimator ΨEgocentric Feature Extractor ΘSynthetic/Real Domain Classifier Γ(Sec. 3.3.1)ℒ�Synthetic ImageFeatures 𝐹�Egocentric ImageFeatures 𝐹����External ImageFeatures 𝐹����Optimized Heatmaps Optimized 3D PosesEgocentric Images 𝐼����External Images 𝐼����External 2D JointsExternal 3D PosesEgocentric Heatmaps Egocentric 3D Poses131590多视角0基于0优化器0第3.3节 训练自我中心姿势估计网络 第3.1节 EgoPW数据集0第3.2节 生成伪标签的优化0合成数据和真实数据的共享参数0仅用于训练0图2.我们方法的概述。我们首先收集了新的EgoPW数据集(第3.1节),其中伪标签是通过基于多视角的优化方法生成的(第3.2节)。然后我们使用提出的框架训练我们的模型(第3.3节),其中网络同时使用EgoPW数据集和来自Mo 2 Cap 2的合成数据进行训练。我们通过一个域分类器(第3.3.1节)强制自我中心网络从外部视角学习更好的特征表示(第3.3.2节),并弥合合成数据和真实数据之间的差距。0我们使用GAN来过滤伪标签中的噪声。与以往从网络预测或聚类中生成标签的伪标签方法不同,我们设计了一个优化框架,同时利用第一视角和外部视角的监督来生成标签。0弱监督的3D人体姿势估计。近年来,越来越多的研究关注于开发弱监督的3D姿势估计方法。弱监督方法不需要配对的图像和3D标注数据集。一些方法[27,40]利用非刚性SFM从无约束图像的2D关键点注释中获取3D关节位置。一些方法[6, 7, 10, 28,38]提出了一种无监督学习的方法,通过2D重投影的监督来训练3D姿势估计网络。与我们的工作最接近的是[15, 19,31,39]的方法,它们利用多视图图像的弱监督来进行训练。Iqbal等人[15]和Rhodin等人[31]通过计算不同视图之间的Procrustes对齐的3D姿势之间的差异来监督网络训练过程。Wandt等人[39]预测相机姿势和规范形式的3D人体姿势,然后通过多视图一致性来监督训练。Kocabas等人[19]通过不同视图之间的极线几何获得伪标签,并使用伪标签来训练3D姿势提升网络。与以往的工作[15, 19, 31,39]不同,我们的方法使用了时空优化框架,将第一视角和外部视角作为输入,为训练网络获得稳健的3D伪标签。0当2D姿势估计不准确时,优化方法确保了网络训练过程的稳定性。03. 方法0我们提出了一种新的方法,通过弱监督的方式从第一视角和外部视角的野外数据集中训练神经网络。我们的方法概述如图2所示。首先,我们捕捉了一个大规模的第一视角野外数据集,称为EgoPW,其中包含了同步的第一视角和外部图像序列(第3.1节)。接下来,我们使用基于优化的框架为EgoPW数据集生成伪标签。该框架以一个时间窗口内的序列作为输入,包括B帧的第一视角图像Iego seq = {Iego1, ...,IegoB}和外部图像Iext seq = {Iext1, ...,IextB},并输出第一视角的3D姿势Pego seq = {Pego1, ...,PegoB}作为伪标签(第3.2节)。然后,我们使用来自Mo2Cap2 [44]的合成数据和带有伪标签Pegoseq的EgoPW数据集来训练第一视角姿势估计网络。在训练过程中,我们利用来自现成的外部姿势估计网络[43]的特征表示来以对抗的方式强制我们的第一视角网络学习更好的特征表示(第3.3.2节)。我们还使用对抗域适应策略来减小合成数据和真实数据集之间的领域差异(第3.3.1节)。03.1. EgoPW数据集0我们首先描述了新收集的EgoPW数据集,这是第一个由第一视角摄像头和外部摄像头捕捉的大规模野外人体表现数据集。E(Pegoseq , Rseq, tseq) = λegoR EegoR+ λextR EextR+ λegoJ EegoJ+ λextJ EextJ+ λT ET + λBEB+ λ E+ λE.EextR (Pegoseq , Rseq, tseq) =BJ exti− K [Ri | ti] Pegoi22 ,(3)131600EgoPW数据集包含一个第一视角摄像头(GoPro Hero7)和一个外部摄像头(SonyRX0),两者同步。EgoPW总共包含318k帧,分为10个演员在20种服装风格下进行20种不同动作的97个序列。所有个人数据都经过IRB批准收集。我们使用第一视角和外部图像生成3D姿势作为伪标签,稍后将详细介绍。就规模而言,我们的EgoPW数据集比现有的野外3D姿势估计数据集(如3DPW[37])更大,并且与现有的合成第一视角数据集(包括Mo2Cap2 [44]和xR-egopose [35]数据集)具有相似的规模。03.2. 生成伪标签的优化0在本节中,我们提出了一种基于[ 42]的优化方法来为EgoPW生成伪标签。给定一个序列,我们将其分割成包含 B个连续帧的片段。对于自我中心帧 I ego seq ,我们使用Mo 2 Cap2估计由15个关节点位置表示的3D姿势,其坐标系为自我中心相机(称为“自我中心姿势”) � P ego seq = { � P ego 1 , . . . , � P ego B } ,其中 � P ego i ∈ R 15 × 3,并使用openpose [ 3 ]估计2D热图 H ego seq = { H ego 1 , . . . , H ego B }。0方法[ 44 ]。除了自我中心姿势,我们还使用ORB-SLAM2 [ 26]估计相邻两帧自我中心相机位姿之间的转换矩阵 [ R SLAM seq | t SLAM seq ] = { [ R2 1 | t 2 1 ] , . . . , [ R B B − 1 | t B B − 1 ] }。对于外部帧 I ext seq ,我们使用VIBE [18 ]估计3D姿势(称为“外部姿势”) P ext seq = {P ext 1 , . . . , P ext B } ,其中 Pext i ∈ R 15 × 3。0使用VIBE [ 18 ]和openpose [ 3 ]估计2D关节点 J ext seq= {J ext 1 , . . . , J ext B } ,其中 J ext i ∈ R 15 ×2。接下来,按照[ 42]的方法,我们使用一个基于CNN的编码器 f enc 和解码器 fdec构建了一个顺序VAE来学习自我中心运动先验的潜在空间。然后,通过找到相应的姿势序列 P ego seq = f dec ( z )来优化自我中心姿势,使目标函数最小化:0(1) 在这个目标函数中,E ego R ,E ego J ,E T ,和 E B是自我中心投影项、自我中心姿势正则化项、运动平滑正则化项和骨长正则化项,与[ 42 ]中定义的相同。E ext R ,Eext J ,E C ,和 E M是外部投影项、外部3D身体姿势正则化项、相机位姿一致性项和相机矩阵正则化项,稍后将进行描述。请参阅补充材料以获取每个项的详细定义。请注意,由于外部相机和自我中心相机之间的相对位姿是未知的,我们还需要优化相对于外部相机的自我中心相机位姿。0每帧的外部相机位姿,即旋转矩阵 R seq = R 1 , . . . , R B和平移矩阵 t seq = t 1 , . . . , t B 。0外部投影项。为了监督优化过程与外部2D姿势一致,我们设计了外部投影项,最小化投影的3D姿势与外部2D关节点之间的差异。能量项定义如下:0(2) 其中 K 是外部相机的内参矩阵;[ R i | t i ]是自我中心相机在第 i帧中相对于外部相机位置的位姿。在公式 2中,我们首先使用自我中心相机位姿 [ R i | t i ]和内参矩阵 K 将自我中心身体姿势 P ego i投影到外部视图中的二维身体姿势,然后将投影的身体姿势与由openpose [ 3]估计的二维关节点进行比较。由于外部相机和自我中心相机之间的相对位姿在优化开始时是未知的,我们在优化自我中心身体姿势 P ego seq 的同时优化自我中心相机位姿 [ R i | t i ]。为了使优化过程更快收敛,我们使用透视n点算法 [11 ]对自我中心相机位姿 [ R i | t i ] 进行初始化。0相机位姿一致性。仅通过外部投影项无法获得准确的3D姿势,因为自我中心相机位姿和优化后的身体姿势可以任意改变而不违反外部投影约束。为了减轻这种模糊性,我们引入相机一致性项 E C 如下:0EC(Rseq,tseq)=0B-1∙0|||0Rit01010Ri+1itii01010B∙0−Ri+1tii01010||||2,0它强制在(i + 1)帧[Ri+1 |ti+1]处的自我中心相机姿势与通过将第i帧[Ri |ti]的自我中心相机姿势与第i帧和(i +1)帧之间的相对姿势进行变换获得的姿势一致。0外部3D身体姿势正则化。除了外部投影项之外,我们还使用外部3D身体姿势来监督自我中心3D身体姿势的优化。我们定义了外部3D姿势项,它衡量了经过刚性对齐后的外部和自我中心身体姿势之间的差异:0EJ(Pegoseq,Pextseq)=0B∙0i = 10||Pexti−[Rpai|tpai]Pegoi||22,(4)(6)(7)131610(a)自我中心图像(e)外部图像(b)仅自我中心(c)我们的伪标签(d)仅外部0图3.我们的伪标签生成方法结合了自我中心视图和外部视图的信息,因此可以得到更准确的伪标签(c)。只有自我中心相机,无法观察和跟踪到脚部(b)。只有外部相机,手部被遮挡,导致手部部分结果错误(d)。0其中[Rpai|tpai]是使用Procrustes分析计算的变换矩阵,它刚性对齐外部3D姿势估计Pexti和自我中心3D姿势Pegoi。通过结合从自我中心视图和外部视图估计的身体姿势,我们可以重建更准确的伪标签。如图3所示,人的手在外部视图中被遮挡,导致外部视图中的手部跟踪失败(图3,b),然而,在自我中心视图中可以清楚地看到和跟踪到手部(图3,d);另一方面,脚部在自我中心视图中无法观察到,因此无法在该视图中进行跟踪(图3,b),但可以在外部视图中轻松观察和跟踪到(图3,d)。通过结合两个视图的信息,我们可以成功预测准确的3D姿势作为伪标签(图3,c)。我们注意到,在测试时,只使用自我中心相机,外部相机仅用于生成伪标签。0相机矩阵正则化。我们将相机旋转矩阵Ri约束为正交的:0EJ(Rseq)=0B∙0i = 10||RTiRi−I||22.(5)0与以往的单视图姿势估计方法不同,该方法利用了多视图的弱监督[15,19,31,39],我们的时空优化方法在学习运动先验的指导下生成伪标签,使其对来自自我中心视图的2D姿势估计结果的噪声和不准确性具有鲁棒性。03.3.训练自我中心姿势估计网络0通过第3.2节中的优化框架,我们可以获得EgoPW数据集中每个自我中心帧的准确3D姿势伪标签Pegoseq,进一步使用鱼眼相机模型[33]将其处理为2D热图HE和关节与自我中心相机之间的距离DE。随后,我们在来自0Mo 2 Cap2和EgoPW数据集,如图2右侧所示。姿势估计网络包含一个特征提取器Θ,将图像编码为特征向量,以及一个姿势估计器Ψ,将特征向量解码为2D热图和距离向量。可以使用鱼眼相机模型从中重建3D姿势。在这里,我们注意到合成数据集S ={IS,HS,DS},其中包括来自Mo 2 Cap2的合成图像IS以及它们对应的热图HS和距离标签DS。0数据集,以及EgoPW数据集E = {I ego E, H E, D E, I extE},包括视角中心的野外图像I ego E,伪热图HE,距离标签D E和相应的外部图像I extE。在训练过程中,我们使用两个重构损失项和两个对抗损失项来训练视角中心姿态估计网络。重构损失定义为预测的热图/距离与标签的均方误差(MSE):0L S = mse(ˆH S, H S) + mse(ˆD S, D S)0L E = mse(ˆH E, H E) + mse(ˆD E, D E),0其中0ˆH S, ˆD S = Ψ(F S), F S = Θ(I S); ˆH E,ˆD E = Ψ(F ego E), F ego E = Θ(I egoE).0我们分别为学习视角中心特征表示和弥合合成和真实数据集之间的领域差距设计了两个对抗损失,具体如下所述。03.3.1 对抗领域适应0为了弥合合成数据和真实数据之间的领域差距,我们按照Tzeng等人的方法[36]引入了一个对抗鉴别器Γ,它接收从合成图像和野外图像中提取的特征向量,并确定该特征是从野外图像中提取的还是从合成图像中提取的。对抗鉴别器Γ使用交叉熵损失进行训练:0L D = -E[log(Γ(F S))] - E[log(1 - Γ(F ego E))]. (8)0一旦鉴别器Γ训练完成,特征提取器Θ将不同领域的图像映射到相同的特征空间,使分类器Γ无法判断特征是从合成图像还是真实图像中提取的。因此,姿态估计器Ψ可以为野外数据预测更准确的姿态。1316203.3.2 通过外部视图监督视角中心特征表示0尽管我们的新训练数据集很大,但与现有的大规模外部视图人体数据集(数千个身份)相比,数据集中的身份变化仍然相对有限(20个身份)。一般来说,由于数据集的多样性,这些外部视图数据集学到的表示质量更高。为了进一步提高我们网络的泛化能力并防止过拟合训练身份,我们提出通过利用高质量的第三人称视角特征来监督我们的视角中心表示。从迁移学习的角度来看,尽管我们的视角中心网络在第三人称视角数据集上进行了预训练,但在合成数据集上进行微调时,它很容易“忘记”所学到的知识。来自第三人称视角特征的监督可以防止视角中心特征与从大规模真实人体图像中学到的特征偏离太多。然而,直接最小化视角中心特征Fego E和外部特征F extE之间的距离不会增强性能,因为视角方向和相机畸变的显著差异会导致视角中心和外部视图的中间特征应该是不同的。为了解决这个问题,我们使用对抗训练策略来对齐视角中心和外部网络的特征表示。具体而言,我们使用一个对抗鉴别器Λ,它接收从视角中心图像和相应的野外图像中提取的特征向量,并预测该特征是来自视角中心图像还是外部图像。对抗鉴别器Λ使用交叉熵损失进行训练:0L V = -E[log(Λ(F ego E))] - E[log(1 - Λ(F ext E))], (9)0其中,F ext E = Θ ext ( I ext E ),Θ ext是外部姿态估计网络的特征提取器,与视角中心姿态估计网络具有完全相同的架构。特征提取器Θ ext和外部姿态估计网络的姿态估计器Ψ ext的参数来自于Xiao等人的工作[43]中的预训练模型,并在训练过程中保持固定。需要注意的是,姿态估计网络的深层通常表示人体的全局语义信息[9],我们使用ResNet-50网络[12]的第4个res-block的输出特征作为鉴别器Λ的输入。此外,视角中心视图和外部视图的关节的空间位置非常不同,这会使鉴别器Λ很容易学习到视角中心特征和外部特征之间的差异。为了解决这个问题,我们在鉴别器Λ中使用了一个平均池化层来对特征进行空间聚合,从而进一步消除视角中心和外部图像之间的空间分布的影响。更多细节请参考补充材料。0a) 输入 b) 带有外部特征监督 c) 不带外部特征监督0图4.具有(b)或不具有(c)来自外部特征的对抗监督的特征可视化。通过使用外部视图的特征表示来监督自我中心网络的训练,自我中心网络能够专注于提取人体的语义特征。0在训练过程中,自我中心姿势估计网络被训练为生成特征FegoE,以欺骗领域分类器Λ,使其无法区分特征是来自自我中心还是外部图像。为了实现这一点,自我中心网络学会更多地关注输入图像的相关部分,即人体,如图4所示。04. 实验04.1. 数据集0我们在Mo 2 Cap2[44]和Wang等人[42]的真实世界数据集上对我们的微调网络进行定量评估。Mo 2 Cap2[44]中的真实世界数据集包含室内和室外场景中捕获的两个人的2.7k帧,而Wang等人[42]中的真实世界数据集包含在工作室中捕获的两个人的12k帧。为了评估我们伪标签的准确性,我们仅在Wang等人[42]的数据集上评估我们的优化方法(第3.2节),因为Mo 2 Cap2数据集不包含外部视图。为了评估我们的方法在野外数据上的表现,我们还对EgoPW数据集的测试集进行了定性评估。EgoPW数据集将公开提供,更多细节和与其他数据集的比较将包含在补充材料中。04.2. 评估指标0我们使用两个指标PA-MPJPE和BA-MPJPE来衡量我们的方法以及其他基准方法的结果,这两个指标用于评估单个身体姿势的准确性。对于PA-MPJPE,我们使用Procrustes分析[17]将每帧的估计姿势ˆP刚性对齐到真实姿势P。为了消除身体尺度的影响,我们还报告了BA-MPJPE分数。在这个指标中,我们首先将每个预测的身体姿势ˆP和真实的身体姿势P的骨长调整为标准骨架的骨长。然后,我们计算两个结果姿势之间的PA-MPJPE。04.3. 伪标签生成0在本文中,我们首先使用优化框架(第3.2节)生成伪标签,并将其用于训练我们的模型。131630输入Mo 2 Cap 2 xR-egopose 我们的 外部 参考 输入Mo 2 Cap 2 xR-egopose 我们的 外部 参考0图5. 我们的方法与最先进方法的定性比较。从左到右:输入图像,Mo 2 Cap 2结果,xR-egopose结果,我们的结果和外部图像。红色表示真实姿势。请注意,在推理过程中不使用外部图像。左侧部分的输入图像来自[42]中的测试数据集,而右侧部分的输入图像来自EgoPW测试序列。0方法 PA-MPJPE BA-MPJPE0Mo 2 Cap 2 102.3 74.46 x R-egopose 112.0 87.20Wang等人[42] 83.40 63.88 VIBE[18] 68.13 52.990我们的优化器 57.19 46.140表1.在Wang等人的数据集上伪标签的准确性。利用自我中心和外部视图,我们优化方法(第3.2节)得到的身体姿势更准确,可以作为更好的伪标签。0网络(第3.3节)。因此,准确性更高的伪标签通常会导致更好的网络性能。在这个实验中,我们评估了在Wang等人的数据集上的伪标签的准确性,并在表1中展示了结果。该表显示,通过在优化过程中利用自我中心视图和外部视图,我们的方法优于所有基准方法。请注意,尽管在表1中进行了比较,但我们不能使用任何基于外部视图的姿势估计方法,例如VIBE[18]和3DPW[37],来训练自我中心姿势估计网络。这是因为外部视图和自我中心相机之间的相对姿态是未知的,无法仅从外部视图获得自我中心身体姿势。与我们的优化方法相比,[42]中的方法由于缺乏外部视图监督而表现更差。04.4.三维姿势估计比较0在本节中,我们将在[42]的测试数据集上,将在第3.3节中训练的自我中心姿势估计网络与先前的基于单帧的方法进行比较,在表2中展示了“Wang等人的测试数据集”下的结果。由于xR-egopose的代码或预测结果不公开,我们使用我们重新实现的x R-egopose。0方法 PA-MPJPE BA-MPJPE0Wang等人的测试数据集 Rhodin等人[31] 89.67 73.56Mo 2 Cap 2[44] 102.3 74.46 x R-egopose[35] 112.087.20 我们的方法 81.71 64.870Mo 2 Cap 2测试数据集 Rhodin等人[31] 97.69 76.92Mo 2 Cap 2[44] 91.16 70.75 x R-egopose[35] 86.8566.54 我们的方法 83.17 64.330表2.我们的自我中心姿势估计网络(第3.3节)在Wang等人的测试数据集和Mo 2 Cap2测试数据集[44]上的性能。我们的方法在两个指标上均优于Mo 2Cap 2[44]和x R-egopose[35],是最先进的方法。0在数据集上,我们的方法相对于Mo 2 Cap2的性能提高了20.1%,相对于xR-egopose的性能提高了27.0%。我们还与先前的方法在Mo 2 Cap2测试数据集上进行了比较,并在表2中展示了结果。在Mo2 Cap 2测试数据集上,我们的方法相对于Mo 2 Cap 2和xR-egopose分别提高了8.8%和4.2%。从表2的结果可以看出,我们的方法在单帧自我中心姿势估计任务上优于所有先前的方法。有关每种运动类型的更多定量结果,请参阅补充材料。对于定性比较,我们在Fig.5中展示了我们的方法在工作室数据集和野外数据集上的结果。我们的方法在与Mo 2 Cap 2和xR-egopose的比较中表现得更好,特别是对于身体部位被遮挡的野外情况。有关更多定性结果,请参阅补充材料。我们还将我们的方法与Rhodin等人的方法[31]进行了比较,该方法使用了来自多个视图的弱监督。131640多视图监督训练单视图姿势估计网络。在我们的EgoPW数据集中,我们只有一个自我中心视图和一个外部视图。因此,我们固定外部视图的三维姿势估计网络,只训练自我中心姿势估计网络。我们按照Rhodin等人[31]的方法,使用Procrustes分析对自我中心和外部视图的预测进行对齐,并计算Rhodin等人提出的损失。我们在表2中的结果显示我们的方法表现更好。这主要是因为我们的时空优化方法预测准确且稳定的三维姿势作为伪标签,而其他方法则受到不准确的自我中心姿势估计的影响。04.5.消融研究0方法 PA-MPJPE BA-MPJPE0无外部视图 90.05 68.99 无学习表示 85.46 67.01无领域自适应 84.22 66.48 无监督DA 91.56 69.170我们的方法 81.71 64.870表3.消融研究的定量结果。0来自外部视图的监督。在我们的工作中,我们引入外部视图作为训练网络的监督。外部视图能够生成准确的伪标签,特别是当自我中心视图中的人体部位被遮挡时,但可以在外部视图中观察到。如果没有外部视图,获得的伪标签将不够准确,并进一步影响网络性能。为了证明这一点,我们首先使用Wang等人的方法生成伪标签,即没有任何外部监督,然后在这些新的伪标签上训练姿势估计网络。结果显示在表3的“无外部视图”行中。我们还在图6中展示了有无外部视图监督的定性结果。定性和定量结果都表明,有了外部监督,我们的姿势估计网络的性能显著提高,特别是在遮挡情况下。0学习自我中心特征表示并通过对抗训练弥合领域差距。在我们的工作中,我们使用两个对抗组件训练姿势估计网络,以学习自我中心人体的特征表示(第3.3.2节)并弥合合成图像和真实图像之间的领域差距(第3.3.1节)。为了证明两个模块的有效性,我们在训练过程中删除了域分类器Λ,并在表3的“w/o learningrepresentation”行中展示结果。我们还删除了域自适应模块中的域分类器Γ,仅使用LD训练网络,并在表3的“w/o domainadaptation”行中展示定量结果。移除任何两个组件后,我们的方法性能下降,这证明了特征表示学习模块和领域自适应模块的有效性。0(a)输入图像(b)无外部视图(c)我们的方法(d)外部参考0图6.我们方法的结果,包括(c)和没有外部视图的情况(b)。网络在没有外部视图监督的遮挡情况下无法预测准确的姿势。外部视图仅用于可视化,不用于预测姿势。0移除域分类器Γ,仅使用LD训练网络,并在表3的“w/odomainadaptation”行中展示定量结果。移除任何两个组件后,我们的方法性能下降,这证明了特征表示学习模块和领域自适应模块的有效性。0与仅使用无监督领域自适应进行比较。在这个实验中,我们将我们的方法与常用于迁移学习任务的无监督对抗领域自适应方法[36]进行比较。我们仅使用对抗领域自适应模块(第3.3.1节)中的LS和LD训练网络,并在表3的“无监督DA”中展示结果。由于我们的高质量伪标签,我们的方法优于无监督领域自适应方法。05. 结论0在本文中,我们提出了一种使用单个头戴鱼眼相机进行自我中心人体姿势估计的新方法。我们收集了一个新的野外自我中心数据集(EgoPW),并设计了一种新的优化方法来生成准确的自我中心姿势作为伪标签。接下来,我们使用伪标签和外部网络的特征来监督自我中心姿势估计网络。实验证明,我们的方法在定性和定量方面都优于所有最先进的方法,并且我们的方法在严重遮挡下也表现良好。作为未来的工作,我们希望开发一种基于视频的方法,从野外视频中估计出具有时间一致性的自我中心姿势。局限性。我们方法中伪标签的准确性受到我们的野外捕获系统的限制,该系统仅包含一个自我中心视图和一个外部视图,并进一步限制了我们网络的性能。一个未来的解决方案是融合不同的传感器,包括IMU和深度相机,以捕获野外数据集。致谢JianWang,Kripasindhu Sarkar和ChristianTheobalt受到ERC Con- solidator Grant4DReply(770784)的支持,Lingjie Liu受到LiseMeitner博士后奖学金的支持。[24] Pietro Morerio, Riccardo Volpi, Ruggero Ragonesi, andVittorio Murino.Generative pseudo-label refinement forunsupervised domain adaptation.In Proceedings of theIEEE/CVF Winter Conference on Applications of ComputerVision, pages 3130–3139, 2020. 2[25] Jiteng Mu, Weichao Qiu, Gregory D Hager, and Alan LYuille. Learning from synthetic animals. In Proceedings ofthe IEEE/CVF Conference on Computer Vision and PatternRecognition, pages 12386–12395, 2020. 2131650参考文献0[1] Eric Arazo, Diego Ortego, Paul Albert, Noel E O’Connor,和 Kevin McGuinness. 伪标记和深度半监督学习中的确认偏差.在2020 International Joint Conference on Neural Networks(IJCNN), 页1-8. IEEE, 2020. 20[2] Jinkun Cao, Hongyang Tang, Hao-Shu Fang, XiaoyongShen, Cewu Lu, 和 Yu-Wing Tai. 动物姿势估计的跨领域适应.在Proceedings of the IEEE/CVF International Conference onComputer Vision, 页9498-9507, 2019. 20[3] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh.使用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功