没有合适的资源?快使用搜索试试~ 我知道了~
8651一种消除无监督单目三维人体位姿估计建模模糊的方法于振波1,2,倪冰冰1,2*,徐经纬1,2,王俊杰1,2,赵成龙1,2,张文军1,2上海交通大学数字媒体处理传输重点实验室{于振波,倪冰冰,xjwxjw,dreamboy.gns,cl-zhao,zhangwenjun}@ sjtu.edu.cn摘要在这项工作中,我们研究的模糊性问题的任务,无监督的三维人体姿态估计从二维对应。一方面,在没有显式注释的情况下,难以准确地捕获3D姿态的比例(比例模糊)。另一方面,一个2D姿势可能对应于多个3D姿势,其中提升过程固有地是模糊的(姿势模糊)。先前的方法通常使用时间约束(例如,恒定的骨长度和运动平滑度)以减轻上述问题。然而,这些方法通常强制输出以同时满足多个训练目标,这通常导致次优结果。与大多数以前的工作相比,我们建议将整个问题分为两个子任务,即,通过比例估计模块优化2D输入姿态,然后通过姿态提升模块将优化的2D姿态映射到3D对应物此外,提出了两个时间约束,以减轻规模和姿态模糊。这两个模块通过具有相应时间约束的迭代训练方案进行优化,有效地降低了学习难度并导致更好的性能。在Human3.6M数据集上的结果表明,我们的方法比现有技术改进了23。1%,并且还优于依赖于3D注释的几种弱监督方法。我们的项目可在https://sites.google.com/view/ambiguity-aware-hpe上获得。1. 介绍人体姿态估计在计算机视觉领域受到了相当大的关注[2,6,28,37]。作为一个基本模块,它被广泛用于许多下游应用,如身体重建[14],机器人操纵[26]和增强现实[10]。在本文中,我们感兴趣的是无监督的单目3D姿态估计。由于成本高、耗时长,*通讯作者在3D骨架的处理过程中,无监督/弱监督的3D姿态估计[40,3]已经成为该领域的新兴趋势。最近的无监督方法[29,12,19,17],即,在不以任何形式访问3D注释的情况下,主要使用2D注释[3],未标记的多视图图像[12]或学习的3D先验[17]来绕过3D注释的需要与易于访问的2D注释相比,手动3D先验是繁琐的,并且采用多视图图像需要特定的多相机设备。最近,Chen et.al.[3]提出了一种用于单帧无监督3D姿态估计的几何约束,该几何约束摆脱了对多视图相机的需要。然而,仍然存在两个挑战有待解决:(a)规模模糊。如果没有3D标注的监督,则难以准确地捕获3D位姿的比例。我们通过实验发现,在无监督设置下估计的3D骨架的规模容易漂移远离地面真相。简单地实施预测的3D骨架的比例一致性(即,骨长度一致性损失[20])仅导致边际改善,这得到了我们在第4.4节中的消融研究的支持。(b)摆出模棱两可的姿势。将2D姿势提升到3D对应物本质上是不明确的[19],其中单个2D姿势可能对应于多个3D姿势。多视图数据[3]能够有效地解决这种模糊性。Chen等人[3]首先提出生成伪视图来消除模糊性,然而,该方法忽略了帧之间的时间约束。3D约束(例如,周期损失[3]、骨长度一致性损失[20]、照相机投影损失[17])来解决上述两个挑战。然而,它们通常被认为是辅助损耗,即,实施输出以同时实现多个培训目标。这种训练方案通常会导致次优结果[36]。为了解决上述挑战,我们提出将整个问题分成两个子任务,即,通过尺度估计(简称为尺度估计)优化2D姿态,以及将优化的2D姿态提升到3D对应物(简称为姿态提升)。此外,两个时间一致性控制8652J损耗优化损耗优化尺度估计模块SLkl2DϕSJ2D2DttL2D图1:拟议框架的详细架构。3D姿态估计任务被分成两个部分,即,比例估计模块(绿色框)和姿态提升模块(橙色框)。位姿提升模块包括两个提升网络和一个鉴别器。提升网络将缩放的2D姿态作为输入并输出估计的3D骨架。生成的3D骨架的随机投影再次经过提升网络、逆变换和重新投影过程,允许网络通过利用时间几何一致性来自我监督训练过程应当注意,尺度估计模块和姿态提升模块以端到端的方式迭代地训练。约束分别被合并到这两个子任务中:(a)时间尺度的一致性。尺度估计模块用于优化三维位姿的尺度。根据透视投影[3],优化3D骨架的比例首先,我们提出了一个distribu- tion约束,粗略地调整2D尺度在视频级别。其次,提出了一种骨骼约束,以优化在帧级的2D姿态的规模这两方面的约束被无缝地集成到尺度估计模块中,这有效地克服了沿时间方向的尺度模糊问题。然后,姿态提升模块将优化的2D姿态作为输入,其中尺度估计模块有助于降低姿态提升的学习难度并大幅提高野外数据[24(b)多视图运动一致性。多视图数据[5],甚至是从图像[5]合成的,已经显示出其对单帧3D姿态估计的效率。受上述操作的启发,我们提出了一种简单而有效的时间约束,其自然地将单帧多视图约束推广到视频数据(即,鼓励跨不同视图的运动轨迹彼此匹配)。为了提高训练的稳定性,我们提出了一种迭代训练策略,取得了良好的性能。大量的实验表明,我们的模型实现了国家的最先进的性能在两个广泛的使用3D人体运动数据集。用于3D人体姿势估计的Hu-man 3. 6 M [11]数据集的结果表明,我们的方法比以前的无监督方法提高了23.1%,并且还优于几种显式使用3D注释的弱我们还进行了详细的消融研究,以证明所提出的框架的每个组成部分2. 相关工作完全监督的姿态估计。Catalin等人[11]首先提供大规模室内数据集,即,Hu-man 3. 6 M [11],用于具有密集注释关节的3D姿势估计。在强有力的监督信号的推动下,Julieta等人[22]提出利用简单而有效的模型来预测具有2D关键点作为输入的3D关节的位置。这导致了一种有前途的方式为3D姿态估计,即,基于准确估计的2D关节。通过访问人类主体的骨架拓扑结构,将结构化约束[18]并入训练过程中,以更好地估计3D关键点。按照上述工作的常规,Sun et.al.[30]以参数化方式分解骨骼关节的3D坐标。同时,提出了一种利用姿态中的时间关系的合成损失函数,以更好地建模人类主体的时空结构。Noguer等人[25]将单目3D姿态估计任务视为用以下表示的矩阵之间的回归问题位姿提升模块LJ骨t+LJT3DJ3DJR3dt+KJTR3dt+K旋转项目GJR2D不Δ1LTMCL3DLAdvΔ2ϕD旋转Δ = J-J13D3DΔ =J2不3D不t+K−J3DJ3DJR3Dt+KJ3Dt+K不JR3Dt+Kϕ不G8653i=1i=1三维和二维关键点距离。还通过骨架的结构性质和关键点之间的相关性来促进,这样的表示促进减少该任务的固有模糊性。Wang等人[34]提出了一个两阶段的框架,以促进三维姿态估计问题。涉及深度排名算法以充分利用图像内的2D和3D关键点信息。Pavllo等人[27]将单帧姿态估计扩展到视频序列,其有效地利用了时间信息,并且还可以以半监督的方式进行训练。弱监督姿态估计。 获取3D关键点注释通常是高成本的,这激励了对弱监督的3D姿态估计的研究。Brau等人[1]提出了一种涉及附加输出层的深度模型,该附加输出层将预测的3D关键点映射到2D图像平面上,并且3D空间中的身体部位长度被约束为与来自数据集的先验分布匹配。几何感知表示是由Chen等人提出的。[5]以弱监督的方式学习3D关键点关系。Li等人[20]利用3D姿态的统计特性,其应该是低秩和瞬时平滑的,以优化视频序列的3D轨迹。预测结果被视为伪注释,以实现更鲁棒的3D姿态训练过程。Fang等[9]提出了一种所谓的姿势语法框架,其明确地利用了一组关于人体结构的域信息(即,运动学、对称性、运动协调)作为重要的先验知识,人类对象的几何构型在Zhou等人的工作中被进一步利用。[40]以组合空间-时间信息来对3D几何形状进行建模,并考虑由姿态估计模型产生的模糊性。Yang等人[38]表明对抗训练是促进真实3D姿态估计的有效在鉴别器的推动下,预测的3D姿态应该是视觉上自然和有效的,即,根据人体骨架的拓扑结构。无监督姿态估计。与完全监督和弱监督姿态估计相比,非监督设置不允许使用任何地面实况3D姿态信息或相关投影,这更具挑战性。Rhodin等人[29]首先提出学习经由多视图图像构建的几何感知骨架结构,并且没有任何3D标签。预测图像视点以及3D几何信息以促进3D关键点的无监督定位。多视图信息是学习几何感知表示的有效指导信号。另一项工作[3]绕过了对多视图输入和监督3D可能骨架3D真实骨架2D骨架相机2D平面图2:由标度不确定性引起的预测结果的示例红色和绿色的3D骨架表示不同比例的估计3D骨架。定义基础运动学3D结构的先验知识的最小集合,诸如具有固定规范尺度中的骨长度比的骨骼关节Kim等人[15]提出通过背景/前景分解以无监督的方式学习2D关键点,这在理论上可扩展到任意对象。类似地,基于背景/前景去纠缠,[17]以自监督的方式通过成对的2D图像利用编码器和解码器模块。3. 方法在本节中,我们提出了统一的时间框架以有效地将2D姿态提升到3D骨架,其中时间尺度一致性和多视图运动一致性被组合到姿态估计模型中。总体框架如图所示。1,其中所提出的模型由两个主要部分组成,即,尺度估计模块和姿态提升模块。给定具有T个时间戳的长度的单眼视频序列,我们首先应用预先训练的2D姿态检测器(例如,CPN [6])以获得原始2D接头作为初始输入。然后使用尺度估计模块来优化原始2D姿态的尺度在此之后,我们估计的3D骨架与细化的2D姿势通过姿势提升模块。下面给出更详细的3.1. 通过比例估计我们将初始2D姿态表示为J2 D={(xi,yi)}N,并且 每 个 2D 关 节 的 对 应 3D 姿 态 可 以 表 示 为 J3D={(Xi,Yi,Zi)}N。这里N表示单个人的关节数量,i表示第i个关节。对于一个视频序列,时间戳t处的第i个关节表示为J2D和J3Dre。i,t i,t信号由3D空间中的旋转一致性提供。通过对恢复的2D关节进行生成对抗训练,预测的3D关键点进一步增强分别为。对于每个时间戳,投影的2D关节和3D关节应遵循透视投影[36],如下所示:点被间接地优化以更加真实和准确。Kundu等人[17]估计3D骨架依赖于x=XiiZi f+c,y=Yif+c,(1)X xiZiy yy86542个D2个D2个Di=1i=12个D2个D不tt+l2个Dt+L其中f=[fx,fy]和c=[cx,cy]分别是焦距和点。注意,Zi=D+di,其中D表示人的根关节的绝对深度,并且di是第i个关节相对于根关节的深度偏移。局限性:比例模糊。 以前无人监管3D姿态估计[29,3,12,17]不能有效地估计由于缺少3D注释,因此匹配输出3D骨架的大小如示于图2、在没有3D透视的情况下,我们无法获得人体在摄像机坐标系中的绝对深度,这导致在将2D位姿提升到3D位姿时尺度模糊。解决方案:通过时间约束的规模估计。在[3]之后,我们假设具有以原点(0,0,0)为中心的单位焦距的相机,并且将骨架到相机的距离固定为恒定的D单位,并且将2D关节归一化,使得从头部的平均距离图3:对投影的2D接头的比例的分析(S参考)。A/B对应于来自两个不同视频的S_ref12D2D连接到根接头的接头是 单位2D这确保了3DD将以≈1个单位(头到根关节距离)的比例生成骨架。由于Ddi和Zi=D+di,我们有Zi≈D,其中前瞻投影可以是近似如下:Xi序列的 C/D表示两个相应的频率S参考直方图时间尺度一致性。图3(C和D)示出了不同视频序列中S_ref 可见分布S_ref的频率直方图是单峰的,即,跟随-xi= D·fx.(二)2个DingN(µ,σ)。 因此,我们对S2D的分布进行我们可以看到,xi与xi成比例(即,xiXi)。首先利用尺度估计模块来推断3D位姿S3D的尺度,即,xi=S3D·Xi。 它可以替代地写为S2D·xi=Xi,其中S2D是2D姿态的比例。我们可以看到,限制3D姿势的比例或优化2D姿态S2D的比例对于该任务具有类似的效果,参数化高斯分布,即,N(µ,σ),其中μ和σ是可学习的参数。我们的目标是使估计的S2D的分布近似于S参考 我们使用Kullback-Leibler散度来优化可学习参数μ和σ,如下所示:L kl=DKL(N(μ,σ)||N(µ,σ))并且我们通过实验发现如果估计2D姿势的比例。如果给出了3D姿态,则我们能够根据等式(1)计算投影的2D关节的比例(S_ref)1作为σ= logσˆσ2+(µ−µ)21+2σ2−2,(四)如下所示:ref2个D1H({Xi/Zi}N)H( {Yi/Zi}N)Lkl能够约束分布(即,平均值和变量-但不能约束分布更不用说更详细的信息了S=[i=1+i=1],(3)2D2H({xi}N)H({yi}N)单帧。为了获得更准确的结果,我们将...导致骨稠度损失B,其定义如下:其中H(x)=max(x)-min(x)。以及max(·)和min(·)操作意味着最大和最小值的核心-响应2D关节。我们通过实验发现,如果馈入S_ref作为输入,则有相当大的改进,这驱使我们L骨=B(J3D)−B(J3D)2,(5)其中B表示3D骨架的骨骼长度J3D2个D捕获Sref的基本值(使用S2D建模)以监督的方式与时间线索相关联。表示在时间戳t处的估计的3D姿态,t+ l。ref2个D不同的视频序列已经显示在ref总之,第一部分损失函数(时间尺度一致性损失L(tsc)可以表示为:图3(A/B)。但是,我们可以看到,S2D的价值在整个视频中的特定值上波动特别是以及对应视频序列的两条曲线LTSC=wkl Lkl +w骨L骨、(6)图3(A/B)具有不同的模式。因此,它是非常困难的学习S2D只使用单目信息没有S参考的监督。因此,我们有动机利用时间信息来学习Sref的变化。1.31.21.11.00.90.821.421.21.00.80.6050010001500 2000 2500时间戳0200400600 800 1000 1200时间戳8070605040302010A BC D25201510500.550.560.570.580.59 0.6000.50 0.550.600.650.700.75平均值频率规模频率规模S8655其中wkl和wbone是超参数。我们想要强调的是,Lkl约束一般范围(即,在S2D的离散化过程中,使用第二正则项将在每个时间戳处获得更精确的值。8656我不不到提升网络ΦG以得到~。#21040;转化不不不tttt3.2. 将优化的2D姿势提升到3D对应物二维到三维姿势提升模型。我们采用Chen等人的工作。[3]作为基线模型,其输出3D姿势如下:J3D =(xiZi, yiZi, Zi),Zi= max(1,D +di). ( 七)具体地,我们估计第i个关节的深度di,并通过等式(1)获得最终的3D姿态7 .第一次会议。 所示总结第二部分损失函数(姿态提升损失,L升降机)可以表示为:L升降器=w2DL2D+w3DL3D+wadvLadv+wtmcLtmc,(十)其中w2D、w3D、wadv和wtmc是超参数。形式上,损失函数L2D、L3D和Ladv定义为:在图1中,2D到3D姿态提升模型包含两个部分,即,提升网络ΦG和鉴别器ΦD。与[3]相比,我们在对抗损失、网络结构和训练策略方面进一步优化了基线模型L2D=J2D−J~2D2,L3D=J3D−J~3D2,(11)详情请参阅补充资料minLadv(ΦD)=E[ΦD(J2D)-1]2+E[ΦD(JR2D)]2,限制:姿势模糊。 将2D姿势提升到3DθD[17]这是一个模糊的概念。给出具体t t(十二)在2D姿态中,可能存在与2D输入匹配的多个合理的3D姿态。Li等人[17]表示最小LθG,θSAdv(ΦG)=E[ΦD(JR2D)−1]2,(13)多视图数据能够有效地缓解这种歧义然而,多相机设备不可用于单目3D姿态估计[12]。解决方案:多视图运动约束。为了减轻姿态模糊,我们通过几何随机旋转[5]方案产生3D轨迹的另一个(伪)视图以构建多视图信息。由V表示的该过程可以如下所示:JR3D= V(J3D)= R *. J3D−J3DΣ+T,(8)其中θS和θG是尺度估计模块ΦS和姿态提升模块ΦG的参数(如图1B所示)。θD为鉴频器的参数。值得一提的是,Ltsc和Llifter约束两个部分(即,尺度估计模块和姿态提升模块),其通过3D姿态估计来分割。与传统的损失约束不同,这两个损失分别约束上述两部分,与传统的训练策略相比,表现出了更好的性能。t tt0,t注意[3]使用额外的时间鉴别器来其中T=[0,0,D]是平移向量,并且R是平移向量。旋转矩阵 如图所示。1、JR2D可以ob-由JR3D的摄像机投影得到。然后JR2D就发了学习时间一致性,这是具有边际改进的计算相比之下,所提出的约束仅利用多视图运动信息。不JR3D不不JR3D不学习时间一致性,而不是依赖于距离。到J~3D。最终将3D模型投影到2D姿态J~2D。更多细节将在补充材料中显示生成的多视图运动被用来追求独特的3D结构。我们的目标是保持来自两个不同视图的两个随机帧之间的姿势差异尽可能接近。多视图运动一致性。如图1,我们的方法将来自一个序列的两个帧作为训练的输入。我们强制执行时间一致性不同的视图经由以下损失Ltmc来细化提升网络,Ltmc=(J3D−J3D)−(J~3D−J~3D)2,(9)犯罪分子,它仍然取得了相当好的结果。3.3. 迭代训练策略在这项工作中,我们分裂成两个子任务的规模估计模块和姿态提升模块的三维姿态估计。在这种串行设计中,姿态提升模块的输入取决于尺度估计模块的输出,这可能遭受输入分布的大变化。因此,为了稳定优化过程,我们迭代地训练尺度估计模块和姿态提升模块(例如,我们训练姿态提升模块4次,然后训练尺度估计模块一次。当训练姿势提升模块时,我们冻结tt+ktt+k尺度估计模块,反之亦然。我们凭经验其中J3D和J3D表示估计的3D骨架我发现这种反复练习是有效的tt+k帧t和t+k。J~3D和J~3D平均转换3D研究可以在SEC中找到。4.4tt+k帧t和t+k中的骨架。转换的3D骨架可以通过摄像机从另一个角度看到因此,所提出的时间运动一致性损失Ltmc由跨视图运动约束形成,这是为了解决提升模糊以追求更合理的3D结构。在3.4. 实现细节我们的网络通常是浅的,可以以端到端的方式有效地进行训练。在[23]之后,我们使用残差块作为构建块。我们特别8657使用5个块用于姿态提升模块,2个块用于鉴别器,1个块用于尺度估计模块。详情请参阅补充资料如在较早的讨论中,用于优化尺度估计模块和姿态提升模块的损失函数,规则由Ltsc和Llifter 给 出。其中wkl=0。001,w 骨=1。0w2 D=0。5,w3 D=5. 0,wadv=1。0且wtmc=1。0分别。对于KL先验,需要预先定义目标高斯分布的参数(μ,σ) 我们选择不同的对进行实验从范围(0. 55,0。75)和(0. 05,0。15),并选择最佳对(μ≈0. 71,σ≈0。06)。对于其他超参数,我们设置恒定深度D=10,将批量大小设置为1024,并且将提升器和鉴别器的学习率设置为0.0002衰减率为每历元0.95。辍学率设置为0.25。我们采用Adam优化器和默认参数,并训练整个网络200 epoch。4. 实验4.1. 数据集和指标人3.6M [11]。Human3.6M是Mosh [21]可用的最大室内数据集之一。我们报告了平均每关节位置误差(MPJPE)和PMPJPE(刚性对线后的MPJPE)。MPI-INF-3DHP [24]。采集MPI-INF-3DHP室内和室外都有。除了PMPJPE,我们报告在150 mm处阈值化的正确关键点百分比(PCK)和曲线下面积(AUC)。超现实主义[32]。Surreal包含许多具有各种形状和姿势的人类角色的视频剪辑。LSP[13]。LSP由2000张没有地面实况3D注释的野外图像组成。我们进行定性评价,以说明泛化能力。4.2. 定量评价人类3.6M数据集的结果[11]。如Tab中所示。1,我们报告的无监督姿态估计结果的MPJPE和PMPJPE。我们展示了完全监督(Full)、弱监督(Weak)和非监督(Unsup)方法的结果。我们的方法优于现有技术的无 监 督 方 法 ( Kundu et.al. [16] ) 一 个 显 著 的 边 际(52。3vs. 62. 4)在PMPJPE方面。这主要通过多视图运动一致性来促进,其提供更准确和合理的姿势。此外,我们的方法优于Rhodin等人。[29]在MPJPE中增加了29.8%,这可能是由于时间尺度的一致性。值得注意的是,我们的方法是几个弱监督的方法,明确使用3D数据相媲美MPI-INF-3DHP的结果[24]。如Tab.所示。 2,我们提出的姿态估计结果的PCK和AUC。为了进行更全面的比较,我们还模式算法GT PREMPJPE PMPJPE MPJPE PMPJPEMartinez等人[22] 45.537.162.947.7充分Pavllo等人[27] 37.227.246.836.5Wang等人[33] I'm sorry.-42.632.7[35]第三十五话88.6-98.4弱[31]第三十一话Drover等人[8]--79.038.2--97.464.6Li等人[20]---88.866.5Rhodin等人[第二十九章]-131.798.2Chen等人【3】--51.0-68.0温苏普Kundu等人[16]----62.4Kundu等人[第十七章]--63.8我们的85.342.092.452.3表1:在Hu_man3.6M [11]的测试集上的实验结果。为了进行更全面的比较,我们列出了几种监督的结果。GT和PRE分别表示使用地面实况2D姿态和由2D检测器估计的2D姿态的结果报告了最近在各种数据集上训练的几种全监督和弱监督方法在3DHP [24]数据集上训练的这些模型中,我们的方法比无监督和弱监督方法都具有更高的准确性。类似地,在Human3.6M [11]数据集上训练的模型中,我们的方法优于所有无监督/弱监督方法,并且与完全监督模型的性能相当,这证明了我们模型的泛化能力。通过将时间尺度一致性和多视点运动一致性显式地引入到深度模型中,可以很好地解决模糊问题,使输出结构更加合理,从而提高估计精度。4.3. 定性评价我们在Human3.6M [11],3DHP [24],Surreal [32]和LSP [13]数据集上呈现了定性结果。请注意,为了证明所提出的模型的泛化能力,使用在Human3.6M [11]数据集上训练的模型来估计LSP [13]数据集上的姿势。如示于图4,我们在同一坐标系中可视化预测的骨架(绿色)和地面实况(红色)。请注意,不执行缩放和刚性对齐我们可以看到,3D姿态的尺度得到了很好的估计(图1)。4A,B,C)在Human3.6M [11],3DHP[24]和Surreal [32]数据集上,这在视觉上是合理的,并且主要通过时间尺度约束来促进。此外,估计结果上看不见的外观(图。4D)在视觉上仍然令人满意。定性结果表明,我们提出的方法,尺度为了比较,我们还提供了更多的视觉再现,8658A. H36M数据集上的结果(工作室内)C.超现实数据集的结果(合成)B.在3DHP数据集上的结果(在野外)D.LSP数据集上的结果(在野外)图4:4个不同数据集的定性结果。左上:预测(红色)以及Hu-man 3. 6 M中的地面实况(绿色)[11]。右上:3DHP中的预测预测(红色)以及地面实况(绿色)。左下角:预测的预测(红色)以及超现实中的地面实况(绿色)。右下角:结果,而无需在相应的训练集上进行训练。监督算法车组PCK AUC损失函数MPJPE PMPJPE梅塔等人[24日]H36M64.731.7在[3]中的L2D+L3D+L副词-58.0AdvTMCKL骨表2:MPI-INF-1000测试集的实验结果表3:不同损耗配置的分析。在Human3.6M [11]的测试集上评价性能,我们使用GT2d作为输入。我们根据[3]重新实施基线,并详细列出补充材料中的差异。尺度估计的消融研究* 作为输入的参考标度72.3 39.73DHP [24].当Trainset为h36 m时,我们只需使用预-在Human3.6M [11]上训练模型,以在MPI-INF- 3DHP[24]上进行评估,无需任何微调。分别具有和不具有比例模块的估计姿态的结果。请参阅补充材料。4.4. 消融研究损耗形态与监测信号分析。在选项卡中。3我们报告了Human3.6M [11]数据在不同损耗配置下的性能。在不访问源代码的情况下,我们重新实现了基线模型[3]。实验结果表明,本文的算法比文献[3]中的算法有明显的改进.我们在补充材料中详细介绍了差异,请参阅已发布的代码。具体地说,通过简单地利用几何信息和利用判别器来防止不合理的姿势,我们取得了令人满意的结果。此外,基于基线,我们可以2D归一化 缩放模块 MPJPE无无260. 7 57. 8无二维233.4 55.0通用量表无105. 0 46. 0逐步量表无94. 5 48. 53D上的通用比例97.5 43.62D上的通用刻度85.3 42.0表4:解决尺度模糊的方法的分析。*可视为我们设计的最高性能。通用尺度归一化表示我们用相同的常数归一化所有2D骨架。逐步缩放指示我们独立地归一化每个2D骨架。我们评估了Human3.6M测试集的性能[11]。观察到添加时间运动一致性Ltmc可以将性能提高约6%,证明了我们模型中时间约束的有效性那我们就-梅塔等人[24日]3DHP72.536.9FullYuet al.[七]《中国日报》H36M84.1-Zeng等[39]第三十九届H36M77.643.8Chen等人[4]美国3DHP87.954.0Wang等人[33个]3DHP86.962.1Zhou等人[24日]WeakKanazawa等人[14个]H36M3DHP69.277.132.540.7Chen等人[3]第一章H36M64.331.6Chen等人[3]第一章3DHP71.136.3UnsupKundu等人[16个]YTube+H36M 84.660.8Kundu等人[17个]H36M+3DHP80.244.8我们H36M82.246.6我们3DHP86.251.7L2D+L3D+L高级105.046.0L2D+L3D+Ladv+Ltmc101.743.5L2D+L 3D+Ladv+Ltmc+Lkl96.042.9L2D+L3D+L+L+L+L85.342.08659误差2个D2个D2个D1.251.000.750.50所 有 骨 架 的 头 - 根 距 离 为 1/D ) 。 逐 步 缩 放 导 致PMPJPE下降,我们推测其原因是关于真实输入分布的信息不能被保留。相比之下,利用规模模块来解决这个问题要有效得多。最后,我们尝试直接在姿势提升模块的3D输出上乘以尺度,这在2D对应物上不起作用0.250.00110100-0.25-0.500 500 1000 1500 20002500时间戳9080300070图5:量表和量表预测的图示。sref(绿线)表示手动计算的目标比例Sb(黄线)表示在训练期间仅使用L骨sb+c(red线)表示具有迭代训练的L骨 sb+k+c(blue线)表示具有迭代训练的L骨+Lkl在尺度估计模块上形成消融研究。我们观察到,单独应用Lkl先验导致略微下降≈1。PMPJPE的3%。 这是因为Lkl是相对的弱约束,它只约束估计的范围匹配比例而不是姿势精度。此外,在MPJPE方面,尺度估计模块带来16. 与基线相比改善1%最后,我们可视化的规模信息预测的不同组成部分所提出的方法在图。六、可以很容易地看到,sb(黄线)接近于恒定值1,这意味着几乎没有比例信息可以只靠L骨就学会了。sb+i (红线)有ob-明显的波动,证明了 迭代,迭代积极的培训策略。基于具有迭代训练的L bone + Lkl 的预测尺度sb+ k + i高度接近通过3D信息计算的sref。注意,我们在训练过程中学习尺度信息而没有sref的监督优异的成绩表明我们的方法能够很好地学习尺度信息。解决尺度模糊的方法分析。如Tab.所示。4,我们首先将参考尺度(使用地面实况计算)作为输入,并在Human3.6M [11]的测试集上进行评估,这可以被视为我们框架的上限性能(第一行)。然后,在没有任何预处理程序的情况下,我们报告了具有和不具有缩放模块的性能。我们可以观察到缩放模块仍然可以提高性能,证明了我们设计的有效性。然后,我们尝试一些其他的预处理技术。一种简单的替代解决方案是在归一化中使用步长尺度(即,正常化605040302 3 456提升模的迭代次数图6:训练策略对模型性能的影响的图示。提升模块的迭代次数指示当缩放模块被训练一次时,我们训练提升模块的次数。我们展示了MPJPE,PMPJPEw.r.t.不同的比率,以及在没有迭代训练的情况下的设置,这以虚线示出。培训策略分析。直观地,尺度将显著地影响提升模块的输入2d关节的分布,因此适当地采用训练方法是重要的,否则,训练将非常不稳定。如图所示。6、比较不同的训练方法并报告其效果。当我们去除迭代训练时,我们简单地将等式(1)10和等式6、将尺度估计模块和姿态提升模块一起优化。我们在迭代训练中使用几个比率进行实验,并根据经验选择最佳比率。5. 结论在本文中,我们的方法分为两个子任务,规模估计模块和姿态提升模块的无监督单目立体姿态估计。这两个模块都通过具有相应时间约束的迭代训练方案来优化。大量的实验表明,我们的模型实现了国家的最先进的性能相关的人体姿态估计数据集。鸣 谢 本 工 作 得 到 国 家 自 然 科 学 基 金 资 助(U20B2072,61976137)。作者对上海交通大学学生创新中心提供GPU表示感谢。++ +2规模无迭代训练无迭代训练MPJPEPMPJPE8660引用[1] Ernesto Brau和Hao Jiang。通过深度学习从2D注释估计3D人体姿势。在3DV,第582-591页,2016中。3[2] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。在CVPR,第1302-1310页中。 1[3] Ching-HangChen , AmbrishTyagi , AmitAgrawal , Dylan Drover , Rohith MV , StefanStojanov,and James M.瑞格具有几何自监督的无监督3d姿态估计。在CVPR中,第5714-5724页,2019年。一、二、三、四、五、六、七[4] 陈天朗,陈芳,沈晓辉,朱毅恒,陈志立,罗杰波 . 视 频 中 解 剖 感 知 的 三 维 人 体 姿 态 估 计 。CoRR,abs/2002.10322,2020。7[5] Xipeng Chen,Kwan-Yee Lin,Wentao Liu,ChenQian,and Liang Lin.用于3d人体姿态估计的几何感知表示的弱监督发现。在CVPR中,第10895-10904页,2019年。二三五[6] Yilun Chen , Zhicheng Wang , Yuxiang Peng ,Zhiqiang Zhang,Gang Yu,and Jian Sun.用于多人位姿估计的级联金字塔网络。在CVPR中,第7103-7112页,2018年。第1、3条[7] Yu Cheng ,Bo Yang ,Bo Wang ,and Robby T.Tan.使用具有显式遮挡训练的空间-时间网络的3d人体姿势估计。在AAAI,第10631-10638页中7[8] Dylan Drover,M.诉Rohith,Ching-Hang Chen,Amit Agrawal,Ambrish Tyagi,and Cong PhuocHuynh.3d 姿 势 可 以 从 2d 投 影 中 学 习 吗 ? 参 见ECCV,第78-94页,2018年。6[9] 方浩树,徐元路,王文冠,刘晓柏,朱松春。学习姿势语法编码人体配置三维姿势估计。在AAAI,第6821-6828页,2018年。3[10] David C.霍格基于模型的视觉:一个程序,看到一个行走的人。IVC,1(1):5-20,1983. 1[11] Catalin Ionescu,Dragos Papava,Vlad Olaru,andCristian Sminchisescu.Human3.6m:自然环境中3D人体感知的大规模数据集和预测方法。IEEE传输模式分析马赫内特尔,36(7):1325-1339,2014. 二、六、七、八[12] Umar Iqbal,Pavlo Molchanov,and Jan Kautz.通过野外多视角图像的弱监督3d人体姿势学习在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。一、四、五[13] 山姆·约翰逊和马克·埃弗林汉姆用于人体姿态估计的聚类姿态和非线性外观模型英国机器视觉会议论文集,2010年。doi:10.5244/C.24.12。6[14] 作者:Michael J.作者:David W.贾-科布斯和吉坦德拉·马利克。人体形态和姿势的端到端恢复。在CVPR中,第7122-7131页,2018年。1、7[15] Yunji Kim,Seonghyeon Nam,In Cho,and SeonJoo Kim.用于指导类条件视频预测的无监督关键点学习在NeurIPS,第3809-3819页,2019年。3[16] Jogendra Nath Kundu,Siddharth Seth,Varun Jam-pani,Mugalodi Rakesh,R.文卡特什先生,还有阿尼尔·班·查克拉博蒂.通过部分引导的新图像合成的自监督3d人体姿态估计。在CVPR中,第6151-6161页,2020年。六、七[17] 放大图片作者:Jogendra Nath Kundu,SiddharthSeth,Rahul M.五、Mugalodi Rakesh,VenkateshBabu Radhakrish-nan,and Anirban Chakraborty.用于无监督三维人体姿态估计的运动学结构保持表示。在AAAI,第11312-11319页,2020年。一、三、四、五、六、七[18] Sijin Li,Weichen Zhang,and Antoni B.陈用于3d人体姿势估计的深度网络的最大间隔结构化学习。在ICCV,第2848-2856页,2015中。2[19] Yang Li ,Kan Li , Shuai Jiang, Ziyue Zhang ,Con-gzhentao Huang,and Richard Yi Da Xu.几何驱动的三维人体姿态估计的自监督方法。在AAAI2020。1[20] 李智,王璇,王飞,姜沛林。通过单目视频提升单帧3d人体姿态估计。在ICCV,第2192-2201页,2019年。一、三、六[21] Matthew Loper,Naureen Mahmood,and MichaelJ.黑色. Mosh:从稀疏标记捕捉运动和形状。ACM事务处理图表,33(6):220:1-220:13,2014. 6[22] Julieta Martinez、Rayat Hossain、Javier Romero和James J.点一种简单而有效的三维人体姿态估计基线。在ICCV,第2659-2668页,2017年。二、六[23] Julieta Martinez、Rayat Hossain、Javier Romero和James J.点一种简单而有效的三维人体姿态估计基线。InICCV,2017. 5[24] Dushyant Mehta , Helge Rhodin , Dan Casas ,Pascal Fua , Oleksandr Sotnychenko , WeipengXu,and Chri
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功