没有合适的资源?快使用搜索试试~ 我知道了~
2903提升和上采样:基于提升变换器的三维人体姿态估计奥格斯堡大学Moritz Einfalt Katja Ludwig Rainer Lienhart机器学习和计算机视觉实验室{moritz.einfalt,katja.ludwig,rainer.lienhart} @ uni-a.de摘要视频中的单目3D人体姿态估计的最新技术水平由2D到3D姿态提升的范例主导。虽然提升方法本身是相当有效的,但真正的计算复杂度取决于每帧2D姿态估计。在本文中,我们提出了一种基于变换器的姿势提升方案,可以操作时间稀疏的2D姿势序列,但仍然产生时间密集的3D姿势估计。我们展示了如何屏蔽令牌建模可以用于时间上采样内Transformer块。这允许将输入2D姿态的采样率与视频的目标帧速率解耦,并且大大降低了总计算复杂度。此外,我们还探讨了大型运动捕捉档案的预训练选项,这在很大程度上被忽视了。我们在两个流行的基准数据集上评估了我们的方法:Human3.6M和MPI-INF-3DHP。MPJPE为45。0毫米和46。9毫米,因此,我们提出的方法可以与国家的最先进的竞争,这在固定和移动应用中实现了可变消费 者 硬 件 的 实 时 吞 吐 量 。 我 们 在https://github.com/goldbricklemon/upplut-upsample-3dhpe上重新租赁我们的代码和模型1. 介绍随着2D人体姿态估计(HPE)在过去几年中的巨大进步,许多研究已经致力于单眼3D HPE。从单个RGB相机在3D空间中重建人体关节或其他身体标志的位置具有巨大的潜力,可应用于计算机动画[39,38,42],动作识别,认知[34,56,30,23,5]或姿势和运动分析[54,41,52]。当整个过程可以在移动计算机或智能手机上处理时,单目3D HPE变得更加重要。它开辟了另一个控制和交互应用领域[12,18]。5040302010040 42 44 46 48 50MPJPE(mm)图1:Human3.6M上不同姿态提升方法的空间精度(MPJPE)和每帧计算复杂度(FLOPs)(越低越好)。测量的FLOP包括必要的2D姿态估计,这里使用CPN [6]。+PT表示对运动捕捉数据的预训练。用于视频中的3D HPE的当前方法主要遵循2D到3D姿势提升的范例[36,11,51]。这种两阶段方法始终导致常见3D HPE基准测试的最高空间精度[19,37]。它利用现有的基于图像的2D HPE模型为每个视频帧生成2D姿势。然后,训练单独的提升模型以仅基于顺序的2D姿态估计来估计帧序列的3D姿态[2,40,28,55,53,49,16]。由于2D姿态是一个相当紧凑的输入描述,因此令人振奋的范例允许模型在非常长的输入序列上操作否则,当直接对原始视频帧[20,21]进行操作时,这几乎是不可能的。目前的研究主要集中在进一步提高三维位姿估计的空间精度上。最近的一些工作也分析了提升过程本身的计算复杂性它来自于-我们的(N=351)Ours + PT(N=351)MixSTE(N=243)[57] P-STMO(N=243)[44] ST(N=351)[25]AW(N=243)[4]PF(N=81)[58]VP3D(N=243)[40] CPN [6]sin=5sin=5sin=20sin=20FLOPs(G)2904上采样Transformert-6t-5t-4t-3t-2t-1不t+1t+2t+3t+4t+5t+62D姿势嵌入2D姿势嵌入2D姿势嵌入2D姿势嵌入姿势令牌上采样令牌图2:我们以固定的关键帧间隔提取2D姿势,并将其转换为姿势令牌。在使用可学习的上采样令牌填充此在推理过程中,我们只使用中心帧的预测,整个视频以滑动窗口的方式处理具 有 高 空 间 精 度 的 2D HPE 模 型 , 如 Mask R-CNN[15],CPN [6]或HRNet [7]。经由姿态提升的3D HPE的总复杂度通常由初始2D姿态估计过程决定(参见图1)。这就禁止了那些需要实时吞吐量的应用程序在本文中,我们的主要目标是通过将2D姿态估计限制在视频帧的一小部分来减少整体2D姿态序列上的现有抬升模型总是具有相同的输入和输出姿态速率[40,4,58]。相比之下,我们提出了一种基于Transformer的架构,该架构可以在时间上稀疏的输入姿态上操作受Transformer架构[9,46,29,44]中的掩码令牌建模的启发,我们提出了一种令牌化机制,该机制允许在我们的提升Transformer中对时间序列表示进行上采样。输入序列中缺失的2D姿态估计被位置感知上采样令牌替换。这些令牌通过整个序列上的自关注被联合地转换为它们各自的视频帧的3D姿态估计(参见图2)。这大大降低了计算的复杂性,并使我们的模型更灵活的有效输入帧速率在潜在的应用。事实上,2D姿态的采样率甚至可以基于预期或观察到的运动速度来适配。由于训练只需要注释的3D姿势序列,但没有视频记录,我们还探索了大规模运动捕捉档案的预训练。我们评估它的好处,我们和现有的Transformer架构,并显示它如何可以对抗稀疏输入序列的不利影响。总之,我们的贡献是:(1)我们提出了一种联合提升和上采样的Transformer架构,其可以生成时间密集的从2D姿态的稀疏序列预测3D姿态(2)我们评估了Transformer预训练对运动捕捉数据的影响;(3)我们表明,我们的方法导致更平滑和更精确的3D姿态估计比直接插值稀疏输出序列从竞争的方法。与此同时,它减少了推理时间的至少12倍,并支持不同的输入帧速率在推理。据我们所知,这是第一篇明确解决视频中有效的2D到3D姿势提升的论文,其中包括稀疏到密集的预测方案以及对大规模运动捕捉数据的直接预训练。2. 相关工作视频中的2D到3D姿态提升最近关于视频中的2D到3D姿态提升的工作使用时间卷积网络(TCN)[1]、图形卷积网络(GCN)[8]或Transformer网络[50]。Pavllo等人。 [40]介绍了一种基于TCN的提升模型,可以利用长输入序列和部分标记的数据。该模型的扩展集中在注意力机制[31]或不同的姿势表示[55,4]。 Cai等人。 [2]提出了一种基于GCN的方法,该方法显式地对空间和时间上局部相关的人体关节之间的依赖关系进行建模,并且在短输入序列上表现良好。这个框架扩展了固定的[53]或输入条件的非局部依赖性[16]。最近,来自视觉领域的Transformer架构被适配用于姿态提升。Zheng等人。 [58]介绍了一种Transformer架构,用于在空间或时间上进行自我关注的时间提升。Li等人。 [25]使用一个跨步的Transformer块来更有效地处理更长的输入序列。Zhang等人。 [57]提出了一种联合的时间注意力块,用于更小,更有效的提升变形金刚。我们遵循基于变形金刚的提升趋势,并使用[58,25]中的构建块来形成更深层次的架构,2905PS S∈ SS{|}·∈S{|}S{ −}GT∈∈设计用于稀疏输入序列。高效3D HPE高效3D HPE的大部分现有工作都集中在单张图像的端到端视觉模型上。Mehta等人 [39]提出了一种在消费者GPU上具有实时功能的自定义CNN。Hwang等人。 [18]使用CNN模型压缩来学习移动设备的非常有效的这些方法缺乏对多个视频帧的推理,这对于对抗单目3D姿态再现的2D到3D模糊性至关重要[25,57]。Mehta等人。 [38]提出了一种实时能力的混合CNN/MLP架构,用于预测具有额外时间骨架拟合的单帧3D姿势。在时间2D到3D姿态提升的范围内,大多数方法在消费者硬件上具有实时速度是相当有效的[40,44,57]。然而,这不考虑初始每帧2D姿态估计的计算要求。结合起来,提升本身只占整个复杂性的一小部分我们解决这个问题,并表明,构成提升稀疏输入序列可以很容易地达到实时吞吐量(即具有一定的恒定延迟),同时保持空间预测精度。数据增强和预训练3D HPE的共同困难是,具有成对视频和3D姿态数据的数据集很少,并且视觉外观和人体运动的可变性有限。2D到3D姿态提升方法具有不需要配对数据的优点[11,51]。这允许仅在3D运动序列上的数据增强策略。Li等人 [24]使用演化算子生成现有3D姿态的变体。Gong等人。 [14]使用生成模型来创建合理的新3D姿势。然而,这两种方法都限于Gong等人。 [13]使用幻觉模型从给定的开始和结束姿势预测新的运动序列在预训练的范围内,已知Transformer架构受益于大规模数据集的训练,包括视觉域中的Transformer[3,10,48]。 Shan等人[44]显示了如何使用2D姿态序列重建的预文本任务来训练向上提升的Transformer。相比之下,我们评估了预训练对未配对运动捕捉数据的存档的好处,对于我们和现有的Transformer架构。3. 方法我们的方法遵循常见的2D到3D姿态提升方法:给定具有帧索引S={1,. . .、|V|},我们使用现成的2D HPE模型以获得2D输入姿态{pt}t∈S。1每个姿态pt∈RJ×21我们用这个符号来描述一个有序序列。由J个指定的人体关节的归一化2D图像坐标2描述我们丢弃检测分数或2D HPE模型可能提供的任何其他遮挡信息目标是针对每个单个视频帧恢复实际3D姿态tRJ×3,即每个关节的度量相机坐标我们的主要重点在于仅使用等距键处的输入2D姿势的子集帧in=t tmodsin=0t∈S,输入步长sin。同时,我们希望生成3D姿态预测以较高的速率,即在<帧索引out=t tmodsout=0t∈S处,具有较 小 的输 出 步 幅s out s in。为了简单起见,我们假设sin=ksout,kN,因此, 在出去理想情况下,sout=1,我们可以预测全帧速率下的密集3D姿势。图2描绘了Sin={1,5,9,. . . }和S_out={1,2,3,...{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}3.1. 输入输出采样率现有的提升方法具有相同的2D/3D姿态的输入/输出采样率[40,4,58]。每个模型都针对固定的输入速率进行了优化。当在步幅sin>1的子采样输入姿势上训练时,模型只能以相等的输出步幅sout=sin预测3D姿势。为了以全帧速率获得预测,我们可以在相邻关键帧处的3D姿态之间使用双线性插值。这种幼稚的方法有两个缺点:首先,每个模型仍然针对单个(现在降低的)帧速率进行优化。这缺乏关于具有不同输入帧速率或可变计算资源的应用的灵活性。其次,使用大的sin值将使全帧速率下的预测越来越差。简单的双线性插值不能重建两个关键帧之间的实际人体运动。接下来,我们描述我们提出的架构,可以绕过这两个问题的解耦s的输入和输出。3.2. 联合提升和上采样我们的解决方案遵循了最近使用Transformer网络提升2D姿势序列的趋势[58]。变形金刚的自我关注性质已被证明非常适合于利用单个人体姿势[27]的各个关节之间的关系以及时间上的长序列姿势[25,57]。我们的提升网络的主要设计标准是一个相对更深的架构,可以操作的稀疏输入序列。它必须同时处理姿势提升和时间上采样。同时,该模型应保持有效的训练和推理。与大多数时间姿态提升方法类似,我们的模型对具有固定长度N=2n+1,nN的2D姿态序列进行操作。每个序列覆盖帧索引N=t n,. . .,t+n。由于我们的基于transformer的模型聚集了来自整个序列的信息,2我们假设已知的摄像机本质,并将2D坐标映射到[-1,1],同时保持纵横比。2906∈年代∈||.∈∈∈PE空间Transformer(分别在每个姿势PTUTUTUTPTUTUTUTPTPE时间Transformer线性(每个姿势)PEStrided Slice跨步式Transformer图3:我们架构的实例化,N=9,输入步幅sin=4,输出步幅sout=1。 空间和时间Transformer使用可学习的位置嵌入(PE)和具有多头自注意(MHA)的香草(vanilla)Transformer块步幅Transformer采用步幅为rk且核大小为3的步幅卷积。 PT表示到k en的姿态,UT表示到k en的可学习上采样。感受野[40]等于N。然而,由于关键帧子采样,我们模型的实际输入仅由关键帧2D姿势p组成,其中:p={pi|i∈Sin<$SN}.(1)因此,有效输入序列长度被减小为:Nin:=|p| ≤N−1+1。在训练期间,模型为时间感受野内的所有输出帧生成中间3D姿态预测Pi′RJ×3P′={Pi′|i∈Sout<$SN}。(二)另外,中心帧t的3D姿态被进一步细化到其最终预测Pt。在评估期间,仅使用该中心预测。我们利用三个distinct Transformer子网络从最近的文献中,在组合,适合我们的主要设计目标。图3提供了我们的架构的概述。第二个子网络使用具有跨姿势令牌的时间序列的自我注意力的香草变换器块。该构建块是最近基于变换器的提升方法中的准标准[58,25,44]。 我们扩展了其通常的目标,直接三维姿态重建的关键帧姿态内的输入序列。我们希望为时间感受野内的所有输出帧生成平滑且时间一致的3D姿势我们提出了一个简单的修改,使同时提升和上采样的时间Transformer块。首先,我们将来自空间变换器的key帧姿势重组为时间序列然后我们将这个序列填充到目标长度Nout:=P′。为此,我们采用Transformers [29,44]的掩码令牌建模,并引入了上采样令牌uRdtemp。它是一个可学习的参数,是ini-在训练过程中进行随机化和优化 此标记充当所有非关键帧索引处的占位符。图2描绘了该间隙填充过程。填充到k的序列y={yi}的元素|i∈Sout<$SN}则定义为关节式空间Transformer第一个子网络在所有输入姿势之间共享,并单独对每个姿势进行操作它利用个体关节y=x<$i如果i∈Sin,IUELLE.(三)以形成后续子网络的强姿态表示每个输入姿势p i首先被线性映射到初始联合嵌入x iRJ×D接头。 新增后为了对每个关节的类型进行编码,我们使用K个关节空间Transformer块[58],它们对关节嵌入的序列进行操作。输出是关节感知的每姿势嵌入x′iRJ×D接头。其后压缩为1D编码xi研发温度我们参考所有作为我们的初始姿势。与[44]相反,令牌u不仅编码输入重构的文本前任务,而且编码输出空间中的上采样序列的重构。第二位置嵌入确保了,特别是,上采样令牌的每个实例都以其相对帧索引为条件。 我们将令牌序列提供给一堆K个临时的普通Transformer块。我们将第一个Transformer块中的任何注意力限制在姿势令牌上,因为初始上采样令牌不携带输入重采样。线性Strided Conv,3,rkLinear +ReLUTransformer模块MHA图层规范线性Transformer模块线性(每个关节)2907∈∈L∈ S∈SL最新信息这通过仅从姿势令牌计算自我注意力键和值[50] 来 实 现 。 输 出 y′RN 输 出 ×d 温 度在 最 后 一 个Transformer块对所有输出的提升和上采样的3D姿势进行把框架。我们使用单个线性映射来获得中间3D姿态预测P′。单帧输出的序列简化普通Transformer块的一个主要缺点是二次复杂度w.r.t.序列长度。 以全时间分辨率堆叠大量的普通Transformer块与我们的总体高效模型的目标不一致。最后,我们的模型是设计一个对称的N到1的预测方案在评估。这种操作模式通常提供优异的结果,因为对中心序列索引的预测是基于等量的过去和未来信息[58,44]。为了进一步细化专门针对中心索引t的姿态预测,没有必要将长度N的全序列表示保持在外面。因此,我们的第三个子网络逐渐减少了先前的序列表示y′,直到只剩下中心序列索引的细化输出。这允许我们添加额外的时间自我注意块,但保持整体复杂性可行。我们利用K步幅步幅Transformer块[25],其使用步幅卷积而不是简单的MLP。细节如图3所示。每个块k将序列长度减少步幅因子rk。我们选择所有的rk,使得最后一个块之后的输出z是zR1×dtemp。单个线性映射生成最终的3D姿态预测Pt∈RJ×3为中心序列指标。序列和中心监督整个architec- ture的训练有两个独立的目标。我们使用中心帧丢失中心来最小化中心目标帧t的精 细 3D 姿 态 预 测 的 根 相 对 平 均 每 关 节 位 置 误 差(MPJPE)[19]:J训练和推理我们针对固定的输出步幅sout优化我们的模型,但同时针对多个输入步幅s。因此,它支持不同的输入帧速率,具体取决于应用程序和可用硬件。在训练过程中,我们以全帧速率使用3D姿态注释,并围绕每个帧索引t生成所有可能的关键帧序列。对于推断,仅在第一视频帧处开始的关键帧姿势是可用的,并且我们在每个输出帧t_out处应用我们的模型。在s_out>1的情况下,经由双线性插值获得全帧速率下的3D姿态预测我们总是在全视频帧速率下进行评估,以进行公平比较。3.3. MOCAP预培训为了进一步释放Transformer架构在2D到3D姿态提升中的潜力在这项工作中,我们利用AMASS [35] Meta数据集。它是各种现有的运动捕捉数据集的集合,具有超过60小时的人类运动。原始运动捕获数据已经被重新定向以生成紧凑SMPL参数化中的捕获人的详细3D网格模型[32]。我们将网格减少到J关节的目标集。每个关节混合权重可以直接在数据上优化[22],也可以通过少量手工注释创建。最后,我们将三维姿态序列投影到二维空间,随机选择的虚拟摄像机。为了简单起见,我们使用来自最终目标数据集的相同相机参数所得的2D-3D姿态序列对然后可以注意,2D姿态是完美投影,因此没有误差。我们的模型将调整到2D姿态估计模型的错误情况下,在随后的微调。4. 实验我们评估我们提出的方法对两个著名的Lcenter=1mm(P-P)−(Pgt−Pgt),(4)3D HPE数据集,并将其与Jj=1t,jt,rt,jt,r2在2D到3D的艺术姿态提升。我们也进行了一系列的烧蚀实验来揭示稀疏输入的影响骨盆通常被用作指定的根部联合河此外,我们定义了MPJPE序列丢失seq对整个上采样序列的中间3D姿态预测Pi'J序列、显式上采样和大规模预训练对空间精度和推理效率的影响。关于多步幅训练、增强策略和架构组件以及定性示例的其他可以在补充材料中找到。1L序列=电子邮件(P′)−P′)−(P gt−P gt)。J·Nouti∈Sout<$SNj=1i、ji,ri、ji,r2(五)4.1. 数据集Human3.6M[19]是室内最常见的数据集这种形式的全序列监督鼓励节奏稳定的预测[25,57],这在我们的稀疏输入序列设置中特别重要。总损失是α1Lseq+α2Lcenter的加权和。3D HPE。它由11个演员组成,每个演员执行15个不同的动作。它们由四个固定的RGB相机以50Hz记录。我们遵循以前工作的标准评估协议[36,11,40,58]:五科2908∈∈联系我们表1:具有CPN [6] 2D姿势的Human3.6M的结果。我们根据方案1(MPJPE,顶部)和方案2(P-MPJPE,底部)进行评价。最好的结果用粗体表示,第二好的结果用下划线表示。(*)使用[2]中的精化模块。+PT表示关于AMASS的MoCap预培训。MPJPE(mm)↓Dir.Disc.吃迎接电话照片构成Pur.坐SitD.烟雾等WalkD。走WalkT.AvgCai等人 [2] ICCV44.647.445.648.850.859.047.243.957.961.949.746.651.337.139.448.8Pavllo等人 [40] CVPR45.246.743.345.648.155.144.644.357.365.847.144.049.032.833.946.8Xu等人 [55] CVPR37.443.542.742.746.659.741.345.152.760.245.843.147.733.737.145.6Zheng等人 [58] ICCV41.544.839.842.546.551.642.142.053.360.745.543.346.131.832.244.3Shan等人 [45] MM40.844.541.442.746.355.641.841.953.760.845.041.544.830.831.944.3Chen等人 [4] TCSVT41.443.540.142.946.651.941.742.353.960.245.441.746.031.532.744.1Li等人 [25] TMM40.343.340.242.345.652.341.840.555.960.644.243.044.230.030.243.7Hu等人 [16] MM38.043.339.139.445.853.641.441.455.561.944.641.944.531.629.443.4Li等人 [26] CVPR39.243.140.140.944.951.240.641.353.560.343.741.143.829.830.643.0Shan等人 [44] arXiv38.442.139.840.245.248.940.438.353.857.343.941.642.229.329.342.1Zhang等人 [57] CVPR37.640.937.339.742.349.940.139.851.755.042.139.841.027.927.940.9我们的(N= 351),sin=s out= 541.845.541.844.248.454.243.743.158.966.346.143.746.030.931.245.7我们的(N= 351),sin=s out= 5(*)39.643.840.242.446.553.942.342.555.762.345.143.044.730.130.844.2我们的(N= 351),sin=s out= 5,+PT40.642.738.541.145.248.741.541.053.361.343.341.042.330.029.042.6我们的(N= 351),sin=s out= 5,+PT(*)38.641.037.639.744.247.940.939.851.760.343.141.141.628.429.241.7我们的(N= 351),sin= 20,s out= 545.447.943.447.249.655.946.445.459.966.747.545.549.833.033.847.8我们的(N= 351),sin= 20,s out=5,+PT44.545.140.344.646.350.744.443.754.662.344.943.147.032.331.945.0P-MPJPE(mm)↓Dir.Disc.吃迎接电话照片构成Pur.坐SitD.烟雾等WalkD。走WalkT.AvgCai等人 [2] ICCV35.737.836.940.739.645.237.434.546.950.140.536.141.029.633.239.0Pavllo等人 [40] CVPR34.136.134.437.236.442.234.433.645.052.537.433.837.825.627.336.5Xu等人 [55] CVPR31.034.834.734.436.243.931.633.542.349.037.133.039.126.931.936.2Chen等人 [4] TCSVT33.135.333.435.936.141.732.833.342.649.437.032.736.525.527.935.6Li等人 [25] TMM32.735.532.535.435.941.633.031.945.150.136.333.535.123.925.035.2Li等人 [26] CVPR31.534.932.833.635.339.632.032.243.548.736.432.634.323.925.134.4Shan等人 [45] MM32.536.233.235.335.642.132.631.942.647.936.632.134.824.225.835.0Zheng等人 [58] ICCV32.534.832.634.635.339.532.132.042.848.534.832.435.324.526.034.6Shan等人 [44] arXiv31.335.232.933.935.439.332.531.544.648.236.332.934.423.823.934.4Hu等人 [16] MM29.834.431.931.535.140.030.330.842.649.035.931.835.025.723.633.8Zhang等人 [57] CVPR30.833.130.331.833.139.131.130.542.544.534.030.832.722.122.932.6我们的(N= 351),sin=s out= 5(*)32.736.133.436.036.142.033.333.145.450.737.034.135.924.425.435.7我们的(N= 351),sin=s out= 5,+PT(*)31.633.731.833.334.738.732.231.241.948.935.532.633.723.424.033.8我们的(N= 351),sin= 20,s out= 537.638.936.039.438.244.136.435.248.352.938.635.839.626.827.538.4我们的(N= 351),sin= 20,s out=5,+PT36.436.533.037.136.440.134.834.345.050.136.934.237.926.525.836.3(S1、S5、S6、S7、S8)用于训练,同时对两个对象(S9、S11)进行评价。我们在训练和评估期间使用来自微调CPN [6]的2D姿势。MPI-INF-3DHP[37]是一个更小但更复杂的数据集,适用于单人3D HPE,运动、视角和环境更加多样。训练数据由八个演员组成,他们在一个有14个RGB摄像机的绿幕工作室中执行各种动作。评估数据由来自单个摄像机的六个演员的室内和室外记录组成。我们以25Hz的通用帧速率对所有记录进行采样。由于一些测试集视频的频率为50Hz,因此我们对估计的3D姿势使用额外的双线性上采样来评估全帧速率。我们在所有实验中使用地面真实2D姿势,以便与现有工作进行最佳比较。我们使用MPJPE度量[19](公式4)评估Human3.6M的结果。我们还报告了N-MPJPE [43]和P-MPJPE [36],即鳞片或前突对齐后的MPJPEMPJPE评估而P-MPJPE通常分别被称为协议1和2。对于MPI-INF-3DHP,我们报告了MPJPE、最大错位150 mm时的正确关键点百分比(PCK)以及阈值范围为5-150 mm的曲线下面积(AUC)[37]。4.2. 实现细节我们用Kjoint=4、Ktemp=4和Kstrided=3个Transformer块实 例 化 我 们 的 架 构 , 内 部 表 示 大 小 为 djoint=32 和dtemp=348。空间和时间Transformer使用随机深度[17],下降率为0。1.一、我们评估N的时间感受野81,351 对于N=351,我们使用sout=5并在[5,10,20]中对可变输入步幅s进行训练。对于N=81,我们使用sout=2和sin[4,10,20]。为了获得最佳效果,我们使用[2]中的3D姿态细化模块扩展了我们的架构。它使用摄像机内函数进行重投影,以改善某些3D姿态估计的方向我们的模型使用AdamW [33]训练了120个epoch,批量大小为512。在训练和评估过程中,我们采用标准的数据增强和输入姿势的水平翻转2909∼表2:关于地面实况2D姿态的MPI-INF-3DHP结果。表3:在N=81和不同输入步幅s的情况下,Human3.6M的结果。显示了关键帧上的姿势以及50Hz下的所有帧的结果MPJPE/N-MPJPE/P-MPJPE关键帧中的方法所有帧跨式Transformer [25][58]第58话我们的,sout=s in我们的,sout= 249.3/47.7/38.747.7 1996年12月31日47.6/46.0/37.347.6/46.0/37.349.4 / 47.8 /38.747.7 1996年12月31日47.7/ 46.0 /37.447.4/45.8/37.1第具体来说,我们使用批内增强,其中每个小批的后半部分是前半部分的翻转增强版本。我们使用4 e −5的初始学习率,以0为指数衰减。99次。的相同的时间表适用于4e-6的初始重量衰减。损失权重固定为α1=α2=0。五、所有的实验都是在一个NVIDIA A100 GPU上进行的4.3. 结果我们比较我们的方法对最近的工作和当前的国家的最先进的。注意,所有比较结果均使用全帧速率下的2D姿势。表1显示了Human3.6M的结果。我们首先使用sin=5的关键帧步幅和无内部上采样(sin=sout)来评估我们的架构。全速率3D姿态通过双耳上采样获得。从基础MPJPE 45开始。7 mm,ad-tumor reprojection细化将空间精度提高到44。我们可以看到,我们的架构可以产生竞争力的结果,尽管需要少5倍的输入姿势。当添加MoCap预训练(+PT)时,我们可以进一步将结果提高2-由于我们在这个实验中使用了额外的数据,我们并不声称我们的架构比现有的架构更好。它简单地揭示了预训练可以容易地补偿输入姿态的降低速率。为了进一步降低2D姿态的输入速率以获得更大的效率增益,我们利用了我们的联合提升和上采样机制。在输入步幅sin=20的情况下,我们实现了47的基本MPJPE。8毫米。减少- ING 2D构成只有2。因此,5Hz导致增加MPJPE中的2mm。但同样,通过额外的预训练,我们可以在很大程度上减少这种负面影响,并获得具有竞争力的结果。0mm MPJPE。与此同时,我们在昂贵但需要的2D姿态估计方面的效率提高了20倍,并且只需要五分之一的向上的模型向前传递。表2显示了我们在MPI-INF-3DHP上的结果。我们的方法在这方面更接近于最先进的方法,挑战数据集在sin=10的设置和25 Hz的记录下,我们再次只需要在2处输入姿势。5赫兹。尽管复杂性大大降低, 但我们 能够实现 目前第 三好的PCK,AUC 和MPJPE,95。四,六十七。6和46。9毫米,分别。这证实了我们的方法的竞争力,尽管稀疏输入姿态序列的约束。额外的MoCap预训练导致2. 4(AUC)和五、7毫米(MPJPE)。因此,独立于目标数据集,附加的预训练可以可靠地提高来自稀疏2D姿态的3D姿态估计的空间精度。4.4. 消融研究我们还探索了稀疏输入序列和MoCap预训练如何在这里,我们使用N=81的较小感受野,并且没有细化模块[2]。为了更容易消融,我们调整了我们模型的训练配方以及[58,25]中比较方法的原始配方,通过一小部分常见变化:我们采用256的批量大小,并在没有提前停止的情况下对报告的全部epoch进行训练。我们还使用模型权重的指数移动平均值[47]来减少评估结果的波动。稀疏输入序列表3显示了在中具有不同输入步幅的Hu-man3.6M 上 的 结 果 。 对 于 Pose Former [58] 和 StridedTransformer [25],其中sout=sin,我们在广告关键帧处的输出姿势之间采用双线性插值以获得全速率3D姿势。我们使用双线性(sout=sin)和学习(sout)来 =2)上采样。 在中等输入步幅下, sin=4,我们没有观察到预测质量的差异,跨式Transformer [25]Pose Former[58]Ours,sout=sinOurs,sout= 2跨式Transformer [25]Pose Former[58]Ours,102051.452.0 / 50.0 /40.848.8 49.3/ 47.4 /38.548.1 / 46.3 /37.647.9/46.1/37.454.4秘书长的报告48.652.0 / 50.6 /41.451.6 / 49.6 /40.849.9/48.1/39.2↓方法PCK↑AUC↑MPJPEPavllo等人 [40] CVPR86.051.984.0Chen等人 [4] TCSVT87.954.078.8Zheng等人 [58] ICCV88.656.477.1Wang等人 [53] ECCV86.962.168.1Li等人 [26] CVPR93.863.358.0Zhang等人 [57] CVPR94.466.554.9Hu等人 [16] MM97.969.542.5Shan等人 [44] arXiv97.975.832.2我们的(N= 81),sin= 10,s out= 295.467.646.9我们的(N= 81),sin= 10,s out=2,+PT+1.7+2.4-5.72910××表4:与Human3.6M上的最佳MPJPE相比的计算复杂度FLOPs被报告为一个单一的正向通过的上升模型。我们还报告了NVIDIA 1080Ti上50Hz视频帧速率的每秒姿势(PPS)方法#参数FLOPs↓PPS(w/o CPN)↑ PPS(w/CPN)↑ MPJPE(mm)↓跨式Transformer [25](N= 351)2142名男性2083243.7姿势成形器[58](N= 81)1358名男性2483344.3我们的(N= 81),sin= 10,s out= 2,+PT543名男性33417945.5我们的(N= 351),sin= 20,s out=5,+PT10.39百万966百万82739945.0表5:在具有和不具有AMASS上的预训练(PT)的情况下,N=81的方法#参数MPJPE /N-MPJP不含PTE / P-MPJPE↓W/PT跨式Transformer [25]4.06个月48.1 1996年至1997年期间,47.7 1999年1月至1999年12月[58]第五十八话9.60米47.4/ 46.0 /37.446.0 44.5 /36.1我们的sin=s out= 210.36个月47.545.4/36.845.7/44.2/35.8在所有三种架构的全帧速率姿态和关键帧姿态随着输入步幅的增加,步幅变换器的关键帧和全帧性能都明显下降结果表明,该结构只适用于长而密集的输入序列。Pose Former显示更稳定的关键帧结果,但全帧速率预测越来越多地受到双线性插值的影响。我们的架构,作为一个更深层次的结合,前两者,实现了较低的空间精度损失的关键帧与增加输入步幅。这一优势延续到全帧速率结果,但纯双线性插值仍然是高输入步幅(sin=20)的限制因素。最后,我们显式的基于Transformer的上采样导致关键帧和所有指标上的全帧性能之间的差距明显较小。它更适合于稀疏输入序列上的时间一致的全帧速率3D HPE。同时,我们有一个灵活的模型,支持不同的2D姿势输入速率。现有的方法,包括- ING姿态形成器和跨步Transformer,需要一个单独的模型为每个输入速率。MoCap预训练表5描绘了在AMASS上进行和不进行MoCap预训练的情况下,在Hu-man 3.6M上的结果。在这个实验中,我们假设密集的输入序列。我们比较了预训练对不同的基于transformer的架构的直接影响。我们观察到,所有三个令人振奋的Transformer架构都可以通过额外的预训练来改进目标数据集。跨接式Transformer的网络容量要低得多,仅显示出边际增益。与Pose F
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功