没有合适的资源?快使用搜索试试~ 我知道了~
2956使用几何感知自动编码器从数十个数据集中学习3D人体姿势估计以在骨架模型Istva′ nSa′ra′ ndi Ale xanderHermansBastianLeibeRWTH Aachen University,Germany{sarandi,hermans,leibe} @ vision.rwth-aachen.de摘要基于深度学习的3D人体姿态估计在大量标记数据上训练时表现最佳,使得从许多数据集进行组合学习成为重要的研究方向。这种努力的一个障碍是由不同数据集提供的不同骨架格式它们并不标记同一组解剖学标志。关于如何最好地监督具有这种差异标签的模型的先前研究很少。我们表明,简单地使用不同的骨骼的不同输出头的结果不一致的深度估计和不充分的信息共享的骨骼。作为一种补救措施,我们提出了一种新的仿射组合自动编码器(ACAE)的方法来进行降维的地标的数量发现的潜在3D点捕获骨架之间的冗余,从而在用于一致性正则化时增强信息共享。我们的方法可以扩展到极端的多数据集制度,其中我们使用28个3D人体姿势数据集来监督一个模型,该模型在一系列基准测试中表现出色,包括具有挑战性的3D Posesin the Wild(3DPW)数据集。我们的代码和模型可用于研究目的。11. 介绍近年来,3D人体姿态估计的研究已经取得了巨大的进展[12,17,37,39,43、46、57、69]。虽然半监督和自监督方法正在兴起[41,79],但当使用尽可能多的标记训练数据时仍然可以获得最佳结果。然而,个体3D姿势数据集往往相当小并且缺乏多样性,因为它们通常在具有很少主题的单个工作室中记录。因此,为了提供用于下游应用的最佳可能模型(例如,动作识别、运动分析、医疗可重构性、协作机器人技术),在训练过程中使用许多数据集变得重要。由于研究界的持续努力,许多公开的重新-1https://vision.rwth-aachen.de/wacv23sarandiCMU-PanopticHuman3.6M 3DPW(SMPL)BMLMoVi伯克利MHAD三维潜点图1:不同的三维人体姿势数据集(例如,CMU-Panoptic和Human3.6M)为不同的身体标志集(左)提供注释。为了最好地利用这种差异标签进行多数据集3D姿态估计,我们发现了一组较小的潜在3D关键点(右),可以从中重建特定于数据集的点这使我们能够捕获不同骨架格式之间的冗余,并增强数据集之间的信息共享,最终提高姿势精度。存在租用的标记数据集。然而,由于之前发表的作品只在其中的少数几个上进行训练,因此仍然不知道通过将十多年的数据集收集工作组合到一个模型中可以实现什么性能。不幸的是,这不是一个微不足道的任务,因为不同的数据集不使用相同的骨架格式为他们的标签(见图。1),例如,髋部关键点处于不同的高度,一些身体部位仅在一些数据集中被标记,一些提供表面标记,而其他提供身体内部的关键点,等等。以前的工作已经纠正了这种2957∼(a) 单独的骨架预测(b)使用我们提出的ACAE正则化前视图右侧视图前视图右侧视图图2:我们训练模型,根据多种不同的骨架格式联合估计3D人体姿势,这样我们就可以一次在多个数据集上训练。a)简单地在共享的主干上使用单独的预测头并不足以解决这个多骨架学习问题,因为我们沿着深度轴获得不一致的输出。b)我们提出了一种使用新的基于仿射组合自编码器(ACAE)的正则化来捕获和利用不同骨架之间的冗余的这导致骨架一致性的明显改善。通过少数单独定义的规则来区分差异(例如,将臀部-骨盆距离缩小一定的系数[65]),但这并不能扩展到许多关键点和数据集-我们需要一种更系统和自动的因此,我们在这项工作中处理的问题是:在标签差异的情况下,我们如何将数十个3D姿势数据集自动合并到一个训练过程中?我们将此任务称为多骨架3D人体姿态估计。2如果我们完全忽略这些差异,并继续进行,就好像具有相同名称的关键点表示相同的身体标志,则模型将使用不一致标记的示例进行监督,并将学习输出骨架格式,该格式是真实格式的某种平均值,从而导致低于标准的基准性能。或者,我们可以将其视为多任务学习问题,并预测共享主干上的单独输出头上的骨架,而不假设任何骨架对应性。但正如我们将看到的,这也不是理想的,因为骨架之间没有足够的信息共享,这在这种模型的深度预测之间的不一致性中最为明显凌晨2为了在这两个极端之间取得平衡,我们的目标是在骨架格式之间建立一些为了学习骨架之间的这种几何关系,我们引入了一种新的基于自动编码器的降维技术,将更大的3D关键点集(来自所有数据集的关节)压缩成更低基数的表示(更小的潜在关键点集)。编码器和解码器计算其输入点的仿射组合,因此2为了简单起见,我们将特定数据集中提供的任何地标集合称为与旋转和平移等变。我们通过权重共享进一步诱导手性等变性(左右对称性)我们称这个模型为仿射组合自动编码器(ACAE)。我们在姿态估计训练中采用ACAE作为输出正则化器,以鼓励一致的预测。这提高了预测结果的质量和数量。作为规则化方法的替代方案,我们还可以利用3D姿态估计器直接预测ACAE后一种变型避免了底层姿态估计器估计大量关节的需要,这对于一些方法来说可能是昂贵的在这两种情况下,最终的预测变得一致,显示了我们的方法在处理多数据集3D姿态估计方面的价值。通过广泛的文献综述,我们已经确定了28个具有高质量3D人体姿势标签的数据集通过系统地预处理这些数据集并丢弃冗余姿势,我们构建了一个包含1300万个示例的元数据集,涵盖了超过1000人。这几乎是两个数量级以上的数据比典型的研究论文(例如,Human3.6M在冗余过滤之后具有165k个示例)。我们表明,使用更多的数据确实有帮助,我们的方法可扩展到28个数据集,提供总共555个关节的骨架格式,汇总在Tab中。1.我们的最终模型显示出出色的野外性能,优于目前可用的模型,使它们对下游研究非常有用。综上所述,本文主要做了以下几点贡献。(1)我们组装了迄今为止最大规模的3D人体姿态估计元数据集,由28个独立的数据集组成,并发布了再现过程的脚本。我们要特别注意的问题是,2958>♣♡♣♡♣♡♡♣♡♡♡♡♡♣♡♣♡♣♡>♣25岁以下儿童H3.6M超现实主义[73][64]第六十四话1.9M946k2924 ♢ ♣♡SMPL[48]*JTA [16]HSPACE[4]562k195k3522 ♣♡[76]第七十六话规格[40]59k24 ♡SMPL带有2D注释的真实图像(弱监督)小型(3个数据集)中等(14个数据集)2.8M 1310.8M 900 27777 ♢♢ ♣♡[第28话]Agora [61]101k79k6626 ♣♡*SMPL[-X]总计(28 ds.)13.4M> 1k 555 ♡表1:我们研究了3D人体姿势估计的极端多数据集设置,在一个训练过程中使用以下所有数据集。我们定义了三种数据集组合(由、和指示)来研究训练数据量的影响。(* 标记特定于自定义磁盘集的骨架。)2. 相关工作三维人体姿态估计。关于3D姿态估计器设计的当前趋势的概述,我们请读者参考当前的优秀调查[11,15,34,47,79]。我们强调,我们的方法是独立的内部的姿态估计方法。数据集名称骨架使用无标记MoCap的28双头3DHP19小甜甜COCO28双头3DHP43岁SMPL,COCO<[35]第35届中国国际航空航天博览会处理骨架图中的不一致性。在2D到3D的姿势提升中,Rapczy n'skietal. [65]通过连接训练数据集来组合训练中的数据集对在2D姿态跟踪中,Guoet al. [24]训练特定于以太网的输出头,并通过手工规则组合它们的结果。为了统一姿势表示,对(图像无关的)MoCap数据的一些先前工作标准化了骨架的高度和AMASS数据集[51]通过将MoCap数据表示映射到SMPL [48]表示来解决MoCap数据表示中的差异问题,但数据集没有提供相应的impressions。87天 *15分钟 *34小时 *25小时3.6M15分钟 *COCO [45]47k17MPII [2]27k16电子邮件:info@posetrack.com40k15JRDB [54]59k17总计(对于3D标记数据)这些数据集中的单独的骨架注释格式,到目前为止,这在文献中很少得到解决(3)提出了仿射组合自编码器(ACAE),这是一种新的线性降维技术,适用于基于关键点的表示,如姿态。(4)我们应用ACAE规则化模型预测变得更加一致,导致定性和定量的改进,我们表明,潜在的点可以直接预测。(5)我们发布高质量的3D姿态估计模型,由于不同的监督和我们的规则化将不同的骨架格式捆绑在一起,因此具有出色和一致的野外性能。年龄,不能用于基于图像的姿态估计。此外,底层MoSH++算法依赖于复杂的多阶段程序,需要时间序列数据和预先存在的人体网格模型。相比之下,我们的方法有不同的目标,并且相比之下简单得多我们的目标不是为所有数据集生成确定的、通用的地面实况表示,而是我们的潜在关键点集仅用作姿态估计器的中间表示,但是在将潜在点解码为完整骨架之后,仍然以原始骨架格式计算关键点发现。发现一组好的地标来描述对象已经在计算机视觉的其他上下文中进行了研究。2D关键点发现已用于在2D人体姿态估计中解开姿态和形状[31,32]。在3D中,Jakabet al.[33]发现控制点变形的三维形状。Rhodin等人[66]学习由一组3D点组成的3D人类表示,这些点对姿势和外观进行编码,优化新视图合成的非监督辅助任务Loper等人[49]优化身体上稀疏标记的位置,以最好地捕捉人体形状和姿势。线性子空间学习线性降维有着悠久的历史,主成分分析是最著名的代表[63]。它与自动编码器的关系由Bourlard和Kamp [8]发现,同一第一作者最近的一篇论文回顾了自[7]以来的发展。线性自动编码器已用于鲁棒和稀疏[23]变体,详细概述见[14]。我们提出的仿射组合自动编码器是相关的,但具有不同的约束,适合我们的用例,即,权重之和为1,并且不需要正交性,这与PCA不同。[56]第五十六话677k8[36]第三十六话2.81M6019 COCO[42,72]第二季1.86M30[第78话]1.26M77219 COCOMPI-INF-3DHP627k8[29]第二十九话96k15[62]第六十二话Behavior [6]42k7ASPset [58]124k1517 *3DOH50K [80]50k宜家家居[5]23k4817 *真实图像人类3.6M [9,30]带有标记的165k 5Sed MoCap[第71话]130k521 *[21]第二十一话553k13[60]第六十话526k1243岁 *UPPM [1]164k30[20]第二十话147k825 H3.6MGPA [75]109k13人类SC3D [19]72k425 H3.6MCHI3D [18]46k6[10]第十话40k432岁 *MADS [81]33k5合成图像2959最终输出L孔3D姿态估计器文WdecL冷冻构成步骤3:微调模型以保持一致性。图像LDDL = L + L + LLk=1L∈×<其中,D=每个接头,共计J=∑=JK关于我们(.(c)S3D姿态估计器左肩H36M右肩H36M左肩3DHPL姿势图3:我们完整的培训工作流程。我们在多个数据集的所有骨架上训练初始模型,而不强制一致性。使用这个模型,我们创建了伪地面实况,需要训练一个学习潜在关键点空间的自动编码器。反过来,我们使用这个冻结的自动编码器在微调过程中正则化初始模型,鼓励一致的预测。3. 方法我们的目标是通过将大量数据集集成到一个混合训练过程中,即使不同的数据集根据不同的骨架格式提供注释,也可以获得一个强大的,基于单目RGB的3D人体姿态估计模型。假设我们有D骨架格式,Dd11d整体关节此外,我们有一个合并的数据集,N训练示例,每个训练示例由人的图像和用于3D中的J个身体关节的子集的注释我们提出的工作流程包括三个主要步骤。首先,我们训练了一个初始模型,该模型预测不同预测头上的不同骨架,从一个公共骨干网络分支出来(图2)。(见第3a段)。使用所得到的模型,我们可以运行推理并产生在每个骨架模型中给出的许多姿势的伪地面真实“par-truth语料库”。由此,可以捕获骨架格式之间的几何关系。我们在第二步中通过训练不完全几何感知自动编码器来实现这一点,该自动编码器发现了最佳地捕获伪GT数据中的人类姿势变化的潜在3D身体界标集(图2)。第3b段)。最后,配备了经过训练的自动编码器,我们依靠其学习的潜在空间,通过输出规则化使模型输出在骨架格式上保持一致(图1)。第3c段)。我们还尝试了直接潜在点预测,以及最后一步的混合变体。3.1. 初始模型培训我们的工作流程的第一步是训练初始姿态估计器以分别预测所有J关节(图1)。(见第3a段)。这意味着不同骨架之间没有对应或关系,即,而不指定或强制一个骨架的左肩关节应该被预测为靠近另一骨架的左肩。这类似于在一个主干上使用不同任务特定头我们最小化的姿势损失是构成曼雷尔λprojprojλabsABS在哪里Meanrel是一个将预测与地面对齐后计算的101损失真理的意思,proj是2D坐标上的201在投影到图像上之后,ABS是绝对姿态(在相机坐标中)上的100%损失由于每个训练示例仅使用J关节的子集进行注释,因此在平均损失时,我们忽略任何未标记的关节。当可视化这个训练模型的不同骨架输出时,我们看到它们之间沿着具有挑战性的深度轴不一致(见图1)。2)的情况。这是可以理解的,因为我们没有采用任何训练机制来确保输出子之间的任何关系(除了它们是从共享的主干特征预测的)。另一方面,当投影到图像平面上时,预测看起来足够一致。3.2. 伪地面真值生成为了表征不同骨架的关节如何相互关联,我们需要根据相同示例的所有骨架格式的姿势标签,以用作“罗塞塔石碑”。由于没有这样的地面实况可用(数据集只提供一种类型的骨架,很少有两种),我们使用初始的分离头模型生成伪地面实况。在这一步中,使用模型能够很好处理的图像是很重要的,因此我们选择了一个相对干净、无杂波的训练数据子集(H36M和MoVi)。这产生了一组K个伪地面真实姿态,所有J个关节:PkRJ×3。3.3. 仿射组合自动编码器为了捕捉J关节之间的冗余,并最终提高估计它们的一致性,我们引入了一个简单但有效的由于伪GT在2D(X轴和Y轴)中比在深度维度中更可靠,因此到潜在表示的变换和来自潜在表示的变换应该是视点无关的,换句话说,表示应该与旋转和平移等变。这种等变性反过来要求潜在的表示是几何的,即。由L个潜在3D点的列表组成QkRL3(L J).这具有直观的意义:不同骨架之间的联系方式L重建文WdecL稀疏L稀疏b)步骤2:训练自动编码器图像⋮(a)步骤1:训练初始模型。2960∈(⋅)q=∑wp,lj∑w= 1, ∑l = 1,. . . ,L.(一)==p=∑wq,jl=∑w= 1, ∑j = 1,. . . ,J.(二)=W=0⎥k=1∈∈=-l,jj,l稀疏Wenc1⎤⎥W12月1日∈k=1项目1KKk=1关节是如何在人体上定义的,而不是在相机角度上然后,潜在点负责跨越姿势的整体结构。然后可以计算与这些潜伏期相关的特定骨架格式。此外,潜在点应该只对关节有稀疏的影响,一些潜在点应该负责左臂的定位,并且这些潜在点应该对右腿我们发现,这些要求可以有效地满足通过采用一种新的约束不完全线性自编码器的结构,我们称之为仿射组合自编码器(ACAE)。ACAE的编码器不是对一般的nλsparse控制稀疏正则化的强度。和一(单位分割)约束确保权重表示仿射组合,这对于平移等方差是必要的。2D投影的重建损失。如上所述,伪GT在其2D投影中比沿着深度轴更可靠。因此,我们通过定义2D投影上的重建损失来调整上述一般问题公式以考虑这一点:Lreconstr=K∑(Pk)−(WdecWencPk)1,(4)J通过根据下式计算仿射组合,其中,X表示相机投影。我们在这里的关键见解是,JENCl,jJ1JENCl,jJ1该模型输出的高质量2D图像平面投影,类似地,解码器视图独立于视点。 作为简化的示例,如果我们在许多姿势上观察到,某个关节倾向于在2D中处于另外两个关节之间,那么这将LDecj,lL1LDecj,lL1也必须沿着深度轴保持。Chirality Equivariance。 因为人类有两种对称性,由于仿射组合是等变的任何仿射变换,我们的编码器和解码器是保证旋转和平移等变。(Note对于X、Y和Z坐标使用相同的权重。)ACAE的可学习参数是仿射组合权重wenc和wdec,其也可以被理解为潜在w.r.t.整个关节组,反之亦然。允许负坐标是必要的,因为度量,自然期望自动编码器是手性等变的,即,以同样的方式处理左侧和右侧[77]。 为此,我们将潜在关键点划分为三个不相交的集合:左、右和中央潜伏区,遵循与全关节组相同的比例。在不失一般性的情况下,假设点被排序并分组为左侧块、右侧块和中心块。然后,我们对编码器和解码器权重矩阵两者施加以下权重共享块结构这允许潜伏物从身体向外扩散类似于图形中使用的笼子[59]。将编码器和解码器限制为凸组合将严重限制其表现力。为了实现权重的稀疏(即,空间局部化影响),我们使用E1正则化,美国W1⎣W3.(五)⎥⎦并且这也减少了负权重的数量,优选接近凸的组合。我们还采用了101重建损失,因为它对由于伪GT中的噪声而可能存在的离群值是鲁棒的。问题陈述。现在我们可以用矩阵表示权值来正式说明我们提出的ACAE问题.给定具有J个关节的K个训练姿势{Pk∈RJ×3},这种结构确实确保了手征等变性,因为如果我们通过交换前两个部分来置换矩阵的行和列,交换输入和输出中的左右点。头部关键点权重。基于头部和面部关键点的较小运动可能在语义上更相关的直觉,我们对这些关节进行更高的加权(通过尽量减少WencRL×J,W decRJ×L Lreconstr+λsparse系数10)的损失,确保潜在的充分覆盖头部以及。(我们后来发现,这不是1K严格必要的,该方法也没有这个工作Lreconstr=K∑Pk−WdecWencPk1L= 0.01 + 0.01(三)也是如此。)训练 我们使用Adam opti训练自动编码器-[38]第38话,一个人的命运为了执行和对一S. t. Wenc1J1L,Wdec1L1J,其中1a是维度a的向量,填充1,W2W2W1W3W4W4W52961约束,我们在计算图内归一化权重矩阵。2962L姿势3D姿态估计器L孔我教图像∈×LL =−×LL = −()(a) 直接预测潜在关键点。L姿势L姿势最终输出L姿势4. 实验装置基础模型。我们采用最新的最先进的Me-TRAbs [67]3D人体姿势估计器作为我们实验的平台,但我们注意到我们的方法对底层姿势估计器的细节是不可知的。除非另有说明,否则主干是EfficientNetV 2-S [70]。培训详情。我们使用AdamW [50]和批量大小128执行40万个训练步骤,每个数据集都用每个批次固定数量的示例表示。批次组成和学习率时间表在补充中规定。我们使用大小为16的ghost BatchNorm [25,68]最后的微调阶段(b) 图的混合。3c和4a,进一步的学生和教师的损失。图4:微调阶段的替代模型结构,将用于代替图4。3C在我们的培训工作流程中。3.4. 一致性微调一旦我们的仿射组合自动编码器在伪地面实况上训练,我们就冻结其权重并使用它来增强3D姿态估计输出的一致性,并使用三种替代方法之一。输出正则化。在这种情况下(图)。3c),我们估计所有J个 关节PRJ3与潜在的姿态估计r,但是我们通过自动编码器馈送此输出,并应用一个额外的损失项,该损失项通过1/2损失来测量预测与潜在空间的一致性,如缺 点PWdecWencP1.(六)这鼓励单独预测的骨架可以被投影到潜在关键点并返回而没有信息损失,从而阻止它们之间的不一致。姿势丢失姿势(c.f. 秒3.1)应用于P。直接潜在预测。为了避免在基本姿态估计器中预测大量的J具有40k次迭代,并且在骨干上的学习速率比头上的学习速率小。自动编码器权重在使用EffV 2-L获得的伪GT上训练。我们在人物周围裁剪一个256 256 px的正方形,使用相机内部函数应用透视解失真,并执行增强,如[67]所示数据集。见table 1,以获得所有使用的数据集的概述,这些数据集采用各种骨架格式。在某些情况下,例 如 , 当 通 过 三 角 测 量 COCO 类 预 测 ( 例 如 ,OpenPose ) , 或 者 通 过 拟 合 身 体 模 型 ( 例 如 ,SMPL),我们可以假设多个数据集使用相同的约定(在最后一列中指出)。对于其他数据集,我们假设骨架是自定义的,总共产生555个不同的关键点。由于大多数3D人体数据集包含视频,而不是孤立的图像,因此充分不同的姿势的数量小于注释帧的总数。因此,我们放弃了所有关节保持在最后存储的示例的100mm内的示例。我们的整体处理确保每个训练示例都有一个以人为中心的图像裁剪,相机内在函数,一些关节子集的3D坐标,边界框和分割掩码。评估指标。我们评估四个数据集:找到一种交替的方法,其中潜在的Q∈RL×3[56],3DPW [53],3DHP [55]和H36M [9,30]。直接预测,然后馈送到冻结解码器(图1)。(见第4a段)。最后一层从头开始重新初始化,因为预测关节的数量从J变为L。姿态损失姿势应用于Wde cQ。混合学生教师。在上述两种变体的混合中,我们保留完整的预测头部并添加一个新初始化的头部以直接预测潜伏期Q。第4b段)。为了将完全预测头部的知识提取到潜在头部,我们添加了一个类似于学生-教师的101损失教Q停止坡度Wen cP1、(七)其仅被反向传播到潜在预测器(学生)。在推理过程中,我们使用WdecQ作为输出,与直接潜在预测一样轻量级。多年来,不同的评估指标和协议已成为不同数据集的惯例,其细节可能非常《双城之战》。特别是在多数据集的情况下,我们发现使用一致的度量很重要。因此,对于我们的主要实验,我们在所有地方都采用以下四个指标:MPJPE:在根关节处对齐后,预测关节和地面真实关节之间的平均欧几里得距离。PMPJPE:Pro-crustes比对后的平均欧氏距离PCK@100 mm:根部对齐后,在地面实际值100 mm范围内预测的接头百分比。CPS@200mm:根部对齐后所有关节在地面真实值200 mm距离内的姿势百分比[74]。有关实验装置的更多详细信息,请参见补充资料。3D姿态估计器图像2963EffNetV2-L EffNetV2-S↓ ↓ ↑ ↑ ↓ ↓ ↑ ↑ ↓ ↓ ↑ ↑ ↓ ↓ ↑↑全(重)84.6 59.0 70.1 66.061.8 43.4 83.8 71.1 59.6 44.1 86.6 81.844.7 34.3 94.390.1小型(中型)88.4 61.3 67.3 59.9 81.0 54.5 72.9 35.8 64.8 45.9 83.7 78.942.133.894.690.3表2:当训练分离头模型时,使用不同数量的数据集的结果。选项卡. 1定义哪些数据集属于哪个组合大小。使用更多的数据集可以改善3DPW、3DHP和MuPoTS基准测试的结果在Human3.6M上,小数据集组合给出了更好的结果,但这个工作室基准测试不太适合研究真实世界的泛化能力,而不是像3DPW和MuPoTS这样的野外和户外基准测试。MuPoTS-3D 3DPW MPI-INF-3DHP Human3.6MMPJPEPCK 100CPS 200MPJPEPCK 100CPS 200MPJPEPCK 100CPS 200MPJPEPCK 100CPS 200单一数据集91.3 62.9 65.3 53.5中型(中型)86.1 59.4 69.0 67.964.3 45.6 82.5 70.0 61.7 44.6 85.6 80.2 43.2 34.5 94.3 90.3表3:在训练期间处理不同骨架注释格式的不同策略的评估91.967.363.2 69.9 72.548.379.5 69.7 69.851.680.779.4分离接头(F.3a)84.659.070.1 66.0 61.843.483.8 71.1 59.644.186.681.8 44.734.394.390.1一致性调节(F.第3c条) 81.857.872.5 72.9 61.543.084.0 71.9 59.243.6 86.6 82.745.233.394.490.1潜在威胁(F. 4a)83.058.971.4 71.243.684.071.7 60.2 44.7 86.1 80.234.493.9八十九点五杂种(F.4b)82.758.571.6 72.1 61.843.384.071.8 60.444.885.9 80.9 46.134.294.1八十九点四分离接头82.957.771.0 70.9 60.942.184.4 73.4 59.142.288.085.341.632.095.192.1一致性调节81.057.472.8 74.8 60.641.784.7 74.3 57.941.8 88.2 84.740.630.795.7九十二点六混合型81.357.972.4 73.942.084.674.359.242.887.2 84.3 41.831.495.6九十二点六5. 结果5.1. 在多个数据集上进行训练的好处由于我们的论文的一个贡献是研究大规模多数据集训练机制,一个重要的问题是这是否会带来改进,或者性能是否会在几个大规模数据集上饱和。作为一个简单的基线,我们在单个数据集上训练模型(WithMuPoTS,我们使用MuCo-3DHP进行训练)。然后,我们在三个数据集组合上进行训练,如Tab中所示。2.当使用更多数据集进行训练时,有一个明显的趋势表明性能提高,并且小数据集组合也优于单数据集基线。我们注意到H36M分数有时会受到额外数据的影响。H36M在训练和评估分割中使用相同的工作室环境,因此当大部分训练批次都充满H36M示例时,模型工作得更好,允许它专门处理来自这个房间的图像,但这并不反映真正的泛化能力。在大型数据集组合上训练的模型在所有方面都取得了非常好的成绩,这证实了使用许多数据集会产生影响。尽管基准得分很好 ,但我们 定性地观察 到(图11)。2)不同的骨架输出在它们之间仍然可能是不一致的。5.2. 一致性多骨架预测用于实现一致预测的第一个朴素基线是合并来自不同骨架的关节(例如,我们只预测一个从555到163这会导致比单独预测所有关节更弱的结果(请参见表1)。3),因为具有相似名称的关节可能表示稍微不同的关键点。H36M再次是一个离群值,因为合并关节的预测效果良好。由于该模型可以很容易地识别出测试图像来自H36M工作室,因此它可以调整其预测以匹配H36M骨架。这是不可能的,3DPW,因为模型不能提前知道什么骨架格式将用于这些图像的参考姿势,因为它们来自不同的野外场景。当 使用 我们 提 出的 基于 ACAE 的 正则 化( c.f.图3c),我们可以看到几乎所有指标的一致改进。然而,该模型的质量性能的改善更引人注目。参见图2,正则化模型创建了更加一致的骨架预测。特别是深度一致性得到了改善,但也纠正了正视图中的一些误差更多的定性结果表明,这一观察广泛适用。总的来说,估计潜在关键点的模型(图4a)具有比单独头部基线略低的性能,这可能是因为潜在关键点可能被放置在身体上的不太典型的位置处,并且因此可能更难定位。此外,潜在关键点头部的权重从头开始初始化,而基于正则化的方法微调预训练的头部。图中的杂交组合。4a的性能比仅正则化的模型略差,但在许多情况下仍然优于基线。这表明,直接MuPoTS-3D3DPWMPI-INF-3DHPHuman3.6M合并节理MPJPE↓ PMPJPE↓ PCK100↑ CPS200↑MPJPE↓ PMPJPE↓ PCK100↑ CPS200↑MPJPE↓ PMPJPE↓ PCK100↑ CPS200↑MPJPE↓ PMPJPE↓ PCK100↑ CPS200↑44.634.293.9八十九点八2964Hybrid Cons. 规则潜伏期数量↑ ↓ ↓ ↑ ↓ ↑ ↓手性↓ ↓ ↓✓↓ ↑ ↑ ↓ ↑ ↑ ↓ ↑ ↑表4:与最近最先进的作品的比较。(* 两倍长的训练时间,384 px分辨率)MuPoTS 3DPW 3DHP H3.6MPCK150MPJPEPMPJPE PCK50MPJPEPCK 150MPJPEROMP [69]表5:对自动编码器权重矩阵实施手征等方差约束的效果。MuPoTS 3DPW 3DHPMPJPE PCK 100 CPS 200MPJPE PCK 100 CPS 200MPJPE PCK100 CPS200弊规则81.872.4 73.161.6 83.9 71.9 59.2 86.682.1弊规则81.8 72.572.9 61.5 84.071.9 59.2 86.6 82.7混合动力车82.7 71.6 72.161.8 84.0 71.860.4 85.9 80.9对所发现的潜在关键点的估计也是可行的通过设计,这种方法也会产生一致的结果,因为我们计算了一组潜在的关键点,我们从中解码所有骨架。我们还使用EffNetV 2-Large训练正则化和混合变量((3)第三章。总的来说,结果遵循相同的顺序,而且它们在所有方面都更好。正则化改进了结果,也导致了一致的预测,混合方法比训练来预测单独关节的初始模型更这意味着我们基于自动编码器的正则化在定量和定性方面都有效地改善了结果,并且可以直接预测发现的潜在关键点。这开辟了有趣的未来研究方向,因为潜在关键点可以被视为模型无关接口,潜在地允许我们通过扩展解码器来并入新的骨架格式,而不需要模型特定的微调或探测。5.3. 与先前作品的在选项卡中。4,我们将我们的最终结果与最近发表的最先进的作品(使用标准协议)进行比较,并观察到比SOTA模型更好的准确性。我们强调,这种比较是不“公平”的w.r.t.训练数据量。然而,我们在本文中的目标是展示大规模多数据集训练的价值,并研究如何在该设置中最好地监督模型。5.4. 消融手性等方差约束。在选项卡中。5.分析了增强手性等变性对ACAE的影响。在定量指标中,我们看到两种评价模型几乎没有变化或有轻微的积极影响考虑到对称性作为一种归纳偏差是有意义的,我们在默认设置中使用手性等方差。潜在关键点计数。图5显示,一旦达到最小数量的潜在点,反射误差仅缓慢降低(在保留的伪GT验证集上进行评估)。我们评估了几个潜在的大小微调在标签。6.48点在实践中工作得很好,我们的正则化方法对w.r.t.这个超参数。当直接预测潜在关键点时,使用MuPoTS 3DPW 3DHPMPJPEPCK100CPS200MPJPEPCK100CPS200MPJPEPCK100CPS2002481.6 七十二点四 73.162.0 八十三点九71.758.986.5 八十一点七3282.2 七十二点一 72.5 61.8 八十三点九 71.8 59.286.5八十一点九4881.8 七十二点五72.961.5 84.071.959.286.6 八十二点七6482.3 七十二点零 73.0 61.8 八十三点八 71.8 59.286.682.12486.0 69.4 65.0 67.2 八十一点二 64.6 70.280.0 62.23282.771.4 72.162.3 八十三点九71.860.286.2 八十一点四4882.7 七十一点六 72.1 61.8 84.071.860.485.9 八十点九6484.1 70.6 67.0 62.2 八十三点七 71.3 62.084.5 八十二30252015105032 64 128 256 512 555#潜在关键点图5:我们的伪地面实况与555关节的内在维度分析残差曲线呈典型的肘形。太少或太多的潜在关键点具有负面影响,但是差异小于32。6. 结论我们提出了一个原则性的,自动的方法来解决大规模的多骨架训练的三维人体姿态估计的问题尽管其在一次训练中利用大量3D姿态数据集的实际相关性,但该问题在文献中在很大程度上被忽视。我们的方法依赖于一种新的配方dimensionality减少的关键点集,通过仿射组合自动编码器与保证内置的equivariances常见的变换。通过正则化3D人体姿态估计器我们发布用于数据处理和训练的代码,以及经过训练的模型,作为下游研究的高质量致谢。这项工作得到了ERC Consolidator Grant项目“DeeViSe”(ERC-CoG-2017- 773161)和Robert BoschGmbH项目“自主系统上下文理解”的支持平均投影关节误差(mm)[44]第四十四话–74.745.6––51.2[22]第二十二话––71.189.250.2混合型83.2 71.2 71.761.7 84.0 72.060.3 85.9 80.7[13]第十三话89.6–––49.3我们的RN5092.265.547.2四十九点零64.293.345.8我们的EffV2S93.761.543.0五十一点八60.095.345.2表6:潜伏点的数量对最终每一个2965引用[1] N. P. van der Aa,X. Luo,G.吉泽曼河T. Tan和R. C.维特坎普乌得勒支多人运动(UPPM)基准:一个多人数据集,具有同步视频和运动捕捉数据,用于评估关节式人体运动和交互。在ICCV研讨会,2011年。[2] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。[3] M. 安德里卢卡岛 Iqbal、E. 因萨富季诺夫湖 皮舒林A. Milan,J. Gall,and B.席勒PoseTrack:人体姿态估计和跟踪的基准。在CVPR,2018年。[4] E. G. Bazavan,A.Zanfir,M.Zanfir,W.T. 弗里曼河,巴西-地Suk-thankar和C.斯明奇塞斯库HSPACE:在复杂环境中活动的合成参数人类。arXiv预印本arXiv:2112.12867,2021。[5] Y. Ben-Shabat,X.Yu,F.Saleh,D.坎贝尔角,澳-地Rodriguez- Opazo,H. Li和S.古尔德。IKEA ASM数据集:通过动作、观察和姿势来理解人们组装家具的过程.在WACV,2021年。[6] B. L. 巴特纳加尔 X. 谢先生, I. 彼得罗夫 C. 斯明奇塞斯库C. Theobalt和G.庞莫尔BEHAVE:用于跟踪人类对象交互的数据集和方法。在CVPR,2022年。[7] H. Bourlard 和 S. H. 卡 比 尔 自 动 编 码 器 重 新 加 载 。Cybern. ,116(4):1[8] H. Bourlard和Y.坎普多层感知器与奇异值分解的自动关联。生物学。赛伯恩。,59(4):291[9] C. S. Catalin Ionescu,Fuxin Li.用于人体姿态估计的潜在结构模型见ICCV,2011年。[10]A. 查齐托夫斯, L. 萨罗格鲁 P. 布提斯, P.Drakoulis,N. Zioulis,S.苏布拉马尼亚姆湾凯夫勒姆角沙博尼耶,P. Cesar,D. Zarpalas等人HUMAN4D:以人为中心的多模态数据集,用于运动和沉浸式媒体。IEEE Access,8:176241[11] Y. Chen,Y. Tian和M.他外单目人体姿势估计:基于深度学习的方法综述。CVIU,192:102897,2020。[12] Y.程湾,澳-地王湾,澳-地Yang和R. T. Tan.结合自顶向下与自底向上网络的单目在CVPR,2021年。[13] Y.程湾,澳-地Wang和R. Tan.基于双网络的单目视频多人 三 维 姿 态 估 计 。 PAMI , 2022 年
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功