没有合适的资源?快使用搜索试试~ 我知道了~
野外条件下的3D人体姿态估计方法SPEC及其准确性的研究
1(a)输入图像(c)我们的结果(b)SOTA法焦距= 755 px相机间距=33.4°相机滚动=-0.6°SPEC:用估计的相机看到野外的人MuhammedK ocabas1,2Chun-HaoP.Huang1JoachimT esch1Lea Müller1迈克尔·J. 黑11德国图宾根马克斯·普朗克智能系统研究所和2苏黎世联邦理工学院{mkocabas,chuang2,jtesch,lea.mueller,black}@ tue.mpg.deotmar. inf.ethz.ch图1:从图像(例如使用EFT [26]数据训练的HMR)进行3D人体姿势和形状估计的最先进方法与包含透视效果的图像进行斗争(b)部分原因是使用了标准的弱透视相机。(c)SPEC学习估计透视相机参数,并使用这些参数回归更准确的3D姿势。摘要由于缺乏野外图像的相机参数信息,现有的3D人体姿态和形状(HPS)估计方法做出若干简化假设:弱透视投影、大的恒定焦距和零相机旋转。这些假设往往不成立,我们表明,定量和定性,他们造成错误的重建的3D形状和姿态。为了解决这个问题,我们引入了SPEC,这是第一个在野外的3D HPS方法,它从 一个单一的图像,并采用它来重建三维人体更准确。首先,我们训练一个神经网络来估计给定输入图像的视场、摄像机俯仰和滚动。我们采用新的损失,提高了校准精度超过以前的工作。 然后我们训练一种新的网络,连接相机校准的图像特征,并使用这些一起回归三维身体形状和姿势。 SPEC在标准基准(3DPW)上比现有技术更准确,以及具有更具有挑战性的相机视图和变化焦距的两个新数据集。具体而言,我们创建了一个新的真实感合成数据集(SPEC-SYN)与地面真实3D机构和一个新的野外数据集(SPEC- MTP)与校 准 和 高 质 量 的 参 考 机 构 。 代 码 和 数 据 集 可 在https://spec.is.tue.mpg.de/上获得用于研究目的。1. 介绍从单个RGB图像估计3D人体姿势和形状(HPS)是计算机视觉中的核心挑战,并且在机器人、计算机图形学和AR/VR中具有许多应用。从2D观察重建高维3D结构本质上是不适定的。为了克服这一点,已经对结构化预测[16,20,62]和结合形状和姿态先验[47,69]给予了很大的关注以指导估计。HPS回归器的弱监督训练利用2D姿态数据集[1,25,39],并且需要各种形式的正则化[28,35,71]。用于全3D监督的数据通常依赖于受控实验室设置[21,58]、合成图像[61],或者最近的参考数据的野外捕获[43,63]。尽管进展迅速,但我们观察到大多数最先进的(SOTA)方法[5,7,15,24,26,28,29,32,35,36,37,38,3936,47,52,59,73,74]对图像形成过程本身做了几个简化的假设。首先,它们都采用弱透视或正投影假设;从而得到仅具有三个参数的简化的照相机模型,所述三个参数捕获相对于身体的照相机平移。此外,一些[32,35,47]针对每个输入图像将焦距设置为预定义的大常数。最后,它们都假设零相机旋转,这使身体旋转和相机旋转纠缠在一起,使得非常难以正确地估计3D中的身体取向这些1103511036LLL这些假设对于物体大致垂直于主轴并且远离相机的图像是有效的。然而,在大多数真实世界的人的图像中,透视效果是明显的,例如。在自拍中缩短忽略透视投影会导致姿势、形状和全局方向的错误(见图11)。①的人。为了克服现有方法中的这些限制,我们提出SPEC(Seeing People in the Wild with Estimated Cameras),第一个3D人体姿势和形状估计框架,其利用图像中存在的线索来提取透视相机信息,并利用该信息来更好地从野外图像中重建3D人体。SPEC由两部分组成:摄像机校准和身体重建。我们为每个人做出贡献。人们可能希望嵌入的EXIF信息足以解决这个问题。然而,许多图像缺乏EXIF信息,一些应用程序将其剥离,即使存在,将存储的焦距(以毫米为单位)转换为像素也需要知道图像传感器的细节。考虑到市场上各种各样的相机,利用这一点是一项不平凡的任务。此外,这没有给出关于相机旋转的信息。相反,我们直接从RGB图像估计相机 最近的工作[19,30,65,77]将这种不适定的回归问题作为分类任务。然而,训练这些方法与其损失,例如。交叉熵和KL散度忽略了原始目标空间的距离或排序的自然概念为了解决这个问题,我们提出了一个新的损失,Softargmax-2,在损失计算过程中保持距离此外,我们观察到HPS准确度对焦距的低估非常敏感,对过高估计不太敏感,如[31,72]所指出的因此,我们将Softargmax-2修改为不对称的,使得当焦距被过度估计时施加较少的惩罚。这些新颖的损失帮助我们训练一个更好的回归器,用于直接相机校准,我们称之为CamCalib。我们将回归的相机参数集成到两个3D身体重建范例中 : ( 1 ) 基 于 优 化 的 方 法 SMPLify-X [47] , 以 及(2)类似于HMR或SPIN的基于回归的方法[28,35]。由于SMPLify-X估计3D身体可以最小化投影的3D关节和观察到的2D关节之间的差异,因此改进投影几何结构改进了估计的身体。在从像素直接HPS回归的情况下,以两种方式采用估计的相机:(1)在类似于SMPLify-X中的再现损失中,以及(2)通过将相机参数附加到CNN图像特征作为网络的条件这第二个贡献是SPEC的一个关键的新颖性,它使我们能够解开相机和身体的方向。SOTA方法[32,33,35,73]不能做到这一点,因为身体是在相机空间中估计的,纠缠身体取向和相机旋转。训练这样的身体回归器需要用3D人体和相机参数两者注释的野外图像。由于现有的3D人体数据集[21,42,63]包含的相机参数变化很小,因此我们创建了两个具有丰富相机种类的新数据集。首先,我们使用[46]的思想创建了一个具有准确地面真实人类和相机注释(SPEC-SYN)的照片级合成数据集。该数据集用于测试和训练。其次,我们收集了一个遵循模仿姿势框架[45](SPEC-MTP)的众包数据集我们要求网络参与者校准他们的相机,并从不同的角度拍摄视频,同时模仿预定义的姿势。然后,我们通过将SMPL模型拟合到所提供的视频,同时利用预定义的姿势作为先验,来获得伪地面实况标签。通过使用这些新数据集以及现有的野外数据集(3DPW [63])进行广泛的实验和分析,我们表明超越弱透视/正交假设可以改善人体姿势和形状估计结果。总的来说,我们的贡献是:(1)我们提出了一个单视图,摄像机感知,3D人体估计框架,直接从野外图像估计透视相机参数,并重建3D人体,而不依赖弱透视假设或离线校准。(2)我们训练一个神经网络来回归给定一个RGB图像的透视相机参数,使用两个新的损失:Softargmax-2、不对称Ric变体,以提高校准精度。(3)我们─利用基于优化的SMPLify-X算法,对估计的摄像机参数进行优化,有助于重建出更好的三维人体。(4)对相机信息的调节有助于基于HMR [28]的直接回归方法学习回归更好的姿态。(5)我们提供了两个不同的数据集,包括地面实况相机和人体参数:(i)真实感合成数 据 集 SPEC-SYN , 以 及 ( ii ) 众 包 数 据 集 SPEC-MTP。2. 相关工作我们回顾了在校准相机设置下捕获/重建3D人体的工作,然后专注于我们的目标:在野外3D人体重建从单眼RGB。我们讨论了现有技术如何简化相机模型以使问题易于处理,并且还讨论了从一个RGB图像进行相机校准的相关方法。使用校准的相机的3D HPS估计。为了在3D中捕捉人类运动,早期的工作利用校准和同步的多相机设置。它们可以在很大程度上分类为由CNN提供支持,基于学习的方法11037∈∈∈转MXy zz∈∈[18,23,49,50,60]通过端到端训练关键点检测和多视图姿态重建来获得鲁棒性一些单目方法[42,43,48,56]通过多视图数据的直接监督进行训练,而其他方法[16,22,34,51]则将多视图一致性作为弱监督或自我监督。无论哪种方式,总是假定已知的内在或Yu等人[72]提出了透视裁剪层,根据相机参数和图像位置裁剪人周围的图像,有效地消除了相机几何形状的一些影响。所有这些方法都需要离线校准,并且具有过拟合到训练中使用的相机的风险,并且通常限于受控设置。具有未知相机的单视图HPS估计。在早期的工作中,Liebowitz和Carlsson [38]使用移动的人的重复结构作为相机校准的线索从那时起,许多方法在不受控制的设置中给定单视图图像或视频来重建3D人体。与运动恢复结构和束调整密切相关,[2,10,37,67]将视频作为输入,并联合估计相机和重建人体;[17,40]进一步地在3D场景中的身体。我们专注于更一般的情况下,输入是一个单一的图像。SOTA方法使用参数化身体模型[27,41,47,70],并通过拟合检测到的图像特征[5,47,66]或通过直接从具有深度神经网络的像素回归[7,15,24,26,28,35,52,53,59,71,73,74]来估计参数。所有这些方法,包括非参数方法[36,54,55,75],假设弱透视/正交投影或预定义焦距为所有图像的大常数。此外,它们都假设零相机旋转,这使身体旋转和相机旋转纠缠在一起。因此,这些相机模型仅具有三个参数,捕获相机相对于身体的平移。Kissos等人[31]识别该问题并示出用更接近地面真实常数替换焦距,即f=50002200,改善了结果。Wang等人。[64]证明了联合估计相机视点和3D人体姿势改进了跨数据集的泛化。为了证明这一点,他们以监督的方式在可用的3D人体姿势数据集上然而,这些数据集在相机视点和焦距多样性、背景和主体数量方面是有限的与上述方法相比,SPEC将其推广到(a) SOTA方法中的摄像机几何结构(IWP-Cam)(b) SPEC的摄像机几何结构图2:IWP-cam和SPEC的图示。Rc和tc是相机旋转和平移。Rb和tb是身体定向和平移。所有这些都在世界坐标中定义。无需校准板或身体关键点成像。他们将连续的旋转空间离散化到bin中,将问题转换为分类任务并应用交叉熵[65]或KL散度[19,77]损失。不幸的是,这些我们设计了新的损失,以保留原始空间中的距离概念,从而更好地估计相机。3. 方法3.1. 预赛针孔照相机将3D点XR3映射到图像像素XR2至x=K(RcX+tc),其中KR3×3是存储焦距fx,fy和主点(ox,oy)的内禀矩阵。 我们遵循以前的工作,并省略倾斜,径向和切向失真。外参数为 RcSO(3)和tc=(tc,tc,tc)R3,分别表示摄像机在世界坐标系中的旋转和平移.我们估计参数化人体模型SMPL [41,47],其根据身体姿势θ和形状β使预定义的人体表面变形。当物体平移tb和物体方向Rb均为零时,网格位于世界坐标原点附近,朝向z+方向,y+是上矢量,如图所示第2段(a)分段。现有方法[5,7,15,24,28,32,47,59,73]假设零相机旋转,Rc= I,并且以两种方式估计相机平移tc:(1)通过将身体关节坐标拟合到2D关键点[5,47,74]或(2)通过预测弱透视相机参数(s,tc,tc),具有新的X y野生设置,各种相机的内在和观点。单图像摄像机校准。最近的工作[19,30,65,77]直接从单个图像估计相机参数。Zhu等人 [77]还可以恢复一些场景对象的高度,例如人和车,以及照相机几何学。他们估计2D人体姿势,而不是3D身体。为了估计相机旋转和视场,这些方法训练神经网络以利用相机中的几何线索ral网络,其中尺度参数s被转换为tc[28,29,32,35]。参见Sup。Mat.有关此转换的详细信息。这里的基本假设是弱透视投影。假设相机被放置得离人非常远,使得人的z坐标中的深度变化与距相机的距离相比是可忽略的。在自然图像中经常违反这一点,通常与相机间距辊世界坐标摄影机坐标11038L2CLCLCX≡yx y xy zLL图 3 : Softargmax-biased-2 惩 罚 vfov 的低估小于高估。物体的高度不超过物体本身的高度。对于内部参数,[5,32,35,47]将焦距设置为大常 数fx=fy=f5000 以 满 足 弱 透 视 假 设 , 并 将 主 点(ox,oy)设置在人周围的调整大小的裁剪图像的中心,而[28,73,74]直接应用弱透视投影x=sX+tc。尽管在建模投影和平移方面存在差异,但这些简化相机的一个共同特征是它们仅具有三个未知数:(s,tc,tc)或等效地(tc,tc,tc)。在本文中,我们将它们统称为IWP-cam,代表身份旋转和弱视角。注意,相机变量(Rc,tc)和身体变量(Rb,tb)都是在世界坐标中表示的,而不是在相机空间中表示的。给定仅一个单视图图像,网络/优化器可以改变(Rc,tc)和(Rb,tb)两者以解释图像观察。IWP-cam通过假设Rc= I和tb=0来解决这个问题,以仅求解相机平移tc和身体取向Rb,或者更准确地说,相机空间中的身体取向:Rb=RcRb。参见图2(a)。这种方法是大多数方法在Procrustes将估计的身体与地面实况对齐后评估准确性的关键原因。当弱透视假设成立时,IWP-cam工作良好。然而,由具有显著间距和较小焦距的相机捕获的图像,诸如图1中的那些。图1和图5中的三维物体具有打破该假设的透视缩短失真,因为与距相机的距离相比,3D物体的z坐标的变化不再是可忽略的。 IWP-cam期望HPS方法将该相机俯仰角α吸收到相对身体取向Rb中,但在实践中,由于焦距的失配,优化常常不必要地改变身体姿态;例如,图中错误的手臂和腿姿势。第1段(b)分段。3.2. 基于单幅图像的受单视图相机校准和度量[19,30,65,77]的启发,我们从单个RGB图像估计相机旋转Rc和焦距f通过提升零相机旋转约束,即RcI,并且直接估计Rc,我们绕过相机相对身体取向Rb,并且因此从身体取向中解开相机旋转。这样做允许我们处理透视/透视缩短失真,同时保持位于[0,y,0]处的一致的xz平面对准地平面。利用更好的焦距也改善了姿态估计质量通过利用精确的透视投影。具体地,相机旋转由三个角度参数化:俯仰α、滚转和偏航。由于以像素为单位的焦距具有无限范围,并且每当重新调整图像大小时它都会改变,因此我们估计以弧度为单位的垂直视场(vfov)υ,并通过以下方式将其转换为焦距fy:1小时fy=2,(1)tan(1υ)其中h是以像素为单位的图像高度 我们遵循[77]来假设零相机偏航和fx= fy= f。因此,我们的相机除了原始的(s,t c,t c)之外,还有三个参数由于这三个新参数都是弧度,我们选择用一个称为Cam-Calib的相机校准模型来学习它们。 我们将相机放置在原点,因此tc=[0,0,0],如图所示。2(b),并且将主体平移tb的估计留给下游主体估计器。许多人体重建网络仅将人周围的裁剪图像块作为输入。相比之下,CamCalib采用未裁剪的全帧图像来预测俯仰α、侧倾α和vfovν,这些对于图像中的所有对象都是相同的。我们认为,这是有益的,因为完整的图像包含丰富的线索,促进相机校准。 例如,有丰富的几何线索,例如消失点和消失线,可用于帮助确定相机旋转和原始图像中的视场。在[19,30,77]之后,我们使用CNN作为CamCalib的主干,并将音高α,滚动α和vfovυ的空间离散化为B箱,将回归问题转换为B路分类问题。然而,代替交叉熵[65]或KL散度[19,77]损失,我们使用软目标最大操作来聚合预测的概率质量,即计算预测的期望值,并测量其与地面真实值的差异,损失为2,我们称之为Softargmax-2。因此,我们避免了在连续的目标空间中回归的困难,同时保留了损失中的距离的概念。Softargmax- 2的详细配方见补充说明。Mat.此外,如[31,72]所指出的,并在Sup.垫,预测比地面实况更大的焦距(或等效地更小的FOV)比预测更小的焦距(更大的FOV)对重建的3D姿态的危害更小因此,我们对vf 〇 v υ应用不对称损失。 如图所示。3,预测υ(大于地面事实υ)通过标准2损失产生更高的惩罚,而较小预测υ(的惩罚通过Geman-McClure函数饱和[13]。我们验证收益所有这些设计选择在第二节。4.第一章3.3. 优化方法:SMPLify-X-cam接下来,我们展示了如何使用估计的相机参数来帮助人体估计优化。损失热曼-麦克卢尔捕食真相地面11039地平线焦距= 1308px相机间距= 3.6o相机滚动= 0.2o侧视CamCalibSPEC骨干SMPLSPECFC层JJMJJF....SMPL222图4:SPEC概述。CamCalib将整个输入图像作为输入,并预测相机俯仰α、滚动α和垂直视场υ。 然后,这些参数用于构造相机旋转Rc和本征函数K。 地平线(绿色)在[77]之后渲染以指示相机旋转。SPEC将裁剪的边界框作为输入,并使用CNN主干提取图像特征。将来自CamCalib的预测相机参数与图像特征级联以估计SMPL身体参数θ、β以及身体平移tb。摄像机参数也被考虑在内当计算投影的3D关节J2D和地面实况之间的损失基于方法。为此,我们修改了SMPLify-X方法[47]。给定图像,CamCalib 预测相机俯仰α 、滚动α 和vfovυ。 我们将它们转换为相机旋转Rc=R(α)R(α)和固有函数K,存储f=fx=fy和主点(ox,oy)=(w/2,h/2),其中fy由等式(1)计算。1和w、h是以像素为单位的图像宽度和高度然后,我们使用现成的2D关键点检测器[8]来估计2D关键点2D,并将SMPLify-X-cam能量函数定义为:E(β,θ,Rc,K,tb)=EJ+Eθ+Eβ,(2)其中β、θ是SMPL形状和姿态参数,tb是SMPL身体平移,Eθ和Eβ是姿态和形状先验项,并且EJ是数据项。我们修改了原始的SMPLify-X方法,以在数据项EJ中考虑透视相机参数。我们通过使用预训练的关节回归量W来获得SMPL 3D关节位置J3D=WM(θ,β). EJ测量完全连接层,其估计SMPL参数,具有Rc和υ。图4给出了SPEC的概述。给定一幅图像,我们首先使用CamCalib估计相机俯仰角α、滚转角α和vfovυ,然后将它们转换为Rc和K,如第2节所述。三点三对于人体回归,我们将裁剪的边界框图像作为输入并使用主干CNN提取图像特征。这些图像特征与Rc和υ级联并馈送到迭代回归器[28],以回归SMPL姿势θ和形状β以及身体平移tb。通过这样做,SPEC学习将SMPL主体的全局取向Rb与相机旋转Rc分开参见Sup。Mat.详情请参阅tb。然后,我们获得SMPL 3D关节位置3D =W(θ,β)和二维投影 =Π3D作为由方程式3 .第三章。 总的来说,每个训练样本的总损失是:L=λ3DL 3D+λ 2DL 2D+λSMPLLSMPL其中L3D=JL2D=J检测到的J2D和估计的J?3D,投影在FL=θ..ˆ..其中表示对应的v的预测。EJ=ΠJ3D−J2D2,其中Π=K[R|-t]。(三)3.4. 基于学习的方法:SPEC为了评估估计的相机参数对基于回归的方法的影响,我们采用简单且广泛使用的方法HMR [28]作为骨干,其在使用估计的IWP-cam的训练期间采用2D重投影损失。 我们以两种方式合并我们估计的相机参数:(1)通过在3D接头的投影期间将它们用作Rc和K,如等式(1)中所示。3和(2)通过调节有能力λ请注意,我们在身体关节上定义了3D和2D损失。这是因为我们用于训练的3D地面实况并不总是可靠的,因此2D关节提供了重要的附加图像线索,当使用正确的相机几何形状时,可以特别好地利用这些图像线索。4. 实验我们重点评估CamCalibs和SPEC;有关SMPLify-X-cam的评估,请参见Sup. Mat.图像特征通过所估计的相机参数来生成图像:110403DJ3D3DJ-J3D3DULL∼3D14.1. 数据集Pano360数据集。先前的工作[19,77]使用SUN360[68]数据集来训练相机校准网络,不幸的是,由于许可问题,该网络不再可用。因此,我们策划了一个新的等矩形全景图像数据集,称为Pano360。Pano360数据集由35K全景图像组成,其中34K来自Flickr,1K来自照片般逼真的3D场景。根据以前的工作[19,77],我们随机采样相机俯仰,滚动,偏航和垂直视场,以生成400K训练和15K验证图像。我们使用这些来训练我们的CamCalibs模型。SPEC-SYN。 用于训练HPS回归器的现有数据集包含有限的相机变化。因此,它们对于训练和评估相机估计对HPS的影响不是理想的。因此,我们创建了一个受AGORA [46]启发的光矿石合成数据集,以训练和评估我们的模型。它具有高质量的纹理人体3D扫描,并为其提供参考SMPL(-X)参数。我们将这些扫描放置在5个不同的大型高质量逼真的3D场景中,从而生成许多独特的视图。我们随机抽样相机视点,αU(−30◦,15◦)和N(0◦,2. (8),和方法vfovυ◦↓音高α◦↓滚动◦↓ScaleNet [77]5.682.611.41CamCalib(KL损失)3.532.321.15CamCalib(Softargmax-L2)CamCalib(Softargmax-偏置-L2)3.343.242.061.941.111.02表1:回归相机参数。CamCalib方法在Pano360数据集上进行训练和测试。ScaleNet [77]结果使用作者这是因为使用IWP-cam的当前HPS方法在相机坐标中重建物体。Pro- crustes对齐“隐藏了许多罪恶”,因为它消除了未知相机姿势引起的身体旋转。参见Sup。Mat.有关如何计算PA-MPJPE和MPJPE的详细信息。相反,我们提出了MPJPE和PVE的变体,它们在不需要相机信息的情况下计算世界坐标中的误差,并将它们称为W-MPJPE和W-PVE。由于SPEC将相机和身体旋转分开,预测值位于世界坐标系Jworld和W-MPJPE被计算为世界3D .为现有SOTA方法,我们报告了两个版本的W-MPJPE:(1)J其中Rc焦距υ(70◦,130◦),以增加多样性。总共,我们生成了22191张图像,其中包含71982个地面真实物体用于训练,以及具有12071个身体的3783个图像用于测试。SPEC-MTP。为了在真实数据上评估校准的HPS(CHPS)方法,我们使用Amazon Mechanical Turk(AMT)收集具有高质量伪地面实况的新数据集。根据MTP数据集[45]的想法,我们要求AMT工作人员模仿10个姿势,我们有3D地面实况。当人保持姿势时,第二个人从不同视点记录视频此外,工作人员校准相机并提供他们的身高和体重。我们扩展了SMPLify-XC[45],并使用校准的相机将SMPL-X模型拟合到多个视频帧。参见Sup。Mat.有关详细信息总共收集了7个受试者(4男3女)的64个视频,提取了3284个图像的帧速率为1 fps。其他数据集。为了训练3D CHPS估计,我们使用3DPW [63]、C 0 C 0 [39]、MPI-INF-3DHP [42]和Hu-3DHP [43]。man3.6M [21]数据集。我们使用单独的测试数据评估SPEC :3DPW-test、 SPEC-SYN和 SPEC-MTP。由 于COCO没有地面实况3D身体和相机注释,我们使用CamCalib来估计相机参数,并使用SMPLify-X-cam来获得伪3D身体地面实况,使用EFT [26]注释作为初始化。4.2. 评估指标平均每关节位置误差(MPJPE)、Procrustes对齐的平均每关节位置误差(PA-MPJPE)和每顶点误差(PVE)是文献中最常用的评价指标PA-MPJPE作为一种是通过CamCalib估计的相机旋转。通过报告(2),我们不假设任何方法的已知相机旋转,并在世界坐标中比较它们。这也说明了将CamCalibs与先前工作一起使用的效果我们将更详细地讨论这些指标,并在Sup中报告MPJPE PVE。Mat.4.3. 实现细节凸轮校准 我们遵循[19 ,77] 的实现,但使用ResNet-50作为主干,并使用单独的全连接层预测俯仰α,滚动和vfov υ。每个参数具有B=256个仓,并且我 们 对 υ 应 用 Softargmax- 偏 置 -2 , 对 α 和 β 应 用Softargmax-2。 该模型使用不同分辨率的图像进行30个时期的训练Pano360数据集用于训练和评估。与原始HMR [28]类似,我们使用ResNet-50主干,然后是迭代回归SMPL参数的全连接层。我们不应用HMR的对抗性鉴别器,因为我们使用伪地面实况3D训练数据。 使用学习率为5e-5的Adam优化器第一次150训练我们使用COCO和SPEC-SYN数据集,以及然后掺入MPI-INF-3DHP和Human3.6M。总训练需要大约175个epoch,4-5天。请注意,CamCalib和SPEC是单独训练的。联合训练它们是不可能的,因为我们缺乏一个野外数据集,该数据集既有真实的身体,又有不同的相机焦距和视角。SPEC-MTP符合这些要求,但体积较小,因此我们使用它进行评估。在推断过程中,CamCalib和SPEC联合运行。110414.4. 单幅图像摄像机标定结果表1报告了Pano360测试集上不同摄像机校准方法的摄像机俯仰α、滚转α和vfovυ的平均角度误差。作为参考,我们引入了ScaleNet的开源实现[77],其使用与CamCalib不同的主干。我们还在Pano360上用我们的主干训练ScaleNet(表1中的CamCalib(KL损失))。我们评估了不同损失函数的效果实 例 , 即 KL 散 度 、 Softargmax-L2 和 Softargmax-biased-L2,并将最终CamCalib网络定义为性能最佳的版本(Softargmax-biased-L2)。4.5. SPEC评价表2、3和4显示了SPEC-MTP、SPEC-SYN和3DPW数据集上的最新SOTA方法的结果正确的度量。我们认为W-MPJPE是最能反映实际应用中性能的指标,因此我们报告了W-MPJPE、PA-MPJPE 和 W-PVE 。 在 Sup.Mat. 对 于 W-MPJPE 和 W-PVE,我们报告了来自第12节的两个定义4.2,即(1)、(2)在表中。请注意,SPEC在两个度量下具有 相 同 的 错 误 PA-MPJPE 只 有 一 个 条 目 , 因 为Procrustes对齐消除了相机旋转(以及更多)的影响;这有效地隐藏了SOTA方法不能很好地估计全局姿态的事实。与最先进的技术相比。为了计算SOTA方法的性能,我们使用它们的开源实现。我们使用HMR*作为我们的IWP-cam基线,它是使用与SPEC相同的数据集训练的HMR [28]即COCO、SPEC-SYN、MPI-INF-3DHP和Human3.6M。同样,我们不使用HMR的鉴别器,因为我们使用地面实况或伪地面实况3D标签进行训练。对于I2 L-MeshNet [44],我们使用该方法的SMPL输出而不是非参数网格,以便能够报告W-PVE并用†表示。由于W-MPJPE和W-PVE测量误差w.r.t.世界坐标中的身体,这些措施揭示了当相机偏离IWP-cam假设时SPEC相对于SOTA的性能改进。与像3DPW的数据集相比,SPEC-MTP和SPEC-SYN在焦距和视点方面具有显著更多的变化,如图所示。五、因此,SPEC在W-MPJPE和W-PVE中对这些数据集的SOTA产生了更大的改进。使用明确的相机信息是这种改进的关键驱动因素。PA-MPJPE的改进不太显著,这表明最大的改进来自于在世界坐标中估计身体,而不是更好的铰接姿势。这在许多应用中是有价值的,例如,人-场景交互,其中身体和对象通常从不同的方法重建,但应该驻留在公共空间中。方法W-MPJPEPA-MPJPEW-PVEGraphCMR [36]175.1 /166.194.3205.5 /197.3旋转[35]143.8 /143.679.1165.2 /165.3[52]第五十二话158.9 /157.698.7190.1 /188.9I2L-MeshNet† [4]167.2 /167.099.2199.0 /198.1HMR* [28]142.5 /128.871.8164.6 /150.7SPEC124.3/124.371.8147.1表2:SPEC-MTP数据集上的SOTA方法的结果。我们使用作者提供的实现来获得结果。HMR*意味着我们使用与SPEC相同的数据训练HMR以进行公平比较。†意味着我们使用该方法的SMPL输出而不是非参数网格来能够报告W-PVE。所有数字单位为mm。方法W-MPJPEPA-MPJPEW-PVEGraphCMR [36]181.7 /181.586.6219.8 /218.3旋转[35]165.8 /161.479.5194.1 /188.0[52]第五十二话169.3 /174.188.2207.6 /210.4I2L-MeshNet† [4]169.8 /163.382.0203.2 /195.9HMR* [28]128.7 /96.455.9144.2 /111.8SPEC74.954.590.5/90.5表3:SPEC-SYN上的SOTA方法的结果参见表2标题。方法W-MPJPEPA-MPJPEW-PVEGraphCMR [36]137.8 /129.469.1158.4 /152.1旋转[35]122.2 /116.659.0140.9 /135.8[52]第五十二话139.4 /132.976.9160.1 /152.7I2L-MeshNet† [4]133.3 /119.660.0154.5 /141.2HMR* [28]119.2 /104.053.7136.2 /120.6SPEC106.4/106.453.2127.4表4:SOTA方法在3DPW测试集上的结果。见表2标题。方法W-MPJPEPA-MPJPEW-PVEHMR*128.7 /96.455.9144.2 /111.8HMR* +c120.4 /84.254.0135.3 /98.8HMR* +c+f118.3 /85.154.0132.8 /99.7HMR* +c+f+Rc77.2/77.255.393.8/93.8SPEC74.954.590.5/90.5表5:SPEC-SYN消融研究。c:以图像中心为摄像机中心。f和Rc:分别使用CamCalib估计的焦距和相机旋转在不同的摄像机设置下,HMR * 的性能相似,而HMR*对偏离其假设的值的鲁棒性较低。烧蚀实验。我们烧蚀不同的相机参数和SPEC的组件,以研究其对性能的影响。我们报告了SPEC-SYN测试数据的结果(表5),因为它具有挑战性的相机;关于3DPW的消融结果,请参见附录。Mat.我们使用HMR*作为我们的基线,并使用相同的数据集图6针对不同相机视点和焦距分析SPEC-SYN上的W-MPJPE。SPEC结果为以及用于所有方法的训练配置。为了获得预测的2D关节,J2D,HMR*使用边界框11042(a) 输入图像(b)HMR*-前(c)HMR*-侧(d)CamCalibb(e)SPEC-前(e)SPEC -侧图5:定性结果。顶部中间:SPEC-MTP;底部:SPEC-SYN。我们还提供Sup中的失败案例Mat.W-MPJPE每摄像机间距的200150100500摄像机俯仰150100500W-MPJPE每焦距的细分SPECHMR焦距(像素)如在侧视图图像中可以看到的相干体。5. 结论在本文中,我们证明了a)相机几何形状可以从图像估计和b)可以有效地图6:每个相机焦距和间距范围的W-MPJPE的分解中心作为主要的点。 我们首先将其更改为图像中心,即ox=w/2,oy=h/2,表示为“HMR *+ c 这确保了比使用边界框中心作为图像中心,并且已经改进了结果。接下来,我们用CamCalib估计的值替换固定焦距5000,表示为“HMR作为投影期间相机旋转的单位矩阵。最后,SPEC在投影过程中使用c、f和Rc,并将其作为HMR* 预测最后阶段的条件输入。总的来说,改进相机模型改进了W-MPJPE和W-PVE。调节网络的摄像机参数有帮助,但我们怀疑可以采用更好的摄像机调节方案,使网络更了解摄像机的几何形状。定性结果。图5示出了代表性结果。HMR*假设IWP-cam并产生不正确的身体姿势(腿在顶行)和不连贯的身体方向(中底); SPEC预测整体更全局用于提高3D HPS精度。现有的方法对摄像机作了简化的假设:弱透视投影、大的恒定焦距和零摄像机旋转。为了超越这些简单的假设,我们介绍SPEC,第一个3D HPS方法,从一个单一的图像回归的角度相机,并采用此来更准确地重建3D人体使用估计的相机参数改进SOTA相机回归方法和HPS回归方法。我们介绍了两个新的数据集,即。SPEC-MTP和SPEC-SYN,具有准确的相机和3D身体注释,通过消融研究和与SOTA的比较展示SPEC的效果,并促进该领域的未来研究鸣谢:我们感谢Emre Aksan 、Shashank Tripathi、VassilisChoutas 、 Yao Feng 、 Priyanka Patel 、 Nikos Athanasiou 、Yinghao Huang 、 Cornelia Kohler 、 Hongwei Yi 、 DimitrisTzionas、Nitin Saini以及所有感知系统部门成员的反馈和富有成效的讨论。该研究得到了Max Planck ETH学习系统中心的部分支持披露:https://files.is.tue.mpg.de/black/CoI/ICCV2021.txt焦距= 2227px相机间距= 2.2o相机滚动= 1.7o焦距= 1342 px相机间距= 16.2o相机滚动=-2.1o焦距= 698 px相机间距= 20.1o相机滚动=-1.6oSPECHMRW-MPJPE(mm)W-MPJPE(mm)11043引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议上,2014年。一个[2] Anurag Arnab,Carl Doersch,and Andrew Zisserman.前-利用时间背景进行野外3D人体姿态估计。在IEEE计算机视觉和模式识别会议上,2019年。三个[3] Alexandru O Balan , Leonid Sigal , Michael J Black ,James EDavis,and Horst W Haussecker.从图像中获得详细的人体形状和姿势。IEEE计算机视觉与模式识别会议。IEEE,2007年。二个[4] VasileiosBelagiannis , SikandarAmin , MykhayloAndriluka,Bernt Schiele,Nassir Navab,and Slobodan Ilic.用于多个人体姿势估计的3D图像结构在IEEE计算机视觉和模式识别会议上,2014年。2[5] Federica Bogo,Angjoo Kanazawa,Christoph Lassner,PeterGehler,Javier Romero,and Michael J.黑色. SMPL:从单个图像自动估计3D人体姿势和形状。2016年欧洲计算机视觉会议。一、三、四[6] Magnus Burenius,Josephine Sullivan和Stefan Carlsson。用于多视图铰接姿态估计的3D图示结构IEEE计算机视觉和模式识别会议,2013。二个[7] Vasile
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功