没有合适的资源?快使用搜索试试~ 我知道了~
70353D人体姿态估计= 2D姿态估计+匹配卡内基梅隆大学chinghac@andrew.cmu.edu卡内基梅隆大学deva@cs.cmu.edu摘要我们探索3D人体姿态估计从一个单一的RGB图像。虽然许多方法试图直接预测3D姿态从图像测量,我们探索一个简单的架构,原因通过中间的2D姿态预测。我们的方法基于两个关键的观察结果(1)深度神经网络已经彻底改变了2D姿态估计,即使对于具有自遮挡的姿态也能产生准确的2D预测最近的邻居)。所得到的架构是直接的,以实现与现成的2D姿态估计系统和3D mocap库。重要的是,我们证明,这样的方法优于几乎所有的最先进的3D姿态估计系统,其中大多数直接尝试从2D测量回归3D姿态。1. 介绍从图像测量中推断3D人体姿势是计算机视觉中的经典任务,可以追溯到Hogg [11]和O'Rourke和Badler [22]的标志性工作。这样的技术在各种任务中具有直接应用,例如动作理解、监视、人机交互和运动捕捉等。因此,它有着悠久而传奇的历史。我们建议读者参考各种调查,以获得对流行主题的广泛概述[8,19]。以前的方法通常使用高度传感的环境,包括视频流[37,30],多视图相机[3,10],深度图像[23,36,27]。在这项工作中,我们专注于用单个2D RGB图像恢复3D身体姿势的我们对这个问题的关键见解是利用2D图像理解的最新进展,通过深度学习不可否认的影响而成为可能。虽然最初探索用于图像分类等粗略识别任务,但最近的方法已将此类网络架构扩展到图1.我们的3D姿态估计方法概述:给定输入图像,首先估计2D姿态,然后通过匹配3D姿态库来估计其最终预测由彩色骨架给出,而地面实况以灰色显示。我们的方法工作得非常好,因为即使在遮挡期间(如上面的两个手腕所示),2D姿势估计也是准确的,这表明2D姿势估计只需要通过添加深度值来细化预测[33,21,31,12]。二维人体姿态估计中的一个长期存在的挑战是估计自遮挡下的事实上,关于遮挡的推理一直是在3D坐标系而不是2D中工作的潜在动机之一。但我们的一个突出的结论是,国家的最先进的方法做了令人惊讶的好工作的二维姿态估计,即使在闭塞。考虑到这一观察结果,剩下的挑战是预测估计的2D关节的深度值。从2D对应关系推断3D结构也是一种方法。输入图像3D Pose Library输出3D姿势CNN由3DExemplar添加估计的2D姿势7036计算机视觉中的一个研究得很好的问题,通常在多视图设置中作为运动的结构来解决在单目人体姿态估计的背景人们可以基于从人体测量、运动学和动力学约束导出的高级知识从2D骨架估计3D姿势。受数据驱动架构的成功启发,我们探索了这种高级约束的简单非参数编码:给定一个3D姿态库,我们生成大量的2D投影(从虚拟相机视图)。给定这个成对(2D,3D)数据的训练集和来自2D姿态估计算法的预测,我们报告来自与来自我们的库的最接近匹配的2D示例相关联的3D姿态的深度我们的整个管道总结在图。1.一、概括:我们的两阶段方法的一个理想特性是泛化。由于3D标注的困难,通常在实验室环境中收集带有3D标签的训练数据集,而2D数据集往往变得更加多样化。我们的两阶段流水线在不同阶段使用不同的训练集,从而产生一个可以从“野外”图像预测3D姿势的系统评估:虽然我们在野外图像上呈现了定性结果,但我们还在广泛基准的3D人体姿势数据集上对我们的方法进行了广泛的定量评估我们跟着-低标准的训练/测试协议分裂,但我们的分析揭示,在文献中存在不一致的报告,无论是在测试集还是评估标准方面。为了使我们的结果尽可能透明,我们报告了我们可以找到的所有指标和分类的表现。我们的一个令人惊讶的发现是我们简单的管道的令人印象深刻的性能:我们在所有指标上的表现基本上都优于所有先前的工作。我们的整个流水线,即使在非参数匹配步骤下,也可以在200 ms内返回给定2D图像的3D姿态(CNN的2D估计为160 ms,与200,000个姿态的训练库进行范例匹配为26 ms最后,为了促进未来的进展,我们对额外的基线进行了详尽的分析,这些基线的上限揭示了使用中间2D表示和3D约束的数据驱动编码的持续好处2. 相关工作在这里,我们回顾了与我们的方法最相关的3D人体姿势预测的相关工作(深度)回归:大多数利用深度特征的现有工作倾向于将问题公式化为直接的2D图像到3D姿态回归任务。Li等人 [17]使用深度学习来训练回归模型来预测3D直接从图片中摆姿势 Tekin等人[30]经由图像序列整合时空特征以学习用于3D姿态映射回归模型。我们提供了一个理论上的以及表明2D姿态可以是有用的中间表示的经验分析。中间2D姿势:其他方法已经探索了使用2D姿势作为中间结果的流水线。大多数人专注于将2D估计提升到3D的第二阶段这通常被视为约束优化问题,其目标是最小化未知3D姿态和未知相机的2D重投影误差[37,32,24,2]。优化问题通常受到运动学约束[34,29],有时假设3D姿态在低维子空间中生存,以更好地调节优化[37]。这种基于优化的方法可能对初始化和局部最小值敏感,并且通常需要昂贵的约束求解器。我们使用数据驱动的匹配,当结合一个简单的封闭形式的扭曲算法,产生一个快速和准确的三维解决方案。基于示例:以前的工作也探索了基于示例的方法,至少可以追溯到[26]。一个中心的挑战是泛化到训练集之外的新姿势。[14]建议上下身搭配单独地,以允许在测试时的新组合物。[35]采用能量最小化方法调整样本以更好地匹配图像测量。[25]通过基于图像的渲染合成新的2D图像其他方法也将3D样本扭曲为2D图像描述符,通常基于形状上下文[1,20]或轮廓特征[5]。在我们的工作中,我们表明,适度数量的样本(200,000),结合一个简单的封闭形式的算法,用于扭曲的3D样本,以准确地投影到2D姿态估计,优于更复杂的方法。3. 方法在本节中,我们描述了我们的方法,用于估计给定单个RGB图像的3D人体姿势。我们利用一个概率公式的变量,包括图像I,3D姿态X∈RN×3,和2D姿态x∈RN×2,其中N是铰接关节的数量。我们编写联合概率为:p(X,x,I)=p(X|x,I)·p(x|其中上述本身不作限制性假设。条件独立性:现在让我们假设3D姿态X在给定2D姿态X的情况下条件性地独立于图像I。这相当于暗示给定2D骨架,其对应的3D骨架的预测将不受2D图像测量的影响虽然这并不完全正确(我们展示了一个反例图2),这似乎是一个合理的第一阶近似-mation 此外,这种因式分解仍然允许p(x|I)这是一个很复杂的问题,它可能是需要accu-对2D投影7037我σ2我我图2. 3D姿态不依赖于给定2D姿态的图像的失败情况:p(X|x,I)/=p(X|X)。我们示出了给定地面真实2D姿态的系统的输出,右侧是(不正确的)最佳匹配3D样本(从新颖的视点可视化,其中估计的相机被绘制为视锥)。我们的实验表明,这种情况是罕见的,而且大部分时间3D可以从2D推断出来图3.在左侧,我们示出了与地面实况2D姿态x最佳匹配的3D样本Xi。虽然整体姿势大致正确,但手臂和腿的弯曲不正确。通过sim-通过从样本复制深度值(并从弱透视模型下的2D姿态复制(x,y)值,如(6)中给出的),我们可以获得更好地预测和图像特征。考虑到这种条件独立性,我们可以这样写:p(X,x, I)=p(X|x)·p(x|I)·p(I)(2)`x`xNNCNN匹配2D姿势。与特定相机投影矩阵{Mi}配对的3D姿态{Xi},使得相关联的2D姿态由下式给出:{Mi(Xi)}。 如果我们想考虑多个摄像头,单个3D姿势,我们添加另一个3D姿势副本,不同的相机矩阵到我们的图书馆。我们基于重投影误差定义3D姿态的分布:我们用基于图像的CNN来处理第二个术语,预测2D关键点热图。我们用非参数最近邻(NN)模型处理第一项。 我们P(X = Xi|(x)汞-一个||Mi(Xi)−x||2(四)下面依次描述每个术语3.1. 基于图像的二维位姿估计鉴于上述独立性假设,我们首先要预测给定图像测量的2D姿态我们将给定图像的2D姿态的条件建模为P(x|I)= CNN(I)(3)其中,我们假设CNN是一个非线性函数,它返回N个2D热图(或单个关节位置上的边缘分布)。我们使用卷积姿态机(CPM)[33],它为单个身体关节精确返回N个热图。我们将热图归一化,以便它们可以被解释为每个关节的边缘分布。CPM是一种接近最先进的姿态估计系统(88. MPII数据集上的5% PCKh [4],非常接近最新值90。9%[21])。请注意,现成的CPM模型是在MPII数据集上训练的,MPII数据集是一个有点有限的数据集,因为注释是通过手动检查提供的。我们在大规模Human3.6M [13]训练集上微调该模型,该训练集包含由mocap系统获取的注释(允许更大规模的标记)。3.2. 非参数三维形状模型我们对P(X)进行建模|x)与非参数最近邻模型。我们将遵循符号约定,其中X=[X,Y,Z]和x=[x,y]。假设我们有一个图书馆其中MAP估计由1-最近邻给出bor(1NN).我们探索上述基本框架的两个扩展。虚拟摄像机:我们可以通过搜索每个摄像机的小扰动来进一步减少平方重投影误差。这涉及到解决相机切除问题[9],其中迭代求解器可以通过以下方式初始化:我:M= argmin ||M(Xi)− x||二(五)M在实践中,我们根据(4)构建了一个由k个得分良好的候选人组成的短名单,并根据最佳相机矩阵对它们进行重新排序。我们发现,在我们的实验中,对摄像机进行优化产生了一个小但明显的改进除非另有说明,我们在实验中选择k=10变形样本:许多先前关于样本的工作引入了用于扭曲样本以更好地匹配2D姿态估计的方法,通常被公式化为逆运动学优化问题。我们描述了一个极端的轻量级的方法来实现这一点。我们首先将3D样本与用于计算投影x的相机坐标系对齐。这是通过由编码在Mi(或Mi)中的摄像机外部函数给出的3D刚性变换来完成的。在实践中,我们使用训练集{Xi},其中3D样本已经与它们的投影{xi}对齐,这意味着Mi中的外质简化为单位矩阵(这是Human3.6M数据集的情况[13],因为3D姿势是XiXi*7038我在其相关联的图像投影的相机坐标中指定)。给定这种对齐,我们简单地在弱透视相机模型下用它们的缩放的2D对分(x,y)替换(Xi,Yi)从50fps到10fps的视频。在这里,MPJPE在没有刚性变换的情况下进行评估,遵循原始的h36m协议:地面实况和预测的3D姿态都相对于根关节(即,骨盆)。与方案1相反,该评估可以对单个参数敏感。X=sxsy Zi,其中s=平均值(Zi)(六)预测不良的关节,特别是如果它是根[13]。f为了与公布的性能数据进行比较,我们使用根据需要制定适当的协议。 从我们自己的经验来看-其中,f是相机的焦距(由下式给出)平均值(Zi)是3D关节的平均深度。这种弱透视近似通常用于初始化透视(PPERT)相机校准算法[18],并且当人体骨架的深度变化相对于到相机的总距离较小时是合理的。我们的研究结果表明,这种封闭形式的解决方案三维翘曲竞争的准确性复杂的能量最小化方法(见图。(3)第三章。4. 实验在我们的实验中,我们测试了我们提出的管道的各种变化。定性结果:我们首先给出一些定性的结果。图4显示了来自人3.6M的受试者S11我们选择了自我封闭和坐姿的例子为了证明3D预测的准确性,我们可视化了新的视点。然后,我们将所提出的方法应用于LeedsSports Pose(LSP)数据集[15]来测试跨数据集的泛化。我们认为,我们的流水线将概括图像变化(由于我们的2D姿态估计系统的潜在鲁棒性重要的是,我们的方法产生合理的3D姿态,即使活动类不包括在Human3.6M中。这意味着我们的方法可以在野外可靠地估计3D姿势!4.1. 评估协议我们使用Human3.6M进行定量评估和分析。在文献中似乎使用了多个训练/测试分割,以及不同的方法来计算平均每关节位置误差(MPJPE),以毫米为单位测量我们在这里总结一下。方案1:在[35,16,25]中,将整个数据集分为6个训练受试者(S1,S5,S6,S7,S8,S9)和1个测试受试者(S11)。对S11视频剪辑的每64帧在这种配置中,训练集中总共有180万个3D姿势可用地面真实3D姿态和估计3D姿态之间的MPJPE通过首先将姿态与刚性变换对齐来计算[16]。方案2:其他[37,30,17]使用5名受试者(S1,S5,S6,S7,S8)进行培训,2名受试者(S9,S11)进行测试。我们遵循[37]因此,我们发现协议1更简单,更直观,因此我们的诊断评估将重点放在它上。4.2. 与最新技术水平的比较(方案1)最终系统:表1比较了每个活动类别的MPJPE。我们的方法明显优于[35]和[25]。(地面实况2D性能:一个常见的诊断是评估给定地面实况2D姿态的性能,写作gt。表2显示了我们的简单匹配+ warping优于[35],后者使用复杂的迭代算法来匹配和扭曲样本以获得图像证据。我们的诊断稍后将显示,即使没有扭曲的匹配样本也优于现有技术,这表明简单NN基线的显着力量。车组尺寸:表3显示了MPJPE与训练数据大小的关系。由于处理2D和3D源的方法不同,我们列出了两种尺寸。Yasin等人。 [35]从每个3D样本(使用虚拟相机)投影多个2D姿势以创建用于匹配的2D姿势,而Ro- gez等人。 [25]直接合成2D图像用于训练。我们的方法利用了Hu-man 3. 6 M中的默认训练数据,其中每个3D姿势与单个2D投影配对。我们最大限度地发挥了性能与一个温和的构成库的180k 3D-2D对,但产生竞争力的准确性,甚至为18k。对于较大的训练集,MPJPE的轻微增加似乎与来自2D姿势估计的噪声有关,因为我们观察到当给出地面真实2D姿势时单调下降(图11)。(七).4.3. 与最新技术水平的比较(方案2)最终系统:表4提供了使用方案2与[37]和[30]的比较。请注意,在这两项工作中,通过将短图像序列作为输入来利用时间平滑性即使我们不使用时间信息,我们的系统也非常接近最先进的水平。[37]中也提供了与[37]的定性比较。五、地面实况2D性能:我们在Fig. 5可能归因于更好的2D姿态估计。因此,我们根据Zhou的诊断方案[37],研究给定地面真实2D姿势的情况:仅在第一个摄像头的前30秒内评估MPJPE直至3D刚体变换(包括比例)-7039具有2D姿态估计的图像新颖视图图4.我们显示了人类3.6M-测试(上)和LSP-测试(下)的定性结果。我们的方法产生了合理的结果,chal-challening图像与自遮挡和极端的姿态,并可以推广到活动和姿态不在火车集(人类3. 6 M火车)。在人类3.6M时代为了公平比较,我们使用相同的3D-2D训练数据集用于两种方法。结果示于表5中。对于k=10个匹配的候选列表,相机切除(5)和样本扭曲(6)产生的误差略低于[37]在定性结果提供于图1中。6.我们的方法产生较低的二维重投影误差,而周构成了一个低维子空间4.4. 诊断我们现在执行一组广泛的诊断,以揭示我们各个组件的强度,以及对指导未来工作有用的上限分析。为简单起见,我们仅限于协议1。7040平均每个关节位置误差(MPJPE),mm方法方向讨论吃迎接电话构成购买坐坐下亚辛[35]罗热斯[25]88.4-72.5-108.5-110.2-97.1-81.6-107.2-119.0-170.8-我们71.6366.6074.7479.0970.0567.5689.3090.74195.62方法烟雾照片等走WalkDogWalkPairAvg.中值-亚辛[35]罗热斯[25]108.2-142.5-86.9-92.1-165.7-102.0-108.388.1----我们83.4693.2671.1555.7485.8662.5182.7269.05-表1.与方案1的[35]比较。我们的研究结果显然是最先进的。更多详情请参阅正文。方法方向讨论吃迎接电话构成购买坐坐下亚辛[35]60.054.771.667.563.861.955.773.9110.8X*|gt(我们的)53.2746.7558.6361.2155.9858.1348.8555.6073.41方法烟雾照片等走WalkDogWalkPairAvg.中值-亚辛[35]78.996.967.947.589.353.470.5--我们60.2576.0562.1935.7661.9351.0857.5051.93-表2.与方案1的[35]进行比较,给出2D地面实况。我们的方法显然是最先进的,表明我们简单的NN匹配和扭曲方法的有效性。表7显示,即使是简单的NN匹配也产生70.93的平均准确度,与现有技术相媲美。方法二维源3D源Avg. MPJPE亚辛[35]罗热斯[25]64 000 k207K380k190k108.388.1我们18k18k85.94我们180k180k82.37我们180万180万82.72表3.根据第1号议定书,在不同量的训练数据下与[35]和[25]进行比较。我们的方法在源大小为180K时产生最佳的性能.翘曲的影响:我们在表6中评估了翘曲的好处(XvsX)。很明显,弯曲样本是一种简单而有效的减少误差的方法。令人惊讶的是,即使没有扭曲,简单地匹配到一组3D示例投影也优于最先进的技术(见表1和表6)!为了分析我们的扭曲方法的上限,我们将2D估计(x,y)与由地面实况3D姿态ZGT给出的深度值Z组合。 在最后一行中,将地面实况深度ZGT与X组合的性能列为参考基线。这表明,即使继续使用当前2D姿态估计系统的输出,仍然可以将误差显著降低2倍。给定地面实况2D的翘曲:接下来,我们计算给定地面真实2D姿态的情况下的误差,如表7所示。我们写|gt强调方法现在可以访问2D地面实况姿态估计。我们首先注意,匹配的未扭曲的示例与现有技术的精度相媲美(参见表2和表7)。这再次表明了基于以下的简单NN基线的显着能力:匹配2D投影也就是说,翘曲仍然可以在很大程度上改善结果。图中提供了一个定性的例子。3.第三章。给定最佳样本匹配的翘曲:考虑到我们的(3D,2D)对训练集,很自然地会问性能的上限是多少。我们首先计算最佳样本,最大限度地减少3D重投影误差(直到刚体变换)到真实的3D测试姿势。我们将来自训练集的最佳匹配的索引写为i=GT。我们希望看到这种最佳匹配的扭曲效果。我们在表8中分析了这种组合。这表明,原则上,即使我们有固定的3D姿势库,误差仍然可以显著然而,不清楚的是,这在给定我们的流水线的情况下是可获得的,因为它可能需要图像证据来选择该最佳3D样本(违反来自(2)的条件独立性假设)。车组尺寸的影响:调查的一个重要方面是数据库大小的影响。在这里,我们调查的错误与数据库中的样本数量。图7评估了性能与我们整个数据库的随机部分。正如预期的那样,更多的数据导致更低的误差,尽管观察到的结果越来越少(即使在对数尺度下)。这是合理的,因为训练数据来自以50fps捕获的视频,这意味着帧之间的相关性可能会限制额外帧的好处。我们看到,收敛也受到2D姿态估计的质量:在5 × 10 5处,给出地面实况2D姿态的误差达到平台,而2D姿态估计平台甚至更快地达到2×105。我们认为,一个更受限制的3D姿势先验(隐含地由一个小的7041方法方向讨论吃迎接电话构成购买坐坐下周[37]泰金[30]87.36102.41109.31147.7287.0588.83103.16125.38116.18118.02106.88112.3899.78129.17124.52138.89199.23224.9我们89.8797.5789.98107.87107.3193.56136.09133.14240.12方法烟雾照片等走WalkDogWalkPairAvg.中值-周[37]泰金[30]107.42118.42139.46182.73118.09138.7579.3955.07114.23126.2997.7065.76113.01124.97----我们106.65139.17106.2187.03114.0590.55114.1893.05-表4.与第2号议定书[37]和[30]的比较。我们的结果接近最先进的水平。Zhou图6. Zhou [37]与我们的结果进行定性比较,获得相同的地面真实2D姿势。虽然两个3D估计都是合理的,但是Zhou不正确的关节头)。方法Avg. MPJPE[24]第二十四话|gt,多帧89.50戴[6] |gt,多帧72.98周[37] |gt,单帧50.04周[37] |gt,多帧49.64X*|gt,k=1,单帧51.06X*|gt,k=10,单帧49.55图5. Zhou [37]与我们结果的定性比较。我们的结果通常更准确,但两种方法都存在左/右肢体模糊(例如,第二行)。虽然我们改进的性能大部分来自于更好的2D姿态估计,但当使用相同的地面实况2D姿态估计时,我们仍然比较有利(图11)。6和表5)。随机采样的3D库)有助于给出不准确的2D姿态估计。但无论哪种情况,基于样本的3D匹配即使对于中等大小的训练集(200,000)也是有效的。该分析似乎表明,需要更好的2D姿态估计来利用“更大”的由于联合预测误差不是正态分布,我们还在图中绘制了中值误差。8.我们看到,中位数通常低于平均误差,并且当给出地面真实2D或3D时,两者之间的差异变得更小。这可能表明,错误往往是表5.给定地面真实2D姿态的3D姿态估计精度根据第二号议定书。这里,k是候选样本样本的数目,该候选样本随后通过在虚拟相机上搜索而被处理。我们的k= 10的单帧结果优于所有现有技术,包括利用多帧时间线索的那些预测Avg.中值X |X85.5275.04X *| X82.7269.05[sxZGT]43.8630.19表6.给定预测的2D姿态X,变形样本X以合理的余量超出未变形样本X我们还计算了使用来自预测姿势的(x,y)估计值和来自地面的z估计值的翘曲样本的上限真实3D姿势显着的误差减少表明,显着的进一步改善是可能的,通过改善我们的3D匹配。重要的是,即使给定现有的2D姿态估计系统,这种改进也是可实现的。这是由于单个不正确的联合预测,这将显著影响平均误差而不是中值。跨数据集评价:为了进一步研究一般-7042表7.我们比较匹配的样本X和扭曲的样本X,给定地面实况2D姿态估计。这表明,我们简单的封闭形式翘曲方法将更加有效,更好的2D姿态估计。预测Avg.中值X |GT60.1155.36X *|GT37.3233.91表8.我们分析性能给定的最佳匹配的3D训练样本简单地报告这个最佳匹配会产生60 mm的误差,比给定理想2D姿态估计系统的实际匹配低约10 mm(表7)。扭曲这个范例X|GT显著提高了准确性。这表明,我们的整体3D匹配阶段仍然可能是显着的不-即使考虑到3D姿势库的当前大小,也证明图7.方案1的平均MPJPE与3D姿势限制的大小。 我们使用先前介绍的符号来探索诊断变体。一般来说,MPJPE随着库的增大而减小当使用CNN预测的2D姿势时,误差在2 ×105处饱和。|x“,但当使用地面真实2D姿势时,在5×105时会饱和。|gt“。结果表明,有了更好的2D姿势估计,我们的样本匹配将受益于更大的训练数据。在示例匹配的示例化中,表9定量评估了在HumanEva-I [28]上的准确度,给出了在Human3.6M上训练的模型这些结果表明,来自HumanEva的3D样本确实具有泛化能力,并且通过我们的变形过程,泛化能力得到了显著5. 结论我们提出了一种简单的方法来进行三维人体姿态估计,通过执行二维姿态估计,然后进行三维样本匹配。我们方法的简单性和有效性,结合其在基准数据集和不受约束的图8. 方案1与数据库大小的中位MPJPE。中位误差小于图中的平均误差7,这表明少数关节是造成大的平均误差的原因。其他趋势遵循图1中的平均误差曲线。7.第一次会议。走慢跑扔抓住手势框Avg.扭曲64.4669.8859.9967.8979.2268.29未扭曲90.1795.2782.7488.82103.8592.17表9.我们在HumanEva上评估了一个Human3.6M训练的模型为了隔离3D匹配的影响,我们使用地面实况2D关键点。作为比较,Human3.6M测试的平均误差为70.93(未扭曲)和57.5(扭曲)(表9)。这些结果表明,3D样本确实在数据集之间进行了泛化,重要的是,扭曲显著增加了泛化量。请注意,这两个数据集使用不同的骨架定义,这意味着学习映射应该进一步减少错误。图像,建议这种简单的基线应用于未来的基准在3D姿态估计。中间2D表示的一个显著优点是模块化训练-这使得我们的系统能够立即利用2D姿态估计的进步,例如多体分析[7]。我们的研究结果还表明,在某种意义上,3D推理是事实上,我们的一个令人惊讶的发现是,即使在遮挡情况下,2D姿态估计系统的性能也很高,这表明2D估计实际上可以可靠地估计,而无需直接推理深度。鉴于这种可靠的2D估计,我们表明可以通过简单的记忆和3D姿势库的扭曲来有效地估算深度。鸣谢:这项工作得到了NSF Grant 1618903、NSFGrant 1208598 、 英 特 尔 视 觉 云 系 统 科 学 技 术 中 心(ISTC-STIM)、谷歌和亚马逊的支持。预测Avg.中值X |GT70.9365.35X *|GT57.5051.937043引用[1] A. Agarwal和B. Triggs基于相关向量回归的人体轮廓三维姿态。载于CVPR,2004年。[2] I. Akhter和M. J.布莱克。三维人体姿态重建的姿态条件关节角度限制。CVPR,2015。[3] S. 阿明,M。Andriluka,M.Rohrbach和B.席勒用于三维人体姿态估计的多视图图像结构。InBMVC,2013.[4] M.安德里卢卡湖Pishchulin,P. Gehler和B.席勒2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。[5] C. S. Catalin Ionescu,Fuxin Li.用于人体姿态估计的潜在结构模型见ICCV,2011年。[6] Y. Dai,H. Li,和M。他外非刚体运动恢复结构分解的一种简单的无先验方法。IJCV,2014年。[7] M. Eichner和V.法拉利我们是一家人:多人联合姿态估计。计算机[8] D. A. Forsyth,O. Arikan和L.池元人体运动的计算研究:跟踪和运动合成。Now Publishers Inc,2006.[9] R. Hartley和A.齐瑟曼。计算机视觉中的多视图几何。剑桥大学出版社,2003年。[10] M. Hofmann和D. M.加夫里拉复杂环境下多视角三维人体姿态估计。IJCV,2012年。[11] D.霍格基于模型的视觉:一个能看到行走的人的节目。图像和视觉计算,1983年。[12] P.Hu和D. Ramanan使用卷积潜变量模型进行自底向上和自顶向下推理arXiv预印本arXiv:1507.05699,2015年。[13] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库胡-曼3.6米:自然环境中三维人体感知的大规模数据集和预测方法。PAMI,2014年。[14] H.蒋使用数百万个样本的3D人体姿势重建。模式识别(ICPR),2010年第20届国际会议,2010年。[15] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型。在BMVC的Pro-ceedings,2010年。[16] I. Kostrikov和J.胆从图像估计三维人体姿态的深度扫描回归森林。InBMVC,2014.[17] S. Li和A. B.陈基于深度卷积神经网络的单目图像三维人体姿态估计。InACCV,2014.[18] C.- P. Lu,G. D. Hager和E. Mjolsness。快速和全局收敛的视频图像姿态估计IEEE关于PAMI的跨部门行动,2000年。[19] T. B. Moeslund和E.格兰姆基于计算机视觉的人体运动捕捉研究综述。计算机视觉与图像理解,2001年。[20] G. Mori和J. Malik。使用形状上下文恢复3D人体配置。IEEE Transactions on PAMI,2006年。[21] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。ECCV,2016。[22] J. O'Rourke和N. I.巴德勒使用约束传播的人体运动的基于模型的图像分析IEEE关于PAMI的跨部门会议,1980年。[23] 联合Rafi,J. Gall,and B. Leibe一种用于从单个深度图像估计人体姿势的语义遮挡模型。在IEEE会议上CVPR研讨会,2015年。[24] V. Ramakrishna,T. Kanade和Y.酋长由二维影像地标重建三维人体位姿。ECCV,2012年。[25] G. Rogez和C.施密特mocap引导的野外3d姿态估计数据增强。NIPS,2016年。[26] G. Shakhnarovich,P.Viola和T.达雷尔。快速姿态估计与参数敏感哈希。计算机视觉,2003年。诉讼第九届IEEE国际会议。IEEE,2003年。[27] J. Shotton,T. Sharp,A. Kipman,A. Fitzgibbon,M.Finoc-chio,A.布莱克M. Cook和R.摩尔从单个深度图像中实时人体姿态识别ACM的通信,2013年。[28] L. Sigal,A. O. Balan和M. J.布莱克。Humaneva:同步视频和运动捕捉数据集和基线算法,用于评估关节式人体运动。IJCV,2010年。[29] E. Simo-Serra,A. Ramisa,G. Ale nya`,C. 托拉斯,以及F.莫雷诺诺格尔基于噪声观测的单幅图像三维人体姿态估计。CVPR,2012。[30] B. Tekin,A.罗赞采夫河谷Lepetit和P.呸从运动补偿序列直接在CVPR,2016年。[31] J. J. Tompson,A.Jain,Y.LeCun和C.布莱格勒卷积网络和图形模型的联合在神经信息处理系统的进展,2014年。[32] C. Wang,Y.Wang,Z.Lin,L.L. Yuille和W.高. 由单一影像之三维人体位姿稳健估计CVPR,2014。[33] S.- E. Wei,V.Ramakrishna,T.Kanade和Y.酋长卷积姿态机器。在CVPR,2016年。[34] X. K. Wei和J. Chai.从未校准的单目图像建模三维人体姿态。ICCV,2009年。[35] H. Yasin,U.伊克巴尔湾Kruger、A.Weber和J.胆从单幅图像估计三维姿态的双源方法在CVPR,2016年。[36] H. Yub Jung,S.李,Y。石熙和我。董云。面向瞬时三维人体姿态估计的随机树行走CVPR,2015。[37] X. 周先生, M. 朱 S. 莱昂纳多斯, K. G. 德尔帕尼斯,还有K.丹尼尔迪斯稀疏与深邃:基于单目视频的三维人体姿态估计.在CVPR,2016年。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功