神经网络驱动的多视图3D人体姿态估计

184 浏览量更新于2024-06-20 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"这篇论文提出了一种名为MetaPose的多视图神经网络方法，用于从2D关键点数据快速估计3D人体姿态，无需3D监督。它解决了在未知校准的多视图环境中，使用可能移动的相机进行人体3D姿态估计的问题。通过结合多个单视图方法的输出并考虑关节位置的不确定性，MetaPose能够在处理遮挡和不确定性时保持高精度，同时减少延迟。训练仅依赖于带有2D关节位置标注的数据，模仿经典束调整策略，但使用神经网络来驱动摄像机校准。这种方法在Human3.6M和Ski-PosePTZ数据集上表现出色，超越了传统的束调整和弱监督单眼3D基线。" 本文关注的是3D人体姿态估计，特别是在多视图环境下，而传统的方法往往需要昂贵的专业运动捕捉设备或精确的相机校准。MetaPose的创新之处在于它能够从多个视角的2D关键点数据中学习，自动估计三维人体姿态和相对相机姿态。这得益于模型的设计，它能够处理不同视图间的遮挡问题，同时考虑关节位置的不确定性，避免因校准不准确导致的错误。在实际应用中，例如运动捕捉，由于运动员通常在低纹理背景下活动，传统的多相机结构光匹配方法难以进行有效的校准。MetaPose通过使用人体关节信息进行摄像机校准，解决了这一难题。由于在测试时采用同步的多相机设置，算法可以整合来自不同角度的信息，提高了3D姿态估计的准确性。训练阶段，MetaPose仅依赖于带有2D关节标注的图像，避免了对3D标注数据的依赖，降低了数据收集和标注的成本。在Human3.6M和Ski-PosePTZ这两个具有挑战性的数据集上的实验结果证明了这种方法的有效性，它在精度和实时性能上都超越了先前的方法。总结来说，MetaPose是一种基于神经网络的多视图3D人体姿态估计方法，它创新地结合了关节位置不确定性处理、相机校准和多视图信息融合，能够在实时场景中提供高质量的3D姿态估计，为无3D标注数据的多视图学习开辟了新的可能性。

资源详情

资源推荐

6761

···

�

、

{I}

（

）

图3. 方法-我们用一个简单的二维例子来说明我们的方法，回归一个等边三角形的三维顶点给定多视图观察。（左）AniPose

[33]

执行经典的束调整，以识别摄像机位置和

顶点，最大限度地减少输入图像上

地标的重投影误差。相反，我们的技术

通过元优化器以

“

神经

”

方式

模拟

经典的束调整：首先（中），

EpipolarPose [ 37 ]

神经网络获得关节的每帧

估计，我们通过

procrustes共同对齐以获得相机参数和关节位置的初始猜测;然后（右），神经网络元优化器执行捆绑调整，并使用每个视图的

关键点定位热图作为输入来优化关节和相机。额外的先验信息，例如三角形是等边的事实，可以优雅地集成到元优化器训练

中。

方法

如图3所示，给定一组

图像，我们寻求优化，直到全

局旋转，缩放和移位：

运算符定义为π（

，

（

，

s））

：

t其中

[0：1]

是丢弃相乘向量的第三维度的截断单位矩阵。这

个选择的

相机模型简化了相机参数的初始化

•

J={j

∈

}

•

C={c

∈

}

3D身体关节的3D坐标

：每个摄像机的参数。

从单视图3D姿态估计（第3.2节）和消除重投影奇点

（补充第3.2节）。7.6）。

还注意到：

•

H={h

∈

}

：一组2D热图，

在第5节中，我们通过实验证明了

最终的错误来自于相机型号的选择。

推理任务。我们的推理任务是估计

图像上的位置

}

用这些摄像机拍摄的，

来自观察到的热图H的J和C。我们首先介绍-

将概率光束法平差公式化，

假设在训练时，我们得到：

•

，

：关节j

在摄像机c

中的投影的地面实况

位置

。

贝叶斯模型形式上，假设热图仅通过2D关键点位置

（即，p（H|K

，

C）

dle关节位置不确定性，然后提出一个回归模型，该模

型对关节位置和观察到的热图之间的复杂相互作用进

行整体推理任务可以被定义为在给定观察到的热图的

情况下找到姿势和相机参数的后验概率的最大值，在

可能的关键点位置上被边缘化：

max

（J

，

H）=

�

（k

）

H）

（k

，

C）

（J）

（C）

dk（

）

（

，

）

（

）

（

，

）

（

）

（

）（

）

假设关节和关键点通过以下方式相关：

（

，

）

（

，

−

（

，

））

（

）

，

其中δ是狄拉克分布，π（j

，

c）将关节j投影到摄像机

c中的2D坐标。我们使用弱投影相机模型，因此，每

个相机由旋转矩阵R、像素移位向量t和单尺度参数s

的

元组定义

，

即

c= [R

，

]

，投影

p（H|K）），联合分布可以分解为：

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

神经网络驱动的多视图3D人体姿态估计

3d-pose-2d-keypoints:从2d关键点进行3d人体姿势估计

基于启发式的多视图聚类(HMVC)方法和基于神经网络的多视图聚类(NNMVC)方法

多视图 3d 目标检测

基于深度学习的多视图三维视图重建

基于神经辐射场的视图重建研究的国内外研究现状概述

给出一个能同时用于中间视图合成和视频插帧的网络模型

sqlserver数据库 视图

opengl 2d转3d点

视图：按照部门分组，统计 tb_employee 中每个部门的平均工资，结果保存为视图， 视图名称为：answer01；

MVCNN 神经网络结构

基于单目视觉的深度估计方法

简述3D目标检测发展历史

计算机视觉中的多视图几何

将视图和视图注释列出来

人力资源管理系统视图成品

mysql 创建多个视图

高德地图 webjs 切换2d 3d

多视图实时三维重建有哪些开源代码

最新资源

sqlserver数据库视图

视图：按照部门分组，统计 tb_employee 中每个部门的平均工资，结果保存为视图，视图名称为：answer01；