PointNet驱动的3D手势估计算法：挑战与增强现实应用

110 浏览量更新于2024-06-20 收藏 1.53MB PDF 举报

本文主要探讨了一种创新的三维手势估计方法，即基于点到点回归的PointNet技术在虚拟现实和增强现实应用中的应用。作者团队由刘浩戈、周仁和袁俊松组成，他们来自新加坡南洋理工大学和美国的科研机构。传统的3D手部姿势估计方法倾向于采用卷积神经网络（CNN），直接处理2D深度图像并回归整体3D姿态，这种方法面临高维度、手指相似性、自遮挡和噪声等问题，导致精确性和鲁棒性不易达成。文章提出的新方法摒弃了直接映射到3D关节坐标的策略，而是采用PointNet模型，直接接受3D点云作为输入。PointNet通过逐点估计，生成点云上的热图和单位向量场，这些表示了每个点到手关节的接近程度和方向。这种逐点估计策略有助于捕捉点云中的空间信息，提高了模型的精度。为了进一步增强空间信息的捕捉，PointNet采用了带中间监督的堆叠网络架构，使得整个模型能够进行端到端的训练。实验结果显示，相较于当前最先进的方法，这种基于点到点回归的PointNet在三个具有挑战性的手部姿势数据集上取得了显著的性能提升。这表明这种方法在处理复杂的3D手部姿态估计问题时具有明显优势，尤其是在高精度和鲁棒性方面。研究的关键点在于，通过改进的网络结构和逐点处理策略，能够在处理3D手部姿势的复杂性和多样性时，提供更准确和实时的估计结果，这对于增强虚拟现实和增强现实的人机交互体验具有重要意义。同时，这种方法也为其他领域的3D姿态估计提供了新的思路，特别是在那些需要精细位置信息的领域，如机器人控制、游戏开发等。

刘浩戈、周仁、袁俊松

从用于姿势估计的训练数据学习的模型与用于姿势优化的生成手模型

[38，43，22，45，53，32，37]。

我们的工作涉及使用基于深度神经网络的方法进行3D手部姿势估

计的研究[11，22，45，10，53，12，19，4，5，2]。Tompson等人[43]

首先提出在3D手部姿势估计中应用CNN。他们使用CNN来生成代表深

度图像中手部关节的2D概率分布的热图，并使用基于模型的逆运动

学从估计的热图和相应的深度值Ge等人[10]通过将深度图像投影到多

个视图上并从多视图热图估计3D手部姿势来解决2D热图[43]中缺乏3D

信息的问题Oberweger等人[21，19]替代地直接回归手关节的3D他们还

提出了一个反馈回路[22]来迭代地优化3D手部姿势。Zhou等人[56]提

出直接从深度图像回归手部模型参数。Ge等人[11]将手深度图像编码

为3D体积，并使用3D CNN直接从3D体积回归3D手部姿势Guo等人[12]

提出了一种区域集成网络，其直接从深度图像回归3D手部姿势。

Chen等人[4]通过迭代细化改进[12]虽然许多3D手部姿势估计方法直接

回归3D手部姿势，但Wan等人（2005）在3D手部姿势估计中使用了3D

手部姿势估计方法。[46]最近提出了一种密集像素估计方法，该方法

应用沙漏网络来生成2D和3D热图以及3D单位向量场，从中可以推断

出3D手关节位置。我们的方法受到这项工作的启发[46]，但本质上与

之不同首先，[46]中提出的网络以2D图像作为输入，而我们的方法以

3D点云作为网络输入，因此能够更好地利用深度图像中的3D空间信

息。其次，[46]中提出的网络输出原始图像中每个像素的估计，其中

可能包含大的无用背景区域，而我们提出的点对点回归网络输出手部

点云中每个点的估计，因此能够集中精力从手部点云而不是背景区域

学习有效特征。

3D深度学习3D数据通常不适合由传统的CNN直接处理，这些CNN在

2D图像上工作[10，34，26，3]中的方法将3D点投影到多个视图上的

2D图像中，并用多视图CNN处理它们。[11，26，50，16，33]中的方

法将3D点绘制成3D体素，并应用3D CNN来提取特征。但是3D CNN的

时间和空间复杂度很高。然后提出基于八叉树的3D CNN [29，48]用

于对具有高分辨率的3D体积进行有效计算，但仍然受到大量输入数

据的影响。

PointNet [25，27]是最近提出的一种方法，其直接将无序点集作

为输入，并且能够学习点集上的特征在基本PointNet [25]中，每个

输入点通过多层感知器网络（MLP）映射到特征向量，其中权重

在所有输入点之间共享然后，向量最大运算符将每点特征聚合成

对输入点的不同排列不变的全局特征提取的全局特征和每点特征

可以用于各种任务。的

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

PointNet驱动的3D手势估计算法：挑战与增强现实应用

基于AAM和POSIT的三维头部姿态估计

基于照片的三维人脸建模

基于深度学习的三维点云语义分割方法综述.pdf

在三维激光扫描技术应用于输电线路铁塔建模的过程中，如何确保点云数据的处理精度和转换效率？

如何在果树冠层三维点云数据中应用信息融合技术进行有效拼接？请结合多源信息融合技术介绍关键步骤和方法。

三维重建使用的是图谱GCN还是空间GCN

vtk显示双目视觉测量得到三维点的点云图

colmap和openmvs三维重建

如何搭建一个基于线激光的三维扫描系统来测量圆柱面

SFM三维点云建模的建模算法

最新资源