分层混合密度网络解决3D手姿估计中的自遮挡问题

191 浏览量更新于2024-06-20 收藏 1.27MB PDF 举报

“基于分层混合密度网络的3D手姿态估计方法” 3D手姿态估计是计算机视觉领域的一个重要课题，主要涉及从二维图像或深度数据中恢复三维手部关节的位置。这个任务的复杂性在于手部的大幅度运动、视角变化以及自我遮挡问题。自我遮挡尤其在第一人称视角（即自我中心视角）中造成困难，因为手的一部分可能会遮挡住其他部分，使得直接的单值映射预测方法难以准确估计所有关节位置。分层混合密度网络（Hierarchical Mixture Density Networks，HMDN）是为了解决这些问题而提出的新方法。HMDN结合了特征学习与多模式建模，以更好地处理遮挡情况下的不确定性。它利用卷积神经网络（CNN）提取深度图像中的特征，这些CNN通常在手部姿态估计任务上经过预训练，具备高效的特征提取能力。然后，HMDN在两级层次结构中工作，能够协调单值和多值映射，以捕捉遮挡关节可能出现的不同模式。传统的判别方法，如单一的CNN，只能输出一个确定的预测结果，这在处理自遮挡时不够充分。HMDN则通过混合密度函数来建模多模态分布，允许生成多个可能的解，从而提供多样化的候选姿态。整个框架是端到端可训练的，即网络的每个部分，包括密度函数，都可以通过反向传播优化。实验结果显示，HMDN在处理遮挡情况时的表现优于现有的技术，在两个有遮挡的基准测试上取得了显著的提升。而在无遮挡的基准上，它的性能也与最佳方法相当。这一进步对于那些依赖准确手部追踪的应用，如虚拟现实、手势识别、活动识别和自动驾驶，具有重要意义。关键词强调了3D手位估计、遮挡处理、多值映射、卷积神经网络和混合密度网络的重要性。在介绍部分提到，尽管现有的大多数基准数据集是在第三人称视角下收集的，自我遮挡问题在第一人称视角中更为突出，这突显了在实际应用中解决这一问题的紧迫性。基于分层混合密度网络的3D手姿态估计方法通过创新的网络架构和训练策略，成功地解决了自我遮挡带来的挑战，提高了3D手部姿态估计的准确性和鲁棒性。这种方法不仅在理论上有价值，而且在实际应用中具有广泛潜力，有望推动相关领域的技术进步。

Qi Ye，Tae-Kyun

Kim

开发用于手-对象交互[23，42，33]，其中经常发生遮挡，将手和对象

一起建模以解决遮挡问题。Jang等人[13]和Rogez等人[28]利用姿态因

子来细化估计。Franziska等人[16] Rogez et al.[27]生成合成图像以训练

用于困难的自我中心视图的判别方法。

在人体姿态估计和对象关键点检测中，更明确地处理遮挡[10，4，

26，8，32，5，12，17]。Chen等人[5]和Ghiasi et al.[8]学习遮挡部分的

模板Hsiao等[12]构建遮挡模型来对遮挡区域的似然性进行Rafi等人[26]

和Wang et al.

[44]利用背景中的信息来帮助定位被遮挡的关键点。Charles等人[4]根

据遮挡推理评估自动标注。Haque等人[10]分阶段联合细化可见部分和

可见性遮罩的预测Navaratnam等人[17]通过帮助估计关节密度的边缘

分布来处理3D人体姿态的多值映射

现有的方法不解决多模态，也不对可见和被遮挡关节的分布差异

进行建模。对于基于CNN的手部姿势回归[19，20，41，46]，使用的

损失函数是均方误差，在遮挡下带来了上述问题对于基于随机然而，

在没有关于哪些关节可见或被遮挡的信息的情况下，所有叶节点中的

数据通过均值漂移（单峰分布）或高斯混合模型（GMM ）来捕获

[36]。

2.2

混合模型

混合密度网络（MDN）在文献[1]中首次提出，它使神经网络能够通过产

生概率分布来克服均方误差函数的限制。Zen等人。[49]使用MDN进行声

学建模，Kinoshita等人。[15]语音增强。Variani [43]建议共同学习特征

和GMM模型。所有这些工作应用MDN来建模声信号，而无需适应混合

物密度模型。除了应用MDN建模的手姿态空间时，存在多种模式，由于

闭塞，我们扩展MDN的两级层次结构，以适应特定的混合单值和多值的

问题，手姿态估计闭塞下的应用。为了在噪声下对数据进行建模，

[

6]中

提出了

一

种类似的分层混合模型，以便

通过不同

的子组件来

“使用”

和“

不

使用

”

与工作不同的是，我们对条件分布进行建模，

并使用CNN来区分学习模型参数。

分层混合密度网络

3.1

模型表示

学习模型的数据集由{

，

= 1

，…

，

= 1

，…

}，

n n

其中

、

和

表示第

η个

手深度图像，多个姿势标签表示第η个手深

度图像。

n n

剩余18页未读，继续阅读

cpongm

粉丝: 6

分层混合密度网络解决3D手姿估计中的自遮挡问题

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源