深度与RGB图像的三维手形和姿态估计方法综述虚拟现实智能硬件

177 浏览量更新于2024-01-24 收藏 833KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：黄林，张博深，郭志林，肖扬，曹志国，袁俊松基于深度和RGB图像的三维手形和姿态估计综述虚拟现实智能硬件，2021，3（3）：207-234DOI：10.1016/j.vrih.2021.05.002虚拟现实智能硬件2021年第3·回顾·基于深度和RGB图像的三维手形和姿态估计方法林黄G1#，博舍ZHANG2#，ZHILINGUO3，YANGXIAO4*，ZHIGUOCAO4，JUNSONGGYUANN11. 美国纽约州立大学布法罗分校计算机科学与工程系2. 优图实验室，腾讯，中国上海2011013. 美国哥伦比亚大学傅基金工程与应用科学学院计算机科学系4. 华中科技大学人工智能与自动化学院多光谱信息处理国家重点实验室，武汉430074#平等贡献*通讯作者，Yang_Xiao@hust.edu.cn投稿时间：2021年1月1日修订日期：2021年3月1日接受日期：2021年3月10日国家重点研发&计划（2018 YFB 1004600）;国家自然科学基金（61502187，61876211）;国家自然科学基金资助（1951952）。摘要基于视觉的人手三维形状和姿态估计由于其在自然人机交互等应用中的重要作用而受到广泛关注。随着大规模带注释的手部数据集的可用性和深度神经网络（DNN）的快速发展，已经提出了许多基于DNN的数据驱动方法来进行准确和快速的手部形状和姿态估计。尽管如此，复杂的手的发音，深度和规模的模糊性，闭塞和手指相似性的存在仍然具有挑战性。在这项研究中，我们提出了一个全面的调查国家的最先进的3D手形和姿态估计方法使用RGB-D相机。还讨论了相关的RGB-D相机，手部数据集和性能分析，以提供对最近成就的整体看法。我们还讨论了这个快速发展的领域的研究潜力。手部测量;三维手位估计;手形重建;手物交互; RGB-D相机1引言基于视觉的人手三维（3D）形状和姿态估计用于仅基于视觉观察来估计3D手部形状表面、3D手部关节位置和重要手部状态，而不需要诸如标记或手套的附加感测设备。作为计算机视觉中一个长期存在的问题，它在人类行为分析和理解中的主要作用导致了许多实际应用。2096-5796/©版权所有2021北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2021年第3手是人体中机械和解剖学上最复杂的部分之一。给定重建的3D手部形状表面和姿势，它实现了基于非接触手势的人机交互（HCI），因此可以用作虚拟现实（VR）、增强现实（AR）、交互式游戏和计算机辅助设计（CAD）的直观和沉浸式界面，这也可以有益于识别任务，例如动作识别和手语识别;其他潜在的应用包括机器人技能和机器人抓取的基于模仿的学习。尽管多年来在文献中进行了广泛的研究，但由于复杂的发音，方向上的大变化，严重的深度和尺度模糊，严重的遮挡以及缺乏特有的局部特征，它仍然是一个具有挑战性的问题。最早的方法之一主要依赖于模型驱动的方法，通过将3D关节手模型[1-6]拟合到输入视觉数据来找到最佳的手形表面和姿势参数。尽管这种方法已被证明是有效的，但它需要复杂的个性化模型校准，对初始化敏感，并且容易陷入局部极小值。随着微软Kinetic和英特尔RealSense等商用深度相机捕获的大量带注释手部数据集的可用性，数据驱动方法变得更加有利，并导致基于深度的3D手部姿势估计取得了重大进展。这一领域的早期工作利用基于搜索的方法，这在高维空间中不能很好地执行。随后的基于随机森林的技术及其变体受到手工特征使用的限制。随着近年来深度学习算法的进步，我们可以利用深度学习模型的能力，在给定输入深度数据的情况下，以端到端的方式学习可感知的手部先验和特征，这已经显示出了有希望的结果。最近，越来越多的研究集中在开发更实惠和方便的基于RGB的解决方案上。虽然基于RGB的3D手部分析是一项更具挑战性的任务，并且由于增加的深度和尺度模糊性而成为固有的不适定逆问题，但以前的工作已经获得了有希望的3D姿态估计结果。最近，对于更多潜在的实际应用，快速增长的研究文献的主体已经集中在密集的3D手部表面重建，除了单独工作在稀疏的3D手部关节定位。尽管3D手形和姿态估计任务的发展令人印象深刻，但大多数现有的研究都集中在只有手的情况下。手-物交互（HOI）场景下的3D手部重建领域受到的关注要少得多。然而，由于我们在日常活动中频繁使用双手，与周围物体的互动一直是人类日常行为的重要组成部分，特别是通过手感知和操纵日常物体。因此，恢复与物体交互的3D手的能力对于解释和模仿人类行为也具有实际重要性，从而导致许多应用，包括VR/AR，监控，有形计算，抓取，远程操作和机器人学习。近年来，我们也观察到越来越多的兴趣和研究在HOI场景下的3D手部分析。2挑战分析尽管近年来取得了显著的成功，但关节式3D手部形状和姿态估计仍然是一个很大程度上未解决的问题，并且工业界和学术界都在广泛研究。该3D估计任务的问题和模糊性主要基于以下因素。发音清晰。为了准确地估计3D手部姿态，重要的是对人手的关节以及运动学结构进行人的手由五根手指组成，每根手指都是一根手指。208Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述运动链包含具有一个或两个自由度（DoF）的手部关节，如图所示1. 作为具有大自由度的高度铰接的对象，手也具有固有的结构。还应当捕获同一手指内的关节之间以及手指之间的关节之间的依赖性以用于姿态估计。我们还有一个额外的6自由度的全球方向和位置，手掌。当我们专注于3D手部姿势本身时，这六个自由度可以忽略不计，图1手的姿势示例[7]。对应于局部手指运动而不是全局运动。导向如前所述，我们有六个自由度的手掌表示旋转和平移的全局手部运动。除了手本身旋转之外，它还可以通过许多方式从各种视图中相对于相机进行捕获。为了准确的3D姿态估计，应该精确地对手的全局取向中的大变化进行建模。闭塞。由于三维到二维（2D）的投影，从单目2D观测推断3D结构是一个不适定的反问题，其中可以找到多个合理的3D解。在2D域中，所观察的手的某些部分通常在操纵期间被其自身的部分或其他对象遮挡，并且因此不可见。此外，如之前的文献[8，9]中所述，由于人手具有高度的关节连接和固有的结构，因此学习模型应该能够从输入中提取和整合不同尺度的特征，以生成精确的姿势结果。然而，无法看到某些手部部分导致有用信息的丢失和精确手部姿势估计中的巨大模糊性，从而导致一对多映射。根据之前的研究[10-12]，闭塞问题是导致机器性能不佳的主要原因。图2闭塞手的示例。来自STB[13]的左图和来自纽约大学[1]的中图显示了手被遮挡自己的一部分。FHAD[14]的右图显示了被操纵对象遮挡的手。自相似性。与人类的衣服、眼睛和嘴巴不同，人类的手在五个手指上有几乎统一的外观。这种特征性局部特征的缺乏可能增加区分不同手部部分（包括关节和手指）的困难，这可能导致不可信的手部姿势结果。深度和比例模糊。作为一个不适定的逆问题，它是很难估计的绝对三维手姿态在全球范围内的相机坐标系，因为深度和规模的模糊性，特别是与一个单一的RGB帧作为输入数据。具体地，深度可以被称为手表面顶点或姿势关节相对于根关节的深度，以及深度轴中的绝对手根（手掌）位置。该比例代表观察到的手的全局比例。简单地依靠学习模型来解决这两个模糊性通常是行不通的，或者可能导致严重的过度拟合。209虚拟现实智能硬件2021年第3训练数据中存在的环境和主题。先前的工作或者选择用强假设/先验（诸如给定的3D根部位置和手部的全局尺度）来估计根部相对和尺度不变的手部表示[15，16]，或者选择将绝对3D手部姿势恢复到缩放因子[17，18]。这个问题变得更加具有挑战性，特别是当专注于裁剪的手部区域和其他问题，如遮挡和自相似性。噪声与被动收集（大部分）准直光束的RGB相机相比，深度相机要么主动发射从物体反射回来的光，要么使用立体视觉从不同角度比较同一物体的图像。然而，主动发射的光和立体视觉随着距离而衰减。因此，深度相机会受到大量噪声的影响，这些噪声会随着对象移动得更远而增加。因此，从深度图像构建的点云将是非常不准确的，并且点云上的区域通常会丢失，这显著增加了训练和应用难度。图3来自NYU Hand Pose Dataset的嘈杂手部深度图示例[1]克拉特对于捕获的RGB图像，人手通常会融入其环境中，使其难以检测。有限的数据集。注释数据集对于基于深度学习的方法至关重要。然而，正如本调查后面所讨论的，每个公共数据集都有自己的局限性，例如规模和可变性。很少有数据集涵盖3D手部姿势估计的所有方面。3RGB-D相机如在先前的工作[11]中所述，存在多个路径来捕获可以被评估以提取手部姿势的信息。例如，相机可以捕获手表面的部分（被遮挡）状态以推断关节的真实位置。使用弯曲传感器或触觉传感器的数据手套收集关于手的每个区域上的角度或压力的静态或动态数据，以预测相对手部姿势。运动或惯性传感器记录手在一定时间内的运动，并使用先验知识来推断手的手势。在用于收集手势信息的方法中，相机可能具有最广泛的应用范围。2020年，全球人口为78亿人[19]，其中69.5亿人拥有手机[20]，手机很可能带有摄像头。此外，有35亿人使用智能手机[21]，这些手机通常可以访问相机和可以运行计算机视觉相关软件的架构。因此，相机被认为是最经济实惠和最有前途的方法，用于捕获手姿态信息与有意义的应用。与在每个像素处产生具有3通道RGB值的图像的RGB相机相比，深度相机在每个像素位置处产生具有z轴值（深度）的图像以创建变化范围的地图。有两种流行的深度相机设计，一种使用光的飞行时间直接测量距离，另一种使用三角测量。210.Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述3.1飞行时间（TOF）相机创建距离图最直接的方法是通过发射波（声波，无线电或光）并测量发射波在物体上反弹并返回所需的时间来直接测量距离，就像雷达和声纳一样。飞行时间深度相机也使用这一原理，它们采用发射器阵列向场景发射光，而为了计算距离，将传感器板（接收器）放置在深度相机的光学器件后面以接收反射回来的光[22]。3.2三角测量（立体）相机距离信息也可以使用基于三角测量的深度相机基于从不同视点观察时的差异来提取，这是人类如何用两只眼睛感知深度。一种最紧密遵循该原理的深度相机是立体视觉相机，其通常由两个相机组成，以比较两个图像中相同对象的视觉差异，或者主动地使用光发射器或者被动地。另一种类型的三角测量深度相机是结构光。这种类型的深度传感器只有一个相机，但它使用激光投影仪将光图案主动投影到场景上，激光投影仪通过对投影图案执行三角测量来解释深度，如相机所看到的原始图案。3.3英特尔RealSense和微软Kinect用于手势估计的最广泛使用的深度相机系列之一是英特尔实感。使用有源或无源红外立体传感器，这一系列深度相机产品拥有高近距离精度，非常适合捕捉精确的手势[23]。另一个众所周知的深度相机系列，有助于深度传感的广泛负担能力和可用性是微软Kinect系列，如图4所示图4Xbox 360 Kinect内部[25]。其首先使用结构光立体传感器，然后切换到飞行时间方法。Kinect最初是为游戏市场而不是专业设置制造和定价的，它提供了巨大的价值，因为它配备了深度传感器，RGB摄像头和麦克风[24]。3.4深度相机限制和噪音与RGB相机不同，只要能见度允许，它可以有几乎无限的成像范围，常见的消费级深度相机，如微软Kinect 2.0，深度范围为0.5至4.5米[26]。由于成像范围如此狭窄，很难构建训练数据集和真实世界的应用程序。最近，一些深度相机已经被设计为具有高达18米的深度范围[27];然而，这样的相机可能更昂贵或有点难以集成到现有系统中，并且深度范围通常非常嘈杂。如上所述，噪声是与深度相机相关的另一技术约束。与被动收集（大部分）准直光束的RGB相机相比，深度相机要么主动发射从物体反射回来的光，要么使用立体视觉从不同角度比较同一物体的图像。然而，主动发射的光和立体视觉随着距离而衰减因此，深度相机211虚拟现实智能硬件2021年第3受到大量噪声的影响，该噪声随着物体移动得更远而增加。因此，从深度图像构建的点云将是非常不准确的，并且点云上的区域通常会丢失，这显著增加了训练和应用难度。与遮挡和姿态变化相反，深度相机的技术限制通常可以用更好或更新的技术来改善。然而，这种改进往往是有成本的，无论是在设备投资或时间。4最先进的基于深度图像的方法通常，使用深度图像的现有技术的3D手部姿态估计方法可以被分类为两组，即基于生成（模型）和基于判别（学习）的范例。生成方法也被称为基于模型的方式。根据手部解剖结构的先验知识，需要3D手部模型。在手势估计过程中，它被迭代地优化以适应输入的手形。判别方法通常以数据驱动的方式运行。也就是说，输入深度图像和3D手关节位置之间的关系经由回归或检测直接建立。最近，深度学习技术由于其强大的模式拟合能力而促进了这种模式。此外，基于深度学习的方法是本研究的主要重点。然而，它们仍然存在数据饥渴的问题，存在潜在的过度拟合风险。4.1生成方法作为生成范例的3D手模型被构建以满足骨骼模型[1，2]，球体模型[3，4]，三角网格模型[5]，圆柱模型[6]等形式的手形态约束。这些模型中的参数通常使用来自前一帧的姿势进行初始化。然后定义非凸能量函数来测量真人手和所选手模型之间的差异。真人手和手模型通常使用手工制作的视觉特征从深度值，边缘，轮廓，阴影和光流的角度进行表征[5，28 -32]。在姿态优化过程中，能量函数被迭代地最小化。粒子群优化（PSO）[33]，迭代最近点（ICP）[34]和其他非线性优化算法[35]经常用于解决这个问题。生成性方法的主要缺陷在于这三个方面。首先，性能对模型初始化敏感。同时，大多数生成式方法的在线运行效率对于实际应用场景来说不够高。此外，由于手工制作的3D手模型的限制，泛化能力不能得到保证。最近，基于深度学习的判别方法受到了更多的研究关注。在这个框架下，一个微妙的3D手模型初始化和在线迭代优化是必需的。此外，它们在几个模型3D手部姿势估计数据集上实现了最先进的性能，在有效性和效率方面显示出强大的实际应用潜力。接下来，我们将详细介绍和讨论基于深度学习的判别方法。4.2判别方法：基于回归的在这项研究中，3D手部姿势估计任务被制定为一个非线性回归问题，其中输入深度数据和输出关节坐标的映射直接学习。通常使用深度神经网络进行端到端学习以直接预测连续关节坐标[36-42]，以便将特征提取和回归的过程联系起来。当直接对深度图像进行回归操作时，通常使用2D CNN他们有212Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述已经在基于RGB的2D人体姿态估计任务方面取得了巨大成功[43-47]。由于深度图像与RGB对应图像具有相同的维度，因此也可以对其应用2D CNN。基线方法涉及以一个阶段的方式进行全局回归[36，37]。然而，这往往会丢失精细的视觉线索，这可能会削弱性能。一种解决方案是除了初始全局回归结果之外，还通过多级级联回归[36，37，40]执行局部细化。另一种方法是提取多个局部区域特征，这些特征由各个完全连接（FC）层表征，并通过级联将局部特征融合为全局回归的整体特征[38]。这可以被认为是一种特征级的局部集成方法。从本质上讲，局部区域可以更好地保持精细的视觉线索，局部特征拼接旨在捕获全局上下文信息。最近，A2J[48]提出将决策级局部集成学习作为一个阶段的方法。特别地，每个局部区域首先通过估计手关节朝向预定义锚点的位置偏移来单独地执行预测手关节的3D位置的作用。然后，从多个局部区域的预测结果进行聚合的线性加权投票。整个过程可以以端到端的方式进行训练。由于集成学习机制的引入，可以显着提高泛化能力，特别是对于未知的情况。同时，为了更好地捕捉手部的3D特征，深度图像还可以被转换为点集或体素形式。因此，可以使用3D深度学习方法来促进经由回归的3D手部姿势估计。代表性的例子包括3D CNN[49-51]和点集网络[52，53]。在3D CNN框架下，深度图像首先被体素化为体积表示（例如，占用网格模型[54]或投影D-TSDF体积[41]）。然后，使用3D卷积捕获关节的3D视觉特征。尽管性能增强，但3D CNN通常具有比其2D对应物大得多的模型大小。这导致了一个缺陷，即它相对更难以训练，并且它遭受更高的过拟合风险。另一方面，最近出现的点集网络（e。例如，在一个实施例中，Pointnet[52]或Pointnet++[53]）比3D CNN甚至2D CNN要轻量级得多，但仍然具有强大的3D模式表示能力。利用点集网络，预先将深度图像变换为点云形式作为输入。一些预处理程序（e.例如，在一个实施例中，点采样和k-最近邻搜索）在这些方法中是需要的[55，56]。在3D CNN和点集网络框架下，使用全连接层执行回归操作。除了点集或体素形式之外，涉及更丰富的3D描述性线索的另一种方式是在深度图像上进行多视图投影[41]。此外，提出了一种多视点二维CNN模型，用于融合多视点信息。4.3判别方法：基于检测基于检测的方法通常对深度图像、点集或体素集进行密集预测，以产生密集概率图（即，例如，[2019- 05 - 15][2019 -05]为此，将一些去卷积层添加到骨干2D CNN，3D CNN和点集网络中，以估计每个关节的热图特别是，全卷积网络（FCN）[8]（基于2D CNN），V2 V[51]（基于3D CNN）和P2P[60]（基于点集网络）是用于3D手部姿势估计的代表性基于编码器-解码器的密集预测网络。值得注意的是，编码器-解码器网络结构可以保持更丰富的空间上下文信息。因此，基于检测的方法通常比基于回归的方法更准确[62]。然而，嵌入式反卷积操作是耗时的。另一个基本问题是，大多数基于编码器-解码器的方法不能完全端到端地训练用于联合位置预测[47]。213虚拟现实智能硬件2021年第3已经提出了联合实现基于回归和基于检测的范例的优点的混合方法。提出了一个积分回归损失函数[63]来测量预测的热图和人类标记的关节坐标之间的距离。它实现了编码器-解码器网络的端到端训练。A2J[48]通过聚合多个锚点的偏移估计结果来预测3D关节位置。设置具有不同聚合权重的锚点的方法可以被视为近似稀疏热图表示。HandVoxNet[64]遵循V2V来预测3D关节热图，然后将此结果拆分为体素化的手部形状和形状表面表示。通过学习形状表面到体素化手形的映射，精确地回归3D手形。HandMap[65]提出通过基于回归的框架中的中间监督来利用密集热图。4.4区别对待办法：结构性限制人类的手是一个高度铰接的3D结构。生成方法将手部解剖学的先验知识嵌入到预定义的手部模型中。因此，可以避免一些运动学上不可信的姿态估计结果[3-6]。然而，在数据驱动的判别框架下，任何预测的关节组合可能会出现，如果没有事先的结构约束的手，特别是在一个相对较小的规模的数据集。为了解决这个问题，研究工作已经取得了嵌入的手结构的限制到歧视性的方法。一些研究集中在物理手部运动限制[2，36，37，55，60，66 -70]。然而，主成分分析（PCA）用于将原始特征投影到更低维空间中，以进行更稳健的3D手部姿势估计[36，37，55，60]。PCA可以压缩特征的维数，但仍然保留了主要的内在信息。因此，可以抵抗精细噪声图案的影响，以更好地捕获主要的3D手部结构。同时，其他一些努力集中在通过学习手部关节的潜在分布[68]或设计基于前向运动学的层[2，69]来整合手部运动学线索，以确保估计的手部姿势的几何有效性。对自然手部运动和变形的物理约束也被认为是用于定义损失函数的正则化[66]。最近，将用于自然语言处理的Transformer模型[71]引入到3D手部姿势估计中，以便更好地利用手部关节之间的结构相关性[67]。4.5判别方法：多阶段预测仅用一次前向传递来获得准确的关节位置是具有挑战性的，因为手部姿势基本上是铰接的，并且输入深度图像与关节坐标之间的映射函数是高度非线性的。提高性能的一种方法是用迭代精化进行多阶段预测。Deepprior[36，37]由两阶段估计组成。特别地，第一阶段使用2D CNN进行全局回归。基于该初始结果，对每个关节独立地执行局部细化以促进准确性。SRN[72]提出了一种简单有效的方法，通过堆叠多个可微的重新参数化模块来从2D深度图像估计3D手部姿势，这些模块直接从关节坐标构建3D热图和单位向量场。与单阶段方法相比，多阶段方法的性能得到改善的原因之一是使用了中间监督。这提供了强大的辅助信息来指导深度神经网络的调整。同时，前一阶段的预测结果可以被视为下一阶段的输出锚。因此，可以实质上压缩输出空间搜索复杂度。换句话说，具有挑战性的非线性3D手部姿态估计任务已经被分成相对简单的214Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述顺序子任务。4.6判别方法：包围预测几乎所有现有的3D手部姿势估计深度学习方法都是基于神经网络的，这得益于神经网络强大的非线性拟合能力，但也存在固有的过拟合风险。模型集成是一种广泛使用的机器学习技术，用于减轻过拟合以提高性能[73，74]。集成学习思想也被应用到三维手势估计。一种尝试是将姿态参数分解为三个每像素估计，即，2D热图、3D热图和单元3D方向向量场[8]。为了在训练阶段期间联合地估计2D和3D输出，可以同时考虑深度图像内的2D和3D几何特性以利用性能。对于在线推理，均值漂移方法以集合方式将所有像素级估计证据聚合到整体3D关节坐标中。Hand branch ensemble（HBE）[75]提出了一种通过三分支网络结构的特征集合。A2J[48]通过软投票从密集设置的锚点聚合姿态估计结果，以实现更好的泛化。JGR-P2 O[76]将3D手部姿势分解为关节的2D图像平面坐标和深度值。估计模型以集合方式预测这些参数，该集合方式由端到端可训练像素到偏移模块获取。最近，AWR[77]使用2D方向单位向量场和接近度热图来增强联合偏移预测。预测关节偏移而不是坐标的范例实际上可以帮助简化具有广泛应用的3D手部姿势估计[36，51，59，62 -67]。另一个集成学习流涉及通过后处理进行模型集成。集成策略包括训练时期集成[51]，骨干网络集成和测试时间增加[62]。4.7区别性方法：合成数据通常，所有基于深度学习的3D手部姿势估计方法都存在数据饥饿问题，从而削弱了泛化能力。解决这一问题的一种可行方式是使用合成数据来避免高负担的人工注释工作，因为合成数据中的3D关节位置是预先已知的。然而，合成数据的伪影使它们与真实数据区分开来。这是因为在合成数据上训练的深度学习模型不能推广到真实数据。为了解决这个问题，应用生成对抗网络（GAN）[78]来增强合成数据的真实性[79]。有人建议通过训练端到端网络来进行合成和未标记真实数据之间的域自适应[80]。MANO[81]是最近提出的一种参数化合成数据生成模型，它是从大约1000个高分辨率3D手部扫描中学习到的，这些扫描具有各种手部姿势。它也已成功应用于HANDS19挑战[82]。通过学习两个域的特征映射，也可以实现合成数据和真实数据之间的域转换[83]。在此阶段，特征学习和姿态估计被联合考虑。4.8判别式方法：弱监督、自监督和半监督学习缓解数据饥渴问题的另一种方法是进行弱监督或自监督学习。这倾向于更好地利用未标记或弱标记的数据。为此，提出了一种深度正则化器，将完全注释的合成数据集应用于弱标记的真实世界数据集[84]。在215虚拟现实智能硬件2021年第3具体地，深度图是从预测的3D姿态生成的，并且用作3D姿态回归的弱监督。然而，进行自监督学习是为了通过设计可微分模型拟合项来利用无监督模型拟合和判别方法的互补优势[85]。SO-HandNet[86]通过利用手部特征编码器从手部点云提取多级特征来构建弱监督姿势估计器，然后将其融合以回归3D手部姿势。CrossingNets[87]使用具有共享潜在空间的两个深度生成模型对3D手部姿势和相应深度图之间的统计关系进行建模。它以半监督学习的方式运行，并由未标记的数据利用。5深度数据集在深度学习管道中，数据集与模型本身一样重要。倾向于更广泛任务的模型通常需要尽可能全面的数据集，以涵盖更多的现实世界的可能性，而如果训练数据也被专门化以最大限度地减少干扰，则更专业的模型有时可以实现更好的结果。因此，构建了许多数据集用于手部姿势估计，其中一些数据集是用深度相机从现实世界的对象捕获的，而其他数据集是合成的。在本节中，我们在表1中列出了按年份排序的深度数据集，介绍了几个流行的深度数据集，并讨论了一些改进数据和数据集的解决方案。表1深度数据集数据集关节号科目号帧RGB年[第88话]21502.9万是的2020[第89话]21155,000是的2020[90]第九十话网格N/AN/A没有2019奥博曼[70]网格N/A150,000是的2019FHAD[14]21 6100,000没有2018年RHD[15]新加坡旅游局[13][94]第94话最后一句MSRC[95] 21 13,014100,000是否20162015MSRA 15[96]21976,375没有2015HandNet[97]610203,000没有2015行动起来[98]N/AN/AN/A没有2014[99]第一届中国国际航空航天博览会MSRA 14[4]2162,400没有2014[第100话]262400是的2014ASTAR[101][102]第102话20 306 18702,137否是201320135.1NYU Hand Pose数据集最著名的基于深度的HPE数据集之一是NYU Hand Pose Dataset（NYU）。在训练数据集中，一个人总共捕获了72757个深度帧，而在一个人身上捕获了8252个深度帧。216[91]第二十一话网格N/A5百万没有2018[92]第二十二话21102.2百万没有2017[93]第二十三话541,485是的2017[93]第九十三话21263,530是的2017212043700是的201721118,000是的20171610332,500没有201436280,000没有2014Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述测试数据集的两个人。三个Kinect被用来捕捉每一帧，一个从前面，两个在侧面[1]。5.2ICVL数据集ICVL数据集是使用一个创造性的交互式手势相机在10个不同手大小的受试者身上捕获的，然后在“基于动态的3D骨骼手跟踪”的基础上手动细化。因此，原始ICVL数据集包括180，000个带注释的训练帧和1000个测试帧，以及更新后合并的330，000多个帧[99]。5.3MSRA15数据集MSRA 15，或MSRA手势数据库，使用创意互动手势相机捕捉9个测试对象右手的17个不同手势。每个手势大约保存500帧，数据集总共包含76，375帧，其中21个关节来自第三人称视角[97]。5.4BigHand2.2M数据集BigHand2.2M被著名的2017年Hands in the Million Challenge所使用，它与传统的合成或手动注释数据集不同，它使用了一个跟踪系统，该系统带有多个连接到手指上的六维（6D）磁传感器，并结合深度相机自动捕获注释帧。不需要手动注释，BigHand2.2M数据集包含220万个深度帧，并且更接近于覆盖人类手部关节的全部范围[92]。5.5渲染的手部姿势数据集（RHD）使用真实数据构建的数据集通常存在数据变化不足和注释不准确的问题。为了补充这些真实的数据集，渲染的手部姿势数据集（RHD）使用Blender渲染的3D模型来创建准确的合成数据，试图以更高的准确度覆盖罕见的姿势。因此，RHD包括20个角色模型和39个动作，并提供41，258个训练帧和2，728个测试帧[15]。5.6数据集改进解决方案在定性评估用于手部姿势估计的深度数据集时，应考虑几个度量。第一个指标是深度数据集中包含的帧的数量;训练中使用的帧越独特，通常训练结果越好。大多数深度学习模型的训练过程也是如此。第二个指标是手部姿势的多样性。人手是一种高自由度的关节模型，可以执行几乎无数的姿势，其中一些姿势比其他姿势使用得更频繁。模型无法很好地学习训练数据中几乎看不到和捕获的罕见手部姿势;因此，训练中缺乏手部姿势多样性将导致测试数据或真实世界应用的性能较差。此外，人手还可以与各种对象进行交互，并出现在训练数据集中的不同背景中，因此如果存在各种对象或背景，则具有各种对象或背景也很重要。另一个度量标准是数据注释的质量或准确性。许多数据集和模型都认为作为手指和手掌的关节模型的人手;实质上，是一组骨骼。相比之下，当数据集不是合成的时，为了训练而捕获的RGB或深度图像仅看到人类皮肤而看不到皮肤。217虚拟现实智能硬件2021年第3骨头这导致注释不准确的问题，因为人类或机器注释者（带数据手套）不具有真实骨骼位置，并且只能提供估计。此外，不同的人类数据注释者可以有不同的估计，并且建立标准具有挑战性。我们讨论的最后一个指标是合成数据集与真实数据集。如上所述，真实深度数据集具有有限数量的数据帧、有限的稀有手部姿势的固有问题，并且易于出现不准确的注释。相比之下，在模拟环境中创建的合成数据集可以具有更多的数据帧以及手部姿势，并且可以在更接近地面真实的相同标准但是，合成数据集可能与真实数据集不同，数据，导致模型的泛化能力差。针对上述指标，在实践中使用了几种数据扩充和数据集改进解决方案。获取更多真实数据。改善任何数据集的一个简单方法是收集更多的数据。数据集最重要的特征之一是训练集和测试集中的样本数量。此外，由于真实数据通常是使用深度相机以视频格式或深度图像流来捕获的，因此在人手上简单地积累原始深度数据帧并不困难。然而，可能难以获取适合于手部姿势估计训练的许多高质量帧。第一是多样性和多样性的要求。人手本身在其大小、长度、宽度、手指和手掌的构造、肌肉等方面因人而异，并且找到足够的测试对象来合理地覆盖所有可能的差异可能是困难的。此外，一些任务需要对象交互或背景噪声消除;因此，在为这些任务构建数据集时，需要使用多种类型的对象，姿势和背景。由于这种困难，即使一些现有的深度数据集包含高达数十万甚至数百万帧，例如ICVL[99]和BigHand2.2M[92]，HPE上使用深度图像的最知名的真实数据集也是在不到12个独特的测试对象上捕获的，除了ASTAR数据集使用30名志愿者[101]。与收集更多真实数据相关的第二个困难是注释过程。在许多计算机视觉数据集中，数据注释是由人类数据注释者完成的，因此大规模数据集的构建需要大量的时间和资金投入。然而，收集手部数据的一个独特优势是数据手套和磁性传感器的可用性，它们可以收集关节或手指的位置。为此，几个现有的深度数据集，如ASTAR[101]，HandNet[97]，FHAD[14]和BigHand2.2M[92]，使用这种技术来生成或辅助制作注释的过程。然而，诸如数据手套和磁传感器的辅助方法也有缺点，诸如设备成本高、注释不准确和摄像头遮挡。由于上述两个困难，带注释的大规模数据集相对有限。合成数据。合成数据是一个潜在的解决方案，以获得高质量的注释的真实数据集的困难。与使用深度相机和测试对象捕获的真实深度HPE数据相比，合成数据通常在具有3D手部模型和虚拟深度相机的模拟环境中捕获。合成数据集具有几乎无限的数据捕获和注释能力的优势，具有不同的虚拟测试对象，对象和背景。然而，虚拟3D模型还不能完全匹配手部关节运动期间的形状变化，并且合成深度图像仍然不同于真实输入。多个深度专属HPE数据集使用合成数据。SynHand5M[91]是一个专注于手部形状和姿势重建的合成数据集，它提供了形状和姿势丰富多样的深度手部数据，比一些现有的真实数据集更丰富使用生成的手部模型和虚拟218Lin HuANG等：基于深度和RGB图像的3D手形和姿态估计综述SynHand5M[91]可以提供450万训练帧以及50万帧。MSRC[95]数据集是另一种使用不同方法的合成数据集，其中检查并使用手部姿势的先验分布来防止生成不可能的姿势，并确保常见姿势具有最佳覆盖率。使用手动网格模型和计算机渲染器，MSRC可以提供10万个带注释的深度图像用于训练。使用合成数据来捕获RGB和深度帧的RGB-D数据集更常见。Ego3DHands[89]，SynthHands[90]和RHD[15]都使用逼真的3D模型和计算机渲染器来捕获RGB图像和深度图，并使用模型来提取地面实况注释。与3D模型渲染并行，基于模型的生成方法采用对抗网络来生成高保真合成深度图像。一个例子是SimGAN，它使用“模拟+无监督（S+U）学习”来拟合一个模型，该模型使用未标记的真实数据来提高合成数据相对于真实数据的可能性。使用来自纽约大学[1]手部姿势数据集的真实手部深度图，SimGAN[79]成功地将逼真的噪声添加到合成帧中，以更好地模仿深度相机捕获的不完美的真实帧。数据扩充和重新定位。对于有限的原始数据和注释，最常用的解决方案之一是数据扩充。流行的计算机视觉框架有数亿个参数，这反过来又需要超过一百万张图像的数据集来训练。由于受到上述限制，用于手部姿势估计的真实深度数据集通常不具有这样的特权，因此对数据增强的需求尤其重要。传统上，数据增强采用若干增强技术，诸如旋转、缩放、翻转、裁剪、平移、多视图投影和随机擦除。最近，出现了基于模型的增强方法，例如HandAugment[82]，它采用深度图像输入并使用神经网络来增强图像以裁剪不需要的区域，例如前臂，以提高手部姿势估计的准确性。另一种可能的方法是通过将其他数据集转换为用于手部姿势估计的深度数据集来重新利用数据。HUMBI[103]是一个这样的多视图网格人体数据集，具有772个非常不同的人体数据样本。使用107个空间校准的相机，数据集捕获网格几何中的高精度人类姿势表示，可以使用深度数据修改这些表示以进行手部姿势估计。6基于RGB图像的最新方法基于深度的方法的发展导致了3D手部分析的快速发展。然而，由于深度传感器通常价格昂贵且受到能耗的限制，并且由于其不适用于无约束的室外环境，因此高质量的深度图像主要可以在室内环境中捕获，因此我们也目睹了越来越多的研究，这些研究专注于更经济实惠且方便的基于RGB的3D手部形状或姿势估计解决方案。虽然基于RGB的3D手部分析是一项更具挑战性的任务，并且由于增加的2D到3D深度和尺度模糊性而成为固有的不适定问题，但现有的工作在3D手部重建的许多方面都显示出有希望的结果。与基于深度图像的方法的发展类似，从生成方法开始，研究重点已经转向数据驱动方法或数据驱动方法与模型驱动方法的组合。6.1生成方法类似于4.1节中为基于深度的方法引入的生成方法，我们直接拟合219虚拟现实智能硬件2021年第33D生成手模型，以通过迭代优化输入观察结果，以便重建3D手形状或姿势。相比之下，这里我们考虑从单个单目RGB帧重建3D手，这不能直接用作拟合对象。因此，多次尝试遵循类似的范例，将生成手模型拟合到从输入RGB帧预测的2D或3D关节位置，以进行3D手重建[93，95，104 -109]。6.2判别方法：2D到3D提升为了克服严重的2D到3D模糊性并在给定单目RGB图像的情况下对用于3D手部姿态估计的复杂接合进行建模，常规方法采用使用估计的2D模态（诸如用于直接3D手部姿态预测的2D姿态和热图）的2D到3D提升范例。在此管道之后，Zimmermann和Brox[15]介绍了第一个基于学习的多阶段框架，其中包括手部分割，2D热图估计以及用于根相对和尺度不变的3D手部姿势估计的2D到3D提升步骤。为了进一步提高估计手部姿势的解剖学可解释性，Mueller等人通过添加运动学3D手部模型来扩展该管道，旨在拟合估计的2D和3D手部姿势预测，以增强生物

下载后可阅读完整内容，剩余1页未读，立即下载