虚拟现实智能硬件中的单目3D手部姿态和形状估计方法研究

27 浏览量更新于2024-01-24 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

虚拟现实智能硬件2020年12月第3引文：李梦成，安良，俞涛，王延刚，陈峰，刘业斌。使用RGB图像的神经手重建。虚拟现实智能硬件，2020，2（3）：276-289DOI：10.1016/j.vrih.2020.05.001·文章·基于RGB图像的神经手重建李梦成1，李良AN1，TAOYU1，杨岗WANG2，车凤N1，叶斌LIU1*1. 清华大学自动化系，北京1000862. 东南大学，南京210096*通讯作者，liuyebin@mail.tsinghua.edu.cn投稿时间：2020年4月30日修订日期：2020年5月23日接受日期：2020年5月27日摘要背景本研究提出了一种单目3D手部姿态和形状估计的神经手部重建方法。方法采用一种新的UV位置图代替直接用3D数据表示手，用2D数据表示手的姿态和形状，将3D手表面点映射到2D图像空间。此外，提出了一种编码器-解码器神经网络来从单个图像推断这样的UV位置图。为了用不充分的地面真值训练对来训练该网络，我们提出了一种新的MANOReg模块，该模块采用MANO模型作为先验形状来约束UV 位置图的高维空间。结果定量和定性实验验证了UV 位置图表示和MANOReg模块的有效性。关键词手部重建;卷积神经网络;单幅图像;运动捕捉1介绍精确的无标记3D手部重建是诸如人机交互（HCI）、机器人、虚拟现实（VR）和增强现实（AR）等研发（R D）领域中的关键任务。需要附加传感器[1，2]或深度信息[3- 5]的传统方法在日常应用中不方便。手部三维重建的目标是从摄像机的观测数据中恢复出稠密的手部网格，替代手部关节的位置。几十年来，我们在从深度传感器数据中提取3D手部关键点方面取得了重大成功[6，7]。虽然深度数据可以提供手部可见部分形状的间接信息，但深度数据的有限传感范围和低分辨率阻碍了其在大规模VR场景或全身运动捕捉设置中的应用。随后，随着强大的深度学习技术[8]和线性统计手部网格模型[9]（称为MANO）的发现，研究人员可以从高保真的单个RGB输入中推断手部形状和姿势，并展示了有前途的野外应用[10- 13]。特别地，MANO是从大约1000个注册的原始手部扫描训练的参数化手部模型，其中低维主成分分析（PCA）参数空间近似于高维手部表面空间。虽然PCA参数空间编码姿态和形状信息，2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.comMengcheng LI et al：使用RGB图像进行神经手重建277图1 手动网格重建。（a）输入图像;（b）来自UV网格的2D骨架;（c）UV网格覆盖;(d) MANO结果重叠。它受到用于训练的原始扫描的限制。因此，它是一个具有挑战性的任务，以超过有限的表示空间的MANO模型。为了解决这个问题，Ge L et al.[12]提出使用基于Graph CNN的方法从图像生成3D手部网格顶点数据。然而，需要合成数据集或深度数据来训练令人满意的模型，这比关键点注释或直接图像视觉提示（例如，图像处理）更难获得。例如，在一个实施例中，面具）。如何超越只有关键点注释的MANO仍然是一个关键的任务。因此，我们提出了一种新的方法来执行手重建从图像的基础上UV位置图与CNN称为神经手重建。如面部对齐任务[14]所示，UV位置图提供图像坐标和UV空间位置之间的对应关系，并且可以从紧凑的UV图像表示生成更密集的3D网格。使用UV位置图进行手部重建是非常重要的，因为手部的高度非刚性铰接结构导致两个主要挑战。首先，不存在包含图像和UV位置图注释的现有数据集。其次，UV位置图表示的高维性质为CNN引入了一个重大挑战，即在没有大规模地面实况注释的情况下生成适当的手部姿势和形状。为了解决这些挑战，我们提出了一个完全弱监督的训练框架，该框架利用2D线索（2D关键点和手部蒙版）和稀疏3D线索（3D关键点）进行监督。注意，由于训练样本有限和UV参数空间的超高维度，在没有配对图像和UV位置图的情况下训练的模型将产生不真实的手形。因此，我们还提出了一个MANOReg模块，该模块利用MANO参数空间来显式正则化UV参数空间，使我们的网络能够将合理的形状和姿势与真实的视觉线索一起编码。我们的方法的一些手部网格重建结果如图1所示。最后，我们通过对采样网格的重新划分来检验UV表示的有效性和效率概括而言，我们的主要贡献如下：(1) 手部网格的UV 表示。首次采用UV 位置映射表示手网格模型，克服了线性参数模型（MANO）的有限表示能力。表示产生显着的手网格与视觉线索对齐。(2) 一种新的半监督训练网络结构。我们提出了一种新的神经网络和278虚拟现实智能硬件2020年12月第3弱监督策略从RGB图像中推断UV位置图，以及MANOReg模块来约束UV参数空间。(3) 我们展示了有希望的实时结果。我们的方法在GPU加速下以60 fps运行，从而实现实时工业应用。2相关作品2.1手模型表示手的表示是手重建的关键，近年来得到了广泛的研究。Oikonomy等人利用几何图元来模拟手部网格并缩放权重以调整骨骼长度[6]。为了适应深度图像，Wan等人使用41个球面来近似手部表面[15]。利用深度图像，Khamis等人使用线性混合蒙皮学习人手的表面变形[16]。Li等人使用预定义的手势来表示手部姿势。最近，Romero等人描述了一种新的手部统计模型MANO，该模型从大约1000个注册扫描中训练网格变形空间[9]。这些方法使用有限的参数空间来表示超高维的手表面数据。相比之下，我们提出使用UV位置图，其将密集的3D手部表面映射到密集的UV图像像素，保留手部表面空间的高维性质，同时降低推断的难度2.23D手部重建3D手部重建任务旨在从深度输入[15，17]或RGB输入[10- 12，18]恢复手部表面模型。与手部姿态估计相反，手部重建寻求获得可能密集的表面表示。使用深度图像，重建人手的常用方法是通过估计的手部姿势驱动预扫描的手部网格[17]。此外，Wan等人将固定尺寸的球体拟合到深度图像[15]。然而，在现实世界的应用中，我们不能假设预先扫描的网格或预定义的手形。使用RGB输入，一种典型的方法涉及使用端到端神经网络预测MANO模型的形状和姿态参数[10，19]。这些方法总结见第2.3节。通过MANO模型，我们可以重建一个手网格没有用户特定的扫描。然而，MANO模型参数限制了在训练原始扫描中看不到的手部姿势和形状的表达能力。2.3从单张图像从图像中估计手的姿态和形状是一个不适定问题，其中的主要挑战是深度模糊和遮挡（例如自遮挡和对象遮挡）。目前，单视图手部数据集没有密集的3D注释。尽管存在这些困难，但基于深度学习的技术仍然取得了显著的成果。Boukhayma等人使用ResNet[8]编码器直接预测MANO模型的形状和姿态参数[10]。Kulon等人使用图形卷积分层恢复固定几何拓扑的手部表面点[19]。在我们的研究中，我们使用UV位置映射来表示手网格和MANO模型来弱监督UV参数空间。通过弱监督策略，可以方便地训练仅具有稀疏的2D或3D关节注释的密集手部重建网络3该方法从图2中，我们的管道接受一个单手RGB图像作为输入。然后将其编码到深度卷积神经编码器，产生潜在特征。然后，将潜在特征解码为两个279Mengcheng LI et al：使用RGB图像进行神经手重建图2系统概述。不同的解码器主解码器生成UV位置图，该UV位置图被进一步传送到最终的手部重建模型。剩下的解码器称为MANOReg模块，是一个正则化器，它生成MANO手部模型来约束UV位置映射空间。这两个解码器建立了一个新的半监督管道，以确保高保真的网格输出。现在我们介绍该方法的细节。首先，我们在第3.1节中描述我们的手表示。此外，在第2.1节3.3第3.4节。最后，我们将在3.5节中解释实现。3.1手运动我们利用UV位置图P∈RH×H×3来表示手表面的点云，其中H是我们的三通道UV位置图的分辨率（宽度和高度）。与常见的2D纹理贴图不同，我们的UV位置贴图的三个通道存储了表面点的3D坐标，以替代表面颜色。 UV位置图和手部点云之间的关系如图3所示。 UV位置映射是通过手动将3D可变形人手模型映射到2D纹理来创建的。特别是，我们使用开源的3D动画软件Blender来解扭曲MANO手模型的UV位置。UV位置图经过反扭曲处理后，可以生成更密集的曲面点云图3UV位置图。UV位置图的三个通道（R、G、B）表示3D坐标（X、Y、Z）。280虚拟现实智能硬件2020年12月第3对应于密集UV位置图像素。UV位置图表示的这种密集性质解释了来自具有较大参数空间的训练样本的稀疏关节位置。仅使用稀疏关节替代MANO参数进行监督，我们可以超出MANO PCA表示的表达空间，以显着解释大规模训练数据集的手部姿势分布。在将3D手部网格映射到2D UV位置映射时，我们可以获得3D网格和2D UV位置图：P=Wt V，（1）其中V∈RN×3是MANO手表面顶点的3D坐标，P∈R（H×H）×3是UV位置图。通过变换矩阵Wt∈R$H×H×N，可以将三维手部网格映射到二维UV位置映射。在我们的实现中，UV位置图的分辨率为H= 256，MANO具有N= 778个顶点。由于缺乏带有UV位置图注释的大型数据集，我们使用MANO手部网格作为MANOReg模块的半监督。MANO是一种由姿态参数驱动的可微分手模型 θ∈R30，形状参数β∈R10。通过调整形状参数β，网格表面可以变化为适合另一个人的手注意，姿态参数θ是来自PCA交替的主分量。旋转角度轴。通过适当地约束这些PCA分量，网络可以对先验信息进行编码。在UV参数空间中的人手形状。值得注意的是，MANO模型有45个姿势PCA，我们选择前30个主成分来约束手部姿势。给定手的姿态θ和形状β，我们可以得到具有N= 778个顶点和F= 1538个三角形面的3D手网格M（θ，β），以及具有21个关节的3D骨架J（θ，β）。原始的MANO模型有16个关节，我们在指尖手动连接5个关节。函数M（θ，β）和J（θ，β）是可微的。3.2相机模型为了统一可能没有相机内在注释的手部数据集，我们使用正交投影相机模型。给定旋转矩阵R∈SO（3），尺度参数S和平移向量T∈R2，3D网格M（θ，β）和骨架J（θ，β）的2D投影可以写为M2d=SσRMθ，βθ+T，J 2d=SσRJθ，βθ+T，其中σ是正投影的映射。对于提供相机标注的手数据集，如STB和RHD，我们调整3D标注，以解决正投影和透视投影之间的不一致性。我们将调整旋转Rδ∈SO（3）应用于手部3D标注。新的注释是A'=RδA-t+tc，（3）其中A∈R3是原始3D注释（例如透视投影下的根关节3D坐标），tc∈R3是三维标注的质心。Rδ由相机方向和tc方向之间的角度确定。Rδ为不同投影引起的系统误差的修正值。3.3网络我们的网络的输入是人手RGB图像，输出是2D UV位置图。解决（二）281Mengcheng LI et al：使用RGB图像进行神经手重建我我我手姿态估计的困难，我们提出了一种新的网络，包括一个编码器和两个不同的解码器。我们的网络结构如图2所示。给定一个输入图像，我们的网络首先将其编码为一个潜在特征。之后，通过两个不同的解码器对潜在特征进行解码，以获得两个不同的手部姿势表示：MANO模型和UV位置图。MANO模型对手部先验信息进行编码，可以使输出的位姿更加合理，而UV位置图适合于结构化的2D卷积神经网络。这两种表示的约束可以提高网络性能。3.4损失函数在我们的网络中有两个解码器，有两个手表示。MANO解码器，MANOReg模块，输出摄像机参数和MANO参数。相机参数包括旋转向量r∈R3、尺度参数S和平移向量T∈R2。MANO参数包括姿态向量θ∈R30和形状向量β∈R10。UV映射解码器的输出是三通道UV位置图像。手的三维关节J3d和网格M3d可以从这些表示恢复。我们设置下标MANO和UV来区分两个输出。我们使用多重损失来训练我们的网络，可以分为三类：姿势形状损失LMANO和LUV，交叉损失Lcross和正则化损失Lr。L=LMANO+LUV+Lcross+Lr，（4）3.4.1姿态和形状损失有三个损失项来约束手部关节和网格输出：2D关节损失项L2d、3D关节损失项L3d和轮廓损失项Ls。Li=L2id+α3dL3id+αsLs，i∈UMANO，UVλ，（5）2D关节损失项确保手部关节的投影与2D注释匹配：L2id=∑||Ji2d-A2id||1,i∈MANO,UV,(6)其中J2d是估计的关节J3d的2D投影，并且A2d是地面真实2D手部关节注释。如果3D注释可用（e.例如，在一个实施例中，STB和RHD数据集），我们使用3D关节损失项来惩罚地面实况3D手部关节位置与输出3D关节之间的距离误差：L3id=∑||Ji3d-A3id||2,i∈MANO,UV,(7)其中J3d是输出关节坐标，A3d是地面实况3D手部关节注释。A3D是投影调整后的注释.虽然给定了手部关节的三维位置，但手部骨骼的姿态是确定的，表面形状信息仍然是未知的。为了解决这个问题，我们引入了一个二维投影轮廓损失项来约束手的形状。损失项最小化手部网格投影轮廓与地面真实手部遮罩之间的差异。大多数手部数据集不提供2D掩模注释，并且可以获得2D关节注释。我们使用Grabcut算法[20]通过设置2D来获得近似的手部蒙版关节骨骼作为初始种子。轮廓损失函数为Ls=∑||σ（M3d，F）-M||1,i∈{MANO,UV},(8)其中σ是投影算子，F是手部网格的面，M是2D手部轮廓。我们使用神经网格渲染[21]从3D网格渲染手部轮廓，从而确保操作可区分。282虚拟现实智能硬件2020年12月第3i、3.4.2交叉损耗我们的网络可以从MANOReg模块和UV解码器生成手部网格。这些网格应相互一致：L交叉= ||RM（θ，β）-M UV||第二条，（九）其中M（θ，β）是从参数θ和β恢复的MANO模型网格，R是全局旋转矩阵，MUV是从UV位置图生成的手部网格。通过最小化该交叉损失项，UV解码器可以从MANO模型学习先前的手形。我们在4.4节中的实验表明，交叉损失项可以从UV位置图形成网格。3.4.3正则化损失该损耗项确保两个解码器的输出是可接受的。第一正则化损失项约束MANO模型的姿态和形状参数。姿态和形状参数来自PCA，因此，适当的约束可以减少网格失真。第二正则化损失项是UV解码器的输出的平滑损失项。Lr=||θ||β||Pi，j - P i，j +1||Pi，j - P i + 1，j|其中θ是姿态参数，β是形状参数，并且P是UV输出图像。|+|P i,j-P i+1,j|),(10)where θ is pose parameters, β is shape parameters, and P is the UV output image.3.5实现细节我们的网络使用4个数据集进行训练，即STB[22]，RHD[23]，PANOPTIC[24]和FreiHand[25]。我们使用自适应的ResNet50[8]作为图像编码器，使用对称网络作为UV解码器。MANOReg模块是一个两层全连接网络。我们最初预训练编码器和MANOReg模块。此后，我们预训练UV解码器，同时保持编码器和MANOReg模块的权重。在预训练之后，我们从端到端训练网络。我们使用NVIDIA 1080Ti GPU测试我们的网络。平均而言，我们的模型运行速度为61.7 FPS，这意味着我们的网络是一个实时模型。我们使用我们的网络构建了一个实时手部姿势捕捉系统。我们使用微软Kinect V2摄像头来捕捉手部动作。虽然它是RGB-D相机，但我们只使用RGB图像作为输入。图4显示了一些实时运行结果。4评价4.1评估数据集STB[22]数据集包含12个立体手部运动序列，每个序列包含1500个带有3D姿势注释的RGBD图像。改编自Boukhayma et al.的工作[10]中，我们使用前10个序列作为训练集，其余序列作为评估集。STB数据集没有2D手部遮罩注释;因此，我们使用深度图像和2D姿势注释来获得近似手部遮罩。RHD[23]是一个具有人手和随机背景图像的合成数据集。它具有左右手、3D注释和2D遮罩注释。我们裁剪手部区域并横向反转图像以将左手图像转换为右手图像。此外，我们清理数据集，并丢弃超过一半的关键点在图像之外或被阻挡的图像。经过数据清洗后，我们得到了54326张训练图像和283Mengcheng LI et al：使用RGB图像进行神经手重建3252张评估图像。284虚拟现实智能硬件2020年12月第3图4实时系统的结果。PANOPTIC[24]是由Panoptic studio捕获的多视图手部数据集。它包含第三人称视角手部图像，具有多个姿势以及2D姿势注释。我们适应Boukhayma等人。的工作[10]，以获得近似的2D手面具。由于没有3D注释，我们仅将2D损失应用于此数据集。PANOPTIC数据集的大小为14817，我们将其分类为12000张训练图像和2817张评估图像。FreiHand[25]是一个多视图手部数据集。它包含用手控制不同对象的图像。它提供了地面真实MANO参数，可用于重建地面真实手网格。通过第3.1节中定义的UV位置映射，我们可以将地面真实手部网格转换为UV位置映射。没有提供测试集的注释;因此，我们只使用32560张训练图像。4.2关键点比较为了定量评估关键点预测，我们检查了3D空间中正确点的百分比（3D-PCK）和输出骨架的平均3D距离误差。我们评估了STB和RHD数据集。STB数据集上手部关节的定义与MANO模型中的定义不同。手根关节被定义为MANO模型下的手腕，而STB选择手掌的中间作为根关节。为了与这些定义保持一致，我们调整了STB数据集中根关节的位置。我们从中指的根节点和手掌的中心延长线;然后，我们选择手腕长度的两倍点，这是MANO下的根点。由于我们对正投影进行了校正，因此在计算误差之前，我们应用了刚性对齐。此过程包括缩放、平移和旋转对齐。平均3D距离误差和标准偏差如表1所示。图5a示出了来自STB数据集的评估结果。我们将我们的方法与一些基于深度学习的方法[10，11，18，23，26，27]和其他方法[13，28]进行比较。我们方法实现了最先进的结果。图5b表1平均3D距离误差显示了RHD的3D姿态估计结果。这是一个综合基准，其中我们优于现有的方法。平均值（mm）标准差（mm）新加坡币8.9785.215右舵12.0838.560FreiHand10.4408.069285Mengcheng LI et al：使用RGB图像进行神经手重建图5与现有技术的比较左：（a）STB数据集的比较;右：（b）RHD数据集的比较4.3网格比较关键点误差表示手骨架姿态误差，而表面网格误差表示手形状误差。我们比较我们的模型与其他一些国家的最先进的方法。注意到不同方法中的网格拓扑通常是不同的，我们在本节中只定性地比较输出网格。首先，我们将我们的方法与Kulon等人的方法进行了比较。Kulon等人使用Graph-CNN网络来估计人手网格[19]。图6中示出了一些结果。我们的网格是光滑和完整的，而Kulon等人的网格在手自闭时会塌陷[19]。此外，我们的方法只需要一个单一的手图像作为输入，而Kulon等人。需要其他附加信息，如相机内部和3D286虚拟现实智能硬件2020年12月第3图6比较补片质量。第一列和第三列是我们的结果，第二列和第四列是结果来自Kulon et al.[19个]Mengcheng LI et al：使用RGB图像进行神经手重建285根关节的位置，这在现实世界的应用中可能不可用[19]。我们还在图7中显示了与Boukhayma等人的一些主观比较[10]。Boukhayma等人采用单个图像输入来直接估计MANO参数，然后重建手部表面网格。显然，我们的结果与输入图像更一致[10]。图7主观比较。第一行是输入图像，第二行是我们的结果，第三行是Boukhayma等人的结果。[10个国家]4.4消融研究4.4.1交叉损耗大多数手数据集不提供密集的UV位置图注释;因此，我们在MANOReg模块和UV解码器的输出之间应用交叉损失项作为弱监督。我们评估使用和不使用这个十字架损失术语定性而言，如果未提供UV位置贴图地面实况，则在没有交叉损失的情况下，从UV输出重建的手部网格将塌陷。从图8中可以看出，STB和RHD数据集不提供UV位置图地面实况，而FreiHand数据集具有可用于生成UV位置图的MANO网格注释。如果没有交叉损失项，STB和RHD数据集崩溃。因为约束是显着稀疏的，不能监督密集的手表面。平均3D距离误差如表2所示。对于STB和RHD数据集，交叉损耗提高了网络的性能。对于FreiHand数据集，如果不使用交叉损失，则结果是可接受的，因为这数据集具有UV位置贴图地面实况。图8消融研究。STB数据集上具有不同损失项的3D PCK曲线。表2消融研究。平均3D距离误差平均值（mm）STBRHDFreiHand无交叉损耗10.10615.02010.227无3D损失14.09317.25115.721我们8.97812.08310.440虚拟现实智能硬件2020年12月第32864.4.23D损失我们评估仅使用2D注释（2D关节位置和2D轮廓）与使用2D和3D注释之间的差异。我们比较了STB、RHD和FreiHand数据集。表2显示了估计的3D关节和地面实况之间的平均3D距离误差。STB数据集上的3D PCK曲线如图9所示。3D损失可以提高网络性能。图9补片比较。第一行包含输入图像，第二行包含我们的结果，第三行包含来自不使用交叉损失的网络的结果。第一列来自STB数据集，第二列来自RHD数据集，最后两列来自FreiHand数据集。4.5定性结果图10显示了我们的3D手部重建的一些结果。从图10中可以看出，尽管输入图像具有运动模糊或自遮挡，但我们的方法是有效的。然而，我们得到了一些失败的情况下，主要是由于不正确的MANO参数估计。5讨论我们提出了一种神经手重建方法，用于单目3D手部姿态和形状估计。我们使用一个共同的图像编码器和一个对称的解码器来生成一个UV位置图和一个MANO网格弱监督。我们的网络可以使用2D或3D注释图像进行端到端的训练，尽管地面真实UV位置图不可用。通过弱监督MANO网格，我们的UV位置图表示可以学习人手的先验形状。我们在一些3D姿态基准上获得了最先进的结果，并在野生图像上生成了重要的手部网格。这项工作的一个可能的扩展是在UV位置图像上附加一些偏移以改善网格细节。致谢：作者感谢清华大学和东南大学对本研究的支持。Mengcheng LI et al：使用RGB图像进行神经手重建287图10定性结果。(a)输入图像（b）输出骨架（c）从UV位置图恢复网格（d）输出UV位置图。引用1程永文，李国芳，李建华，孙永，姜国智，曾芳，赵宏宇，陈德生。基于表面肌电信号的激活肌肉区域可视化智能模糊系统学报，2020，38（3）：2623DOI：10.3233/jifs-1795492齐建霞，姜国智，李国芳，孙燕，陶波。基于表面肌电信号手势识别的智能人机交互。IEEE Access，2019，7：61378DOI：10.1109/access.2019.29147283李军，王继新，鞠正杰。一种基于高级特征的手势识别方法。 International Journal of虚拟现实智能硬件2020年12月第3288机器人技术，2017，15（2）：1750022 DOI：10.1142/s02198436175002204[10]李杰，李伟，李伟.存在过度运动模糊的3D手部跟踪。IEEE Transactions on Visualization and ComputerGraphics，2020，26（5）：1891DOI：10.1109/tvcg.2020.29730575田建荣，程文涛，孙英，李国芳，姜东，姜国忠，陶波，赵宏宇，陈德生.基于多级多模态特征融合的手势识别。智能模糊系统学报，2020，38（3）：2539DOI：10.3233/jifs-1795416Oikonomo I，Kyriazis N，Argyros A.使用Kinect进行基于模型的手部关节3D跟踪。2011年英国机器视觉会议。Dundee，英国机器视觉协会，2011，1（2）：3 DOI：10.5244/c.25.1017Sridhar S，Oulasvirta A，Theobalt C.使用RGB和深度数据的交互式无标记关节手运动跟踪。2013年IEEE计算机视觉国际会议，2456DOI：10.1109/iccv.2013.3058何克民，张晓宇，任世清，孙杰。基于深度残差学习的图像识别。2016年IEEE计算机视觉与模式识别会议（CVPR）拉斯维加斯，NV，美国，IEEE，2016，770-778 DOI：10.1109/cvpr.2016.909Romero J，Tzionas D，Black M J.，《双手：手和身体的建模和捕捉》。ACM图形学报，2017，36（6）：245DOI：10.1145/3130800.313088310Boukhayma A，de Bem R，Torr P H S. 3D手的形状和姿势从图像在野外。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。Long Beach，CA，USA，IEEE，2019，10835-10844 DOI：10.1109/cvpr.2019.0111011蔡燕君，葛林华，蔡建芳，袁建生.基于单目RGB图像的弱监督3D手部姿态估计。计算机视觉-ECCV 2018，666<$682DOI：10.1007/978-3-030-01231-1_4112葛林华，任正华，李永春，薛正华，王永永，蔡建芳，袁建生.从单个RGB图像进行3D手部形状和姿态估计。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。Long Beach，CA，USA，IEEE，2019，10833 - 10842DOI：10.1109/cvpr.2019.0110913Panteleris P，Oikonomoro I，Argyros A.使用单个RGB帧在野外进行实时3D手部姿势估计。在：2018年IEEE计算机视觉应用冬季会议（WACV）。Lake Tahoe，NV，USA，IEEE，2018，436DOI：10.1109/wacv.2018.0005414冯英，吴芳，邵晓华，王永芳，周新.联合三维人脸重建和密集对齐与位置映射回归网络。In：Computer Vision-ECCV 2018. Cham：Springer International Publishing，2018，557-574 DOI：10.1007/978-3-030-01264-9_3315王春东，罗博斯特，范古尔，姚.通过拟合训练的自监督3D手部姿势估计。2019年IEEE/CVF计算机视觉和模式识别会议（CVPR）。长滩，加利福尼亚州，美国，IEEE，2019，10845–10854DOI：10.1109/cvpr.2019.0111116Khamis S，Taylor J，Shotton J，Keskin C，Izadi S，Fitzgienia A.从深度图像中学习手形变化的有效模型。2015年IEEE计算机视觉和模式识别会议（CVPR）。马萨诸塞州波士顿，美国，IEEE，2015，2540DOI：10.1109/cvpr.2015.729886917Taylor J，Stebbing R，Ramakrishna V，Keskin C，Shotton J，Izadi S，Hertzmann A，Fitzgienia A.从单目深度序列的用户特定手部建模。2014年IEEE计算机视觉和模式识别会议。Columbus，OH，USA，IEEE，2014，644DOI：10.1109/cvpr.2014.88Mengcheng LI et al：使用RGB图像进行神经手重建28918Mueller F，Bernard F，Sotnychenko O，Mehta D，Sridhar S，Casas D，Theobalt C. GANerated手部，用于从单目RGB进行实时3D手部跟踪。2018年IEEE/CVF计算机视觉和模式识别会议。盐湖城，UT，美国，IEEE，2018，49DOI：10.1109/cvpr.2018.0001319[10]杨文，王文.单图像三维手重建与网格卷积。201920RotherC，KolmogorovV，BlakeA. “Grab Cut“：使用交叉图形切割的交互式前基提取。ACM图形学报（TOG），2004，23（3）：309DOI：10.1145/1015706.101572021Kato H，Ushiku Y，Harada T.神经3D网格渲染器。2018 IEEE/CVF计算机视觉会议模式识别盐湖城，UT，美国，IEEE，2018，3907DOI：10.1109/cvpr.2018.0041122Zhang J，Jiao J，Chen M，Qu L，Xu X，Yang Q.基于立体匹配的手部姿态跟踪基准。2017年IEEE InternationalConference on Image Processing（ICIP）。2017，IEEE，98223作者：J. J.学习从单个RGB图像估计3D手部姿势。2017年IEEE International Conference on Computer Vision（ICCV）。威尼斯，意大利，IEEE，2017，4913-4921DOI：10.1109/iccv.2017.52524Simon T，Joo H，Matthews I，Sheikh Y.使用多视图自举的单图像中的手部关键点检测。2017年IEEE计算机视觉与模式识别会议（CVPR）檀香山，HI，美国，IEEE，2017，4645DOI：10.1109/cvpr.2017.49425[10]杨俊明，王晓刚. FreiHAND ：一个用于从单个RGB图像无标记捕获手部姿势和形状的数据集。2019IEEE/CVF计算机视觉国际会议（ICCV）首尔，韩国（南），IEEE，2019，813DOI：10.1109/iccv.2019.0009026Iqbal U，Molchanov P，Breuel T，Gall J，Kautz J.通过潜在的2.5D热图回归进行手部姿势估计。In：ComputerVision-ECCV 2018. Cham：Springer International Publishing，2018，125DOI：10.1007/978-3-030-01252-6_827Spurr A，Song J，Park S，Hilliges O.跨模态深度变分手姿态估计。2018年IEEE/CVF计算机视觉和模式识别会议。盐湖城，UT，美国，IEEE，2018，89-98 DOI：10.1109/cvpr.2018.0001728Zhang J，Jiao J，Chen M，Qu L，Xu X，Yang Q.使用立体匹配的3D手部姿态跟踪和估计。2016

下载后可阅读完整内容，剩余1页未读，立即下载