没有合适的资源?快使用搜索试试~ 我知道了~
10833基于单幅RGB图像的葛刘浩1、周仁2、李云成3、薛泽浩3、王莹莹3、蔡剑飞1、袁俊松4、南洋理工大学2、Wormpex AI Research3Snap Inc.4纽约州立大学布法罗分校ge0001ao@e.ntu.edu.sg,zhou.ren bianlifeng.comwww.example.com@www.example.com,wwwsnap.com exampleyuncheng.li@wwwsnap.comywang@snap.com example.com,wwwasjfcai@ntu.edu.sgjsyuan@buffalo.edu摘要这项工作解决了一个新的和具有挑战性的问题,估计完整的3D手的形状和姿态从一个单一的RGB图像。现有的基于单目RGB图像的手部三维分析方法大多只关注于手部关键点的三维位置估计,不能完整地表达手部的三维形状。相比之下,我们提出了一种基于图卷积神经网络(Graph CNN)的方法来重建包含更丰富的3D手部形状和姿势信息的手部表面的完整3D网格。为了在完全监督的情况下训练网络,我们创建了一个包含地面真实3D网格和3D姿势的大规模合成数据集。当在没有3D地面实况的真实世界数据集上对网络进行微调时,我们提出了一种弱监督方法,即利用深度图作为训练中的弱监督。通过对我们提出的新数据集和两个公共数据集的广泛评估,我们表明,我们提出的方法可以产生准确和合理的3D手部网格,并可以实现优越的3D手部姿态估计精度时,与国家的最先进的方法相比。1. 介绍基于视觉的三维手部分析在虚拟现实和增强现实中有着广泛的应用,是一个非常重要的研究领域。然而,尽管多年的研究[40,57,58,47,45,13,27],它仍然是一个开放的问题,由于手的形状,姿势,手势,遮挡等的多样性和复杂性。在过去的十年中,我们已经见证了从深度图像进行3D手部姿势估计的快速发展[35,52,12,15,14,61,11,16]。考虑到RGB相机比深度相机更广泛地可用,最近的一些工作开始从单目RGB图像研究3D手部分析,并且主要集中在估计稀疏3D手部关节位置,而忽略了密集3D手部这项工作是在Liuhao Ge在Snap Inc.担任研究实习生时完成的。图1:我们提出的方法不仅能够估计2D/3D手部关节位置,而且还能够从单个RGB图像恢复手部表面的完整3D我们展示了我们提出的合成和真实世界数据集以及STB真实世界数据集的估计结果[62]。形状[63,44,32,5,20,36,38]。然而,许多沉浸式VR和AR应用通常需要精确估计3D手部姿势和3D手部形状。这促使我们提出一项更具挑战性的任务:如何联合估计不仅三维手关节的位置,但也从一个单一的RGB图像的手表面的完整的三维网格?在这项工作中,我们开发了一个完善的解决方案,如图所示。1.一、单视图3D手部形状估计的任务以前已经研究过,但主要是在控制设置中,其中深度传感器可用。 基本思想是通过迭代优化将生成的3D手部模型拟合到输入深度图像[49,30,24,21,51,41]。相比之下,在这里,我们考虑从单眼RGB图像估计3D手部形状,这还没有被广泛研究。RGB图像中缺乏明确的深度提示使得该任务难以通过迭代优化方法来解决。在这项工作中,我们应用以端到端方式训练的深度神经网络,直接从单个RGB图像中恢复3D手部网格。具体来说,我们对代表手表面的三角形网格的拓扑进行了建模,并旨在使用深度神经网络估计网格中所有顶点的3D坐标。为了实现这一目标,有几个挑战。10834第一个挑战是三维手部网格生成的输出空间维数很高。与估计手部骨骼的稀疏3D关节位置(例如,,21个关节),估计密集网格顶点的3D坐标(例如,,1280个顶点)。一种直接的解决方案是遵循人体形状估计中使用的常用方法[53,48,37,22],即回归预定义的可变形手模型的低维参数,例如,,MANO[42].在本文中,我们认为,输出的3D手网格顶点在本质上是图形结构的数据,因为一个3D网格可以很容易地表示为一个图形。为了输出这样的图结构数据并更好地利用图中网格顶点之间的拓扑关系,受最近关于图CNN的工作的启发[8,39,56],我们提出了一种新的基于图CNN的方法。具体来说,我们采用具有上采样和非线性激活的分层图卷积[8],以从由骨干网络提取的图像特征生成图中的3D手部网格顶点。有了这样一个端到端的可训练框架,我们的基于Graph CNN的方法可以更好地表示高度可变的3D手部形状,并且可以更好地表达3D手部形状的局部细节。除了计算模型之外,另一个挑战是缺乏真实世界图像的地面真实3D手部网格训练数据。在真实世界的RGB图像上手动注释地面真实3D手部网格非常费力和耗时。因此,我们选择创建一个包含3D手部网格和3D手部姿势的真实数据的大规模合成数据集进行训练。然而,在合成数据集上训练的模型通常由于它们之间的域间隙而在真实世界数据集上产生不令人满意的估计结果为了解决这个问题,受[5,37]的启发,我们提出了一种新的弱监督方法,通过利用深度图作为3D网格生成的弱监督,因为在收集真实世界的训练数据时,深度图可以很容易地被RGB-D相机捕获。更具体地说,当在真实世界的数据集上进行微调时,我们将生成的3D手部网格渲染到图像平面上的深度图,并使深度图相对于参考深度图的损失最小化,如图所示。3.请注意,在测试期间,我们只需要RGB图像作为输入来估计完整的3D手部形状和姿势。据我们所知,我们是第一个处理的问题,估计不仅3D手的姿势,但也从一个单一的RGB图像完整的3D手的形状。我们的主要贡献总结如下:• 我们提出了一种基于Graph CNN的新型端到端可训练手部网格实验结果表明,该方法能很好地描述手形变化,并能捕捉局部细节。此外,我们观察到,通过估计完整的3D手部网格,我们的方法提高了3D手部姿势估计的准确性性能,如第5.4• 我们提出了一个弱监督的训练流水线在现实世界的数据集,通过渲染生成的三维网格到图像平面上的深度图,并且利用参考深度图作为弱监督,而不需要对真实世界图像的3D手部网格或3D手部姿势的任何注释。• 我们介绍了第一个大规模的基于RGB的合成3D手部形状和姿势数据集以及一个小规模的真实世界数据集,其中包含两者三维手部关节位置和手部表面的全三维网格。我们将在接受这项工作后公开分享我们的数据集。我们对我们提出的合成和真实世界数据集以及两个公共数据集进行了全面的实验实验结果表明,该方法能够在GPU上实时生成准确、合理的三维手部网格,与现有方法相比,在三维手部姿态估计方面具有更高的精度2. 相关工作从深度图像估计3D手部形状和姿势:大多数先前的方法通过迭代优化将可变形手部模型拟合到输入深度图来从深度图像估计3D手部形状和姿势[49,30,24,21,51,41]。最近提出了一种方法[31],使用CNNs从深度图像中估计姿势和形状参数,并使用LBS恢复3D手部网格。CNN以端到端的方式进行训练,具有网格和姿势损失。然而,他们恢复的手网格的质量受到其简单的LBS模型的限制。从RGB图像估计3D手部姿势:Pioneer- ing作品[58,7]从RGB图像序列估计手部姿势。Gorce等人[7]提出了通过目标函数的最小化来动态地估计3D手部姿态、手部纹理和光源。Srid-har等[46]采用多视图RGB图像和深度数据,通过结合区分方法和局部优化来估计3D手部姿势。随着深度学习的进步和单目RGB相机的广泛应用然而,很少有工作专注于从RGB图像的三维手形估计。Panteleris等人[36]提出将3D手模型拟合到估计的2D关节位置。但手模型由27个手位姿参数控制此外,该方法不是用于生成3D手部网格的端到端10835i=1j=1从单个RGB图像估计3D人体形状和姿势:最近的方法依赖于SMPL,一种身体形状和姿势模型[29]。一些方法将SMPL模型拟合到检测到的2D关键点[3,25]。一些方法使用具有轮廓和/或2D关键点监督的CNN来回归SMPL参数最近的一种方法[54]预测了人体的体积表示。与这些方法不同的是,我们提出使用Graph CNN来估计3D网格顶点,以便学习非线性手形变化并更好地利用网格拓扑中顶点之间的关系。此外,我们建议在没有3D网格或3D姿态注释的真实世界数据集上进行训练时,利用深度图作为弱3D监督,而3. 3D手部形状和姿势数据集创建手动注释真实世界RGB图像的3D手部网格和3D手部关节位置的地面实况是极其费力和耗时的。为了克服现实世界数据注释中的困难,一些作品[43,63,33]已经采用合成生成的手部RGB图像进行训练。然而,现有的手部RGB图像数据集[43,62,63,33]仅提供2D/3D手部关节位置的注释,并且它们不包含任何3D手部形状注释。因此,这些数据集不适合于3D手形估计任务的训练。在这项工作中,我们创建了一个大规模的合成手的形状和姿势数据集,提供了两个3D手关节位置和完整的3D手网格的注释。特别是,我们使用Maya [2]创建3D手部模型并使用关节装配,然后在其上应用照片级真实感纹理以及使用高动态范围(H-DR)图像的自然照明。我们通过创建具有不同形状和比率的混合形状来建模手部变化,然后在混合形状上应用随机权重为了充分探索姿势空间,我们从500个常见的手部姿势和1000个独特的相机视点创建手部姿势。为了模拟真实世界的多样性,我们使用了30种灯光和5种肤色。我们使用现成的Arnold渲染器[1]使用全局照明渲染手部渲染任务被分配到云渲染农场以获得最高效率。总的来说,我们的合成数据集包含375,000个具有较大变化的手部RGB图像。我们使用315,000张图像进行训练,使用60,000张图像进行验证。在训练过程中,我们从COCO [28],LSUN [60]和Flickr [10]数据集中随机采样和裁剪背景图像,并将它们与渲染的手部图像混合,如图所示。二、此外,为了定量地评估手部网格估计在真实世界图像上的性能,我们创建了一个包含583张手部RGB图像的真实世界数据集,该数据集具有3D手部网格和3D手部关节位置的注释。到图2:我们的合成手形和姿势数据集创建以及训练期间的背景图像为了方便3D注释,我们使用英特尔实感RGB-D相机捕获相应的深度图像[19],并参考RGB图像和深度点在Maya中手动调整3D手部模型。在这项工作中,这个真实世界的数据集仅用于评估。4. 方法4.1. 概述我们建议直接从单个单目RGB图像生成手部表面的完整3D网格和3D手部关节位置,如图所示3.第三章。具体来说,输入是一张以手为中心的RGB图像,它通过一个双层沙漏网络[34]来传递2D热图。估计的2D热图与图像特征图相结合,通过使用包含八个残差层和四个最大池化层的残差网络[18]编码为潜在然后将编码的潜在特征向量输入到图CNN [8],推断3D手部网格中的N个顶点的3D坐标V ={vi}N。从重建的3D手网格线性回归3D手关节位置Φ={φj}J使用简化的线性Graph CNN。在这项工作中,我们首先在合成数据集上训练网络模型,然后在真实世界的数据集上对其进行微调。在包含3D手部网格和3D手部关节位置的真实数据的合成数据集上,我们通过使用2D热图丢失、3D网格丢失和3D姿势丢失,以完全监督的方式端到端地训练网络。更多详情见第4.3节。 在真实世界的数据集上,可以以弱监督的方式对网络进行微调,而不需要3D手部网格或3D手部关节位置的地面实况。为了实现这一目标,我们利用训练中可用的参考深度图,其可以很容易地从深度相机捕获,作为微调期间的弱监督,并采用可微分渲染器将生成的为了保证网格质量,我们从预训练模型生成更多详情见第4.4节。4.2. 用于网格和姿态估计的图CNN图CNN已成功应用于建模图结构化数据[56,59,55]。由于3D手网是10836i=1Σi=1图3:我们从单个RGB图像进行3D手部形状和姿势估计的方法概述。我们的网络模型首先在合成数据集上以完全监督的方式进行训练,其中包括热图丢失,3D网格丢失和3D姿态丢失,如(a)所示;然后通过创新性地引入伪地面实况网格损失和深度图损失,以弱监督的方式在没有3D网格或3D姿态地面实况的真实世界数据集上进行微调,如(b)所示。对于(a)和(b),输入的RGB图像首先通过两层沙漏网络[34]以提取特征图和2D热图,然后通过残差网络[18]将其组合并编码为潜在特征向量。潜在特征被馈送到Graph CNN [8]中以推断网格顶点的3D坐标。最后,从3D手部网格线性回归3D手部姿势。在对真实世界数据集的训练期间,如(b)中所示,所生成的3D手部网格被渲染到深度图以相对于参考深度图计算深度图损失请注意,此步骤不涉及测试。试验.给定图M 的顶点上的信号f=( f1, ··· , fN )T∈RN×F , 它 表 示 三维 网 格 中N 个 顶 点的 F 关 于Chebyshev谱图CNN [8],对图sig的图卷积操作图4:用于网格生成的Graph CNN的架构-状态。输入是从以下提取的潜在特征向量:nalfin∈RN×Fin定义为Σ。Σ输入RGB图像。通过两个全连接(FC)层,特征向量被转换为80个ver-f输出=K−1TkLk=0·fin ·θk,⑴粗糙图中具有64-dim特征的图。特征被上采样并分配到更精细的图。通过两个上采样层和四个图形卷积层,网络输出1280个网格顶点的3D坐标。FC层和图形卷积的括号中的数字表示输出特征的尺寸。图结构的性质,在这项工作中,我们采用Cheby-shev谱图CNN [8]来生成手部网格中顶点的3D坐标,并从生成的网格中估计3D手部姿势。三维网格可以由无向图M=(V,E,W)表示,其中V={vi}N是网格中的N个顶点的集合,E={ei}E是网格中的E条边的集合,W=(wij)N×N是邻接矩阵,其中如果(i,j)∈/E,且当(i,j)∈E时wij = 1. 归一化图Laplacian[6]是C。计算d为L=IN−D−1/2W D−1/2,其中Tk(x)= 2xTk−1(x)− Tk−2(x)是k阶切比雪夫多项式,T0=1,T1=x;L∈RN×N是重标拉普拉斯算子,L∈=2L/λmax−IN,λmax是L的最大i-mum特征值 ; θk∈ RFin ×Fout 是 图 卷 积 层 中 的 可 训 练 参数;fout∈RN×Fout是输出图信号。这个操作是K-局部化的由于Eq。1是图拉普拉斯算子的K阶多项式,并且它只影响每个中心n-节点的K读者可参考[8]了解更多详情。在这项工作中,我们设计了一个层次结构的网格生成通过执行图卷积的图形从粗到细,如图所示。4.粗图的拓扑通过图粗化预先计算,如图所示。5(a),并在培训和测试期间固定。按照Defferrard等人的方法[8],我们使用Graclus多级聚类算法[9]来粗化图,并创建一个树结构来存储对应关系其中D=诊断jwij是对角度矩阵,图中相邻粗化水平的顶点的数量。期间是单位矩阵。在这里,我们假设三角形网格的拓扑是固定的,并且由手网格模型预定义,即,,图M的邻接矩阵W和图拉普拉斯算子L在训练期间是固定的,在前向传播中,我们将粗图中的顶点的特征上采样到细图中的对应子顶点,如图所示。5(b)。然后,我们执行图卷积来更新图中的特征。所有的108372¨三维立体并且NT是三角形面t的真实法线向量,其是从真实顶点计算的。引入边缘损失Le以加强边缘长度一致性:ΣELe=.Σ2ei、(四)图5:(a)给定我们预定义的网格拓扑,我们首先执行图粗化[8]以聚类图上有意义的邻域,并创建一个树结构来存储相邻粗化时图中顶点的12 3 4 5 6 7 8 9 10 11 12 13 1415 16 17其中,ei和ei分别表示地面真值和估计的边缘向量。引入Laplacian损失L1以保持网格的局部表面光滑性:程度. (b)在前向传播期间,我们执行fea-真实的上采样。粗图中顶点的特征ΣNL1=¨Σi−,¨δkBi?,(5)被分配给更精细的图中的其子顶点i=1?vk∈N(vi)<$2其中δi=v3D−v3D是从估计到图卷积滤波器具有K=3的相同支持。我我为了使网络的输出与摄像机的内部参数无关,我们设计了一种网络,它输出输入图像上的UV坐标和网格中顶点的深度,并可以使用摄像机的内部矩阵将其转换为摄像机坐标系中的3D坐标类似于[63,5,44],我们估计尺度不变和根相关地面真值,N(vi)是相邻顶点的集合其中,Bi是集合N(vi)中的顶点数。该损失函数防止相邻顶点具有相反的偏移,从而使估计的3D手表面网格更平滑。对于超参数,我们在实现中设置λv=1,λn=1,λe=1,λl=50。Σ¨ ¨2网格顶点的深度。3D姿态损失。 LJ=J<$φ3D−φ3D<$,其中考虑到可以估计3D动画j=1?jj2使用线性回归器直接从3D网格顶点[29,42],我们采用具有两个池化层并且没有非线性激活的简化的图CNN [8]来从手部网格顶点的3D坐标线性回归尺度不变和根相关的3D手部关节位置。4.3. 合成数据集上的全监督训练我们首先以完全监督的方式在我们的合成手部形状和姿势数据集上训练网络。如图3(a),网络由热图损失监督LH、网格损失LM和3D姿态损失LJ。φj而φj是地面实况和估计的3D关节地点,分别。在我们的实现中,我们首先分别用热图损失和3D姿态损失来训练堆叠的沙漏网络和3D姿态回归器然后,我们训练堆叠沙漏网络,残差网络,以及用于网格生成的Graph CNN,其具有完全的组合损失L:Lfullyy=λHLH+λMLM+λJLJ,(6)其中λH=0. 5,λM=1,λJ=1。Σ¨ ¨2热图损失。LH=J<$Hj−Hj<$,其中Hj4.4. 弱监督微调j=1??2和Hj是地面实况和估计的热图,req。我们将热图分辨率设置为64×64 px。地面实况热图被定义为2D高斯,以地面真实2D关节位置为中心的4 px的标准偏差网格丢失。类似于[56],LM=λvLv+λnLn+λeLe+λlLl由顶点损失Lv、法线损失Ln、边损失Le和拉普拉斯损失Ll组成。顶点损失Lv用于约束网格顶点的2D和3D位置在 真 实 世 界 的 数 据 集 上 , 即 , Stereo Hand PoseTracking Benchmark [62],没有3D手部网格的地面实况。因此,我们以弱监督的方式微调网络。此外,我们的模型还支持在没有3D关节位置的基础事实的情况下进行微调,这可以进一步消除在训练数据上注释3D关节位置的负担,并使其更适用于大规模的真实世界数据集。深度贴图丢失。 如图3(b),我们利用ΣN¨3D3D?22D2D?2参考深度图可以容易地由Lv=i=1 vi−v<$2+<$vi−vi(2)深度相机,作为一个薄弱的监督,并采用不同的-其中vi和vi分别表示网格顶点的地面实况和估计的2D/3D位置nor-mal lossLn是为了加强表面法向一致性:类似于[23],渲染估计的3D从相机视点手动网格到深度图。我们使用平滑的L1损失[17]用于深度图损失:ΣΣLn=¨。vΣ¨2(3)LD=光滑L1.ΣD,D ,D=R .ΣM、(7)210838t(i,j)∈ti j2其中t是网格中三角形面的索引;(i,j)是组成三角形t的一个边的顶点的索引;其中,D和D′分别表示地面实况和渲染的深度图;R(·)是深度渲染函数;10839误差(mm)−正常−边缘−Laplacian−3D姿势充分向误差8.349.098.639.047.95位姿误差8.309.068.559.248.03图6:伪地面实况网格超级视觉的影响。在没有伪地面真实网格的监督下,该网络产生非常粗糙的网格,形状不正确,表面有噪声。M是估计的3D手部网格。我们将深度图的分辨率设置为32×32 px。伪地面实况网格损失。只有深度图丢失的训练可能导致退化的解决方案,因为示于图6(右),因为深度图损失仅限制可见表面,并且对捕捉深度图。为了解决这个问题,受[26]的启发,我们通过使用预训练模型对真实世界的训练数据进行测试来创建伪地面实况网格M和地面实况热图伪地面真实网格M_∞通常具有合理的边长和良好的表面光滑性,但它受到相对深度的影响错误.基于这一观察,我们不应用顶点损失或法线损失,并且我们仅采用边缘损失Le和拉普拉斯损失Ll作为伪地面真实网格损失LpM=λeLe+λlLl,其中λe=1,λl=50,以保持边缘长度和表面光滑度。网格如图6(中),在伪地面真实网格的监督下,网络可以生成具有正确形状和光滑表面的网格。在我们的实现中,我们首先用热图损失微调堆叠沙漏网络,然后用组合损失L弱地端到端微调所有网络:L弱=λHLH+λDLD+λpMLpM,(8)其中λH=0。1,λD=0。1,λpM=1。请注意,方程式8是在没有3D姿态监督的情况下对数据集进行微调的损失函数。 当在训练期间提供3D关节位置的基础事实时,我们在损失函数中添加3D姿态损失Lj,并设置权重λJ=10。5. 实验5.1. 数据集、指标和实施详细信息在这项工作中,我们评估我们的方法在两个方面:三维手网格重建和三维手姿态估计。对于3D手部网格重建,我们在我们提出的合成和真实世界数据集上评估生成的3D手部网格,这在第3节中介绍,因为没有其他手部RGB图像数据集包含3D手部网格的真实值。我们在欧氏空间中测量每个生成的3D网格中的对应顶点与其地面真实3D网格之间的平均误差。在以下实验中,该度量被表示为表1:通过从我们的完全监督训练损失中消除不同损失项的消融研究。6、分别。我们报告了在我们的合成数据集的验证集上评估的平均网格和姿势误差对于3D手部姿势估计,我们在两个公开可用的数据集上评估了我们提出的方法:立体手姿态跟踪基准(STB)[62]和渲染手姿态数据集(RHD)[63]。STB是一个真实世界的数据集,包含18,000张图像,其中包含21个3D手部关节位置和相应深度图像的地面真实值。接下来[63,5,44],我们将数据集分为15,000个训练样本和3,000个测试样本。为了使关节定义与我们的设置和RHD数据集一致,在[5]之后,我们将根关节位置从手掌中心移动到手腕。RHD是包含41,258个训练图像和2,728个测试图像的合成数据集。由于视点变化大和图像分辨率低,该数据集具有挑战性。我们使用三个度量来评估3D手部姿势估计的性能:(i)姿势错误:估计的3D关节和地面真实关节之间的欧几里得空间中的平均误差;(ii)3D PCK:欧几里德误差距离低于阈值的正确关键点的百分比;(iii)AUC:不同误差阈值的PCK曲线下面积。我们在PyTorch框架内实现我们的方法。网络使用RMSprop优化器[50]进行训练,小批量大小为32。在我们的合成数据集上进行预训练时,学习率设置为10−3,在RHD [63]和STB [62]上进行微调时,设置为10 −4。将输入图像的大小调整为256×256 px。在[63,5,44]中使用的相同条件下,我们假设球-试验时提供了一个手动刻度和根缝的绝对深度全局手部比例被设置为中指的MCP和PIP关节之间的骨骼5.2. 损失项我们首先评估在完全监督训练中使用的不同损失的影响(等式10)。6)对网格重建和姿态估计的性能的影响。我们在我们的合成数据集上进行了这个实验。如表1所示,使用全损失训练的模型在网格重建和姿态估计方面都实现了最佳性能,这表明所有损失都有助于产生准确的3D手部网格以及3D手部关节位置。5.3. 手部三维网格重建我们证明了我们提出的基于图CNN的3D手网格重建方法的优点,通过com-10840图7:我们的方法和其他方法生成的网格的定性比较。网格生成-10.90.80.70.60.50.40.30.20.10STB数据集(带3D姿态监控)误差阈值(mm)10.90.80.70.60.50.40.30.20.10STB数据集(无3D姿态监督)误差阈值(mm)由基于MANO的方法得到的图像通常表现出不准确的形状和姿态。直接线性混合蒙皮(LBS)方法生成的网格存在严重的伪影。这些例子来自我们真实世界的数据集。图8:STB数据集上3D手部姿势估计的自我比较[62]。左:使用3D手部姿势监督微调的模型的3D PCK。右图:模型的3D PCK在没有3D手部姿势监督的情况下进行了微调的平均姿态误差在括号中示出。网格误差(mm)基于MANO的直接LBS我们的合成数据集12.1210.328.01方法管道深度图丢失我们的真实世界数据集20.8613.3312.72基线1im→hm+feat→pose✗表2:在我们的合成数据集和真实数据集的验证集上测试的平均网格误差我们比较了我们的方法与两个基线方法。请注意,本表中的网格误差是在MANO [42]定义的对齐网格上测量的,以进行公平比较。将其与两种基线方法进行比较:直接线性混合皮肤(LBS)方法和基于MANO的方法。直接LBS。我们训练网络直接从热图和图像特征回归3D手关节位置,这与[5]中提出的网络架构类似我们通过应用具有预定义网格模型和蒙皮权重的逆运动学和LBS,仅从估计的3D手部关节位置如表2所示,直接LBS方法的平均网格误差在我们的合成数据集和我们的真实世界数据集上都比我们的方法差,因为用于网格生成的LBS模型是预定义的,并且不能适应不同形状的手。如可见于图7、直接LBS方法生成的手部网格在关节处存在不真实的变形,固有伪影严重。基于MANO的方法 我们还实现了MANO[42]的方法,回归手形和姿态参数,使用三个完全连接的层从潜像特征中提取参数。然后,使用MANO手模型[42]从估计的形状和姿态参数使用与Eq相同的损失函数以完全监督的方式训练网络。6在我们的合成数据集上。为了公平比较,我们将我们的手网格与MANO手网格对齐,并计算对齐网格上的网格误差。如表2和图所示。7、基于MANO的方法在网格重建上表现出与我们的方法相比较差的性能。注意,在合成数据集上直接监督MANO参数可以获得更好的性能。表3:3D手部姿势估计的基线方法与我们的完整模型之间的差异。Mance [4].但是在我们的合成数据集上是不可行的,因为我们的数据集不包含MANO参数。5.4. 三维手位姿估计方法的评价我们还评估了我们的方法在3D手姿态估计的任务。自我比较。我们通过以弱监督的方式微调在我们的合成数据集上预训练的网络,对STB数据集进行自我比较[62],如第4.4节所述。在表3中,我们将我们提出的弱监督方法(全模型)与两个基线进行了比较:(i)基线1:直接从热图和特征图回归3D手关节位置,而不使用训练期间的深度图损失;(ii)基线2:从估计的3D手网格回归3D手关节位置,而不使用训练期间的深度图损失。如图所示8,基线2的估计精度优于基线1,这表明我们提出的三维手部网格重建网络有利于三维手部姿态估计。此外,我们的完整模型的估计精度优于基线2的估计精度,特别是在没有3D手部姿势监督的情况下进行微调时,这验证了引入深度图丢失作为弱监督的有效性。此外,为了探索一种更有效的方法来进行3D手部姿态估计而无需网格生成,我们直接从由我们的完整模型提取的潜在特征中回归3D手部关节位置,而不是从3D手部网格中回归它们该任务转移方法被表示为图8中的“fer 虽然这种方法具有相同的管道全模型(6.37mm)Ful型号,任务转移(6.45mm)基线2(6.96 mm)基线1(7.38 mm)3D PCK全模型(10.57mm)全模型,任务转移(10.99mm)基线2(16.85 mm)基线1(25.14 mm)0 5 10 15 20 25303D PCK0 5 10 15 20 2530基线2im→hm+feat→mesh→pose✗完整模型im→hm+feat→mesh→pose✓10841RHD数据集(带3D姿态监控)11STB数据集(带3D姿态监控)STB数据集(无3D姿态监督)10.90.90.90.80.80.80.70.60.50.40.3我们的,完整模型(AUC=0.920)Cai等人ECCV 18(AUC=0.887)Spurr等人CVPR 18(AUC=0.849)Z B ICCV 17(AUC=0.675)0.70.60.50.40.3我们的,完整模型(AUC=0.998)Cai等人ECCV 18(AUC=0.994)Iqbal等人ECCV18(AUC=0.994)Z B ICCV 17(AUC=0.986)Spurr等人CVPR 18(AUC=0.983)Mueller等CVPR 18(AUC=0.965)Panteleris et al. WACV18(AUC=0.941)CHPR(AUC=0.839)ICCPSO(AUC=0.748)PSO(AUC=0.709)0.70.60.50.40.3我们的,完整模型(AUC=0.974)Cai等人ECCV18(AUC=0.876)20 25 30 35 40 4550误差阈值(mm)20 25 30 35 40 4550误差阈值(mm)20 25 30 35 40 45 50误差阈值(mm)图9:与RHD [63]和STB [62]数据集上最先进方法的比较左:RHD数据集[63]上的3D PCK,中间:STB数据集[62]上的3D PCK,具有3D手部姿势监督。右:STB数据集[62]上的3D PCK,无3D手部姿势监督。AUC值显示在括号中。图10:我们的合成数据集(左上),我们的真实世界数据集(右上),RHD数据集[63](左下)和STB数据集[62](右下)的定性结果。与Baseline1的估计精度一样,该任务转移方法的估计精度优于Baseline1的估计精度,仅略差于我们的全模型的估计精度,这表明我们的全模型提取的潜在特征比Baseline1提取的潜在特征更具鉴别力,并且更容易回归准确的3D手部姿势。与最先进技术的比较。我们将我们的方法与RHD[63]和STB [62]数据集上最先进的3D手部姿势估计不同误差阈值下的PCK曲线如图所示。9. 对RHD数据集,如图所示。9(左),我们的方法在这个数据集上的所有误差阈值上都优于三种最先进的方法[63,44,5]。在STB数据集上,当在训练期间给出3D手部姿势地面真实值时,我们将我们的方法与七种最先进的方法[62,63,36,44,32,5,20]进行比较,我们的方法在大多数误差阈值上都优于这些方法,如图所示。9(中间)。我们还在STB数据集上进行了3D手部姿势地面真实值未知的情况下的实验,并将我们的方法与Cai等人提出的弱监督方法进行了比较。[5]两者都采用参考深度图作为弱监督。如图9(右),我们的三维网格为基础的方法优于蔡等人。[5]大幅度地。5.5. 质量和定性结果运行时间。我们在一个Nvidia GTX 1080 GPU上评估了我们的方法的运行时间。我们完整模型输出3D手部网格和3D手部姿态的平均时间为19.9ms,其中堆叠沙漏网络前向传播为12.6ms,残差网络和Graph CNN前向传播为4.7ms,姿态回归量的前向传播为2.6ms因此,我们的方法可以在GPU上以超过50fps的速度实时运行。定性结果。我们的合成数据集,我们的真实世界数据集,RHD [63]和STB [62]数据集的3D手部网格重建和3D手部姿势估计的一些定性结果如图所示10个。补充资料中提供了更多定性6. 结论在本文中,我们已经解决了具有挑战性的任务,从一个单一的RGB图像的3D手的形状和姿态估计。我们已经开发了一个基于Graph CNN的模型,从输入的RGB图像重建一个完整的3D网格的手表面。为了训练模型,我们创建了一个大规模的合成RGB图像数据集,其中包含3D关节位置和3D手部网格的地面实况为了在没有3D地面实况的真实世界数据集上微调我们的模型,我们将生成的3D网格渲染为深度图,并利用观察到的深度图作为弱监督。在新数据集和两个公开数据集上的实验表明,该方法可以实时恢复准确的三维手部网格和三维关节位置。在未来的工作中,我们将使用Mocap数据来创建更大的3D手部姿势和形状数据集。我们还将考虑手-对象和手-手交互的情况,以使手的姿势和形状估计更加鲁棒。鸣 谢 : 这 项 工 作 得 到 新 加 坡 MoE Tier-2 Grant(2016-T2-2-065)的部分支持。这项工作也得到了布法罗大学的启动资金和Snap Inc.的赠款的部分支持。3D PCK3D PCK3D PCK10842引用[1] Autodesk.阿诺德渲染器。网 址 : //www.arnoldrenderer.com,2018年。[2] Autodesk.Maya.https://www.autodesk.com.sg/products/maya,2018.[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。在ECCV,2016年。[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。CVPR,2019年。[5] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在ECCV,2018。[6] 范若坚及范仲嘉。光谱图解理论,第92卷。美国数学学会,1997年。[7] Martin de La Gorce、David J Fleet和Nikos Paragios。基于模型的单目视频三维手姿态估计。IEEE Transactionson Pattern Analysis and Machine Intelligence,33(9):1793[8] MichaeülDefferrard,XavierBresson,andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在NIPS,2016年。[9] Inderjit S Dhillon,Yuqiang Guan,and Brian Kulis.无特征向量加权图割的多级方法。IEEE Transactions onPattern Analysis and Machine Intelligence,29(11),2007。[10] Flickr. Flickr. https://www.flickr.com/ , 2018年。[11] 刘浩、蔡玉军、翁君武、袁俊松。手点网:使用点集的3d手姿态估计。在CVPR,2018年。[12] Liuhao Ge,Hui Liang,Junsong Yuan,and DanielThalman-n.单个深度图像中的鲁棒3D手部姿势估计:从单视图CNN到多视图CNN。在CVPR,2016年。[13] Liuhao Ge,Hui Liang,Junsong Yuan,and DanielThalman-n. 3D卷积神经网络用于从单个深度图像进行高效和鲁棒的手部姿势估计。在CVPR,2017年。[14] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.利用3d卷积神经网络进行实时3D手部姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence,2018。[15] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalman-n. 基于多视角cnn的单深度图像3d手部姿态估计IEEE图像处理学报,27(9):4422[16] 六号戈,周仁,袁俊松。点到点回归点网络用于三维手姿态估计。在ECCV,2018。[17] 罗斯·格希克。快速R-CNN。在ICCV,2015年。[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。[19] 英特尔英特尔实感。https://realsense.intel的网站。com/,2018.10843[20] Umar Iqba
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功