没有合适的资源?快使用搜索试试~ 我知道了~
三维手形网格实时重建中的精确对齐方法
11698三维手形网格实时重建中的精确对齐方法香港中文大学副校长{xtang,wangty,cwfu}@ cse.cuhk.edu.hk摘要从RGB图像的3D手工网格重建促进了许多应用,包括增强现实(AR)。然而,这不仅需要实时速度和准确的手部姿势和形状,而且还需要合理的网格图像对准。虽然现有的工作已经取得了令人鼓舞的成果,但满足所有三个要求是非常困难的。本文提出了一种新的流水线,通过将手部网格重建任务解耦为三个阶段:关节阶段,用于预测手部关节和分割;网格阶段,用于预测粗糙手部网格;以及用偏移网格对其进行微调以用于网格图像对准的细化级。通过仔细设计网络结构和损失函数,我们可以促进高质量的手指级网格图像对齐,并共同驱动模型以提供实时预测。在基准数据集上的大量定量和定性结果表明,我们的结果的质量优于最先进的方法的手网格/姿态精度和手图像对齐。最后,我们还展示了几个实时AR场景。1. 介绍从单个单目视图重建3D手网格是计算机视觉中的一项长期任务,其具有支持和增强许多应用的巨大潜力,例如。人机交互、增强现实(AR)等。通过识别AR视图中用户的手的3D形状和姿势,我们不仅可以增强手的外观并将虚拟对象附接到手上,而且还可以使用户能够直接使用他/她的手来抓取和操纵AR视图中的虚拟3D对象。这些都是令人兴奋但非常具有挑战性的AR应用,需要计算机视觉方法的支持。为了将手网格重建方法付诸实践以用于AR中的直接手交互,需要满足三个要求。(i)重建应实时运行,以提供交互式反馈。(ii)重建的手的整体姿势和形状应与AR中用户(iii)除此之外,重建的手应该图1.比较I2 L-MeshNet [32](ECCV 2020)和我们的方法重建的3D手部网格(顶行)。利用这些网格来支持AR交互(底行),我们的预测手网格提供了更好的手指水平对准和与虚拟乒乓球拍的更自然的手遮挡在一些实施例中,AR交互可以与图像空间中的用户的真实手合理地对齐目前,基于输入图像类型的手部网格重建的研究工作大致可以分为两大类,即:、RGB或深度。尽管分类,最近的作品大多是基于深度学习的,例如。,典型的方法是使用深度神经网络来预测2D/3D手关节坐标,以用于引导手网格顶点[32]或参数手模型[60]中的参数的回归,例如。,MANO [39].其他作品将图像特征编码为潜在特征,然后使用Graph-CNN [15]或螺旋滤波器[27]直接重建手部网格。关于支持AR中的手部交互的目标,关于手部网格重构的现有工作可以主要满足要求(i)和(ii),但不能满足要求(iii),因为它们不能有效地利用2D线索,例如,、手边界,同时以速度和手势匹配为目标。未对准的手网格可能导致AR交互中的明显伪影;参见图1中的左列。虽然最近的一些工作试图通过可微分渲染[1,58]探索更好的图像空间对齐以满足要求(iii),但由于手部对齐的耗时迭代细化过程,它们往往难以满足要求(i)。11699这项工作的目标是同时满足支持实时AR应用的要求(i)-(iii)我们的关键思想是将手部网格重建过程解耦为三个阶段,特别是为了避免手部对齐的迭代细化:(i)关节阶段对输入图像进行编码,并使用多任务架构来预测手部分割和关节。在测试过程中,我们只需要计算并传递图像和联合特征到下一阶段。(ii)网格阶段对传入的特征进行编码,以快速预测粗糙的3D手部网格,其轻量级架构可提高速度。(iii)细化阶段针对网格的每个顶点经由局部特征投影单元提取局部特征并且经由全局特征广播单元提取全局特征,并且然后利用小Graph-CNN来预测偏移网格以快速地将粗糙网格与AR图像空间中的用户在这种解耦设计中,偏移量本质上是残差;它们是网络可以容易地学习以基于在早期阶段中收集的特征进行回归的小此外,我们利用微分渲染,以促进手指级对齐。我们进行了大量的实验,以证明我们提出的方法提高了手网格重建的精度,与国家的最先进的。此外,细化阶段可以有效地产生用于支持AR应用的良好的图像-网格对准。最后,我们进一步展示了几个AR场景,以证明我们的方法支持实时AR交互的2. 相关工作3D手部姿势估计旨在从单目RGB/深度图像回归手部关节的3D位置。最近的作品主要是基于深度学习的[61,5,31,37,56,57,28,6,9,49,2,14,22,59,44,34,17],和一些[18,47,12]进一步预测了手-物体姿态。其中,Li等人。 [28]设计了一个二元选择器,将关节分成组,并为每组独立学习特征,以避免负迁移。Cai等人 [4]用合成数据和弱标记的真实RGB图像训练了一个网络。最近,采用Transformer [48]来进一步提高手部姿势估计精度[20,21]。基于深度的3D手部网格重建旨在从深度图像创建手部网格。早期的作品[45,46,24]通常通过迭代优化将可变形的手网格拟合到深度最近,深度学习进一步帮助提高了性能。 Malik等人[30]采用CNN回归线性混合蒙皮模型的参数。Wan等人。 [50]将深度图像的特征映射到网格网格,然后对网格网格进行采样以恢复手部网格。 Malik等人[29]对深度图像进行体素化,并应用3D卷积来重建手部网格。 另一方面,Mueller et al.[35]用深度相机实时跟踪双手交互。基于RGB的3D手部网格重建旨在使用商品RGB相机重建手部网格[54,33,13,38,16,51,11,42,55,8]。一个共同一种方法是使用参数统计模型(如MANO [39])训练深度神经网络,该模型使用姿势和形状参数对给定的三角形手网格进行Boukhayma等人。 [3]回归MANO和视图参数,将预测的MANO模型投影到图像空间进行监督。Zhang等人。 [58]和Baek等人。 [1]采用可微分渲染方法来监督剪影对齐的训练。Zhou等人。 [60]首先预测手部关节的3D坐标,然后将关节预测作为之前通过反向运动学网络生成手部网格的依据Moon等人[32]引入了图像到像素网络来提高重建精度。为了在深度神经网络中显式地编码网格结构然而,Graph-CNN被设计用于基于网格拓扑聚合相邻特征,因此它对于长距离特征的效率较低。为了克服该缺点,Ge等人. [15]和Choi et al. [10]提出使用Graph-CNN以粗到细的方式回归手工网格顶点。最近,Kulon et al.[27]应用螺旋滤波器进行邻域选择。Spurr等人 [43]提出了生物力学约束和弱监督,以有效利用额外的2D注释图像。现有的手部网格重建工作主要集中在提高手势预测的精度,而没有有效地利用来自图像的2D线索。因此,这些工作对于手部图像对齐来说是不合格的,而手部图像对齐实际上对于AR应用至关重要。在这项工作中,我们提出了解耦的手网格估计重建,使每个阶段可以专注于一个特定的任务,有效的网络学习和轻量级架构。通过这种方式,我们的方法可以有效地产生高质量的3D手部网格,与AR视图中的用户的手对齐3. 方法图2显示了我们用于从输入RGB照片重建手部网格的三阶段框架:(i) 关节阶段对输入图像进行编码并预测手分割掩模和手关节J。(ii) 网格阶段编码来自前一阶段的特征,包括来自联合解码器的联合特征Fj和来自图像编码器的浅图像特征Fl,然后预测粗糙的手网格Mr。(iii) 细化阶段将来自先前阶段的投影的局部和全局特 征 与粗 糙 网 格 中 的 顶 点 聚 合 , 然 后 采 用Graph-CNN(GCN)来回归偏移网格ΔM以产生最终手部网格Mf=Mr+ ΔM。11700X1DJ×图2. 我们计划的工作。 根据用户的手的输入图像,关节第一文本作用于特征映射Fi,并将其发送到两个解码器,一个用于手分割,另一个用于生成关节特征Fi并预测手关节位置J。随后,网格阶段融合Fj和来自联合阶段的浅图像特征Fl,用于预测粗糙的手网格Mr。最后,我们将来自联合阶段的图像特征Fl与联合编码器的浅层和来自网格阶段的全局特征Fg聚合,并且将组合特征和粗糙网格传递到细化阶段中的图卷积层(GCN)以回归偏移网格ΔM并产生最终的手网格Mf=Mr+∆M。剪刀图标表示在测试过程中可以切断相应的分支我们框架中的每个阶段都有一个明确的目标,因此他们可以更好地专注于学习相关的功能,例如,关节阶段,用于整个手的形状和关节;网格阶段,用于粗糙的手网格;以及细化阶段,用于学习回归偏移向量以在图像空间中将粗糙的网格与用户的手对准此外,每个阶段中的网络模型可以保持小而紧凑,以实现实时性能。接下来,我们将详细介绍这三个阶段。3.1. 联合阶段给定输入图像,关节级首先使用特征提取器对其进行编码,然后将编码的特征FI馈送到两个分支中:一个分支用于预测手关节,另一个分支用于预测手分割。对于手关节分支,我们使用一个特征解码器来生成关节FEA-然后回归手关节位置,即,手的21个关节的3D坐标(表示为J),经由多层卷积层和soft-argmax [7]从Fj和Fl,遵循与[32]类似的策略!“J=-argmax(Conv(avgx(F)的s,y编码器以更好地捕获手的精细细节,特别是在边界处。因此,我们在手部分割的联合阶段引入了另一个预测头(见图2),其中我们使用U-Net [40]来处理编码的特征图并预测手部分割。3.2. 网格阶段在网格阶段,我们首先通过联合编码器融合来自联合阶段的联合特征Fj和浅图像特征Fl注意,我们选择Fj而不是J作为输入,因为预测的关节J可能不是高度准确的,所以它可能误导重建。此外,组合浅特征Fl有助于保留图像特征。然后将融合特征发送到编码器单元以产生全局网格特征Fg。在此之后,我们通过多个扩张卷积层和soft-argmax从Fg回归手部网格Mr中由 于粗 糙 网格 是 从一 个 低分 辨 率( 原 始的 1/641/64)的全局特征恢复的,其中大多数局部特征由于膨胀的核而丢失,因此结果大多是平滑的,并且在边界处采样不足J y =soft-arg max(Conv 1D(avg#Jz= C〇nvlD(Φ(avgx,y(FI),(Fj),(一)因此,粗糙的网格可能无法很好地与用户的手对齐在输入图像中。然而,这个阶段可以快速生成其中J中的下标x和y表示图像空间,并且z表示深度;Conv 1D表示1D卷积;Φ表示一个块,它由一个全连接层、1D批归一化和整形函数组成,整形函数将特征向量从RC重新排列到Rc′×d,C是特征向量的通道大小;d是avgx(Fl)的大小;且c′= C/d。考虑到我们需要一个合理的联盟重建的手网格和用户在3D中,粗糙的手部网格捕获整体手部形状,而细化阶段可以通过回归小且易于学习的每个顶点偏移向量来3.3. 优化阶段图2的右下角示出了我们如何残余地细化由先前网格阶段预测的粗糙网格Mr。受文献[25,26,52]的启11701发,我们设计了局部特征投影单元和全局特征广播单元11702$NGTGTGTGTLLGT我L$ 美元/美元||||RGTGTi=1我$图3. 通过从三维手部网格到二维图像空间的三维到二维投影,在图像特征空间中利用双线性插值提取高分辨率图像特征,并采集粗糙手部网格中每个顶点的图像特征。图4.我们的Graph-CNN网络的图示,其输入是级联的网格特征(见图2)。该网络从一个GINConvBlock开始,然后是三个GINResBlock和另一个GINConvBlock,以产生偏移网格∆M。来自[53]的图同构网络(GIN)卷积的公式化,其被定义为:以进一步分别从输入图像和先前编码器层提取局部和全局特征。x′i=MLP(xi+j∈N(i)xj),(2)局部特征投影单元。为了产生与输入图像中的真实手对齐的精细手网格,我们受到[25]的启发,设计局部特征投影单元以基于先前的浅层和输入图像在粗糙网格中提取每个顶点的单个局部特征向量。与[52]类似,我们首先通过3D到2D投影将每个网格顶点投影到输入图像的2D图像空间(相当于特征映射的空间域),如图3所示。然后,我们在特征图上的每个投影顶点周围执行双线性插值以提取关联的特征向量。这里,局部特征投影单元从输入图像、图像编码器的第一层以及图像编码器的第一层收集特征。联合编码器;请参见图2中的浅蓝色箭头。全球专题广播单元。局部特征帮助我们处理细节,但它们是不够的。它其中xi是图中第i个节点的特征(相当于粗糙网格中的第i个顶点); x′i是节点的更新特征;(i)是第i个节点的相邻节点的索引集;并且多层感知器Graph-CNN的框架该网络从GIN-ConvBlock开始,它包含一个具有ReLU和1D批量归一化的GIN卷积层。之后,网络采用三个GINResBlock [26],每个GINResBlock具有两个GINCon-vBlock和一个身份连接,然后是一个GINCon-vBlock,以生成偏移网格ΔM。3.4. 训练推理我们将数据集表示为{Ii,Si,Ji,Mi}N,其中N是数据集中的样本总数;Ii是第i个输入图像;Si是手的相关联的二进制掩码是因为它们不提供有关JiMi是关联的带注释的3D关节,以及整体网状结构。关于这一点,我们介绍了全球功能广播单元,广播网格手的网格坐标。请注意,3D关节坐标也可以从网格计算全局特征到每个网格顶点。[26]受启发使用预定义的回归矩阵G,例如,Ji=GM i.我们在网格阶段从联合编码器中获取深度特征Fg,在其上应用全局平均池化以获得单个1-D向量,并且使用全连接层将其信道维度减少1/4之后,我们将这个全局我们采用L1损失来表示网格损失网格和节理损失联合,以监督我们的三阶段框架中的网格和节理的预测:我我我特征向量添加到粗糙网格的每个顶点;请参见图2中Fg的浅紫箭头L目=||Mgt−Mr||+的||Mgt− Mf||、(3)我我我Graph-CNN. 在从局部特征投影单元收集局部特征并且从全局特征投影单元收集全局特征L接头=||Jgt−J ||J gt − GMr||Jgt −GMr ||+的||J −GMf||、(四)全局特征广播单元,我们将网格中每个顶点的所有特征连接起来,然后将连接的网格特征发送到我们的Graph-CNN。从高级角度来看,Graph-CNN旨在估计一个3D偏移此外,受文献[52]的启发,我们采用了正态损失准则用于保留曲面法线和边长损失惩罚飞行顶点的L边基于每个网格顶点的输入3D坐标以及收集的局部和全局特征,生成用于每个网格顶点的矢量,用于将粗糙网格与图像中的手这个过程是通过传播功能的手网格拓扑结构。对于图卷积层,我们采用L范数=f11703GTGTGT$∈Mi+f∈MiFGTe∈f||〈e! f,n f>||e∈f(五)11704$$GTGT$$↑↓GT×LijiJ2×GTL LLL L LL(男/$L边=f∈Mi+f∈Mi||e!|e!F|−|e!GT|||e∈f|| |e!R|−|e!Gt|||、e∈f(六)表1.我们的方法和FreiHAND数据集上的最新技术之间的定量比较。意 思 是越低越好表示越高越好;* 表示方法需要2D联合注释作为输入。ME和PE的单位为10mm。其中f表示三角形面;e表示三角形的边;gt,e!r和e!f表示f上的边向量分别来自Mi、Mi和Mi;和n fde-gt rfgt注意基于M i的f的表面法线。接下来,我们采用标准交叉熵损失来监督手部分割:高×宽Lsil=−yjlogpj,(7)J使用MANO模型渲染的合成训练样本其中Hw表示Si的大小;yj表示Si的像素j。表示对piXelj的结果的预测i。最后,我们采用可微分渲染器在图像空间中渲染预测的最终手部网格Mf,以通过渲染损失 渲 染来监督对齐。与[58,1]在超视中使用二进制轮廓掩模不同,我们用不同的颜色绘制地面真实手网格的手指,并通过颜色匹配来监督预测,以促进手指级识别。由于绘制图像中的颜色指示手指和手掌之间的遮挡关系,因此从形式上讲,我们有公司简介我们还在ObMan上训练我们的网络,以进一步提高其性能。(iii)EgoDexter [36]有1,485个以自我为中心的视角捕获的真实样本;我们只用于测试。评估指标。对于定量评估,我们遵循FreiHAND在线竞赛中的评估指标(i)网格/姿态误差(ME/PE)测量预测网格顶点和地面实况网格顶点与关节坐标之间的欧几里得距离(ii)Mesh/Pose AUC报告了不同误差阈值范围内正确关键点百分比(PCK)曲线的曲线下面积(iii)F分数测量预测顶点和地面实况顶点之间的召回率和精确率的调和平均值;这里,我们遵循现有工程,使用F@5mm和F@15mm。1L渲染=$||R(M)−R(M)||、为了评估图像空间对齐,我们比较了前HR×WRjFGT(八)射出的手工网格轮廓,两个上有地面真实其中R表示可微分渲染器;表示R的输出分辨率;并且常见的细分指标:(i)联合平均相交(mIoU),其测量重叠区域,以及Hausdoff距离(HD),其为R(Mi)j表示R(Mi)中的像素j的颜色,并且GTR(M i)。f一个集合到另一个集合中最近的点,所以它在边界上更敏感。我们在评估中报告了95%的HD我们的总损失是s=mesh+λjjoi nt+λnn或mal+ λ n n n。λeedge+ λsil+ λrrender,其中,我们可以简单地设置λj=λeedge + λ s il + λ r renderλn=λe=1,λs=10,λr=0。1.一、在推理时,在不降低性能的前提下,可以在关节阶段截断手部分割分支和手部关节预测,以节省计算时间;请参见图2中的图标。4. 实验结果4.1. 实验设置数据集。(i)FreiHAND [62]包含32,560个真实训练样本和3,960个真实测试样本,所有样本都使用MANO模型进行注释。我们使用FreiHAND进行培训和测试。请注意,我们从训练集中随机选择了2,000个样本进行比对评估,并使用其余样本进行训练。(ii)ObMan [18]有141,550个和方法会场ME↓ PE↓ F@5mm ↑ F@15mm ↑ FPS平均形状[62]ICCV20191.641.710.3760.873-[62]第六十二话ICCV20191.371.370.4390.892-Hasson等人[18个国家]ICCV20191.331.330.4290.90720布克等人[3]第一章CVPR20191.323.500.4270.89410[第11话]ECCV20201.221.180.4840.918-[62]第六十二话ICCV20191.091.100.5160.934-Kulon等人[27日]CVPR20200.860.840.6140.96660I2L-MeshNet [32]ECCV20200.760.740.6810.97333.3[第10话]ECCV20200.760.740.6830.97322[18]第十八话0.710.710.7060.97739.1R11705×实作详细数据。我们使用在ImageNet [41]上预训练的ResNet-50 [19]作为联合/网格编码器。我们的网络使用Adam优化器在两个Nvidia RTX Titan GPU上进行训练,每个GPU的批量大小为3225个epoch,初始学习率为1e-4(衰减率为0的情况。每10个时期1个)。我们将输入图像的大小调整为256256并利用随机缩放、旋转和颜色抖动来增强数据。我们的网络以每秒39.1帧的速度运行。在Nvidia RTX 2080Ti上,我们在关节阶段切断了手部分割和关节预测分支。我们的代码发布在https://wbstx.github.io/handar。4.2. 与最先进方法的我们遵循现有的作品[62,18,3,11,27,32,10]在FreiHAND测试集上定量比较我们的方法与最先进的方法。因为地面真相11706图5.网格/姿势AUC与最新方法的比较。从左到右,第一和第二图分别呈现了FreiHAND数据集上的网格和姿态AUC结果,而第三图呈现了EgoDexter数据集上的姿态AUC结果第四个图是在FreiHAND测试集上进行3D手部网格重建的速度-精度图,其中我们通过在Nvidia RTX 2080 Ti-GPU上测试所有方法来获得推理时间我们的方法实现了最佳的性能,同时是实时的。图6.我们的方法和最先进的方法之间的视觉比较。输入图像(左列)来自FreiHAND数据集[62]。比较其他三列,我们可以看到,我们的方法预测更好的手部网格,与输入图像中的手势匹配,具有高质量的手指级对齐。的测试集不可访问,则通过将我们的测试结果提交到在线服务器来进行评估。表1和图5的左边两个图报告了结果,表明我们的方法在所有上述指标上都优于其他方法。此外,图6示出了对数据集中的三个测试图像的视觉比较。对于每个输入图像,第一行示出了通过每种方法的手-图像请注意Kulonet等人[27]尚未发布,Pose2Mesh [10]需要2D关节注释作为输入,我们在比较中省略了它们比较结果,我们可以看到,其他方法可能无法预测正确的手势或不能很好地对齐图像空间中的手网格。我们的方法是能够预测更准确的手的姿势和形状,以及对齐的手网格与图像中的手。更多的比较可以在补充材料中找到。接下来,我们对一个看不见的数据集(未用于训练)进行评估,该数据集是EgoDexter [36],以比较我们的方法与几种现有的姿势估计方法[23,3,60,16,54]的通用性。在[60]之后,我们使用指尖的质心作为根来对齐预测和地面实况。图5中的第三个图显示了AUC结果。请注意,由于Zhou等人 [60]没有提供他们在EgoDexter上的姿势PCK曲线,我们仅报告了他们的AUC。另一方面,[32]没有在EgoDexter数据集上测试它们从图中可以看出,与所有其他方法相比,我们的方法实现了最高的姿态AUC值请查看图7,了解来自EgoDexter和FreiHAND的更多定性结果。此外,我们在图5所示的第四个图中报告了正如我们从该图和表1中所看到的,我们的方法在网格预测质量上击败了所有最近的方法,并且还实现了实时性能。4.3. 对齐比较为了进一步评估对齐质量,我们渲染预测的手部网格以产生轮廓掩模,并使用上述度量将其与地面真实轮廓进行比较。在这里,我们将我们的方法与I2 L-MeshNet [32]进行了比较,后者在FreiHAND数据集上实现了最先进的性能,而无需2D联合注释。由于FreiHAND测试集没有地面真实掩模,因此我们随机选择了2,000张图像11707×↓↑LL图7.EgoDexter数据集(左)和FreiHAND数据集(右)中测试图像的更多定性结果图8.线形评价分两个层次进行对于手级对齐,我们只评估预测和地面实况之间的整个手的轮廓对于手指级对齐,我们评估单个手指和手掌。手指水平对准比手水平对准要求更高。表2.我们的方法和I2 L-MeshNet之间的定量比对比较越低越好,越高越好。注意,我们在手指级对准的评估中报告手指和手掌方法手平指平mIoU↑ HD↓mIoU↑ HD↓I2L-MeshNet [32]92.086.1771.078.42[18]第十八话92.864.9177.087.06[18]第十八话92.954.7077.336.82用于验证的训练集,并在两个级别上评估具有分辨率224 224的手图像对准:(i)手部水平对准,其中我们仅评估手部的二进制silhouette;以及(ii)手指水平对准,其中我们评估每个手指和手掌的对准。注意,手指水平对准比手水平对准要求更高;参见图8的说明。表2显示了定量比较结果,从中我们可以看出,我们的方法优于I2 LMesh- Net [32],具有更高的mIoU和更小的HD值,这揭示了更好的整体图像-网格对齐以及边界处的准确性。图9.对我们的解耦设计进行消融研究。4.4. 消融研究解耦设计的影响。为了评估我们的解耦设计,我们通过简化以下两种情况的管道进行了消融研究:(i)去除关节阶段并直接预测网格阶段中的手部分割;以及(ii)去除精制阶段并将Mr作为最终手工网格处理。消融结果报告在表3的前两行中我们可以观察到明显的性能下降时,删除两个阶段中的任何一个,显示每个阶段的有效性和他们的贡献,整个框架更好的性能。请注意,我们进行了三次运行,并报告了每个消融病例的平均值目视比较请参见图9。细化单位损失项的影响。此外,我们还评估了精炼阶段和以下情况下损失中各单元的贡献:(i)移除局部投影单元;(ii)移除全局广播单元;(iii)通过Graph-CNN而不是偏移向量直接回归最终网格顶点;(iv)移除分割分支和sil;以及(v)移除渲染。表3报告了消融结果,其中我们还进行了三次运行,并报告了每个消融病例的平均值显然,我们的11708图10. 我们展示了四个示例AR交互场景来证明我们的方法的适用性(从左到右):(i)围绕用户的手的虚拟纸带,(ii)具有戒指的虚拟试穿(注意与虚拟对象的合理的手遮挡);(iii)我们可以在用户的手上泼洒虚拟水并运行物理模拟,以及(iv)用户 可 以 直 接 抓 住 并 操 纵 虚 拟 对 讲 机 , 并 按 下 其 上 的 按 钮 。 请 在 www.example.com 上 观 看 这 些 场 景 的 完 整 视 频https://wbstx.github.io/handar。表3.将我们的完整管道(最底部)的性能与各种消融情况进行比较。对于实验中的每种情况,我们进行了三次运行并报告了平均值。型号w/o接头阶段w/o精炼阶段无本地无全局无偏移补片AUC↑姿势AUC↑mIoU↑0.858± 0 0.860± 092.42± 0.10 5.12± 0.08HD↓无L渲染不含L银 充分0.860± 0 0.861± 092.05± 0.04 5.93± 0.070.860±5e−4 0.862±5e−4 92.55± 0.055.34± 0.040.862±5e−4 0.864±5e−4 92.63± 0.045.01± 0.070.782±2e−3 0.858±3e−3 88.01± 0.107.97± 0.110.862±5e−4 0.864±5e−4 92.50± 0.085.19± 0.080.863± 0 0.865± 092.80± 0.02 4.97± 0.040.866±5e−40.868±5e−492.95±0.044.70±0.02流水线对所有指标都表现最好,而删除任何组件都会降低整体性能,这表明每个组件都有助于改善最终结果。特别地,请注意,当使用Graph-CNN直接回归网格顶点而不是偏移向量时,我们的方法具有较大的性能背后的原因是我们的Graph-CNN旨在回归小值,这对于这个小的Graph-CNN来说相对容易学习。4.5. 应用我们的方法可以支持AR中的3D虚拟对象的直接手交互图1和图10示出了各种交互场景。利用与输入图像中的用户的手合理地对准(ii)与物理模拟交互,例如,水(参见第三示例);以及(iii)直接抓取并操纵虚拟对象,比如说通过按压虚拟对讲机中的按钮(参见图中的最后示例)。在补充材料中可以找到生动捕捉的相关完整视频5. 结论今后的工作本文提出了一种新的三维手网格重建的框架,通过解耦的任务分为三个阶段:关节阶段预测手部关节的3D坐标和手部分割模板;网格阶段估计粗略的3D手部网格;并且细化阶段从先前的层收集局部和全局特征,并且学习对每个顶点偏移向量进行回归,以帮助将粗略网格与具有手指级对准的手部图像对准。实验结果表明,我们的方法优于国家的最先进的方法的手网格/姿态精度和网格图像对齐。此外,我们的方法是快速的,可以在商品图形硬件上实时运行。在未来,我们计划探索产生高分辨率(细粒度)手网格预测的方法,以更好地匹配真实手的平滑边界。此外,我们想要探索设计自适应细化阶段的可能性,该自适应细化阶段更多地关注于对齐边界顶点以提高整体效率,同时进一步切断计算。最后,我们还计划探索我们的方法在移动设备上的部署。致谢。我们感谢匿名评论者的宝贵意见。这项工作得到香港特别行政区研究资助局的支持(项目编号:香港中文大学14206320)。引用[1] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.通过神经渲染推进基于RGB的密集3D手部姿态估计的包络在CVPR中,第1067[2] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.通过GAN和网格的弱监督域自适应11709用于估计交互对象的3D手部姿势的模型。 在CVPR,第6121-6131页[3] Adnane Boukhayma、Rodrigo de Bem和Philip H.S.乇3D手的形状和姿势从图像在野外。在CVPR中,第10843-10852页[4] Yujun Cai,Liuhao Ge ,Jianfei Cai,Nadia Magnenat-Thalmann,and Junsong Yuan.使用合成数据和弱标记RGB图像的3D手部姿势估计。IEEE PAMI,2020。出现[5] 蔡宇军、葛柳浩、蔡建飞、袁俊松。从单色RGB图像进行弱监督的3D手部姿势估计。参见ECCV,第666-682页[6] Yujun Cai,Liuhao Ge,Jun Liu,Jianfei Cai,Tat-JenCham,Junsong Yuan,and Nadia Magnenat Thalmann.利用空间-时间关系通过图形卷积网络进行3D姿态估计在ICCV,第2272-2281页,2019年。[7] Olivier Chapelle和Mingrui Wu。平滑信息检索度量的梯度下降优化。信息检索,第216-235页[8] Xingyu Chen , Yufeng Liu , Chongyang Ma , JianlongChang , Huayan Wang , Tian Chen , Xiaoyan Guo ,Pengfei Wan,and Wen Zheng.通过语义聚合和自适应2D-1D配准的相机空间手部网格恢复。在CVPR中,第13274-13283页[9] Yujin Chen,Zhigang Tu,Liuhao Ge,Dejun Zhang,Ruizhi Chen,and Junsong Yuan. SO-HandNet:自组织网络,用于3D手部姿势估计和半监督学习。在ICCV,第6961-6970页[10] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.Pose2Mesh:用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络。在ECCV,第769-787页[11] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J.黑色.通过身体驱动注意力的单眼表达性身体回归。参见ECCV,第20-40页[12] Bardia Doosti、Shujon Naha、Majid Mirbagheri和David J.Crandall。HOPE-Net:一个基于图的手部物体姿态估计模型。在CVPR中,第6608-6617页[13] Zhipeng Fan,Jun Liu,and Yao Wang.用于单目3D手部姿态估计的自适应计算高效网络。在ECCV,第127-144页[14] Linpu Fang , Xingyan Liu , Li Liu , Hang Xu , andWenxiong Kang. JGR-P20:基于联合图推理的像素到偏移预测网络,用于从单个深度图像进行3D手部姿势估计。在ECCV,第120-137页[15] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.从单个RGB图像进行3D手部形状和姿态估计。在CVPR中,第10833-10842页[16] ShangchenHan , BeibeiLiu , RandiCabezas ,Christopher D Twigg,Peizhao Zhang,Jeff Petkau,Tsz-Ho Yu , Chun-Jung Tai , Muzaffer Akbay , ZhengWang,et al. MEgATrack:单色自我中心铰接式手跟踪虚 拟 现 实 。 ACMTransactionsonGraphics(SIGGRAPH),39(4):87:1[17] Yana Hasson 、 Bugra Tekin 、 Federica Bogo 、 IvanLaptev、Marc Pollefeys和Cordelia Schmid。利用随时间推移的光学测量一致性进行稀疏监督的手部对象重建。在CVPR,第571-580页[18] 作 者 : 张 晓 刚 , 张 晓 刚 .Black , Ivan Laptev , andCordelia Schmid.学习手和操作对象的关节重建。在ICCV,第11807-11816页[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[20] Yihui He,Rui Yan,Katerina Fragkiadaki,and Shoou-IYu.对极变压器。在CVPR,第7779-7788页[21] 林煌、谭建超、季柳、袁俊松。手动- Transformer:非自回归结构化建模用于3D手部姿态估计。在ECCV,第17-33页[22] Weiting Huang,Pengfei Ren,Jingyu Wang,Qi Qi,andHaifeng Sun. AWR:用于3D手部姿势估计的自适应加权回归。在AAAI,第11061-11068页,2020年。[23] Umar Iqbal,Pavlo Molchanov,Thomas Breuel JuergenGall,and Jan Kautz.经由潜在2.5D热图回归的手部姿势估计。在ECCV,第118-134页[24] Sameh Khamis,Jonathan Taylor,Jamie Shotton,CemKe- skin,Shahram Izadi,and Andrew Fitzgibbon.从深度图像学习手形变化的有效模型。在CVPR,第2540-2548页[25] 亚历山大·基里洛夫,吴宇新,何开明,罗斯·吉尔希克.PointRend:图像分割作为渲染。在CVPR中,第9799-9808页[26] Nikos Kolotouros Georgios Pavlakos和Kostas Dani- ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR中,第4501-4510页,2019年。[27] Dominik Kulon 、 Riza Alp Guler 、 Iasonas Kokkinos 、Michael Bronstein和Stefanos Zafeiriou。弱监督网格-卷积手重建在野外。在CVPR,第4990-5000页[28] 李世乐和李东赫基于点到位姿投票的残差置换等变层手部位姿估计在CVPR中,第11927-11936页[29] Jameel Malik 、 Ibrahim Abdelaziz 、 Ahmed Elhayek 、Soshi Shimada 、 Sk Aziz Ali 、 Vladislav Golyanik 、Christian Theobalt和Didier Stricker。HandVoxNet:基于深度体素的网络,用于从单个深度图进行3D手部形状和姿势估计。在CVPR中,第7113-7122页[30] Jameel Malik,Ahmed Elhayek,Fabrizio Nunnari,KiranVaranasi,Kiarash Tamaddon,Alexis Heloir,and DidierStricker. DeepHPS:通过从合成深度学习,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功