没有合适的资源?快使用搜索试试~ 我知道了~
2354单目RGB图像的北京航空航天大学虚拟现实国家重点实验室张雄1李强1莫红2张文博1<$1郑文11{zhangxiong,liqiang03,zhangwenbo,zhengwen}@ kuaishou.com,2mandymo@buaa.edu.cnRGB图像2D姿势3D姿势投影掩模手工网眼其他视图图1:手部补片恢复。我们的框架提供了一个统一的单目手图像理解方案。第一列分别显示了STB [55]和RHD [59]数据集的两个示例第二列和第三列显示估计的2D关节和3D关节位置。第四列展示了重建的手部网格的投影掩模,而最后两列从几个视点说明了恢复的网格。请注意,即使存在严重的遮挡,我们的框架也可以以合理的方式恢复网格。摘要在本文中,我们提出了一个手网格恢复(HAMR)框架,以解决重建的问题,ING完整的三维网格的人手从一个单一的RGB图像。1与现有的从RGB或/和深度图像数据进行2D或3D手部姿态估计的研究相比,HAMR可以为单目手部图像理解提供更具表现力和有用的网格表示。特别地,通过将具有形状和相对3D关节角度的通用3D手模型参数化来实现网格表示。通过利用这种网格表示,我们可以容易地计算3D关节位置通过线性插值之间的顶点的网格,而获得的2D关节位置与投影的3D关节。为此目的,1代码可在https://github.com/MandyMo/HAMR上获得。* 表示平等贡献。†通讯作者。可以根据导出的表示和地面实况标签来定义可微的重投影损失,从而使我们的框架是端到端可训练的。定性实验表明,我们的框架是能够恢复有吸引力的3D手网格,即使在存在严重的闭塞。量化,我们的方法还执行了国家的最先进的方法,从一个单目RGB图像的2D和3D手姿态估计在几个基准数据集。1. 介绍手部图像理解的目标是从自然RGB或/和深度图像中恢复手部空间配置的问题,其具有许多应用,例如人机交互[20,40]和虚拟/增强现实[18,33]。由于不同的外观变化,自遮挡和复杂的关节,估计的空间配置是非常具有挑战性的。虽然许多2355现有的作品被认为是基于无标记图像的手部图像理解,它们中的大多数需要深度相机[1,11,23,34,41,44,45,53]或多视图图像[2,14,38,43,51]处理上述困难。作为一个结果,这些方法中的大多数是不切实际的现实世界的情况下,只有单目RGB图像是可用的。对于单目RGB设置,许多最近的工作已经研究了2D和3D手部姿势估计的具体问题[7,15,24,38,39,59]。考虑到2D手部姿势,Simon等人。 [38]利用自举来从单视图RGB图像估计2D关节位置,而该方法必须利用3D情况下的多视图图像。Gomez-Donoso等人[14]介绍了一种简单而有效的深度学习架构,用于2D手部姿势估计,并构建了一个多视图3D手部姿势数据集。注意,基于单个RGB图像的2D手部姿态估计在自遮挡和复杂配置下容易出现不合理的预测关于根据单目RGB的3D手部姿态估计,明显的困难在于由缺失的深度信息引起Zimmermann和Brox [59]提出了第一个基于学习的公式,该公式增强了深度网络,以学习网络隐式3D清晰度,从而解决视角模糊性。Panteleris等人。 [29]将从2D姿态估计3D姿态制定为逆运动学(IK)问题,其将解空间限制为仅合理的手部关节。Mueller等人 [24]还引入了几个几何一致的规则来强制人手约束,以减轻手部解析的歧义。除了加强几何约束,最近的几项工作已经研究了复杂的学习策略。Spurr等人。 [39]设计了一种生成手模型,由RGB,2D和3D姿势模态的相干潜在空间表示,这使得半监督学习成为可能。Iqbal等人[15]介绍了一种中间2.5D姿态表示,可以很容易地从RGB图像中估计出来,然后提供了一种从2.5D重建3D姿态的解决方案。Cai等人 [7]提出了一种弱监督的方法,通过在训练期间利用深度图像进行3D姿态回归。尽管这两种策略在总体上是有效的,但它们不足以完全捕捉手部关节的固有特性和多样性。除了视角模糊之外,另一个挑战是缺乏高质量的注释 3D 手 部 姿 势 数 据 。 为 了 解 决 这 个 问 题 ,Zimmermann等人。 [59]转向使用3D模型渲染合成数据,从中可以轻松获得3D关节的地面Mueller等人。[24]采用CycleGAN [57]来合成训练数据,这可以在一定程度上提高3D手部姿势估计的性能。然而,在合成数据上训练的网络由于域转移而不能很好地推广到真实世界的图像。在本文中,我们提出了一个手部网格恢复(HAMR)框架,它也能够产生2D和3D姿态估计作为副产品,如图所示。1.相对于目前二维或三维手势估计的研究,HAMR为手部RGB图像理解提供了一种更全面、更灵活的网格表示。在其核心内,HAMR参数化通用3D手模型以根据形状和相对3D关节角度来定义网格表示。利用这种网格表示,可以通过在网格顶点之间线性插值来计算3D关节位置。此外,可以利用3D关节的简单投影来获得2D关节位置因此,HAMR提供了一个优雅的方法来处理视角歧义和数据不足。首先,HAMR中引入的参数化模型隐含地全面刻画了手的固有特性. 我们的消融研究也证实了这一点,即在手指上添加几个特定的几何约束可以产生非常轻微的改善。其次,由于HAMR是端到端可训练的,这要归功于可微的重投影损失,因此我们的方法可以利用大量不完整注释的2D和3D训练样本。HAMR的有效性通过广泛的定性和基准数据集上的定量实验。2. 相关工作在文献中,三维重建是一个长期存在的问题,在计算机视觉和计算机图形学中得到了相当大的关注。在这里,我们提出了一个简短的概述3D人脸和人体重建从一个单一的RGB图像上的两个特定的主题。单眼面部重建。由于[4,8,32]提出的3D变形模型(3DMM),基于单一RGB的3D人脸重建在近几年取得了很大的成功。例如,MoFA [47]提供了一个端到端的可训练框架,利用3DMM定义一个差分参数解码器,用于人脸姿态、形状、表情、皮肤反射率和场景照明。作为向前迈出的一步,Tewari et al.[46]除了差分参数模型之外,还考虑了面部属性的回归量。Genova等人 [13]提出了一种仅使用未标记照片训练回归网络以拟合3DMM参数的Sengupta等人。 [37]实现了一个端到端的学习框架,用于将不受约束的人脸图像分解为形状,反射率和照度。单目人体恢复。在从单个RGB恢复人体网格方面也取得了类似的进展。例如,Bogo et al. [5]第一次方法自动估计三维姿态的人体以及其三维形状从一个单一的无约束的图像。Kanazawa等人 [16]描述了一种端到端的框架,用于从2356#»#»图2:框架架构。 我们的框架由三个部分组成:(1)2D姿态估计模块旨在从单个RGB图像估计2D热图,(2)回归模块,通过迭代方式回归3D参数Θ ={θmesh,θcam},(3)网格恢复部分,用于生成网格表示,从Θ的2D和3D关节位置。单个RGB图像通过采用CNN来回归参数模型SMPL的参数[19]。与[16]类似,Omran等人。 [28]执行了一种用于人体网格恢复的新型网络结构,并在3D人体姿势估计任务上实现了最先进的结果。最近,BodyNet [50]提供了一个端到端的可训练网络,该网络考虑了体积3D损失、多视图重投影损失和几种中间监督。除了上述研究工作外,单目RGB的手反射还没有引起社会的足够据我们所知,HAMR是实现这一目标的首批方法之一在其他并行工程[6,12]。最大的,MANO因素手网格到形状-主要模型手属性,如手指细长和手掌厚度和姿态-如何三维表面变形与articulation。 类似于SMPL [19],MANO参数化用 一 组 参 数 θmesh={#»β , θ} 对d # » m # »esh M ∈ R N × 3进行三角剖分,其中β∈R10表示形状参数,θ#» ∈ RK×3表示位姿参数。从技术上讲,β表示塑造身份主体的PCA分量的系数θ,并且θ表示相对身份主体的系数θ。Rodrigues矢量表示上K关节的3D旋转该模型由平均网格T<$∈RN×3定义由静止姿态θ中的N个顶点连接表示; a混合权重集J∈RN×K和W ∈RN×K;混合#»#»3. 框架本文的主要目的是提出一个统一的框架,从以手为中心的RGB图像中提供详细的网格表示M∈RN×3以及手 的 二 维 关 键 点 Φ2D∈RK×2 和 三 维 关 节 位 置Φ3D∈RK×3,其中N是M的顶点数,K表示关键点的数目我们利用最近的用于生成手部网格的参数化生成模型,然后功能BS:R|β|将β作为输入并输出混合形状以表征第i个身份主体;姿态相关混合函数BP:R|θ|›→RN×3,用于补偿姿态变化引起的变形。根 据 标 准 s#»kinning#»程 序 , 将 形 状 和 姿 态 变 形 BS(β)、BP(θ)应用于平均模板T<$。为了获得最终网格,然后通过使用混合蒙皮函数W(·)围绕关节J(β)旋转每个手指部分来对网格#i进行摆姿势,从生成的网格推断手部姿势整体建筑-#»#»#»#»#»#»我们的框架的结构如图所示。二、M(β,θ)=W(T(β,θ),J(β),θ,W),(1) #»#<$#»#»3.1. 手部补片恢复手部网格表示。我们利用MANO [36]作为我们框架中的通用3D手模型特别是T(β,θ)= T + BS(β)+BP(θ)。(二)利用网格模型,可以通过指定参数β和β的某些值来容易地重建手网格。标签RGB图像2D姿态估计⨁⨁⨁⨁热图特赫电子照相2D拉塞格3D打阿托吉手模型迭代回归电子照……网片插值渲染投影编码器2357Kk=1KΦ=Φ |θ#»θ。值得一提的是,T(·)和W(·)两者是不同的。[19,36]这是一个很好的选择能够与其他模块组成网格模型。衍生手部姿势表达。给定重新覆盖的网格,我们可以通过网格顶点之间的线性插值来计算3D关节位置Φ3D,而通过3D关节的投影来获得2D关节位置Φ2D更具体地说,ΣN损失函数。对于我们的目标,为了从单个RGB图像中恢复手部网格,我们利用深度卷积网络来拟合网格参数θmesh。然而,在现实世界的情况下,它几乎是不可能获得地面实况网格参数时,从单一的RGB图像注释。幸运的是,我们的HAMR框架可以从网格中定义派生的3D和2D关节位置通过这样做,我们可以用广泛可用的3D和2D注释训练HAMR,从而实现网格重建。我们要指出的是,有一个问题来自凸轮-Φ3D=i=1 (3)第一次见面。era参数θcam。为了使我们的框架完全自动化和准确,我们从基础引导另一个流2DY.3 Dk k凸轮Σ、(四)深度卷积网络来估计相机参数。在训练中,其中Φ3D是一组3D坐标{(x,y,z)k}K是一组对应的2D坐标{(u,v)k}K、Φ2D得双曲正弦值.根据地面实况配对的3D和2D注释计算出最终结果。更具体地说,k=1θcam={(s,tx,ty)}表示相机参数r。的3D到2D投影函数(·)被定义为以下,计算为平均2D和3D骨骼之间的比值长度f集合的n阶“地面实况”计算为Y ((x,y,z)|(s,t),t))=(s(x+t)、s(y+t))、 (5)(tx,ty)=1Kk=1((uk,vk)/s −(xk,yk))。Xy x y我们使用弱透视相机模型。侧面影像约束。通过仅对2D/3D手部姿势施加监督,网格可以简单地变形以最佳地拟合关节位置并且忽略手部表面,这导致异常的网格表示。对于手部图像,定义良好的手部网格的投影应该与相应的轮廓一致。该约束在基于单个RGB图像的3D重建中起着不可或缺的作用[4,5,17,31,49]。在这项工作中,我们引入了轮廓一致性损失来细化手部网格和相机参数估计。特别地,我们利用逆图形技术[17,21]从由等式给出的重建的手部网格获得渲染的掩模图像1,然后惩罚渲染的掩模和地面实况轮廓之间的未对准以训练网络。几何约束。在导出的3D手部姿态表示上,应用几种几何约束。设Pa,Pb,Pc,Pd依次为手指(拇指除外)的4个关节(指尖到手掌的顺序),w#−−h−»其中Pi∈R3,i∈{a,b,c,d}. F或co#n−−v−»enienc#e−−,−»我们定义Vab为Pa−Pb,类似于Vbc和Vcd。 一颗心-直手发音应遵守以下约束。考虑训练基础深度卷积网络-作品,我们诉诸于中间监督,以确保前一阶段很好地捕捉图像语义。特别地,2D姿态估计块由2D地面实况标签的堆叠热图监督。对于每个2D关节,地面实况热图被定义为以该关节位置为中心的高斯模糊置信度图像。为此,我们采用L2损失之间的衍生的3D和2D表示和地面实况标签,从而导致L3D和L2D分别。此外,几何约束被重新表述为正则化,导致Lgeo,其在预测的3D姿态上定义。同样重要的是,我们通过导致L分割的L1损失来惩罚渲染掩模和地面实况轮廓之间的未对准。此外,L2损失被用来监督估计的相机参数与地面实况相机参数,导致L凸轮。至于中间监督,我们计算预测的和地面实况2D热图之间的像素距离,产生Lht。整个过程是完全可微的,所有可学习的参数,从而使我们的HAMR框架端到端可训练。总损失函数总结为首先,Pa,Pb,Pc,Pd在同一平面上,这意味着:#−»#−»#−»L=λ3DL3D+λ2DL2D+λgeoLgeo+λcamLcam+λhtLht+λsegLseg,(八)(Vab×Vbc)·Vcd= 0。(六)#−»#−»其次,从Vab到Vbc的#r−−o−»tate#d−−i»反应是一致的与Vbc到Vcd的关系相同,这意味着:其中{λ3D,λ2D,λgeo,λcam,λht,λseg}是在不同类型的监督之间进行权衡超在整个框架。#−»#−»#−»(Vab×Vbc)·(Vbc× Vcd)≥0。(七)注意,这两种类型的几何约束可以通过拉格朗日乘子方法[35]重新表示为损失最小化问题中的正则化器。3.2. 迭代回归模块我们应用回归模块来拟合相机参数θcam和网格参数θmesh。 然而,复杂的域间隙使得很难2358凸轮凸轮网格average-pooling来代替max-pooling。此外,为了提高训练速度,在每个3×3图3:迭代回归模块。4. 实验为了评估HAMR的有效性,我们首先从单个RGB图像中恢复网格,并给出其次,由于不存在用于比较研究的地面实况网格表示,该模块将跨级别特征作为输入,并重新以迭代方式greses相机和网格参数一次性做出合理的估计。 几项工作[9,10,27,52,58]表明,级联和由粗到细的方法应比一次通过的解决方案更合适。受这些研究的启发,我们实现了一个迭代回归模块来拟合相机和网格参数,这些参数来自从先前的2D姿势模块中提取的语义特征HAMR在3D和2D手部姿态估计任务上的优越性。最后,我们进行了消融研究,以更好地了解不同的设计策略对3D手部姿态估计任务的影响24.1. 实验设置数据集。我们主要涉及渲染手部数据集(RHD)[59]、立体手部姿势跟踪基准(STB)[55]和Dexter对象(Dexter)[42]数据集。RHD是基于第三视图的合成数据集形式上,我们取当前参数(θt不网格 )作为提供41258个训练样本和2728个测试样本,在图像特征φ上的附加输入,并估计更精确(θt+1,θt+1)。如示于图3、迭代回归模块由简单的全卷积编码器和多个全连接层组成。为了使预测的θcam更准确,我们通过利用从成对的3D和2D注释计算的地面实况相机参数来实施强有力的监督。摄像机参数θcam由用于将3D关节(x,y,z)投影到2D关键点(u,v)的三个实数(s,tx,ty)组成,并且投影函数遵循等式:五、3.3. 2D姿态估计与最近的方法[22,56,59]类似,我们采用级联编码器-解码器风格的网络来预测2D姿态估计任务的2D高斯类热图Φht∈RK×H×W,其中K表示关节的数量,{H,W}是热图的分辨率。每个关键点都有一个对应的热图,热图上的每个像素值表示关键点位置的置信度在这个2D的位置。此外,我们与[7,24]有类似的观点,即当将热图直接回归应用于3D姿态时,很难解决透视模糊。实际上,不同的3D关节位置可以被投影到相同的2D关键点。 除此之外,K个热图,此外,我们将中间层特征与M热图连接起来,并将它们馈送到下面的迭代回归模块中。至于网络架构,我们利用堆叠沙漏网络[26]进行2D手部姿势估计,并进行了一些轻微的修改。与[25]类似,我们用简单的3×3卷积替换残差块,并使用每个样本包含21个标准关键点的RGB图像、深度图像、分割掩模图像以及2D和3D注释。在本文中,我们遵循RHD的标准训练/测试划分。此外,对于每个样本,我们只利用RGB图像和相应的2D和3D注释。STB数据集包含具有六个不同背景的序列,并且每个背景具有两个序列(每个序列1500帧)。与[7]类似,我们移动STB的根关节以使其与RHD一致,并且我们按照[59]给出的规则将数据集分为训练和测试部分。此外,我们只利用RGB图像和相应的3D注释。Dexter数据集由6个序列组成,其中有2个行为体(1个女性),以及与简单对象形状的各种相互作用。对于所有序列,指尖位置和长方体角被由于不完整的手注释,因此,类似于[59],我们使用该数据集来评估我们框架的跨数据集泛化性能。我们应该指出的是,对于RHD数据集,我们通过解析渲染的深度图来训练网络来获得手部掩码。图5示出了一些成对的手部图像和相应的面具。数据扩充。RHD和STB共享相同的增强算法。我们裁剪每个图像集中在手中,并将其调整为256 ×256,然后应用缩放(0.9 - 1.2),旋转(-/+60厘米)。最后,为了抵抗颜色变化,我们使用以下命令执行颜色抖动2在实践中,MANO模型只有16个关键点,缺少5个指尖端点。因此,在我们的实验中,我们手动选择顶点的索引为734,333,443,555,678从生成的网格作为五个指尖端点的位置。FC FC FC电子照相机网片Conv,θ2359图4:补片恢复结果。左边的四列表示来自STB数据集的五个代表性示例,而右边的四列则来自RHD数据集。对于每个扇区,第一列显示RGB图像,第二至第四列是来自不同视图的渲染网格。图5:配对的掩膜样本。 每个样品包含两个色谱柱。第一列显示原始RGB图像,年龄;第二列提出了相应的面具。比率:亮度(0.2 - 1.8),对比度(0.3 - 1.7),饱和度(0.4- 1.6),色调(0.2 - 1.8),并添加随机噪声控制高斯分布N(0,0. 01)。网络设计。我们使用一个两层堆栈的沙漏作为姿态模块,沙漏模块输出64个热图,这在数值上大于手为了提供更多的特征,热图的分辨率为64×64,用于生成Φht的σ2设置为2.5。迭代回归块由全卷积编码器和全连接回归器组成。编码器由6个步幅卷积层构建,对于每个卷积层,内核大小为3×3,步幅为2。回归器由2个完全连接的层组成,2048个神经元,然后是22个神经元的最后一层在每个全连接层之后,我们插入一个丢弃概率为0.4的丢弃层,以防止过拟合。训练我们使用Pytorch [30]实现我们的框架,并采用端到端的培训方式。我们最小化方程中的总损失8来训练整个模型,其中超参数λ3D、λ2D、λgeo、λcam、λht、λseg的值根据经验被设置为1000、1、1、0.1、100和10个req,同时也可以通过网格搜索方法来调整这些超参数[3]。RMSprop [48]是用于优化框架。我们以2 × 10 −4的学习率开始训练整个 框 架 , 然 后 将 学 习 率 降 低0 倍 。 所 有 实 验 均 在GeForce平台上进行GTX TITAN Xp GPU与CUDA 8.0。4.2. 吸引力网格为了验证生成网格的质量和框架在各种情况下的鲁棒性,我们从STB和RHD测试集中抽取了一些代表性样本,如图所示。4.实验表明,我们的框架是能够生成高质量的,appealing手网格。此外,我们的框架是鲁棒的重建手网格准确,即使在严重的硬场景,如照明不足,图像截断,自遮挡,和夸张的清晰度。为了说明,我们将Si称为第i个2360图6:定量评价。左图显示了STB数据集上的3D PCK性能,其中我们的方法与最先进的方法相当。中间的图显示了RHD数据集上的3D PCK性能,与最先进的方法相比,我们的方法获得了最佳结果。右图展示了Dexter数据集上的3D PCK性能,我们的框架大大优于最先进的方法。从图中STB中抽取的样本。4、类似于Ri为RHD。与R1、R4和R5的比较表明,该方法在光照条件较差的情况下也能正确地重建网格。此外,R2表明,即使在图像截断的情况下,我们的方法也可以合理地估计网格。通过比较S1到S5以及R3,可以得出结论,我们的框架能够恢复人体测量合理的网格表示,即使有严重的自遮挡或复杂的手姿态。4.3. 定量评价为了与[7,24,39,59]保持一致,我们使用不同阈值的正确关键点(PCK)分数百分比的曲线下面积(AUC)测量值评估了3D手部姿势估计的性能在RHD、STB和Dexter数据集上对所有比较方法进行了评估,实验结果如图所示。六、在STB数据集上,[7,15,24]的3D PCK曲线由于STB数据集相对较小,缺乏多样性,因此彼此交织在一起。我们的方法与所有比较方法[7,15,24,29,39,54,59]具有竞争力,考虑到该数据集的饱和性能,这是合理的。相比之下,RHD数据集相对复杂且更多样化,我们的方法优于[7,39,59]提出的方法,并取得了最先进的结果。相似性,在Dexter Object数据集上,我们的方法在很大程度上优于大多数最先进的方法[6,15,24,39,59]。这与我们的预期是一致的,引入参数化手模型可以大大帮助解决视角模糊问题,从而提高手姿态估计的准确性。4.4. 泛化性能评价与[15,24,59]类似,我们评估了我们的框架在Dexter数据集上的泛化性能[42]。图7:泛化性能评估。 该图说明了Dexter Object数据集上2D手部姿势估计的结果。我们的方法优于[15,24,59]中提出的方法。具体来说,我们在RHD和STB数据集上训练模型,然后以两种方式执行跨数据集测试,而无需微调。首先,按照传统的做法,我们采取的AUC的二维PCK作为评价指标,以评估性能的二维手姿态估计。如图7,我们的方法比[15,24,59]中报道的方法获得了更好的结果,其中Dexter数据集包含一定比例的遮挡手部图像。这并不奇怪,网格是能够建模固有的几何先验的手,这进一步解决了遮挡所造成的不确定性。其次,我们检查估计的手网格的质量。如图所示。9、我们的框架能够重建高质量的网格,即使手指被一些异物或存在高动态范围照明。上述实验验证了该框架的泛化性能,证明了该框架的有效性。2361图8:消融研究。左图显示STB数据集上的3D PCK性能,右图显示RHD数据集上的性能。请注意,w/和w/o分别表示带和不带。此外,w/ mesh表示从估计的mesh获得3D手部姿势,w/o mesh表示使用迭代回归模块估计3D关节位置,w/ cam对姿势相机参数进行监督,w/ geo表示考虑几何损失,w/ seg表示考虑轮廓一致性约束。图9:Dexter数据集的覆盖网格。 每行提供两个示例。对于每个示例,第一列显示RGB图像,第二至第三列说明从不同视图恢复的网格。网格在解决遮挡引起的模糊性方面的有效性,并暗示了引入参数模型对手部姿态估计的重要性4.5. 消融研究为了更好地了解不同设计选择的影响,我们在各种环境中评估我们的框架。在这项工作中存在四个主要的设计选择:引入参数模型对姿态估计任务的影响、轮廓一致性约束的影响、姿态监督对相机参数的影响以及几何损失的影响。我们仍然采用3D PCK的AUC作为RHD和STB数据集的评价指标。图8将我们的完整方案(w/ mesh + w/ cam + w/ geo + w/seg)与四个备选方案(实验a、b、c和d)进行了比较。d,在各种设置下。我们发现,引入参数化网格模型可以显著提高手部姿态的性能,因为网格模型可以捕捉手部的全面特性。此外,在手指上添加特定的几何约束会产生边际性能改善,因为网格模型已经覆盖了手的固有几何约束。此外,对相机参数的位姿监督获得了一定的精度提高,Lcam项起到将投影过程从3D校准到2D的作用。同等重要,惩罚错误-渲染的掩模和地面实况轮廓之间的对准也获得了性能改进,因为Lseg项可以细化手部形状和姿势预测。5. 结论手部图像理解是一个广泛研究的课题,并有许多现实世界的视觉应用。虽然手部姿态估计已经在文献中得到了很好的研究,但仍然很少有人研究从单个RGB图像的手部网格重新细化问题。所提出的HAMR通过利用通用3D手模型来实现网格表示来丰富该领域利用网格模型,该框架还可以产生2D和3D手部姿态估计。质量,HAMR成功地恢复了合理的手网格从单一的RGB图像,即使在严重的闭塞。定量地,HAMR的优越性在2D和3D手部姿态估计任务上与最先进的方法相比得到了经验性的证实沿着这个方向,人们可以期待未来的进步,手网格恢复和姿态估计。2362引用[1] Seungryul Baek,Kwang In Kim,and Tae-Kyun Kim.用于基于深度的手部姿态估计的增强骨架空间转移。在IEEE计算机视觉和模式识别会议(CVPR),2018。[2] LucaBallan,AparnaTaneja,JürgenGall,LucVanGool,andMarc Pollefeys.使用区别性显著点的动作中的手的运动捕获。2012年欧洲计算机视觉会议(ECCV)[3] James Bergstra和Yoshua Bengio。超参数优化的随机搜索。机器学习研究杂志,2012年。[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形学与交互技术年会集,1999年。[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议(ECCV),2016。[6] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议(CVPR),2019。[7] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议,2018。[8] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的三维面部表情数据库 。 IEEE Transactions on Visualization and ComputerGraphics(TVCG),2014。[9] Joao Carreira ,Pulkit Agrawal,Katerina Fragkiadaki,and Ji- tendra Malik.迭代误差反馈人体位姿估计。在IEEE计算机视觉和模式识别会议,2016年。[10] 皮奥特·多尔,彼得·韦林德和皮埃特罗·佩洛纳。级联姿态 回 归 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2010年。[11] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记,带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议,2018年。[12] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。 在IEEE计算机视觉和模式识别会议论文集,第10833-10842页[13] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维变形模型回归的无监督训练在IEEE计算机视觉和模式识别会议(CVPR),2018年。[14] Francisco Gomez-Donoso、Sergio Orts-Escolano和MiguelCazorla。大规模多视角3d手部姿势数据集。arXiv预印本arXiv:1707.03742,2017。[15] Umar Iqbal,Pavlo Molchanov,Thomas Breuel JuergenGall,and Jan Kautz.基于潜在2.5d热图回归的手部姿势估计在欧洲计算机视觉会议(ECCV),2018。[16] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议(CVPR),2018。[17] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议(CVPR),2018年。[18] 李泰熙和托拜厄斯·霍勒勒。无标记增强现实的多线程混合特征跟踪。IEEE Trans-actions on Visualization andComputer Graphics(TVCG),2009.[19] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J Black。Smpl:一个有皮肤的 多 人 线 性 模 型 。 ACM Transactions on Graphics(TOG),2015年。[20] Anders Markussen,Mikkel Rønne Jakobsen,and KasperHornbæk. Vulture : 一 个 半 空 中 的 文 字 手 势 键 盘 。ACMConferenceonHumanFactorsinComputingSystems,2014。[21] 斯蒂芬罗伯特马施纳和唐纳德P格林伯格。计算机图形学的逆向绘制。Citeseer,1998年。[22] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ Little。一种简单而有效的三维人体姿态估计基线。IEEEInternationalConferenceonComputerVision(ICCV),2017年。[23] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿 势 估 计 。 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),2018。[24] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。从单目rgb实时3d手部跟踪。在IEEE计算机视觉和模式识别会议(CVPR),2018年。[25] Alejandro Newell,Zhiao Huang,and Jia Deng.关联嵌入:用于联合检测和分组的端到端学习。神经信息处理系统进展(NPIS),2017年。[26] Alejandro Newell,Kaiyu Yang,and Jia Deng.用于人体姿态 估计 的堆 叠沙 漏网 络在欧洲 计算 机视 觉会 议(ECCV),2016年。[27] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.训练用于手部姿势估计的反馈回路。IEEEInternationalConference on Computer Vision(ICCV),2015年。[28] Mohamed Omran 、 Christoph Lassner 、 Gerard Pons-Moll、Pe ter Gehler和Bernt Schiele。神经身体拟合:统一深度学习和基于模型的人体姿势和形状估计。在3D视觉国际会议(3DV),第484-494页2363[29] Paschalis Panteleris , Iason Oikonomidis , and AntonisArgy-ros.在野外使用单一rgb帧进行实时3d手部姿态估计在2018年IEEE计算机视觉应用冬季会议(WACV)上[30] Adam Paszke 、 Soumith Chintala 、 Ronan Collobert 、Koray Kavukcuoglu、Clement Farabet、Samy Bengio、Iain Melvin 、 Jason Weston 和 Johnny Mariethoz 。Pytorch:Tensors and dynamic neural networks in pythonwith strong gpu acceler- ation,2017年5月。[31] Georgios Pavlakos , Luyang Zhu, Xiaowei Zhou , andKostas Daniilidis.学习从单色图像估计三维人体姿态和形状。在IEEE计算机视觉和模式识别会议,2018。[32] Pascal Paysan、Reinhard Knothe、Brian Amberg、SamiRomdhani和Thomas Vetter。一种用于姿态和光照不变人脸识别的三维人脸模型在先进的视频和基于信号的监控,2009年。AVSS'09。第六届IEEE国际会议。IEEE,2009年。[33] ThammathipPiumsomboon , AdrianClark , MarkBillinghurst,and Andy Cockburn. 用于增强现实的用户定义的几何图形。IFIP人机交互会议,2013年。[34] 陈倩,孙晓,魏奕辰,唐晓鸥,孙健。从深度进行实时和鲁棒的手部跟踪。在IEEE计算机视觉和模式识别会议(CVPR),2014中。[35] R·泰瑞尔·罗克费勒。 拉格朗日乘数和最优性。SIAM review,35(2):183[36] Javier Romero , Dimitrios Tzionas , and Michael JBlack.Em-身体的手:建模和捕捉手和身体到一起。ACM Transactions on Graphics(TOG),2017年。[37] Soumyadip Sengupta , Angjoo Kanazawa , Carlos DCastillo,and David W Jacobs.学习野外人脸的形状、反射率在IEEE计算机视觉和模式识别会议(CVPR),2018。[38] 托马斯·西蒙,汉宝·朱,伊恩·A·马修斯和亚瑟·谢赫。使用多视图自举的单图像中的手关键点检测在IEEE计算机视觉和模式识别会议(CVPR),2017年。[39] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilliges。跨模态深度变分手部姿势估计。在IEEE计算机视觉和模式识别会议(CVPR),2018。[40] Srinath Sridhar,Anna Maria Feit,Christian Theobalt,and Antti Oulasvirta.研究多指输入在空中文字输入的灵巧性。ACMConference on Human Factors in ComputingSystems,2015。[41] Srinath Sridhar,Franziska Mueller, Antti Oulasv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功