没有合适的资源?快使用搜索试试~ 我知道了~
基于单目彩色图像的手部运动重建及灵活编辑
11666TravelNet:基于单目彩色图像的赵梓萌赵燕刚王*东南大学中国图1. 物理上可行的手部运动学习。从一系列单目彩色图像(第1行)中,将我们的物理姿势表示调整为手部姿势估计器可以获得更少的穿透和更高的准确性(第2行和第3行)。TravelNet从给定的关键姿势状态(第4行)学习在此物理姿势流形它不仅可以重建原始运动(行5),而且还可以基于它生成由于缺乏RGB序列数据和关键姿势状态注释,采用自监督学习范式,其训练运动数据由物理引擎与我们的姿势状态存档生成。摘要本文旨在从单目彩色图像中重建物理上合理的现有的逐帧估计方法不能保证物理似然性(例如,穿透、抖动)。在本文中,我们嵌入物理约束的每帧估计的运动在空间和时间空间。我们的核心思想是采用一种自监督学习策略来训练一种新的编码器-解码器,名为TravelNet,其训练运动数据由物理引擎使用离散姿态状态来准备TravelNet从手部运动序列中捕获关键姿势状态作为紧凑的运动描述符,灵感来自动画中的关键帧概念。最后,该方法无需人工标注,即可从扰动中提取出关键状态,并重建出具有细节和物理可解释性的运动。在实验中我们表明,旅游网的输出包含手指的协同作用和时间的一致性。通过所提出的框架,手部运动可以准确地重建和灵活地重新编辑,这是优于国家的最先进的方法。1. 介绍合理的人手运动在许多应用中是极其重要的。在VR/AR中,重建可能的手部运动促进更紧密的交互。在操作规划中,设计一个合理的手部运动,使仿生手更智能,以帮助残疾人。反*通讯作者。电子邮箱:yangangwang@seu.edu.cn。作者均来自南京东南大学复杂工程系统测控教育部重点实验室11667通常,通过数据手套[1,2]或专用硬件设备[4]来收集高保真手部运动,尽管它们昂贵且笨重。近年来,随着广泛的手部姿势数据集,深度学习已经见证了从深度图像[35,30]和单眼彩色图像[60,20,58]进行手部姿势估计的快速进展。理论上,它们中的大多数可以扩展到估计具有适当的时间或循环模块[18,5]和大量运动序列的运动。然而,由于手部运动的多样性和可组合性,离线准备和标记那些序列是具有挑战性的。为了解决手部运动收集的困难,一些方法[28,34]试图通过避免高频抖动来细化每帧估计的结果最近,Yanget al. [51]提出了一种合成方法,该方法通过在数据集中的样本状态之间执行线性插值来生成运动序列,并在数据集中找到最近的姿态实例。然而,该产品在物理上可能不合理(如图所7)因为它不能保证任何两个位姿状态之间存在由线性瞬变组成的密集连续路径。学习物理上可行的手部运动有两个主要挑战。第一个是,它是费力的准备足够多样的,以及合理的运动数据。第二个问题是,在没有任何注释的情况下,难以区分在本文中,我们专注于学习的问题,ING物理上合理的手的动作,从一组离散的手的姿态状态,这是从monocular彩色图像估计。我们的核心思想是训练一个新的编码器-解码器网络,名为TravelNet,其训练运动数据是在物理引擎的帮助下准备的。旅行网设法找到关键的姿态状态的扰动和重建的运动,保留细节和物理合理性。然而,很难定义和注释运动序列中的关键姿势状态。为了解决这些障碍,我们提出了一种新的自监督范式来执行训练。具体来说,我们确保由TravelNet的编码器输出的嵌入空间保持在与输入空间相同的姿势流形中(如图所示)。(3)第三章。解码器首先被训练为输出具有离散姿势状态的运动该良好训练的解码器辅助用于下一步骤的解码器的训练最后,将编码器和解码器与有限数量的真实手部运动序列上的微调相结合作为域自适应策略。为了确保手部运动训练数据的物理合理性,我们构建了一个手部模型,在物理引擎[3]中加入了物理姿势状态通过穿透验证的状态被称为物理姿态状态,因为它在物理上是合理的。然后,我们将来自多模态手部数据集[53,54,61,13,57,40,46,25]的广泛手部姿势映射到上述物理姿势状态,这为生成合理的运动序列提供了丰富的基元和先验知识本工作的主要贡献总结如下。一种新的学习范式,可以鲁棒地提取关键姿势状态,并以自监督的方式重建手部运动;采用绑定到动态手模型的物理位姿作为手部运动的紧凑描述符;包含2. 通过逆动态求解器创建5M个物理手部姿势以用于合理运动生成。数据集和代码将在https://www.yangangwang.com网站。2. 相关工作单目RGB手部姿势估计。从单幅RGB图像中获取三维手势是当前的研究热点。一些先驱者[60,20,42,31]直接预测,关节三维坐标。然而,后来的工作[55,7,12,58]倾向于更多地依赖于流行的操纵模型MANO [39]来从图像中估计其姿态参数(每个关节的轴角)。MANO算法中的一个令人头痛的问题是,无效的位姿参数可能会导致变形网格表面的穿透。因为穿透的计算是耗时的,所以它更多地用于离线优化[41]或训练阶段[17,29]而不是网络的前馈。此外,虽然离线数据集中的逐帧估计已经得到改进,但是当将其应用于整个运动序列时,结果中包括严重的抖动。运动合成运动合成具有为CV领域中的检测或分割任务提供真实数据的潜力。现有方法使用游戏引擎[60]和深度生成模型[31]来获取合成数据集。他们更多地关注像素级的增强,而不是姿势状态的多样性中存在连续序列[53]记录为深度图,基于RGB的任务不能直接将其用作训练数据。使用[53]作为检索数据库,Yanget al.[51]提出了一种使用线性插值和最近邻样本的方法的手部运动Yamamoto等人[50]利用乐谱中的跳跃来找到弹奏钢琴时手部运动中的关键帧,其运动获取依赖于手部和钢琴键盘的建模,并且不能推广到更广泛的应用。此外,[16]利用基于GAN的[14]网络来循环合成运动,[36]训练了一个控制···11668∈−−图2. 物理手模型我们的手模型由关节连接的刚体段组成。穿透可以通过该模型的碰撞代理来处理。当确定开始和结束状态时,可以通过逆动力学求解器生成基本运动。以再学习的方式为人体运动制定策略。固定长度的运动序列可以包含基本的(例如使用手指从1到2缓慢计数)或复合运动(例如,用手指快速从1以前的方法[19,22]在两种情况下没有区别地进行运动建模。然而,我们认为,只有基本运动可以确定的一对端点。只有当表征原点的那些关键状态不被噪声破坏时,复合运动才运动关键帧提取。我们的关键姿势状态描述了一个类似于用于总结视频内容的关键帧的手部运动。给定图像序列,通用关键帧提取[48,26]使用光流和SIFT特征的变化作为标准。对于运动序列,一些文献[15,24]采用2D姿势(关键点)来描述每个帧,其他文献[59,38,44]使用无监督聚类方法来找到关键帧。作为一种基于学习的聚类方法,具有可学习带宽的自适应均值漂移被应用于Xu等人提出的网格装配节点。[49]。我们遵循类似的策略来提取运动序列中的关键姿势状态。3. 手的模型与表示物理手模型 我们的关节手是一个在物理引擎[ 3 ]中适应的刚体,如图所示。2和图第3(A)段。它是通过将MANO [39]网格近似为16个多面体段并分配21个自由度(DoF)(定义为[10])来创建的相应的物理性质(质量、摩擦等)根据每个多面体的体积和边界估计使用该模型,碰撞检测和逆动力学都可以通过物理引擎中的相应代理或求解器来解决[3]。姿势和运动公式化。TravelNet中使用的手部姿势状态表 示 θR21 绑 定 到 我 们 的 关 节 手 模 型 的 每 个 DoF 。TravelNet中不考虑全局变换R,t,即,所有的姿态状态在规范空间中对齐θ的每个维度为约束为[ 0. 5π,0。5π]。我们将手部运动视为一组姿态状态,其表示为ΘN。下标N是姿态状态的数量应注意,Θ在时间上可以是例如,对应的关键姿态状态集合ΘΚ是连续ΘΝ的子集,其是不连续的并且包含选自ΘΝ的K个状态。而在ΘN中的其他(N K)个平凡态被广泛地称为中间姿态态。4. 姿势状态存档准备我们从现有的数据集构建一个姿势状态档案在稍后的TravelNet训练阶段期间,逆动力学求解器将从档案中随机选择状态,以便生成相关联的运动数据。物理姿势估计器。为了尽可能多地巩固姿势状态知识,我们首先建立一个物理姿势估计器,该物理姿势估计器将现有RGB图像数据集中的离散姿势状态转换为我们的表示。它还在估计过程中将全局和局部变换θ与3D关节位置解耦本部分的更多详细信息见补充说明。Mat.姿势存档。通过使用上述姿态估计器的流水线的全部或部分,RGB和深度图像两者中的姿态状态先验因此,离线姿态状态档案包括泰宁2. 500万个实例,如Tab.1是建造的。每个离散姿态状态被存储为3D关节位置和对应的θ之间的数据映射。名称编号框架受试者数量 号序列模态[54]18,000112RGB MoCapMHP [13]76,375921RGB MoCap弗雷[61]130,24024-RGB MoCap[57]第57话42,960--RGB MoCapCMU-MPII [40]1,445--RGB在野外[46]第四十六话11,703--RGB在野外阿尔普[25]47,776--RGB在野外[53]第五十三话2.2米1099深度自动姿势档案2.5米统一132-表1. 设置存档组件的姿势。多模态数据在我们的档案中被引入。只有[13,53]中的序列用于TravelNet微调。其他数据被视为一个状态集,逆动力学求解器可以从中随机选择一个子集,以产生在TravelNet训练过程中的各种运动。5. 旅游网TravelNet从关键姿势状态的角度学习运动建议的旅游网的整个管道如图所示. 3.第三章。虽然TravelNet被设计为一个深度编码器-解码器架构,但由于缺乏RGB序列数据和关键姿势状态注释,我们无法将其作为传统的自动编码器进行训练。或者,我们提出了一个新的三步自我监督的范式。细节描述如下。11669Σ联系我们∈LΣ Σ−LLΣ1D2K图3. 关于TravelNet(a)摆姿势表示。细节在第二节中讨论。3、训练数据的生成。4.第一章(b)训练阶段。它被设计为第二节中描述的三步自我监督范式5.1至5.3。(c)推理阶段。最后在不依赖物理引擎的情况下提取关键姿态状态并重建手部运动。5.1. 使用捕获状态物理引擎中的逆动力学求解器可以优化任意两个端点ness:M−1LT(ΘM)=λiL1(θi+1,θi),(4)i=1具有时间、能量和碰撞约束。当考虑档案中的多个捕获的姿态状态Θ K时,可以对每个相邻数据对Θki,Θki+1,Θ k i K递归地执行该过程,以获得基本段,并最终连接成复合段ΘM。我们的解码器λ i=1。当θiΘK且λ i = 0时,λ i=0。75、其他国家之间我们还引入了基于GMM的碰撞惩罚[32]C,尽管数据本身已隐式地包含冲突Dtrv通过以下方式模仿该过程θ M=ΣDtrv(θk,θk)··· Dt rv(θk,θk)ΣNCLC(θ)=NCRGp(x;θ)·Gq(x;θ)dx,(5)为了保证Θ Μ的固定长度,Θ Μ中的每个基本分段被最远点采样[37]或复制填充到D=1024个姿势状态,导致M=(K1)D。解码器的整体损失由三部分组成LS1=L1(Θ( M,ΘM)+wTLT(θ( M)+wCLC(θ( M)(2)其中w T= 0。6,w C= 0. 在我们所有的实验中。第一项1执行由解码器预测的Θ M与通过逆动力学获得的Θ M之间的监督L1(Θ( M,ΘM)=θ( M-ΘM1。(三)第二项T平衡了每个分段中的分段平滑和全局平滑之间的一致性。其中Gp、Gq表示依赖于状态θ的高斯碰撞代理。NC表示代理数量。在计算中,在dx中仅考虑MANO顶点位置。F或运动序列,θ∈θMLC(θ)。5.2. 使用抖动运动由于缺乏关键的姿势状态注释在真实捕捉的运动,训练有素的解码器在第二节。5.1用于辅助编码器的学习。不同于由trv生成的复合运动ΘΜ(在该步骤中被视为地面实况),捕获的运动通常具有三种情况,包括(I)可变长度,(II)每个分段中的不固定数量的中间状态,以及(III)高频抖动。因此,我们通过随机采样将ΘΜ进一步增大为然后随机抖动为θ N。也不知道K−1(一)p=1q=p+13∫11670Σ−Θ,其中N=M−d。由于完整的解决方案Ni∈2UΣΣi=1F FF联系我们E∼ N ∼ UFF∈L∈∈L操作改变关键姿态状态的身份,这意味着ΘΜ、ΘΝ、Θ~ Ν共享相同的ΘΚ。取样.为了用不固定的中间姿态干扰Θ M中的每个段,d iK−1,i。I. ddi(0,D/2),以确定在每个基本段中应删除的中间姿势数这使得ΘM为K1i=1和聚类块将采用后,既不长度也不需要固定ΘN抖动。为了将抖动添加到运动,在课程学习方案[6]中创建一系列抖动掩码Mi(λ,τ)R21×N,并且在ΘN上进行逐元素乘积:Θ〜 N= ΘNM1…Mη(6)λ(5,σ2),τ(1,0. η(1,1,j)确定遭受抖动的帧的数量。 Ij初始化为5并且在训练期间逐渐增加直到N。配方。利用上述数据,编码器trv由三个部分(δ、δ和α)组成,然后可以公式化为:θ K'=Etrv(θ N)=F(Fδ(θ N)+θ N)<$Fα(θ N))(七)其中,Fδ和Fα是平行的分支和注意力{αi}N。每个θ~i∈Θ~ N图4. TravelNet架构。(a)具有循环模块的解码器;(b)具有可学习均值漂移聚类的编码器。5.3. 编码器通过捕获的运动进行我们设计了以下域自适应策略来微调编码器。在这一步中,TravelNet的编码器和解码器结合起来,作为传统的自动编码器模式来处理真实的运动。首先,编码器被馈送成为i=1˜i=1其中时序姿态状态ΘN。关键姿势是i=αi(θi+δi)。αi是标量,δi,i是具有与θ~i相同形状的矢量。提供了聚类eextractionΘ(K)不直接监督,但提供ˆ用于后续操作的特征。F或复合运动θ∈ N,k个姿态状态K的数量取决于运动内容。这种共识是通过两种方式得到鼓励的。 在架构方面,A具有可学习带宽的均值漂移聚类算法[49]被引入到我们网络的最后一个块中。通过有限的迭代,防毒墙网络版根据学习到的状态θ~i中的特征iθN 最接近的采样点到收敛 聚类中心的距 离被认为是关 键姿 态 状 态Θ<$ K',其中K'K都是欠的。因此,在损耗设计方面,引入倒角距离[ 11 ]cdL(θ,Θ)=Σminθ−θ2以生成运动序列ΘΜ。根据原始ΘΝ中的Θ( K的对应索引,然后将生成的Θ( M定制为具有与Θ Ν相同的长度和运动速度的Θ( N。为了既保留细节又避免过拟合,时间平滑项在此步骤中也使用:LS3=L1(Θ( N,ΘN)+wTLT(Θ( N)+wCLC(θ( N)(10)5.4. 学习模块TravelNet的详细网络架构如图所示。4.第一章其基本学习模块是基于图的卷积块,具有可学习的邻接矩阵和类似于[56]的自注意力:cdKKθ∈θ K'θ∈ΘK第二(8)条f(ΘM;e,w)=e·(ΘM*w)(11)或每个预测的k∈y状态因此,仅考虑到其最接近样本的距离。在该步骤中训练编码器的总损失是:LS2=Lcd(Θ( K’,ΘK)+wCLc(θ( K’)⑼其中添加附加的C以防止解码器选择受干扰状态作为关键状态。11671∈∗w表示在不同时间融合特征的卷积层eR21×21是一个可学习的邻接矩阵,用来描述不同自由度之间的协同作用。它被初始化为单位矩阵。解码器采用非局部注意力[9,45]来保证级联数据之间的全局对于解码器的每个层,根据先前的较粗糙的运动来预测详细的运动,并且根据先前的较粗糙的运动来预测详细的运动。11672图5. 运动规划的定性结果。给定开始和结束状态,TravelNet解码器可以在3D空间中用于运动规划。请参阅补充说明。视频了解更多详情。图6. 运动重建的准确性。左图呈现了DO数据集上的顺序3DPCK性能。右图显示了ED数据集的性能。将前一个运动序列均匀地分成两段,并连接到输出的两端。6. 实验6.1. 实现细节我 们 使 用 CMU-MPII [40] , OneHand 10 K [46] ,Halpe [25],Frei [61],MHP [13],Hand3DStudio [57]和STB的前8个序列[54]在手部姿势估计器中训练我们的图像特征提取CNN模块。我们采用[47,20]中的网络架构作为此估计器的主干。为了训练物理姿势估计器,我们不仅使用存档中捕获的数据,还使用物理引擎中随机生成的一些合成姿势。它由五层语义图卷积组成[56]。当选择初始状态和最终状态来训练Trav-elNet解码器时,档案中的按时间顺序的姿态状态不被添加为候选,这确保了每个基本运动的多样性。在TravelNet编码器的微调中,我们使用[13,53]中的姿势序列,而STB [54]中的序列仅用于测试阶段。我们采用Adam优化器[23],批量归一化和PCK的AUC方法做EDSTBRHDIqbal等人[20个].672.543.994-Yang等[五十二]--.996.943Zhang等人[55个].825-.995.901Ge等人[12个]--.998.920Zhou等[58个].948.811.898.856我们不使用θ.940.803.890.843我们的w/o使用γ.947.806.889.861Ours w/o FKlayer.950.813.956.890我们.962.823.998.903表2. 姿态估计的准确性。在四个公共数据集上与最先进的手部姿势估计方法进行比较,并对我们的手部姿势估计器进行消融研究。leaky-ReLu [27]用于所有网络训练。我们的网络在单个NVIDIA TITAN RTX GPU上进行训练,基本学习率为1 e-4。我们为图像数据设置批量大小32,为姿势序列设置批量大小64。物理引擎的仿真频率设置为5KHz。6.2. 与相关工作的姿态估计的准确性。实验结果表明,该方法具有较好的稳定性。1(行2和行3)示出了在使用我们的具有物理约束的姿态表示之后,姿态估计器变得更加准确和合理在选项卡中。2,我们进一步将我们的方法与其他最先进的方法在RHD [60],STB [54],DO [43]和ED[33]的测试集上进行采用以下指标评估绩效:正确的3D关键点(PCK)的百分比,以及阈值范围为20mm至50mm的PCK曲线下面积(AUC)。尽管我们的估计流水线与[58]类似,但由于我们的物理姿势表示,其准确性已大大提高。TravelNet的鲁棒性。为了研究该方法的鲁棒性,我们对真实手部序列进行了扰动,并将重构结果与原始序列的三维关节误差进行了比较。我们还将两个基于学习的人体运动合成网络[19,22]转移到这个任务中。在[22]中,只有向测试数据集添加噪声的实验。为了验证新运动的泛化能力,我们还在该测试中添加由物理引擎生成的新运动三维联合误差是评价不同方法性能的指标。根据Tab中的前三行。3、对于不同程度的扰动和新的运动,TravelNet的重建精度超过了现有的大多数工作。TravelNet的准确性。为了验证运动重建的准确性,我们比较了现有模型和TravelNet在STB、DO和ED SE上的平均3D联合误差。11673∈LLFFLL图7. 两代人之间的物理合理性。给定相同的开始和结束状态,由TravelNet解码器(青铜状态)生成的运动包含物理约束。而由线性插值生成的运动(灰色状态)涉及穿透(红色虚线圆圈)。请参阅补充说明。视频了解更多详情。序列数据集。值得指出的是,在微调编码器时,我们只使用STB数据集中的八个序列平均3D关节误差方面的比较结果显示在表1的最后3列中。图3中示出了在ED和DO序列数据集上测试的3D PCK六、与逐帧估计相比,我们发现我们的重建精度在包含严重遮挡的数据集(如DO)上得到了显着提高。这也表明TravelNet对遮挡是鲁棒的,并且已经学习了顺序动作的一致性。6.3. 消融研究姿态估计的变体 我们分析了使用物理姿势,统一的骨骼比例,和FKLayer在训练中提供的自监督项对我们的物理姿势估计器的影响。4、Sup Mat.在选项卡中。2行6,在下面的过程中验证物理姿态θ通过用[58]中的原始IKNet替换我们的IKNet,关节位置X被映射到另一个姿势向量R45由四元数表示,无DoF限制。如Tab.所示。2行7和行8,估计器性能将在没有骨比率γ提取或由FKLayer提供的自监督项的情况下降级我们的完整姿态估计流水线的性能如表1所示。2行9. θ的使用对我们的手部姿势估计器的准确性具有最大的影响。TravelNet的变体 如Tab.的第4行所示。3,首先测试从逐帧姿态估计优化的朴素时间平滑度作为基线。平滑度是-优化了两个相邻姿态状态之间的距离,并且该项与式(1)-致。4.第一章在此之后,我们分析了编码器中聚类和注意力α的重要性,每个学习块的非局部性,以及训练阶段使用的碰撞惩罚C和时间平滑项T。Tab中的结果。3第5 - 9行显示聚类模块对旅游网的影响最大; C的消融不会大大削弱性能,因为冲突已在物理姿态数据生成。尽管在随机抖动之后,冲突冲突可以包含在Θ〜 Ν中,但是由于衰减,该不可信的状态子集将被放弃编码器中的聚类机制;另外,在T和非局部注意力的共同作用下,不仅保证了算法的分段光滑性,而且保证了算法的全局光滑性。如图如图5和图7所示,所有重建的运动都是近似全局平滑的(参见Sup.视频了解更多详情)。TravelNet解码器的合理性。设计了两个实验来验证解码器产生的运动的合理性。首先,我们将它与几种初等运动的简单线性插值进行了比较。如图7,线性插值的生成涉及空间中不同手指的穿透。相比之下,解码器已经学习了这些协同作用,并保证旅行路径上的每个中间状态在物理上是可行的。我们还将解码器部署到[8,21]的运动规划任务中,以确定抓取的最终状态。一些定性结果如图所示。五、虽然在建模和学习中手部碰撞形状是固定的11674方法平均3D关节误差(mm)我们的不含非本地LT26.23 31.27 27.17 33.13 18.36 17.75表3.运动重建的鲁棒性。 添加噪声、使用蒙太奇运动或使用捕获的运动时的稳健性比较。σ表示被高斯噪声干扰的标记帧的平均数量。p是整个序列中关节的掩蔽比率。蒙太奇运动是使用物理引擎由来自存档的离散姿势状态生成的手部运动。图8. 用户可控制的运动编码。TravelNet编码器在STB序列上提取具有不同带宽的关键姿势状态。利用学习的带宽提取的关键姿势在中间线中。在这些测试中,即使当形状参数改变时,也很少发生自穿透TravelNet编码器的合理性允许覆盖编码器中的学习带宽。如图8,我们以机顶盒数据集中记录的计数过程为例,研究带宽的影响。我们发现,修改这个带宽会影响一个给定的运动的编码器的描述精度的详细程度虽然较低的带宽导致更详细的运动,但它更容易受到噪声的影响。从图中中间一行的结果来看,在图8中,解码器已经学习了适应于所捕获的运动的带宽设置。7. 结论本文提出了一种新的范式,重建物理上合理的手的运动从单目彩色图像在自我监督的方式。这是第一个工作仅在训练阶段中借助于物理引擎来验证手的姿势和运动的物理合理性。在我们的方法中,基于物理的自由度被用来表示姿势和基于动画的关键状态被用来表示运动。这种紧凑性使TravelNet不仅能够可靠地重建手部运动,而且能够灵活地重新编辑手部运动。在未来,表示和范式可以迁移到手-物体交互和仿生手控制重定向控制。鸣谢。 这项工作得到了部分支持国家重点研发&计划资助项目2018YFB1403900,国家自然科学基金(编号:61806054,62076061),江苏省自然科学基金(No. BK20180355)、中国科学技术协会青年精英科学家资助计划和东南大学至善青年学者计划。σ =1。0σ =1。5p =0。2p =0。4蒙太奇动作做EDSTBYang等[五十一]28.3231.3327.1231.1820.3518.1618.129.87Holden等人手[19]29.3432.1027.4533.1121.1519.3420.0310.03考夫曼等人手[22]28.9231.8527.8833.5420.1418.1318.9712.37我们的不含TravelNet。32.5736.1433.7335.7224.3122.5720.7511.06Ours w/oF28.0526.6831.6631.2427.1327.1732.9629.4119.0818.2217.9417.6418.2117.059.739.66我们的无Fα17.309.69我们的不含LT25.42 29.85 26.92 30.03 17.13 17.3916.959.64我们的(不含非本地)25.36 29.64 26.77 29.91 17.24 17.4116.929.61我方不含信用证24.31 29.6626.8829.03 16.36 17.0516.709.44我们24.3029.6526.8929.0116.3517.0416.719.4211675引用[1] 赛 博 手 套 http://www.cyberglovesystems 的 网站。com. 2[2] 手手套https://manus-vr.com/网站。2[3] Mujoco物理引擎。http://www.mujoco.org网站。二、三[4] Vicon动作捕捉系统。http://www.vicon的网站。com. 2[5] 白少杰,J.齐科.科尔特,弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日,第1803.01271页。2[6] YoshuaBengio , Je´ ro meLouradour, RonanCollobert ,andJa-son Weston.课程学习。第26届机器学习国际年会论文集,第41-48页,2009年5[7] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议的论文集,第10843-10852页,2019年。2[8] Samarth Brahmbhatt,Ankur Handa,James Hays,andDieter Fox.联系方式:功能性多指抓取合成从接触。2019 年 IEEE/RSJ 智 能 机 器 人 和 系 统 国 际 会 议(IROS),第2386IEEE,2019。7[9] Antoni Buades,Bartomeu Coll,and J-M Morel.一种非局部图像去噪算法。在2005年IEEE计算机社会计算机视觉和模式识别会议(CVPRIEEE,2005年。5[10] F Dincer和G Samut。手功能:评估的实用指南。2014. 3[11] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集,第605-613页,2017年。5[12] Liuhao Ge , Zhou Ren , Yuncheng Li , Zehao Xue ,Yingying Wang,Jianfei Cai,and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。在IEEE计算机视觉和模式识别会议论文集,第10833-10842页,2019年。二、六[13] Francisco Gomez-Donoso、Sergio Orts-Escolano和MiguelCazorla。大规模多视角3d手部姿势数据集。Image and Vision Computing,81:25-33,2019。二、三、六[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26722[15] Genliang Guan,Zhiyong Wang,Shiyang Lu,JeremiahDa Deng,and David Dagan Feng.基于关键点的关键帧选择。IEEE Transactions on circuits and systems for videotechnology,23(4):729-734,2012. 3[16] Fe'lixGHarvey , Mik eYurick , DerekNo wrouzezahrai ,andChristopher E.A. 稳 健 的 中 间 运 动 。 ACM Trans-actions on Graphics(TOG),39(4):60-1,2020。2[17] Yana Hasson、Gul Varol、Dimitrios Tzionas、Igor Kale-vatykh 、 Michael J Black 、 Ivan Laptev 和 CordeliaSchmid。学习手和操作对象的关节重建。在IEEE计算机视觉和模式识别会议论文集,第11807-11816页,2019年。2[18] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。2[19] 丹尼尔·霍尔登斋藤纯和高村拓用于角色运动合成和编辑的深度ACM Transactions on Graphics(TOG),35(4):1-11,2016。三六八[20] Umar Iqbal,Pavlo Molchanov,Thomas Breuel JuergenGall,and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在欧洲计算机视觉会议(ECCV)的会议记录中,第118-134页,2018年。二、六[21] Korrawe Karunratanakul, Jinlong Yang , Yan Zhang,Michael J Black,Krikamol Muandet,and Siyu Tang.把握领域:学习人类抓握的隐式表示。在2020年3D视觉国际会议(3DV)上,第333-344页。IEEE,2020年。7[22] Manuel Kaufmann 、 Emre Aksan 、 Jie Song 、 FabrizioPece、Remo Ziegler和Otmar Hilliges。卷积自动编码器的人体运动填充。在2020年3D视觉国际会议(3DV)中,第918-927页。IEEE,2020年。三六八[23] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[24] Sourabh Kulhare , Shagan Sah , Suhas Pillai , andRaymond Ptucha. 用于显著活动识别的关键帧提取2016年第23届国际模式识别会议(ICPR),第835-840页。IEEE,2016. 3[25] Yong-Lu Li,Liang Xu,Xinpeng Liu,Xijie Huang,Yue Xu , Shiyi Wang , Hao-Shu Fang , Ze Ma ,Mingyang Chen,and Cewu Lu. Pastanet:Toward HumanActivity Knowledge Engine.在IEEE/CVF计算机视觉和模式识别集,第382二、三、六[26] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。国际计算机视觉杂志,60(2):91-110,2004. 3[27] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.icml,第30卷,第3页,2013中。6[28] Meysam Madadi 、 Sergio Escalera 、 Alex Carruesco 、Carlos Anduja r、X a vierBar o'和JordiGonz a`lez。用于深度图像序列中手部姿态恢复的自适应模型Image and Vision Computing,79:63-75,2018。2[29] Gyeongsik Moon,Takaaki Shiratori和Kyoung Mu Lee。Deephandmesh:一个弱监督的深度编码器-解码器框架,用于高保真手部网格建模。欧洲计算机视觉会议,第440Springer,2020年。2[30] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第5079-5088页,2018年。2[31] Franziska Mueller , Florian Bernard , Oleksandr Sotny-chenko,Dushyant Mehta,Srinath Sridhar,Dan Casas,and11676克里斯蒂安·西奥巴特。从单目rgb实时3d手部跟踪。在IEEE计算机视觉和模式识别会议论文集,第49-59页,2018年。2[32] Franziska Mueller 、 Micah Davis 、 Florian Bernard 、Oleksandr Sotnychenko、Mickeal Verschoor、Miguel AOtaduy、Dan Casas和Christian Theobalt。用单个深度相机 实 时 重 建 两 个 交 互 手 的 姿 态 和 形 状 。 ACMTransactions on Graphics(TOG),38(4):14[33] Franziska Mueller、 Dushyant Mehta、 Oleksandr Sotny-chenko 、 Srinath Sridhar 、 Dan Casas 和 ChristianTheobalt。基于自我中心rgb-d传感器的遮挡下手部实时跟踪。在IEEE计算机视觉研讨会国际会议论文集,第1284-1293页6[34] Markus Oberweger 、 Gernot Riegler 、 Paul Wohlhart 和Vin- cent Lepetit。高效地创建用于精细手部姿态估计的3d训练数据。在IEEE计算机视觉和模式识别会议论文集,第4957- 4965页2[35] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.深 入 学 习 手 部 姿 势 估 计 。 arXiv 预 印 本 arXiv :1502.06807,2015。2[36] Xue Bin Peng , Angjoo Kanazawa , Jitendra Malik ,Pieter Abbeel,and Sergey Levine. Sfv:从视频中强化学习身体技能。ACM Transactions on Graphics(TOG),37(6):1-14,2018。2[37] Charles Ruizhongtai Qi,Li Yi,Hao Su,and Leonidas JGuibas. Pointnet++:度量空间中点集的深度层次特征学习。神经信息处理系统的进展,第5099-5108页,2017年。4[38] Zeeshan Rasheed和Mubarak Shah视频中场景的检测和表示。IEEE多媒体学报,7(6):1097-1105,2005。3[39] Javier Romero , Dimitrios Tzionas , and Michael JBlack.Em-身体的手:建模和捕捉手和身体到一起。ACM Transactions on Graphics ( ToG ) , 36 ( 6 ) :245,2017。二、三[40] Tomas Simon,Hanbyul Joo,Iain Matthews,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功