没有合适的资源?快使用搜索试试~ 我知道了~
9877用于图像合成和姿态估计的潜在手分离杨琳琳德国波恩大学yangl@cs.uni-bonn.de姚颖新加坡国立大学ayao@comp.nus.edu.sg摘要由于从图像背景内容到摄像机视点的变化因素之间存在很大的差异,因此手部图像合成和RGB图像的姿态估计为了更好地分析这些变化的因素,我们建议使用非纠缠表示和非纠缠变分自动编码器(dVAE),允许对这些因素进行特定的采样和推断。从变分下界导出的目标以及所提出的训练策略是高度灵活的,允许我们处理跨模态编码器和解码器以及半监督学习场景。实验表明,我们的dVAE可以合成高度逼真的图像的手指定的姿势和图像背景内容,也估计3D的手构成从RGB图像的准确性竞争与国家的最先进的两个公共基准。1. 介绍基于视觉的手部姿态估计在过去几年中发展非常迅速[27,38],部分原因是其在人机交互应用中的潜力。这些进步在很大程度上归功于商品深度传感器的广泛可用性以及深度神经网络的因此,大多数最先进的方法将深度学习方法应用于深度图像[5,6,7,8,14,18,19,32,33]。然而,从单个RGB图像估计3D手部姿势是一个研究较少且更困难的问题,其最近才获得一些关注[3,16,21,25,40]。与作为2.5D信息源的深度不同,RGB输入具有明显更多的模糊性。这些模糊性是由3D到2D投影和不同的背景引起的,否则这些背景在深度图像中不太明显。因此,解决单目RGB手部姿势估计问题的方法依赖于从大型数据集中学习[40]。然而,考虑到在3D中准确标记手部姿势的困难,合成了迄今为止收集的大规模RGB数据集[16,40]。房图1:dVAE图示。红线表示变分近似,而黑线表示生成模型。借助标记的变异因子(例如,姿势,视点和图像内容),我们学习了VAE框架中RGB手部图像的分解和可指定的表示。记录的数据集要小得多,只有几十个序列[30,39]。这在学习方面提出了重大挑战,并激发了对强运动和/或图像先验的需求尽管直接判别方法在准确估计手部姿势方面取得了巨大成功,但人们对使用深度生成模型(如对抗网络(GAN)[16,32]和变分自编码器(VAE)[25])的兴趣也越来越大。生成模型可以从手部姿势的底层分布以及相关联的图像中近似和采样,并且取决于模型公式化,可以实现半监督学习。这对于手部姿态估计尤其适用,对于手部姿态估计,可能难以获得具有准确地面实况的数据然而,有一个警告是,在他们的标准公式中,GAN和VAE只学习黑盒潜在表示。这样的代表提供了很少的控制条件对人类可解释的因素。在迄今为止出现的深层生成作品中[16,25,32],潜在的表征只能通过手部姿势来指定。因此,可以对每个姿势仅采样单个(平均)图像。9878最近结合VAE和GAN的工作[4]引入了一种条件依赖结构来学习图像背景,并证明了将环体姿势转移到不同图像上的可能性。受这项工作的启发,我们想学习一种类似的潜在表征,它可以解开影响手在视觉上如何出现的不同因素,即。标准化的手部姿势、摄像机视点、场景上下文和背景等。与此同时,我们希望确保解纠缠表示保持足够的区分性,以高度准确地估计3D手部姿势。本文提出了一种解纠缠变分自动编码器(dVAE)-一种新的框架,用于学习解纠缠表示的手姿势和手的图像。由于我们想要解开的因素属于不同的模态,因此我们从跨模态VAE [20,25]开始,作为我们定义dVAE的基线。通过构造,我们的潜空间是一个解纠缠的潜空间,由因子计算的子空间和一个训练策略组成,将不同的潜空间融合成一个解纠缠的潜空间。我们展示了如何从独立的和混杂的标签输入中了解据我们所知,我们提出的模型是第一个解开的表示,能够synn- thesize手的图像和估计手的姿势与显式控制的潜在空间。我们的dVAE和解纠缠因子的示意图如图所示。1.一、我们的贡献总结如下:• 我们提出了一个新的跨模态的VAE模型;该模型是第一个基于价值评估的模型,它使用独立的变化因素,学习分解表征。• 我们的dVAE模型是高度灵活的,并处理多个任务,包括RGB手部图像合成,姿势转移和3D姿势估计从RGB图像。• 我们能够明确控制不同的变化因素,并引入了第一个模型与多个自由度的合成手的图像。• 我们解耦了解缠因子的学习和图像内容的嵌入,并引入了两种独立的学习算法和混淆标签。2. 相关作品2.1. 手势估计在手部姿态估计中取得的许多进展集中在使用深度图像输入[5,6,7,8,11,14,15,18、19、32、33、35]。最先进的方法使用卷积神经网络(CNN)架构,大多数作品将深度输入视为2D像素,尽管也有少数作品将深度输入视为2D像素。最近的方法将深度输入视为一组3D点和/或体素[7,5,15]。从单目RGB输入估计手部姿势更具挑战性。早期的方法只能识别一组有限的姿势[1,36],或者使用简化的手部表示而不是完整的3D骨架[26,37]。在最近的方法中,深度学习和CNN的使用已经变得很常见[3,21,40]。在[16,25]中,应用了深度生成模型,如变分自动编码器(VAE)[25]和生成对抗网络(GAN)[16],这不仅可以估计姿势,还可以从给定的手部姿势生成RGB图像。两种手部姿势估计方法[32,25]在精神上与我们的相似。他们也使用共享的潜在空间,尽管这些空间的性质非常不同。Wan等人。 [32]学习两个独立的潜在空间,一个用于手部姿势,一个用于深度图像,并使用一对一映射函数将两者连接起来。Spurr等人 [25]学习跨越多个手部模态的潜在空间,例如RGB到姿势和深度到姿势。为了将跨模态配对强制到单个潜在空间上,以交替的方式学习单独的VAE,其中一个输入模态导致每次迭代的损失这样的学习策略是不理想的,因为它往往会导致潜在空间的波动,并且不能保证收敛。此外,通过将所有交叉模态假设为一对一映射,每个姿势只能合成一个图像与[32]和[25]不同,我们的dVAE通过设计学习单个潜在空间。与[25]的交替框架相反,我们联合使用不同的模态来我们发现,我们的联合学习是更稳定,有更好的收敛性能。由于我们解释了模型并解开了图像因素,我们可以处理一对多的映射,即合成多个图像,同样的手势。2.2. 非纠缠表示解纠缠表示根据变化的突出因素分离数据,最近已经通过VAE和GAN等深度生成模型学习。这种表示已成功应用于图像编辑[2,4,13,17,24,28]、视频生成[29]和图像到图像转换[12]。然而,其中一些工作[24,28,29,34]需要专门设计的层和损失函数,使得架构难以工作并超出其预期任务。以前的工作学习与VAE [2,12,13]的解纠缠表示通常需要额外的弱标签,如分组信息[2,13]和成对相似性[12]。这样的标签可能很难获得,并且通常不为连续变量(如手部姿势和视点)定义在[4,17]中,提出了一种条件依赖结构来训练解纠缠表示,9879半监督学习[ 4 ]的工作与我们的相似之处在于,他们也将姿态从外表中分离出来;然而,它们的条件依赖结构对因子的数量很敏感。随着因素数量的增加,网络结构的复杂性也随之增加。pθyiyiqφyZYI很有说服力与现有的VAE方法相比,我们能够通过图像及其相应因子产生的共享潜在空间来学习可解释和解纠缠的表示,而无需额外的弱标签。3. 方法pθxNzqφxXzuqφu3.1. 交叉模态VAE(a) dVAE(b) 带zu的(c) dVAE withx在我们介绍如何将未纠缠的潜在空间纳入不同模态的VAE框架之前,我们首先描述原始的跨模态VAE[20,25]。顾名思义,跨模态VAE旨在学习跨两种不同模态x和y的VAE模型。我们首先定义联合分布p(x,y)的对数概率。由于使用这种分布是棘手的,因 此 可 以 通 过 潜 在 变 量 z 来 最 大 化 证 据 下 限(ELBO)。注意x和y假设在给定潜势z的情况下是条件独立的,即(x ≠y|z)。logp(x,y)≥ELBOcVAE(x,y,θx,θy,φ)(1)=Ez <$qφ log pθx(x |z)+Ez <$qφ log pθy(y |z)-DKL(qφ(z|x)||p(z))。图2:解缠结VAE的图形模型。阴影节点表示观察到的变量,而非阴影节点是潜在的。红色和黑色实线表示变分近似qφ或编码器,生成模型pθ或解码器表示编码器。虚线表示确定性构造的变量。最佳彩色视图。zyi没有zu,i e. 所有潜在的因素都可以与一些观察到的yi相关联。 为了清楚起见,我们将我们的解释限制在N = 2,尽管理论也推广到更高的N。我们的推导可以分为一个解开步骤和嵌入步骤。 在解缠步骤中,我们首先考虑x,y1和y2之间的联合分布。该分布的证据下限可以定义为:logp(x,y1,y2)≥ELBOdis(x,y1,y2,φy1,φy2,θy1,θy2,θx)这里,DKL(·)是Kullback-Leibler微分。 变分逼近qφ(z|x)可以被认为是一个en-=λxEz<$qφy1+ λ E,φy2logpθx(x|z)logp(y |z)编码器从x到z,而pθx(x|z)和pθy(y|z)可以是y1zy1<$qφy1θy11年1次被认为是分别从z到x和z到y的解码器+λy2Ezy2<$qφy2logpθy2(y2|zy2)p(z)=N(0,I)是潜在空间上的高斯先验在手部姿态估计的上下文中,x将表示RGB或深度图像模态,并且y表示手部骨架.-βDKLqφy1,φ y2Σ(z |y 1,y 2)||p(z),(二)模态然后可以通过将图像x编码到潜在空间中并解码对应的3D手部姿势y来从图像估计手部姿势。 在[25]中应用了该模型的一个变体,并成功地从RGB图像或深度图像中估计了手部姿势。3.2. 解缠VAE在我们的解纠缠VAE中,我们定义了一个潜在变量z,它可以被确定性地分解为N +1个独立因子{zy1,zy2,..., zyN,zu}。在这些演员中,{z yi}i=1... N与观测变量直接相关{yi}i=1. N. z u是一个额外的潜在因素,与任何观测变量无关;它可能或可能不包括在内(比较图。图2a与图2b 第2b段)。完全指定的潜在z:我们首先考虑一种简化的情况,在这种情况下,z可以完全指定为其中λs和β是添加到潜在空间容量和重建精度之间的权衡,如β技巧[10]所建议的。Eq.中的ELBO 2允许我们基于y1,y2和x定义解纠缠的z=[zy1,zy2]。 在该步骤中,可以学习yi到zyi的编码和从z yi的解码,以及z到x的解码。然而,从x到z的映射仍然缺失,因此我们需要额外的嵌入步骤[31]来学习编码器qφx(z|X)。保持所有解码器固定,qφx(z|x)可以通过最大化来学习:L(φx|θy1,θy2,θx)=−DKL(qφx(z|x)||pθ(z|x,y1,y2))=ELBO em b(x,y1,y2,φx)−logp(x,y1,y2)。(三)由于第二项相对于φx是常数,yipθy我qφyZYIN我zpθxqφxXyipθy我qφyZYIN我zpθxqφqφxxxX我9880θ9881emb1 2xxz <$qφxθxXy1Xy1Ey2E以λ′和β′作为超参数:ELBO(x,y,y,φ)= λ′E logp(x|z)p(y1|并且通过对z u进行随机采样并最小化p(y1)之间 的 距 离 来 更 新 y 1 的 编 码 器 和 解 码 器 |zy1 , zu ) 和 p(y1|zy1)。培训战略′y 1zy1<$qφx′y 2zy2<$qφxlogPlogPθy1θy2(y1|zy1)(y2|zy2)因为这在Alg中有详细说明。二、 在这种情况下,联合分布-x和y1的关系在具有超参数λ"和β"的解纠缠步骤中具有以下证据下限:-β′D(qφx(z|x)||p(z))。(四)logp(x,y1)≥ELBOu(x,y1,φy,φu,θy,θx)结合解缠和嵌入证据下限,我们得到以下联合目标:=λ′′Ez<$qφy1,φudis对数pθx1 1(x |z)+λ′′Ez <$qφy1,φulogPθy1 (y1|z)L(φx,φy1,φy2,θx,θy1,θy2)=ELBOdis(x,y1,y2,φy1,φy2,θx,θy1,θy2)−β′′D(qφy1,φu(z|y1,x)||p(z))。(六)+ ELBO em b(x,y1,y2,φx).(五)上述推导表明,模态x的编码可以通过解纠缠的潜在空间与y1和y2我们详细介绍了在Alg中完全指定版本的dVAE1.一、附加zu:当学习潜变量模型时,许多潜因子可能很难独立地与观察(标签)相关联,例如手写数字的风格或RGB图像中的背景内容[4,13,2]。尽管如此,我们还是要把这些因素从那些可以独立联系起来的因素我们通过一个单一的潜在变量zu以聚合形式对这些因素进行建模,并展示了如何将zu从与直接相关的其他zyi中分离出来。注意,在上面的ELBO中,z u是由x通过qφu编码的,而不是由一些观察到的标签u指定的,如之前在[13,2,4]中所做的那样。在这种改良的地生坦之后-如果我们不使用嵌入步骤,我们可以在等式中应用相同的嵌入步骤。3学习qφx(z|X)。多种x模态:可能出现这样的情况,其中我们具有完全指定和共享z的潜在空间的多个输入模态,即, 不仅是一个x,而且是一个ad-xxx( 见 图 1 ) 。 第 2c段)。这里,可以首先考虑x、y1和y2之间的联合分布,并最大化等式(1)中的ELBO2用于解缠结步骤。为了将x和x的两个模态链接到相同的解纠缠的潜在空间中并嵌入x,我们可以使用以下公式:L(φxφ) |θx,θy1,θy2)=−DKL(qφx<$(z|xxx)||pθ(z|x,y1,y2))观察yi.为了讨论清楚,我们限制N = 1,使得z=[zy1,zu]。为了从z中解开zu,′=ELBOemb (x,x,y1,y2,φx)−logp(x,y1,y2).(七)由混淆x指定,我们的目标是使z u和y1条件独立给定z y1为了实现这一点,我们尝试使p(y1|zy1,zu)近似等于类似于Eq。4.以λ′和β′为超参数,得到了如下证据下界:′ˆ12ˆ′′′zqELB Oem b(x,x,y,y,φx)=λxEφ <$logpθx(x|z)算法1完全指定z的dVAE学习。要求:x,y1,y2,λx,λy1,λy2,β,T1,T2+λ“"E+λ“"Ezy1<$qφx<$zy2<$qφx<$logPlogPθy1θy2(y1|zy1)(y2|zy2)假设:φx,φy1,φy2,θx,θy1,θy21:初始化φx,φy1,φy2,θx,θy1,θy2-β′′D(qφx(z|xxx)||p(z))。(八)2:对于t1= 1,. . . ,T1时期做3: 将y1,y2编码为qφy1(z y1|y1),qφy2(z y2 |y2)+λ+λKLKLKL98824:构造z←[zy1,zy2]5:将z解码为pθx(x|z),pθy1(y1|zy1),pθy2(y2|zy2)6:通过梯度上升更新φy1、φy2、θy1、θy2、θx当量2第七章: 端8:对于t2= 1,. . . ,T2时期做9:将x编码为qφx(z|x)10:Construct[zy1,zy2]←z11:将z解码为pθx(x|z),pθy1(y1|zy1),pθy2(y2|zy2)12:通过等式11的梯度上升 更新φx。413:结束对于学习,我们简单地用qφx<$(z)对x <$进行编码|x≠x(z),而不是pφx(z|x)如Alg.第9行所示。1.一、dVAE及其变体的完整推导在补充的3.3. 应用基于以上提出的理论,我们开发了两个应用:图像合成和姿态估计。像[40]一样,我们区分了绝对3D手部姿势(3DPose)、规范手部姿势(CPose)和视点。规范姿势是规范框架内3D姿势的归一化版本,而视点是将CPose旋转为3DPose的旋转矩阵。9883图3:图像合成(左和中)和姿态估计(右)任务的推理模型在图像合成中,我们希望对z的值进行采样,并通过生成模型pθx将其解码为图像x。 为了控制被采样的图像,我们希望具有相对于3DPose和图像(背景)内容(即,RGB图像的所有方面都与手部姿势本身没有特别的关系。图像合成的示意图显示在图1的左侧3;在这种情况下,我们遵循图中的模型2a,并使用Alg。1.一、这里,y1表示3DPose,y2表示图像内容;类似于[29],该内容由代表性标签图像指定。通过改变输入y1和y2,即通过改变3DPose和内容通过编码器Qφy1和Qφy2,我们合成具有特定姿态和背景内容的新图像。此外─此外,我们还可以通过位姿解码器pθy1来评估合成图像的位姿误差。为指定背景内容标记图像很容易算法2dVAE学习额外的zu。要求:x,y1,λx,λy1,β,T1,T2,T3假设:φx,φy1,φu,θx,θy11:初始化φx,φy1,φu,θx,θy12:对于t1= 1,. . . ,T1时期做3:将x,y1编码为qφy1(zy1|y1),qφu(zu|x)4:构造z<$[zy1,zu],[µ,σ]<$qφu(zu|x)5: 将z解码为pθx(x|z),pθy1(y1|z)6:更新φy1、φu、θy1、θx7: 对于t2= 1,. . . ,T2时期做8:将y1编码为qφy1(z y1|y1)9:构造znoise<$N(µ,σ),z<$[zy1,znoise]10:将z解码为pθy1(y1|z)11:更新φy1,θy112:结束13:结束14:对于t3= 1,. . . ,T3时期做15:将x编码为qφx(z|x)16:Construct[zy1,zu]←z以获得是否具有从中提取RGB帧的视频序列然而,对于某些场景,情况可能并非如此,即, 如果训练集中的每个RGB图像包含不同的背景内容。 这就是图中模型的必要性。2b和Alg. 二、在这种情况下,y1再次表示3DPose,而图像内容通过x间接建模。然而,出于测试目的,两种变体之间没有区别,因为输入仍然以所需的3DPose和指定内容的RGB图像的形式给出对于手部姿态估计,我们的目标是根据图1中的模 型 从 RGB 图 像 x_i 预 测 3DPose x 、 CPosey1 和vie_pointy2 。通 过 将 z 解 开 为 CPosezy1 和 viewpointzy2 。在 这 种 情 况 下 , 我 们 将 x 和 x∈{\displaystyle x ∈ {\displaystyle x}}嵌入到共享的潜在空间中。我们应用图中右图所示的推理3、用Alg学习模型1.一、此外,由于带注释的训练数据在现实世界中是稀疏的,我们可以进一步利用未标记或弱标记的数据。 我们提出的方法由多个VAE组成,可以分别训练半监督和弱监督设置。对于半监督设置,我们同时使用标记和未标记的CPose、视点和3DPose数据,以在解纠缠步骤中训练编码器qφy1、qφy2 对于弱监督设置,我们利用通过在嵌入步骤中使用qφx和pθy2训练V AE,可以对图像及其弱标签(如视点y 2)进行分类。4. 实验一个好的解纠缠表示应该表现出良好的性能在两个判别任务,如手姿态估计以及生成任务。我们在图像之间传输更准确地说,对于图像合成,我们使用固定的3Dpose传输图像内容,而对于3D手部姿势估计,我们预测视点,CPose和3Dpose。17: 将z解码为pθx(x|z),pθy118:更新φx19:结束(y1|z)4.1. 实现细节我们的架构包括多个编码器和解码器。对于图像编码,我们使用Resnet-18 [9];对于9884图4:潜在的太空行走。红色框中的图像是输入。前两行示出了在潜在3DPose空间上插值时的合成图像;第三行示出了重建的3DPose的骨架。第四行示出了当在内容潜在空间中插值时姿态固定时(到第四列)的合成图像。解码图像,我们遵循解码器架构DC-GAN [22]。对于编码和解码手部姿势,我们使用了6个全连接层,其中包含512个隐藏单元。附录中提供了准确的结构规格对于学习,我们使用ADAM优化器,学习率为10−4,批量大小为32。我们将z的d的维数固定为64,并将子潜在变量zy1和zy2的维数设置为32和32。 对于所有应用程序,固定λ(λ x = 1,λ y1 = λ y2 = 0. 01),而我们必须调整β(β = 100用于图像合成,β“"= 0. 用于姿态估计)。关于β和d影响的进一步讨论可以在补充资料中找到。4.2. 数据集评价我们在两个公开可用的数据集上评估我们提出的方法:立体手姿态跟踪基准(STB)[39]和渲染手姿态数据集(RHD)[40]。STB数据集的特点是一个人的左手在6个真实世界的室内背景前的视频。它提供手掌和手指关节的3D位置,分辨率为640×图像对于该数据集,合成相对容易,因为背景数。为了评估我们的模型为了评估我们的dVAE的生成建模能力,我们根据图1中的模型将z分解为两个内容和3DPose。图2a按照图2a中最左边的模型合成具有固定姿势的图像。3 .第三章。RHD是一个由20个字符组成的320×320分辨率的39个动作,各种手的大小,观点和背景。由于不同的视觉场景,照明和噪声,数据集具有高度挑战性。它由42k张用于训练的图像和2.7k张用于测试的图像组成。为了与其他3D手部姿势估计工作进行定量评估和比较,我们使用了常见的指标,平均终点误差(EPE)和正确关键点百分比(PCK)得分的曲线下面积平均EPE定义为预测关键点和地面实况关键点之间的平均欧几里得距离;PCK是预测关键点相对于地面实况落在某个给定距离内的百分比。4.3. 合成图像我们评估我们的模型合成图像的能力,从潜在的太空行走和转移环构成从一个图像到另一个采样。对于完全指定的潜在z模型,我们显示了合成图像(见图1)。4)当我们内插3DPose同时保持图像内容固定时 (行1- 4),3)以及当我们在保持姿势固定的同时插值图像内容时。在这两种潜空间行走中,重构的姿势和合成的图像都显示了潜空间的平滑性和一致性。我们还可以从不同的手图像中提取解开的潜在因素,然后将它们重新组合以将姿势从一个图像转移到另一个图像。图6显示了当我们从一个图像(最左边的列)中获取姿势,从其他图像(顶行)中获取内容并重新组合它们(第2-3行,第3-5列)时的结果。我们能够准确地将9885图5:潜在的空间行走,插值表示图像背景内容的z u。红色框中的图像和地面实况3DPose(红色)是输入点;第一行显示生成的图像,第二行对应重建的3DPose(蓝色)。请注意,因为我们只对背景内容进行插值,所以姿势保持固定。手的姿势同时忠实地保持标签内容。对于额外的zu,我们还在图5中显示了来自zu上的潜在空间行走的插值结果。在这种情况下,3DPose保持良好固定,而内容发生变化平滑地在两个输入图像之间,展示了我们的模型4.4. 三维手姿态估计我们评估了我们的dVAE基于第3.3节中描述的模型变体从RGB图像估计3D手部姿势的能力,并在RHD和STB数据集上与最先进的方法[3,25,40,16,21在[40]中,应用双流架构来估计视点和CPose;然后将这两者组合以预测3DPose。 为了直接比较,我们将潜在z分解为视点因子和CPose因子,如图所示。3右。注意,由于我们的潜在空间的分解性质,我们可以通过一个潜在空间预测视点、CPose和3DPose。图6:姿势转换。第一列对应于我们从中提取3DPose的图像(第二列中的地面真实姿态);第一行对应于我们提取潜在内容的标记图像列; 2-3行、3-5列是姿态转移图像。我们遵循[40,25]中的实验设置,即在测试时给出左我们通过在[-180,180]范围内旋转图像并沿y轴进行随机翻转来增加训练数据,同时将相同的变换应用于地面实况标签我们比较图中的平均EPE。右七。我们在CPose和3DPose上的表现优于[40]。这些结果突出了我们的dVAE模型准确的手姿态估计的强大功能我们的平均EPE非常接近[25],而我们的3D PCK稍好。因此,我们得出结论,我们的模型的姿态估计能力与[25]相当,尽管我们的模型能够获得解纠缠表示并充分利用弱标签。 我们在图2中的两个数据集上将PCK曲线与最先进的方法[3,25,40,16,21]进行了比较。7.第一次会议。除[3]外,我们的方法与大多数现有方法相当或更好,[3]对RHD和STB的PCK的AUC分别为0.038和0.03然而,这些结果并不直接可比,因为[3]将深度图像作为训练数据的额外来源。图8显示了我们从RHD和STB数据集估计的一些手部姿势半、弱监督学习:为了在半监督和弱监督设置中评估我们的方法,我们将前m%的图像作为标记数据进行采样,其余的作为未标记数据,丢弃3DPose,CPose和视点的标签。我们还考虑仅使用视点作为弱标签,同时丢弃3DPose和CPose。对于RHD数据集,我们将m%从5%变化到100%,并将平均EPE与完全监督设置进行比较。我们可以看到,我们的模型充分利用了额外的信息。通过CPose、viewpoint和3Dpose标签,我们将平均EPE提高到3。百分之五通过添加图像和视点标签,性能提高到7. 百分之五5. 结论本文提出了一种基于VAE的手部姿态和手部图像的解纠缠表示学习方法。我们发现我们的模型可以让我们合成-98861.00.90.80.70.60.50.90.80.70.60.50.4方法RHD STB20 25 30 35 40 4550误差阈值(mm)0.320 25 30 35 40 45 50误差阈值(mm)图7:定量评价。RHD(左)和STB(中)上的3D PCKRHD和STB上的平均EPE(mm)(右侧)。图8:RHD和STB上的CPose和3DPose估计。对于每个五元组,最左边的列对应于输入图像,第二和第三列对应于CPose地面实况(红色)和我们的预测(蓝色),最右边的两列对应于3DPose地面实况(红色)和我们的预测(蓝色)。282624222020 40 60 80 100标示百分比(%)图9:我们的模型在半监督设置和弱监督设置上的平均EPE。调整高度逼真的RGB图像的手与完全控制的变化因素,如图像背景内容和手的姿态。然而,这里的变化因素应该是独立的。这对于手部图像来说是一个有效的假设,但是我们将考虑放松因素之间的独立性,并进一步研究多模态学习的非纠缠表示。对于手部姿势估计,我们的模型与最先进的模型具有竞争力目前,STB是真实世界单目RGB手部姿态估计的标准基准。然而,由于特色背景内容和手部姿势非常简单,因此在此数据集上采用最先进方法的性能已经饱和。对于3D PCK,最近的工作[3,25,40,16,21]实现了20- 50 mm误差阈值的AUC值,范围从96%到99%以上。因此,我们鼓励社区成员收集更具挑战性的RGB手部姿势估计基准。特别是,对于单目sce- nario,一种可能性是收集多视图[23]以及多模态数据,即。RGBD,从中可以使用高度精确的基于模型的跟踪器来估计地面实况标签。致谢本文的研究部分得到新加坡教育部学术研究基金一级的支持。Zimmermann(AUC=0.675)Spurr(AUC=0.849)Cai(AUC=0.887)我们的PSO(AUC=0.709)ICPPSO(AUC=0.748)CHPR(AUC=0.839)Zimmermann(AUC=0.986)Panteleris(AUC=0.941)Spurr(AUC=0.983)Mueller3D PCK监督半监督弱监督3D PCK平均EPE(mm)CPose3DPoseCPose3DPose[第四十届]16.3730.426.078.68[25日]\19.73\8.56我们13.9319.956.098.669887引用[1] 瓦西利斯·阿提索斯和斯坦·斯克拉罗夫。从杂乱图像中估计三维手部在CVPR中。IEEE,2003年。2[2] DianeBouchacourt 、 RyotaTomioka 和 SebastianNowozin。多级变分自动编码器:从分组观察中学习解缠表示。在AAAI,2018。二、四[3] 蔡宇军、葛柳浩、蔡建飞、袁俊松。从单色RGB图像进行弱监督的3D手部姿势估计。在ECCV,2018。一、二、七、八[4] Rodrigo de Bem , Arnab Ghosh , ThalaiyasingamAjanthan,Ondrej Miksik,N Siddharth,and Philip HSTorr.用于人体分析的半监督深度生成模型。在ECCVW,2018年。二、三、四[5] 刘浩、蔡玉军、翁君武、袁俊松。手点网:使用点集的3d手姿态估计。在CVPR,2018年。一、二[6] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.单个深度图像中的鲁棒3D手部姿势估计:从单视图CNN到多视图CNN。在CVPR,2016年。一、二[7] Liuhao Ge , Hui Liang , Junsong Yuan , and DanielThalmann.3D卷积神经网络用于从单个深度图像进行高效和鲁棒的手部姿势估计。在CVPR,2017年。一、二[8] Hengkai Guo,Guijin Wang,Xinghao Chen,CairoongZhang,Fei Qiao,and Huangzhong Yang.区域集合网络:改进卷积网络用于手部姿态估计。在ICIP,2017年。一、二[9] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[10] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。β-vae:使用约束变分框架学习基本视觉概念。ICLR,2016年。3[11] Umar Iqbal,Pavlo Molchanov,Thomas Breuel,JuergenGall,and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在ECCV,2018。2[12] Ananya Harsh Jha、Saket Anand、Maneesh Singh和VSRVeeravasarapu。用周期一致的变分自动编码器解开变化因素在ECCV,2018。2[13] Tejas D Kulkarni , William F Whitney , PushmeetKohli,and Josh Tenenbaum.深度卷积逆图形网络。2015年,在NIPS中。二、四[14] Meysam Madadi , Sergio Escalera , Alex Carruesco ,Carlos Anduja r,X a vierBa ro'和JordiGonz a' lez。遮挡和从深度图像序列恢复手部姿势。在FG,2017年。一、二[15] 文京植,张朱勇,李京武。V2v-posenet:体素到体素预测网络,用于从单个深度图进行准确的3d手部和人体姿势估计。在CVPR,2018年。2[16] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。Ganerated手从单眼RGB实时3D手跟踪。在CVPR,2018年。一、二、七、八[17] Siddharth Narayanaswamy、T Brooks Paige、Jan-WillemVan de Meent 、 Alban Desmaison 、 Noah Goodman 、Pushmeet Kohli、Frank Wood和Philip Torr。用半监督深度生成模型学习解纠缠表示。在NIPS,2017年。2[18] Markus Oberweger和Vincent Lepetit Deepprior++:提高快速准确的3D手部姿态估计。在IC中-CVW,2017年。 一、二[19] Markus Oberweger,Paul Wohlhart,and Vincent Lepetit.深入学习手部姿势估计。在CVWW,2015年。一、二[20] 高拉夫·潘迪和安贝德卡·杜基帕提条件多模态深度学习的变分InIJCNN,2017. 二、三[21] Paschalis Panteleris , Iason Oikonomidis , and AntonisArgy-ros.使用单个RGB帧进行野外实时3D手部姿势估计。在WACV,2018。一、二、七、八[22] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。在arXiv预印本arXiv:1511.06434,2015。6[23] HelgeRhodin , Jo¨rgSpo¨rri , IsinsuKatircioglu ,VictorConstantin , Fre´de´ ricMeyer , ErichMu¨ ller , MathieuSalzmann,and Pascal Fua.从多视角图像学习单目3d人体姿态在CVPR中,第8437-8446页,2018年。8[24] Zhixin Shu , Ersin Yumer , Sunil Hadap , KalyanSunkavalli,Eli Shechtman,and Dimitris Samaras.具有内在图像解缠的神经人脸编辑。在CVPR,2017年。2[25] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilliges。跨模态深度变分手部姿势估计。在CVPR,2018年。一、二、三、七、八[26] Bjoe r nStenge r,PauloRSMendon ca,andRobertoCipolla.基于模型的关节手三维跟踪在CVPR中。IEEE,2001年。2[27] 詹姆斯·S·苏潘契奇,格雷戈里·罗杰斯,杨毅,杰米·肖特顿和德瓦·拉马南。基于深度的手部姿势估计:数据、方法和挑战。 在ICCV,2015年。1[28] AttilaSzabo',QiyangHu,TizianoPortenier,MatthiasZwicker,and Paolo Favaro. 区分独立变异因素的挑战。在arXiv预印本arXiv:1711.02245,2017。2[29] Sergey Tulyakov,Ming-Yu Liu,Xiaodong Yang,andJan Kautz. MoCoGAN:分解运动和内容以生成视频。在CVPR,2018年。二、五[30] Dimitrios Tzionas 、Luca Ballan 、 Abhilash Srikantha 、Pablo Aponte、Marc Pollefeys和Juergen Gall。使用区别性突出点和物理模拟捕获动作IJCV,118,2016. 1[31] Ramakrishna Vedantam,Ian Fischer,Jonathan Huang,and Kevin Murphy.视觉基础想象的生成模型。在ICLR,2018年。3[32] Chengde Wan , Thomas Probst , Luc Van Gool , andAngela Yao.过网:将GAN和VAE与共享的潜在空间相结合,用于手部姿势估计。在CVPR,2017年。一、二9888[33] Chengde Wan , Thomas Probst , Luc Van Gool , andAngela Yao.用于手部姿态估计的密集三维回归。在CVPR,2018年。一、二[34] 王超越,王朝晖,常旭,陶大成。用于对象图像重
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功