深度网络：GAN和VAE结合实现手势姿势估计

95 浏览量更新于2023-10-16 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16800交叉网络：将GAN和VAE与共享潜在空间相结合进行手势姿势估计0Chengde Wan 1，Thomas Probst 1，Luc Van Gool 1,3和Angela Yao 201 ETH Zürich 2 University of Bonn 3 KU Leuven0摘要0从深度图像中估计3D手势姿势的最先进方法需要大量的注释训练数据。我们提出使用两个具有共享潜在空间的深度生成模型来建模3D手势姿势和相应的深度图像之间的统计关系。通过设计，我们的架构允许以半监督的方式从未标记的图像数据中进行学习。假设姿势和深度图像之间存在一对一的映射，共享潜在空间中的任意给定点可以投影到手势姿势和相应的深度图像中。然后，通过学习一个判别器来估计给定深度图像的潜在姿势的后验概率来进行手势姿势的回归。为了改善泛化能力并更好地利用未标记的深度图像，我们同时训练一个生成器和一个判别器。在每次迭代中，生成器使用从判别器反向传播的梯度来合成关节手的逼真深度图像，而判别器则从合成和未标记样本的增强训练集中受益。所提出的判别器网络架构非常高效，在CPU上以90帧每秒的速度运行，并且在3个公开可用的基准测试中的准确性可与或优于最先进的方法。01. 引言0我们解决了从单个深度图像估计3D手势姿势的问题。实时准确估计3D姿势面临许多挑战，包括局部自相似性和自遮挡的存在。自从低成本深度传感器问世以来，开发快速准确的手部跟踪器的进展主要依赖于具有手关节注释的大量深度图像。这对于基于深度学习的最新方法的成功尤为重要[46, 20,21, 32, 9, 51, 45,48]，这些方法都是完全监督的。在深度图像上准确注释3D手关节是0图1.在学习的共享潜在空间中的随机游走。在共享潜在空间中的两个点之间的连接线上采样一组点。然后通过我们的网络重建姿势和相应的深度图像。我们的方法在姿势和外观空间中生成有意义且逼真的插值。0同时，合成数据既困难又耗时。虽然可以使用物理渲染器合成数据，但真实数据和合成数据之间通常存在差异。生成的手势姿势不总是自然的，也不能反映出实际应用中的姿势。更重要的是，以逼真的方式准确建模和渲染深度传感器噪声非常困难。另一方面，使用标准消费级深度相机收集未标记的真实人手数据非常简单。这引发了一个问题：如何利用这些未标记的样本进行训练？迄今为止，几乎没有关于手势姿势估计的半监督学习的研究成果。唯一值得注意的例外是使用传导式随机森林的判别方法，它在很大程度上忽略了未标记深度图像的高阶像素相关性。来自神经科学、机器人技术和手部动作捕捉的先前研究表明，手部运动在关节之间表现出很强的相关性。因此，我们得出结论：逼真的手势姿势空间可以在低维子空间中表示为流形。我们进一步直观地认为，手的深度图像可以以类似的方式编码在低维流形中，并且可以通过低维流形的后验估计来表示。26810在适当的生成器的帮助下，可以忠实地重建。在本文中，我们提出了一种捕捉手势姿势和相应深度图像的潜在空间的双重生成模型，用于估计3D手势姿势。我们使用变分自动编码器（VAE）和生成对抗网络（GAN）分别对手势姿势和深度图像的生成过程进行建模。我们假设深度图像和手势姿势之间存在一对一的映射；这样，可以将手势姿势空间和深度图像空间视为共享空间。共享空间非常有益，因为可以将在任一潜在空间中采样的点通过VAE的解码器表示为3D姿势，或者通过GAN的生成器表示为深度图像。图2概述了我们提出的框架。我们的核心思想是学习一个双向映射，将手势姿势和深度图像的两个潜在空间联系起来，从而将姿势编码器网络与手势和深度图像的生成模型相连接。然后，一个非常高效的判别器网络通过生成的深度图像回归姿势。我们认为，端到端学习“交叉”网络对于姿势估计非常有益，原因如下。首先，该架构隐式地编码了从姿势数据分布中学到的骨骼约束。其次，生成器网络有效地用于增加训练集，并通过在判别器网络中鼓励发现观察到的深度数据的通用表示来改善泛化能力。最后，该架构自然地允许以半监督的方式利用未标记的数据。我们在多任务设置中学习我们的判别器。首先，判别器必须能够测量潜在空间中给定深度图像之间的差异。对于生成器，从随机噪声合成的图像被鼓励与一些标记的参考深度图像具有由判别器测量的所需差异。这导致生成器在潜在空间方面产生更平滑的结果。判别器的第二个任务是标准的GAN任务，即区分真实和合成的深度图像。我们的方法的核心是手势的后验估计，这是我们方法的核心。所有三个任务共享相同的输入特征，即网络的前几层，并且使得后验估计能够从未标记和合成样本中受益。我们的估计框架在3个具有挑战性的基准测试中进行了评估。由于其简单的网络架构，我们的方法可以在CPU上实时运行，并且在更复杂的模型上实现了与最先进方法相当或更好的结果。我们的贡献可以总结如下：0•我们将GAN扩展到半监督设置，用于实值结构化预测。之前的半监督GAN适应[22, 18, 34, 30]0仅关注分类，并基于潜在分布是多模态的，每个模态对应一个类的基本假设。这个假设在连续姿势回归任务中不成立，因为深度图潜在空间的基础分布不一定具有多个不同的模态。0•我们在多任务学习框架中解决了后验估计问题。我们利用GAN在训练过程中合成高度逼真和准确的关节手深度图。与直接估计后验的基线相比，多任务设置能够估计更准确的姿势，当训练数据稀缺时，这种差异尤为显著。0•学习的生成器在剧烈视角变化下合成高度关节手姿势的逼真深度图，同时在潜在空间方面表现良好。我们的新颖距离约束强制在学习的潜在空间中保持平滑性，以便在潜在空间中进行随机漫步对应于合成一系列逼真插值的姿势和深度图（见图1）。02. 相关工作0深度生成模型生成对抗网络（GAN）[10]和变分自动编码器（VAE）[14]是最近提出的两种深度生成模型。通常，确定无标签图像的潜在数据分布可能非常具有挑战性，并且对这些分布的推断在计算上非常昂贵或难以处理，除非在最简单的情况下。GAN和VAE提供了高效的近似方法，使得可能学习可处理的无标签图像的生成模型。我们在第3节中提供了更详细的描述，并参考[10,14]进行更详尽的处理。最近的工作已将VAE [13, 33,27]和GAN [18, 34, 22,30]从无监督扩展到半监督设置，但仅适用于分类任务。这些工作假设潜在空间中存在多模态分布；虽然适用于分类，但这个假设对于实值结构化预测并不成立，就像手部姿势估计一样。其他工作[11, 4, 25, 50,30]修改了生成模型以改进合成。例如，[25,30]中的方法稳定了GAN的训练过程，从而产生更高质量的合成样本。我们使用[25]中提出的完全卷积网络作为GAN的架构，并使用[30]中提出的特征匹配策略。由于无法在GAN上估计后验，[6, 7, 2]将GAN扩展为双向。36820我们提出的网络最类似于[2]，它也将后验估计作为多任务学习来进行。然而，与[2]中仅估计潜变量的子向量并将其余部分作为随机噪声的方法不同，我们学习整个后验。其他一些工作将GAN扩展到涵盖多个领域，并从文本[26,17]或另一个图像领域[16,38]合成图像。我们处理的是一个更具挑战性的情况，即根据给定的姿势合成深度图。合成的深度图需要非常准确地对应给定的姿势参数，事实上它们确实如此，因为我们甚至能够使用合成图像进行训练。0手部姿势估计手部姿势估计通常分为两个阵营，即基于模型的跟踪和基于帧的判别估计。传统方法需要手动设计能量函数来衡量模型跟踪中合成样本与观察样本之间的差异[23,24, 31, 40, 35, 47, 42]，或者使用手工设计的局部[41, 39,36, 49,40]或整体[3]特征进行判别估计。最近的大多数工作[46, 20,21, 32, 9, 51, 45,48]应用卷积神经网络（CNN），将特征提取和判别估计结合到一个端到端的学习框架中。CNN需要大量标记的训练数据，很少有工作考虑利用更容易获得的无标签深度图来学习更好的表示。从这个意义上说，我们的工作类似于[41]，它试图相关无标签深度图。虽然[41]采用了一种判别方法来学习一个转导随机森林，但我们的生成方法能够捕捉无标签深度图的分布。我们的工作受到[8,19]的启发，它们基于高斯过程潜变量模型（GPLVM）在观察和姿势参数之间学习了一个共享流形。另一条类似的工作线是[5,52]，它们试图基于GPLVM在姿势和步态之间学习一个共享潜空间。GPLVM是一个非参数模型，而我们的生成模型是神经网络的形式，这使得我们能够以端到端的方式学习生成模型和后验估计。03. 预备知识0令 o表示某种观察结果（手势姿势或深度图）。我们希望通过对o 的生成过程建模来估计先验分布 p ( o )0z p ( o | z ) p ( z ) dz . 直接拟合 p ( o )是不可行的，通常需要进行昂贵的推理。因此，我们使用两种最近开发的非常强大的深度生成模型来近似 p ( o )：变分自编码器 (VAE) 和生成对抗网络 (GAN)。0在本节的剩余部分，我们简要介绍了用于建模手势姿势和深度图先验的VAE和GAN。在符号上，我们将给定的深度图表示为 x ，将手势姿势表示为 y 。我们将潜变量表示为 z，并在必要时进一步区分为 z x 和 z y，分别表示潜在深度图和姿势。¯ x表示GAN生成器生成的合成深度图，¯ y表示VAE解码器重构的姿势参数。03.1. 姿势变分自编码器 (Pose VAE)0VAE由一个编码器和一个解码器组成，其工作原理如下：0z y � Enc ( y ) = q ( z y | y ) , ¯ y � Dec ( z y ) = p ( y | z y ) . (1)0VAE通过对潜在分布 p ( z y ) 引入先验，同时尽可能地重构¯ y 与原始 y 接近来规范化编码器。通常使用高斯先验，即z y � N (0 , I ) ，并将其作为编码分布 q ( z y | y )和先验分布 p ( z y ) 之间的Kullback-Leibler散度 D KL的一部分。然后，VAE损失是重构误差和潜在先验的总和：0L vae = L pose recons + L prior , (2)0其中 L pose recons = - E q ( z y | y ) [log p ( y | z y )] (3)0以及 L prior = D KL ( q ( z y | y ) || p ( z y )) . (4)0我们使用VAE对手势姿势配置建模先验分布。编码器-解码器结构使我们能够学习从高维手势姿势到低维表示的映射，同时通过解码器确保高重构准确性。此外，对潜在分布的约束简化了深度图和姿势之间的共享潜在空间的学习（详见第4.2节）。03.2. 深度图生成对抗网络 (Depth GAN)0GAN由一个生成器和一个判别器组成。生成器通过将来自任意分布的随机噪声样本 z x 映射到数据空间中的样本 ¯ x来合成样本。判别器试图区分真实数据样本 x和生成器生成的合成样本 ¯ x。GAN的损失函数可以表示为二元熵损失，如下所示：0L gan = log( Dis ( x )) + log(1 - Dis ( Gen ( z x ))) , (5)pose VAEdepth GANposterior estimationrendersmoothness constraintEncoderDecoderGeneratorPosteriorSmootherDiscriminatorAlignmentfcfcfcfc6conv(,6tcon(,6tcon(,6tcon(,6tcon(,6tcon(,6conv(,66conv××3232(),66conv××3232(),×3J128fc×3Jfc3J66conv××3232(),66conv××3232(),66conv××3232(),66conv××3232(),×1128fc66conv××3232(),66conv××3232(),66conv××3232(),×128fc512×3J512fcIt is not possible with the machinery of the depth GANalone to estimate the latent variable posterior. As such, wemust ﬁrst learn a mapping from one latent space to the other.We choose the latent space of hand pose parameter as thereference space and learn a mapping to the depth map latentspace, i.e. zy = Ali(zx). Note that we do not have trainingpairs of corresponding (zx, zy). What we do have, how-46830编码解码0生成0Ali03J ×20020 ×3J0(a) (b)0图2. 提出系统的概述。 (a) 显示网络架构和变量关系的草图。fc代表全连接层，tcon代表带有2倍扩张因子的转置卷积层，conv代表步长为2的卷积层。方框内的数字表示参数大小。(b)描述了我们工作中网络内部的数据流。不同颜色的箭头表示与特定任务相关的数据流，如图例所示。详细信息请参见第4.1节。最佳观看效果为彩色。0其中Dis(x)是鉴别器的输出，是x为真实数据样本的概率度量。训练过程中，交替最小化生成器参数关于Lgan的损失，同时最大化鉴别器参数关于Lgan的损失。生成器试图最小化损失以生成更逼真的样本以欺骗鉴别器，而鉴别器试图最大化损失。GAN并没有明确建模生成器的重构损失；相反，网络参数仅通过从鉴别器反向传播梯度来更新。这有效地避免了像素级的损失函数，这种函数往往会产生过度平滑的结果，并能够实现对训练集中存在的噪声的逼真建模。因此，GAN能够生成具有高逼真度的深度图像，并学习具有线性语义的潜在表示，即潜在空间中的简单算术运算可以导致数据空间中的语义变换。因此，GAN非常适合模拟深度图像的生成过程，并且可以与共享的潜在空间一起用于合成样本以增加训练集。在这项工作中，我们采用了[25]的深度卷积GAN网络架构和[30]的特征匹配策略，以实现稳定和快速收敛的训练。噪声是从均匀分布中采样的，即z x � U(-1, 1)。04. 方法04.1. 系统概述 - Crossing Nets0我们将手部姿态估计问题表述为一个统计学习问题：给定一组深度图像，我们的目标是学习对应的手部姿态的后验分布。我们通过结合两个生成型神经网络来解决这个问题，一个用于姿态，一个用于深度外观。首先，我们分别预训练每个网络，以捕捉各个领域的统计信息。然后，我们学习将两个潜在空间z x 和z y之间的映射关系。然后，完整的网络进一步进行端到端的姿态估计任务训练。0图2给出了我们架构的概述。在图2中，蓝色和黄色路径分别表示姿态和深度图的VAE和GAN的前向路径。蓝色路径，即渲染路径，通过映射Ali将VAE和GAN连接在一起。给定任何姿态，数据通过蓝色路径转发，网络可以合成具有相应姿态的深度图。渲染路径的训练细节在第4.2节中给出。绿色路径估计给定深度图的共享潜在变量的后验分布，而棕色路径对GAN的生成器施加平滑约束。绿色路径和棕色路径与GAN的鉴别器共享参数，具体细节在第4.3节中描述。在忽略传感器噪声的情况下，我们假设深度图与自由移动手的手部姿态之间存在一对一的映射关系。因此，我们可以任意选择姿态或深度图潜在空间作为参考共享空间，然后学习将两个生成模型连接在一起的映射关系。我们将在第4.2节中展示如何学习这个映射关系。为了防止过拟合，我们将后验估计制定为多任务学习，其中所有任务共享前几个卷积层。除了潜在变量回归或后验任务外，我们还考虑平滑任务和GAN任务。通过联合训练生成器和鉴别器，如第4.3节所述，我们的方法可以从无标签样本以及生成器生成的样本中受益。04.2. 学习共享潜在空间imax(∥x(i)−Gen(Ali(z(i)y ))∥2, τ), (6)LG = Lrecons + Lsmo − Lgan,(7)LD = Lpos + Lsmo + Lgan,(8)Lsmo =dcomb + dself= 1N ∥smo( ¯Xr, Xl) − (Zr − Zl)∥2∗+ 1N ∥smo( ¯Xl, Xl)∥2∗.(9)56840然而，对应的配对(x,y)是可能的，因此可以将观察到的深度图像x与投影到z y，然后映射到z x的合成图像¯x进行比较。因此，我们引入了一个基于渲染深度图的重构误差的代理损失Lrecons，该重构误差基于映射到GAN潜在空间的潜在输入z(i)y=Enc(y(i))：0Lrecons = 10N �0我们将Ali(∙)建模为一个具有tanh激活的单个全连接神经元。前向传递对应于图2中的紫色路径。与[31]中使用的goldenenergy类似，我们使用修剪的均方误差作为我们的损失函数，以保持对深度传感器噪声的鲁棒性。由于深度图被归一化为[-1,1]，我们将剪切阈值τ=1。通过反向传播优化映射θAli的参数。由于姿势VAE和深度GAN都能够学习低维表示（我们的zx和zy分别都是23维），我们能够通过很少的标记(x,y)对来拟合对齐并生成逼真的样本。学习Ali(∙)之后，潜在姿势空间中的任何点都可以投影到手势姿势（通过姿势VAE）或对应的深度图（通过深度图GAN）。因此，我们可以将这两个潜在空间视为一个共享的潜在姿势。复合函数Gen(Ali(∙))充当深度潜在空间的新生成器。由于我们对zy施加了高斯先验N(0,I)，理想情况下，从标准正态分布中随机采样的任何噪声都可以映射到手势姿势或对应的深度图。注意，Ali(∙)隐式地学习从正态分布(zy)到均匀分布(zx)的映射。04.3. 学习共享潜在变量的后验0我们可以使用三种类型的数据来学习潜在后验：标记样本(Xl, Yl)，从随机噪声生成的合成样本(Zr, ¯Xr =Gen(Ali(Zr)))和无标签深度图Xu。在本节中，我们重载我们的符号，并使用大写字母来表示N列的小批量数据矩阵，其中每个列向量是一个样本。对于任何给定的矩阵A，我们使用∥A∥�表示每个列向量的欧几里德范数之和，即∥A∥� =�nj=1(�mi=1|aij|2)12。虽然理论上仅使用(Xl,Yl)对就足以学习后验，但这样无法充分利用深度GAN学到的先验知识。为了使后验估计也能从合成和无标签样本中受益，并增加泛化能力，我们添加了另外两个任务，即平滑任务和GAN任务。0消歧任务。所有三个任务共享前几个卷积层，将合成和无标签样本作为输入，以利用深度GAN的优势。为了鼓励生成器合成更准确和逼真的样本，复合生成函数Gen(Ali(∙))的参数θAli和θGen与上述多任务一起更新。为简单起见，我们使用generator来表示Gen(Ali(∙))的复合函数，它以来自共享潜在空间的噪声作为输入并生成深度图。我们使用discriminator来表示整个多任务学习，以深度图作为输入。在每次迭代中，生成器和鉴别器都会联合更新。鉴别器使用标记的、无标签的和合成的样本进行更新；同时，生成器通过鉴别器的反向传播梯度进行更新。联合更新确保生成器为鉴别器逐渐合成更逼真的样本。我们将联合生成器和鉴别器的损失定义为0其中 L G 表示生成器损失，L D表示判别器损失。平滑任务。为了鼓励潜在空间的平滑性，我们为生成器和判别器定义了一个 L smo。给定两个深度图x1，x2及其对应的潜在变量 z1，z2，平滑性 smo(x1，x2)任务将 x1 和 x2 作为输入，并估计相应的潜在变量差异 z1- z2。然后将估计的差异与实际差异进行比较。为了使 Lsmo 对判别器和生成器都进行正则化，我们用随机噪声 zr和相应的合成图像 ¯xr替换了其中一个潜在观察对，如公式9中的 d comb所示。同时，我们希望标记样本的投影zl合成的图像尽可能接近原始图像，因此我们添加了项 dself，得到以下平滑损失：0这里，Xl是一组标记的深度图，Zl =Enc(Yl)是它们对应的潜在变量，¯Xl =Gen(Ali(Zl))是通过生成器重构的深度图。¯Xl还与深度图¯Xr=Gen(Ali(Zr))进行比较，后者是从潜在空间中的一组随机噪声向量Zr合成的。在实践中，smo(∙，∙)操作被实现为如图2所示的连体网络。Lpos = 1N ∥pos(Xl) − Zl∥2∗,(11)66850GAN任务。虽然区分真实样本和合成样本与后验估计没有直接关联，但在几个先前的工作中已经表明[50, 22, 18,25]，具有这样的损失函数可以鼓励判别器的隐藏激活学习，正如其名称所暗示的那样，具有固有的判别特征而无需额外的监督。因此，我们添加了以下GAN损失项。0N ∥ log( Dis ( X )) + log(1 − Dis ( Gen ( Z ))) ∥ 2 � ,(10) 其中 X = X l ∪ X u 是标记和未标记深度图的并集，Z= Z l ∪ Z r是从标记样本的潜在变量和从先验分布中随机采样的潜在变量合成的深度图的并集。后验任务。给定一个输入深度图，我们为共享的潜在变量后验概率制定了一个损失函数。0其中pos(X)将训练集的深度图X映射到相应的共享潜在变量向量Z。Zl是潜在空间中的目标位置集合，由VAE获得。多任务训练。我们将这三个损失函数加法地组合成一个单一的损失函数，使用相等的权重。在每次训练迭代中，生成器和判别器网络参数都会更新一次。算法1展示了详细的训练过程。0算法1 通过多任务学习训练后验概率0θ Ali，θ Gen，θ Dis ← 通过预训练初始化θ smo，θ pos ←随机初始化1：θ G := θ Ali ∪ θ Gen 2：θ D := θ smo ∪ θpos ∪ θ Dis 3：对于训练轮数 do 4：Xl，Yl ←随机小批量标记对 5：Xu ← 随机小批量未标记深度图 6：Zr ←从p(z)中随机采样的噪声 7：Zl，¯Xl，¯Xr ←Enc(Xl)，Gen(Ali(Zl))，Gen(Ali(Zr)) 8：X1，X2，Z1，Z2 ←随机等分X和Z 9：X，Z ← Xl ∪ Xu，Zl ∪ Zr 10：d comb := 1N ∥ smo(¯Xr，Xl) − (Zr − Zl) ∥ 2 � 11：d self := 1 N ∥smo(¯Xl，Xl) ∥ 2 � 12：L smo ← d comb + d self 13：Lrecons ← ∥ max(∥Xl − ¯X∥，τ) ∥ 2 � 14：L pos ← ∥ pos(Xl)− Zl ∥ 2 � 15：L gan ← 1 N ∥ log(Dis(X)) + log(1 −Dis(Gen(Z))) ∥ 2 � 16：θ D ← θ D − �θ D (L pos + L smo − Lgan) 17：θ G ← θ G − �θ G (L recons + L smo + L gan)18：end for04.4. 实现细节0判别器网络的前2个卷积层由三个任务（平滑任务、GAN任务和后验估计）共享0任务和后验估计）。为了稳定训练，我们在每个隐藏层上使用批归一化。我们不是从先验分布中采样噪声，而是使用带有随机权重的标记潜在变量的凸组合生成随机噪声。我们使用Adam[12]方法更新网络参数。为了使生成器和判别器更加稳健，在训练期间，在VAE编码器Enc(∙)之后注入了标准差为0.05的随机高斯噪声到潜在变量中。我们将学习率设置为0.001，并对完整网络进行100个周期的训练。在一块NvidiaTITAN XGPU上，训练大约需要10小时，样本数量约为70k。05. 实验0我们在3个公开可用的数据集上进行了实验。由于每个数据集都有自己的挑战，我们在表1中简要总结了它们的特点。NYU非常嘈杂，姿势范围广，具有连续运动，而MSRA仅限于17个手势，但视角变化很多。ICVL的训练和测试之间存在较大差异；测试序列具有快速而突然的手指运动，而训练序列具有连续的手掌运动和少量手指运动。虽然我们在NYU上估计了所有36个标注关节，但我们只评估了14个关节，与[46, 20,21]中的方法进行公平比较。我们使用两个指标对我们的方法进行定量评估：所有关节和所有帧的平均关节误差（以毫米为单位），以及所有关节都低于某个阈值的帧的百分比[43]。定性结果在图5中显示了估计结果，图1显示了神经网络生成的图像。我们鼓励读者观看补充视频以更详细地了解定性结果。网络使用Theano包[44]实现；在Intel 3.40 GHzi7机器上，平均运行时间为每张图像11毫秒（90.9帧/秒）。05.1. 半监督学习0为了探索我们的方法在半监督设置中的性能，我们从训练集中均匀采样 m %的帧作为标记数据，使用剩余的帧作为未标记数据。然后，我们将 m从2%变化到100%，并评估所有关节和所有帧的平均关节误差。我们与两种基线后验估计方法进行比较：一种是从头开始训练的网络（使用随机初始化的参数），另一种是网络，其中0数据集深度传感器训练/测试噪声0NYU [46] PrimeSense 72.7k / 8.2k 高0MSRA [36] Intel RealSense 76.5k，9个用户/留一用户外低0ICVL [39] Intel RealSense 20k (160k) / 1.6k 低0表1. 手部姿势估计基准。Percentage of frames used from training set2%5%10%25%50%75%100%Average distance error(mm)15.51616.51717.51818.51919.5Train from scratchGAN pretrainedOursPercentage of frames used from training set2%5%10%25%50%75%100%Average distance error(mm)12131415161718Train from scratchGAN pretrainedOursPercentage of frames used from training set2%5%10%25%50%75%100%Average distance error(mm)101112131415161718Train from scratchGAN pretrainedOurs01020304050607080Max Allowed distance to GT D(mm)0%10%20%30%40%50%60%70%80%90%100%Percentage of frames with all joints error within DOberweger et al.(feedback loop)Sinha et al.nn searchwt smoothnesswt ganours01020304050607080Max Allowed distance to GT D(mm)0%10%20%30%40%50%60%70%80%90%100%Percentage of frames with all joints error within DGe et. al.Sun et. al.nn searchwt smoothnesswt ganours01020304050607080Max Allowed distance to GT D(mm)0%10%20%30%40%50%60%70%80%90%100%Percentage of frames with all joints error within DOberweger et al.(deepPrior)Oberweger et al.(refinement)nn searchwt smoothnesswt ganours76860(a) 在NYU上进行比较 (b) 在MSRA上进行比较 (c) 在ICVL上进行比较0图3. 半监督学习。当使用训练集中 m % 的帧作为标记数据，并丢弃其他图像的标签时，我们的方法与两种基线方法进行比较。0(a) 在NYU上进行比较 (b) 在MSRA上进行比较 (c) 在ICVL上进行比较0图4. 我们的方法与最先进方法的比较。我们将我们的方法与三个具有挑战性的数据集上的先前方法进行比较。0图5. 手部姿势定性估计结果。左：NYU[46]，中：MSRA[36]，右：ICVL[39]。对于每个样本三元组，左侧是真实值，中间是重建的深度图和共享潜在空间的姿势，右侧是估计结果。86870前两个卷积层的参数来自在整个训练集上预训练的GAN。不出所料，当 m =2%时，GAN预训练基线和我们的半监督设置都比从头开始训练取得更好的结果。这验证了我们的深度GAN在无监督方式下学习良好表示的有效性。然而，当 m ≥ 5%时，GAN预训练方法并没有比从头开始训练取得更好的结果。更令人意外的发现是，使用更多的训练样本并没有导致平均关节误差在两个基线上单调下降。我们将这归因于两个原因。首先，标记帧是均匀采样的。由于在所有三个数据集中都存在缓慢连续的运动，帧之间存在很高的相关性；5%的采样可能已经涵盖了大部分不同的手势姿势，更多的样本并没有添加更多的信息。其次，由于我们基于训练时的训练周期进行评估，拥有更多的训练样本实际上会导致更多的梯度更新，并可能导致网络过拟合。然而，我们的方法始终优于这两个基线，表明使用合成和未标记样本确实有助于网络的泛化和防止过拟合。05.2. 多任务学习的贡献0与第5.1节中描述的基准方法相比，我们的多任务学习在半监督和全监督设置下都优于直接后验估计。为了详细研究每个能量项的独立贡献，我们引入了两个额外的基准方法：一个没有平滑损失Lsmo，另一个没有GAN损失Lgan。结果（在图4中表示为实线）表明，我们的多任务方法始终优于这两个基准方法，验证了Lsmo和Lgan项的有效性。05.3. 与最新技术的比较0我们将我们的方法的准确性与6种先前的最新技术方法进行了比较。总体而言，我们的结果表明，我们的方法与竞争方法相当，甚至超过它们。与分层方法[36, 20,9]相比，我们的结果在低误差阈值下稍微差一些。这表明了一个普遍的模式：将手部作为一个整体估计的整体方法往往更加鲁棒，但在估计手指姿势方面不太准确。另一方面，分层方法在估计手指姿势时是在估计手掌姿势的条件下进行的，因此更准确，但对于嘈杂的手掌姿势估计也更敏感。与此同时，受[28,37]的启发，我们还与基于最近邻搜索的基准方法进行了比较（在图4中表示为nn-search），其中使用PCA将输入深度图降维为512维特征。0在MSRA上，我们使用最近邻搜索方法进行比较。由于训练样本和测试样本相似，最近邻搜索方法在MSRA上表现良好，在NYU和ICVL上也是如此。0在NYU上，我们与Sinha等人[32]和Oberweger等人（反馈循环）[21]进行了比较。如图4（a）所示，我们在[32,21]上取得了很大的优势。0在MSRA上，我们与Ge等人[9]和Sun等人[36]进行了比较。由于我们的方法是整体的，所以在10-30mm的误差阈值上，它的准确性不如[9,36]的分层方法。然而，当误差阈值大于35mm时，我们的方法优于这两种方法，这归功于我们的方法对大视角变化更加鲁棒。0在ICVL上，我们与Oberweger等人[20]的两个变种（deepPrior）和（re�nement）进行了比较。当误差阈值≥20mm时，我们在（deepPrior）上取得了很大的优势。与更复杂的（re�nement）变种相比，该变种通过级联网络对每个关节的估计进行了改进，当误差阈值≥30mm时，我们的方法比它好2%。06. 结论0在本文中，我们提出了一种通过估计深度图和手部姿势参数的共享潜在空间的后验概率来进行手部姿势估计的方法。我们将问题形式化为一个跨越两个深度生成网络的网络架构上的多任务学习问题：一个用于手部姿势的变分自动编码器（VAE）和一个用于建模深度图分布的生成对抗网络（GAN）。通过学习两个潜在空间之间的映射，我们可以端到端地训练完整的网络。在我们的实验中，我们证明了这有许多优点：我们可以利用GAN的泛化特性以及VAE隐式学习的姿势约束来改进判别性姿势估计。此外，我们的架构自然地允许从无标签数据中学习，这对于手部姿势估计问题非常有价值，因为标注的训练数据是稀缺的。因此，我们的方法将GAN的半监督设置扩展到进行实值结构化预测。我们在3个公开可用的数据集上评估了我们的方法，并证明了我们的方法始终在先前的最新技术方法上取得更好的性能。由于鉴别器网络的设计非常高效，我们的方法能够在CPU上实时运行。0致谢作者们非常感谢armasuisse、KTI项目与Faswhell和中国国家留学基金委员会的支持。[20] M. Oberweger, P. Wohlhart, and V. Lepetit.Hands deepin deep learning for hand pose estimation. arXiv preprintarXiv:1502.06807, 2015.[21] M. Oberweger, P. Wohlhart, and V. Lepetit. Training a feed-back loop for hand pose estimation. In ICCV, 2015.[22] A. Odena. Semi-Supervised learning with generative adver-sarial networks. arXiv preprint arXiv:1606.01583, 2016.[23] I. Oikonomidis, N. Kyriazis, and A. A. Argyros. Efﬁcientmodel-based 3d tracking of hand articulations using kinect.In BMVC, 2011.[24] C. Qian, Q. Chen, S. Xiao, W. Yichen, T. Xiaoou, and S. Jian.Realtime and robust hand tracking from depth. In CVPR,2014.[25] A. Radford, L. Metz, and S. Chintala. Unsupervised repre-sentation learning with deep convolutional generative adver-sarial networks. arXiv preprint arXiv:1511.06434, 2015.[26] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, andH. Lee. Generative adversarial text to image synthesis. arXivpreprint arXiv:1605.05396, 2016.[27] D. J. Rezende, S. Eslami, S. Mohamed, P. Battaglia,M. Jaderberg, and N. Heess. Unsupervised learning of 3dstructure from images.arXiv preprint arXiv:1607.00662,2016.[28] G. Rogez, J. S. Supancic, and D. Ramanan. Understandingeveryday hands in action from RGB-D images. In ICC

下载后可阅读完整内容，剩余1页未读，立即下载