生成预测三维人体运动的长期身体姿势和绝对位置的生成对抗网络

169 浏览量更新于2023-10-13 收藏 827KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于时空修复A. HernandezRuiz Gall 2 F. 莫雷诺-诺格尔1号1Institut de Robo` tica i Inform` tica Industrial，CSIC-UPC，Barcelona，Spain2德国波恩大学计算机视觉研究组摘要我们提出了一个生成对抗网络（GAN）预测三维人体运动给定的序列过去的三维骨架构成。虽然最近的GAN已经显示出令人鼓舞的结果，但它们只能在相对较短的时间内（几百毫秒）预测合理的运动，并且通常忽略骨架的绝对位置w.r.t.镜头我们的计划提供了长期的预测（两秒或更长时间）的身体姿势和绝对位置。我们的方法基于三个主要贡献。首先，我们使用3D骨架坐标的时空张量来表示数据，这允许将预测问题制定为修复问题，GAN对此工作得特别好。其次，我们设计了一个架构来学习身体姿势和全局运动的联合分布最后，我们认为，L2度量，认为到目前为止，大多数方法，未能捕捉到长期的人体运动的实际分布。我们提出了两个替代的度量，基于频率的分布，能够捕捉更现实的运动模式。大量的实验表明，我们的方法，以显着提高最先进的，同时也处理的情况下，过去的观察被破坏的遮挡，噪声和丢失的帧。1. 介绍运动捕捉技术的最新进展与大规模数据集（如Human3.6M [16]）相结合，激发了人们对能够从过去的骨架数据预测3D人体运动的新深度学习算法的兴趣。现有技术的方法将问题表述为序列生成任务，并使用递归神经网络（RNN）[8，17]、序列到序列模型[24]或编码器-解码器预测器[5，11]来解决它。虽然有希望的结果，这些作品遭受三个基本的限制。首先，他们解决了一个简化版本的问题，其中全球身体定位被忽视，无论是通过参数化3D身体关节使用位置ag-生成的地面实况图1. 示例结果。我们的方法是第一次在生成全身姿势，包括骨骼运动和空间中的绝对位置预测序列从用黑色标记的骨架开始。请注意，生成的运动有些不同，但在语义上与地面实况无法区分。nostic角[8，17，24]或身体中心坐标[5]。其次，目前的方法需要在训练和推理过程中对动作标签进行额外的监督，这限制了它们的泛化能力。第三，大多数方法旨在最小化地面实况和生成的运动之间的L2距离。然而，已知L2距离是不准确的度量，特别是对于比较长运动序列。特别地，使用该度量来训练深度网络有利于收敛到静态平均姿态的运动预测尽管这个问题已经在[11，17]中提出，并且在使用其他指标（例如，虽然L2距离与测地线损失（geodesic loss）不同，但是L2距离在对不同方法进行基准测试时仍被用作常见实践。据我们所知，这种做法损害了这一领域的进展。在本文中，我们解决所有这三个问题。具体而言，我们设计了一种新的GAN架构，该架构以过去的观察为条件，并且能够联合预测非刚体姿态及其在空间中的绝对位置。为此，我们使用时空张量表示观察到的骨架姿态（在相机参考系中表示），并将预测问题制定为修复任务，其中时空体积的一部分需要71347135要回归。GAN架构由一个专门设计用于保持时间相干性的完全卷积生成器和三个独立的鉴别器组成，这些鉴别器强制执行生成的骨架及其运动的拟人化，使得可以呈现高度逼真的长期预测（2秒或更长时间）。有趣的是，L2损失仅在重建的过去观察上强制执行，而不是在假设的未来预测上强制执行这样，未来帧的生成完全由鉴别器控制。事实上，我们的模型不需要地面实况注释所生成的帧，也没有明确的信息正在执行的动作。我们还介绍了一种新的度量方法，用于估计生成的序列和地面真值序列之间的相似性。我们提出的度量旨在估计人体运动流形上分布之间的相似性，而不是寻求获得所有帧上所有关节的完美匹配（如使用L2距离时所做的）在实验部分中，我们表明，我们的方法，除了产生全身姿势，方向和位置，也是强大的挑战性的文物，包括丢失的帧和闭塞的关节在过去的骨骼观察。图1显示了我们的方法的示例结果。2. 相关工作深度学习用于运动预测。最新的深度学习方法建立在[31]提出的问题公式基础上，其中输入运动序列由运动树中的3D身体关节角度表示。受其在机器翻译问题[6，18，30]中的成功启发，RNN随后被用于预测身体关节角度的运动序列。例如，Fragkiadakiet al. [8]为此目的，引入与长短期存储器（LSTM）组合的编码器-循环解码器（ERD）Jain等人[17]引入了结构RNN，这是一种利用人类身体部位的结构层次的方法。Martinez等人[24]开发一种具有残余连接的序列到序列架构，该残余连接通过独热向量并入动作类信息。虽然这些方法非常适合于它们被训练的特定运动，但这些方法不能推广到其他动作。更重要的是，这些模型仅在短期和中期时间范围内有效预测，并且通常被简单的零速度基线模型超越。这部分是由于使用L2度量进行训练和评估。最近的方法有不同的策略来解决这个问题。Li等[22]提出了一种自回归CNN生成器模型，并将L2损失与adversarial损失相结合。Gui等人[11]完全消除训练时的L2损失然而，这些作品仍然是--根据L2度量的形式评估，其不能捕获运动的语义，特别是对于长期预测。此外，由于运动是根据关节角度参数化的，因此不估计身体在空间中的旋转和平移。序列补全与图像修复。传统上，使用低秩矩阵分解[1，32]来完成序列内的缺失数据。深度学习方法也已用于此目的，通过RNN [21，23]。然而，这些作品并不是为了预测未来而设计的。图像修复是一个非常相关的问题。在深度学习时代，去噪AE [3]和变分AE [20]已经成为去噪和完成缺失数据和图像修复的流行框架但是，这些基线无法处理结构化数据的大量缺失部分最先进的技术已经被以部分或损坏的图像为条件的GAN大大推动正如我们将看到的，我们的方法从这个想法中得到了启发用于评估人体运动预测。事实上，L2是不合适的测量之间的人类运动序列的相似性，最近已经讨论和解决在不同的作品。Coskun等人[7]使用深度度量学习和对比损失来直接从数据中学习这可以说是从语义上比较运动序列的最佳方式。然而，这种方法的问题在于，一旦训练了度量，就很难应用于不同的模型，因为度量是用特定的设置训练的。不需要训练的序列的替代方案将是使用基于频率的度量。在[10]中，提出了基于功率谱的度量。该度量显示了有趣的特性，并且似乎适合于将动作与诸如步行的周期性运动进行比较。这种方法的主要缺点是，它比较序列的序列，这在我们看来是不可取的。相反，我们想比较序列的分布。对于图像生成，最近的工作提出基于所生成的数据的分布的特性来测量模型的适应度。Inception Score[29]测量了初始网络在生成的图像上的标签输出的熵。Frechet Inception Distance [14]（FID）建议将两个多变量高斯拟合到初始网络的激活，分别是真实样本和生成样本然后通过测量高斯模型之间的距离来获得FID在这些工作之后，我们提出了新的度量的基础上所生成的样本的频率分布。这些度量具有易于实现和复制的优点，并且它们通过考虑序列的分布来测量模型的一般适应性。7136联系我们联系我们e联系我们图2.我们的架构概览。3D关节坐标的输入掩蔽序列被馈送到完全卷积和时间保持生成器中。的输出序列是由一些几何约束，包括损失的发电机输出和对抗性损失的三个独立的鉴别器控制。3. 问题公式化我们用一个J-关节骨架来表示人体姿态，其中每个关节由其在相机参考系中表示的3D笛卡尔坐标旋转和平移变换固有地编码在这样的坐标中。运动序列是F个骨架的串联，其我们将表示为张量S∈RF×J×3。让我们将遮挡掩模定义为二进制矩阵M∈BF×J×3，它确定了序列中未观察到的部分，通过执行逐元素点积SMSm应用到序列上。然后，我们的目标是估计掩蔽关节的3D坐标。注意，根据用于生成遮挡掩模M的图案，我们可以定义不同的子问题。比如说，面具--通过序列的最后帧，我们可以表示预测问题;相反，如果我们掩蔽特定的中间关节，则我们表示随机关节遮挡、结构化遮挡或丢失帧。我们的模型可以解决这些子问题的任何组合。4. 模型4.1. STMI GAN架构图2示出了我们提出的GAN的概述，其中我们将人体运动预测问题作为时空域中的修复任务。我们将我们的网络表示为STMI-GAN（Spatio-Temporal MotionIn-painting GAN）。接下来我们描述它的主要组成部分。生成器.设计的基本原理在于卷积GAN在图像修复问题中取得了成功，这与我们的相似。然而，掩蔽的人体运动序列Sm不能由卷积网络直接处理，因为与时间（F）和笛卡尔坐标维度相比，对应于关节（J）的维度不具有空间意义。也就是说，沿此维度的相邻关节不对应于3D中的相邻关节空间1.为了缓解这种缺乏空间连续性的问题，发生器被放置在帧自动编码器之间，即帧编码器Φe和帧解码器Φd，它们是对称网络。帧编码器在J维上操作并且投影每个帧将序列的RJ×3映射到一维向量S=Φe（Sm）∈RH×1，其中H是用于姿态嵌入2的空间的维数。为了投影每一帧，en-编码器不使用来自相邻帧的信息，因此是时不变的。我们将编码序列表示为Se∈ RF×H×1。图3. 运动嵌入H3.6M数据集的运动序列通过帧编码器。该序列从一半向前被包括，具有运动预测的目标。正如我们在图3中可以观察到的，帧编码器学习在任意空间中将序列表示为2D矩阵虽然学习空间没有明确的解释，但我们可以从样本中观察到，它保留了某些特性，例如时间顺序，以及被遮挡帧的恒定该编码序列是然后通过一系列生成块Φg，在嵌入空间中生成一个新的序列Sg∈RF×H×1生成器的块是处理时间和空间维度上的序列。更多详情见第6节。最后，解码器网络Φd将变换后的序列Sg映射回原始形状的输出序列Sout∈RF×J×3。鉴别器。为了捕捉人体运动分布的复杂性，我们将运动矢量分成三个例如，关节#0通常是髋关节，其在身体图中的邻居是关节#1（左髋关节）、#5（右髋关节）和#9（脊柱）。表示沿着第一轴的S的第i个元素7137γ分支，捕获所生成的序列的不同方面。每个鉴别器是用作特征提取器的残差CNN分类器。这些特征被线性组合以获得序列为真实的概率。接下来，我们描述我们的模型的主要模块。底层架构的详细信息将在后面的Sect. 六、碱基鉴别器。具有独立参数的帧编码器Φ e的相同架构用于处理所生成的序列S输出。重复使用此类肢体距离丢失。[13]表明可以仅从肢体之间的相对距离来识别最常见的动作，即，手、脚和头。因此，我们添加了一个损失，明确地强制这些语义上重要的关节之间的正确距离。由于这种损失着眼于相对距离，而不是绝对位置，因此它为重建损失，并鼓励网络学习肢体的更精确的位置。形式上，如果我们用E ={i，j}表示肢体对的集合，则损失L肢体被计算为：架构的一个重要方面是，我们希望将鉴别器直接应用于CNN使用的非欧几里得表示ΣFΣ ǁǁSm -Sm 2−块的发电机，以提高其性能。EDM鉴别器。我们引入了一个几何描述-f=1{i，j}∈Efi：fj：fi：fj：通过分析生成的序列Sout的欧氏距离矩阵来评估其拟人性的算子，计算为EDM（Sout）≡D∈RJ×J，其中Dij是关节i和S的j输出。这是一个旋转和平移不变的表示[13，26]，允许将注意力集中到骨架的形状上。运动鉴别器。基础鉴别器将序列视为空间中关节的绝对坐标，以及其中Sm，out=Sout〇M，再次表示该损失仅在原始序列的可见部分上计算骨长度损失。我们还强制执行恒定的骨长度的整个生成的序列。它的主要目标是使生成器失去勇气，以探索在骨架未良好形成的情况下的解决方案如果我们用B={11，. . .，1B}B身体骨骼的平均长度计算在可见部分，并且通过Bf={lfl，. . . ，IfB}在帧f处的骨骼的长度，该损失被计算为EDM鉴别器将它们视为相对坐标w.r.t其他关节。但是这些鉴别器不见了ΣFL骨=ΣBlb−lfb绝对运动和它们相对的（铰接的）对应物。因此，我们考虑第三鉴别器，其在两者的级联上操作，绝对坐标的时间差Sout（t−1）1和EDM的时间差表示语句EDM（Sout（t））−EDM（Sout（t−1））1，其中S_out（t）指示在时间t生成序列。4.2. 损失为了训练我们的网络，我们使用两个主要的损失：1）重建损失，其鼓励发电机预-f=1b=1正规化的对抗性损失我们的对抗性损失是基于原始的GAN损失[9]，其中R1正则化在[25]中描述。设Gθ为生成器网络，参数为θ，Dψ为鉴别器网络，参数为ψ，P为输入运动序列的分布。然后我们可以将鉴别器损失写为：LD=ESoutPo[log（1−Dψ（Gθ（S◦M）]（4）提供来自序列的可见部分的信息;2)GAN损失，其引导生成器对+ES Po [log（Dψ（x））]+E2S PoΣǁ∇Dψ2Σ（x）通过学习和再现数据集中的运动来生成序列。对于所有以下公式，令S为输入运动序列，M为遮挡掩模，S为生成的序列，F为帧数，J为关节数。重建损失。我们的默认重建损失计算生成的序列w.r.t.上的L2范数。地面实况的可见部分。Lrec=（Sout◦M）−（S◦M）2（1）这种损失只适用于原始序列和生成序列的可见部分通过这样做，我们惩罚来自序列的可见部分的偏差，同时避免惩罚序列的不同可能完成。发电机损失如下：LG（θ，ψ）=ESoutPo[log（Dψ（Gθ（S◦M）]（5）全赔。全损耗L由所有先前部分损耗的线性组合组成：L=λrLrec+λlLlimb+λbLbone+λDLD+λGLG（6）其中λr、λl、λb、λD和λG是控制每个损失项的相对重要性最后，我们可以定义如下的minimax问题：G=arg min maxL，（7）G D∈D7138其中G从数据分布中抽取样本。7139帧编码器生成器U块残差CNN图4. 体系结构的详细信息。从左到右：帧编码器;生成器U块;残差CNN。在每种情况下，我们绘制了块体的总体视图（左）和结构元素的细节（右）。注意函数定义为：att（x，π，τ）=πτ+x（1−τ）。Conv2DTr表示卷积2D转置，也称为去卷积。5. 用于运动预测的度量然后，我们的目标是分析由我们的模型生成的分布，为此，我们提出了类似于Inception Score [29]和Frechet Inception Distance [14] 的指标。考虑到这一点，我们提出以下方法：PSEnt测量数据集功率谱中的熵。这个度量可以给我们一个粗略的估计模型的拟合度。首先，我们独立地计算每个关节和轴的数据集的功率谱。每个关节轴组合被认为是序列的不同特征。形式上，特征的功率谱计算为：PS（sf）=FFT（sf）2。然后我们可以计算计算两个方向PSKL（GT，Gen）和PSKL（Gen，GT）以具有散度的完整图像。如果两个方向大致相等，则意味着数据集不同但同样复杂。另一方面，如果差异相当大，则意味着其中一个数据集具有偏置分布。基于L2的度量。我们还测量了地面真值序列sgt和生成的序列sgen之间的距离，将每个关节（j）视为独立的特征向量。1ΣJL2（sgt，sgen）=J sgt−sgen2（10）f=1数据集上的功率谱熵：在[8，24]中，以欧拉角表示，但在我们的工作PSEnt（D）=1Σ1ΣF−S Ff=1ΣEe=1s是坐标，使其以毫米为单位可读。的PS（sf）（八）其中，D是数据集，s是序列，f是特征，e是频率。用L2损失训练的生成模型的一个共同特征是它们具有回归到平均值的趋势，从而降低生成序列的熵。低于预期的熵值是有偏模型的指示信号，而较高的熵值指向相当嘈杂并且可能不准确或不稳定的模型。PSKL测量地面实况和生成的数据集之间的距离（根据KL发散度）：6. 实现细节接下来，我们描述我们的架构的块。代码可在：Framehttps://github.com/magnux/MotionGANAutoencoder. 帧编码器（Fig. 4-左）是具有相同顺序块的全连接网络。每个块包含两个连续的完全连接的层，并且在最后有一个注意力机制[2]。完全连接的层也可以被看作是沿着时间维度具有内核大小1的1D卷积。通过在块的输出上应用掩码来执行注意掩码是块的输入的线性变换过了几个街区，决赛PSKL（C，D）=ΣEe=1PS（C）（D）应用线性变换和注意。该架构类似于VAE [20]，但在编码器的输出上没有解码器网-其中C和D是数据集，s是序列，f是特征，e是频率。KL散度是不对称的，所以我们工作是编码器的对称网络，具有相同数量的块和层，但是独立的参数。7140发生器U形块。生成器的目标是产生一个输出，应该是从一个未屏蔽的输入无法区分为了实现这一点，我们使用U形块[28]（见图1）。4-中心），其中卷积将每一层中的输入的空间分辨率减半，直到其达到小的然后使用转置卷积将分辨率加倍，直到再次达到与输入相同的维度该架构中的关键组件是将卷积层的输出连接到去卷积层的输入我们可以将此架构视为迭代细化，其中一个块的输出被下一个块细化以产生更好的最终输出。在[19]之后，我们还将噪声注入层纳入我们的卷积块中，这使得模型预测具有非确定性并丰富了它。残差CNN。我们设计了我们的识别器的架构，灵感来自ResNet [12]和DenseNet [15]。我们的网络（Fig. 2）在三个鉴别器中分支，并且每个鉴别器具有分类器，其具有相同的架构但具有单独的参数。他们的建筑（图）4-右）由具有两个卷积层和附加残差连接的几个连续块组成，类似于ResNet。每个块的输出也被变换，然后连接成张量。最终输出是所有块的输出的关联。这个输出最终被传递到一个完全连接的网络上，该网络分配一个分数。空间对齐。由于我们在绝对坐标系上工作，因此序列具有宽范围的值（从mm到m）。为了提高生成器的鲁棒性，我们将第一帧中髋关节的位置然后旋转骨架，使其始终面向同一方向。对齐由网络中的自定义层在帧编码器之前执行，并且在帧解码器之后被反转7. 实验数据集。在实验部分，我们主要使用Human3.6M [16]数据集。我们遵循[8，24]中使用的相同分裂。模型PSEntPSKL（GT，Gen）PSKL（Gen，GT）0到1秒Org.Data. (Val vsTrain）0.679900.005900.00572Res.sup. [24日] 0.374920.032930.04524NoGAN 0.443630.037290.05040基盘 0.736260.011980.01149+EDM光盘 0.570450.018010.02131+运动盘 0.726170.012200.01141STMI-GAN 0.680990.010900.011251至2秒Org.Data. (Val vsTrain）0.677490.006280.00611Res.sup. [24日] 0.209750.101880.17004NoGAN 0.279690.079890.13743基盘 0.604500.015590.01766+EDM光盘 0.491980.025460.03315+运动盘 0.729630.012230.01129STMI-GAN 0.683280.010410.010102到3秒Org.Data. (Val vsTrain）0.673910.006400.00620Res.sup. [24日] 0.127520.174020.33566NoGAN 0.347170.060990.09562基盘 0.608040.013960.01611+EDM光盘 0.456270.033680.04596+运动盘 0.723680.013120.01201STMI-GAN 0.717780.013060.012133至4秒Org.Data. (Val vsTrain）0.678910.005900.00566Res.sup. [24日] 0.093330.186920.37605NoGAN 0.267500.086720.15567基盘 0.502240.026460.03460+EDM光盘 0.416530.045160.06541+运动盘 0.761110.014360.01275STMI-GAN 0.709850.011080.010240到4秒Org.Data. (Val vsTrain）1.653730.012250.01227Res.sup. [24日] 0.857320.133200.15644NoGAN 1.074680.102450.12508基盘 1.582700.021970.02274+EDM光盘 1.229010.084160.09894+运动盘 1.778060.024340.02270STMI-GAN 1.691470.018880.01801表1. 消融研究。功率谱为基础的指标，我们的模型的不同配置。生成器网络，但是用不同的鉴别器网络训练它正如我们在前面的部分中所讨论的，我们的目标是捕获地面实况（GT）数据的分布，架构中的每个组件都是为此目的而设计的。我们的假设是，对抗性损失比L2和几何损失更好地训练生成网络。更重要的是，我们认为，鉴别网络的复杂性应该与生成的序列中的更好的结果相关。7.1. 运动预测在本节中，我们将我们的方法与[24]进行比较，[24]是最先进的基线作品之一。在这项工作中，我们使用了残差监督模型，这是一个带有残差连接的序列到序列模型，并使用标签作为输入的一部分。由于我们的模型是基于笛卡尔坐标，我们计算关节角度表示等效于由残差监督（Res.sup.）[24]模型这种转换使我们能够在两者之间进行一致的比较。我们接下来进行消融研究，始终使用相同的我们测试的型号有：NoGAN：生成器网络在整个序列上用重建损失训练，并且没有对抗损失。基本盘：是相同的网络，但是使用编码器鉴别器作为生成部分的损耗。+EDM光盘：网络使用基础和EDM鉴别器进行训练。+运动盘：使用基本和运动识别器来训练网络。STMI-GAN：是完整的网络，使用所有联合鉴别器进行训练每个鉴别器似乎都在向生成的分布添加信息。我们可以定性地观察到这一点，我们可以用提出的指标来证实这一点。7141熵分析和KL距离分析。我们首先应该注意到，原始分布中的PSEnt在每一秒的窗口中几乎相同，大约为0。678这个数字表示均匀分布的熵，这意味着短期频率相当均匀。PSEnt上升到1。65，当我们考虑4秒的时间窗口时。这种升高意味着长期运动具有偏置的且更复杂的频率分布，其在频谱的一些部分中不均匀但更密集。我们可以在表1中观察到Res.sup. [24]而No-GAN基线的熵随着时间的流逝而衰减。我们还看到KL散度对于基线快速增长，并且比任何GAN模型都高一个数量级。GAN模型似乎都具有良好的行为，PSEnt值接近GT分布。基盘模型已经是稳定的，但是在序列的末尾有一些熵的运动圆盘模型似乎相当稳定，但它总是超过熵。这可能被解释为模型在移动中过度模糊。EDM光盘模型乍一看似乎是有害的，因为它大大降低了PSENT，但添加此判别器的主要目的它是一个正则化器的设计。当我们在STMI-GAN模型中组合三个鉴别器时，网络接近预期分布。STMI-GAN在PSEnt和PSKL中都是稳定的其实，它有一个PSENT接近GT和一个低PSKL，意味着它不仅产生相同量的运动，而且产生相同种类的运动。我们应该注意到，当遵循标准协议时，Human3.6M数据集在验证和训练分割之间具有相当大的整个序列的验证和训练分割之间的PSKL约为0。012，几乎是对称的，并且STMI-GAN的生成分布和验证之间的PSKL在0. 018，也是对称的。这意味着GAN产生的分布几乎与训练集和验证集一样接近。L2度量实验。为了证明L2度量与现实生成不相关，我们使用[8，24]的120个测试序列的子集，具体地说是#8，#26，#27，#88。图5示出了我们的方法和Res.sup.[24]在这些序列上。注意，Res.sup.具有收敛到相同姿势的趋势（参见中心列中的红色骨架），这非常接近数据集中的平均姿势。还有一种倾向是产生非常小的运动（见底部中心帧的黑色和红色）。事实上，[24]表明零速度基线通常比他们的模型更好，特别是对于具有高度不确定性的课堂图5. H3.6示例蓝色是第一帧，黑色是第一预测帧，红色是最后预测帧。总长度为4秒，2种子+2预测。在图5中）。当如[24]中那样计算角度上的L2度量时，我们获得以下结果：L2 Res.sup. - （0.69，0.36，0.64，0.25）; L2STMI-GAN-（1.09，0.74，1.33，0.96）。尽管基线模型具有较低的L2，但序列我们的方法产生的似乎更加多样化和现实。这些效应源自用于训练每个模型的目标。基线模型旨在通过L2损失最小化空间距离在我们的工作中，我们试图重现人体运动的分布，我们使用GAN来实现这个目的。这些目标并不总是一致的，L2度量往往无法把握现实人体运动的复杂性噪声注入可能看起来噪声注入将导致网络输出的大差异，但实际上预测中的预期差异约为0。每个接头81mm。这意味着当使用相同的种子序列调用时，网络产生几乎相同的序列，只调整序列的小方面。该结果证实了[19]中报告的噪声的影响还有趣的是，注意到差异随着预测的长度而增加，这意味着注入的噪声确实解决了一定程度的不确定性，但是我们测量的预测4秒的最大差异是3。02mm/接头。定性评价。我们对15人和四个不同的调查进行了评估，所有调查都遵循相同的方案：一个预测模型与地面实况。在前两次调查中，我们测试了基线Res.sup.和STMI-GAN来执行相对运动预测。在我们的模型中，我们从预测中删除了翻译，使其具有最后两个调查评估绝对运动预测。我们使用我们的NoGAN模型作为基线与我们的STMI-GAN模型。在这些调查中，我们的目标是获得50%的机会被归类为真实的。7142图6. 示例结果。预测运动的三个示例（左：地面实况，右：预测）。蓝色是观察到的序列的一部分。预测在黑色骨架之后开始，并且对应于黄红色。问题线性整数LR-Kalman滤波器[4]NoGANSTMI-GAN关节闭合232.06329.2396.52108.99肢体闭合209.45312.40123.07189.09缺失帧50.42123.0572.67102.03噪声传输94.54308.9898.53110.29表2. 人体评价。人工评估者认为生成的序列是真实的次数的百分比。最小值是“最难”评估者的分数最大值是“最容易”的评估者的分数超过50%将意味着模型我们可以在Tab中观察到。2、结果具有广泛的价值。这是因为调查是发给不同的受众的。我们可以看到，基线的平均值范围与我们的模型相似，我们的然而，正如最小分数告诉我们的那样，基线对训练有素的眼睛表现得非常差值得注意的是，虽然相对运动预测与绝对运动预测相比是更容易的问题，但是我们的STMI-GAN的平均得分这表明相对运动生成对于机器学习模型和人类都更难。此外，调查中的最高得分是绝对预测中的STMI-GAN的最大值这意味着一些人对我们模型的结果非常信服。图6示出了三个示例。左边的序列很容易预测，只要继续从地板上捡起东西的动作。中间的序列有点难，因为很容易猜测这个人会继续走，但是这个人在走了几步后停了下来，这是出乎意料的。右边的序列是“正”，因为就在发生器开始预测之前，人停了下来。这使得难以预测的不确定性上升和许多选项是似是而非的。我们可以看到，发生器实际上猜测了动作（行走）和正确的方向，但运动的速度并不准确。然而，我们认为这是一个很好的猜测给定的输入。7.2. 闭塞完成最后，在表3中，我们报告了对不同类型遮挡的鲁棒性。在每次测试中，我们使用了80%的遮挡，即。我们试图恢复一个序列条件作用表3. 闭塞完成。我们测试不同类型的咬合，具体而言：关节闭塞：在每个帧中随机地遮挡关节。肢体闭塞：表示肢体的关节链在每个帧中被随机地遮挡。缺失帧：整个帧被随机地遮挡。丢失传输：任意维度中的数据点被随机地遮挡。该表报告了坐标上的L2度量（参见5）。只有20%的数据。生成器模型对结构化遮挡特别鲁棒，即使没有GAN，它也能产生良好的结果，我们假设这是因为它被训练成产生拟人猜测。当遮挡随机发生时，线性插值也是一种很好的方法，但根据遮挡的性质，我们可能需要一个更鲁棒的模型。8. 结论我们已经提出了一种新的GAN架构，从历史的3D骨架姿势预测3D人体运动。我们已经扩展了现有的工作，也预测（超过2秒）的绝对位置的身体。我们已经将我们的问题公式化为时空体积中的修复任务。为了捕捉人体运动的本质和语义，我们的网络的训练主要由三个独立的判别器指导。它们鼓励生成具有与原始数据集的频率分布相似的频率分布的运动序列。由于已知L2不足以比较生成的序列，因此我们还提出了估计数据集的频率分布的新度量，抓住了多个可能未来的概念。Human3.6M上的实验结果表明，我们的模型生成高度逼真的人体运动预测的有效性。致谢：这项工作部分得到了亚马逊研究奖和西班牙MiNeCo在项目HuMoUR TIN 2017 -90086-R和Mar 'ıade Maeztu卓越印章MDM-2016-0656下的支持。此外，还获得了德国研究共同体GA 1927/4-1和ERC启动赠款ARCA（677650）的资助。模型运动MinAvgMaxRes.sup [24]Rel.6.25%31.88% 40.63%STMI-GANRel.百分之二十五33.54% 40.63%NoGANABS.9.38%31.46% 62.50%STMI-GANABS.15.63% 38.39% 62.50%7143引用[1] Antonio Agudo和Francesc Moreno-Noguer。尘埃：用于单目多目标3d重建的时空子空间的双重联合。在IEEE计算机视觉和模式识别上，第1卷，第2页，2017年。[2] 安东尼奥·瓦莱里奥·米切利·巴隆。低秩直通神经网络。arXiv预印本arXiv：1603.03116，2016。[3] Yoshua Bengio，Li Yao，Guillaume Alain，and PascalVin-cent.作为生成模型的广义去噪自动编码器。神经信息处理系统进展，第899-907页，2013年[4] 伯克先生和琼·拉森比。使用低维卡尔曼平滑估计缺失标记位置生物力学杂志，49（9）：1854[5] JudithB u¨ tepage、HedvigKjellst ro¨ m和DanicaKragic。预测许多未来：人机交互的在线人体运动预测和生成。2018年IEEE机器人与自动化国际会议（ICRA），第1-9页。IEEE，2018年。[6] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[7] Huseyin Coskun、David Joseph Tan、Sailesh Conjeti、Nas-sir Navab和Federico Tombari。使用深度度量学习进行人体运动分析。arXiv预印本arXiv：1807.11176，2018。[8] 卡特琳娜·弗拉基亚达基，谢尔盖·莱文，潘纳·费尔森，和吉坦德拉·马利克.用于人体动力学的循环网络模型。IEEEInternational Conference on Computer Vision ，第4346-4354页[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[10] Anand Gopalakrishnan，Ankur Mali，Dan Kifer，C LeeGiles，and Alexander G Ororbia.一种用于人体运动预测的神经时间模型。arXiv预印本arXiv：1809.03036，2018。[11] Liang-Yan Gui，Yu-Xiong Wang，Xiaodan Liang，andJose 'MF Moura.对抗性几何感知人类运动预测。在欧洲计算机视觉会议上，第823-842页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770-778页[13] Alejandro Hernandez Ruiz ， Lorenzo Porzi ， SamuelRotaBul o`，andFrancescMoreno-Nogue r.基于距离矩阵的三维cnn2017年ACM多媒体会议，第1087-1095页。ACM，2017。[14] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。Gans由a训练两个时间尺度更新规则收敛到局部Nash平衡。神经信息处理系统进展，第6626-6637页，2017年[15] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议上，第1卷，第3页，2017年。[16] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的 3D 人体感知。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（7）：1325[17] Ashesh Jain ， Amir R Zamir ， Silvio Savarese ， andAshutosh Saxena.结构-rnn：时空图的深度学习。在IEEE计算机视觉和模式识别会议上，第5308-5317页[18] Andrej Karpathy，Justin Johnson和李飞飞。可视化和理解循环网络。arXiv预印本arXiv：1506.02078，2015。[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。[20] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[21] TarasKucheren k o，JonasBes kow，andHedvigKjellstr？m. 人体运动捕捉中缺失标记重建的神经网络方法。arXiv预印本arXiv：1803.02665，2018。[22] Chen Li，Zhen Zhang，Wee Sun Lee，and Gim Hee Lee.人体动力学的卷积序列到序列模型在IEEE计算机视觉和模式识别会议上，第5226-5234页[23] Utkarsh购物中心、G Roshan Lal、Siddhartha Chaudhuri和Parag Chaudhuri。一个用于清理运动捕捉数据的深度循环框架。arXiv预印本arXiv：1712.03380，2017。[24] Julieta Martinez，Michael J Black，and Javier Romero.利用递归神经网络进行人体运动预测在IEEE计算机视觉和模式识别会议上，第4674-4683页。IEEE，2017年。[25] 拉尔斯·梅谢德安德烈亚斯·盖格和塞巴斯蒂安·诺沃津。gans的哪些训练方法实际上是趋同的？在机器学习国际会议上，第3478-3487页[26] 弗朗

下载后可阅读完整内容，剩余1页未读，立即下载