基于元学习的人体运动预测

188 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

基于元学习的少镜头人体运动预测李安燕桂，余喜旺，德韦拉拉曼南，和Jo s′eM. F. Moura卡内基梅隆大学{lgui，yuxiongw，deva，moura}@ andrew.cmu.edu抽象。人体运动预测，预测人体运动在几毫秒的历史3D骨架序列的条件下，是一个长期存在的问题，在计算机视觉和机器人视觉。现有的预测算法依赖于大量的注释运动捕捉数据，并且对新的动作很脆弱。本文讨论了少镜头人体运动预测的问题，在精神上的最新进展少镜头学习和元学习。更确切地说，我们的方法是基于这样的见解，即从很少的例子中获得良好的泛化依赖于通用的初始模型和用于使该模型适应新任务的有效策略。为了实现这一目标，我们提出了主动和自适应元学习（PAML），它引入了一种新的组合模型不可知的元学习和模型回归网络，并将它们统一到一个集成的，端到端的框架。通过这样做，我们的元学习器通过聚合来自各种预测任务的上下文信息来产生通用初始模型，同时通过利用关于如何将少镜头模型参数转换为多镜头模型参数的学习知识来有效地调整该模型以用作特定于任务的模型。所得到的PAML预测器模型显著地改善了在小样本大小方案中对高度基准化的H3.6M数据集保留字：人体运动预测·少镜头学习·元学习1介绍人类智能的标志之一是能够根据过去的观察来预测未来。通过感知和预测环境如何演变以及人类同胞如何行动，人类学会与世界互动[60]。值得注意的是，人类仅从一些经验中获得了这种预测能力，但在不同的场景中仍然可以推广[50]。类似地，为了允许与人类的自然和有效的相互作用，可以使用人工试剂（例如：例如，在一个实施例中，机器人）应该能够做同样的事情，i.例如，预测人类在不久的将来如何运动或行动，以一系列历史运动为条件[29]。如图1所示的一个更具体的例子，当部署在自然环境中时，机器人应该在看到几个例子后预测不熟悉的动作[27，20]。虽然人体运动预测已经吸引了越来越多的2李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉(a)（b）（c）（d）Fig. 1.说明了少量人体运动预测作为实现无缝人机交互和协作的第一步的重要性。在现实世界的场景中，预测通常以具有有限训练数据的在线流式方式发生具体地，机器人已经获得了通用预测能力，例如。例如，在一个实施例中，通过使用我们的元学习方法学习几个已知的动作类。然后将机器人部署在自然环境中。现在一个人执行某些从未见过的动作，e。例如，在一个实施例中，问候，而机器人正在观看（图.（a））。然后，机器人停止，机器人没有感觉输入，这是由致盲说明他的眼睛与一张纸（图）。（b））。机器人调整通用初始模型，作为一个特定任务的预测模型，预测未来的运动的人，并执行或演示它在一个类似人类的，现实的方式（图2和3）。（c）及（d））。注意 [16 ， 26 ， 32 ， 9 ， 19] ，现有的方法依赖于广泛的注释运动捕获（MOCAP）数据，并且对于新的动作是脆弱的我们认为，人类和机器预测之间的巨大差距源于两个问题。首先，运动动力学很难建模，因为它们将物理约束与目标导向的行为纠缠在一起[32]。除了一些动作类（E。例如，在一个实施例中，步行）[8，22]，生成用于一般类型的运动的复杂物理模型是具有挑战性的[42]。第二，缺乏大规模的、带注释的运动数据。当前的mocap数据集是用专用的传感器环境构建的，因此不可扩展。这激发了对从有限训练数据中学习的运动模型的探索。不幸的是，现有技术的基于深度递归编码器-解码器网络的模型[16，26，32，18，4，19]需要大量的注释数据来学习期望的运动动态。一个明显的证据是，恒定的姿态预测器[32]，作为一种不产生有趣运动的天真方法，有时会达到最佳性能。一个有吸引力的解决方案是学习基础知识的“基础”，这些基础知识在各种各样的操作类中共享，包括从未见过的操作。原则上，这可以通过迁移学习[38，3，44，68]来实现，其方式是从具有更多标记数据的另一个任务中微调预训练的网络;然而，随着源任务与目标任务的偏离，预训练的好处会减少[70]。在这里，我们第一次尝试对少数拍摄人体运动预测。受最近几次学习和元学习[58，47，61，66，14]的进展的启发，我们提出了一个通用的元学习框架-主动和自适应元学习（PAML），它可以应用于人体运动预测。我们的关键见解是，有一个很好的概括，从几个例子依赖于一个通用的初始模型和一个有效的策略，使该模型适应新的任务。然后，我们介绍了最先进的模型不可知元学习（MAML）[14]和模型回归网络（MRN）[66]的新组合基于元学习的少镜头人体运动预测369]，并将它们统一到一个集成的端到端框架中。MAML使元学习者能够从各种预测任务中聚合上下文信息，从而产生通用模型初始化，而MRN允许元学习者适应少量模型，从而提高其泛化能力。更具体地说，一个有益的公共初始化将作为一个很好的点，开始训练正在考虑的新动作。这可以通过明确地学习预测器模型的初始参数来实现，其方式是在参数已经用来自新任务的几个训练示例更新因此，我们使用MAML [14]，它初始化网络的权重，以便标准随机梯度下降（SGD）可以在新任务上快速取得进展。我们通过一个元学习过程来学习这个初始化，该过程从大量的运动预测任务中学习，并且只需要少量的数据。在获得预训练的模型后，MAML使用一个或几个SGD更新来使其适应新的任务。尽管初始模型有些通用，但普通SGD更新只能略微修改其参数[68]，特别是在小样本量范围内;否则，将导致对新数据的严重过度拟合[23]。这仍然远远不能令人满意，因为所获得的特定于任务的模型不同于从大量样本中学习到的模型为了解决这个限制，我们考虑元学习方法，学习更新函数或学习规则。具体来说，我们利用MRN [66，69]作为自适应策略，它描述了一种通过估计通用模型转换从小数据集学习的方法也就是说，MRN学习在模型参数的空间上操作的Meta级网络，该元级网络被训练为从少激发模型参数（在小数据集上训练）回归多激发模型参数（在大数据集上训练）。虽然MRN是在卷积神经网络的背景下开发的，但我们将其扩展到递归神经网络。通过统一MAML与MRN，我们得到的PAML模型不仅直接初始化，以产生所需的参数，是有用的，以后的适应，但它也可以有效地适应新的行动，通过利用跨动作类共享的模型参数的结构。我们的贡献是三方面的。(1)据我们所知，这是第一次探索人类运动预测的少镜头学习问题我们展示了如何元学习可以操作这样一个任务。(2)我们提出了一种新的元学习方法，结合MAML与MRN，共同学习一个通用的模型初始化和一个有效的模型自适应策略。我们的方法是通用的，可以应用于不同的任务。(3)我们展示了我们的方法如何显着促进从具有挑战性的mocap H3.6M数据集[25]上的几个例子中预测新的动作2相关工作人体运动预测在计算机视觉和机器人视觉中具有巨大的应用潜力，包括人机交互和协作[29]，计算机图形学的运动生成[30]，动作预测[28，24]和主动4李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉自动驾驶系统中的决策[37]。它通常由状态空间方程和潜变量模型来解决传统方法集中在隐马尔可夫模型[7]、线性动态模型[41]、高斯过程潜变量模型[62，59]、双线性时空基模型[1]和受限玻尔兹曼机[54，53，52，55]。在深度学习时代，基于递归神经网络（RNN）的方法吸引了更多的关注，并显着推动了最新技术[16，26，18，32，19]。旗舰技术包括LSTM-3LR和ERD [16]，SRNN [26]和残差sup。[32]第32段。LSTM-3LR（3层长短期记忆网络）通过课程学习同时学习姿势表示和时间动态除了LSTM-3LR中的级联LSTM单元之外，ERD（编码器-递归解码器）还引入了用于数据预处理的非线性空间编码器 [16]。SRNN（结构RNN）用手工设计的时空图对人类活动进行建模，并将编码的语义知识引入递归网络[26]。这些方法未能考虑跨动作类的共享知识，因此它们学习特定于动作的模型，并将训练过程限制在mocap数据集的相应子集残留物补充是一个简单的序列到序列架构，具有残差连接，其通过独热向量合并动作类信息[32]。尽管它们有希望，但这些现有的方法直接在具有大量训练数据的目标任务上学习，并且不能很好地从几个示例或新颖的动作类中推广。很少有像我们这样的少镜头运动预测的工作，这是机器人学习在实践中的关键我们的任务与少数模仿学习也有显著不同：虽然这一系列工作旨在从演示中学习和模仿人类运动[39，15，11，71]，但我们的目标是基于历史观察来预测看不见的未来运动。小剂量或低剂量学习长期以来一直是未解决的基本问题之一，并从不同的角度加以解决[56，13，63，45，64、66、21、65、61、14、17、67]。我们的方法更多地属于经典但最近更新的一类方法，称为元学习，其将少量学习本身框架为这个想法是使用元训练期间在一组少量学习任务中捕获的公共知识来解决新的少量学习问题，其方式是（1）使用RNN [61]，记忆增强网络[45]或多层感知器[12]在训练集上累积统计数据，（2）产生通用网络初始化[14，36，65]，（3）将示例嵌入到通用特征空间中[51]，(4)估计使用一些新的类示例[6]从大型数据集或从小型数据集模型[66，69]学习的模型参数，（5）使用另一个网络修改一个网络的权重[48，46，49]，以及（6）通过学习的更新规则而不是手工设计的SGD [2，31，43]来学习优化通常，这些现有方法是在考虑图像分类的情况下开发的，并且不能被容易地重新用于处理不同的模型架构或容易地适用于诸如人体运动预测的其他领域此外，他们的目标是获得更好的模型初始化[14，36，65]或学习更新函数或学习规则[48，5，2，43，66]，但不是两者兼而有之。相比之下，我们提出了一个基于元学习的少镜头人体运动预测5^u^^通过考虑这两个方面，并展示它们如何在端到端的元学习框架中相互补充，从而获得统一的视图。我们的方法也是通用的，也可以应用于其他任务。3主动和自适应元学习现在，我们提出了我们的元学习框架，用于少量人体运动预测。预测器（i。例如，学习器）是一种递归的编码器-解码器网络，其将运动预测框定为序列到序列问题。为了使预测器能够从针对新任务的仅几个训练序列快速地产生令人满意的预测（即，例如，行动类），我们引入主动和自适应元学习（PAML）。通过从已知动作类的大量少量预测任务集合中进行元学习，PAML联合学习通用模型初始化和有效的模型自适应策略。3.1用于人体运动预测的元学习设置人体运动通常表示为顺序数据。给定历史运动序列，我们预测短期或长期未来可能的运动。在少镜头运动预测中，我们的目标是训练一个预测模型，该模型可以仅使用少量训练序列快速适应新任务为了实现这一目标，我们引入了一种元学习机制，将整个预测任务视为训练示例。在元学习期间，预测器在由高级元学习器引导的一组预测任务上进行训练，使得经训练的预测器可以实现期望的少量自适应能力。预测器（i。例如，学习者），由参数化函数Pθ表示，其中参数θ，将输入历史序列X映射到输出未来序列Y. 我们将长度为η的输入运动序列表示为x1，x2，. . . ，xnΣ，其中xi∈Rd，i=1，. . .，n是由一组3D身体关节角度组成的mocap向量[35]，d是关节角度的数量。学习者预测fureseY=. xn+1、xn+2、. . . ，xn+m∈x，其中xj∈Rd，j = n +1，. . . ，n + m是在第j个时间步的预测的MOCAP向量。四个方程的矩阵被定义为Ygt=。xn+1、xn+2、. . . ，xn+mΣ。在元学习中，我们感兴趣的是训练一个学习过程（即。例如，元学习器），其使得预测器模型能够适应大量的预测任务。对于第k个镜头预测任务，每个任务T ={L，D训练，D测试}目标是从几个（k）例子中预测某个动作它由损失函数L、小训练集Dtrain=.Xu，YgtΣΣ，u=1，. . .，k具有k动作-特定的过去和未来序列对，以及具有设定编号的测试集D测试用于评估的过去和未来序列对逐帧欧几里德距离通常用作运动预测的损失函数L对于每个任务，元学习器将D 训练作为输入并产生预测器（即，例如，学习者），其在其对应的D测试上实现高平均预测性能。更准确地说，我们考虑预测任务上的分布p（T），我们希望我们的预测器能够适应。元学习算法有两个6李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉我我我我阶段：元训练和元测试。在元训练期间，从p（T）中采样预测任务Ti，并且预测器P在其对应的具有损失L T i的小训练集Dtrain上训练在Ti。然后改进预测器通过考虑相应测试集Dtest上的测试误差如何相对于参数变化。这个测试误差作为元学习过程的训练误差。在元测试期间，从p（T）（i.例如，新颖的动作类），每个动作类具有其自己的小训练集D训练和测试集D测试，用于评估预测器的性能3.2学员：编码器-解码器架构我们使用[32]中最先进的基于递归编码器-解码器网络的运动预测器作为我们的学习器P。编码器和解码器由GRU（门控递归单元）[10]单元组成。输入序列通过编码器以推断潜在表示。然后将该潜在表示和种子运动帧馈送到解码器中以输出第一时间步预测。解码器将其自己的输出作为下一个时间步长输入，并顺序地生成进一步的预测与[32]不同的是，为了处理新的动作类，我们不使用独热向量来表示动作类。3.3主动元学习者：通用模型初始化直观地说，如果我们有一个通用的预测器，它广泛适用于p（T）中的各种任务，而不是特定的任务，那么它将成为开始训练新目标任务的一个很好的点我们通过使用模型不可知元学习（MAML）来显式学习这样一个通用的初始模型[14]。MAML是为基于梯度的学习规则而开发的。例如，在一个实施例中，SGD），旨在学习一种模型，使一些SGD更新可以在新任务上取得快速进展具体地说，当适应新的任务Ti时，预测器的初始参数θ变为θ′。在MAML中，这是使用任务T1的D列上的一个或多个SGD更新来计算的。为了简单起见并且不失一般性，我们考虑一个SGD更新：θ′=θ−αθLT （Pθ），（1）其中α是学习率超参数。我们优化θ，使得更新后的θ′在任务Ti的D测试上产生最大性能。当对从p（T）采样的任务进行平均时，我们有元目标函数：min ΣL Ti. Pθ′=minLTi.Pθ−α <$θLT（Pθ）<$.（二）θTip（T）iθiTip（T）注意，元优化是在预测器参数θ上执行的，而目标是使用更新的参数θ’来计算的。这种跨任务的元优化通过SGD以θ← θ−β∇θΣTip（T）L Ti. Pθ′Σ，（3）我基于元学习的少镜头人体运动预测7我我我我我我我. Σ我我我我我我 2其中β是元学习率超参数。在每次迭代期间，我们从p（T）中采样任务小批量，并执行等式11中的相应学习器（1）和Eqn中的元学习者更新（三）、3.4自适应元学习器：模型自适应策略在MAML中，新任务Ti的模型参数θ’通过使用其小训练集Dtrain在初始θ之上执行一些普通SGD更新来获得。在元训练之后，θ趋于通用。然而，在来自D训练的有限训练数据的情况下，SGD更新只能稍微修改θ，这仍然远离从大量目标样本中学习到的期望的θ*因此，需要更高层次的知识来指导模型适应新的任务。事实上，在元训练过程中，对于每个已知的动作类，我们都有一个很大的带注释序列的训练集，我们从这个原始的大集合中进行采样，以生成少量的训练序列。注意，对于元测试期间的新这样的设置-元学习者通过从大范围的注释示例中采样小训练集来训练-在通过元学习的少数图像分类中是常见的虽然以前的方法（e. 例如，在一个实施例中，MAML）只使用这个原始的大集合来采样少量训练集，我们显式地利用它并学习Ti的相应的多镜头模型θ*。在采样过程中，如果一些任务是从同一个动作类中采样的，而它们有自己的少量训练序列，则这些任务对应于该动作类的相同θ*然后，我们使用模型回归网络（MRN）[66，69]作为自适应策略。MRN是在图像分类场景中开发的，并且获得关于从少数镜头到多镜头模型的通用变换的学习到学习知识令θ0表示通过使用SGD（i.例如，方程中的θ′① ①）。令θ*表示从a学习的基础我我大量带注释的样本。我们的目标是使更新后的θ′尽可能接近期望的θ*。MRN假设存在一般非线性变换，由模型参数空间中的φ参数化的回归函数Hφ表示，使得θ*≈Hφ 对于广泛范围的任务T1，θ 0。广场的欧氏距离被用作回归损失。然后我们估计Hφ基于在元训练期间从p（T）中提取的已知任务Timin Σ¨HTip（T）. θ0Σ− θ∠¨2。（四）与[66]一致，我们使用多层前馈网络作为H。3.5一个综合框架我们在元训练和元测试阶段都引入了自适应策略。对于任务Ti，在对小训练集Dtrain执行几次SGD更新之后，我们然后应用变换H以获得θ’。等式（1）修改为θ′=Hφ（θ−αθLT（Pθ））。（五）φφ我8李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉我..ΣΣu我v我θi我+θi2λ θi− θi2，算法1：用于k次人体运动预测的PAML元训练要求：学员：具有参数θ的运动预测器模型Pθ; MRN适配元网络：Hφ，参数φRequire：p（T）：预测任务要求：α、β、γ：学习或元学习率超参数;λ：折衷超参数1 随机初始化θ和φ2 不做就做3任务样本批次Tip（T）4我所做的一切5从对应动作类的注释过的过去和未来序列对的原始大集合中学习（或检索）θ*6样本k个特定于动作的过去和未来序列对D列车=Xu，Ygt ，u = 1，. . . ，k，来自Ti7Dtrain上的EvauateLTi（Pθ）8使用等式（1）计算适配参数（5）、i.例如，执行SGD更新，然后应用自适应H：θ′=Hφ（θ−αθLT9样本D测试=.. Xv，YgtΣΣfromTi用于元更新（Pθ））10EvaluateL~T.P′Σ=LT.P′ +1 λ θ′− θ2在D检验中使用方程（六）11端iθiiθi2ii212通过执行SGD更新θ和φ13θ←θ−βθΣTip（T）L~Ti.Pθ′，φ<$φ−γ <$φ <$Ti<$p（T）L<$Ti.Pθ′Σ我我14 end while在元训练期间，对于任务Ti，我们还具有底层参数θi，其通过对相应的大样本集执行SGD更新来获得。现在，Eqn中的元目标（2）成为min ΣL~T. P′Σ=minΣL T. P′O1′ ∗2（六）其中λ是权衡超参数。这是关于θ和φ两者的联合优化，并且我们使用SGD跨任务执行元优化，如算法1所示因此，我们将模型初始化和适应集成到一个端到端的元学习框架中。对模型进行初始化以产生对其自适应最佳的参数;同时，通过利用关于少镜头模型和多镜头模型之间的关系的“学习-学习”知识来调整模型。在元测试期间，对于新的预测任务，利用学习到的通用模型初始化θ和模型自适应Hφ，我们使用等式（5）获得任务特异性预测模型。4实验评价在本节中，我们将探索我们的主动和自适应元学习（PAML）的使用。PAML是通用的，原则上可以应用于广泛的范围θ，φTip（T）我θ，φTip（T）我基于元学习的少镜头人体运动预测9表1.通过与广泛使用的mini-ImageNet数据集上的一些最先进的元学习方法进行比较，对我们的方法进行性能检查我们的PAML优于这些基线，显示了其对少量学习方法5向精度单次拍摄5次射击[61]第六十一话四十三56%± 0.百分之八十四55. 31%± 0. 百分之七十三MAML [14]四十八70%±1。百分之八十四63岁11%± 0. 百分之九十二[43]第四十三话四十三44%± 0.百分之七十七六十岁。60%±0. 百分之七十一原型网络[51]四十六岁。61%± 0. 百分之七十八六十五77%± 0.百分之七十[34]第三十四话四十九21%± 0.百分之九十六−−PAML（我们的）五十三26%± 0.百分之五十二68岁19%± 0.百分之六十一少量的学习任务。对于性能校准，我们首先对我们的方法在标准的几个镜头图像分类任务上进行了合理性检查，并与现有的元学习方法进行了比较然后，我们专注于我们的主要任务，人体运动预测。通过与最先进的运动预测方法的比较，我们表明，PAML显着提高了预测性能的小样本大小制度。4.1少镜头图像分类大多数现有的少量学习和元学习方法都是在分类任务的场景作为健全性检查，第一个问题是我们的元学习方法与这些先前技术相比如何。为了进行公平的比较，我们对标准的少数镜头图像分类任务进行评估最常见的设置是N路k次分类，其目的是当我们每个类只有少量（k）标记的实例用于训练时将数据分类为N个类损失函数是预测标签和真实标签之间的交叉熵误差在[61，43，51，14，34，33]之后，我们在最广泛使用的mini-ImageNet基准上进行了评估它由64个元训练和24个元测试类组成，每个类有600张大小为84× 84的图像在元训练期间，每个任务被采样为N路k次分类问题：我们首先从元训练类中随机采样N个类;对于每个类，我们随机采样k个和1个示例以分别形成训练集和测试集。在元测试期间，我们报告来自元测试类的看不见的类的性能。我们使用[14]中的卷积网络作为分类器（i. 例如，学习者）。我们的模型自适应元网络是一个具有Leaky ReLU非线性的2层全连接网络。表1总结了标准5路、1-/5激发设置中的性能比较。我们的PAML始终优于所有基线。特别是，有一个显着的5%的性能改善相比，MAML，显示了我们的模型自适应策略的互补优势这种健全性检查验证了我们的元学习框架的有效性。此外，这些现有的方法中的一些，例如匹配网络[61]和原型。10李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉CAL网络[51]是考虑到少数镜头分类而设计的，并且不容易应用于诸如人体运动预测的其他领域。4.2少镜头人体运动预测我们现在专注于使用我们的元学习方法进行人体运动预测。据我们所知，我们是第一个探索人类运动预测的少镜头学习问题的人。由于缺乏已公布的协议，我们提出了我们的评估协议，这项任务。数据集。我们在人类3.6M（H3.6M）[25]上进行评估，这是一个高度基准化的大规模mocap数据集，已广泛用于人体运动分析。姐H3.6M包含七个参与者，执行15个不同的动作。按照[16，26，32]中的标准实验设置，我们将数据集降采样2，对6个受试者进行训练，并对5个受试者进行测试。每个动作都包含这些演员执行此类活动的数小时视频。从训练和测试视频中随机选取序列片段，以构建相应的训练和测试序列[26]。给定过去的50个mocap 帧（总共2 秒），我们在短期预测中预测未来的10个帧（总共400ms），并且在长期预测中预测未来的25个帧（总共1秒少量学习任务和元学习设置。我们使用11个动作类进行元训练：方向、问候、打电话、摆姿势、购物、坐着、坐下、拍照、等待、遛狗、一起散步。我们使用剩下的4个动作类进行元测试：散步，吃饭，吸烟和讨论。这四个动作通常用于评估运动预测算法[16，26，32]。我们解决的k次运动预测任务是：对于某个动作，给定k个动作特定的过去和未来序列对的小集合因此，元学习中的k次预测任务的设置如下。在元训练期间，对于每个任务，我们从11个动作中随机选择一个动作，并将k个动作特定的序列对作为D训练进行采样。在元测试期间，对于4个新动作中的每一个，我们从其训练集中采样k个序列对以产生小集合D训练。然后，我们调整我们的元学习预测器，用作目标动作特定的预测器。我们在相应的测试集上对其进行评估。我们为每个动作运行五次试验，并报告平均性能。实作详细数据。在我们的实验中，预测器是残差sup.，用于运动预测的最先进的编码器-解码器网络[32]。对于编码器和解码器，我们分别使用隐藏大小为1，024的单个GRU单元[10]。在[32]之后，我们在编码器和解码器之间使用绑定权重我们使用具有Leaky ReLU非线性的全连接网络作为模型自适应元网络。在大多数情况下，k被设置为5，并且我们还评估当k变化时性能如何变化。通过交叉验证，权衡超参数λ被设置为0。1，则学习率α被设置为0。05，并且Meta学习率β和γ被设置为0。0005.对于预测器，我们将梯度裁剪到最大为5的2-范数我们在元训练期间运行10，000次迭代我们使用PyTorch [40]来训练模型。基于元学习的少镜头人体运动预测11表2.我们的PAML和最先进的残差sup的变体之间的平均角度误差比较[32]关于H3.6M用于k= 5次人体运动预测的4个新动作我们的PAML始终显著优于所有基准。特别是，它优于多任务学习和迁移学习基线上的所有行动跨越不同的时间范围步行吃毫秒80160320 400560 100080160320 400560 1000残留补充剂[32]w/（基线）擦除规范擦除agn传输 ots多任务转移英尺1 .一、901 .一、780的情况。600的情况。570的情况。441 .一、951 .一、890的情况。750的情况。710的情况。55二、16二、200的情况。880的情况。790的情况。85二、18二、230的情况。930的情况。850的情况。951 .一、99二、021 .一、030的情况。960的情况。74二、00二、051 .一、261 .一、121 .一、03二、33二、270的情况。570的情况。590的情况。61二、31二、160的情况。700的情况。680的情况。65二、30二、180的情况。910的情况。830的情况。74二、30二、271 .一、040的情况。930的情况。78二、31二、251 .一、191 .一、120的情况。86二、34二、311 .一、581 .一、331 .一、19元学习（我们的） PAML0的情况。350的情况。470的情况。700的情况。820的情况。800的情况。830的情况。360的情况。520的情况。650的情况。700的情况。710的情况。79吸烟讨论毫秒80160320 400560 100080160320 400560 1000残留补充剂[32]w/（基线）擦除规范擦除agn传输 ots多任务转移英尺二、88二、530的情况。700的情况。710的情况。87二、86二、610的情况。840的情况。791 .一、02二、85二、671 .一、181 .一、091 .一、25二、83二、651 .一、231 .一、201 .一、30二、80二、711 .一、381 .一、251 .一、45二、99二、73二、021 .一、23二、063 .第三章。01二、770的情况。580的情况。530的情况。573 .第三章。13二、790的情况。860的情况。820的情况。823 .第三章。12二、821 .一、121 .一、021 .一、11二、95二、731 .一、181 .一、171 .一、11二、62二、821 .一、541 .一、331 .一、37二、99二、76二、021 .一、97二、08元学习（我们的） PAML0的情况。390的情况。660的情况。811 .一、011 .一、031 .一、010的情况。410的情况。711 .一、011 .一、021 .一、091 .一、12基线。为了公平比较，我们与剩余sup进行比较。[32]，这与我们的预测器相同，但不是元学习的。特别地，我们在小样本量制度中评估其变体，并考虑10李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉在以下场景中学习特定于动作和动作不可知的模型– 从头开始特定于动作的训练：对于4个目标动作中的每一个，我们从其k个训练序列对中学习特定于动作的预测器。– 从头开始的动作不可知训练：我们从所有训练序列对中学习4个目标动作的单个预测器。– 现成的转移：我们从大量的训练序列对中学习11个元训练动作的单个预测器，并直接将此预测器用于4个目标动作而无需修改。– 多任务学习：我们从11个元训练动作的大量训练序列对和4个目标动作的每个动作的k个序列对中学习所有15个动作的单个预测器。– 微调转移：在从其大量训练序列对中学习用于11个Meta训练动作的单个预测器之后，我们使用其k个训练序列对分别将其微调为用于4个目标动作中的每一个的动作特定预测器。评估指标。我们评估我们的方法定量和定性。对于定量评估，我们使用角度空间中的预测运动和地面实况运动之间的标准度量均方误差[16，26，32]。在[54，32]中的预处理之后，我们排除了整个身体的平移和旋转。我们还逐帧定性地可视化预测。12李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉与最先进方法的比较。表2显示了我们的PAML和多种残基替代物变体之间的定量比较而剩余的sup.已经用大量注释的mocap序列实现了令人印象深刻的性能[32]，但是其预测在小样本大小范围内显著正如预期的那样，直接从几个示例中训练预测器会导致较差的性能（即，例如，角度误差范围为2-3），这是由于严重的过拟合。在这种从头开始训练的场景中，学习动作不可知模型比学习特定于动作的模型稍好一些（例如，学习动作不可知模型）。例如，在一个实施例中，将角度误差减小0。1对于行走在80ms通过以更有原则的方式从具有大量样本的相关动作中转移知识，预测性能略有提高。这是通过多任务学习来实现的。例如，在一个实施例中，使用所述11个源动作和4个目标动作两者来训练动作不可知预测器，或迁移学习，e.例如，在一个实施例中，首先使用源动作来训练动作不可知预测器，然后以现成的方式或通过微调来使用它然而，由于不同动作的显著多样性，对多个动作建模比对每个动作单独建模更具挑战性这些多任务学习和迁移学习基线的性能改进是有限的，并且它们的性能也相对较低。因此，这证明了我们的少数镜头运动预测任务的一般困难。相比之下，我们的PAML在不同时间范围内的所有动作上都一致且显著地优于所有基线，显示了我们的Meta学习机制的有效性。甚至对于复杂的运动（例如，运动）也有明显的性能提升。例如，在一个实施例中，将角度误差减小0。3在80ms用于吸烟）。通过在元训练期间从大量的少量预测任务中明确地学习，PAML能够提取和利用跨不同动作和跨多个少量预测任务共享的知识，从而大幅度地改善从几个示例中对新动作的预测。此外，如前所述，大多数当前的元学习方法，如匹配网络[61]和原型网络[51]，都是为简单的任务开发的，如具有特定任务模型架构的图像分类（例如：例如，在一个实施例中，学习对最近邻或原型类型分类器有用的嵌入空间），这不容易适用于我们的问题。与他们不同的是，我们的方法是通用的，可以有效地用于广泛的任务，如表1和表2所示。图2进一步显示了我们的预测，并与表现最好的基线之一进行了比较。从图2中，我们可以看到我们的PAML生成了更低误差、更平滑和更现实的预测。消融研究。在表3和表4中，我们评估了不同因素对结果的贡献。模型初始化与模型自适应我们的元学习方法由两部分组成：通用模型初始化和有效的模型自适应元网络。在表3中，我们可以看到，在几乎所有的场景中，每个组件本身都优于表2中报告的基线。这表明，元学习，在一般情况下，通过利用共享的知识基于元学习的少镜头人体运动预测13………………0吸烟1s0讨论1s图二.关于吸烟的k= 5次运动预测的可视化和讨论。顶部：输入序列和预测序列的地面实况中：残差超的多任务学习。[32]，是表现最好的基准之一。下图：预测结果。地面实况和输入序列以黑色显示，预测以彩色显示我们的PAML产生更平滑和更像人类的预测。最佳的彩色观看与缩放。表3.模型初始化时的消融与适应每个组件本身都优于微调基线。我们的完整模型实现了最佳性能步行吃毫秒80160320400560 100080160320400560 1000上基线转移英尺0的情况。440的情况。550的情况。850的情况。950的情况。741 .一、030的情况。610的情况。650的情况。740的情况。780的情况。861 .一、19PAML，带初始化0的情况。400的情况。510的情况。760的情况。860的情况。890的情况。920的情况。490的情况。550的情况。680的情况。740的情况。770的情况。94元学习（我们的） PAML，带适配器0的情况。390的情况。520的情况。730的情况。860的情况。900的情况。930的情况。500的情况。590的情况。730的情况。760的情况。810的情况。92全PAML0的情况。350的情况。470的情况。700的情况。820的情况。800的情况。830的情况。360的情况。520的情况。650的情况。700的情况。710的情况。79吸烟讨论毫秒80160320400560 100080160320400560 1000上基线转移英尺0的情况。871 .一、021 .一、251 .一、301 .一、45二、060的情况。570的情况。821 .一、111 .一、111 .一、37二、08PAML，带初始化0的情况。530的情况。720的情况。951 .一、071 .一、111 .一、180的情况。540的情况。771 .一、021 .一、071 .一、361 .一、55元学习（我们的） PAML，带适配器0的情况。580的情况。790的情况。861 .一、031 .一、091 .一、120的情况。470的情况。791 .一、121 .一、151 .一、161 .一、26全PAML0的情况。390的情况。660的情况。811 .一、011 .一、031 .一、010的情况。410的情况。711 .一、011 .一、021 .一、091 .一、12相关的任务，使我们能够处理一个新的任务，在一个样本有效的方式。此外，我们的完整PAML模型始终优于其变体，显示出每个组件的互补性这验证了同时学习通用初始模型和有效自适应策略的重要性H.的结构在表4中，我们比较了模型自适应元网络H的不同实现：作为简单的仿射变换，或者作为具有2 4层的网络。由于在[66]中使用了Leaky ReLU，因此我们尝试将ReLU和Leaky ReLU作为隐藏层中的激活函数。结果表明，使用Leaky ReLU的3层全连接网络实现了最佳性能。训练样本大小的影响。在之前的实验中，我们专注于固定k = 5镜头的运动预测任务。为了测试我们的元学习方法如何从更多的训练序列中受益，我们14李安-杨桂，余晓旺，《设计师》，Jos´eM. F. 莫乌拉评估了关于样本大小k的性能变化。图3总结了当k在80ms处从1变化到100时与微调转移（表2中报告的最佳性能基线之一）的作为参考，我们还包括oracle的性能，这是剩余的sup。在目标动作的整个训练集上训练的基线（即，例如，具有数千个注释的序列对）。图3显示了我们的方法始终优于微调，并提高了其基于元学习的少镜头人体运动预测15表4.对H.我们改变全连接层的数量，并且TryReLU和LeakyReLU是局部函数。结果显示，“3-L”层的工作效率最高，但H的性能难以实现步行毫秒80160320400560 1000PAML，带1层，无0的情况。390的情况。540的情况。730的情况。860的情况。850的情况。91PAML，带2层，ReLU0的情况。390的情况。510的情况。750的情况。850的情况。860的情况。92PAML，带 2层，LeakyReLU0的情况。380的情况。480的情况。740的情况。830的情况。880的情况。91PAML，带3层，ReLU0的情况。370的情况。500的情况。710的情况。820的情况。830的情况。88PAML，带 3层，LeakyReLU0的情况。350的情况。470的情况。700的情况。820的情况。800的情况。83PAML，带4层，ReLU0的情况。370的情况。510的情况。720的情况。860的情况。830的情况。90PAML，带 4层，LeakyReLU0的情况。360的情况。490的情况。730的情况。830的情况

下载后可阅读完整内容，剩余1页未读，立即下载