没有合适的资源?快使用搜索试试~ 我知道了~
6992上下文感知的人体运动预测AlbertPumarola Guillem Alenya`Francesc Moreno-NoguerInstitut de Robo` tica i Informa` tica Industrial,CSIC-UPC,08028,Barcelona,Spain{ecorona,apumarola,galenya,fmoreno} @ iri.upc.edu摘要根据过去的观察结果预测人体运动的问题是机器人和计算机视觉中许多应用的核心。当前的最新技术将该问题表述为序列到序列任务,其中3D骨架的历史馈送预测未来运动的循环神经网络(RNN),典型地在1到2秒的量级。然而,迄今为止已经排除的一个方面是人类运动固有地由与环境中的对象和/或其他人的交互驱动在本文中,我们探索这种情况下使用一种新的上下文感知的运动预测架构。我们使用一个语义图模型,其中的节点参数化的人和物体的场景和边缘的相互作用。这些交互通过图形注意力层迭代学习,并提供过去的观察结果,现在包括对象和人体运动。一旦学习了这个语义图,我们就将其注入到标准RNN中,以预测人类和物体的未来移动。我们考虑我们的架构的两个变体,要么冻结上下文交互在未来更新它们。在“全身人体运动数据库”[ 29 ]中进行的全面评估1. 介绍根据过去的观察来预测和预测未来人类运动的能力虽然这对一个人来说似乎是一项微不足道的任务,但它涉及到对环境和其中所有对象之间关系的多种感觉模态和复杂的语义理解。将这种知识建模并转移到自主智能体将在许多不同的领域产生重大影响,主要是人机交互[30]和自动驾驶[47],但也包括计 算 机 的 运动生成图形动画[31]或图像理解[10]。深度学习的爆炸式发展,结合人体运动的大规模数据 集 , 如 Human3.6M [24] 或 CMU 运 动 捕 捉 数 据 集[34],已经产生了大量的近期文献,这些文献解决了根据过去的观察预测3D人体运动的问题[14,25,43,20,3,37,15,42,26,66]。这些铝-租赁商通常将问题表述为序列到序列任务,其中将表示 3D 骨 架 数 据 的 过 去 观 察 注 入 到 递 归 神 经 网 络(RNN)中,然后预测不久的将来(不到2秒)的运动。然而,虽然已经取得了可喜的成果,我们认为,标准定义的问题,到目前为止使用的缺乏一个重要的因素,这是影响的其余环境的人的运动。例如,如果一个人携带一个箱子,身体手臂和腿的配置将受到该箱子的3D位置的高度本文的主要动机是发现人与情境中的对象(或与他/她互动的另一个人)之间的这种相互关系,以及这些相互关系如何约束身体运动为了探索这一新的范例,我们设计了一个上下文感知的运动预测架构,该架构使用有向语义图对场景中所有对象与人之间的交互进行这个图的节点代表了人和物体的状态(例如位置特征)和它们的相互作用的边。这些交互通过过去对人类和物体运动的观察进行迭代学习,并输入到标准RNN中,然后RNN负责预测场景中所有元素的未来运动(对于刚性物体和非刚性人类骨骼)。此外,我们提出了一个变体的模型,也预测的邻接矩阵表示场景的元素之间的相互作用的演变。据推测,当前最先进的技术没有考虑像我们这样的场景的原因之一6993杯表人类(a)(b)(c)(d)(e)(f)图1:情境感知人体运动预测。 (a)一个人将杯子放在桌子上的序列的样本图像。 此图像仅出于说明目的而示出,我们的方法仅依赖于位置数据。(b)过去对场景、人物、杯子和桌子的所有元素的观察(c)地面真相未来运动。(d)使用[43]预测的人体运动,由不可知上下文信息的RNN组成。请注意,与地面实况有很大的差距,特别是对于序列的最后几帧(e)用我们的上下文感知模型获得的杯子和人体运动预测当人的手臂没有完全伸展时,预测的有趣的是,与桌子的交互也有助于设置运动边界。(f)主要的相互作用是学习与我们的方法,其中占主导地位的影响,桌子上的杯子和人。上述Human3.6M数据集[24])仅用人体运动注释。在本文中,我们在“全身人体运动数据库”[ 29 ]中彻底评估了我们的方法该数据集用人类的MoCap数据和其余物体的刚性位移进行了注释,因此是验证我们想法的完美基准。我们还在CMU MoCap数据库[34]中评估了我们的方法,只有两个人被跟踪。在这两个数据集中获得的结果表明,我们的方法能够准确地预测人和物体的未来运动,同时学习非常连贯的交互关系。此外,所有上下文感知版本都明显优于唯一依赖于人类过去对人类的观察的基线(见图1)。1)。由于之前的所有工作都是使用过去对地面真实骨架的观测来评估他们的方法,因此我们最后讨论了最先进的运动预测方法的适用性,并在考虑噪声观测时对我们的模型和基线进行了消融研究。2. 相关工作人体运动预测自大规模MoCap数据集[52,24,29]发布以来,人们对从单个图像[5,52,49,60,56,55,44,57]估计3D人体姿势的问题越来越最近,该社区正专注于从过去的观察中预测3D人体运动。大多数方法都建立在RNN [14,43,20,3,50,1]的基础上,RNN对人类的历史运动进行编码,并预测未来的配置,以最大限度地减少不同类型的损失。Martinez等人[43],例如,最小化L2距离并在我们的工作中提供一个基线。这项工作还与零速度基线进行了比较,尽管稳定地预测了最后观察到的帧,但在L2度量下产生了非常合理的结果最近Ruiz等人讨论了这一现象。[54],认为L2距离不是捕捉人体运动的实际分布的适当度量,并且仅使用该度量训练的网络倾向于收敛到一个平均的身体姿势。为了更好地捕捉人类运动的真实分布,最近的方法使用对抗网络[17,2]结合地理度量损失[3,20,54,33]。除了RNN之外,还有其他方法例如,Jainet al. [25]考虑一个适合骨架形状的手工制作的时空图。Li等[37]使用卷积神经网络来编码和解码骨架序列,而不是RNN。本节中描述的所有方法都是在不考虑上下文信息的情况下制定人类预测问题在本文中,我们旨在填补这一空白。刚性3D对象运动预测。虽然在3D对象重建[51,19,41]、检测[9,18,11]和跟踪[8,4]方面有大量的工作,但只有很少的方法解决了预测未来刚体运动的问题[6,63,32,59]。其中,值得一提的是Byravan等人。[6],它预测给定对象图像和应用于其的动作的未来3D姿态。在我们的例子中,应用于每个对象的动作隐式地编码在先前的观察中。人机交互(HOI)。尽管我们的工作并不旨在确定人与物体的关系,但我们受到了一些关于这个主题的论文的启发。该问题的标准公式包括将具有几个检测到的对象和人的图像表示为对上下文进行编码的图[22,45,53,39,16],或其他一些结构化表示[36,65,12]。最新的方法[37,53,22]使用一些基于图像的分类CNN提取检测到的实体的特征然后,他们比较成对的特征来预测它们的相互作用。Qi等人[53]以递归方式细化表示和预测的交互。在这项工作中,我们使用类似的想法,逐步完善对象之间的相互作用的估计基于图的上下文推理。一些作品利用上下文信息来提高不同任务的性能[48,38,23,35,46]。图卷积网络6994图2:我们的上下文感知运动预测模型概述。 蓝色分支代表一个基本的RNN,它编码过去的姿势并使用残差层对未来的人体运动进行解码[43]。上分支对应于对场景中的每个对象的上下文表示进行编码的RNN。此分支包含两个模块(分别以棕色和绿色表示)。在brown中,使用过去的对象位置、类和人类关节来预测交互和上下文特征向量。对应于人类上下文表示的节点在绿色中,模型被扩展为预测所有观察对象的运动。最好用彩色观看。(GCN)[28]最近被提出用于改进半监督分类。Jain等人[25]使用结构RNN来建模时空图。Wang等人[61]建议使用GCN,其中对象之间的交互取决于其检测到的边界框的交集Chen等人[10]介绍了一种用于图像分割的方法,其中来自2D图像坐标空间的特征在图形推理空间中表示。3. 问题公式化最近的人体运动预测方法包括一个模型M,通常是一个深度神经网络,它对从时间to到t-1的运动进行编码。我们的目标是,预测未来的人体运动直到tf,即Pt:tf,其中P代表由3D关节坐标表示的人体姿势nates。以前的方法将问题表述为M:P too:t−1→P t:tf,即未来的运动只能从过去的观测中估计。在本文中,我们推测,富-真实的运动也由上下文和人正在执行的动作驱动。因此,我们考虑场景中人类可以与之交互的类型T的其他对象O。对象可以是场景中的其他人或任何对象。我们将设计我们的方法,以便能够预测上下文中这些对象的运动此外,物体对其他物体未来运动的影响尚不清楚。因此,我们还旨在构建一个模型,以非监督的方式学习这些交互。考虑到所有这些,我们将我们的问题重新表述为以下映射的估计:M:{Pt:t−1,Ot:t−1,T}→ {Pt:t,Ot:t,It:t},(1)4. 方法图2显示了这项工作中使用的主要架构。它由两个分支组成,分别处理人体运动和对象关系。我们使用后者来获得所有观察到的实体,包括人类,然后我们使用它来预测人类和对象的运动预测的表示。接下来我们描述这两个分支。4.1. 人体运动科这个分支建立在Martinez等人提出的RNN网络之上。[43]。该模型(图2中以蓝色表示)基于残差架构[21],该架构在每一步都使用完全连接的层来预测身体关节的速度。在典型的序列到序列网络中,预测被馈送到下一步。4.2. 上下文分支使用有向图结构来表示上下文信息,其中每个节点表示对象或个人。然后,我们存储每个实体和帧的状态,编码与每个节点相关的上下文信息。随着新观测的处理,这些状态被迭代地细化。对象表示。 在每个帧t上,我们定义一个矩阵Xt∈RN× F0 =[Ot,Tt,Pt],它聚集了所有N个节点的表示。F0是每个节点的状态向量的长度此状态向量包含对象3D边界框Ot,他们的对象类型T作为一个独热向量,和人的关节Pt。如果节点不对应于人,则表示中的关节被设置为零向量,欧欧夫福福一样的尺寸。对象类型有助于识别任务,其中I对应于预测的相互作用。人类正在执行的任务和为该任务定义的动作。级联残差连接人体运动预测基线对象上下文理解对象运动预测6995J我我我我的天通过这样做,我们的目标是捕捉一个人的动作之间的语义差异时,处理刀或使用搅拌器。对上下文对象表示进行建模。最近关于图卷积网络(GCN)[28]的工作在需要操作图结构数据的各种问题中显示出非常有前途的结果。在GCN s,将某个节点Ri的特征向量表示为其他节点x的函数,如Ri=σ(NAijWxj),其中W是可训练权重,σ是激活,N是连接到第i个节点的图的节点数。A∈RN×N是一个规范化的加权邻接矩阵,它定义了节点之间的相互作用。图注意力网络(GATs)[58]已经被提出作为GCN的扩展,并在每个图节点上引入注意力模型。在本文中,我们还研究了边缘卷积的使用[62],它确实与GAT非常相似。在EC中,用于每个实体的特征向量的更新规则如下考虑其他相关对象的表示:ΣNRi=σ(AijW[xi;xi−xj]).(二)J这个等式背后的直觉是,xi编码节点的全局表示,而xi−xj提供局部信息。EC建议将这两种类型的信息结合在一个不对称图函数中。我们通过第二个RNN在所有观察期间跟踪上下文表示。场景中的每个节点都有一个隐藏状态H,每帧t更新一次:H t+1= RNN(R t,H t)。(三)学习互动。正如我们将在实验部分看到的,我们首先评估我们的上下文RNN(C-RNN)的简化版本,该版本使用启发式来定义邻接矩阵,如果对象i和j的重心接近1米,则设置Aij= 1在实践中,实体之间的交互不是先验已知的,并且此外,它们随时间而改变。我们的目标是在没有监督的情况下自动学习这些不断变化的交互。为此,我们设计了一个迭代过程,其中,对于第一帧,我们将A设置为对角矩阵,I.E. A=0=IN,这意味着初始隐藏表示任何事物的存在都只取决于它自身。然后我们预测在两个对象都处于隐藏状态的情况下,两个对象之间的交互值。我们考虑非对称加权邻接矩阵,对于帧t,其估计为:At=g(Ht,Ht−Ht),(4)直觉上,我们可以将其视为一个完整的图,其中图注意力机制[58]根据过去的观察决定交互的强度。请注意,虽然现有的作品通常使用来自地面真值关系的二进制邻接矩阵[28],空间假设[61]或节点表示的K-NN [62],但在这项工作中,我们考虑了使用反向传播学习的可微连续交互空间。在本文的其余部分,我们将用后缀“-LI”来表示学习交互的模型C-RNN+LI)。对象运动预测。我们提出了两种方法,利用上下文在不同的水平。首先,在图1的蓝色+棕色模块中。2,我们考虑了一个模型,该模型对过去的上下文观察进行推理并迭代地改进隐藏表示。人类节点的细化上下文表示在每个时间步都连接到基线分支(蓝色)表示,并由完全连接的层用于预测该步骤中的人类速度。这之后是产生骨架姿势的残余层。我们的第二种方法由图1所示的完整模型2,除了过去的上下文,预测对象运动的所有对象使用一个残余的完全连接层上的每个对象隐藏状态。类似于人体运动分支,预测的位置被转发到下一步骤,允许将上下文分析扩展到未来。描述人的那些节点的特征表示中的关节也用人类分支的关节预测来更新此外,当跟踪几个人时,对他们中的每个人重复人类运动分支,并且模型为所有可用实体提供完整的未来运动。在本文的其余部分,我们将用后缀“-OPM”来表示预测对象运动的模型5. 实现细节我们的模型建立在Martinez等人的残差结构上。[43]与他们的工作进行公正的比较。人类和对象RNN隐藏表示的大小分别为1024和256。在运动种子之后,我们每隔100 ms对一个观测值进行采样。在所有实验中,我们编码和解码10(1秒)。和20帧(2秒)分别较大的编码时间无助于改善结果,并显着增加了训练时间。 我们增加火车组,在高度Z上在(−180,180]m范围内的随机旋转和随机平移X,Y∈(−1500,1500)mm。我们使用与[53]中类似的方法来获得邻接矩阵。 我们建立一个4D矩阵A,使得Aijcon.得到节点i的隐藏表示[Ht;Ht−Hj]我我与Eq中的结构类似。二、函数g表示神经网络层的输出,在我们的情况下是完全连接的。我们使用Softmax函数对每个节点的交互进行归一化,我们将其表示为A。和j,在沟道尺寸上延伸。 功能g(·)由两个输出核大小为1的卷积层形成,以使计算更快。我们不使用偏倚术语在这些卷积层中也不在边缘卷积中6996人体运动传递对象抓取对象切割食物混合对象烹饪时间(s)0.5十一点五20.5十一点五20.5十一点五20.5十一点五20.5十一点五2ZV[43]348112015389222 33342154132 198258102262 39649524537080RNN[43]5099 13216282158 21125448103 14018068135 1902262754 6571QuaterNet62145 211267208209 24829287211 308389192237 2963453987 121144C-RNN47102 1411777614920324749100 12415870158 2142472653 6369C-RNN+OMP5399 127155128154197239499612114961127 16819929556570C-RNN+LI4389 11714272141 1882304792 11714772145 1942192753 6369C-RNN+OMP+LI4489116142115156 2042514895 12114777152 1952192653 6368对象运动传递对象抓取物体切割食物混合对象烹饪时间(s)0.5十一点五20.5十一点五20.5十一点五20.5十一点五20.5十一点五2ZV48118 18123765152 2262892970 10413250126 1882291633 4453RNN49107 15419864139 2012572970 10513447113 1661991736 4858C-RNN+OMP4492 12215055103 1361673164 83972965 9011015334656C-RNN+OMP+LI4491 11914258112 1521862962 819251106 1451711634 4655表1:类特定模型结果。在这个表中,每个动作都是独立训练的。 结果报告了人体运动(顶部)和物体运动(底部)的2s预测的平均欧几里得误差(mm)。在所有情况下,提供1 s的过去观察值。本文提出的基于上下文的模型是后缀为“OMP”和“LI”的模型。它们在大多数序列中提供最佳结果。所有人的动机预报时间(s)0.10.20.30.40.50.60.70.80.911.11.21.31.41.51.61.71.81.92ZV [43]24466787106125143160176190205219231244256267279290300310RNN [43]29445768788796104113121128136143150157164171177184191C-RNN27465869798796104113121129137144152160166174181188196C-RNN+OMP468376828795101108116123131138146153160167174182189197C-RNN+LI2139526372808997104111118125131137144150157163170177C-RNN+OMP+LI39777776808794101108114120126133139145151158165171178全对象运动预测ZV1325354452606877849096102109115120125131135140144RNN152838465360687480859197102107112117121125130135C-RNN+OMP1526364450556167737984899499104108113117121125C-RNN+OMP+LI1629394652576369757984889397101105110114117121表2:同时进行所有动作的训练。对于每种方法,我们同时使用所有动作训练单个模型。另见表1中的标题。对象表示首先由边界框位置形成,边界框位置由最小和最大3D Cartesian点定义我们训练模型以最小化预测和实际未来运动之间的L2距离L = ||M(P too:t−1)−P t:tf||二、使用Adam[27]训练模型直到收敛,学习率为0.0005 ,beta10.5,beta20.99批量大小为16。视频和198K帧,以及总共15个跟踪对象类。我们使用100 Hz的原始记录Vicon文件来获得每帧中每个对象的边界框,并选择18个关节来表示人体骨骼。我们提取不同的动作,代表不同层次的复杂性的上下文信息。该数据集的统计数据如下:6. 实验6.1. 预赛数据集。大规模MoCap数据集[29,24,34]提供了对人体姿势的注释,但没有给出任何关于场景对象或任何相关上下文的注释。传递对象抓取/离开切割食物混合烹饪所有对象阵因此,最近的人体运动预测的工作进行评估,而不考虑上下文信息。Martinez等人[43]表明,在某些情况下,即使是简单的零速度基线也可能比无上下文学习模型产生更好的为了证明我们的方法的优点,我们利用全身人体运动(WBHM)数据库[40],这是一个大规模的公开数据集,包含多个人和对象的3D原始数据。特别是,我们使用所有提供人体关节的活动,并至少包括一张桌子。结果为190我们将报告具体行动模型的结果,也是在用整个数据集训练的模型上。我们还在CMU Mocap数据库上进行了实验[34]。我们选择的动作包括两个人的互动,其中包括34个视频与不同的活动,如跳舞,说话的手势或拳击。在这种情况下,对象没有注释,但我们将展示来自两个用户的上下文信息对于改进无上下文模型是有用的基线。 我们将我们的模型与[ 43 ]中提出的无上下文模型进行比较。首先,我们考虑基本残差对象#对象45691215人数211111/2#视频1836101735190#帧30k31k11k14k54k198k个6997联合序列GroundtruthmotionC-RNN+OMP+LImotion图3:最多两秒的定性运动生成。左:我们的方法和基线的预测样本帧。中心:与地面实况相比,用我们的方法获得的预测的细节。人和物体的运动分别从浅蓝色到深蓝色和浅绿色到深绿色表示。行动,从上到下是:一个人支撑在桌子上踢盒子,一个人靠在桌子上,两个人(其中一个站在梯子上)经过一个物体。右:预测邻接矩阵,表示我们的模型学习到的交互。注意这些关系是有方向的(例如在最后一个例子中,梯子高度影响人#1的运动(50%),但是人对梯子几乎没有影响(11%)。最佳的彩色观看与缩放。RNN。我们还考虑零速度(ZV)基线,不断预测最后观察到的帧。我们还使用QuaterNet [50]的可用代码来预测绝对运动预测。对于对象运动预测,我们还使用ZV和RNN模型[43],其中对象的位置由其3D边界框定义。我们的模特。我们运行我们的上下文感知模型(C-RNN),逐步添加论文中描述的主要思想我们实验中的基本C-RNN使用空间在4.2节中描述的启发式方法,其中交互仅取决于对象之间的距离该模型在过去的帧中处理上下文,然后在每一步中使用人体节点的最后隐藏状态进行人体运动预测这通过另外预测对象运动(OMP)和从对象运动重新计算对象交互来扩展对预测位置的先前假设。然后,我们评估我们的模型的学习交互(LI)的效率。与前面定义的实验一样,我们评估了一个考虑过去上下文信息的模型和一个将对象分析扩展到未来的模型。评价指标。先前关于人体运动预测的工作主要集中在使用关节角度预测相对运动[43,20,50]。然而,我们的模型的原因是关于整个场景,并能够预测绝对运动在Cartesian坐标。因此,我们使用预测和真实未来运动之间的平均欧几里得距离(mm),从3D空间中的未归一化预测中获得。对于人体运动预测,我们考虑了人体骨架中定义的18个关节对于对象,我们考虑其边界框的八个3D顶点。6998人类到海绵Sponge to Human海绵到餐桌表海绵桌子对人人类的盒子杯对人表到框人类到盒子10010010080 80 8060 60 6040 40 4020 20 2000的情况。2040608时间(秒)00的情况。2040608时间(秒)00的情况。2040608时间(秒)图4:模型在过去的上下文观察中细化的平均交互。 在左侧和中间图中,我们分别描绘了桌子清洁和移动盒子活动的相关交互作用 在第一种情况下,请注意表显着影响海绵和人,它最初向表移动,以清洁它。类似地,在第二种情况下,人走向地上的盒子,把它捡起来放在桌子上。右图显示了所有测试样本中相关对象类型的平均自交互百分比我们发现,像桌子或梯子这样的非移动物体始终受到其他物体的影响很小。同样,经常被人类移动的被动物体,如刀或瓶子,更容易受到它们的影响,并且自我影响相对较低。6.2. WBHM数据集上的结果定量结果。表1总结了在不同活动上训练的类特定模型的性能。表2提供了使用所有数据集训练的模型的更高时间分辨率的结果,每100 ms报告预测和地面实况之间的平均欧氏距离。在所有情况下,提供1秒的过去观测值,预测2秒。The performance of models that consider a threshold-based binary interaction vary significantly between classes,suggesting they are effectively unable to understand thecontext as done by models that learn the actual interac-tions (LI).请注意,与最先进的模型相比,即使是基本的C-RNN也没有提供一致的改进。在大多数情况下,额外学习交互(C-RNN+LI)的相同模型获得了显着的提升尽管如此,诸如传递物体或抓握之类的活动需要关注处于可变距离处的物品。关于场景的复杂性,大多数改进来自具有少量对象的场景,其中交互被良好地定义并且动作更可预测。对于烹饪活动,在人旁边的桌子上有几个不同的运动选项是可能的,随着不确定性的增加,模型似乎无法自信地理解相互作用。正因为如此,上下文感知模型不提供这样一个显着的改善,在以前的活动。同时考虑所有动作似乎更有利于上下文感知方法,特别是那些 学 习 交 互 的 方 法 ( C-RNN+LI 和 C-RNN+OPM+LI)。定性结果。图3-左显示了我们两个主要模型的运动生成结果,与不同类的基线[43]进行了比较我们不包括零-交互作用权重(EC)交互作用权重(GAT)图5:EC和GAT模型预测的相互作用强度直方图。这些包括在给网络两次观察后预测的所有人类和物体之间的相互作用。为了简单起见,我们描述了上下文仅包含两个或三个节点的任务的直方图。在左边,通过基于EC的模型学习的相互作用,跨越了广泛的值,高达超过80%的相互作用强度。在右边,基于GAT的模型,它预测所有的交互权重相似,因此我们只能看到1/2和1/3处的峰值。速度基线,因为它不提供有趣的运动,即使它仍然是一个困难的基线不确定的活动。我们已经标记了一些特定的框架,其中上下文感知方法改善了RNN基线。对于人体运动预测,所生成的姿势通常比无上下文模型更与其最接近的对象语义相关。例如,如图3的最后一个动作所示,拿着物体的人倾向于移动相关的手。对于对象运动预测,无上下文模型预测几乎不会从其原始位置移动关于模型预测的相互作用,我们注意到许多活动中的连贯模式。例如,饮酒视频会产生强烈的杯-人关系。在图4中,我们表示不同操作的平均预测交互。这些都是从C-刀对刀瓶到瓶人与人表至表梯子到梯子相互作用%6999无噪声输入噪声输入(HMP)模型HMP型号25 mm50 mm100毫米时间(s)0.511.520.5十一点五20.5十一点五20.5十一点五2ZV [43]6115022328170156 22728487168 236292122195 260313RNN [43]5511014817972122 15618583127 162192112184 214226C-RNN+LI5210413616158107 1391666911314717599136 175208C-RNN+OMP+LI5610914016562111 14216771116146171103132162187模型OMP型号25 mm50 mm100毫米ZV4210014918853106 15419166118 164199106151 187223RNN41931351695299 14117469113 151183105142 181208C-RNN+OMP+LI40811091295188 11513467100 126144106132 156172表3:人体和物体运动预测中对噪声的鲁棒性。使用原始测试集(无噪声输入)时主模型的平均性能,与看到噪声观测时的性能进行比较。CMU MoCap数据集时间(s)0.51.01.52.0µ σ µ σ µ σ µ σZV12732271663748646097RNN12528267583787747792QuaterNet13826279583788246695C-RNN+LI12427257533526543578表4:CMU数据集上预测误差(mm)的平均值和标准值。 我们的上下文感知模型C-RNN+LI优于基线,即使上下文仅由两个人组成。RNN+OMP+LI。该模型提供了比C-RNN+LI更强烈的对象-对象交互,C-RNN+ LI不需要获得对象的有意义的表示,因为只使用人类上下文表示。注意,模型学习预测提供与未来姿势相关的信息的交互,从而改进运动预测。这里的相互作用不一定响应于实际的动作关系。最后,我们研究了Graph架构在学习交互中的作用。图注意力网络(GATs)和边卷积(EC)提供了一种测量交互强度的注意力机制。然而,我们发现,基于GAT的网络认为所有的互动都具有相似的重要性,而基于EC的架构能够预测连续和广泛的注意力值。我们在图5中展示了这一点。6.3. CMU MoCap数据集我们在CMU MoCap数据库上再次训练模型,获得表4所示的结果。在此设置中,用户执行非常精力充沛的活动,如跳舞或拳击,这意味着绝对运动更大,CMU MoCap数据库上的误差平均是前一个数据库的两倍以上。在这种情况下,对于被跟踪的两个人,在每个视频中仅观察到两个节点。由于没有给出关于动作或对象的信息,我们不提供OMP的结果。然而,我们发现我们提出的模型C-RNN+LI显著优于所有其他基线,特别是在长期内。6.4. 抗噪声以前所有关于人体运动预测的工作都使用地面实况MoCap数据作为过去的观察。然而,实际应用程序将收到来自e.G.人类姿态估计模型,例如OpenPose [7]或AlphaPose[13,64],它们容易受到噪声和误检测的影响因此,在这些小节中,我们评估了我们提出的模型和以前的基线对输入观测中的噪声的弹性根据原始地面实况数据对预测进行评估。过去观测的3D坐标(包括人和物体的位置)被广告破坏,高斯噪声N(0,σ2)。在表3中,我们显示了该实验的结果,具有不同的σ值。在-有趣的是,预测中的误差随着噪声的增加而优雅地增加,但是,我们的方法仍然比那些不考虑上下文信息的方法表现得更好。事实上,噪声高达σ= 50mm的最佳上下文感知模型(C-RNN+LI和C-RNN+OMP+LI)的性能优于输入中没有噪声的无上下文基线7. 结论在这项工作中,我们探索了一个上下文感知的运动预测体系结构,使用语义图表示,其中对象和人类由节点表示,而不依赖于对象的数量或复杂性的环境。我们广泛地分析了它们对人体运动预测的贡献。在不同动作中观察到的结果表明,所提出的模型能够比不使用上下文的最新模型更好地理解人类活动,从而改善人类和对象运动预测。致谢:这项工作得到了西班牙政府在项目HuMoURTIN 2017 -90086-R、ERA-Net Chistera项目IPALM PCI2019 -103386和Mar 'ıa de Maeztu卓越印章MDM-2016-0656下的部分资助。我们也感谢英伟达的硬件国产化.7000引用[1] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在ICCV,2019年。2[2] 马 丁 ·阿 乔 对 ky , 苏 米 特 ·钦 塔 拉 和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv:1701.07875,2017。2[3] Emad Barsoum , John Kender , and Zicheng Liu. Hp-gan:通过gan进行概率3d人体运动预测在CVPR中-研讨会,2018年。一、二[4] ErkanBaser 、 VenkateshwaranBalasubramanian 、PrarthanaBhattacharyya 和 KrzysztofCzarnecki 。Fantrack:利用特征关联网络进行3d多目标跟踪。2019年第四期。2[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl:由单一影像自动估计三维人体位姿与形状。在ECCV,2016年。2[6] Arunkumar Byravan和Dieter Fox Se 3-nets:使用深度神经网络学习刚体运动。在ICRA,2017年。2[7] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2d姿态估计。arXiv预印本arXiv:1812.08008,2018。8[8] Ming-Fang Chang,John Lambert,Patsorn Sangkloy,Jag-jeet Singh , Slawomir Bak , Andrew Hartnett , DeWang,Pe- ter Carr,Simon Lucey,Deva Ramanan,etal. Argoverse:3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议上,2019年。2[9] Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew GBerneshawi , Huimin Ma , Sanja Fidler , and RaquelUrtasun.用于精确对象类别检测的3D对象建议。神经信息处理系统进展,第424-432页,2015年。2[10] Yunpeng Chen , Marcus Rohrbach , Zhicheng Yan ,Shuicheng Yan,Jiashi Feng,and Yannis Kalantidis.基于图的全局推理网络。arXiv预印本arXiv:1811.12814,2018。第1、3条[11] 恩里克·科罗纳,考斯塔夫·昆杜,桑娅·菲德勒。旋转对称物体的姿态估计。在IROS,2018年。2[12] 安里 克· 科罗 纳, 阿尔伯 特· 普马 罗拉, 吉莱 姆· 阿莱·尼·阿,弗朗切斯科·莫雷诺·诺格,和格雷·戈里·罗杰斯 。 Ganhand : Predictinghuman grasp affordances inmulti-object scenarios.在CVPR,2020年。2[13] 方浩树,谢淑琴,戴玉荣,陆策武。区域多人姿态估计。在CVPR,2017年。8[14] 卡特琳娜·弗拉基亚达基,谢尔盖·莱文,潘纳·费尔森,和吉坦德拉·马利克.用于人体动力学的循环网络模型。在ICCV,2015年。一、二[15] Partha Ghosh、Jie Song、Emre Aksan和Otmar Hilliges。学习人体运动模型进行长期预测。2017年1[16] Georgia Gkioxari Ross Girshick和Jitendra Malik。整体和部分的动作和属性。在ICCV,2015年。2[17] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS,2014。2[18] Alexander Grabner、Peter M Roth和Vincent Lepetit。野外物体的三维姿态估计和三维模型检索。在IEEE计算机视觉和模式识别会议论文集,第3022-3031页,2018年。2[19] 放 大 图 片 作 者 : David G. Kim , Bryan Russell ,andMathieuAubry. AtlasNet:一个学习3D表面生成的方法。在CVPR,2018年。2[20] Liang-Yan Gui,Yu-Xiong Wang,Xiaodan Liang,andJose 'MF Moura.对抗性几何感知人体运动预测。在ECCV,2018。一、二、六[21] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。3[22] Roei Herzig、Moshiko Raboh、Gal Chechik、JonathanBe rant和Amir Globerson。用置换不变结构化预测将
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功