没有合适的资源?快使用搜索试试~ 我知道了~
他们会去哪里?使用条件变分自编码器预测Panna Felsen1,2,Patrick Lucey2和Sujoy Ganguly21BAIR,UC Berkeley2 STATSpanna@eecs.berkeley.edu,{plucey,sganguly} @ stats.com抽象。同时准确地预测多个交互智能体的行为是计算机视觉应用的迫切需要要被广泛部署(例如,自主车辆、安全、监视、运动)。在本文中,我们提出了一种使用条件变分编码的技术,其中,hearnsa model t h a t“p e ron ali z es”p e r o n d i c i t“p er o n e s”p e r o n d i c it“p e r o n a l i c i t“p e r o n d i c i d i t“p er o n d i c i d i t”p e r o n e r“p e r o n e r i t”p e r o n“p e ro考虑到可用数据的数量及其对抗性,我们将重点放在篮球运动,并表明我们的方法有效地预测特定于上下文的代理运动。我们发现,我们的模型生成的结果是以前最先进方法的三倍准确(5.74英尺与2.74英尺)。17.95英尺)。关键词:预测,运动预测,多智能体跟踪,上下文感知预测,条件变分自动编码器1介绍人类不断地预测周围环境的未来状态一个人向另一个人伸出手很可能是主动握手。一对夫妇走进一家餐馆,很可能是在找一张两人桌一个防守的篮球运动员很可能试图保持在对手和篮筐之间。这些预测对于塑造我们的日常互动至关重要,因为它们使人类能够在人群中导航,在体育比赛中得分,并通常遵循社会习俗。因此,成功部署以与人类交互的计算机视觉系统必须能够预测人类行为。在实践中,部署计算机视觉系统来进行细粒度预测是困难的。直观地说,人们依靠上下文来做出更准确的预测。例如,可能已知篮球运动员留在球道中以帮助保护篮框。利用特定信息或个性化的能力应该可以提高对细粒度人类行为的预测多智能体运动的个性化预测的主要挑战是开发一种表示,该表示同时对在一种情况下出现的可能排列的数量是鲁棒的,并且足够细粒度,因此输出预测处于期望的粒度水平一个典型的雇员2P. Felsen,P.Lucey和S.Gangulya) 输入b)VAE基线c)我们的方法图1:a)给定移动代理的2D轨迹历史(实线),以及代理的子集的未来运动(蓝色虚线);我们的预测任务b)是生成其它代理的最可能的运动(橙色、紫色虚线)。标准方法无法捕获组运动(三角形)的影响c)我们的方法通过结合特定于上下文的信息(圆圈)来提高性能两种方法:i)自下而上-其中每个轨迹具有单独应用于其的相同模型,或所有轨迹都具有一个同时应用于其的模型。数据和目标应用程序主要驱动方法的选择。通常,在具有可变数量的代理的设置中,例如,,自动驾驶汽车或监控,一个使用自下而上的方法[1-3]。当代理的数量固定时,例如、运动、面部和身体姿势,人们更喜欢自上而下的方法[4-7]。虽然对于结构化严重的问题是有效的,但是当前的自上而下的方法不能结合必要的上下文来实现个性化预测,并且通常需要预先计算一些启发式组表示。然而,自下而上的方法可以通过一个大的细化模块进行个性化[1]。在本文中,我们表明,通过使用条件变分自动编码器(CVAE),我们可以创建一个生成模型,同时学习潜在的表示并可实现年龄限制的性能。由于大量的数据及其对抗性,多智能体的性质,我们专注于预测篮球运动员的运动路径具体来说,我们解决了预测玩家在游戏期间的运动路径的问题1a)。我们证明了我们的方法在一个新的篮球数据集上的有效性,该数据集由来自1200多场比赛的比赛序列组成,其中包含球员和球的位置数据。为了理解初始数据表示、上下文、Agent轨迹预测的个性化和生成式建模的功能,我们将问题分为三个部分。首先,了解数据表示的作用在预测上,我们根据所有球员的运动历史来预测进攻(图1)。(见第1b段)。通过应用对齐的多智能体轨迹,我们最大限度地减少排列的问题,让我们的组表示的球员运动,以优于目前的最先进的方法。接下来,为了理解上下文的作用,我们比较了给定的运动的攻击性代理的预测预测细粒度对抗性多智能体运动3防守球员和球队身份我们使用单独的编码器用于上下文和玩家/团队身份,我们将其连接到变分层,而不是在排名和细化层中使用,因此直接充当条件。通过以比对和身份为条件,我们可以生成任何代理组的非常准确,细粒度的预测,而不需要额外的细化模块(图1c)。最后,我们解决了预测运动的子集的球员(进攻和防守的混合)的挑战再次,我们发现,我们的CVAE远远优于以前的国家的最先进的方法的两个因素,它可以作出合理的预测,只有运动的历史和球员和球队的身份时,预测未来的运动的所有10名球员。我们的主要贡献是:1. 如何在CVAE中使用上下文和身份作为条件,从而消除对排名和细化模块的需求。2. 利用多智能体比对进行个性化预测3. 一个细粒度,个性化,对抗性多智能体跟踪数据的数据集,将公开用于研究目的。2相关工作Forecasting Multi-Agent Motion Lee等[1]提供优秀的评论最近的路径预测方法,其中他们记录了以前的作品,利用经典方法,反向强化学习,交互,顺序预测和深度生成模型。对于预测多智能体运动路径,有两个主要的工作机构:自下而上和自上而下的方法。关于自下而上的方法,其中代理的数量不同,Lee等人。[1]最近提出了他们的DESIRE框架,其中包括两个主要模块。首先,他们使用了基于CVAE的RNN编码器-解码器,该编码器-解码器生成了多个看似合理的预测。这些预测连同上下文一起被馈送到分配奖励函数的排名和细化模块然后迭代地细化预测以获得最大累积的未来奖励。 他们展示了自动驾驶汽车和无人机数据的方法,并优于其他基于RNN的方法[3];然而,在没有细化模块的情况下,预测结果很差。为了预测在拥挤的空间中移动的可变数量的人,Alahi等人。 [2]由于“社交LSTM”的定义,其中社交池化层中的LSTM被连接。这种方法背后的直觉是,模型只关注彼此靠近的人,而不是利用场景中所有可能的信息。然后,该模型将从数据中学习该行为,这被证明比使用手工制作的功能(如社会力量)的传统方法有所改进[8]。许多作者已经将类似的方法应用于使用轨迹的多智能体跟踪[9几乎所有的工作,认为多个代理商通过自上而下的方法都与体育运动中的行为建模。Kim等人[12]使用所有球员的全局运动来预测足球中球的未来位置陈4P. Felsen,P.Lucey和S.Ganguly等人[13]使用嘈杂的球员检测的占用图来预测篮球广播的相机运动。Zheng等人[14]使用基于图像的球员位置随时间的表示来模拟未来的位置。篮球。Lucey等人[5]从原始位置数据中学习角色表示,而Le等人,[7]利用深度神经网络的类似表示来模拟整个足球队的运动路径。Felsen等人[15]使用手工制作的功能来预测未来的水球和篮球比赛。最后,Su et al.[16]使用以自我为中心的外观和联合注意力来模拟社会动态并预测篮球运动员的运动。在本文中,我们利用的代表性,最接近类似乐等。[7],[1]使用的CVAE方法,以及类似于[16]的预测任务。跟踪数据推荐系统的个性化,其为各种任务提供个性化预测,通常使用矩阵分解技术[17]。然而,这种技术的操作假设,一个可以线性分解的数据,使用手工制作的功能来捕捉非线性。然而,结合深度模型和海量视觉数据,基于视觉数据的推荐引擎开始出现。最近,邓等。[18]使用因子化变分自动编码器来模拟观众对全功能长度电影的反应。Charles等人[19]提出了使用CNN来操作应用程序的应用程序。Insafutdinov等人,[6]使用图分割来对相似的身体部位进行分组,以实现有效的身体姿势跟踪。在所有这些工作中,他们使用他们的深度网络来找到编码器状态的低维嵌入,他们使用这些嵌入来个性化他们的预测。在这项工作中,我们遵循了类似的策略,但包括在变分模块中的嵌入。条件变分自动编码器变分自动编码器[20]类似于传统的自动编码器,但增加了潜在空间的正则化,这允许在各种上下文中生成新的示例[21,22]。由于细粒度预测的任务自然是历史和上下文确定未来运动的任务,因此我们利用条件变分自动编码器(CVAE)[23,24]。在计算机视觉中,CVAE最近被用于修复[25,26],并用于预测复杂场景中智能体的未来运动在本文中,我们应用的历史和周围环境的条件反射的想法来预测多个代理的个性化对抗运动没有排名或细化。3篮球跟踪数据集团队运动为评估个性化行为模式提供了理想的环境。首先,体育运动中存在大量的标记数据,包括每个运动员的潜在数千个数据点。此外,团队运动中的行为是明确定义的和复杂的,多个代理同时相互作用的合作和对抗。因此,运动跟踪数据是完全非结构化的跟踪数据(例如,其中代理的数量不受约束)和高度结构化预测细粒度对抗性多智能体运动5图2:数据集示例来自我们的篮球数据集,其中包含95,002个12秒的进攻(彩色),防守(灰色)和球(橙色)2D俯视轨迹序列。每个玩家的身份、团队和规范位置都是已知的。数据(例如身体姿势或面部跟踪,其中代理的数量既固定又物理连接)。为此,我们将篮球作为团队目标运动的一个典型例子,并引入了一个新的篮球数据集。我们提出的数据集由2015/16 NBA赛季1247场比赛的2D篮球运动员和球头顶视点轨迹的轨迹是从六个固定的、校准的摄像机的STATS场内系统获得的,该系统将球员和球的3D位置投影到球场的2D俯视图上图2可视化了两个示例序列。每个序列,采样频率为25赫兹,具有相同的球队在进攻的整个持续时间,结束于一个镜头,营业额或犯规。通过消除球队从防守切换到进攻的过渡打法,我们限制了序列,以包含持续的进攻和防守。每一个序列都是以球场中心为中心并对齐的,所以进攻总是跟不上球场的节奏。在我们的实验中,我们以5Hz采样轨迹数据,从而在不损害关于方向的快速变化的信息的情况下降低数据维度。个性化我们用其球员身份、球队、官方位置(即球员的位置)来标记每个序列。,控球/得分后卫,小/大前锋,中锋),和对齐位置(第4. 3节)。只有在所有序列中具有最多游戏时间的210个玩家被分配唯一身份。其余的玩家由他们的规范位置标记,从而限制了玩家身份的集合数据被随机分成训练集、验证集和测试集,每个分别有60 708、15244和19 050个序列4方法我们将多智能体轨迹预测问题框架如下:在2D环境中,在时间历史上观察到交互代理的集合A[t,t]的轨迹X[t0,tq]={X[t0,tq]}|. 的轨迹历史0qAii∈A第i个代理被定义为X[t〇,tq]={xt〇,xt〇+1,.,xtq},其中xt表示2D代理。我我在时间t的轨迹坐标。我们希望预测未来6P. Felsen,P.Lucey和S.Ganguly一PK一P一K一C输入X[t0,tq]̺X(tq,tf]Y(tq,tf]图3:模型架构。 到轨迹编码器的输入是所有轨迹X[t〇,tq]的跟踪历史、所述轨迹和所述轨迹xtX(tq,tf]。这是一个很好的方法一个K上下文X(t,q,t,f,i)被 编码为H。独 热编码的 球员或球队身份iii)编码为Ηρ。iv)变分模块预测了N(μ z,Σ z)的平均值μz和标准差Σz。一个randomsamplezfromN(µz,Σz)被输入到解码器,连同条件HC,Hρ和最后一秒的运动X[tq−fps,tq]。V)解码器然后预测未来的p 。 KLD和L2丢失的情况较为严重。运动,到时间tf,代理的子集P A。换句话说,我们的目标是学习后验分布P(Y(tq,tf])。|X[t0,tq],O)的未来轨迹P A子集P中的智能体的运动,具体地Y(tq,tf]={Y(tq,tf]}|j∈P。PJ除了观察到的轨迹历史之外,我们还将我们学习到的未来轨迹分布以其他可用的观察O为条件。特别地,0可以由以下组成:1)P中的代理人的身份,以及2)未来上下文C,由未来轨迹X(tq,tf]={X(tq,tf]}|∀ℓ∈Kof agents inK集合K As. t.K∪P=A,K∩P={}.其中一个主要贡献是工作是如何将各种类型的信息包含到O中,以及每种信息类型对Y(tq,tf]的预测精度的影响(5.1节)。我们模型的条件和输入都在它们的编码器中编码为了学习后验,我们使用CVAE,其允许轨迹的条件生成,同时对未来预测的不确定性进行建模。在我们在这种情况下,CVAE学习近似分布P(Y(tq,tf]|X[t0,tq],O)P A通过引入随机的Dz维潜在变量z。CVAE使通过学习分布来解决一对多问题,例如预测Q(z=z|X [t0,tq],0)的最小约束为Y(tq,tf]。一个P图3显示了我们的整体模型架构,分为五个模块:i)轨迹编码器,其中X[t 〇,tq]和0作为输入,ii)上下文编码器,其中X(tq,tf]作为输入,iii)恒等编码器,其中X作为输入,iv)变分模块,以及V)轨迹解码器,其中采样的潜在变量z(and)作为输入。输入到可变时间的输入是轨迹历史X[t〇,tq]与上下文和身份的联合编码。轨迹历史、上下文和身份充当我们在(ii)上下文编码器HCiv)(tq,tf]XKHC变分(一)µzv)[tX0,tq]一轨迹编码器高XzN(µ,Σ)zz解码器YΣzDKL(N(0,1))X[tq−1,tq]PHY身份编码器H̺iii)二语损失K预测细粒度对抗性多智能体运动7PKPP一CVAE,其中上下文和身份在与输入到解码器的z进行比较之前各自单独编码。 对于z ∈,j∈y∈h∈ y∈X [ t q − 1,t q ],j ∈ y∈ h∈ y∈ x[ t q − 1,tq]是P中年龄n的观测值的集合。这鼓励模型预测与观察到历史,因为我们的解码器输出X[tq−1,tq]与Y(tq,tf]级联。P P4.1训练阶段我们已经将潜变量分布建模为正态分布.ΣQz= z|X [t0,tq],X(tq,tf],=Q(z=z|Hx,HC,H)一个KN(µz,(一)因此,在训练时间,变分模块最小化Kullback-Leibler(KL)发散(DKL),并且轨迹解码器最小化欧几里得距离¨ ¨2Y−Y 对于simpl icity,letY=(X [tq−1,tq],Y(tq,tf])。所有的一切都是�P2¨ ¨2¨ˆ ¨L=<$Y−Y<$2.Σ+βDKL(P ||Q)、(2)其中Pz|X[t0,tq],X(tq,tf],=N(0, 1)是先验分布,β是一个K加权因子来控制损失项的相对规模。我们发现,当β= 1时,我们的无条件模型(VAE)可以粗略地预测平均轨迹,而当β1时,我们能够预测依赖于输入的运动。在我们提出的模型中,我们观察到β= 1的性能与β=1的性能一样好,因此在我们所有的实验中,除了vanilla VAE,我们使用β= 1。4.2测试阶段在测试时,输入到轨迹编码器的是所有测试的轨迹历史。代理X[t0,tq],未预测的代理的未来轨迹X(tq,tf],以及一个K这是一个非常复杂的问题。在执行任务期间,变化始终会导致代码流中断HX,其也以上下文X(tq,tf]和参与者身份为条件,并且returnsasamleoftherandomlatentvarialez 该jectorderenfer e nte r4.3轨迹对准网络输入是每个2D代理轨迹的级联。例如,输入X[t 〇,tq]形成|一|×(tq·5)× 2数组,其中|一|是代理的数量,tq·5是以5 Hz采样的t q秒内的时间样本的总数。编码多智能体轨迹的一个重大挑战是8P. Felsen,P.Lucey和S.Ganguly一是排列紊乱的存在。特别地,当我们连接A中所有代理的轨迹以形成X[t0,tq]时,我们需要选择代理的自然和一致的排序如果我们以随机顺序将它们连接起来,那么具有相似轨迹的两个相似策略将具有相当不同的表示。为了最小化排列混乱,我们需要一个从一个游戏到另一个游戏都一致的代理排序。如果我们有一个可变数量的代理,它是自然的使用代理轨迹的基于图像的表示。在我们的例子中,我们有固定数量的代理,我们使用基于树的角色对齐来对齐轨道[28]。这种对准最近已被证明可使重建误差最小化;因此,它提供了多代理轨迹的最佳表示。简而言之,基于树的角色对齐使用两个交替步骤,i)代理位置与模板的基于期望最大化(EM)的对齐,以及ii)对齐的代理位置的K均值聚类,其中聚类中心形成用于下一个EM步骤的模板。EM和聚类之间的交替导致树中的叶节点的分裂,直到在聚类中存在少于M个帧或者树的深度超过D。在我们的实验中,我们使用D= 6,并为进攻(M= 400)和防守(M= 4000)训练单独的树。为了学习每帧对齐树,我们使用了2014/15赛季10场NBA比赛的120 K随机采样帧。4.4实现细节架构所有编码器由N个完全连接的层组成,其中每个层具有大约一半数量的单元作为其输入层。我们用不同的输入历史、预测范围和玩家表示进行了实验,因此我们为每个实验动态地设置了层结构,同时分别在轨迹和上下文编码器的最后一层中保持64和16个单元。对于身份编码器,最终输出大小取决于身份恢复,其中包括:1)P中的玩家的(多个)团队的(级联)编码(输出维度5用于单个团队,并且输出维度16用于混合),以及2)P中的每个玩家身份的(级联)独热编码。有关完整体系结构的详细信息,请参见补充资料。学习在训练时,我们通过ADAM优化器的反向传播最小化损失,批量大小为256,初始学习率为0.001,每10个200K的epoch我们还对训练集进行随机采样,以便序列在一个时期中出现的次数与具有唯一身份的玩家数量成正比。5实验我们评估以下因素对预测性能的影响:1)我们提出的模型架构中的每个信息类型输入(第5.1节); 2)输入和输出中的代理的数量和类型,即、仅进攻、仅防守、以及进攻和防守(第5节)。2);3)在生产过程中的预存数据预测细粒度对抗性多智能体运动9一K(第5.3节); 4)历史输入的长度(5.4节); 5)预测范围的长度(5.5节)。我们的基准是:基于速度的外推、最近邻检索、普通和社交LSTM以及VAE。检索是使用最近邻搜索对齐(第4.3节)轨迹历史的代理,我们希望预测,匹配的评估轨迹历史的训练轨迹历史的基础上最小欧氏距离。然后,我们将前k个结果的未来轨迹的误差与地面实况进行比较。我们发现,这些预测是非常差的,执行显着不如基于速度的外推。接下来,我们将我们的性能与之前最先进的递归预测方法进行了比较,即vanilla LSTM和Social LSTM。我们发现,vanilla LSTM在4秒预测范围内表现不佳,误差约为25英尺。包含社交池改善了LSTM的性能,对于4s预测水平区域具有18ft误差。然而,在小于6秒的时间范围内,社交LSTM的表现仍然明显不如vanilla LSTM方法和SocialLSTM方法的糟糕表现与之前在不同数据集上进行的预测篮球运动员轨迹的工作一致[16]。因此,对于大多数实验,我们使用基于速度的外推作为我们的基线,因为它具有最佳性能。我们报告三个指标。首先,预测轨迹和地面实况之间的L2距离(ft),在每个代理的每个时间步长上平均第二个是智能体轨迹的预测和地面实况之间的最大距离,对所有智能体轨迹进行平均最后是未命中率,计算为L2误差超过3英尺的时间分数5.1什么信息能给我们最好的预测?在我们提出的问题中,有四个信息源具有改善预测的潜力:i)所有代理的轨迹历史X[t0,tq],ii)未预测的玩家的未来运动X(tq,tf],即iii)玩家/团队身份,即个性化和iv)代理对齐。观察到的轨迹历史作为模型的输入,并固定为4秒。最终1秒的轨迹历史的球员,我们预测,上下文和身份被视为条件(图。3),而代理对齐使得能够进行有效的轨迹编码。对于这一部分(表1),我们只预测进攻,这避免了混淆代理类型的影响与信息源的影响我们还将预测范围固定在4秒。为了理解单独对齐的影响,我们将基线VAE的结果与随机与角色对齐的药剂进行比较。在没有对齐的情况下,VAE具有中等性能,优于基线。例如,在图1的第一行4 VAE捕获了基于速度的外推法不能捕获的运动员(红色和紫色)的共同运动然而,VAE不捕获两个代理交叉。为了了解每个条件的影响,我们随机排序输入轨迹,并使用各种条件进行一组消融研究10P. Felsen,P.Lucey和S.Ganguly方法对准条件错误(进攻,未来4秒)历史上下文身份平均距离[ft]/(顶部-5)马克斯区未命中率速度----7.7714.4582.18检索作用---11.41/(8.80)28.5786.77VAE随机---7.1019.2474.90VAE作用---6.8518.8472.78CVAE随机1 s没有一没有一6.9018.9873.83CVAE随机没有一编码没有一6.9718.4675.29CVAE随机没有一没有一团队7.0519.2574.15CVAE随机没有一没有一球员7.0219.1775.15CVAE随机没有一编码团队6.9818.4675.65CVAE随机1 s没有一团队6.9118.9574.18CVAE随机1 s编码没有一6.7318.1174.64CVAE随机1 s编码团队6.7618.1574.97CVAE随机1 s编码球员6.6418.0074.29CVAE位置1 s编码团队6.0916.8770.37CVAE作用1 s编码没有一5.8116.4166.67CVAE作用1 s编码团队5.8016.4566.39CVAE作用1 s编码球员5.9617.0367.07表1:4s历史和预测范围的进攻预测误差。 我们测试三种不同的轨迹对齐i)随机,ii)规范的位置,和iii)的作用。我们还测试了3个条件:a)前一秒的球员动作(历史),b)接下来的4秒的防守动作(上下文),c)一个热编码的球员或球队(身份)。未命中率以阈值3英尺计算。我们分别应用每个条件来比较他们对表现的个人影响,包括比较团队与球员身份的使用。有趣的是,使用单个条件的VAE和CVAE表现相似。然而,如果我们将条件句组合起来,我们会创建一个更强的联动信号,例如。图中第一排的红色和紫色选手。4.尽管如此,由于所有的条件和随机代理排序,我们无法获得轨迹的交叉。当我们都对齐和条件,我们能够正确地预测轨道交叉(红色和紫色的球员在图中的第一行。第4d段)。特别是,我们看到通过包括上下文、历史和团队身份(表1中的这些结果意味着,对齐,上下文和历史包含互补的信息。 虽然对齐和条件反射改善了我们的预测,但我们很难预测运动的突然变化(图3第3行的红色玩家)。4d),和静止的玩家(图1的行1中的绿色玩家和行3中的蓝色玩家)。第4d段)。当我们使用基于多模板树的角色对齐时,通过包括团队身份发现的适度改进消失了;这意味着所述比对包含通过以组标识为条件而提供的附加信息。换句话说,变分模块用正则对齐找到的潜在空间中的集群是团队敏感的这种对团队的敏感性意味着某些团队会执行某些集体动作。然而,在树对齐之后,预测细粒度对抗性多智能体运动11(a) 速度(b)VAE(c)CVAE(d)CVAE随机排列角色排列图4:进攻球员预测。给定所有球员的4s轨迹历史(灰色)(防守未示出),我们预测(实线)接下来的4s进攻球员运动。虚线是地面实况。每一行代表相同的游戏,并且每一轨迹颜色对应于一个玩家。颜色强度与可能性成比例。列a)基于速度的外推。列b)具有随机轨迹对齐的VAE。列c)具有随机轨迹对齐和所有条件(玩家ID)的CVAE。列d)将角色对齐添加到CVAE(团队ID)。这就消失了,这意味着给定最佳排列的聚类存在于玩家组合的水平之下。5.2我们可以预测多少和哪些代理人为了评估我们可以预测多少和哪些代理人,我们将预测任务分为i)只预测所有5个进攻代理人(第5.1节),ii)只预测所有5个防守代理人,iii)预测进攻和防守代理人的混合,从每一个(混合1v1)到所有10个代理人(混合5v5)。仅防御预测防御比我们的其他任务更直接,因为我们需要对关闭的计划进行评估。 因此,这份报告包含了很多关于辩方动议的信息。与进攻相比,防守预测的整体改善支持了这一点(表2a和b)。条件句和对齐效果的变化趋势是12P. Felsen,P.Lucey和S.GangulyMethod-Align-Pl.人员错误:平均距离[ft](4 s历史)方法:CVAE-角色-团队混合物错误:平均距离[ft]1v14.192v24.883v35.214v45.285v55.74CVAE角色团队混 合 5v52.443.925.747.218.33(a) 观测历史(b)预测范围(c)数量玩家表2:预测错误消融。a)我们针对4s预测改变所观察到的历史,并且观察到最佳轨迹历史是4s,尽管略微如此。b)给定4s的观测历史,我们改变预测范围,并且观察到预测误差作为时间范围的函数单调增加c)我们改变给定4s历史的4s视野的预测的玩家的数量,并且观察到随着我们将每个团队的代理的数量从1增加到5,平均预测误差对于所有的实验,我们都以之前的1、所有未预测的代理的未来运动以及所选的玩家或团队身份为条件。所有误差均以英尺为单位。与只预测进攻的结果相似,表明无论预测对手如何,信息的价值都是相似的因此,我们使用角色对齐和条件的历史,上下文和团队的身份在随后的实验。混合进攻和防守我们最具挑战性的预测任务是同时预测进攻和防守的动作。这类似于问:我们能预测运动的未观察到的代理商给定的运动的其余看到的代理商?在试图预测所有球员的最一般情况下,我们发现预测性能将进攻和防守预测之间的差异分开(表2a)。接下来,我们研究了在4s的时间范围内,给定4s的历史,我们可以预测每个团队有多少代理(表2c)。令人惊讶的是,当预测所有10名球员(5v5)与每个球员(1v1)在进攻和防守(5.7英尺与4.2英尺)上的运动时,我们发现相对轻微的性能下降在预测所有10个代理的情况下,唯一的条件是球员或球队的身份和历史的前1。输入是4s轨迹历史。5.3人员如何影响预测?由于比对改善了我们的预测结果,我们研究了每个角色的预测误差(图11)。5a)揭示某些角色是否比其他角色更容易预测。我们发现,与仅预测防守相比,预测进攻的每个角色预测误差有16%的差异。然而,每个角色的变化不举行时,预测的代理的混合物,在这种情况下,所有代理的预测误差增加。5.4我们需要多少历史?接下来,我们测试了观察到的轨迹持续时间对预测性能的影响,即历史长度如何影响预测。条件句1 s2 s4 s6 s8 s速度进攻1.934.107.7211.50 24.02CVAE-rand-ID进攻2.664.236.648.14九点四一CVAE-角色-无进攻2.384.005.817.07八点二八CVAE角色团队进攻2.353.955.807.08八点零七分CVAE角色团队国防2.083.014.104.98 5.85香草LSTM混合5v510.44 18.29 25.36 28.07 29.56Method-Align-Pl.人员错误:平均距离[ft]1 s4 s8 s速度进攻7.74 7.727.74CVAE-rand-ID进攻7.06 6.646.86CVAE-角色-无进攻6.04 5.816.21CVAE角色团队进攻6.05 5.806.16CVAE角色团队国防4.23 4.104.31CVAE角色团队混合5v55.75 5.745.76预测细粒度对抗性多智能体运动13香草LSTMCVAE关闭社会LSTMCVAE-Mix速度关闭CVAE-Def6420球员角色2826242220181614121086421 2 4 6 8时间(s)(a) 每个角色的误差(平均距离,英尺)。(b)误差与预测范围。图5:预测误差消融。对于所有实验,我们提供了4秒的历史,并以前1秒和未预测的所有代理的未来为a)给定4s的观测历史,我们评估4s预测范围的每个角色的预测误差防守比进攻更容易预测,尽管混合(2v2)似乎比进攻有更好的整体预测,但每个角色的预测略差,这使得防守变得更容易b)给定4s的观测轨迹历史,我们将预测的轨道作为水平线的函数来计算。基线是velocity(仅用于进攻),vanilla LSTM和Social LSTM(用于所有10个代理),我们将其与我们仅在进攻和防守以及所有10个代理的混合上运行的最佳方法进行精确值报告于表2b中。是我们预测的代理人的前1,我们没有预测的球员的未来运动,以及球队或球员身份。我们将观察到的历史从1-8秒变化,并预测随后的4秒。和以前一样,防守是最容易预测的,并且多模板角色与团队身份的对齐提供了最佳的预测性能(表2a)。我们发现4秒的历史几乎是最佳的,因为球员运动在这个时间尺度去相关,或者我们的编码器架构不能恢复在更长的时间尺度的相关性5.5我们能预测多远为了评估我们可以预测多远的未来,我们提供了所有玩家动作的4秒历史,并预测了最多8秒。此外,我们提供了玩家动作的最后1和未预测代理的未来条件句在图6中,我们可以清楚地看到,我们低估了运动的曲率(例1中的青色,T=6s),或低估运动的复杂性(行1中的紫色,T=6s,行2中的红色,T=6s)。正如预期的那样,预测误差随着预测时间范围单调增加(图11)。5b),当我们包括团队身份时,预测误差随时间范围的变化较小。此外,我们看到,预测错误的防守是小于混合进攻和防守或进攻单独。我们还注意到,我们的表现远远超过了目前最先进的预测方法(图1)。第5b段)。值得注意的是,即使在预测所有的运动6.266.46.266.46.255.376.045.986.035.144.524.614.714.28攻 防 混合4.464.434.723.964.143.7错误:平均值距离(英尺)14P. Felsen,P.Lucey和S.GangulyT=1sT=2sT=4sT=6sT=8s图6:作为时间范围的函数的预测。我们输入每一个日志的前4个日志,并在每个日志T上生成一个副本。条件是防守的未来运动(未显示)、进攻历史的最后一秒和球队身份。每行代表一个不同的示例,每种颜色代表基于玩家树的角色。虚线是基本事实。我们的表现是Social LSTM的三倍(对于4秒的时间范围)。同样,重要的是要注意,LSTM基线的性能与之前在类似数据集上的结果一致[16]。最后,我们注意到,由山等人提出的球员轨迹的预测。[16]它使用了更多的信息,特别是所有球员的自我中心的外观产生了每个球员的平均误差为11.8英尺(3.6米)。虽然不能直接比较,但这显示了我们提出的生成方法的强大功能:使用更少的信息,我们的方法产生了明显更好的结果。6结论我们已经表明,基于条件变分自动编码器(CVAE)的生成方法是预测对抗团队游戏中玩家轨迹的任务的最新递归框架的三倍准确。此外,这些预测通过对历史和上下文的预测进行调节来改进,即未被预测的智能体的运动及其身份。此外,在可用的情况下,可以通过提供多模板对齐的数据来发现预测质量的进一步改进通过对上下文和历史进行调整和调节,我们可以产生非常准确的、特定于上下文的预测,而不需要排名和细化模块。我们还发现,我们的预测是敏感的球员的角色,在对齐过程中确定。然而,当单独提供玩家身份时,我们没有发现任何额外的预测改进对参与者角色的敏感性,而不是对身份的敏感性意味着角色包含了仅在身份中持有的信息。因此,更细粒度的个性化可能需要额外的玩家数据,例如体重,身高,年龄,上场时间。预测细粒度对抗性多智能体运动15引用1. Lee,N. Choi,W. Vernaza,P.,Choy,C.,Torr,P.,Chandraker,M.:DESIRE : Distance Future Prediction in Dynamic Scenes with InteractingAgents.(2017年)2. Alahi,A.,Goel,K.,Ramanathan,V.Robicquet,A.Fei-Fei,L.Savarese,S.:社交LSTM:拥挤空间中的人体轨迹预测。(2016年)3. Jain,A.,Singh,A.,Koppula,H.,Soh,S.,Saxena,A.:通过传感融合架构进行驾驶员活动预测的递归神经网络。(2016年)4. 阿赫特岛Simon,T.汗,S.,马修斯岛Sheikh,Y.:双线性时空基模型。ACM Transactions on Graphics(TOG)(2012)5. Lucey,P.,Bialkowski,A.,Carr,P. Morgan,S.,马修斯岛Sheikh,Y.:使用玩家角色表示和发现敌对团队行为。(二零一三年)6. Insafutdinov,E.,Andriluka,M.,Pishchulin,L.唐,S.,Levinkov,E.,Andres,B.,Schiele,B.:ArtTrack:在野外进行多人追踪。(2017年)7. Le,H.,Yue,Y.,Carr,P.Lucey,P.:多智能体协同模仿学习(2017年)8. Yamaguchi,K. Berg,A.,奥尔蒂斯湖Berg,T.: 你和谁在一起,你要去哪里?(2011年)9. Butt,A.,Collins,R.:基于拉格朗日松弛的最小费用网络流多目标跟踪(二零一三年)10. 王,S.,Fowlkes,C.:多目标跟踪的最优参数学习。(2016年)11. Maksai,A.,王,X.,Fua,P.:球员拿球做什么:物理约束的交互建模。(2016年)12. Kim KGrundmann,M.,Shamir,A.,马修斯岛Hodgins,J.埃萨岛:运动场预测动态运动场景中的游戏演变。(二零一零年)13. 陈杰,Le,H.,Carr,P. Yue,Y.,Little,J.:使用递归决策树学习实时相机规划的在线平滑预测器。(2016年)14. Zheng,S.,中国科学院,Yue,Y.,Lucey,P.:使用深度分层网络生成长期轨迹。(2016年)15. Felsen,P.阿格拉瓦尔,P.,Malik,J.:接下来会发生什么?:预测运动员在体育视频中的移动。(2017年)16. Su,S.,Hong,J.P.,施,J.,Park,H.S.:第一人称视频的社交行为预测CoRR abs/1611.09464(2016)17. Koren,Y.,贝尔河Volinksy,C.:推荐系统之矩阵分解技术第42集9.1The Fighting(2009)18. 邓志,Navarathna河Carr,P. Mandt,S.,Yue,Y.,马修斯岛Mori,G.:用于模拟观众对电影的反应的因子化变分自动编码器(2017年)19. Charles,J. Pfister,T.,Magee,D.,Hogg,D.,齐瑟曼,A.:个性化人类视频姿态估计。(2016年)20. 金玛,D.P.,Welling,M.:自动编码变分贝叶斯。ArXiv预印本arXiv:1312.6114(2013)21. Gregor,K.,达尼赫尔卡岛格雷夫斯,A.,Wierstra,D.:DRAW:用于图像生成的递归神经网络。CoRR abs/1502.04623(2015)22. 波曼,S. R., Vilnis,L., Vinyals,O., Dai,A. M., Jo'zefowicz,R.,Bengio,S. 从连续空间生成句子。CoRR abs/1511.06349(2015)23. Kingma,D. Mohamed,S.,Rezende,D.,Welling,M.:深度生成模型的半监督学习。(2014年)16P. Felsen,P.Lucey和S.Ganguly24. Sohn,K.,李,H.,Yan,X.:使用深度条件生成模型学习结构化输出表示。(2015年)25. van den Oord,A.,Kalchbrenner,N. Kavukcuoglu,K.:像素递归神经网络。CoRR abs/1601.06759(2016)26. Pathak,D.,Krahenbuhl,P. Donahue,J.,Darrell,T.,Efr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功