没有合适的资源?快使用搜索试试~ 我知道了~
2375Trajectron:基于动态时空图的概率多智能体轨迹Boris Ivanovic Marco Pavone斯坦福大学{borisi,pavone}@ stanford.edu摘要开发安全的人机交互系统是向社会中广泛集成自动代理的必要步骤。这类系统的一个关键组成部分是对许多潜在的未来(例如:轨迹)中的其他代理。 为此,我们提出了Trajectron,一个图结构的模型,预测许多潜在的未来轨迹的多个代理同时在高度动态和多模式的情况下(即。其中场景中的代理的数量是时变的,并且对于每个代理存在许多可能的高度不同的未来)。它结合了来自回流序列建模和变分深度生成建模的工具,为场景中的每个代理生成未来轨迹的分布我们展示了我们的模型在几个数据集上的性能,在标准轨迹预测指标上获得了最先进的结果,并引入了一个新的指标来比较输出分布的模型1. 介绍对人类未来行为进行建模是开发成为社会一部分的安全自主系统的重要一步。人类自然地能够在许多社会交互场景中导航的主要原因之一(例如,社交网络)是社交网络的一部分。穿越密集的人群或在高速公路入口匝道上进行谈判)的原因是人类具有内在的心理理论(ToM),这是根据他人的心理状态来推理他人行为的能力目前,大多数自主系统都不具备这种推理能力,这迫使它们以最少的人机交互在低风险角色中运行,这一事实肯定会随着制造业,仓库和运输自动化的不断增长而改变。因此,期望开发可由自治系统使用的计算ToM模型,以通知它们自己的规划和决策制定,帮助它们自然地导航通过相同的社交交互场景。然而,发展人类行为的模型-图1.来自ETH多人轨迹数据集的场景,随着时间的推移而演变。同一场景的无向图表示也是可视化的,说明其结构如何随时间变化。节点和边分别表示为白色圆圈和黑色实线。箭头描绘了潜在的未来代理速度,颜色表示不同的高级代理模式。为了清楚起见,它们只显示一次。最好用彩色观看。涉及解决一系列独特的挑战。一些最严峻的挑战是人类是高度多模态的、动态的和可变的。在这里,“多模态”指的是许多高度不同的未来行为的可能性;“动态”是指人在场景中出现和消失的能力,例如,当他们进入和离开摄像头的视野时,而“可变”指的是在任何场景中可以有不同数量的人的事实,这意味着任何多代理模型需要能够处理可变数量的输入。一个例子的多模态,动态的,和可变的性质,现实世界中的人体运动是说明图。1.一、有针对性的努力分别解决这些挑战中的每一个(或三个中的两个),但很少全部解决。具体而言,多模态是人类轨迹建模的现有方法所忽略的一个方面,因为它们主要集中在预测每个智能体的单个未来轨迹[1,21,26,49,50],而不是可能轨迹的分布[16,24]。我们认为,一个分布是更有用的下游任务(例如运动规划和决策制定),其中诸如方差的信息可用于做出更安全的决策。t=Tt=Tt=T+1.6s t=T+3.2s2376我 们 的 贡 献 是 双 重 的 : ( 1 ) 我 们 提 出 了 Tra-jectron,一个多模态,动态和可变的多智能体场景建模的框架。它有效地对人类轨迹的多模态方面进行建模,并解决了动态图建模的问题,最近被确定为图网络架构中的一个开放问题[5]。(2)我们在标准轨迹预测基准上获得了最先进的性能,优于以前的方法,并提出了一种新的通用方法,比较生成轨迹模型。2. 相关工作人类轨迹预测在人类轨迹预测方面有大量的前期工作。早期的作品,如社会力量模型[21],采用动态系统来模拟影响人类运动的力量(例如,朝向他们的目标位置的吸引力和对于其他人的排斥力,使得能够避免碰撞)。从那时起,许多其他类型的方法将轨迹预测公式化为序列建模回归问题,并且强大的方法,如逆回归学习(IRL)[32],高斯过程回归(GPR)[10,39,50]和递归神经网络(RNN)[1,33,49]已经应用于强大的性能。然而,IRL主要依赖于交互结果的单峰假设[28,34]; GPR陷入了长推理时间的困境,使其不适用于机器人用例;标准RNN方法无法处理多模态数据。其中,基于RNN的模型表现优于传统的工作,因此它们构成了当今许多人类轨迹预测模型的支柱[1,25,49]。然而,RNN本身无法处理空间上下文,因此它们需要额外的结构。这种附加结构的大部分以编码邻近人类信息的方法的形式因此,这些方法中的大多数可以被视为图模型,因为对节点的边界以及它们如何受到边的影响进行建模的问题是人类轨迹预测的更一般版本。图形模型。许多方法已经转向图形结构作为其基本构建块。特别是,时空图(STG)是一个流行的选择,因为它们自然地捕获空间和时间信息,这两个必要的部分多智能体建模。图形结构有三个主要优点,它们(1)自然地允许一般数量的输入到另一个固定模型中;(2)充当一般的中间表示,提供问题的特定领域元素的抽象,并使基于图的方法能够在各种各样的应用中部署;以及(3)鼓励模型重用,因为图的不同部分可以使用相同的底层模型,从而实现诸如超线性参数缩放的益处[24]。不幸的是,许多图形模型依赖于静态图形假设,即图形组件不会随时间变化。概率图形模型(PGM)是图形模型的原则性实例化[7,13,35,47,48]。然而,它们可能遭受长的推断时间,因为从它们采样需要像马尔可夫链蒙特卡罗[9,18]这样的方法另一方面,用于图建模的深度学习方法不会遭受相同的推理复杂性。在用于图建模的深度学习方法中,在其架构中显式地模仿输入问题图的模型之间存在划界(即,图直接定义了深度学习架构的结构)[24,25,31,49]以及将图作为输入并提供n步预测作为其输出的方法[5,6,27,42]。图形作为架构。这组方法通常将代理表示为节点,将它们的交互表示为代理,使用深度序列模型(如长短期记忆(LSTM)网络[23])进行建模,使模型能够通过边缘模型捕获空间关系沿着这种方法的开创性工作是Structural-RNN [25],它为STG建模制定了PGM,并使用图形化LSTM架构实现了它在[1,49]中探索了基于池化的不同值得注意的是,[49]提出了对所有节点的软注意然而,这样做需要在线维护一个完整的图,以确定哪些边是相关的,这是一个O(N2)的命题,随着图的大小而变小,特别是当拥挤的环境中可能有数百人在同一场景中时。[24,31]提出了基于图的建模框架,其利用条件变分自编码器(CVAE)解决多模态,但忽略了对动态图的考虑最近,[16]提出了一个深度生成模型的轨迹,沿着我们的desider-ata。然而,这对于机器人用例来说是不切实际的,因为它的采样速度很慢,而且它的性能还有很多需要改进的地方,这两点都将在第5节中显示。图 表 作 为 数 据 。 另 一 个 图 建 模 范 例 , 图 网 络(GN),以相同的方式表示代理及其交互,但假设有向多图场景结构[5]。在GN中,学习一个函数,它对输入图进行操作,用PGM启发的更新规则更新它们的属性(例如,消息传递[51])。由于这些方法在每个时间步都采用图G,因此它们能够处理在预测步骤之间变化的图。然而,这只是处理动态边的隐式能力,并且仍然不清楚如何显式地处理动态节点和边[5,27]。此外,GN还没有多模态建模能力[5,6]。总的来说,我们选择使我们的模型成为“图即架构”方法的一部分2377关注++伊FCFCFCp(z|1、…N1、…N^目的是产生与预测X匹配的预测X。1、…NN.Σ1、…N1、…NΣi,节点φ,θ,ψ我φ我我我我我1、…N1、…N1、…N3. 问题公式化在这项工作中,我们感兴趣的是共同推理,并同时为每个代理在场景中的未来轨迹的分布我们假设每个场景都经过预处理,以跟踪和分类代理,并在每个时间步获得它们的空间坐标。因此,每个代理i具有分类类型Ci(例如,“行人”)。设Xt=(xt,yt)表示第i个智能体在时刻我我我t且令Xt表示所有座席在一个场景中。 此外,设X(t1:t2)=(Xt1,Xt1+ 1,. . .,X t2)我我我表示时间步长t∈[t1,t2]的值序列。与以前的作品[1,16,49]一样,我们将场景X(1:tobs)中所有代理的先前轨迹作为输入,(tobs+1:tobs+T)1,.,N真实的未来轨迹X(tobs+1:tobs+T)。注意,我们没有假设N是静态的,即, 我们可以有N = f(t)。4. 轨道电子我们的解决方案,我们命名为Trajectron,结合了a4(t⑴ a4(t(2)) a4(t())GMMGMMGMMz变分深度生成模型的元素(特别是,a(t)a4(t⑴ a4(t(2))更大CVAE)、递归序列模型(LSTM)和动态时空图形结构,以产生高)1(z| 、3)z,Z+at(1z,Z+解码器5)at(2z,Z+高质量的多模式轨迹,可对多个人类的未来行为。我们的完整架构如图所示。二、我们考虑人体质心i服从单积分动力学:Ut=Xstect=(xs t e c t,ystect)。这是一图2. 上图:具有四个节点的示例图。a是我们的modeled节点,类型为T3。它有三个邻居:类型T1的b、类型T2的c和类型T1的d。在这里,c即将与a连接。下图:节点a对应的架构。这一数字最好用彩色看。我我我我直觉选择作为一个人改变,例如,步行沿一个方向增加位置,跑步这样做更快。我们对任何人的速度强制执行12.42m/s的上限因此,Trajectron实际上模拟了人类这种建模选择从残差架构[19,20]中得到提示,因为我们最终对改变位置的残差进行建模。由于Xt= X t−1+ U t·t。速度数据其被拟合以最大化数据集D={(x,y)1,. . . ,(x,y)ND}的观测到的 相互作用。这种优化是通过最大化β加权[2,22]对数似然log p(y)的基于证据的下限(ELBO)|x)[12]。形式上,我们希望解决maxΣEzq(z|x,y)log p(yi|xi,z)i=1因为我们可以在数字上区分提供位置X(1:tobs)。因此,我们的全部投入是x=<$X (1:tobs);Xstec(1:tobs);X?(1:tobs)<$∈RN×T×6和tar--βD KL q φ(z|xi,yi)<$p θ(z|xi)其中xi和yi表示过去轨迹信息,并且期望的预测输出,分别用于人类i.得到y =Xstec(tobs+1:tobs+T)∈RN×T×2.我们希望学习pdf p(y |X)。为此,我们利用CVAE框架并引入离散潜在变量z,使得图形表示。当遇到输入问题时,我们首先自动创建一 个表 示场 景 的无 向 图G= ( V ,E )( 如图 11所示)。①的人。节点代表代理,我们根据代理p(y |x)=pz(y |x,z)p θ(z|x)dz(1)空间接近,如在以前的工作[1,24]。编码轨迹历史。我们使用节点历史编码器(NHE)来编码节点这是一zLSTM网络包含32个隐藏维度。形式上,我们的NHE计算能够解释结果[24,43,46]。在我们的工作中p ψ(y|x,z)和pθ(z|x)T1/$T2/(T3/&T1/)编码器LegendLSTM单元M调制功能FC全连接层GMM投影到GMM级联随机采样仅列车时间仅预测时间训练和预测传奇建模节点T1/$Node$的类型为T1T1-T3Edge的类型为T1-T3正在创建的边法线边H(二)EE51-5)MMM6(新台币2元)6(新台币1元)6(t)+++8(新台币2元)8(新台币1元) 8(t)52-5)MMM9(新台币2元)9(新台币1元)9(t)NHE第五章)a(新台币2元)a(新台币1元) a(t)NFE第五章)2378使用神经网络建模ti,节点=LST M.ht−1,xt;WNHE,Ci(三)2379i,节点Ki,节点~hn=hi,enc.i,enci,ki,ki,kikCi我我i,ki,节点i,边缘iki,k我我i,encψ,CiΣ;h其中,Ci是节点i的分类类型,WNHE ,Ci是在相同类型的节点之间共享的LSTM权重。在训练期间,我们还使用节点未来编码器(NFE)来编码节点它是一个具有32个隐藏维度的双向LSTM网络,输出表示为ht+。我们选择使用双向LSTM,因为它在其他序列摘要任务中表现出很强的性能[8]。编码来自邻居的动态影响。我们使用边缘编码器(EE)来合并来自邻近节点的影响。 它们是具有8个隐藏维度的LSTM。形式上,对于节点i和类型k的边,我们的EE计算ttΣt在测试期间计算M是一个更简单的过程,因为每个时间步只需要计算一个N×N切片。这是通过递增计数器上的年龄的边缘(只是检查邻接矩阵的前一步)和计算必要的边缘调制因子(A(te))如果最近创建了边e,并且如果最近移除了e,则R(te))。作为一个例子,如果我们希望鼓励gentle边缘添加(例如。超过5个时间步)和锐边去除(例如,在1个时间步长内),我们可以将我们的滤波器定义为A = 0。2 t e0 ≤ t e≤ 5且R = 1−t e 0 ≤ t e≤ 1,其中te是边e的年龄。我们唯一的条件是A和R是从0开始到1结束。为什么人们可能更喜欢平滑的边缘添加和去除的一个例子是,它拒绝高频切换,例如。如果座席在传感器极限处抖动。ei,k=nxi;j∈Nk(i)xj(四)然后,该调制表示经由附加注意模块[4]与其他边缘影响合并,以获得ht=LST M.ht−1,et;WEE,k得到总边缘影响编码。从形式上讲,其中[a;b]是级联,Nk(i)是邻居沿着类型k的边,WEE,kLSTM在相同类型的边之间共享的权重。st=vTtanh.W1,Ch~ta t= softmax([s+W2,ChtΣ])∈RK我们通过对特定边类型的所有相邻节点求和并将结果馈送到适当的边缘编码器,获得边缘影响rep.怨恨 我们选择将这些表示法结合在一起,我ht=Σatk=1i1iK⊙h~t(七)方式,而不是通过级联,以处理其中,vCi、Wi、Ci、W2、Ci是被共享的学习参数。有固定拱的可变数量的相邻节点相同类型的补间节点。 我们选择使用HT为结构,同时保留计数信息[6,24,25]。然后,这些表示通过标量乘法,根据边缘的年龄调制EE的输出从形式上讲,“查询”向量,因为我们正在寻找与代理的当前状态最相关的边缘组合。我们选择使用加性注意,因为它在最近的序列到序列的广泛探索ti,k=ht⊙minΣM[t,i,j],1μm(五)自然语言处理中的建模架构[8]。总的来说,Trajectron采用了混合边缘组合,[49]第49话,你是谁?j∈Nk(i)其中M是具有形状(T,N,N)的3D边缘调制张量,并且min是逐元素的。M[t,i,j]是在时间t节点i和j之间的边缘调制因子。这使得训练开销最小,因为它将动态边缘包含减少到3元组查找和逐元素乘法。为了处理相同类型的多个动态边缘,我们类似地对边缘的调制函数求和,并应用逐元素最小化,使得得到的组合调制函数被适当地缩放。对于训练,我们通过卷积来预先计算M中的所有值Structural-RNN [25].生成轨迹的分布。有了前面的输出,我们形成了一个级联的表示henc,然后将识别参数化,q φ(z|xi,yi)和先验p θ(z|xi),CVAE框架中的分布[46]。我们从这些网络中采样z,并将hi,enc,z输入解码器。解码器是LSTM具有128个隐藏维度,其输出是具有N个GMM= 16个分量的高斯混合模型(GMM)参数,从中我们对轨迹进行采样。从形式上讲,使用特定的1D过滤器(表示为加法的A和表示为加法的Rti,encti,边ti,节点去除边缘) 这是一个3D的双...包括时间上的邻接矩阵的二元张量φ=MLP。htt+i,节点W;Wφ,CiΣ形状为(N,N,T)。从形式上讲,θ=MLP(ht;Wθ,Ci)(8)M= min{AE+RE,1}(6)其中,λ表示1D卷积,应用minzq φ(z|xi,yi),用于训练p(z|x),用于测试θi元素方面。卷积是独立对于E中的N2个细胞中的每一个,在它们的T深度上。i,kH;h2380y^tGMM. LST M. y^t−1,z,ht中文(简体)2381^ ^您的位置:其中,Wφ、Ci、Wθ、Ci、Wθ、Ci是在相同类型的节点之间共享的学习参数。最后,我们-1. 平均位移误差(ADE):地面真实值和我们预测的传输之间的平均L2距离。t(tobs+1:tobs+T)积分yi 以产生Xi。使用GMM的一个主要好处是它们是分析分布。这意味着下游任务可以利用它们的分析形式并直接使用分布参数而不是首先采样(例如,以确定经验平均值或方差)。其他考虑和实施。 请注意,我们关注的是节点和边类型,而不是单个节点和边。这允许更有效的参数缩放和数据集效率,因为我们在相同类型的图组件之间重用模型权重。根据场景,E和M可以是密集的或稀疏的。在这项工作中,我们不做任何假设的邻接然而,这是可以注入附加结构以使计算对于特定应用更有效的点此外,我们e.G. “Obstacle” or “Tree”, as in prior methodsTrajectron是用PyTorch编写的[37],在运行Ubuntu18.04的台式计算机上进行了训练和实验,其中包含AMD Ryzen 1800X CPU和两个NVIDIA GTX 1080 TiGPU。5. 实验我们在两个公开的数据集上评估了我们的方法1,ETH [38]和UCY [29]行人数据集。它们由真实世界的人类轨迹和丰富的多人交互场景组成。总共有5组数据,4个独特的场景,总共有1536个行人。这些数据集是该领域的标准基准,因为它们包含具有挑战性的行为,例如情侣走到一起,群体彼此交叉,以及群体形成和分散[38]。我们在两种配置中显示了我们的模型的结果1. 完整:我们模型预测的完整范围zp θ(z|x),yp(y |x,z)。2. z best:我们模型的一个版本,其中仅对y进行采样,z是p θ(z)的模式|x),即z best= arg maxzp θ(z |x),y p(y |x,z最佳)。在以下所有结果中,我们的模型在每个数据集上只训练了2000步。与传统的深度学习方法相比,这是非常小的,因为我们的方法评估指标。与之前的工作类似[1,16,49],我们使用三个错误度量。我们还介绍了第四的方法产生的分布。它们是:1我们所有的源代码、训练模型和数据都可以在https://github上公开获取。com/StanfordASL/Trajectron喷射物2. 最终位移误差(FDE):在预测时域T之后,预测的最终目的地与地面实况最终目的地之间的L2距离。3. N中最佳(BoN):N随机采样的轨迹4. 负对数似然(NLL):在相同的预测时间步,由输出样本的核密度估计确定的地面真实轨迹的平均负对数似然五、基线。我们与以下基线进行比较:1. 线性:通过最小化最小二乘误差来估计线性参数的线性回归器。2. Vanilla LSTM:一个不包含邻近行人信息的LSTM网络。3. Social LSTM:在[1]中提出的方法。每个行人被建模为LSTM,其中相邻的行人隐藏状态使用所提出的社交池化层在每个时间步被池化。4. 社会关注:[49]中提出的方法。每个行人都被建模为LSTM,所有其他行人的隐藏状态都通过提议的社会关注层合并。5. Social GAN(SGAN):[16]中提出的方法。每个人都被建模为LSTM,所有其他行人隐藏状态都与全局池化模块相结合。然后将合并的数据以及编码的轨迹馈送到生成对抗网络(GAN)[14]中以生成未来的轨迹。这些模型中的前四个可以被广泛地视为确定性回归,而SGAN和这项工作是生成概率模型。因此,我们可以与SGAN进行比较,并使用它自己的公共训练/验证/测试数据集分割。评价方法。与以前的作品[1,16,49]一样,我们使用留一法,在4个集合上训练,在剩余的集合上测试我们观察至少8个时间步(3.2秒)的轨迹,并在接下来的12个时间步(4.8秒)评估预测结果。5.1. 定量评价标准轨迹预测基准。很难确定该领域的最新技术水平,因为相同作者在[16]和[1]中报告的结果之间存在矛盾。在[1]的表1中,Social LSTM令人信服地优于基线LSTM,2382最终位移误差(m)线性社交GAN香草LSTM我们的方法(完整)社会LSTM我们的方法(zbest)社会注意力线性社交GAN香草LSTM我们的方法(完整)社会LSTM我们的方法(zbest)社会关注4836241 20 0ETH -大学ETH-酒店UCY -大学UCY - Zara 1UCY -Zara 2平均ETH -大学ETH-酒店UCY -大学UCY - Zara 1UCY -Zara 2平均值图3. 左:每个数据集的所有方法的定量ADE结果,以及它们的整体性能。箱形图显示我们的方法以及SGAN,因为它们产生的轨迹分布。在每个预测时间步,每个模型采样2000个轨迹,每个样本的ADE包括在箱形图中。“x”标记表示平均ADE。其他基线的平均ADE显示为水平线。右:FDE指标的结果。我们的方法优于所有其他平均FDE。汇集然而,在[16]的表1中, Social LSTM实际上比平均相同的基线更差此外,[16]中报告的唯一误差值来自BoN矩阵。这损害了现实世界的适用性,因为不清楚如何在没有最低误差轨迹的先验知识的情况下在线实现这样的性能在这项工作中,当与Social LSTM进行比较时,我们报告了[16]的表1中总结的结果,因为这是同一作者的最新工作。在报告SGAN结果时,我们使用自己的ADE和FDE指标实现,并评估作者发布的经过训练的SGAN模型。我们比较了我们的方法对ADE和FDE指标对不同的基线图。3.第三章。由于这些指标的性质,我们期望我们的zbest配置将表现最好,因为它是我们的模型即使没有像MSE这样的损失函数的训练(就像所有其他方法一样,ADE和FDE直接对应),我们仍然能够获得有竞争力的性能。事实上,我们的Full和zbest模型在平均FDE方面都优于所有其他模型。我们的模型的两种配置在每个数据集上都显著优于SGAN,对于Full,最大P值为P= 0.01,对于zbest,最大P值为P= 0.002,使用双尾t检验对我们和SGAN的平均误差之间的差异进行检验。 我们的方法的误差分布(在图1中可视化为箱形图)。3)通常也更低和更浓。我们相信我们的方法性能更好,因为ELBO损失迫使输出紧紧围绕地面实况。这可以从我们的预测的低方差定性地看出,图1中示出了一个例子。4.第一章为了进一步评估模型是否捕捉到真实的轨迹,我们还使用N个最佳度量(随机视频预测相关文献中的标准)15141312110 1 2 3 4 5x(m)图4.一组典型的预测,从我们的模型,相比一些从SGAN。每个模型采样200个轨迹。tory。结果总结在表1中,验证了我们模型一种新的分布式评估基准。虽然ADE和FDE是比较确定性回归量的有用指标,但它们无法比较生成模型产生的分布,忽略了方差和多模态等方面[40]。为了弥合这一差距,在评估指标,我们引入了一个新的度量,公平地估计一个方法的NLL在一个看不见的我们在每个预测时间步使用核密度估计(KDE)[36,41,44,45根据这些密度估计,我们计算地面真实轨迹的平均对数似然。 该过程如图1所示。五、 为了为了确保在将其应用于多种方法时的公平性,我们 使 用 了 带 有 默 认 参 数 的 现 成 KDE 函 数 2 , 虽 然Trajectron可以计算自己的对数似然,但我们采用相同的评估方法来保持直接可比的性能,[3,11,30])。我们从模型中抽取N个并评估最低误差trajec-2的ADE和FDE,特别是scipy.stats.gaussian kde函数。社交GANOur Method(Full)我们的方法(zbest)Ground Truth历史平均位移误差(m)y(m)2383社交GAN我们的方法(Full)我们的方法(zbest)负对数似然i,enc数据集ADE/FDE,最佳100个样本(m)SGAN [16]我们的(满)我们的(zbest)ETH0.64/1.130.37/0.720.40/0.78酒店0.43/0.910.20/0.350.19/0.34Univ0.53/1.120.48/0.990.47/0.98Zara 10.29/0.580.32/0.620.32/0.64Zara 20.27/0.560.34/0.660.33/0.65平均0.43/0.860.34/0.670.34/0.68图5.我们的概率评估方法的说明它在每个时间步使用核密度估计来计算每个时间步的地面真实轨迹的对数似然,在时间上求平均以获得单个值。表1.定量ADE和FDE结果,使用N中最佳指标,其中N=100。41621401210286420ETH -大学ETH -酒店UCY -大学UCY - Zara 1UCY -Zara 2平均值0 1 2 3 4 5 6 7 8 91011预测时间步长图7.预测时间步长内的平均NLL。误差线是自举95%置信区间。在每个预测时间步,每个模型采样2000个轨迹。越低越好。图6.每个数据集的平均NLL。误差线自举95%置信区间。在每个预测时间步,每个模型采样2000个轨迹。越低越好。曼斯测量结果如图所示。六、在这个指标上,我们希望我们的完整模型表现最好,因为它使用了我们模型我们的两种方法在ETH数据集、UCY Univ数据集和平 均 值 上 都 显 著 优 于 SGAN ( P 0.001<; 对 我 们 和SGAN的平均NLL之间的差异进行双尾t在UCY Zara 2数据集上,我们的完整模型在性能上与SGAN相同(P= 0.99;相同的t检验)。然而,在UCY Zara 1数据集上,我们的全模型表现比SGAN差(P= 0.03;相同的t检验)。我们认为,这是由于行人比其他数据集更频繁地改变方向,导致他们的地面真实轨迹经常位于我们预测的边缘,而SGAN在所有数据集上,我们的完整配置优于我们的z最佳配置,验证了我们的模型我们还评估了模型这加强了我们的方法不仅在平均上更好,而且随着时间的推移保持一贯的强大性能另一个有趣的观察是,我们的z最佳性能的方法,并满足SGAN运行时性能。机器人应用程序模型的一个关键考虑因素是其运行时的复杂性。因此,我们评估了在商品硬件上从我们的模型中采样许多轨迹所需的时间。结果总结在表2中。在这个度量上,我们期望我们的z最佳模型将非常轻微比我们的Full配置更快,因为Full模型需要从p θ(z)采样|x),而z最好只需要取p θ(z)的模|x)每剂一次。我们选择在运行时显示每个数据集的结果取决于代理的数量以及期望轨迹样本的数量。我们的方法比SGAN的采样速度要快得多(<所有数据集P 0.001;对我们和SGAN对200个轨迹进行采样的平均时间之间的差异进行双尾t检验)。我们之所以能够达到这样的速度,是因为我们的有状态图表示,使我们能够重新计算预测范围结果示于图7.第一次会议。如可以整个编码器表示与执行官在线-可以看出,我们的全模型在每个时间步都显著优于SGAN(P 0.001<;在每个时间步我们和SGAN的平均NLL之间差异的双尾t检验一些LSTM细胞对新观察到的轨迹数据的作用此外,我们的假设,z最佳配置将稍微快一点。KDE&…KDE$社交GAN我们的方法(Full)我们的方法(zbest)负对数似然2384社交GAN我们的方法(Full)我们的方法(zbest)地面实况历史7.06.86.66.46.2表2.在具有2.7 GHz Intel Core i5 CPU和8 GB RAM的计算机上进行基准测试,从每个数据集生成场景中200个样本的平均时间。加速因子在括号中表示6.05.85.65.4110 2 4 6 8 10x(m)图9.一个场景,两个行人在每个人10其他颜色对应于导致输出的z值。出现了两种高级行为模式,9一个特工走向另一个特工反之亦然87650 2 4 6 8x(m)图8.由于Trajectron每个模型采样200个轨迹。5.2. 定性分析模 块 化 和 少 时 间 步 预 测 。在它 的 核 心 ,Trajectron由多个独立的模块组成 因此,鉴于 与产生广泛的可能轨迹的单片SGAN相比,我们的方法可以在很少的数据点上做出准确的预测,其中大多数都远离地面真相。这种行为的一个例子如图所示。8.具有这样的保守预测是不期望的,因为它可能导致来自自主代理的过度保守的行为(防止其达到其目标),或者在不需要时的回避机动(导致场景中的其他代理之间的混淆)。Trajectron在两个层面上是模块化的。第一个是在单个节点级别,我们的架构包含多个较小的专用神经网络。第二个是在图的层次上,节点和它们的边都是我们架构的实例。它们共享权重,并且可以轻松地添加、交换和删除图形组件,[25]中显示了一个示例。可解释性。我们的方法与以前的方法相比的一个关键优势是,我们可以可视化我们的模型识别的高级行为模式,以及它们中的哪一个导致了输出的产生。这些不同的高级模式由我们的离散潜变量z捕获。演示这一点的场景如图所示。9.第九条。我们保持这种程度的可解释性,因为我们选择了一个离散的潜在变量,而不是一个连续的变量,在连续的变量中,识别特定的行为模式将更加困难6. 结论在这项工作中,我们提出了Trajectron,一种新的最先进的多智能体建模方法,明确说明了人类行为的关键方面,即它们是多模态的,动态的和可变的。以前没有被一个模型考虑到的方面。我们在标准人类轨迹预测基准上展示了最先进的结果,同时还为生成模型引入了新的度量标准。我们希望Trajectron将为未来的多智能体轨迹建模领域中的决定性回归器、生成模型以及两者的组合未来的一个关键方向是将该模型的输出纳入较低级别的机器人规划,决策和控制模块。每一项都是机器人在线持续执行的关键任务,以确定它们未来的运动。因此,机器人可能能够通过整合我们模型的输出来产生更安全,更明智的未来行动。致谢。我们感谢Jonathan Lacotte、Matt Tsao、JamesHarrison和Apoorva Sharma进行了许多富有成效的讨论,即兴讲授了统计学知识,并对本文进行了重新审视作者得到了海军研究办公室、ONR YIP计划(合同编号:N 00014 -17-1-2433)和丰田研究所(“TRI”)的部分支持本文仅反映其作者的意见和结论,而不是ONR,TRI或任何其他丰田实体。我们的方法(完整)Ground Truth历史y(m)y(m)数据集200个样本的平均运行时间SGAN [16]我们的(满)我们的(zbest)ETH6.98(1x)0.13(54x)0.13(54倍)酒店6.46(1x)0.08(81倍)0.08(81倍)Univ46.71(1x)2.00(23x)1.96(24x)2385引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会LSTM:拥挤空间中的人体轨迹预测。在IEEE会议 计算机视觉和模式识别,2016年。一、二、三、五[2] 亚历山大·阿莱米,本·普尔,伊恩·菲舍尔,约书亚·狄龙,里夫·A。索罗斯和凯文·墨菲修理坏掉的ELBOInInt. Conf. on Machine Learning,2018. 3[3] 放大图片创作者:Michael H.坎贝尔和谢尔盖·莱文。随机 变 分 视 频 预 测 。 InInt.Conf.onLearningRepresentations,2018. 6[4] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。 在Int. Conf.关于学习表征,2015年。4[5] Peter W.杰西卡?巴塔利亚Hamrick,Victor Bapst,Al-varo Sanchez-Gonzalez , Vinicius Zambaldi , MateuszMa- linowski,Andrea Tacchetti,David Raposo,AdamSantoro , RyanFaulkner , Caglar Gulcehre , FrancisSong,Andrew Bal- lard,Justin Gilmer,George Dahl,Ashish Vaswani,Kelsey Allen,Charles Nash,VictoriaLangston , Chris Dyer , Nico- las Heess , DaanWierstra , Pushmeet Kohli , Matt Botvinick , OriolVinyals,Yujia Li,还有拉兹万·帕斯卡努RelationalInductive Bias,Deep Learning,and Graph Networks,2018 。 可 在 https : //arxiv. org/abs/1806 。01261。2[6] Peter W. Battaglia , Razvan Pascanu , Matthew Lai ,Danilo Rezende,and Koray Kavukcuoglu.交互网络,用于学习物体,关系和物理。神经信息处理系统,2016年。二、四[7] 杰弗里·比尔梅斯动态图形模型。IEEE Signal ProcessingMagazine,27(6):29-42,2010。2[8] Denny Britz、Anna Goldie、Minh-Thang Luong和QuocV. Le。对神经机器翻译架构的大量探索在会议过程中。自然语言处理中的经验方法,第1442-1451页,2017年。4[9] 放大图片作者:Steve Brooks,Andrew Gelman,GalinL.Jones和Xiao-Li Meng。马尔可夫链蒙特卡罗手册。现代统计方法手册. CRC出版社,第一版,2011年。2[10] Kamalika Das和Ashok N.斯里瓦斯塔瓦。Block-GP:多模态数据的可扩展高斯过程回归。在IEEE国际会议上数据挖掘,2010年。2[11] 艾米丽·丹顿和罗伯·费格斯具有学习先验的随机视频生成。InInt. Conf. on Machine Learning,2018. 6[12] 卡尔·道施关于变分自动编码器的教程,2016。可在https://arxiv. org/abs/1606。05908。3[13] David F.Fouhey和C.劳伦斯·齐尼克。预测场景中的对象动态。在IEEE计算机视觉和模式识别会议上,2014年。2[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统,2014年。5[15] 罗尔夫·格劳布纳和埃伯哈德·尼克斯多夫2009年世界田径锦标赛短跑和跨栏项目的生物力学分析。New Studiesin Athletics,26:19-53,2011. 3[16] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social GAN:具有生成对抗网络的社会可接受的传输。在IEEE计算机视觉和模式识别会议上,2018年。一二三五六七八[17] 孝媛坤和丽贝卡萨克斯。心理理论的发展认知神经科学。在《脑神经回路的发育和功能》第20章第367377.学术出版社,2013年。1[18] 威尔弗雷德·K黑斯廷斯马尔可夫链蒙特卡罗抽样方法及其应用。Biometrika,57(1):972[19] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在IEEE计算机视觉和模式识别会议上,2016年。3[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射。在欧洲会议中计算机视觉,2016年。3[21] DirkHe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功