没有合适的资源?快使用搜索试试~ 我知道了~
336DESIRE:动态场景中的远程未来预测李南勋1,崔元根2,保罗·韦尔纳扎2,克里斯托弗B.第三章,菲利普·H. S. Torr1,Manmohan Chandraker2,41牛津大学、2NEC Labs America、3斯坦福大学、4加州大学圣地亚哥分校摘要我们引入了一个深度随机IOC1 RNN编码器-解码器框架,用于动态场景中多个交互代理的未来预测任务。通过1)考虑未来预测的多模态给定相同的上下文,未来可能会变化),2)预测潜在的未来结果,并基于此进行战略预测,以及3)不仅根据过去的运动历史,而且根据场景上下文以及代理之间的交互进行推理。ARCHIRE在单个端到端可训练神经网络模型中实现这些该模型首先采用条件变分自动编码器获得一组不同的假设未来预测样本,这些样本由以下RNN评分回归模块进行排名和细化通过考虑累积的未来回报来对样本进行评分RNN场景上下文融合模块联合捕获过去的运动历史,语义场景上下文和多个代理之间的交互反馈机制在排名和细化上迭代我们在两个公开的数据集上评估我们的模型:KITTI和斯坦福无人机数据集。我们的实验表明,该模型显着提高了预测精度相比,其他基线方法。1. 介绍即使没有确定性也能预见,这比根本不预见要好得多Henri Poincare(科学基础)考虑到未来是一系列过去事件的结果,预测需要对可能发生的事件进行推理。1IOC:逆最优控制的缩写,将在本文中进行更多解释。(a) 未来预测示例步行车未来轨迹过去轨迹场景元素(b) 工作流程图1. (a)驾驶场景:白色货车可以转向左或右,同时试图避免与其他动态代理碰撞。DESIRE通过处理未来预测的多模态性同时考虑静态和动态场景上下文的丰富集合来产生准确的未来预测(示出为蓝色(b)BURNRE生成一组不同的假设预测样本,然后通过深度IOC网络对它们进行排名和改进。根据过去的观察得出的结果 但是,在许多计算机视觉任务中预测未来本质上充满了不确定性(见图1)。①的人。想象一下一个繁忙的交通路口,汽车、行人和骑自行车的人之间以及与车道、人行横道和交通灯等语义元素之间的各种互动加剧了这种模糊性尽管最近对未来预测有极大的兴趣[3,5,17,23,26,45,46],但现有的最先进技术产生的结果要么是确定性的,要么没有完全考虑到交互,语义上下文或长期的未来奖励。相比之下,我们提出了一个深度随机IOCR NN编码器-解码器框架,以克服这些限制。ADMRE的关键特征是它能够同时:(a)生成不同的假设,以反映合理未来的分布,(b)对多个动态对象和场景上下文之间的相互作用进行推理,(c)考虑长期未来奖励对假设进行排名和细化(见图11)。①的人。这些目标都是在深度学习框架内实现的意见样品一代等级细化1234337我们建模的场景由语义元素(如道路和人行横道)和动态参与者或代理(如汽车和行人)组成。一个静态或移动的观察者也被认为是一个代理的实例。我们将未来预测公式化为确定代理在未来各个时刻的位置,仅依赖于对场景过去状态的观察,以代理轨迹和场景上下文的形式,从基于图像的特征或其他传感器数据(如果可用)导出该问题是在一个优化框架中提出的,该框架最大化的潜在未来回报的预测。具体地,我们提出了以下新颖的机制来实现上述优点,也在图1中示出。第二章:• 多样化的样品生成:3.1提出了一个条件变分自动编码器(CVAE)框架[41],用于学习采样模型,该模型在给定过去轨迹的观察结果的CVAE引入了一个潜在变量来解释未来的模糊性,它与过去模糊性的递归神经网络(RNN)编码相结合,以使用另一个RNN生成假设。• 基于IOC的排名和细化:在第二节。3.2,我们提出了一个排名模块,确定最可能的假设,同时结合场景上下文和交互。由于一个最优的政策是很难确定多个代理商作出战略相互依赖的选择,排名目标制定考虑到潜在的未来回报类似于逆最优控制(IOC)。这也确保了在给定有限的训练数据的情况下,在未来进一步推广到新的情况。该模块在多任务框架中进行训练,并对预测样本进行基于回归的细化。在测试阶段,我们多次迭代上述内容,以获得对未来预测的更• 场 景 上 下 文 融 合 : 3.3 呈 现 了 场 景 上 下 文 融 合( SCF ) 层 , 该 层 聚 合 了 代 理 与 卷 积 神 经 网 络(CNN)编码的场景上下文之间的交互。融合的嵌入被引导到上述RNN评分模块,并允许基于上下文信息产生奖励虽然欲望是一个通用的框架,适用于任何未来的预测任务,我们证明了它的效用在两个应用程序秒4展示了预测KITTI原始数据集中交通参与者和斯坦福无人机数据集中行人未来位置的出色准确性总而言之,本文介绍了DESIRE,这是一个基于深度学习的随机框架,用于时间分析的遥远未来预测,具有几个有吸引力的特性:• 可扩展性:使用深度学习而不是手工制作的功能可以实现端到端的培训和轻松的incor,从过去的运动,场景上下文和多个代理之间的相互作用产生的多个线索的穿孔• 多样性:深度生成模型(CVAE)的随机输出与过去观察的RNN编码相结合,以生成多个预测假设,这些假设可以消除未来预测中固有的模糊性和多模态。• 准确性:基于IOC的框架积累采样轨迹的长期未来回报,并且基于回归的细化模块学习估计轨迹的变形,从而能够更准确地预测未来。2. 相关作品经典方法路径预测问题已被广泛研究,不同的方法,如卡尔曼滤波器[18],线性回归[29],非线性高斯过程回归模型[49,33,34,48],自回归模型[2]和时间序列分析[32]。这样的预测足以满足代理和场景或其他代理(如飞行监控系统)之间很少交互的场景相比之下,我们提出了用于更复杂环境的方法,例如对行人人群或交通路口的监视,其中单个代理的运动受到场景上下文的严重影响(例如,可行驶的道路或建筑物)和其它代理(例如,人或汽车试图避免与另一个碰撞)。路径预测的IOCKitaniet al.回收人血浆(即,奖励函数)使用逆最优控制(IOC)来预测[23]中的行人或逆强化学习(IRL)[1,52],而[26]适应IOC并提出动态奖励函数,以适应环境中的顺序路径预测变化。结合深度神经网络,深度IOC/IRL已被提出来学习非线性奖励函数,并在机器人控制[11]和驾驶[50]任务中显示出有希望的结果。然而,IOC框架中的一个关键假设使得它们难以应用于一般的路径预测任务,这是目标状态或Agent的目的地应该是先验给定的,由此必须从规划或控制的角度找到到达给定目的地的可行路径。一些方法通过所谓的目标集[28,10]放宽了这一假设,但这些目标仍然限于目标任务空间。此外,使用IOC的恢复成本函数本质上是静态的,因此它不适合于时间剖析预测任务。最后,过去的方法不包括代理之间的相互作用,这往往是一个关键的约束多个代理的运动。相比之下,我们的方法是专为更自然的情况下,代理的目标是开放式的,未知的或随时间变化的,代理相互作用,同时动态适应未来的行为预期。未来预测Walkeret al. [47]第四十七话视觉化338使用数据驱动的无监督方法创建了一个语音框架,但仅在静态场景上,而[5]学习场景特定的运动模式并应用于新场景以进行运动预测作为知识转移。在[30]中还成功地解决了从自我中心的角度进行未来定位的方法。但与我们的方法不同的是,这些方法都不能提供时间剖面预测。最近,在[36]中收集了一个大型数据集,提出了社会敏感度的概念,以改进预测模型和多目标跟踪任务。然而,他们的基于社会力[14]的模型仅使用基于距离的高斯参数表示有限的导航风格。在对智能体的行为建模时,还应该考虑到智能体的动态不仅取决于其自身,还取决于其他智能体的行为。在[24,25,3,31]中也研究了预测多个对象的动态最近,[3]提出了一种新的池化层,其中相邻行人的隐藏状态被共享在一起,以跨多个人联合推理。然而,这些模型缺乏预测能力,因为它们不考虑场景上下文。在[24]中,提出了一种动态贝叶斯网络来捕获位置意识,作为行人路径预测的上下文提示,但该模型仅限于行人与车辆和路边的强化学习中的大量工作,特别是马尔可夫决策过程(MDP)的博弈论概括,解决了多智能体的情况,如minmax-Q学习[27]和Nash-Q学习[16]。然而,如[38]所述,通常多智能体环境中的学习本质上比单智能体环境更复杂[40,39,6]。用于序列预测的RNN递归神经网络(RNN)是前馈神经网络对序列的自然概括[42],并且在语音识别[13],机器翻译[4,42,7]和图像字幕[19,51,9]中取得了显著的结果。因此,RNN用于序列到序列建模的能力使其成为学习生成连续未来预测输出的合理选择模型我们的方法类似于[7],利用编码器-解码器结构嵌入隐藏表示来编码和解码可变长度的输入和输出。我们选择使用门控递归单元(GRU)而不是长短期记忆单元(LSTM)[15],因为前者被发现更简单,但不会产生性能下降[8]。然而,尽管RNN固有的承诺,只有少数作品将RNN应用于行为预测任务。在[3]中使用多个LSTM来联合预测人类轨迹,但它们的模型仅限于产生固定长度的轨迹,而我们的模型可以产生可变长度的轨迹。在[ 17 ]中提出了一种融合RNN,它结合了来自感觉流的信息来预测驾驶员深度生成模型我们的工作也与深度生成模型有关[37,35,44],因为我们有一个样本生成过程,该过程建立在框架内的变分自动编码器(VAE)[22]上。由于我们的预测模型本质上执行基于后验的概率推断,其中候选样本是基于条件变量(即,除了潜在变量之外的过去运动),我们自然地扩展我们的方法以在样本生成过程期间利用条件变分自动编码器(CVAE)[21,41在[46]中,使用CVAE从单个图像预测像素的密集轨迹,而我们专注于预测动态场景中多个交互代理的长期行为与我们的框架不同,所有上述方法都缺乏对场景上下文的考虑,与其他代理的交互作用建模或产生连续,时间分析和长期准确预测的能力。3. 方法我们将未来预测问题表述为一个优化过程,其目标是学习后验分布P(Y|X,I)的多个代理的未来队列Y={Y1,Y2,.., Y n}给定其过去轨迹X ={X1,X2,..,X n}和感觉输入I,其中n是数字的代理人。代理i的未来轨迹被定义为Y i={yi,t+1,yi,t+2,., yi,t+δ},并且过去轨迹类似地被定义为Xi ={xi,t-i+1,xi,t-i+2,., x i,t}。这里,轨迹的每个元素(例如, y i ,t)是R2(或R3)中的向量,表示代理i在时间t的坐标,δ和i分别指未来和过去的时间步长的最大长度。 由于连续和高维Y的直接优化是不可行的,我们设计我们的方法,首先采样不同的未来预测集,并为每个样本分配一个概率得分,以近似P(Y|X,I)。 在本节中,我们描述了欲望的细节(图1)。2)在以下结构中:样本生成模块(Sec.3.1),排名和细化模块(第3.2)和场景上下文融合(Sec.3.3)。3.1. 使用CVAE未来的预测本质上是模糊的,并且具有不确定性,因为在相同的过去情况下可以解释多个合理的情景(例如, 一辆驶向十字路口的车辆可以如图1所示进行不同的转弯。①的人。因此,学习直接映射的确定函数f{X,I}到Y将不充分表示潜在预测空间并且容易过度拟合训练数据。此外,一个经过简单训练的网络会产生一个预测,平均所有可能的结果。为了解决这种不确定性,我们采用了一种深度生成模型,即条件变分自动编码器(CVAE)[41],它位于CRAMRE框架内。CVAE是一个生成模型,可以学习分布P(Y i|(一)339我我我我ǁY我我我样本生成模块排名细化模块图2. 建议的预测框架概述。首先,DESIRE经由基于CVAE的RNN编码器-解码器(样本生成模块)生成多个似然预测样本Yf然后,下面的模块在每个时间步处顺序地向预测样本分配奖励作为IOC帧,并学习位移向量Yr,以回归预测假设(排名和细化模块)。通过迭代反馈对回归后的预测样本进行细化。最终预测是具有最大累积未来奖励的样本。请注意,通过海蓝色路径的流仅在训练阶段可用通过引入随机潜变量z i 2,输出Y i以输入X i为条件。 它由多个神经网络组成,如识别网络Q φ(z i|Y i,X i),(条件)先验网络P ν(z i|Xi)和发电网络P θ(Yi|Xi,z i)。这里,θ、φ、ν表示相应网络的参数 潜变量z i的先验由输入X i调制,然而,这可以被放宽以使潜变量在统计上独立于输入变量,即,P ν(z i|X i)=P ν(z i)[21,41]. 本质上,CVAE引入了随机潜变量zi,其被学习以在给定输入Xi的情况下对不同的预测集合Yi进行编码,从而使其适合于对一对多映射进行建模在训练期间,Q φ(z i|Y i,X i)被学习,使得它给予z i更高的可能性,这可能产生recruitc。假设Yi接近于实际预测gi,则完全预测Xi,i。在测试时间z,从先验分布中随机采样i,并通过解码器网络解码以产生预测假设。这使得概率推理能够用于处理预测空间中的多模态。训练阶段:首先,一个人代理i,Xi和Yi分别通过两个表zi,它允许从高斯分布中抽取随机样本zi,以在测试时重建Yi。由于反向传播不可能通过随机采样,我们采用标准的重新参数化技巧[22]使其可微。为了对P θ(Y i)进行建模,|Xi,zi),zi与Xi组合如下。采样的潜在变量zi被传递到一个fc层以匹配HXi的维度,该fc层之后是softmax层,从而产生β(zi)。那么这就是通过屏蔽操作对过去的轨迹HXi进行编码(即,逐元素乘法)。人们可以将其解释为引导的下降,其中引导β是在训练阶段从个体轨迹的完整上下文中导出,而在测试阶段从Xi,Yi不可知先验分布z(k)<$Pv(zi)最后,下面的RNN解码器(即,RNN解码器1 in图2)取前一步骤的输出,HXβ(z(k)),并生成K个未来预测样本,即,Y(1),Y(2),.,Y(K).在训练基于CVAE的RNN编码器-解码器时存在两个损失项。具有单独参数集的RNN编码器(即,RNN En-• 重建损失:Recon1ΣKKi — Y(k)这coder1和RNN Encoder2。2)的情况。结果两个人--编码HXi和HYi被级联并通过具有非线性激活的一个全连接(fc)层(例如,relu)。接着是两个并排的fc层,以产生zi上的平均值μzi和标准差σzi。zi的分布被建模为高斯分布(即, z i<$Q φ(z i|X i,Yi)= N(μ zi,σ zi)),并且在训练期间通过KL散度针对先验分布P ν(z i):=N(0,I)进行正则化。在成功训练后,目标分布在潜在变量中学习。损失度量所生成的样本与实际地面实况的距离• KLD损失:KLD=DKL(Q φ(z i|Y i,X i)<$P ν(z i)).这种正则化损失度量了测试时的采样分布与我们在训练期间学习的潜在变量分布的接近程度。测试阶段:在测试时,未来轨迹HYi的编码不可用,因此过去轨迹HXi的编码与潜在轨迹H X i的多个随机样本组合。变量z(k)从先验的z(k)中得出,即Pν(zi)。类似于2注意,我们在不同的代理上独立地学习分布,我(k)在该步骤中。代理之间的相互作用被认为是在SEC。3.2.训练阶段HXi<$β(zi)被传递给以下步骤:特征池化评分fc fcFCr1r 2r t迭代反馈RNN解码器2CVAEYRNN编码器1RNN解码器1ReconSCFSCFSCFFCμ损失∧回归Y输入GRUGRUGRU⊞zFC+软max∧⊠GRUGRUΔYGRU⊕GRU GRUGRUFCXFCσKLD损失RNN编码器2YGRUGRUGRUCNNρ(I)拉孔卡防反射面罩加成反应=340我τ t我我我K吉i,tIIRNN解码器(即,图1中的RNN解码器1。(2)生成a时间t时的代理i,Y是所有预测样本,直到不同的预测假设。进一步的细节:对于训练和测试阶段,我们在编码之前将轨迹通过时间卷积层,以鼓励网络在进入RNN编码器之前从相邻帧中学习速度的概念。此外,RNN使用门控递归单元(GRU)[7]来实现以学习长期依赖关系,但它们可以很容易地被其他流行的RNN取代,如长短期记忆单元(LSTM)[15]。总之,该样本生成模块通过CVAE和RNN编码器-解码器的有效组合产生了一组对捕获预测任务的多模态至关重要与[46]不同,CVAE用于从单个图像预测短期视觉运动,我们的CVAE模块基于过去的轨迹生成不同的未来轨迹集3.2. 基于IOC的排名和细化预测遥远的未来可能比预测不远的未来更具挑战性。为了解决这个问题,我们采用了强化学习(RL)中的决策过程的概念,其中智能体被训练为选择其行动,以最大化长期回报以实现其目标[43]。然而,IOC[50,11]学习未知的奖励函数,而不是手动设计奖励函数。受此启发,我们设计了一个RNN模型,预测假设Y(k),并测量其优度s(k)时间步长t,T是最大预测长度,并且τ是在每个时间步长分配奖励值的奖励函数。Φ被实现为fc层,其在每个时间步长处连接到RNN单元的隐藏向量我们在所有时间步长上共享fc因此,分数s是随时间累积的奖励,考虑了分配给每个假设的整个未来奖励。这使得我们的模型能够通过允许我们像其他基于抽样的IOC框架中那样对样本进行排名来做出战略决策[11]。此外,奖励函数ψ结合了场景上下文I以及代理之间的3.3)。学习改进:除了分数,我们的模型还估计了 一个回归向量△Y(k),它改进了每个预测值。对样本Y∈ (k)进行处理。每个代理i的回归向量通过如下定义的回归函数η获得△Y<$ (k)=η(Y<$(k);I,X,Y<$(k))。(二)回归函数η表示为神经网络的参数,从过去到整个未来帧累积场景上下文和所有其他代理动态,并估计整个时间范围T上的最佳位移向量△Y(k)。与分数s类似,它解释了未来在场景背景和背景方面发生的事情。动态代理之间的交互以产生输出。我们将η实现为另一个fc层,其连接到最后一个fc层。我我基于长期积累的此后,我们还直接通过学习dis-search来改进预测假设(k)输出M×T维向量的RNN的隐藏向量 M = 2(或3)是位置状态的维度。迭代反馈:使用位移矢量△Y(k),△Yi的实际预测,通过另一个我(k)fc层。最后,该模块从回归预测中接收迭代反馈,并不断调整,以使其更好地支持预测。我们迭代地改进预测假设Yi。后每个c,Y(k)由Y(k)+△Y (k)更新,并被 馈送到我我我最后给出了准确的预测该模型说明在右边的图。二、在这个过程中,我们结合1)通过嵌入向量HX的过去运动历史,2)通过具有参数ρ的CNN的语义场景上下文,以及3)通过使用交互特征的多个代理之间的交互(Sec. 3.3)。请注意,与典型的机器人应用不同[50,11],我们不假设目标(最终目的地)是已知的,也不假设代理的动态是给定的。我们的模型在一个连贯的框架中学习代理动态以及场景上下文。学习评分:对于代理i,有K个IOC模块。这个过程类似于Y的梯度下降优化,但它确实不需要计算RNN上的梯度,RNN由于递归结构而消失或爆炸梯度)。 我们观察到,迭代细化确实提高了实验中预测样本的质量(见图1)。4和图(五)。损失:在训练国际奥委会排名和细化模块中有两个损失术语• 交叉熵损失:HCE =H(p,q),其目标分布q由softmax(−d(Yi,Y<$ (k)获得,样本(即, Y(1),Y (2),.,其中d(Yi,Y<$ (k))=max<$Y<$ (k)−Yi<$。我我我iΣi(k)(k)CVAE采样器。令个人预测的得分s对于代理i的 假设Y(k)被定义如下,• 回归损失:重复寄存器=1kYi−Yi-△YiiTs(Y< $(k);I,X,Y<$(k))=(y最后,整个网络的总损耗被定义为我是t=1i,tτ t多任务丢失如下所示,其中N是座席在一个批次。其中Y(x)是其他代理的预测样本(即,其中j(i),y(k)是第k个预测样本,1总计=NΣ侦察机i∈N公司简介公司简介公司简介(三)341SCF特征池化h我是速度fcReLU(年)∙∧i,∧∧⊞Xt∧r(y;y,h)∧i,tj\i,我是p(yi,t;ρ(I))xt-1GRUxt+1GRU GRU我吉我吉i,tj,tRNN解码器2∧yj\i,t∧i,tρ(I)3.4. 产品特点本节重点介绍了EASTRE的独特功能,这些功能自然可以实现更高的准确性和可靠性。• 该框架基于深度神经网络,并且是端到端可训练的,而不是依赖于手工制作的参数表示和交互术语。每个代理的轨迹使用RNN编码器表示,并通过架构内的融合层组合在一起。场景上下文通过CNN来表示并且不仅仅限于图像(即,可以处理非-图3.图2中的RNN解码器2中的场景上下文融合单元(SCF)的细节。二、注意,在每个时间步Xt处到GRU单元的输入整合了多个线索(即,代理的动态、场景上下文和代理之间的交互)。3.3. 场景上下文融合如前所述,我们的排名和细化模块依赖于共享RNN模块的隐藏表示因此,重要的是,RNN必须包含关于1)个体过去运动上下文,2)语义场景上下文和3)多个代理之间的交互的信息,以便提供适当的隐藏可以对预测Yk (k)进行评分和细化的表示。我们通过让RNN在每个时间步接受以下输入xt来实现目标视觉传感器)。总体而言,该算法是可扩展的和灵活的。• CVAE与RNN编码相结合,生成随机预测假设,处理未来预测中固有的模糊性和多模态。• 一种新的RNN模块连贯地集成了多个线索,这些线索对行为预测具有关键影响,例如所有相邻代理的动态和场景语义。• IOC框架用于通过测量潜在的长期未来回报来训练轨迹排名目标。这使得模型的反应更少,并能够更准确地预测未来。• 学习回归向量以细化轨迹和迭代反馈机制顺序地调整预测行为,导致更准确的预测。xt=ΣΣγ(vi,t),p(yi,t;ρ(I)),r(yi,t;yj\i,t,hY)(四)4. 实验4.1. 数据集其中vi,t是Y(k)在t处的速度,γ是具有将速度映射到高维表示空间的ReLU激活的fc层,p(yi,t;ρ(I))是池化操作,其池化位置yi,t,r(yi,t;yj|i,t,hY j| i,t,h)处的CNN特征ρ(I))是由融合层计算的交互特征,该融合层在空间上聚合其他代理隐藏向量,类似于SocialPooling(SP)层[3]。 嵌入向量HXi(图1中的RNN编码器1的输出)。 2)被共享为RNN的初始隐藏状态,以便提供个人过去的运动背景。我们与CVAE模块共享此嵌入,因为两者都需要在向量中嵌入相同的信息。交互功能:我们实现了一个类似于SP层[3]的基于空间网格的池化层。对于的每个样本k在t处的智能体i,我们定义以y∈(k) 为 中 心 的 空 间 网 格 单 元。在每个网格单元格g上,我们将空间内所有其他代理的样本的隐藏表示合并起来,胞腔,n_j/=i,n_k,y_k(k)∈g. 而不是使用最大池操作与矩形网格,我们采用对数极坐标网格与平均池。结合CNN特征,SCF模块向RNN解码器提供静态和动态场景信息。它学习代理和场景的语义之间的一致性,以进行可靠的预测。KITTI 原 始 数 据 [12] : 该 数 据 集 提 供 驾 驶 场 景 和Velodyne 3D激光扫描的图像以及摄像机和传感器之间的校准信息。为了准备数据示例(即,X,Y,I),我们执行以下操作:由于数据集不提供3D点的语义标签(我们需要场景上下文),我们首先执行图像的语义分割,并使用提供的相机矩阵将Velodyne激光扫描投影到图像平面上以标记3D点。然后使用GPS-IMU标签将语义标记的3D点配准到世界坐标中。最后,我们创建大小为H×W×C的自顶向下视图特征图I(H,W:裁剪的大小,C:场景元素的类的数量,例如道路、人行道和植被在图中显示为红色、蓝色和绿色。6.)。 I相对于相机的视点被裁剪以模拟实际驾驶场景(H,W= 80m , 像 素 的 大 小 为 0. 5 米 。 摄 像 头 位 于 左 中央。)。由于激光扫描动态对象生成的痕迹,在注册过程中,我们删除移动对象,只使用静态场景元素。轨迹X、Y通过提取3D轨迹片段的中心位置并将它们在世界坐标中注册来生成。我们使用来自道路和城市场景的所有注释视频进行实验,并生成大约2,500个训练示例。y342我4.5KITTI Top-K Oracle L2错误0.6KITTI Top-K Oracle未命中率SDD Top-K Oracle L2错误14线性4.03.53.02.52.01.51.00.50.00.20.40.60.81 .一、顶部K比0.50.40.30.20.10.00.20.40.60.81.一、顶部K比121086420.00.20.40.60.81 .一、顶部K比RNN EDRNN ED-SICVAERE-S-IT0迭代0迭代1迭代3图4. Oracle预测误差超过KITTI数据集中的样本数。X轴表示oracle误差评估中使用的顶部样本的比率(Y轴)。最好用彩色观看。斯坦福无人机数据集[36]:该数据集包含大量使用无人机在大学校园内拍摄的空中视频。有各种类型的动态对象相互作用,通常以高密度人群的形式除了不太稳定的摄像头和丢失的标签,我们使用所有的视频来创建例子来训练/测试我们的模型,产生了大约16000个例子。请注意,我们直接使用原始图像来提取视觉特征,而不是语义标记的特征图。在下面的实验中,我们将图像的大小调整为1/5,4.2. 评价指标和基线以下指标用于衡量未来预测任务在各个方面的表现:(i)在多个时间步长处的预测与地面实况之间的L2距离,(ii)在多个时间步长处的具有关于L2距离的阈值的未命中率,(iii)在整个时间帧上的最大L2距离,(iv)在整个时间帧上的最大未命中率,以及(v)在前K个样本上的预言错误(即,Eoracle=mink∈KE(Y(k)−Yi))来解释未来预测中的不确定性(类似于[46]中的不在整个主要实验中,我们将K设定为50我们将我们的方法与以下基线进行比较:• 线性:通过最小化最小平方误差来估计线性参数的线性回归器• RNN ED:RNN编码器-解码器模型,仅使用过去的轨迹直接回归预测。• RNN ED-SI:类似于[17]的RNN ED,使用我们的SCF单元扩展到解码器中。该模型在进行预测时结合了场景和交互特征,并使用与我们相同的信息,但在t+1时仅基于到t的过去信息进行预测。• 答:提出的方法。我们表示我们的模型SCF模型中只包含语义场景上下文,称为场景上下文-S模型,场景上下文和交互模型称为场景上下文-SI模型。我们还评估了迭代反馈的次数,其中N是迭代反馈的次数。4.3. 学习详情我们使用Adam优化器[ 20 ]训练模型,初始学习率为0。004.学习率在总时期的每四分之一下降一半,尽管我们没有观察到明显的改善。包括编码器-解码器基线的所有模型针对KITTI训练600个历元,针对SDD训练8个历元(大约50K次迭代,批量大小为32)。补充材料中讨论了该架构的全部细节。为了避免图5.改进的MPERE-SI预测样本(红色)-世代迭代回归细化预测,使其更接近与场景上下文匹配的地面真实未来轨迹(蓝色)。在RNN中爆炸梯度,我们应用L2范数为1的梯度裁剪。0的情况。在训练过程中,我们随机旋转场景和轨迹以增加数据并减少过度拟合。对于所有实验,我们运行随机化的5折交叉验证,而不重叠不同分割中的视频。所有模型最多观察2秒的过去轨迹,并对未来进行最多4秒的预测。所有模型都使用Tensor-Flow实现,并使用NVIDIA Tesla K80 GPU进行端到端训练每个模型的培训时间约为一到两天。4.4. 分析表1和图4比较了各种方法的预言误差3我们目前的L2距离误差为两个数据集和错过率与1米阈值KITTI只,在SDD中的轨迹定义在图像像素空间。请注意,线性,RNN ED和RNN ED-SI输出单个预测,因此其结果显示为水平线。CVAE样本随机分类,无置信度值。基线:RNN ED的性能明显优于Lin-ear,因为它可以学习非线性运动。我们观察到RNN ED-SI在KITTI上的表现比RNN ED差,因为模型学会了反应性行为(见图6)。这可能是由于数据集的小尺寸,这使得难以学习预测CNN/交互特征(即,特征需要具有高容量以编码长期信息)。相反,RNN ED-SI在SDD数据集上的表现明显优于RNN ED,因为SDD要大得多,并且在代理之间有大量的交互拟议的模式: 采用单一随机样本(CVAE1),CVAE的表现比RNN ED差,因为RNN ED在训练期间直接优化L2距离。给定多于几个样本(例如,CVAE在表1中为10%),CVAE在两个数据集上的表现都迅速优于RNN ED,这证实了预测问题的多模态性质。没有迭代回归的DESIRE-X-IT 0适当地对随机CVAE样本进行排序,从而在样本较少的情况下实现较低的误差。请注意,RESRE-X-IT 0仅对样本进行排名而不进行回归,从而实现与使用所有样本相同的误差,即,在顶部K比率为1时。图4中的0。当我们重新计算时,输出得到了改进,并实现了更小的预言错误(即, C1 RE-X10 %-IT 0与C1 RE-X10 %-IT 4)。图5显示了迭代反馈的示例。最后,我们观察到,考虑代理之间的相互作用进一步有助于实现更低的错误。 的区别3表1中的最大误差可能与图1不同。4,因为测试示例在未来4秒时没有地面真值标签。最大未命中率(> 1.0 m)最大L2错误最大L2错误343XRNNEDYRNNED-SI公司简介企业文化荣誉资质企业文化KITTI(以米为单位的误差/1米阈值的未命中率)线性0.89/0.312.07/0.493.67/0.595.62/0.64RNN ED0.45/0.131.21/0.392.35/0.543.86/0.62RNN ED-SI0.56/0.161.40/0.442.65/0.584.29/0.65CVAE 10.61/0.221.81/0.503.68/0.606.16/0.65CVAE 10%0.35/0.060.93/0.301.81/0.493.07/0.59BURRE-S-IT 0最佳0.53/0.171.52/0.453.02/0.584.98/0.6410%0.32/0.050.84/0.261.67/0.432.82/0.54BURRE-S-IT 4最佳0.51/0.151.46/0.422.89/0.564.71/0.6310%0.27/0.040.64/0.181.21/0.302.07/0.42BURRE-SI-IT 0最佳0.52/0.161.50/0.442.95/0.574.80/0.6310%0.33/0.060.86/0.251.66/0.422.72/0.53BARRE-SI-IT 4最佳0.51/0.151.44/0.422.76/0.544.45/0.6210%0.28/0.040.67/0.171.22/0.292.06/0.41SDD(1/5分辨率下的像素误差离子)线性2.585.378.7412.54RNN ED1.533.746.479.54RNN ED-SI1.513.566.048.80CVAE 12.516.0110.2814.82CVAE 10%1.843.936.479.65BURRE-S-IT 0最佳2.024.477.2510.2910%1.593.315.277.75BURRE-S-IT 4最佳2.114.697.5810.6610%1.302.413.675.62BURRE-SI-IT 0最佳2.004.417.1810.2310%1.553.245.187.61BARRE-SI-IT 4最佳2.124.697.5510.6510%1.292.353.475.33(a) GT(b)基线(c)基线KITTI结果(前3行):(&b)中第12行显示RNN ED-SI的高反应性(即,预测在其到达不可驾驶区域附近之后转向)。相反,欲望通过考虑潜在的未来回报来显示其长期预测能力。DESIRE-SI还在其他车辆存在的情况下产生更令人信服的预测。SDD结果(底部3行):行4示出了预测问题的多模态性质。当骑自行车的人右转时,他也可能绕着环形交叉路口转弯(用箭头表示)。DESIGRE-SI预测了同样可能的未来,作为顶级预测,同时覆盖了前10个预测中的地面真相未来行5 - 6还表明,MAGRE-SI通过对静态和动态场景上下文的推理提供了更好的预测。在KITTI实验中,DESIRE-S和DESIRE-SI较小,因为KITTI在汽车之间只有很少的交互。然而,我们观察到SDD数据集有明显的改进,因为有丰富的场景集与代理之间的交互。虽然我们的模型与前1个样本(最佳)相比,实现了更高的误差直接回归基线,使用更多的样本产生更好的预测精度(即,欲望10%)。注意,如果平均各种期货(例如,直行)。我们相信,在某些应用中,对各种结果的概率预测比单个MAP预测更可取。对于这两个数据集,DESIRE使用少至DESIRE-SI-IT 4预测的前2个样本实现与最佳基线相当的误差(参见图1)。4).定性结果如图所示。6、补充材料。烧蚀研究:我们对不同的K和过去的长度进行了进一步的实验,以补充主要实验,并在表2和表3中报告了结果。表1.KITTI和SDD未来时间步长的预测误差数据集。我们的方法,EQURE-IT 4,实现了迄今为止最低的顶部10%的错误率,有效地解决了任务的多模态性质。方法K(预测样本数)25 50 100 200最佳4.87 4.71 4.81 4.70WGRE-S-IT 4前202.03 2.04 1.99 1.96表2. KITTI在4s时对不同K的预测误差。最好的样本误差保持相似,而前20个预言错误随着K的增加而略有减少。方法过去的时间长度(秒)表3. KITTI在4s时对过去轨迹的不同时间长度的预测误差。用1秒过去训练的模型比我们的(2秒)稍差,表明2秒过去包含足够的线索来编码运动上下文。还请注意,以前的作品采用类似的过去长度([3,36]中的2.8s)5. 结论本文提出了一种新的多智能体在复杂场景中的远程未来预测框架-ARMRE.该模型将静态和动态场景背景与深度IOC框架相结合,并产生随机的、连续的和时间剖面的长期预测,可以有效地解释未来预测任务中的不确定性我们对驾驶和监视场景的经验评估表明,与其他基线相比,有明显的改善。对于未来的工作,我们相信我们的模型可以在更大的数据集上进一步改进,并直接使用透视图像应用于各种机器人应用确认这项工作是N。Lee线性方法1.0(秒)2.0(秒)3.0(秒)4.0(秒)1.02.04.0BURRE-S-IT 4最佳4.944.714.7810%2.112.072.05344引用[1] P. Abbeel和A.Y. Ng. 通过反向强化学习的学徒学习第21届机器学习国际会议,第1页。ACM,2004年。2[2] H.赤池拟合自回归模型进行预测。统计数学研究所年鉴,21(1):2432[3] A. Alahi,K.Goel,V.Ramanathan,A.罗比凯湖Fei-Fei和S. Savarese社会lstm:拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议(CVPR),第961一、三、六、八[4] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器arXiv预印本arXiv:1409.0473,2014。3[5] L. Ballan,F.Castaldo,A.Alahi,F.Palmieri和S.Savarese用 于 场 景特 定 运 动 预 测 的 知识 转 移 。 arXiv预 印 本arXiv:1603.06987,2016年。第1、3条[6] L.布索纽河Babuska和B.德舒特多智能体强化学习综述。IEEE Transactions on Systems ,Man,And Cybernetics-Part C:Applications and Reviews,38(2),2008. 3[7] K. 乔湾,巴西-地 VanMerr ieenboer,C. Gulcehre,D.巴赫达瑙F.布加雷斯Schwenk和Y.本吉奥。使用
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功