没有合适的资源?快使用搜索试试~ 我知道了~
13168非均匀弹道预测的无限邻域相互作用方正1王乐2* 周三平2唐伟3牛振兴4南宁郑2刚华51西安交通大学软件工程学院2西安交通大学人工智能与机器人研究所3伊利诺伊大学芝加哥分校4西安电子科技大学计算机科学与技术学院5Wormpex AI研究摘要理解智能体之间复杂的社会交互大多数现有的方法考虑成对的交通代理之间的相互作用或在一个局部区域,而相互作用的性质是无限的,涉及不确定数量的代理和非局部区域同时。此外,它们对异质交通主体,即不同类别的交通主体之间的交通主体的处理是相同的,而忽略了人们对不同类别交通主体的不同反应模式。为了解决这些问题,我们提出了一个简单而有效的联合国-(1) 类别注意(2) 代理注意A. 分层注意力有限邻域交互网络(UNIN),其预测多个类别中的异构代理的轨迹具体地说,所提出的无限邻域交互模块同时生成参与交互的所有智能体的融合特征 同时,提出了一个层次图注意力模型,以获得类别到类别的交互和代理人到代理人的交互。最后,估计高斯混合模型的参数以生成未来轨迹。在基准数据集上的大量实验结果表明,我们的方法比最先进的方法有显着的性能1. 介绍阻碍预测准确性的挑战主要来自代理之间的复杂相互作用[1,12,57]。在这方面的最新进展[1,3,23,26,27]主要分为两种类型:基于图的方法[13,32,56]在每个时间步构建空间图并聚合来自相邻节点的特征;基 于 RNN 的 方 法 [4 , 7 , 57] 使 用 递 归 神 经 网 络(RNN)对每个代理的轨迹进行建模,并将隐藏状态集中在周围区域内。*通讯作者。B. 无限邻域图1.层次图注意力无限邻域交互.不同的标记形状用于区分代理和类别。(一)注意力层次。用相同颜色标记的药剂属于同一类别。(1)注意力集中。每一个类别都是相互作用的,也是相互影响的。一个范畴对所有范畴的注意力(包括对自身的注意力)转移到该范畴的所有主体上。(2)Agent的注意力。我们计算一个人的注意力在整个场景中的其余代理,和注意力是定向的。(B)无限的邻里关系。 我们认为,作为一个集体之间的互动,而不是两个代理人之间或在一个小区域。任何代理的行为都可能影响整个场景周围的一组代理。然而,这些方法受到限制。基于图的方法[32]仅利用节点之间的成对关系,而其他节点是混合和中继的。具有许多层的GCN遭受过平滑问题[9,19]。相比之下,在现实世界中的交通的相互作用是复杂得多,比以前假设的,如多边关系(三个或更多的代理之间的也就是说,这些方法受到交互代理的不灵活数量的限制类别节点类别交互代理节点代理交互13169相互作用此外,基于RNN的方法[4,7,57]仅考虑代理手动定义的周围区域之间的局部关系因此,在这种“周围区域”之外的潜在交互参与者将被简单地也就是说,这些方法受到这种手工制作的交互代理选择方式的限制为了解决这些问题,我们提出了异构图上的无限邻域来预测多类别(例如, 行人,自行车,汽车等),如图1所示。无限邻域意味着交互不受代理或代理的数量的限制。成对邻居交互观察到的:地面实况:预测:预测的无NLI:无限邻域预测轨迹区域的范围。也就是说,场景中的任何代理都可以参与交互,如图2所示。此外,许多相关著作[12,56]将不同的代理视为同质代理(即,行人),而真实的交通场景通常涉及异构代理(即,不同类别的代理人由于移动模式的不同(例如,速度、前后距离和对交互的响应),异构智能体上的轨迹预测与同质智能体上的轨迹预测相比确实具体来说,我们提出了一个简单而有效的无限邻域交互网络的异构轨迹预测,模型的层次注意力和融合的所有代理参与一个互动,以预测未来的轨迹与不同类别的所有代理同时然后,将智能体作为节点,将具有相同类别的智能体作为类别节点,构造一个结合空间、时间和类别信息的时空类别图。层次图注意力模块在所构造的图上获取类别-类别注意力,然后获取主体-主体注意力。注意,所构造的图中的边是有向的。即,边缘表示为 一个加权的非对称邻接矩阵来衡量相互作用。一旦获得分层交互,无限邻域交互模块被用来通过非对称卷积网络捕获参与同一交互的所有代理的全局信息基于全局信息和分层注意力,获得最终交互并将其馈送到图卷积网络(GCN)[32]中,然后是时间卷积网络(TCN)[2],以估计高斯混合模型(GMM)的参数[37]。在多个基准数据集上的实验结果表明,我们的方法比最先进的方法有显着的性能改善。可视化结果表明,该方法能够很好地学习多个非均质主体之间的相互作用。该代码将在接受后发布。总之,本文的主要贡献包括:• 我们提出了一个模型的相互作用之间的异质-图2.无限邻区相互作用与成对邻区相互作用的比较(例如,GCN)。不同的代理被封闭在不同颜色的框中,对应于相同颜色的实心圆圈。空心圆表示相互作用。可以看出,在我们的方法中,相互作用涉及一组试剂。在右侧,我们显示了有或没有无限邻域的预测轨迹。改进轨迹预测的新代理;我们提出了一种无限邻域交互模型,用于模拟同时参与同一交互的智能体之间的交互我们提出了一个层次图注意力模块,用于增强基于类别到类别交互的代理到代理交互。2. 相关作品航迹预测主要包括真实场景下的同质和异质航迹预测。均匀轨迹预测预测同一类别下的未来轨迹(例如,只有行人)。相反,异质预测不同类别下的未来轨迹(例如,行人、汽车和自行车)。2.1. 均匀轨迹预测在深度学习流行之前,有一些经典的方法[47,48,52],包括社会力模型[16],高斯过程回归模型[47],动态贝叶斯模型[54]和隐马尔可夫模型[44],它们受到难以设计的手工特征的限制。由于深度神经网络的代表能力,轨迹预测最近由基于深度学习的方法主导,例如递归神经网络(RNN)[1] , 生 成 对 抗 网 络 ( GAN ) [12] , 图 卷 积 网 络(GCN)[32,43]和变换器[56]。S-LSTM [1]通过池化机制聚合交互信息。S-GAN [12]使用GAN预测多个社会可接受的轨迹。后来的研究用注意机制来衡量交互的影响S-BiGAT [20]使用图形注意力网络[50]来模拟行人之间的交互。星级[56]··13170类别图注意填充矩阵定向类别注意⊗STC图座席图注意时空输入定向座席注意空间边沿图3.我们联合国的框架。轨迹被改造为时空和类别的输入,并组成一个时空类别图(STC图)。分层注意力从STC图中学习表示类别交互的定向类别注意力和集体交互被随后的无限邻域交互与非对称注意矩阵捕获,然后被馈送到时空图卷积网络和时间卷积网络中以估计高斯混合模型的参数,从中预测未来轨迹通过图上的Transformer [49]架构分别对空间交互和时间由于场景中的物理约束和人类状态是某些情况下轨迹预测的主要因素[40],因此最近广泛的研究集中在物理信息的作用上[6,27,46]。Sophie [40]利用物理和社会信息来预测行人轨迹。值得注意的是,CVM [15]考虑了行人的速度和方向,而不是语义环境。ECTP[30]首先推断轨迹终点作为辅助行人规划路径的附加信息。与行人轨迹预测不同,车辆轨迹预测方法可以利用更多传感器和语义环境,例如3D点云和车道线[28,55]。2.2. 非均匀轨迹预测同质交通主体如行人、车辆遵循不同的社会惯例,因此同质轨迹预测方法不能同时对同一场景中不同类别的所有主体的交互进行建模并准确预测。真实交通场景中的异构轨迹预测逐渐引起了人们的研究兴趣。JPKT [3]将车辆视为刚性粒子,其中非粒子对象受运动学影响,并使用单独的LSTM对车辆和DATF [34]对代理到代理和代理到场景的交互进行建模,并提出了一种估计轨迹分布的新方法。简而言之,这些方法集中在不同的异构流量代理的行为模式,和语义环境的影响。以往的研究工作忽略了Agent之间在类别粒度上的交互和无限的交互在我们的方法中,物理约束是通过观察隐含地学习的。没有环境语义作为先验的轨迹2.3. 图神经网络图神经网络(GNN)[42]扩展了神经网络来处理没有自然顺序的数据。GNN学习包含关于每个节点及其对应邻居的信息的状态向量嵌入。为了从邻居节点及其边缘收集信息并丰富GNN的表示,大量的工作[14,18,25,50]研究了更复杂的图结构。GCN [18]和Graph Sage [14]分别使用频谱和空间卷积聚合,其中频谱卷积利用傅立叶频域来计算图拉普拉斯特征值分解,空间 卷积在空间域 中的相邻邻居 节点上操作GGNN [25]提出了一种门控图神经网络,以改善长期信息传播。GAT [50]引入了注意机制,通过向其邻居节点添加注意来获取节点的隐藏状态Highway GCN [36]利用跳过连接来避免在网络层上叠加[24以前的轨迹预测方法,GCN和GAT算法没有对异构节点和同构节点进行明确区分,而我们的方法考虑了大规模异构图。此外,大多数现有的图神经网络组异构节点到一个子图,这遭受数据不平衡和无效的全局信息聚合。相比之下,我们利用层次图的注意力来聚合大规模异构节点的信息。3. 我们的方法在这一节中,我们介绍了我们提出的UNIN,其目的是模型的指导下,无限的邻里互动的异构交通代理的相互作用。TCNGCN非limConv最大值-合并FCFC预测轨迹13171联系我们GG不G不不··联系我们∈{}}不不不表示为Vi=连接类别节点Sc和每个空间节点的边不不 不不不电话+1不不不不不不不t t+1t tt{|ii ij cc1,c 2c不给定在时间t1,2,. . .,Tobs,存在具有N个代理的C个类 别 。 轨 迹 预 测 的 目 标 是 预 测 每 个 交 通 代 理 i ∈{1,. . . ,N}内我们考虑不同类别的代理的差异,并将它们与一个共同的转换矩阵。然后,我们将同一类别的代理特征连接起来Dc1,c2 ={(Sc1,Sc2)|c1,c2∈ {1,. . . ,C}}是空间时间范围t ∈ {Tobs+1,Tobs+2,. . . ,Tpred}。因交通连接类别节点Sc1和Sc2剂类xi,yi,cxi,yi得双曲余切值.,是是位置时间步长C.ciΣtti∈{1,. . . ,的。N}c.∈{1,Σ2,. . . ,C}不不 不联系我们t Dt={St,Vt}是空间类别主体在时间步长t处交通代理i的坐标1、2、. . . ,Tpred.如所讨论的,在以前的作品中的相互作用仅是例如,在两个交通代理之间或在本地区域中考虑交互,而无限数量的其他代理可以同时涉及交互,而不管它们的类别如何。另外,现有的研究大多忽略了人们对异质智能体的不同反应,而这种反应在真实的交通场景中是自发的,这一点还没有得到充分的为了减轻这些限制,我们提出了无限的邻居互动捕捉的影响,所有代理人在同一时间,和一个层次的注意力模块模型之间的异构交互的交通代理的不同类别。图3说明了UNIN的总体框架。为了聚合参与同一交互的Agent的信息,首先构建交互图以收集全局交互信息。随后,使用分层注意模块基于全局交互信息来获得类别-类别交互和主体-主体交互接下来,我们引入无限邻域模块直接建模的无限邻域代理之间的池功能的相互作用。最后,异构图卷积网络和时间卷积网络被用来预测高斯混合模型的参数,用于轨迹预测。3.1. 异构图构造在异构轨迹预测中存在多个类别的智能体,因此我们建立了一个时空-Vi属于c类所构建的时空类别图STC包括不仅是每个代理的信息,而且是每个类别的信息。因此,我们可以利用stc来建立类别到类别和代理到代理的交互。3.2. 层次图注意力智能体之间的交互是轨迹预测的一个重要因素。特别是,与同质交互相比,由于不同的对象类别,异质交互更加复杂[33]。在交通场景中,交通代理(行人、驾驶员、骑自行车的人等)由于社会习惯和经验的不同,他们倾向于根据他们遇到的代理人的类别做出不同的反应因此,类别之间的相互作用(即,类别-类别交互)也是影响代理轨迹的重要因素为了对多类别智能体之间的交互进行建模,我们提出了一个层次图注意模型。它建模的类别类别的互动,在此基础上的代理互动建模。类别-类别交互。为了建立类别之间的交互,我们首先在我们建立的时空类别图上获得每个类别的类别特征,在此基础上通过池化操作获得类别交互鉴于不同场景中代理数量的不平衡,我们采用填充操作将它们对齐到相同的数量。然后,每个类别的嵌入hc类别图stc来一起对它们进行建模,如图3所示,其中每个代理都被视为一个节点,并且通过线性投影获得,即,hc=(We,Θ(Sc)),(2)代理之间的交互被视为边。来增强t t类别-类别交互的表示,我们还将具有相同类别的所有代理视为类别节点:Gstc=(Vt,Et,Et,Stt,Dt ,Dt),(1)其中,N,t1,. . . ,Tpred,c = 1,. . . 得双曲余切值.分 别 表 示 节 点 、 时 间 步 长 和 类 别 的 索 引 。 Vi={(xi,yi,c)}表示在时间步t具有类别c的节点i。 Ei={(Vi,Vi)}是连接节点Vi和Vi的 时 间边 缘 。 Ei,j={(Vi,V j)}是连接节点Vi和Vi的空间边缘。 Sc= Vi我1、. . .,N是由在时间步t具有类别C的所有代理的级联生成的在时间步t具有类别C的类别节点,其表示嵌入,即,类别C的试剂的级联。其中,表示线性投影,Sc是在时间步t处具有类别c的类别节点,hc是在时间步t处类别c的嵌入,Θ是填充操作,并且We是线性投影的可学习权重填充大小等于场景中的节点的最大数量以用于高效计算。填充卷积对于任意数量的代理也是灵活的,因为0上的卷积不会改变结果。在获得每个类别的嵌入之后,将任意两个类别的嵌入连接以获得融合嵌入。随后,类别-类别注意力得分At由图形注意力机制[51]生成,如下所示:Ac1,c2=δ(μc·(hc1<$hc2)),(3)不13172不·不不不不不不不不11Ei,j=不不不2不不不不不不不其中,Ac1,c2是在时间步长t处类别c1至c2的注意力得分向量,μc表示用于调整类别之间的权重的类别c的可学习注意力权重向量,δ()表示非线性激活函数。注意力得分向量Ac1,c2测量交互作用从一个类别到另一个类别。类别-类别交互的目的是辅助主体-主体交互,因此我们只需要通过池化操作来对于每个注意力分数向量Ac1,c2。 我们雇佣了最多3.3. 无限邻里互动在真实的交通场景中,不确定数量的代理之间的交互是不同的,即,代理可以随着交互的代理的数量变化而不同地响应然而,现有的图注意力机制[53]仅计算成对代理之间的交互,因为内积仅在两个向量之间操作一次。而具有多层的图卷积网络遭受1998年,美国联邦储备委员会(不c1, c2过度平滑[9,19]。根据我们的观察,GCNY)选择Δt中的最大值作为重要因子αc1,c2,即,ac1,c2=<$(Ac1,c2).(四)一层或两层是最适合我们的任务。因此,学习的Agent-Agent交互ATTt不能自适应地捕获不确定数量的Agent之间的交互。t t在获取任意两个类别之间的重要性因子后,通过对所有重要性因子(类别数为n)进行归一化,得到最终的类别-类别交互作用CIc1,c2为了缓解这一问题,我们提出了无限邻域交互模块,以捕获在同一个互动同时涉及的所有代理的信息。请注意,参与交互的所有代理都称为“邻居”,不管代理商的数量。在ClClCl,c2exp(ac1,c2)(五)特别地,我们采用非对称卷积来获得t=Σi,j∈nexp(a i,j).并将全局交互信息聚集在ATTt上,空间类别边Dc1、c2的权重表示类别-类别交互,因此我们将值赋给即,ht=δ(Conv1D(ATTt)),(8)Dc1,c2由得到的相互作用值。代理-代理交互。 一些相关的工作[32]表明,在一些特殊的场景中,代理之间的相对距离是必不可少的。因此,我们通过基于学习的方法和基于距离的方法相结合来获得Agent-Agent交互。基于代理对更接近的代理更敏感的假设来定义对于接近代理增长的权重是直观的同时,注意机制保证了远距离交互主体也能被模型识别基于距离的方法初始化空间边Et与相应的代理之间的相对距离然后,通过拉普拉斯变换[31]获得归一化的相互作用矩阵Rt,如下所示:其中δ是非线性激活函数,我们使用填充操作,以确保输出大小与输入大小相同。不对称卷积被重复计算,并且因此全局空间交互信息可以被聚集,这意味着考虑交互中涉及的所有代理,而不管代理的数量因为填充的小非对称内核捕获隐式交互,其不受代理数量或区域范围的限制。它确保可以考虑特定交互中的任何数量的代理,而大的对称内核在不同交互中混合不同数量/范围的代理最终的相互作用Ft是通过融合unlim-有限邻域和类别-类别交互:.1/pi−pj,pi−pj=0Ft= CI c1,c2 ht。(九)t0,否则R=Λ−EΛ−,(六)3.4. 轨迹预测tt2tt2其中pi,pj是代理i,j在时间的位置坐标在得到最终的相互作用Ft后,我们将其视为时空-范畴图t t步骤t,Et=Et+I,Λt是对角节点度矩阵Et。对于基于学习的方法,我们需要融合所有代理的特征。幸运的是,等式3中所示的学习的注意力分数向量A已经包括所需的注意力分数。并将其送入GCN,然后再送入TCN估计高斯混合模型的参数在GCN中使用剩余连接,即,H(l)=δ(H(l-1)+F(l)·Conv(H(l-1)),信息,因此我们直接使用学习到的At来获得代理-代理交互ATTT,即,ATTt=RtAt,(7)其中运算符表示点积运算。HT= TCN(Ht),其中,δ是非线性激活函数,l是GCN的层的索引,H0=Vt表示图的节点,并且HT是TCN的输出特征。因此,我们获得了2、(十)13173KΣn∈NΣt∈Tp−p2数据集模型模型阿尔戈沃斯nuScene场景AvgApolloscapeAdeFDEAdeFDEAdeFDE韦德WFDES-LSTM [1]1.3852.5671.3902.6761.3882.6221.893.40[21]第二十一话0.8961.4531.0791.8440.9881.649--R2P2-MA [38]1.1081.7711.1792.1941.1441.983--中文(简体)1.1312.5041.1242.3181.1282.411--MFP [45]1.3992.6841.3012.7401.3502.712--MATFD [58]1.3442.4841.2612.5381.3032.511--MATFG*[58]1.2612.3131.0532.1261.1572.220--[32]第三十二话1.3052.3441.2742.1981.2892.371--StarNet [59]------1.3432.498TPNet [11]------1.2811.910NLNI(我们的)0.7921.2561.0491.5210.9211.3881.0941.545表1.在ADE和FDE指标中与数据集Argoverse,nuScenes和Apollscape上的其他方法进行比较(越低越好)。所有方法观察2秒并预测下3秒的轨迹。请注意,Apolloscape数据集使用加权ADE和FDE度量,即车辆、行人和骑自行车者的权重分别被指定为0.20、0.58和0.22标记为“*”的方法我们的UNIN显著优于最先进的作品。S-LSTM [1] MATF [58] [21]第二十一话NRI [17]S-GAN [12] [40]第四十话轨迹++[41]STGCN [32] SIMAUG*[32] STGAT [20]我们SDD31.2/ 5722.6/ 33.519.3/ 34.125.6/ 40.327.3/ 41.416.3/ 29.419.3/ 32.720.6/ 33.115.7/ 30.218.8/ 31.315.9/26.3表2.在SDD基准数据集上与以前的方法进行比较,SDD基准数据集主要包含行人轨迹性能以ADE/FDE指标进行评估(越低越好)。标记为“*”的方法- 来自空间和时间信息两者的集体交互信息。损失函数。由于不同类别的业务代理具有它们自己独特的移动模式,一定的速度范围,到另一物体的前后距离我们假设交通的轨迹坐标(xi,yi)在高度复杂的情况下具有密集交通的城市街道的历史数据集。此外,它们中的轨迹是通过车载摄像头收集的,因此它们具有更多不同的场景。我们按照现有的作品,观察3.2秒的在斯坦福预测接下来的4.8秒t t代理i遵循高斯混合模型[10]。所以我们通过如下最小化负对数似然损失来训练模型:不在nuScenes、Argoverse和 Apolloscae数据集中 观察2秒,同时预测接下来的3秒评估指标。 我们遵循现有的工程[56]和Li=−ΣpredlogΣπkN。(xi,yi)|μˆt,σˆt,ρˆtΣ,采用两个常用指标来评估性能:t=Tobs+1k=1t tnn n(十一)平均位移误差(ADE)和最终位移误差(FDE),定义如下:其中μt为平均值,σt为标准差,ρt为n n n相关系数,并且πk是相关系数的权重因子k阶高斯分布。n nADE=ptt,N×Tp(十二)Σpn−pn4. 实验数据集。一些数据集集中于同质的轨迹,并且包含较少的交通场景,例如,[35]和UCY [22],它们只标记三个场景中的行人轨迹。然而,在真实场景中通常存在不同的类别,因此我们在更复杂的数据集上训练和评估我们的模型,包括斯坦福无人机数据集(SDD)[39],nuScenes [5],Argoverse [8]和Apol-loscape [29],这些数据集广泛用于具有不同类别和丰富交通场景的异构轨迹预测SDD由大学校园内的8个独特场景、100多个静态场景、6类19K流量代理和约40K交互组成。nuScenes,Argoverse和Apolloscape是大规模的trajec-FDE=n∈N T T2,N×Tp其中ADE测量在所有时间步长上地面实况与我们预测的未来位置之间的平均L2距离,而FDE测量我们预测的最终目的地与真实最终目的地之间的L2距离。4.1. 实现细节在分层注意力模块中,一个类别的嵌入维度设置为8,填充后的输出大小等于场景中的最大节点数。在无限邻域模块中,卷积(UNIConv)的内核大小k固定为3。我们用SGD训练我们的模型,学习率设置为13174MLP CNNApolloscape1.460/1.7941.576/1.8431.837/2.0141.792/1.9551.094/1.545nuScene场景1.613/1.9691.547/1.7281.763/1.9821.701/1.9341.049/1.521表3.每个组件的消融研究(使用MLP/CNN替换每个组件)。UNIN(Ours)与每个组件相结合UNIConv 1号23510Ade1.1790.9210.9981.2472.691FDE1.6321.3881.3231.7663.515表4.无限邻域卷积核大小的消融研究0.005,衰减系数为0。每10个时期后2次。GMM损失的加权因子由层次注意模型和场景中类别的近似比例获得我们在RTX2080Ti GPU上训练我们的模型多达50个epoch。我们使用60%,20%,20%的数据集完整的代码将在接受后发布一次4.2. 定量评价表1和表2显示了我们的方法与最先进方法的比较,包括Social LSTM [1],Social GAN [12],STGAT [20],Social[32],Trajectron++,NRI [17],SoPhie [40],[2019- 05 - 25][2019 - 05 -25][2019 - 05][2019 - 05 - 05[34]、[45]、[59]和[11]。总的来说,我们的方法显着优于所有比较的方法对所有数据集,根据表。特别是,我们的UNIN超过了欲望(第二好的)2。7%,平均为13。nuScenes、Argoverse和Apolloscape的FDE平均为85%。同时,我们的方法实现了10的性能提高。SDD数据集的FDE平均值为5%。其根本原因是,我们的方法可以模拟集体之间的相互作用,同时,层次注意增强了基于类别-类别交互的Agent- Agent交互。nuScenes、Argoverse和Apolloscape。我们的UNIN在 三 个 数 据 集 上 执 行 所 有 竞 争 方 法 。 nuScense 、Argoverse和Apolloscape是具有大多数车辆的多类别混合数据集。与基于RNN的方法(如S-LSTM [1])相比,我们的方法超过了42。8%/51。FDE/ADE中1%符合-歌词 我们推测S-LSTM采用了一种池化机制,该算法只对局部智能体的状态进行聚合此外,我们的方法也优于基于图的方法,例如S-STGCNN [32],by28. 5%/41。FDE/ADE指标为3%。我们推测它考虑了长程相互作用,但相互作用仅在成对代理之间建模。有趣的是,我们的方法优于采用场景上下文的方法,例如DESIRE [21]和MATFG [58]。两的模型采用LSTM对每个智能体进行建模,并将交互融合在局部区域内,而我们的模型考虑了无限邻域,不受智能体数量和交互范围的限制因此,我们的方法可以捕捉更多的全球和局部的细节信息,以提高未来的轨迹的准确性。斯 坦 福 无 人 机 数 据 集 。 斯 坦 福 无 人 机 数 据 集(Stanford Drone Dataset,SDD)是一个多类别混合数据集,包括行人、骑自行车的人、滑板者、手推车、汽车和公交车,其中行人占大多数。 我们的方法优于对局部区域中的交互进行建模的方法,例如S-LSTM [1](我们在ADE/FDE中平均提高了49% / 52%)和S-GAN[12]( 我 们 在 ADE/FDE 中 平 均 提 高 了 41%/52% ) 。7%/36。FDE/ADE平均好5%)。我们推测的原因是他们采用了池机制来聚合本地代理的交互状态,而我们的方法采用了无限的互动,能够捕捉灵活的此外,我们的方法比基于图的方法,如STGCNN [32],好22。8%/20。平均5%。此外,我们的方法在ADE度量方面略优于SIMAUG [26],可能是由于SIMAUG使用额外的3D模拟数据进行训练,从而导致更稳健的表示。我们还评估了我们的模型的数据效率和泛化能力,请参阅补充材料的细节。4.3. 定性评价我们进一步研究了我们的方法的能力,以模拟大规模的交通代理与多个类别的相互作用如前所述,在真实的交通场景中,通常存在与大量代理的交互以及它们之间的不确定距离。和代理往往采取不同的策略时,与不同类别的交通参与者。我们在图4中说明了一些定性评估结果。总的来说,我们预测的轨迹分布与地面真实轨迹一致。结果(a)是从开始时刻到最后时刻的长时间轨迹,这表明我们的方法实现了很高的预测精度。结果(b) 示出了正在转向的单个交通代理。正如预期的那样,我们的模型捕捉到了代理结果(c) 显示我们的方法成功地预测了当两个代理平行朝向相同方向时的轨迹,这意味着我们的方法不会出现过拟合。在(d)中,两个不相邻的代理相互作用,而不是与另一个最接近的代理。我们的方法利用UNI来捕获远程数据集NLIN(我们的)不含HGA不带UNI不含HGA不带UNI13175图4. 预测轨迹分布的可视化。每一条线代表一个智能体的真实轨迹。彩色点表示我们预测的轨迹分布,不同的颜色表示我们预测分布的不同密度,其中黄色表示最可能的轨迹分布。(a)示出了在所有时刻的整个场景中的总体轨迹。(b)表明我们成功地预测了一个转向剂。(c)表明我们成功地预测了两个平行于同一方向的智能体(d) 结果表明,我们成功地预测了两个被另一个分开的代理相互作用并避免彼此。(e)表明我们成功地预测了集体相互作用后一组代理的可能轨迹所有结果都是从nuScenes数据集中随机采样的交互,成功地预测相对遥远的代理交互和随后的轨迹。结果(e)示出了涉及属于不同类别的一组代理的集体交互我们的方法成功地预测了它们可能的轨迹与一个复杂的相互作用。我们预测的轨迹分布表明,不同类别的智能体在与特定智能体交互时的反应不同我们还形象化的关系之间的类别注意和代理人的注意补充材料。4.4. 消融研究我们研究了模型中每个组件的贡献,如表3所示。此外,我们设置不同的无限邻域交互作用的核大小值,以找到经验最优值,如表4所示。每个组件的贡献 如表3所示,我们评估了我们的方法的两个变体:(1)UNIN w/o HGA,这意味着类别对类别的注意力被CNN/MLP替换,只有代理对代理的交互被保留;(2)UNIN w/o UNI,这意味着无限的邻域交互被CNN/MLP替换。根据结果,删除任何组件将导致一个大的性能下降。特别是,UNIN w/o HGA的结果显示性能降低了28。3%/16。ADE/FDE指标为4%,反映了层级关注的有效性。UNIN w/o UNI的结果显示性能下降30。1%/14。2%,这验证了无限近邻相互作用的贡献最佳内核大小。如表4所示,无限邻域交互卷积的核大小的最佳值在ADE度量中为2,在FDE度量中为3从表中可以看出,较大的内核大小没有帮助。核大小为2和3的卷积性能最好设置以捕获组代理之间的关系。5. 结论为了从不确定的距离捕获与不同数量的智能体的交互信息,我们提出了一个无限邻域交互网络来预测多个类别的轨迹无限邻域交互模块与参与交互的所有代理同时生成交互。设计了一个层次化的图注意力模块,用于获取类与类之间的交互和Agent与Agent之间的交互,其中类与类之间的交互用于增强Agent与Agent之间交互的表示。广泛的定量评估表明,我们的方法实现了最先进的性能,甚至优于利用附加场景上下文的方法。定性评价说明了我们的方法的优势,在密集和复杂的交通场景中预测异构轨迹。确认本 工 作 部 分 得 到 国 家 重 点 研 发 计 划 资 助2018AAA0101400 , 国 家 自 然 科 学 基 金 资 助62088102,61976171,61773312和62106192,国家自然科学基金资助62088102,61976171,61773312和62106192。国家博士后科学基金项目。2020M683490、中国科协青年科学家资助项目2018QNRC001、山西省自然科学基金青年项目2018QNRC001。2021JQ-054。引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:拥挤空间中的人体轨迹预测。在CVPR,第961-971页,2016年。一、二、六、七[2] 白少杰,J.齐科.科尔特,弗拉德伦.科尔顿。实证13176用于序列建模的通用卷积和递归网络的评估。2018年12月18日,第1803.01271页。2[3] 毕慧坤、方忠、毛天禄、王兆琪、邓志刚。 车辆-行人混合场景中运动轨迹的联合预测。在ICCV,第10383- 10392页,2019年。第1、3条[4] Niccolo' Bisagno,Bo Zhang,and Nicola Conci.组lstm:拥挤场景下的群体轨迹预测在ECCVW,2018年。一、二[5] Holger Caesar ,Varun Bankiti,Alex H Lang,SourabhVora,威 尼 斯 Erin Liong , Qiang Xu , Anush Krishnan , YuPan,Gi- ancarlo Baldan,and Oscar Beijbom.nuscenes:用于自动驾驶的在CVPR中,第11621- 11631页,2020年。6[6] Sergio Casas,Cole Gulino,Simon Suo,Katie Luo,仁杰Liao和Raquel Urtasun。场景一致性运动预测的隐式隐变量模型。参见ECCV,第624-641页,2020年。3[7] Rohan Chandra,Tianrui Guan,Srujan Panuganti,TrishaMit-Tal 、 Uttaran Bhattacharya 、 Aniket Bera 和 DineshManocha。在graph-lstms中使用光谱聚类预测道路智能体的轨迹和行为RAL,5(3):48821、2[8] Ming-Fang Chang ,John Lambert, Patsorn Sangkloy ,Jagjeet Singh , Slawomir Bak , Andrew Hartnett , DeWang,Peter Carr,Simon Lucey,Deva Ramanan,et al.Argoverse:3d跟踪和预测与丰富的地图。在CVPR中,第87486[9] Nima Dehmamy等人理解表示法图神经网络学习图拓扑的能力。NeurIPS,2019。一、五[10] 董伟和周明基于高斯分类器的多峰优化进化策略。NNLS,25(6):1200- 1216,2017。6[11] Liangji Fang , Qinhong Jiang , Jianping Shi, and BoleiZhou.TPnet:用于运动预测的轨迹建议网络在CVPR,第6797-6806页,2020年。六、七[12] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social gan:社交上可接受的生成对抗网络轨迹。在CVPR中,第2255一、二、六、七[13] S. Haddad和S. Lam.自生长空间图网络行人轨迹预测。在WACV,第1140- 1148页,2020中。1[14] Will Hamilton,Zhitao Ying,and Jure Leskovec. 感应大型图上的表示学习。在NeurIPS,第1024-1034页,2017年。3[15] Irtiza Hasan,Francesco Setti,Theodore Tsesmelis,AlessioDel Bue,Marco Cristani,and Fabio Galasso. ” seeing isbelieving”:在WACV,第1178-1185页,2018年。3[16] Dirk Helbing和Peter Molnar社会力量模型-Trian动力公司Physical review E,51(5):4282,1995.2[17] Thomas Kipf、Ethan Fetaya、Kuan-Chieh Wang、MaxWelling和Richard Zemel。交互系统的神经关系推理在ICML,第2688-2697页,2018年。六、七[18] Thomas N Kipf和Max Welling半监督类图卷积网络。 ICLR,2016年。3[19] Johannes Klicpera等人预测然后验证:图神经网络满足个性化PageRank。在ICLR,2018年。一、五[20] Vineet Kosaraju,Amir Sadeghian,Roberto Mart´ın-Mart´ın,Ian Reid Hamid Rezatofighi 和 Silvio Savarese 。 社 交 -bigat:利用自行车网络和图注意力网络进行多模态轨迹预测。在NeurIPS,第137-146页,2019年。二六七[21] Namhoon Lee,Wongun Choi,Paul Vernaza,ChristopherBChoy , Philip HS Torr , and Manmohan Chandraker. 欲望:在具有交互代理的动态场景中的遥远未来预测。在CVPR,第336-345页,2017年。六、七[22] Alon Lerner、Yiorgos Chrysanthou和Dani Lischinski。群众的榜样。在CGF,第655-664页,2007中。6[23] Jiachen Li,Hengbo Ma,and Masayoshi Tomizuka.交互感知多智能体跟踪和通过对抗学习的概率行为预测。在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- JDK 17 Linux版本压缩包解压与安装指南
- C++/Qt飞行模拟器教员控制台系统源码发布
- TensorFlow深度学习实践:CNN在MNIST数据集上的应用
- 鸿蒙驱动HCIA资料整理-培训教材与开发者指南
- 凯撒Java版SaaS OA协同办公软件v2.0特性解析
- AutoCAD二次开发中文指南下载 - C#编程深入解析
- C语言冒泡排序算法实现详解
- Pointofix截屏:轻松实现高效截图体验
- Matlab实现SVM数据分类与预测教程
- 基于JSP+SQL的网站流量统计管理系统设计与实现
- C语言实现删除字符中重复项的方法与技巧
- e-sqlcipher.dll动态链接库的作用与应用
- 浙江工业大学自考网站开发与继续教育官网模板设计
- STM32 103C8T6 OLED 显示程序实现指南
- 高效压缩技术:删除重复字符压缩包
- JSP+SQL智能交通管理系统:违章处理与交通效率提升
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功