没有合适的资源?快使用搜索试试~ 我知道了~
enced by each other, as well as the traffic conditions andrules; see Figure 1. Previous works have tried to modelsuch interactions through three mechanisms: spatial-centricmechanism, social mechanism, and graph-based mecha-nism. The spatial-centric mechanism uses the spatial re-lationship to implicitly model the interaction between ac-tors [7, 40, 3, 8, 6, 5]. The social mechanism explicitlyaggregates the neighboring actors’ information involved inthe scene through social pooling [1, 11], or attention oper-ation [34, 28]; however, both mechanisms model the inter-actions according to the static spatial locations of the actorsand ignore the temporal horizon. The graph-based mech-anism constructs a graph to explicitly model the pairwiseinteractions between actors according to their observed tra-jectories [16, 34, 14]; however, the previous graph-basedmethods only consider features for actors, but do not ex-plicitly learn features for in-between interactions.To comprehensively represent the interactions betweenactors, we extend the current graph-based mechanism andpropose neural motion message passing (NMMP). TheNMMP infers an interaction graph from actors’ trajecto-ries, whose nodes are the actors and edges are the inter-actions. This module updates the neural message passingframework [15] to the context of motion prediction. It takesthe observed trajectories of traffic actors as input, and pro-63190通过神经运动信息传递实现协同运动预测0胡越1,陈思恒2,张雅1,顾晓101. 合作中心网络创新中心,上海交通大学2. 三菱电机研究实验室0{ 18671129361, ya zhang, gugu97 } @sjtu.edu.cn, schen@merl.com0摘要0运动预测对于自动驾驶车辆和社交机器人来说是至关重要且具有挑战性的。运动预测的一个挑战是对交通参与者之间的相互作用进行建模,这些参与者可以相互合作以避免碰撞或形成群体。为了解决这个挑战,我们提出了神经运动信息传递(NMMP)来明确地建模交互作用,并学习参与者之间的有向交互作用的表示。基于提出的NMMP,我们设计了两种设置的运动预测系统:行人设置和行人与车辆联合设置。这两个系统共享一个共同的模式:我们使用一个单独的分支来建模单个参与者的行为,使用一个交互分支来建模参与者之间的交互作用,但使用不同的包装器来处理各种输入格式和特征。实验结果表明,这两个系统在几个现有的基准测试中优于先前的最先进方法。此外,我们为交互学习提供了可解释性。代码可在 https://github.com/PhyllisH/NMMP上获得。01. 引言0在许多实际场景中,预测场景中相互作用的参与者的未来运动是一个关键问题。例如,自动驾驶车辆和交互式机器人需要了解人类和其他交通参与者的未来行为,以避免碰撞和进行更好的规划[5, 6, 8,9]。监控系统中的智能跟踪模块也需要了解行人的运动以优化资源分配[31]。从科学上讲,运动预测对于理解人类行为[22]和运动动力学[27]也很有用。这项任务的一个基本挑战之一是对场景约束进行建模,特别是参与者之间的隐藏交互作用。例如,在驾驶场景中,交通参与者(如车辆和行人)受到彼此之间的影响,以及交通状况和规则的影响;参见图1。先前的研究尝试通过三种机制来建模这种交互作用:基于空间的机制、社交机制和基于图的机制。基于空间的机制使用空间关系来隐式地建模参与者之间的交互作用[7, 40, 3, 8,6, 5]。社交机制通过社交汇聚[1, 11]或注意力操作[34,28]明确地聚合场景中涉及的邻近参与者的信息;然而,这两种机制都根据参与者的静态空间位置来建模交互作用,并忽略了时间范围。基于图的机制构建一个图来明确地建模参与者之间的成对交互作用,根据它们的观察到的轨迹[16, 34,14];然而,先前的基于图的方法只考虑参与者的特征,而没有明确地学习参与者之间的特征。为了全面地表示参与者之间的交互作用,我们扩展了当前的基于图的机制,并提出了神经运动信息传递(NMMP)。NMMP从参与者的轨迹中推断出一个交互图,其节点是参与者,边是交互作用。该模块将神经信息传递框架[15]应用于运动预测的上下文中。它以观察到的交通参与者的轨迹作为输入,并生成预测的参与者轨迹。0图1.神经运动信息传递被提出来捕捉交通参与者之间的有向交互作用,可以作为一个插件模块来指导运动预测。63200提出的NMMP不仅为行为者和互动提供了信息丰富的特征表示,还为运动预测任务提供了可解释性。表示相似互动模式的互动表示对行为者的影响是相似的。此外,我们考虑互动的方向。我们为两种特定设置设计了运动预测系统:行人设置,我们考虑一个开放区域和灵活的行人;联合行人和车辆设置,我们考虑城市驾驶场景,一个行为者可以是行人或车辆。大多数先前的文献只关注这两种设置中的一种。在这里,我们使用相同的NMMP模块来处理这两种设置中的互动,并使用一个单独的分支来模拟单个行为者的行为,使用一个交互分支来模拟行为者之间的互动。我们使用不同的包装器处理这两种设置中的不同输入格式和特征。行人运动预测系统包括额外的GAN来处理开放区域场景中不确定的人类行为。联合运动预测系统包括额外的CNN来处理城市驾驶场景中所需的地图信息,并进行坐标转换来处理车辆的朝向。总的来说,这两个系统之间的差异很小。实验结果表明,所提出的系统在两种设置中优于现有的最先进方法,这不仅显示了所提出系统的优越性,还验证了所提出NMMP的泛化性和可解释性。本文的主要贡献包括:•我们提出了神经运动消息传递(NMMP)来学习行为者和互动的特征表示;•我们基于NMMP模块设计了行人运动预测系统和联合行人和车辆运动预测系统;两者都优于先前的最先进方法;•我们为所提出的运动预测系统提供了可解释性,包括定量基准和可视化分析。02.相关工作运动预测。传统的运动预测方法基于手工制定的规则和能量势函数[2, 19, 24, 25, 35, 36]。例如,SocialForce[13]使用吸引力和排斥力模型来建模行人行为;然而,这些手工制定的特征无法推广到复杂的场景。为了解决这个问题,研究人员倾向于使用数据驱动的工具。例如,序列到序列模型,如循环神经0网络[32]被用来编码先前的轨迹序列[1,20];然而,这些模型考虑了每个个体行为者的行为,但忽略了场景中多个行为者之间的丰富互动。最近,有三种机制被开发来建模隐藏的互动。第一种是空间中心机制;它在一个统一的空间域中表示行为者的轨迹,并使用空间关系来隐式地建模行为者之间的互动。例如,Social Conv[7]和MATF[40]利用行为者的空间结构来学习互动;ChauffeurNet[3]和Motion Prediction[8]将交通行为者的轨迹和场景背景编码为鸟瞰图像;FMNet [6]使用轻量级CNN实现实时推理;IntentNet[5]将激光雷达数据与图像相结合。第二种是社交机制;它将邻近行为者的信息聚合到一个社交表示中,并将其广播给每个行为者。通过这种方式,每个行为者都能意识到邻近信息。例如,Social LSTM[1]利用邻近行为者的最大池化。为了考虑长距离的互动,Social GAN [11]对所有行为者应用最大池化。CIDNN[38]使用行为者先前位置嵌入之间的内积。然而,最大池化操作忽略了每个行为者的独特性,内积操作则将所有其他行为者视为平等。然后引入了注意力操作[34,28],使行为者能够关注关键影响。不可避免地,注意力操作会增加计算复杂性。第三种是基于图的机制;它构建一个图来明确地建模行为者之间的成对互动。例如,Social-BiGAT[16]学习一个全局嵌入来表示场景中的互动,基于图注意力网络(GAT);Social Attention [34]和STGAT[14]分别使用时空图和LSTM捕捉动态的互动变化。在这项工作中,我们从两个方面扩展了基于图的机制:(i)捕捉有向互动;(ii)为互动提供可解释性。图神经网络。图神经网络最近在各个领域取得了很多关注和显著的成功[10, 26,15],尤其是在社交网络分析[12]、场景理解[37,39]、3D点云处理[21]和人类行为理解[27,22]方面。两种主流架构包括图卷积网络[30, 23,33]和基于神经消息传递的网络[10,15]。而图卷积网络将边缘视为瞬时部分,基于神经消息传递的网络将其视为模型的一个整体部分。在这项工作中,我们使用基于神经消息传递的网络来学习交通行为者之间复杂的互动,其中行为者被视为节点,互动被视为边缘。63210图2.NMMP模块通过LSTM明确地学习每个演员的轨迹嵌入,并通过消息传递相互作用的演员嵌入和相互作用嵌入。03.神经运动消息传递0在本节中,我们介绍NMMP,其功能是为输入轨迹提供演员和相应交互的特征表示。作为提供交通演员共享历史信息并协同预测未来轨迹的提议系统的核心模块,NMMP的作用非常重要。考虑场景中的N个可见交通演员。对于时间戳t,p(t)i = (x(t)i, y(t)i) ∈R2表示第i个演员的空间坐标,让观察到的轨迹P−i和第i个演员的真实未来轨迹P+i为0P−i = � p(−Tobs)i p(−Tobs+1)i...p(0)i � ∈ R2×(Tobs+1),0P+i = � p(1)i p(2)i...p(Tpred)i � ∈ R2×Tpred.0运动预测的总体目标是提出一个预测模型g(∙),以便预测未0{�P+i}Ni=1 = g{�P−i}Ni=10接近于真实值0未来轨迹{�P+i}Ni=1。参见图2,直观地说,演员在实时中相互影响,导致相关的轨迹。NMMP旨在利用这种相关性为演员和相应的交互提供信息丰富的特征表示。NMMP的核心是一个交互图G(V, E),其中节点vi ∈V表示第i个交通演员,边eij ∈E表示两个演员vi和vj之间的交互。我们将其初始化为完全连接的图,然后使用通过轨迹嵌入获得的演员和交互嵌入来初始化演员和交互嵌入,该轨迹嵌入通过以下方式获得:0h(t)i = ftemp(p(t)i − p(t−1)i), (1a)0hi = fLSTM({h(t)i}0t=−Tobs+1) ∈ RD, (1b)0dij = fspatial(p(0)i − p(0)j). (1c)0我们在(1a)中编码了两个连续时间戳之间的坐标位移。利用LSTM来0将时间信息整合起来,得到第i个演员的轨迹嵌入hi(公式1b)。并且(公式1c)编码了当前时间演员之间的差异,提供了相对空间信息。然后,将轨迹嵌入映射到演员空间,得到第i个演员的初始演员嵌入vi =f0v(hi),并将两个演员嵌入和相对空间嵌入dij连接起来,得到第i个演员和第j个演员之间的初始交互嵌入e0ij = f0e([v0i;v0j;dij]),其中包含了时间和空间信息。ftemp(∙)、fLSTM(∙)、fspatial(∙)、f0v(∙)和f0e(∙)都是多层感知机。遵循节点到边和边到节点的信息传递机制的思想,我们使用相关的演员和交互嵌入来更新交互图;参见图2。在节点到边阶段,每个交互都从相应的演员对接收运动信息。在边到节点阶段,根据所有相应的交互嵌入来更新每个演员嵌入。第k(k≥0)次迭代的工作方式如下:0vk+1i = fk+1v([10dini0eji∈Eekji;10douti0eij∈Eekij]),0其中fk(∙)、fk(∙)是多层感知机。vki和ekij分别是第i个演员嵌入和第i个和第j个演员之间的交互嵌入在第k次迭代时的值。在这里,我们考虑一个有向图来模拟交通演员之间的相对交互。例如,当前面的演员减速时,后面的演员会被迫减速或转向以避免碰撞,而反过来,后面的演员减速可能不会对前面的演员的行为产生同等影响。为了明确反映这种有向信息,在边到节点阶段(2a)中,我们使用连接而不是求和或平均值来区分边的方向。din i是指向vi的边的数量,而douti是指向vi的边的数量;这两者都用于归一化交互嵌入。在节点到边阶段(2b)中,我们将两个演员嵌入连接起来以更新交互嵌入。重复节点到边和边到节点阶段K次,我们可以得到最终的相互作用演员嵌入(vi =vKi)和最终的相互作用嵌入(eij =eKij)。交互密度与迭代次数K正相关。04.运动预测系统0我们提出了基于NMMP的运动预测系统,包括行人运动预测和联合行人和车辆运动预测。4.1.行人运动预测0行人运动预测考虑开放区域,如校园广场,行人可以灵活行走。,N||�P+i − P+i ||22,63220图3.基于NMMP的行人运动预测系统(PMP-NMMP)由生成器和鉴别器组成。生成器从两个分支预测未来轨迹:个体分支考虑个体轨迹嵌入,交互分支考虑交互演员嵌入。鉴别器将完整的轨迹分类为真实或伪造。0设置的特点是轨迹高度不平滑。这种设置适用于监控系统的场景。04.1.1系统架构0该系统由生成器和鉴别器组成;参见图3。生成器预测演员的未来轨迹,鉴别器将完整的轨迹分类为真实或伪造。模型通过对抗训练来鼓励逼真的轨迹。生成器。我们基于两个分支预测未来轨迹:个体分支根据每个个体演员提供粗略预测,交互分支根据交互信息对粗略预测进行改进。第i个演员在时间戳t的预测空间坐标�p(t)i通过以下方式获得0z(t)ind = gind � gLSTM � q(t)i, �p(t−1)i �� ∈ R2, (3a)0z(t)inter = g(t)inter(vi) ∈ R2, (3b)0�p(t)i = �p(t−1)i + z(t)ind + z(t)inter ∈ R2, (3c)0gind(∙)和g(t)inter(∙)是MLPs。q(t)i是第i个演员在时间t的LSTM的隐藏状态,它的初始化为q(0)i=[hi;zi],hi来自NMMP(1b),zi是鼓励多样性的高斯噪声。LSTM gLSTM(∙)按时间顺序预测未来的移动。(3a)基于观察到的轨迹预测每个个体演员的未来轨迹;(3b)基于与交互演员嵌入vi的交互组件进行预测;(3c)提供最终预测的坐标,它是前一个时间戳的预测坐标、预测的个体和交互组件之和。注意,我们预测与前一时刻的位移,而不是使用绝对位置,这样更具有泛化能力。鉴别器。鉴别器将完整的轨迹分类为真实或伪造。它使用一个个体NMMP模块,后面跟着一个分类器。对于真实样本,完整的轨迹是[P − i; P +i],应该被分类为真实;对于生成的样本,完整的轨迹是[P− i; � P + i],应该被分类为伪造。得到的真实概率为0pi = dcls(dNMMP(dLSTM(dMLP([P − i; �P +i])))),0d MLP(∙)表示MLP,dLSTM(∙)是用于聚合时间信息的LSTM,dNMMP(∙)是NMMP模块,d cls(∙)表示分类器。04.1.2损失函数0为了训练模型,我们考虑场景的两个损失:生成器损失LG和鉴别器损失LD。0LG = �0LD = �0i ∈ 1 , 2 ,...,N log(D([P − i ;P + i]))0+ log(1 − D([P − i; �P +i])),0D(∙)产生鉴别器生成的完整轨迹的真实概率。生成器和鉴别器进行最小最大博弈,以获得更多的随机和逼真的预测。04.2.联合行人和车辆运动预测0联合行人和车辆预测考虑城市驾驶场景,其中既有车辆又有行人参与。这种设置的特点是我们需要考虑车辆和行人的不同运动模式,以及复杂的环境信息,例如车辆的可行驶区域。这种设置适用于自动驾驶。04.2.1系统架构0该系统包括个体分支和交互分支;参见图4。由于车辆和行人具有不同的运动行为,我们为相同类型的参与者使用各自的个体分支。个体分支预测每个参与者的未来轨迹,而不考虑交互。交互分支通过考虑参与者之间的交互来预测额外的补偿分量。然后,我们将两个分支的输出组合起来,得到最终的预测轨迹。个体分支。我们预测每个个体参与者的未来轨迹的个体分量。我们使用自我坐标系,其中原点是当前P+i= Ti (Zi,ind) + Zi,inter ∈ R2×Tpred,Lind=�∈,N||Ti (Zi,ind) − P+i ||22,,N||�P+i − P+i ||22,63230图4.基于NMMP的联合行人和车辆运动预测系统(JMP-NMMP)从两个分支预测未来轨迹:个体分支考虑每个参与者的个体行为,交互分支考虑参与者之间的交互。0为了减少起始位置和朝向的影响,集中关注运动模式,我们将每个参与者的位置转换为其自我坐标系下的未来轨迹的个体分量 Z i, ind ∈ R 2 × T pred。交互分支。我们采用NMMP模块来预测每个参与者未来轨迹的交互分量。由于我们需要协同考虑所有参与者,我们使用全局坐标系。例如,我们可以将自动驾驶车辆(SDV)的位置视为原点。我们将所有参与者的观测轨迹输入到NMMP模块中,该模块考虑了交互并输出第 i个参与者的交互嵌入 v i。为了进一步建模复杂的环境信息,引入了额外的二维鸟瞰场景地图。这样的光栅化场景图像非常重要,因为它提供了关于交通状况和规则的先验知识。我们按照[18]中的设置将场景信息光栅化为RGB图像;有关光栅化细节,请参见附录。我们使用MobileNet-V2 [29]从RGB图像中提取场景嵌入S。然后,我们通过MLPs聚合交互参与者嵌入和场景嵌入,以获得交互分支的输出。第 i个参与者的未来轨迹的交互分量 Z i, inter = MLP ([ v i ,S]) ∈ R 2 × T pred。最后,我们将个体分支和交互分支的输出组合起来,得到整体的未来轨迹。第 i 个参与者的未来轨迹为0其中 T i ( ∙ ) 是从第 i个参与者的自我坐标系到全局坐标系的变换。04.2.2损失函数0为了训练系统,我们考虑了两种损失:一种是来自各个分支的输出,另一种是最终组合的输出;即,0L final = �0其中 L ind 是个体分量与真实未来轨迹之间的ℓ2损失,Lfinal是最终预测与真实未来轨迹之间的ℓ2损失。我们将最终损失定义为 L = λL ind + (1 − λ ) L final。在实验中,我们设置 λ = 0 . 5 。05. 实验0我们在两个设置上验证了所提出的网络:行人运动预测和行人与车辆运动预测。05.1. 与SOTA方法的比较0评估指标。根据之前的工作[20, 1,11],我们考虑了两个评估指标:平均位移误差(ADE)和最终位移误差(FDE)。ADE是所有预测轨迹点与真实点之间的平均距离,FDE是预测的最终目的地与真实最终目的地之间的距离。05.1.1 行人运动预测0数据集。我们考虑了两个公共数据集:ETH-UCY和StanfordDrone。ETH-UCY数据集包含5个集合,ETH、HOTEL、UNIV、ZARA1和ZARA2。它们包含了具有丰富交互的人类轨迹,例如群体形成、分散和避免碰撞。按照SGAN[11]的实验设置,我们将轨迹分割为8秒的片段,时间间隔为0.4秒,并使用前3.2秒(8个时间戳)来预测接下来的4.8秒(12个时间戳)。我们采用留一法,训练4个集合并在剩余的集合上进行测试。StanfordDrone数据集是一个拥挤的行人数据集,包括一个大学校园上的20个独特场景。提供了多个参与者轨迹的像素坐标。按照标准的数据分割设置,我们使用6356个样本和与ETH-UCY相同的片段分割。基线方法。SLSTM[1]使用邻居的隐藏状态进行池化。SAT[34]将轨迹序列在空间-时间图中表示,以捕捉空间和时间动态。CIDNN[38]使用内积建模人群互动,并引入位移预测模块。SGAN[11]利用对抗学习来适应不确定的人类行为,并将隐藏状态与场景中的所有其他参与者进行池化。Sophie[28]引入了注意机制,以区分地考虑其他参与者的影响。ETH1.09/2.351.39/2.391.25/2.320.87/1.620.70/1.430.69/1.291.01/1.750.65/1.120.61/1.08HOTEL0.79/1.762.51/2.911.31/2.360.67/1.370.76/1.670.49/1.010.43/0.800.35/0.660.33/0.63UNIV0.67/1.401.25/2.540.90/1.860.76/1.520.54/1.240.55/1.320.44/0.910.52/1.100.52/1.11ZARA10.47/1.001.01/2.170.50/1.040.35/0.680.30/0.630.30/0.620.26/0.450.34/0.690.32/0.66ZARA20.56/1.170.88/1.750.51/1.070.42/0.840.38/0.780.36/0.750.26/0.570.29/0.600.29/0.6163240表1. ETH-UCY 数据集上的定量结果。我们以米为单位给出ADE/FDE。给定前8个时间步长(3.2秒),预测未来12个时间步长(4.8秒)。0基线方法 我们的方法0数据集 SLSTM SAT CIDNN SGAN SOPHIE S-BIGAT MATFGAN STGAT PMP-NMMP0平均 0.72/1.54 1.41/2.35 0.89/1.73 0.61/1.21 0.54/1.15 0.48/1.00 0.48/0.90 0.43/0.83 0.41/0.820其他参与者的影响。S-BiGAT[16]引入了GAT来表示全局嵌入的社交互动。STGAT[14]通过额外的LSTM捕捉时间上的互动。Desire[20]利用变分自编码器和逆最优控制来生成和排名预测。MATFGAN[40]使用共享卷积操作来建模空间互动。结果。表1显示了所提出的PMP-NMMP与ETH-UCY上几种先前最先进方法的比较。我们可以看到,(i)虽然大多数先前的SOTA方法[28, 16,40]在平均上更优,但在某些集合上表现较差,我们的模型在2个集合上表现最好,在其他3个集合上兼容;(ii)PMP-NMMP将ADE和FDE的最新技术提高到了0.41米和0.82米。表2显示了在StanfordDrone上的性能比较。我们可以看到,所提出的PMP-NMMP明显优于其他竞争方法。其原因是它使用NMMP模块有效地捕捉了拥挤场景中的社交互动。0表2. 在StanfordDrone数据集上的定量结果。ADE和FDE以像素为单位报告。0方法 ADE FDE0SFORCES 36.38 58.14 SLSTM31.19 56.97 SGAN 27.25 41.44DESIRE 19.25 34.05 SOPHIE16.27 29.38 MATFGAN 22.5933.53 PMP-NMP 14.67 26.720定性比较。图5比较了预测轨迹与地面真实轨迹。我们从HOTEL数据集中选择了六个场景,展示了地面真实轨迹(绿色线),我们的预测结果(虚线红色线)和SGAN基准模型(虚线蓝色线)。我们的模型优于SGAN,因为相应的预测结果更接近地面真实轨迹。05.1.2 联合运动预测数据集。我们基于NuScenes[4]创建了一个联合行人和车辆运动预测数据集。NuScenes是一个自动驾驶数据集,包含1000个场景,每个场景持续20秒,并且完全注释了3D边界框。我们重新组织了数据集并进行了降采样,以避免重叠问题。总共选择了3148个样本,其中1888个用于训练,629个用于验证,631个用于测试。每个样本包含了地面真实参与者的轨迹信息和一个2D场景地图。场景地图反映了100×100平方米的区域,以自动驾驶车辆为中心,前后各50米。像素分辨率为0.2米,图像尺寸为500×500。时间间隔为0.1秒,我们从前0.5秒(5个时间步)的轨迹预测未来3秒(30个时间步)的轨迹。0自动驾驶数据集,包含1000个场景,每个场景持续20秒,并且完全注释了3D边界框。我们重新组织了数据集并进行了降采样,以避免重叠问题。总共选择了3148个样本,其中1888个用于训练,629个用于验证,631个用于测试。每个样本包含了地面真实参与者的轨迹信息和一个2D场景地图。场景地图反映了100×100平方米的区域,以自动驾驶车辆为中心,前后各50米。像素分辨率为0.2米,图像尺寸为500×500。时间间隔为0.1秒,我们从前0.5秒(5个时间步)的轨迹预测未来3秒(30个时间步)的轨迹。0表3.在NuScenes数据集上的定量比较。报告的误差指标为ADE/FDE(以米为单位)。给定前5个时间步(0.5秒)的数据,预测未来30个时间步(3秒)的轨迹。0方法 行人 车辆 T(毫秒)0NOIMAGE 0.41/0.81 1.77/3.87 1.54 ALEXNET 0.39/0.791.71/3.79 23.3 ALEXNET-NMMP 0.38/0.78 1.59/3.72 1.98JMP-NMMP-GAN 0.38/0.78 1.65/3.81 6.23 JMP-NMMP0.34/0.71 1.54/3.55 3.760基准模型。ALEXNET [8]使用AlexNet[17]提取栅格化的参与者中心场景图像的视觉线索,并同时和分别对每个场景中的参与者的先前轨迹进行编码和解码。我们在ALEXNET中排除了图像,称为NOIMAGE。如图4所示,我们将NMMP模块添加到ALEXNET中,并使用以自动驾驶车辆为中心的场景图像代替多个参与者中心的场景图像,称为ALEXTNET-NMMP;我们在ALEXTNET-NMMP中用MobileNet-V2[29]替换了AlexNet,称为JMP-NMMP;我们进一步引入GAN作为PMP-NMMP,称为JMP-NMMP-GAN。结果。表3显示了定量比较结果。我们可以看到,(i)JMP-NMMP在车辆和行人方面始终表现最好,表明了所提出系统的优越性;(ii)ALEXNET-NMMP比ALEXNET更好,表明社交互动在预测未来运动时至关重要;(iii)ALEXNET比NOIMAGE更好,JMP-NMMP比ALEXNET-NMMP更好,表明了GAN的必要性和63250图5. 行人场景中的预测轨迹比较。基准模型是SGAN [11]。0图6. 联合场景中的预测轨迹比较。基准模型是ALEXNET [8]。0场景图像的容量;(iv)GAN不会带来增益,但会增加时间成本,这表明交通参与者的行为更加确定,而GAN会干扰优化过程;(v)以自动驾驶车辆为中心的图像大大降低了计算成本,最终运行时间足够快,可以实时使用。定性比较。预测结果如图6所示。我们选择了复杂的城市街道场景中的四个样本,只展示了移动参与者的轨迹。我们的预测结果(红色)与基准结果(蓝色)相比,与地面真实值(绿色)更接近,特别是在运动变化的情况下。05.2. 消融研究0由于行人运动预测系统和联合运动预测系统具有较小的变化并且具有一致的性能,因此我们以PMP-NMMP为代表进行分析。NMMP模块在PMP-NMMP中的作用。为了更好地模拟参与场景中的演员之间的社交互动0表4.我们通过将NMMP模块应用于生成器(G)和判别器(D)中的多个轨迹编码阶段来评估NMMP模块。�和-分别表示有和没有NMMP模块。ADE/FDE以米为单位报告。0G D ETH HOTEL UNIV ZARA 1 ZARA 20- - 0.74/1.34 0.50/1.01 0.64/1.29 0.34/0.69 0.35/0.73 � - 0.70/1.300.41/0.80 0.54/1.15 0.33/0.68 0.31/0.65 �� 0.61/1.08 0.33/0.63 0.52/1.10.32/0.66 0.29/0.610表5. NMMP(K)在UNIV数据集上作为迭代次数的性能函数。0K 1 3 5 70ADE 0.55 0.54 0.52 0.56 FDE 1.161.16 1.11 1.200我们提出了NMMP模块来模拟场景中的社交互动。在PMP-NMMP中,有两个使用NMMP模块的轨迹编码阶段:一个在生成器中,另一个在判别器中。表4比较了三个模型。第一个模型是基准模型,我们采用[11]中的汇聚模块而不是NMMP模块来模拟社交互动。第二个模型将生成器中的汇聚模块替换为NMMP模块。第三个模型进一步将判别器中的汇聚模块替换为我们的NMMP模块。在所有5个数据集上的稳定增益显示了NMMP模块在模拟交互方面的优势。NMMP中迭代次数的影响。我们在最拥挤的数据集(UNIV)上探索了不同迭代次数下NMMP的性能。该数据集中的行人数量在一个场景中从2到57不等。表5显示了定量结果。性能随着迭代次数的增加而改善,然后急剧恶化。其原因如下所述。随着迭代次数的增加,NMMP模块具有更多的能力来模拟密集的交互;然而,当迭代次数过多时,演员嵌入会过度平滑,混合局部信息和全局上下文。0表6.在UNIV数据集上对解码器设计的探索。ADE/FDE以米为单位报告。0个体 最终 ADE/FDE0单 � 0.56/1.19 双 � 0.52/1.11 双 � 0.76/1.170PMP-NMMP中解码器结构的影响。我们从两个方面探索解码器结构的设计。第一个方面比较了单解码器结构和双解码器结构。单解码器结构将个体轨迹嵌入和交互演员嵌入在特征域中融合,然后将统一特征输入到单个解码器中预测最终轨迹;双解码器结构在生成器中应用个体和交互演员嵌入,然后分别输入到两个解码器中预测最终轨迹。5.3. Interpretability exploration63260交互解码器生成两个输出,这两个输出相加得到最终轨迹。表6中第一行和第二行的比较表明,双解码器结构优于单解码器结构,表明双解码器结构能更好地模拟场景中其他演员的影响。第二个方面比较了个体分支的输出和双解码器结构的最终输出。表6中第二行和第三行的比较表明,最终输出优于个体分支的输出,表明交互分支的重要性。0NMMP中交互嵌入的可视化。图7显示了HOTEL数据集中嵌入领域中的交互可视化以及空间领域中相应的演员对。交互嵌入e_ij通过t-SNE映射到2D坐标并显示在第一列中。我们随机选择了三对接近的嵌入空间中的交互样本,用蓝色和红色表示,并在接下来的两列中绘制相应的轨迹对。实线表示观察到的轨迹,虚线表示未来的轨迹。我们可以看到:(i)嵌入领域中的接近交互嵌入导致空间领域中相关演员之间的类似轨迹关系。例如,在第一行中,行人平行向上行走;在第三行中,行人朝相反方向行走;(ii)空间领域中演员之间的不同交互类型被编码为嵌入领域中的不同位置。前两行是接近的;它们与嵌入空间中的最后一行都相距较远。轨迹显示前两行的交互类型相似,与最后一行完全不同。0图7.嵌入域中的紧密交互嵌入导致空间域中相应演员对之间的轨迹关系相似。第一列是交互嵌入的可视化,其中每个点表示一个交互,并对应右列中的一个空间域图。0图8.场景中行人数量对ADE和FDE归一化比率的影响。x轴是场景中的总行人数量。y轴是与SGAN[11]相比的ADE(红色)和FDE(蓝色)归一化比率。0拥挤场景中的性能。我们根据场景中的行人数量将ETH-UCY数据集分为5组。我们在这个重新划分的数据集上评估了提出的PMP-NMMP和SGAN[11]基线。然后我们计算了相应的ADE / FDE归一化比率。0r ADE / FDE = SGAN ADE / FDE - NMMP ADE / FDE0SGAN ADE / FDE0对于每个拆分中的行人。正的r ADE /FDE表示PMP-NMMP优于SGAN。图8显示了ADE /FDE归一化比率与场景中行人数量的关系。我们可以看到(i)归一化比率始终为正,表明PMP-NMMP始终优于SGAN;(ii)归一化比率随着行人数量的增加而增加,表明NMMP相对于SGAN的优势更大。其背后的原理是NMMP模块具有更大的处理拥挤场景的能力,其中社交互动丰富。6.结论在这项工作中,我们提出了NMMP,一种新颖的模块,明确地建模了场景中交通参与者之间的相互作用。与以往仅仅解决单一运动预测任务的工作不同,我们设计了基于NMMP的行人运动预测系统和行人与车辆运动预测系统。两者在几个广泛使用的基准测试中均优于以往的最先进方法。通过我们的评估和可视化,我们展示了NMMP能够捕捉到交互模式,并且我们的系统能够在不同场景中预测精确的轨迹。0致谢本工作得到了中国国家重点研发计划(2019YFB1804304),NSFC(61521062),111计划(B07022)和STCSM(18DZ2270700)的支持。[24] Ramin Mehran, Alexis Oyama, and Mubarak Shah.Ab-normal crowd behavior detection using social force model.In 2009 IEEE Conference on Computer Vision and PatternRecognition, pages 935–942. IEEE, 2009. 2[25] Brendan Morris and Mohan Trivedi. Learning trajectory pat-terns by clustering: Experimental studies and comparativeevaluation. In 2009 IEEE Conference on Computer Visionand Pattern Recognition, pages 312–319. IEEE, 2009. 2[26] Sufeng Niu, Siheng Chen, Hanyu Guo, Colin Targonski,Melissa C Smith, and Jelena Kovaˇcevi´c. Generalized value63270参考文献0[1] Alexandre Alahi,Kratarth Goel,VigneshRamanathan,Alexandre Robicquet,Li Fei-Fei和SilvioSavarese.社交LSTM:拥挤空间中的人类轨迹预测。在计
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功