没有合适的资源?快使用搜索试试~ 我知道了~
SR-LSTM:社会行为驱动的行人轨迹预测
12085SR-LSTM:面向行人轨迹预测张璞1,欧阳万丽2,张鹏飞1,薛建如1,郑南宁11中国西安交通大学人工智能与机器人研究所2悉尼大学SenseTime计算机视觉研究组,澳大利亚zhangpu2016,zpengfei@stu.xjtu.edu.cn,jrxue,nnzheng@mail.xjtu.edu.cn,wanli. sydney.edu.au摘要在人群场景中,可靠的行人轨迹预测需要对他们的社会行为有深刻的理解。这些行为已经得到了大量的研究,但很难用手工规则来充分表达。最近基于LSTM网络的研究显示出学习社会行为的强大能力。然而,这些方法中的许多依赖于先前的相邻隐藏状态,但忽略了重要的当前意图的邻居。为了解决这个问题,我们提出了一个用于LSTM网络的数据驱动的状态细化模块(SR-LSTM),它激活了邻居的当前意图的利用,并通过消息传递机制联合迭代地细化人群中所有参与者的当前状态。为了有效地提取邻居的社会影响,我们进一步引入了一个社会意识的信息选择机制,包括一个元素明智的运动门和一个明智的注意力,以选择有用的消息,从相邻的行人。在两个公共数据集上的实验结果表明,ETH和UCY,证明了我们提出的SR-LSTM的有效性,我们实现了最先进的结果。1. 介绍行人轨迹预测被各种应用强烈要求,自动驾驶和机器人导航。行人的运动轨迹会受到多种因素的影响,如场景拓扑结构、行人行为以及最复杂的人-人交互,S.复杂而微妙的互动往往发生在行人之间。例如,陌生人避免碰撞,但同伴走在一起。破碎的群体可以重新-*通讯作者。(a)(b)第(1)款图1.在预测时间t的女士时,考虑右边的男士到时间t(a)的轨迹,或者到时间t-1(b)的轨迹,可能会导致预测结果的巨大偏差(虚线)。保持团结[10,30]。当个人遇到团体时,单身人士在统计上走得更快,更有可能调整路线[7,11]。固定群体作为障碍物[50,51]。尽管各种社会行为已经被描述,但要全面考虑它们是具有挑战性的。最近的一些数据驱动方法[1,12,13,35 , 38 , 39 , 41 , 46] 试 图 利 用 长 短 期 记 忆 网 络(LSTM)[16],从大规模数据中学习社会行为。本文指出了两个重要但在不同层面上被忽视的因素:1). 邻居的当前状态对于及时的交互推断是重要的。许多最近的基于RNN的方法利用了邻居的先前隐藏状态[1,12,13,35,38,39]。然而,先前的状态未能揭示邻居的最新状态,特别是当他们在短时间内刚刚改变他们的意图时。这种滞后效应取决于时间步长的大小。在最近的著作[1,12,35]中的共同时间步长内,例如,0.4秒,人类可以迈出一步,在这一步中,他们的意图可能会发生意想不到的变化。图1示出了示例。图1(a)中右边的人在时间点改变了左转的意图。t.根据这一观察,女士的预测可以是直线的,也可以是稍微转弯的但如果算法只t-1tt-1t-1tt-1不12086(a)(b)第(1)款图2.(a)L-STM中隐藏神经元的激活轨迹模式,从原点开始用特定颜色标记的每个轨迹模式包含来自数据库的轨迹,该数据库具有隐藏神经元的前20个响应(b)三种足的相互作用的例子二分体如何注意左边的另一个行人?考虑邻居避免了碰撞导致的较大预测误差。因此,我们有动机考虑利用当前的邻国。2).有用的信息应该是自适应地选择从邻居,基于他们的运动和位置。神经网络,LSTM可以用于提取代表轨迹的特征。为了更好地解释这些特征,图。图2(a)可视化了LSTM中每个特征捕获的轨迹模式。可以看出,这些神经元负责涵盖行走方向和速度的各种运动模式。许多方法利用邻近行人的特征来估计行人的轨迹。然而,相邻行人的特征(运动模式)对于预测行人的轨迹并不同等重要。如图图2(b)中,右侧两个行人大多更关注碰撞的情况,这可以通过左侧另一个行人向他们走来的轨迹特征来表示。这种潜在的注意力取决于成对的运动和相对位置的行人被预测和他的邻居。值得注意的是,每个邻居都应该被特别对待,因为根据不同的交互条件,应该向行人分配不同类型的注意力。基于这一动机,我们引入了一个运动门,选择最有用的功能,从每个邻居的基础上,成对的运动字符和相对位置。在本文中,我们提出了一个用于LSTM的状态细化模块(SR-LSTM),它将所有行人对齐在一起,并通过消息传递框架自适应地细化每个参与者的状态。此外,细化过程可以多次进行,表明人群之间有更深层次的互动。SR-LSTM专注于对当前LSTM状态的调整,这是非常重要的。与现有的基于RNN的方法不同。为了自适应地从邻居中提取社会效应以进行特征细化,我们进一步引入了一种社会感知信息选择机制,该机制由元素方向的运动门和元素方向的注意力层组成。本文的贡献概括如下:• 提出了一种新的交互式递归结构SR-LSTM,作为联合预测人群中行人未来轨迹的新管道。• SR-LSTM将场景中的所有行人对齐,以自适应地细化彼此的当前状态。可以多次执行细化以建模人类之间的深层互动• 运动门的引入,有效地集中在最有用的邻域功能。2. 相关工作研究人与人之间的互动。 Helbing和Molnar [15]的早期工作将人类之间的互动建模为后续方法考虑了更多潜在因素,例如行人属性[50,54],步行组[32,47],静止组[50,51]。一些基于博弈论的研究对行人之间的相互作用[18,52]和疏散过程[3,17,55]进行了建模,Ma等人 [29]使用fic-play从静态框架预测行人。这些方法大多基于手工函数和规则,可能无法推广到更复杂的交互情况。基于RNN的轨迹预测方法。最近,递归神经网络(RNN)及其各种结构,如LSTM [16]和门控递归神经网络(Gated Recurren)。t单位(GRU)[6]广泛用于各种任务,包括行人轨迹预测[1,2,12,13,20,22,35,37 - 39,41,46 ],其中每个行人由具有共享参数的RNN建模。为了模拟人与人的互动,研究人员遵循两种主要方法来涉及邻居的信息,使用他们当前的观察结果[12,22,35,38,41](如速度,位置等)或者将先前的状态引入当前的RNN递归[1,12,13,22,35,37- 39 ]。这些方法将相邻行人的信息视为输入,其在输入到输出机制中起作用。相比之下,我们将来自相邻行人的信息视为消息提供者,并构建消息传递机制来细化彼此的特征。因此,我们的方法使用来自当前时间步的信息,并且可以通过多次消息传递迭代来细化信息。基于注意力的轨迹预测方法。注意力机制已被证明对各种任务中的相关数据选择非常有效[24,40,43,45]。基于RNN的行人轨迹12087状态精化模块LSTM状态将位置输入LSTMLSTMLSTMLSTMSrLSTM输出预测LSTMLSTM我我我我我我我我我我我预测利用注意力机制来区分不同邻居的重要性[8,35,37,38,41]。Vemula等人[41]从设计的edgeRNN的隐藏状态计算软注意力分数,这为每个邻居提供了重要性值。Sadeghian等人[35]利用类似于[45]的软注意力来突出重要的邻居。Su等人[37,38]计算成对速度相关性,并强调速度相似的邻居。然而,我们的运动门旨在在细化期间从每个相邻行人中选择运动特征,这可以提取更具社会意识的相邻特征,并且在以前的方法中没有采用。基于图和消息传递框架。 这t t+1...图卷积网络(GC-N)[4,21]和用于其他应用的消息传递框架,例如对象检测[19,53]、动作识别[36,48]、语义分割[27,28]、场景图生成[25,26,44,49]、视频识别[42]等。我们的方法将行人步行空间视为一个完全连通的图,它可以被看作是专门为轨迹预测任务设计的GCN的一个变体。 我们认为行人的信息传递-在受限区域内,利用行人的成对运动特征和相对空间位置来引导信息传递。3. 方法在本文中,我们解决的问题,行人轨迹预测在人群场景。我们专注于特定时间间隔的二维空间坐标。对于给定的包括T个帧和N个行人的观测轨迹,第i个行人在第t个帧上的轨迹点表示为(xt,yt).问题的定义是预测图3.拟议SR-LSTM的框架概述各州重新finement模块被认为是LSTM单元的附加子网络,它将行人对齐在一起并更新他们的当前状态。细化的状态用于预测下一个时间步的位置。其中g表示LSTM单元内的门函数,上标u、f、o和c分别表示更新门、遗忘门、输出门和单元门。W和U表示将输入和隐藏状态连接到LST-M单元的权重矩阵。在使用LSTM时,行人将被视为样本。所有LSTM参数都在行人之间共享。利用从LSTM提取的隐藏状态ht,我们直接预测时间步t+ 1的坐标如下:[12]:[xt+1,yt+1]T=Wpht,(2)其中,Wp是学习参数。LSTM模型的参数是通过最小化预测位置和地面实况之间的L2损失来直接学习的。在推断阶段,从先前时间我我未来轨迹(x<$t,y<$t),其中t=Tobs+1,Tobs+2, . .3.1. 香草LSTMVanilla LSTM(V-LSTM)模型独立地推断所有行人,而不考虑他们之间的相互作用。在时间t,第i个行人的位置是em-步用作当前时间步的输入3.2. SR-LSTM框架SR-LSTM框架的概述如图所示。3.第三章。在这个框架中,第3.1节中的LSTM用于从每个行人的轨迹中提取特征作为向量et=φe(xt,yt;We),其中φe是一个单独的。 最大的区别在于,国家对...我我我嵌入函数由We参数化。向量et被用作LSTM单元的输入,如下所示:gu,t=δ(Wuet+Uuht−1+bu),(SR)模块用于细化,即,cell statesct由方程式 1通过在行人中传递信息。SR模块将所有行人的以下三个信息源作为输入:我我我gf,t=δ(Wfet+Ufht−1+bf),行人,隐藏状态和LSTM的细胞状态的我我我go,t=δ(Woet+Uoht−1+bo),gc,t=tanh(Wcet+Ucht−1+bc),(一)SR模块的输出是细化的单元状态。马特具体地,用于细化小区状态的SR模块可以被公式化如下:我我我ct=gf,t<$ct−1+gu,t<$gc,t,Σt,l+1t,lt,lt,l我我ci=Mj(hj,hi) +ci,(3)ht=go,t tanh(ct),j∈N(i)我我我12088Jα=αi,ki、j我i、ji、jJi、jJ我j ii其中M是第3.2.2节中详述的消息传递函数。N(i)表示行人i的邻居。对于第i个行人,来自相邻行人(j∈N(i))的隐藏状态h t,l通过函数积分,然后与i的单元状态组合以获得在等式中的逐行注意力αi,j和运动门gi,j 下面介绍7个。行人注意。方程式中的αi,j7是一个标量。行人j的注意力公式如下:ut,l=waT[rt,l;ht,l;ht,l],精炼的细胞状态。 消息传递可以为多个-三次。l表示消息传递迭代索引。i、ji,j j iexp(ut,l)(八)l= 0的状态由等式中的原始LSTM状态初始化。1.一、t,li、jKi,j ,exp(ut,l)在SR模块中通过L次精化迭代精化单元状态之后,它们用于产生预测坐标,如下所示:其中rt,l是相对空间位置,这是指导信息选择的重要因素。它由嵌入函数φr嵌入如下:ct=ct,L.t,lt t t t rJJ(四)ri,j=φr(xi−xj,yi−yj;W ),(9)ht=go,ttanh(ct),t不我我我t+1t+1Tt其中(xi,yi)是在时间t时行人i的位置,sim。对于(xt,yt),通常是这样的。Wr表示用于EM的参数[xi,yi]=Wphi,(5)jJ其中go,t来自LSTM。在行人轨迹预测的任务中,进一步的改进可以提高床函数φr移动门。gm是向量,其被公式化为:gm,t,l=δ(Wm[rt,l;ht,l;ht,l] +bm),(10)互动模式的质量,表明意图,i、ji,j j i人际交往的本质。其中Wm,bm是参数,δ表示S形功能gm,t,l 从h中选择要素通过使用3.2.1消息传递的简单实现消息传递的一个简单实现可以用公式表示如下:ΣEq中的元素乘积7.第一次会议。运动门和智能注意具有不同的功能,并共同选择来自邻近行人的重要信息进行消息传递。ct,l+1=Wm pht,l/|Ni|+ct,l,ing. 对这两个组成部分的进一步解释如下:Ijj∈N(i)i(6)低点:• 运动门GM作用于每个隐藏状态,哪里|Ni|表示N(i)中元素的个数。Mes-执行成对特征选择。据计算传递函数M(ht,l,ht,l)=W m pht,l/|N(i)|基于rt、ht、ht的组合(参见等式10),jjiji,j j i在这个公式中不依赖于h,l。 Wmp是一种线性变换,用于将相邻行人的信息传递给行人i。当使用其他行人的特征时,平等对待他们的所有特征并不是一个合适的解决方案。在下面的章节中,我们设计了更有效的消息传递项M。3.2.2社会感知信息选择为了自适应地关注最有用的邻近信息并引导消息传递,我们设计了具有社会感知信息选择机制的以下消息传递项MΣ这表明行人i和j的运动并且它们的相对空间位置被联合考虑用于特征选择。这种基于元素的特征选择不能由基于元素的注意力提供。• 明智的注意力是强调重要的邻居,控制邻居留言该如果只采用运动门,由于相关邻域数目的不确定性,训练过程很难收敛。• 在Eq. 6,它为所有行人及其特征分配相等的权重,形式比社会意识的信息选择更糟糕,因为简单的实现没有足够的注意重要的邻居和重要的ct,l+1=我j∈N(i)ΣMj(ht,l,ht,l) +ct,l,mpt,l m,t,l我,t,l(七)由特征提取的轨迹。4. 实验=Wj∈N(i)αi,j·(gi,j <$hj)+c<$i,4.1. 数据集和指标其中,n表示逐元素的乘积运算。在Eq。6,Wmp是线性变换参数。的12089我们在两个公共步行数据集ETH [33]和UCY [23]上评估了我们提出的模型,这些数据集包括:12090观测推断ID预处理性能(MAD/FAD)Rela/NabsEUFRRETH大学ETH酒店UCY-zara01UCY-zara02UCY-univAVG1Rela--1.16/2.290.57/1.070.68/1.390.61/1.270.76/1.600.76/1.522Nabs--1.00/2.040.50/1.080.58/1.300.40/0.870.64/1.380.63/1.333NabsC-0.84/1.900.45/0.940.43/0.940.38/0.870.63/1.420.55/1.214NabsCC0.83/1.770.41/0.800.49/1.150.37/0.850.56/1.220.53/1.16表1.V-LSTM在不同数据预处理下的性能Rela:将序列区分为相对空间偏移。Nabs:使用绝对位置,但将原点移动到最近观察到的时隙。EUf:ETH-univ上的帧速率校正RR:每个数据小批次的随机我们采用ID 4的配置进行实验。保持丰富的社会互动。这两个数据集包含5个人群集,包括ETH-univ,ETH-hotel,UCY-zara 01,UCY-zara 02和UCY-univ。总共有1536个行人,具有数千个非线性轨迹。我们在这5个数据集上评估我们的模型。我们遵循[12]中的留一法评估方法。有两种类型的度量用于评估轨迹预测的性能,包括平均平均位移(MAD)误差和最终平均位移。GT输出LSTMcell输入GT输出LSTMcell输入(a)(b)第(1)款[33]第33话,你是我的敌人。• MAD:所有预测时间步长的真实值和预测点之间的平均欧氏距离。• FAD:地面实况和最后一帧的预测点之间的欧几里得距离。轨迹序列的间隔设置为0.4秒。我们取8个地面真实位置作为观察,并预测以下12个时间步的轨迹,其遵循[1,12,33]的设置。4.2. 实现细节我们使用单层MLP将输入向量嵌入到32维,并将LSTM隐藏状态的维数设置为64。 一个长度为20的滑动时间窗口,使用步长1来获得训练样本。相同时间窗口中的所有轨迹段被视为小批量,因为它们被并行处理。在训练阶段,我们将minibatch的大小设置为8。我们使用单步模式进行训练(图1)。4(a)),以及用于验证和测试的多步模式(图第四条(b)款)。采用adamoptimiz-er在300个epoch中训练模型,初始学习率为0. 001。为了训练具有多个状态细化层的模型,我们固定了所有基本参数,只学习附加细化层的参数。4.3. 消融研究4.3.1数据预处理我们详细介绍了我们的预处理如下:• 相对位置或归一化绝对位置(Rela/Nabs):预处理的两种可选方式,图4.两种教学模式。(a)单步模式。当前的地面实况(GT)注释作为输入提供给下一个时间步(b)多步模式,其中当前输出被用作推断阶段的下一时间步的输入。将轨迹区分为相对位置偏移或将原点移动到最近观察到的时间步长。• ETH-univ帧速率问题(EUf):对于ETH-Univ s-cenario,来自[5]的原始视频是一个加速的版本.我们将每6帧视为0.4s,而不是[12]中的10帧。• 随机旋转(RR):对于一个小批量,随机旋转用于数据扩充。表1显示了V-LSTM上不同数据预处理的结果,这表明:(1)在我们的试验中,归一化绝对位置优于相对位置 。 2)ETH-Univ 帧 速 率 的 校 正 显 著 提 升 约 12.7/9(%)。3)随机旋转也有助于减少过度拟合。我们采用ID4的数据预处理配置,并使用其结果作为基线。4.3.2成分分析我们分析了所提出的模型的组成部分,包括运动门(MG)(方程。行人注意层(PA)(等式10),8),以及细化层的数量(L)。当我们考虑有限邻域区域时,我们还将区域大小作为以米为单位的表示为邻域大小(NS)的变量。为了证明利用当前相邻特征的有效性,我们还考虑在等式中使用当前或先前(C/P)隐藏状态。7 .第一次会议。对于没有PA的所有变体,我们将邻居的数量除以12091变体ID组件性能(MAD/FAD)MGPANSLC/PETH大学ETH酒店UCY-zara01UCY-zara02UCY-univAVG1--21C0.76/1.640.37/0.770.44/0.970.37/0.820.55/1.210.50/1.082--101C0.79/1.710.41/0.890.47/1.070.38/0.850.56/1.270.52/1.163C-101C0.69/1.350.40/0.830.43/0.950.36/0.800.53/1.160.48/1.024-C101C0.67/1.430.39/0.810.47/1.090.36/0.800.54/1.190.49/1.065CC101C0.64/1.280.39/0.780.42/0.920.34/0.740.52/1.130.46/0.976CC21C0.71/1.450.37/0.750.43/0.930.40/0.970.54/1.210.49/1.067CC102C0.63/1.250.37/0.740.41/0.900.32/0.700.51/1.100.45/0.948CC103C0.64/1.270.38/0.750.42/0.910.32/0.710.51/1.100.45/0.959CC101P0.71/1.420.39/0.870.47/1.050.35/0.780.53/1.160.49/1.06表2. SR-LSTM的消融研究。MG表示引入运动门,PA表示行人注意层。NS表示以米为单位的邻域大小,值10和2分别给出20×20和4×4的邻域区域。L是细化迭代。C/P表示我们使用当前或以前的隐藏状态来执行细化。变体1,2执行简单的状态细化,而没有任何特征选择(等式1)。(3)第三章。用于规范化的消息传递术语。不同模型变体的定量结果见表2。简单的状态细化。执行简单的状态细化(等式6)没有任何特征选择,并考虑2米的邻域大小(变体1),V-LSTM的性能为6.4/6.8(%),因为通过状态细化模块涉及人类交互。但邻域大小为10米的模型导致轻微变化(1.4/-0.2(%))。邻域大小的影响总结在下面的段落中。邻里大小我们测试了两个邻域大小的值,2和10,其效果总结如下:1)平等对待的简单状态修正模型,10米内的行人(变型2),其中来自远邻居的无用特征仍然被考虑用于消息传递,导致相对于具有2米的邻域大小的相同模型的5.6/7.5(%)的性能劣化。2)对于所提出的信息选择机制,考虑较大的邻域大小通常更好(变体5 vs 6)。因此,我们的SR-LSTM可以利用来自更远邻居的有用信息。信息选择。 在邻域大小固定为10米的情况下,仅引入运动门(变体3)或智能注意(变体4)是有效的,其分别提高了7.8/12.2(%)和6.7/8.3(%)的性能。利用这两个分量(变量5)实现了11.8/16.4/(%)的改进,这表明我们的信息选择机制的有效性。当邻域大小设置为2米时,添加运动门和智能注意力(变体6)的平均性能仍然优于简单的细化模型(变体1)。从当前状态进行状态细化。 利用当前状态(变体5)的性能比使用先前状态(变体9)的性能高6/8.3(%),这表明了邻居的最新特征的重要性。细化迭代。第二次国家复...finement层(变体7)的性能始终优于仅细化一次状态(变体5)2.8/3(%)。而第三层的引入并不能带来进一步的提升。这可能表明,选择两个细化迭代是适合这项任务的。4.4. 与现有工程我们将我们的模型与几个最近的现有作品进行比较:(1)Social-LSTM [1]:在这种方法中使用立方张量来收集社交信息。推荐的邻域大小是图像空间中的32个像素,我们选择它分别为2米和10米,称为S-LSTM 1和S-LSTM 2。(2)SGAN [12]:一种多模式方法,用于检索多个可能的未来路径。(3)Sophie [35]:一种改进的多模态方法,引入了对社会关系和身体可接受性的关注。结果示于表3中。所有方法都是在相同的数据集设置和评价方法下进行的。请注意,SGAN和Sophie报告的结果在20个样本中与地面实况最佳匹配,其他方法仅产生一个预测;苏菲还需要现场图像。V-LSTM与V-LSTM*。表1中我们自己实现的V-LSTM模型不能完全匹配[12]中报告的V-LSTM* 的结果。这可能是由于超参数,数据组织,或教学模式。此外,我们还努力寻求更好的数据再处理方法,这对数据的处理有很大的促进作用。SR-LSTM vs其他通过捕获的多模态,S-GAN和Sophie与V-LSTM* 相比有了显著的改进。但是SGAN无法在只有单个样本的情况下胜过V-LSTM*[12]。我们最好的模型增加相对于V-LSTM的性能为15.4/18.8(%),只有一个预测。S-LSTM 1的性能优于V-LSTM,但仍然比我们的方法具有更高的预测误差,因为它只采用了先进的12092方法注意到性能(MAD/FAD)ETH大学ETH酒店UCY-zara01UCY-zara02UCY-univAVGV-LSTM*-1.09/2.410.86/1.910.41/0.880.52/1.110.61/1.310.7/1.52SGAN*20个样品0.81/1.520.72/1.610.34/0.690.42/0.840.60/1.260.58/1.18苏菲 *20个样本+场景0.70/1.430.76/1.670.30/0.630.38/0.780.54/1.240.54/1.15S-LSTM 1NS=2,网格:4×40.70/1.400.37/0.730.49/1.150.39/0.890.60/1.320.51/1.10S-LSTM 2NS=10网格:4×40.77/1.600.38/0.800.51/1.190.39/0.890.58/1.280.53/1.15V-LSTM-0.83/1.770.41/0.800.49/1.150.37/0.850.56/1.220.53/1.16SR-LSTM 1标签中的ID 620.64/1.280.39/0.780.42/0.920.34/0.740.52/1.130.46/0.97SR-LSTM 2标签中的ID 720.63/1.250.37/0.740.41/0.900.32/0.700.51/1.100.45/0.94表3.与若干基准模型的比较NS表示以米为单位的邻域大小 标有 * 的方法的结果直接从[12,35]中获得。本地邻居的先前隐藏状态的状态此外-观测地面实况因此,S-LSTM不能利用远距离的-V-LSTM。bors根据S-LSTM 2的结果。我们的SR-LSTM可以考虑远邻居,并利用它们的当前状态来相互细化。S-LSTM4.5. 定性结果当前状态的特征细化。得 益 于我们的状态精化模块,SR-LSTM能够利用当前的相邻状态。图5(a)示出了其中行人的行走方向在几个时间步长之前突然改变的示例。V-LSTM(第一列)没有考虑相互作用,导致大误差。 S-LSTM(表3中的S-LSTM 1,第二列)利用先前的相邻LSTM状态,但仍然对这些情况不敏感。 我们的SR-LSTM(表3第三列中的SR-LSTM 2)通过消息传递细化当前LSTM状态,可以及时捕捉他人意图的变化并做出适当调整。社会行为。SR-LSTM可以适度解释内隐社会行为。图5(b),我们说明了三种情况,一致的群体行走,避免碰撞和群体避免。在V-LSTM中,行人正在自己行走。S-LSTM在模拟行人交互方面表现较弱,并且忽略了来自远距离邻居的潜在影响。我们的SR-LSTM显示出对社交互动做出适当预测的能力。V-LSTM(一)S-LSTMSR-LSTM4.6. 社会感知信息选择移动门。当预测行人i的位置时,基于行人i和j之间的成对特征来计算作用于他/她的邻居j的隐藏特征的运动门(等式2)。第10段)。图6显示了运动门如何选择特征,其中每行与隐藏特征的某个维度相关。图第一列显示了从原点开始到点结束的隐藏特征所捕获的轨迹模式,这些轨迹模式是以与图6类似的方式提取的。第2段(a)分段。特征的运动门考虑成对输入变换,(b)图5.预测轨迹的图示。(一).在SR-LSTM中,行人的当前状态可以及时相互细化,特别是在行人改变意图的情况(b). SR-LSTM能够隐式地解释常见的社会行为,这给出了适度的未来预测和相对较低的错误。有着相似构造的喷射器。门的高响应的一些示例在12093图六、在这些成对的轨迹样本中,红色和蓝色的分别是行人i和j的轨迹,我们计算运动门的时间步长用点表示(轨迹结束的地方)。这些成对样本是通过从具有最高激活的运动门神经元的数据库中搜索来提取的。门极的高响应意味着选择了相应的特性。图6.通过运动门选择特征阵列。每一行都与LSTM的一个隐藏神经元(特征)列1:隐藏特征的激活轨迹模式第2-6列:对运动门具有高激活的成对轨迹示例(以实心点结束)对红色行人的预测对第一列中显示的其他人的潜在轨迹非常敏感,这些轨迹是由我们的运动门选择的如图6、相同特征的门对大致相似的交互条件负责当预测行人i(红色)的轨迹时,我们的运动门会仔细选择行人j(蓝色)的特征。在第一列中示出的这些选择的特征表示行人j可能引起与行人i的未来交互的潜在轨迹。我们解释图中每行四个门元件的作用。6:1)第1行:轨迹对非常接近并且一起行走。选定的隐藏要素将遵循漫游方向。2)第2行:轨迹有点接近,但走在相反的方向。穿红色衣服的行人i关心对方是否会向他/她走3)第3行:这种情况类似于第2行。该门元件考虑在相反方向上行走的更远的邻居。4)行4:蓝色的邻居是静态的,所选择的隐藏特征示出红色的行人i潜在地注意该静态邻居,以防他将要走向他/她。行人注意。我们举例说明了我们的SR所期望的智能注意力的一些例子,图中的LSTM 7 .第一次会议。结果表明:1)主要注意力集中在近邻,而其他注意力也有轻微的注意; 2)第一层注意力集中在近邻,第二层注意力集中在较远的近邻,具有群体行为或在较长的时间范围内影响行人。图7.智慧的智慧。洋红色圆圈代表第一轮状态细化中的注意力,虚线圆圈代表第二轮细化中的注意力圆圈越大,关注度越高。红色三角形代表轨迹预测的目标行人,绿色三角形代表他/她的邻居,每个人的箭头代表他们的行走方向。5. 结论在本文中,我们为LSTM网络提出了一个状态修正模块,以解决人群中行人的联合轨迹预测问题。我们的状态细化模块将LSTM视为特征提取器,它基于消息传递机制自适应地细化所有行人的当前特征。此外,我们引入了一个社会意识的信息选择机制,由一个元素明智的运动门和一个明智的注意,选择有用的功能,每个邻居。具有信息选择的状态修正模块优于最先进的方法。确认这项工作得到了支持的国家国家自然科学基金项目(No. 61751308和61773311)、国家重点&研发计划项目(No. 2016YFB1001004)、中国博士后科学基金( No. 2017M613152 ) 。 我 们 也 感 谢 Stefan Becker 和Irtiza Hasan提供了有益的讨论。引用[1] A. Alahi,K.Goel,V.Ramanathan,A.罗比凯湖Fei-Fei和S.Savarese Social lstm:Human trajectory prediction incrowded spaces.在CVPR,第961一、二、五、六12094[2] S. 贝克河Hug,W.Hubner和M.阿伦斯Red:一个简单但有效的trajnet基准的基线预测器。在ECCV研讨会,第138-153页,2018年。 2[3] S. Bouzat和M.库珀曼博弈论模型-行人房间的疏散。Physical Review E,89(3):032806,2014. 2[4] J. Bruna,W. Zaremba、A. Szlam和Y.乐存。图上的谱网 络 和 局 部 连 通 网 络 。 arXiv 预 印 本 arXiv :1312.6203,2013。3[5] Y. 你 好 https://graphics.cs.ucy.ac 的 网 站 。cy/research/downloads/crowd-data. 2007. 5[6] 钟杰角,澳-地古尔塞尔角Cho和Y.本吉奥。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv:1412.3555,2014。2[7] T.去吧M Haghani和M.沙维群体动力学中的群体与单足行 为 运 输 研 究 记 录 : 交 通 研 究 委 员 会 杂 志 ,(2540):13-19,2016。1[8] T. Fernando,S.Denman,S.Sridharan和C.福克斯软+硬接线注意:一个用于人体轨迹预测和异常事件检测的lstm框架。Neural Net-works,2018年。3[9] G. Ferrer、A. Garrell和A.桑菲柳机器人配套:一个基于社会力量的方法与人类意识-在拥挤的环境中导航。InIROS,pages 1688IEEE,2013。2[10] A. Gorrini,S. Bandini和G.维扎里行人人群动态和分组的实证研究。在Traffic and Granular Flow施普林格,2015年。1[11] A. 戈里尼湾Vizzari和S.班迪尼年龄和群体驱动的行人行为:从观察到模拟。Collective Dynamics,1 :1-16,2016. 1[12] A. Gupta,J.约翰逊湖,加-地Fei-Fei,S.Savarese和A.阿拉希Social gan:社交上可接受的生成对抗网络轨迹在CVPR,2018年。一、二、三、五、六、七[13] I. Hasan,F.Seti,T.Tsesmelis、黑腹叶蝉A.Del Bue,F.加拉索,以及M.克里斯塔尼Mx-lstm:混合轨迹和vislet来联合预测轨迹和头部姿势。arXiv预印本arX- iv:1805.00652,2018。一、二[14] D.海尔宾湖Buzna、A. Johansson和T.沃纳自组织行人群体动力学:实验、模拟与设计解决方案.交通科学,39(1):12[15] D. Helbing 和 P. 莫 尔 纳 行 人 动 力 学 的 社 会 力 模 型Physical review E,51(5):4282,1995. 2[16] S. Hochreiter和J.施密特胡博长短期记忆。神经计算,9(8):1735一、二[17] S. Hoogendoorn,W.达曼岛Shu和H.利特林根基于最优控制和博弈论的船舶操纵仿真中人的行为建模交通研究记录,2326(1):45-53,2013。2[18] S. Hoogendoorn和P.牛。用最优控制和微分对策模拟最优控制应用与方法,24(3):1532[19] H. 胡,J.古,Z.张,J.Dai和Y.伟. 用于对象检测的关系在CVPR,第2卷,2018年。3[20] R. Hug,S.Becker,W.Htibner和M.阿伦斯使用lstm-mdl模型的基于粒子的行人路径预测。2018年第21届智能交通系统国际会议(ITSC),第2684-2691页,2018年。 2[21] T. N. Kipf和M。威林使用图卷积网络的半监督分类。arXiv预印本arX-iv:1609.02907,2016。3[22] N. 李,W。Choi,P.韦尔纳萨角B. Choy,P.H. 托和M. Chandraker 欲望:在具有交互代理的动态场景中的遥远未来预测在CVPR,第336-345页,2017年。2[23] A. Lerner,Y. Chrysanthou和D. Lischinski群众的榜样。在计算机图形论坛,第26卷,第655-664页。WileyOnline Library,2007. 4[24] J. Li,Y.Wei,X.Liang,J.董氏T.徐,J.Feng和S.燕.用于 对 象 检 测 的 注 意 上 下 文 。 IEEE Transactions onMultimedia,19(5):944-954,2017。2[25] Y. Li,W.欧阳X. Wang和X.唐Vip-cnn:视觉短语引导卷积神经网络。在CVPR中,第7244-7253页3[26] Y. Li,W.Ouyang、B.Zhou,K.Wang和X.王. 从对象、短语和区域字幕生成场景图在ICCV,第12703[27] X.梁湖,加-地Lin,X. Shen,J. Feng,S. Yan和E. P.Xing。可解释结构演化lstm。在CVPR中,第21753[28] X. Liang,X. Shen,J. Feng,L. Lin和S.燕.语义对象解析图。在ECCV中,第125施普林格,2016年。3[29] W.- C. 妈妈,D。-A. Huang,N.Lee和K.M. 喜谷预测行人与模拟游戏的互动动态。在CVPR中,第4636IEEE,2017年。2[30] R. McCool,J. M. 厄舍湖 Strawderman,D. 卡鲁斯,C. Bethel和D.五月模拟行人交通中出现的群体形成。在IIE年会上。前-CELLS,第133-138页。工业和系统工程师协会(IISE),2017年1[31] R. Meiden,A. Oyama和M. Shah.基于社会力模型的异常人群行为检测。见CVPR,第935-942页。IEEE,2009年。2[32] M. Moussaid,N. Perozo,S. Garnier,D. 海尔宾,以及G. Theraulaz行人社会群体的步行行为及其对人群动力学的影响。PloS one,5(4):e10047,2010. 2[33] S. Pellegrini 、 A.Ess , K.Schindler 和 L.J. 范 古 尔 你ICCV,第9卷,第261-268页,2009年。四、五[34] P. Ratsamee,Y. Mae,K. Ohara,T. Takub
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功