社会时空图卷积：行人轨迹预测中的交互建模方法及其性能优势

98 浏览量更新于2023-10-23 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14424Social-STGCNN：一种用于人体轨迹预测的社会时空图卷积Abduallah Mohamed1，Kun Qian1Mohamed Elhoseiny2，3，**，ChristianClaudel1，**1德克萨斯大学奥斯汀分校2KAUST3斯坦福大学{abdualah.mohamed，kunqian，christian.claudel}@utexas.edu，mohamed.elhoseiny@kaust.edu.sa摘要更好的机器理解行人行为，可以更快地建模智能体（如自动驾驶车辆和人类）之间的交互。行人轨迹不仅受行人本身的影响，而且还受与周围物体的相互作用的影响。先前的方法通过使用各种聚合方法来对这些交互进行建模，这些聚合方法集成了不同的学习到的pedes-trians状态。我们提出了社会时空图卷积神经网络（Social-STGCNN），它通过将交互建模为图来替代聚合方法的需要我们的研究结果表明，最后的位移误差（FDE）和平均位移误差（ADE）的改进，与以前报道的方法相比，参数少8.5倍，推理速度快48此外，我们的模型是数据高效的，并且在ADE指标上超过了以前的最先进水平，只有20%的训练数据。我们提出了一个核函数嵌入的社会互动行人之间的邻接矩阵。通过定性分析，我们表明，我们的模型inherited社会行为，可以预期pedestri- ans轨迹之间代码可在https：//github上获得。com/abduallahmohamed/Social-STGCNN.1. 介绍预测行人轨迹对于包括自动驾驶和监控系统在内的几个应用来说是非常重要的。在自动驾驶中，对行人轨迹的准确预测使控制器能够提前规划车辆在不利环境中的运动。例如，它是防撞系统或紧急制动系统的关键部件[2，18，16，22]。在监视系统中，预测**平等咨询。图1.使用Social-STGCNN模型预测行人未来轨迹行人之间的社会互动和他们的时间动态表示的时空图。我们预测未来的轨迹在一个单一的通过。行人轨迹在帮助识别可疑活动方面至关重要[15，28，20]。由于行人与环境之间的复杂交互，行人的轨迹预测是具有挑战性的潜在地影响行人的轨迹的物体包括诸如树木或道路的物理障碍物，以及包括车辆和其他行人的移动物体。根据[19]，70%的行人倾向于成群行走。行人之间的互动主要是由常识和社会习俗驱动的行人轨迹预测的复杂性来自于不同的社会行为，例如与他人平行行走、在一个群体内行走、避免碰撞和从不同方向合并复杂性的另一个来源是运动的随机性，假定行人的目标目的地和预期路径是未知的。行人运动的社会属性鼓励这一领域的研究人员专注于发明深入的方法来模拟行人之间的社会互动。在Social-LSTM [1]的文章中，基于深度学习的模型被应用于通过经由递归深度模型对每个行人轨迹进行建模来预测行人轨迹循环模型的输出通过池化层彼此交互几篇文章[17，14，30]遵循了这一方向。Social-LSTM[1]模拟了行人轨迹，Social-STGCNN模型预测将来轨迹单程时空图观测轨迹14425其中一些是以双变量高斯分布为目标的，而其他一些则是以预测确定性轨迹为目标。另一个方向是使用生成对抗网络（GANs）来完成这项任务，假设轨迹的分布是多模态的。几篇文章[6，23，13]使用GAN来预测未来轨迹的分布对于这些模型，使用递归神经网络设计生成器，并且再次依赖聚合方法来提取行人之间的社交互动。我们认为，早期文章的局限性来自于使用递归架构，这些架构在训练中参数效率低下且昂贵[3]。我们通过使用时间卷积架构克服了这一限制除了循环体系结构的限制之外，早期作品中使用的聚合层也会限制其性能。聚合层将递归单元的隐藏状态作为输入。它被期望同化的场景的全局表示，因为每个循环单元建模行人轨迹。然而，在这种类型的聚合中存在两个问题。首先，特征状态的聚合在对人与人之间的交互进行建模时既不直观也不直接其次，由于聚合机制通常基于启发式，如池，他们可能无法正确地建模行人之间的交互例如，已知池化操作是信息泄漏的[26]。为了直接捕捉行人之间的交互并预测未来的路径，最近的文章social-BiGAT [10]依赖于图形表示来建模社交交互。由于图的拓扑结构是一种自然的方式来表示场景中行人之间的社会互动，我们认为，这是一个更直接，直观和有效的方式来建模行人之间的互动比基于聚合的方法。我们还认为，social-BiGAT没有充分利用图表示，因为他们只将其用作循环单元状态的池机制。Social-STGCNN通过将场景建模为时空图并对其执行，从图表示中获益更多。我们设计了Social-STGCNN来克服上述两个限制。首先，我们从一开始就将行人的轨迹建模为时空图，以取代聚合层。图形边对行人之间的社交交互进行我们提出了一个加权邻接矩阵，其中的核函数定量测量行人之间的影响。为了解决与循环单元相关的问题，我们的模型使用图卷积神经网络（CNN）和时间CNN来操纵时空图这使得我们的模型能够在一次拍摄中预测整个序列。由于上述设计，我们的模型在预测精度，参数大小，推理速度和数据效率方面优于传统模型2. 相关工作最近对自动驾驶的兴趣已经导致对行人轨迹预测的关注增加最近，新的深度模型在这一任务上取得了可喜的进展。在本节中，我们简要回顾了相关工作。人类轨迹预测使用深社会-LSTM [1]是最早的深度模型之一，行人轨迹预测Social-LSTM使用一个回流网络来模拟每个行人的运动，然后使用池化机制聚合循环输出，然后预测轨迹。Social- LSTM假设行人轨迹遵循二元高斯分布，我们在模型中遵循这一假设。后来的作品，如Peek Into The Future （ PIF ） [14] 和 State-RefinementLSTM（SR-LSTM）[30]扩展了[1]视觉特征和新的池化机制，以提高预测精度。值得注意的是，SR-LSTM [30]通过加权机制对每个行人对其他人的贡献进行这类似于Social-BiGAT [10]中的想法，其使用注意力机制来权衡代表行人轨迹的基于行人轨迹遵循多模态分布的假设，Social-GAN [6]将Social LSTM [1]扩展到基于递归神经网络（RNN）的生成模型。Sophie [23]使用CNN从整个场景中提取特征稍后，Sophie将注意力输出与视觉CNN 输出连接起来，然后使用基于长短期记忆（LSTM）的自动编码器生成模型来生成未来轨迹。CGNS [13]的工作在架构方面与Sophie [23]类似，但他们使用了门控递归单元（GRU）而不是LSTM。我们注意到，大多数以前的作品都围绕着两个想法，使用循环网络对每个行人运动进行建模，并使用池机制将循环网络组合起来。最近的工作Social-BiGAT [10]依赖于图形注意力网络来模拟行人之间的社交互动。LSTM输出被馈送到 Social-BiGAT 中的图我们的模型 Social-STGCNN和Social-BiGAT之间的一个关键区别是，我们从一开始就直接将行人轨迹建模为一个图，在那里我们为顶点提供有意义的图CNN的最新进展图CNN由[8]引入，它将CNN的概念扩展到图中。在图上定义的卷积运算是目标节点属性与其邻居节点属性的加权聚合。它类似于CNN，但卷积运算是在图的邻接矩阵上进行作品[9，4，24]将图CNN扩展到其他应用，例如矩阵完成和变分自动编码器。与我们的工作相关的发展之一是ST-GCNN [27]。ST-GCNN是一个时空图14426不不不不西姆，特O不ΩttCNN最初是为了解决基于神经网络的动作识别问题而设计的。尽管架构本身是设计来处理分类任务的，但我们对其进行了调整以适应我们的问题。在我们的工作中，ST-GCNN从图中提取然后，我们在此嵌入上操作以预测行人的轨迹。详情见第4节。时序卷积神经网络（TCN）从[3]开始，强调了使用递归神经网络（RNN）与使用时序CNN进行序列数据建模之间的争论介绍在文献[3]中，时间卷积神经网络（TCN）以堆叠的序列数据作为输入并预测序列是观察到的行人轨迹历史的紧凑表示。TXP-CNN将这些特征作为输入，并预测所有行人作为一个整体的未来轨迹。我们使用时间外推器这个名称，因为TXP-CNN有望通过卷积运算来外推未来的轨迹。图2显示了该模型的概述。行人轨迹的图形表示我们首先介绍了行人轨迹的图形表示的构造。我们首先构建一组空间图Gt表示在每个时间步长t的场景中行人的相对位置。 G t定义为G t=（V t，E t），其中V t={v i|i∈ {1，. . .，N}}是图Gt的顶点集。观察到的位置（xi，yi）不不作为一个整体。这可以缓解错误准确性的问题。模拟RNN做出的连续预测。更重要的是，与RNN相比，TCN的大小更小我们是vi的属性。Et是图Gt中的边的集合它表示为E t={e ij|i，j ∈ {1，. - 是的- 是的，N}}。如果vi和vj相连，则eij= 1，否则eij= 0在t t t t t t受TCN的启发，设计了一个时间CNN模型，扩展了ST-GCNN的能力。关于这一点的更多细节在模型描述部分4中。为了模拟两个节点的影响力，我们为每个eij附加一个值aij，它是由某个核函数计算的。a国际活动分为t t加权邻接矩阵At。我们引入一个ij作为3. 问题公式化kernel function to be used within the adjacency matrix At.在一个场景中，给定一组N个行人，IJ西姆，特在等式2中定义。我们讨论At响应观测位置tr n，n∈ {1，. . .，N}在时间段T0上，我们需要预测即将到来的轨迹。历史在未来时间范围Tp上运行。用于行人核函数在6.1节后面。.ijijpn，我们将相应的预测轨迹写为tr n={pn=（xn，yn）|t ∈ {1，. - 是的- 是的，Tp}}，其中（xn，yn）国际新闻通讯社1/vt−vt2，vt−vt200，否则。（二）t t t t t t t t t t t t随机变量描述概率分布行人n在时间t的位置，在2D空间中。我们假设（xn，yn）遵循二元高斯分布，图卷积神经网络通过行人轨迹的图形表示，我们引入了空间t t卷积运算定义在图上。卷积sian distribution such that pn ∼ N(µn,σn,ρn). 此外，我们认为，t t t t tt在2D栅格地图或要素地图上定义的操作，我们将预测的轨迹表示为pn，它遵循不 n n n卷积运算在等式3中示出。估计的二元分布N（μt，σt，ρt）。我们的模型被训练来最小化负对数似然，定义为：TpΣk（1）A=（Σk（p（z（l），h，w））。w（l）（h，w））（3）Ln（W）=−lo g（P（（pn|µn，σn，ρn））（1）h=1w=1t=1t t t t tt其中k是内核大小，p（. ）是抽样函数，其中W包括模型的所有可训练参数，µn是分布的均值，σn是方差，ρn是相关性。聚集以z[5]和σ为中心的邻居的信息的Tion是激活函数，并且（l）指示层l。图形卷积操作定义为：4. 社交STGCNN模型4.1. 模型描述Social-STGCNN模型由两个主要部分组成：vi（l+1）=σ（1ΩΣvj（l）∈B（vi（l））p（vi（l），vj（l））. w（vi（l），vj（l）（四）时空图卷积神经网络（ST-GCNN）和时间外推卷积神经网络（TXP-CNN）。ST-GCNN对行人轨迹的图形表示进行时空卷积操作这些特征一一=14427其中1是归一化项，B（vi）={vj|d（vi，vj）≤D}是顶点v i的邻居集，d（v i，v j）表示连接v i和v j的最短路径。请注意，邻居集的基数感兴趣的读者可以参考[8，27]以获得更详细的解释和推理。14428不不22图2. Social-STGCNN模型给定T个帧，我们构造表示G=（V，A）的时空图。然后G通过时空图卷积神经网络（ST-GCNN）转发，创建时空嵌入。在此之后，TXP-CNN预测未来的轨迹。P是行人位置的维度，N是行人的数量，T是的时间步长，P是来自ST-GCNN的嵌入的维数时空图卷积神经网络（ST-GCNN）通过定义一个新的图G，其属性是G t的属性集，将空间图卷积扩展到时空图卷积。G包含行人轨迹的时空信息。值得注意的是，G1，. . .，G T是相同的，而当t变化时，不同的属性被分配给v i。因此，我们定义G轨迹4.2. 实施社交STGCNN要正确地实现该模型，需要几个步骤。为了便于学习，我们首先对邻接矩阵进行归一化。邻接矩阵A是一个{A1，. - 是的- 是的，A T}，我们使用以下形式对称地归一化每个A t[8]如（V，E），其中V={v i|i∈ {1，. . .，N}}，并且IJ-1− 1E={e| i，j∈ {1，. . .，N}}。的属性，At=<$t2At<$t2t ∈ xvi是v i的集合，且t∈{0，. -是的-是的，T}。另外，对应于G的的{A1，. - 是的- 是的，A T}。我们将ST-GCNN得到的嵌入表示为V′。时间外推卷积神经网络（TXP-CNN）ST-GCNN的功能是从输入图中提取时空节点嵌入然而，在这方面，其中At=At+I，Λt是A t的对角节点阶矩阵。我们分别使用At和Λ t来表示At和Λt的堆叠。邻接的归一化对于图CNN正常工作至关重要，如[8]所述。我们表示时间步t和网络层l处的顶点值如V（l）。假设V（l）是V（l）的栈。与上述t t我们的目标是预测未来的进一步步骤。我们的目标也是成为一个无状态的系统，在这里，TXP-定义，我们现在可以实现ST-GCNN层在等式4中定义如下：CNN来玩了。TXP-CNN直接对图嵌入V'的时间维度进行操作，并将其扩展为预测的必要条件因为TXP-CNN依赖于f（V（l），A）=σ（Λ−1A<$Λ−1V（l）（1）（5）在特征空间上的卷积运算中，与递归单元相比，它的参数大小较小。关于TXP-CNN层要注意的一个属性是，它不是置换不变量，因为在TXP-CNN之前的图嵌入的变化会导致不同的结果。除此之外，如果行人的顺序从Social-STGCNN的输入开始排列，则预测是不变的。总体而言，Social- STGCNN和ST-GCNN之间有两个主要区别[27]。首先，Social-STGCNN以与ST-GCNN完全不同的方式构造图，具有新颖的核函数。其次，除了时空图卷积层之外，我们还增加了使用TXP-CNN操纵时间维度的灵活性。ST-GCNN最初设计用于分类。通过使用TXP-CNN，我们的模型能够利用源自ST-GCNN的图嵌入来预测未来其中W（l）是层l处的可训练参数的矩阵。在应用ST-GCNN之后，我们有了一些功能，把图形表现得很简洁 TXP-CNN接收特征V'并将时间维度视为特征c通道。TXP-CNN由一系列剩余连通CNN组成。只有TXP-CNN中的第一层不具有残差连接，因为它从ST-GCNN接收V′，其中它们在观测样本和待预测样本的维度方面不同5. 数据集和评估指标该模型在两个人体轨迹预测数据集上进行训练：[21][22][23][24][25] ETH包含两个名为ETH和HOTEL的场景，而UCY包含三个名为ZARA 1，ZARA 2和UNIV的场景。数据集中的轨迹每0.4秒采样一次。我们的方法14429西姆，特西姆，特t t2L2，ttt训练遵循与 Social-LSTM 相同的策略 [1] 。在 Social-LSTM中，模型在特定数据集的一部分上进行训练，并对其余数据集进行测试，并对其他四个数据集进行验证。当被评估时，模型观察对应于8帧的3.2秒的轨迹，并预测接下来的4.8秒的轨迹，即12帧。两个指标用于评估模型性能：公式6中定义的平均位移误差（ADE）[21]和公式7中定义的最终位移误差（FDE）[1]。直观地说，ADE测量沿轨迹的平均预测性能，而FDE仅考虑端点处的预测精度。由于Social-STGCNN生成二元高斯分布作为预测，为了将分布与特定目标值进行比较，我们遵循Social-LSTM [1]中使用的评估方法然后，使用最接近地面实况的样本来这种评估方法被几项工作所采用，如Social-GAN [6]等等。Σ Σp135710.47/0.780.47/0.840.44/0.750.48/0.8730.59/1.020.52/0.920.54/0.930.54/0.9250.62/1.070.57/0.980.59/1.020.59/0.9870.75/1.280.75/1.270.62/1.070.75/1.28表1. Social-STGCNN模型的消融研究第一行对应于TXP-CNN层的数量。左起第一列对应于ST-GCNN层的数量。我们展示了Social- STGCNN的不同配置对ADE/FDE度量的影响。最好的设置是使用一层用于ST-GCNN，五层用于TXP-CNN。在卷积运算中相互作用因此，设计核函数的一个简单的想法是使用由等式8中定义的行人之间的L2然而，这违背了行人倾向于受到更近的行人影响的直觉。为了克服这一点，我们使用t tn∈N t ∈TpAde=N×TpΣǁpˆn−pnǁn∈N（六）行人之间的相似性度量。其中一个优点是使用等式中定义的L2范数的逆10. 在分母中添加项以确保数值稳定性。另一个候选函数是高斯径向函数FDE=N，t=Tp（7）基函数[25]，如等式9所示。我们通过实验比较了这些核函数的性能。6. 实验和结果分析Social-STGCNN由一系列ST-GCNN层和TXP-CNN层组成。我们使用PReLU[7]作为模型中的激活函数σ我们将训练批大小设置为128将不同节点之间的邻接矩阵中的所有值设置为1的情况用作基线。根据表6.1中列出的结果，最佳性能来自函数2中定义的ij。函数10和2之间的区别存在于以下情况：vi−vj 在函数2中，我们设置一个ij= 0时该模型使用随机tt训练了250个时期西姆，特vi−vj梯度下降（SGD）。初始学习率为0.01，t t并且在150个时期之后变为0.002。根据表6中的消融研究，使用的最佳模型具有一个ST-GCNN层和五个TXP-CNN层。此外，值得注意的是，当ST-GCNN层的数量增加时，模型性能下降。显然，[12]中的工作注意到了使用图CNN深入的这个问题，他们提出了一种解决这个问题的方法。不幸的是，他们的解决方案并没有扩展到时间图。三个人可以被看作是同一个人，当他们呆在一起一起如果没有它，模型将在行人之间的关系中具有模糊性为此，我们在所有实验中的邻接矩阵的定义中使用ij。aij=vi−vj2（8）ijexp(−ǁvi−vjǁ2)6.1. 核函数的消融研究在本节中，我们的目标是找到一个合适的内核aexp，t=国际新闻通讯社t tσ1=vi−vj+（九）（十）函数来构造加权邻接矩阵。的加权邻接矩阵At是图边属性的表示。核函数将v i和vj处的属性映射到附加到e ij的值a ij。在实施中-t t26.2. 定量分析将Social-STGCNN的性能与t t t t t t在Social-STGCNN中，At对表2中的ADE/FDE度量上的顶点贡献总的来说，一14430ETH酒店UnivZARA1ZARA2AVG线性 *[1]1.33/2.940.39/0.720.82/1.590.62/1.210.77/1.480.79/1.59SR-LSTM-2 *[30]0.63/1.250.37/0.740.51/1.100.41/0.900.32/0.700.45/0.94S-LSTM [1]1.09/2.350.79/1.760.67/1.400.47/1.000.56/1.170.72/1.54S-GAN-P [6]0.87/1.620.67/1.370.76/1.520.35/0.680.42/0.840.61/1.21[23]第二十三话0.70/1.430.76/1.670.54/1.240.30/0.630.38/0.780.54/1.15CGNS [13]0.62/1.400.70/0.930.48/1.220.32/0.590.35/0.710.49/0.97PIF [14]0.73/1.650.30/0.590.60/1.270.38/0.810.31/0.680.46/1.00STSGN [29]0.75/1.630.63/1.010.48/1.080.30/0.650.26/0.570.48/0.99GAT [10]0.68/1.290.68/1.400.57/1.290.29/0.600.37/0.750.52/1.07[10]第十话0.69/1.290.49/1.010.55/1.320.30/0.620.36/0.750.48/1.00社交-STGCNN0.64/1.110.49/0.850.44/0.790.34/0.530.30/0.480.44/0.75表2.示出了与Social-STGCNN相比的几种方法的ADE/FDE度量带有 * 标记的模型是非概率的。其余模型使用20个样本中最好的进行评估。所有模型都以8帧作为输入，并预测接下来的12帧。我们注意到，Social-STGCNN在ADE和FDE指标上具有最好的平均误差。越低越好。1 2 3 4图3. Social-STGCNN的定性分析我们比较了用不同核函数训练的模型（核1：公式8和内核2：方程2）与先前模型的比较。Social-GAN [6]被用作比较的基线。[21][22][23][24][25][26][27][28][29][我们使用[6]提供的预训练的Social-GAN模型。显示了各种场景：平行行走的两个人（1）（2）、从同一方向相遇的两个人（3）、从不同方向相遇的两个人（4）以及从一个角度相遇的一个人（5）。对于每种情况，虚线是行人正在采取的真实轨迹，颜色密度是预测的轨迹分布。Social-STGCNN在这两个指标上优于所有以前的方法。 FDE度量的先前技术水平是SR-LSTM [30]，误差为0.94。我们的模型在FDE度量上的误差为0.75，比现有技术低约 20% 。定性分析的结果解释了 Social-STGCNN如何鼓励增强FDE指标的社会行为。对于ADE指标，Social- STGCNN比最先进的SR-LSTM略好2%。此外，它比以前的生成方法更好，与S-LSTM [1]相比改进了63%，与PIF [14]相比改进了4%有趣的是，我们的模型没有包含场景上下文的视觉信号，优于利用它的方法，如SR-LSTM，PIF和Sophie。推理速度和模型大小S-GAN-P [6]以前具有最小的模型大小，具有 46.3k 个参数。 Social-STGCNN的大小仅为7.6K个参数，约为S-GAN-P中参数数量的六分之一。在推理速度方面，S-GAN-P是之前最快的方法，每推理步骤的推理时间为0.0968秒。模型的推理时间为0.002每推理一步大约要快48秒，比S-GAN-P快48倍。表6列出了我们的模型和公开的模型，我们可以参照。我们取得了这些结果，因为我们克服了两个限制，以前的方法，使用经常性的架构和聚合机制，通过我们的模型的设计。数据效率在本节中，我们评估模型大小的效率是否会导致更好的学习效率。地面实况5观察到预测S-GAN我们的内核2我们的内核114431地面实况观测预测速度差图4.第一列是基础事实，而其他列说明了我们模型中的样本。前两行显示了两种不同的场景，其中行人合并到一个方向或从相反的方向相遇第二列和第三列显示了模型样本中速度或方向的变化最后一列显示不希望的行为。最后一行显示不合格样品。参数计数推理时间S-LSTM [1]264K（35x）1.1789（589x）SR-LSTM-2 [30]64.9K（8.5x）0.1578（78.9x）S-GAN-P [6]46.3K（6.1x）0.0968（48.4x）PIF [14]360.3K（47x）0.1145（57.3x）社交-STGCNN7.6K0.0020表3.不同模型的参数大小和推理时间与我们的比较。越低越好。模型使用Nvidia GTX 1080 Ti GPU进行推理时间是几个单个推理步骤的平均值。我们注意到，Social-STGCNN具有最小的参数大小和最少的推理时间相比，其他。蓝色文本显示我们的模型比其他模型快多少倍。给出了数据学习效率实验结果的均值和误差。我们注意到，当只使用20%的训练数据时，我们的模型在FDE指标上超过了最先进的此外，当仅使用20%的训练数据进行训练时，Social-STGCNN在ADE指标上的性能超过了Social-GAN。结果还表明，与本模型不同，S-GAN-P在更多训练数据下的性能没有太大提高。有趣的是，S-GAN-P并没有吸收更多的训练数据。我们假设这种行为是由于GAN是数据高效的，因为它们可以从很少的训练样本中学习分布然而，GAN的训练很容易陷入模式崩溃的问题。在计算中，模型的数据效率来源于参数效率。1.41.21.00.8表4.邻接矩阵A t的不同核函数对Social-STGCNN性能的影响。更少的数据样本。我们进行了一系列实验，其中5%，10%，20%和50%的训练数据。训练数据是随机选择的。一旦被选中，我们就输入相同的数据来训练不同的模型。Social-GAN被用作比较基线，因为它在以前的深度模型中具有最少的图6.20.60.4培训数据%图5.模型性能与收缩的训练数据集。X轴显示了几个随机样品的收缩百分比。阴影表示错误。在所有模型中使用相同的收缩数据。该图显示了我们与Social-GAN的性能，Social-GAN是在参数大小方面与我们最接近的模型。核函数ADE /FDE国际西姆，特0.44/0.75失败FDESOTAADESOTAFDE我们的FDE S-GANADEOursADES-GAN满足合并20406080国际新闻报L2，t0.48/0.84国际新闻报实验，t0.50/0.84国际新闻报锡姆河0.48/0.88只有一个0.49/0.79100144326.3. 定性分析定量分析部分显示，Social- STGCNN在ADE/FDE指标方面优于以前的最新技术水平。我们现在定性分析Social-STGCNN如何捕捉行人之间的社交互动，并在预测分布时考虑到这一点。我们展示了Social- STGCNN成功预测来自不同角度的行人之间的无碰撞轨迹的案例，主要是平行行走，并正确预测人与一组行人相遇的情况的结果我们定性地比较了Social-GAN [6]、以L2范数（等式8）作为核函数的Social-STGCNN和以逆L2范数（等式2）作为核函数的Social-STGCNN之间的预测结果。平行行走在图3中的场景一和场景二中，两个行人平行行走通常，当人们平行行走时，他们彼此紧密相连，他们的动力将在未来保留。Social-STGCNN和Social-GAN的预测都显示，这两个行人未来将保持平行行走然而，Social-STGCNN预测的密度与地面真实轨迹密切匹配，而不像我们在Social-GAN中看到的偏差。使用我们提出的核函数a sim，t定义在方程2中的加权邻接矩阵帮助我们更好地建模行人之间的社会影响，而不是使用方程8中定义的常规L2范数核函数。在场景一和场景二中示出，具有sim，t的模型在保持并排行走的人之间的相对位置方面表现得更好。在第五幕中，观察到类似的行为。图3中的场景三和场景四是两个行人朝着相似或相反方向行驶的场景。如果他们保持动力，碰撞可能会发生在场景3中，两个行人正朝着相似的方向行走。Social-GAN的预测基于行人的动量线性地起作用，并且可能导致碰撞。在Social-STGCNN的预测中，我们注意到轨迹略有调整，以避免碰撞并与观察到的行人动量保持因此，Social-STGCNN与地面事实更好地匹配在场景四中，Social-GAN未能避免碰撞，而我们的显示了现实的无碰撞路径预测。一个更复杂的场景是图3中的情况5，其中一个人遇到一组平行行走的人我们的模型表明，这群人仍然平行行走，同时调整他们的前进方向，以避免碰撞。在这种情况下，尽管我们的模型和Social-GAN都没有很好地捕捉到真实轨迹，但从社交互动的角度来看，我们的模型预测的分布仍然是有意义的为了详细了解Social-STGCNN如何生成样本，我们绘制了从预测的二元高斯分布生成的样本。图4中有两种不同的场景。在第一幕中，三个人从相反的方向相遇.在另一个场景中，两个人以一个角度合并。几种模式的样本可以产生的预测分布。在图4中的第二列中，生成的样本调整前进方向以避免两个场景中可能的碰撞。行人的另一个社会贡献是减速或加速以避免碰撞。图4中第三列中的示例捕获了此属性。这一分析表明，我们的样本编码不同的预期行人的社会行为。但是，某些示例显示出不期望的行为，例如最后一列中的冲突或发散图4的最后一行显示了更多这些7. 结论在这篇文章中，我们表明，一个适当的基于图形的行人轨迹预测的时空设置，改善了以前的方法在几个关键方面，包括预测误差，计算时间和参数的数量。通过在加权邻接矩阵中应用特定的核函数以及我们的模型设计，Social-STGCNN在许多公开可用的数据集上优于最先进的模型我们还表明，我们的配置可以产生一个数据高效的模型，并且可以从很少的数据样本中学习我们还定性地分析了Social-STGCNN在避免碰撞、平行行走和个人与群体相遇等情况下的性能。在这些情况下，Social-STGCNN往往比其他几种报告的方法提供更现实的路径预测此外，Social-STGCNN在计算上非常有效，将所需参数提高了8.5倍，推理速度比以前的模型提高了48倍。在未来，我们打算将Social-STGCNN扩展到涉及其他移动对象（包括自行车，汽车和行人）的多模式设置致谢作者要感谢审稿人的建议，这些建议改进了论文。本研究得到了美国国家科学基金会 CPSNo.1739964、CIS No.1636154和CIS No.1917056的资助引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别集，第961-971页[2] Haoyu Bai ， Shaojun Cai ， Nan Ye ， David Hsu ， andWee Sun Lee. 自主的意图感知的在线pomdp规划14433在人群中开车。2015年IEEE机器人与自动化国际会议（ICRA），第454IEEE，2015年。[3] 白少杰，J.齐科.科尔特，弗拉德伦.科尔顿。序列建模的一般卷积和递归网络的经验评估。2018年12月18日，第1803.01271页。[4] Rianne van den Berg，Thomas N Kipf，Max Welling.图卷积矩阵补全。arXiv预印本arXiv：1706.02263，2017。[5] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。在IEEE计算机视觉国际会议论文集，第764-773页[6] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social gan：社交上可接受的生成对抗网络轨迹。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深入研究整流器：超越人类水平的图像分类性能。在IEEE计算机视觉国际会议论文集，第1026-1034页[8] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[9] Thomas N Kipf和Max Welling变分图自动编码器。arXiv预印本arXiv：1611.07308，2016。[10] Vineet Kavaju ， Amir Sadeghian ， Roberto Martín-Martín，Ian Reid，S Hamid Rezatoi，and Silvio Savarese.社交大腕：利用自行车网络和图注意力网络进行多模态轨迹预测。arXiv预印本arXiv：1907.03395，2019。[11] Alon Lerner、Yiorgos Chrysanthou和Dani Lischinski。群众的榜样。在计算机图形论坛，第26卷，第655-664页Wiley Online Library，2007.[12] Guohao Li，Matthias Muller，Ali Thabet，and BernardGhanem. Deepgcns：gcns能和cnns一样深吗？在IEEE计算机视觉国际会议的论文集，第9267-9276页[13] Jiachen Li，Hengbo Ma，and Masayoshi Tomizuka.概率弹道预测的条件生成神经系统。arXiv预印本arXiv：1905.01631，2019。[14] Junwei Liang，Lu Jiang，Juan Carlos Niebles，AlexanderG Hauptmann，and Li Fei-Fei.展望未来：预测未来的人的活动和地点的视频。在IEEE计算机视觉和模式识别会议论文集，第5725-5734页[15] Matthias Luber，Johannes A Stork，Gian Diego Tipaldi，and Kai O Arras.人们跟踪人类运动预测来自社会力量。2010年IEEE机器人与自动化国际会议，第464-469页。IEEE，2010。[16] Yuanfu Luo，Panpan Cai，Aniket Bera，David Hsu，Wee Sun Lee，and Dinesh Manocha.Porca：在许多行人中进行自动驾驶的建模和规划 IEEE Robotics andAutomation Letters，3（4）：3418[17] Huynh Manh和Gita Alaghband Scene-lstm：一个人体轨迹预测模型。arXiv预印本arXiv：1808.04018，2018。[18] 师富康平加藤正之林秀明碰撞位置预测装置，9月302014.美国专利8，849，558。[19] Mehdi Moussaïd，Niriaska Perozo，Simon Garnier，DirkHel- bing，and Guy Theraulaz.步行社会群体的行走行为及其对人群动力学的影响。 PloS one ， 5 （ 4 ）：e10047，2010.[20] Basam Musleh，Fernando García，Javier Otteri，José MaArmingol，and Arturo De la Escalera.基于传感器融合和运动稳定性预测的行人识别和跟踪。传感器， 10（9）：8028[21] Stefano Pellegrini，Andreas Ess，Konrad Schindler和LucVan Gool。你2009年IEEE第12届计算机视觉国际会议，第261IEEE，2009年。[22] Pongsathorn Raksincharoensak ， Takahiro Hasegawa 和Masao Nagai。基于风险势优化框架的自动驾驶智能系统运动规划与控制。International Journal of Automo

下载后可阅读完整内容，剩余1页未读，立即下载