SoPhie:基于社会和物理约束的路径预测

151 浏览量更新于2023-10-18 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SoPhie：一个用于预测符合社会和物理约束的Amir Sadeghian1，2Vineet Komaju1 Ali Sadeghian3Noriaki Hirose1S. Hamid Rezatoeli1，4Silvio Savarese11斯坦福大学2Aibee Inc3佛罗里达大学4阿德莱德大学amirabs@aibee.com摘要本文讨论了场景中多个交互代理的路径预测问题，这是许多自主平台（如自动驾驶汽车和社交机器人）的关键一步。我们提出了SoPhie;一个基于生成对抗网络（GAN）的可解释框架，它利用两个信息源，即场景中所有代理的路径为了预测一个智能体的未来路径，必须利用物理和社会信息。以前的工作尚未成功地联合建模物理和社会互动。我们的方法融合了社会注意机制和物理注意，帮助模型学习在大场景中看哪里，并提取与路径相关的图像中最显著的部分。而社会注意组件聚合了不同Agent交互的信息，并从周围邻居中提取了最重要的轨迹信息SoPhie还利用GAN生成更真实的样本，并通过对其分布建模来捕捉未来路径的不确定性。所有这些机制使我们的方法来预测社会和物理上合理的路径的代理，并实现国家的最先进的性能在几个不同的轨迹预测基准。1. 介绍当人们穿过公园或拥挤的购物中心时，他们会根据社会礼仪的常识规则来调整他们的路径。同时，他们能够适应物理空间和障碍。与物理地形以及周围的人类互动绝非易事;因为它要求：*表示等额缴款图1. 索菲预测的轨迹在社会和物理上都是合理的。为了执行这一点，我们的方法结合了场景中的所有代理以及场景上下文的影响。• 遵守环境的物理限制。为了能够在可行的地形上行走并避免...障碍物或类似的物理限制，我们必须处理我们周围环境的局部和全局空间信息，并注意我们周围的重要元素。例如，当到达弯曲路径时，我们更多地关注曲线而不是环境中的其他约束，我们称之为物理注意力[26]。• 预测其他人的动作和社会行为。为了避免与其他人发生碰撞，打扰他们的私人空间，或打断一些社会交往，当我们面对不同的动作（例如握手）时，我们必须对他人我们应该考虑到有些代理人对我们的决定有更大的影响。例如，当我们走在走廊里时，我们会更多地关注前面的人，而不是后面的人，我们称之为社会注意力。对这些社会互动进行建模是一项重要的任务。• 找到不止一条可行的路。为了到达目的地，我们的路径往往不止一个选择，这就是人类运动的模糊性。1349身体注意力社会关注1350事实上，有一个范围为我们的遍历路径到我们的目的地[26，23，13，8，1]。在本文中，我们的目标是解决一组代理的未来路径预测的问题现有的方法遵循不同的策略来解决这个问题。一些方法仅依赖于场景上下文来预测每个代理的可行路径。例如，[3]中的方法使用先前创建的导航图（对场景特定的观察到的运动模式进行编码）从特定于补丁的描述符学习所有代理的动态模式。在[14]中，该方法从顶视图图像中学习场景上下文，以便预测每个智能体的未来路径。[26]将注意力机制应用于输入图像，以突出每个代理未来路径的重要区域然而，所有上述方法都忽略了其他智能体的状态对预测目标智能体未来路径的影响与使用场景上下文信息的路径预测并行，最近提出了几种方法来对场景中所有代理之间的交互进行建模，以便预测每个目标代理的未来轨迹[5，6]。尽管这些方法在解决这一具有挑战性的问题方面取得了可喜的进展，但它们仍然忽略了场景上下文作为关键信息。此外，这些方法的不足之处在于，它们不是将行人为了解决第二个问题，[1，14，30]引入了能够生成多条可行路径的模型。然而，这些模型中的大多数只包括在一个非常有限的搜索空间中的几个相邻代理的影响最近，[8]提出了一种GAN模型，该模型考虑了场景中所有代理的影响在这项工作中，我们提出了SoPhie一个专注的基于GAN的方法，可以考虑到来自场景上下文和代理的社交交互的信息，以便预测每个代理的未来路径。受最近注意力网络[29]和GAN [7]在不同现实世界问题中的成功我们使用一个视觉注意力模型来处理静态场景上下文，同时使用一个新的注意力模型来观察其他代理的动态然后，应用基于LSTM的GAN模块来学习一个可靠的生成模型，该模型表示未来每个智能体在一系列看似合理和现实的路径上的分布。据我们所知，还没有其他的工作已经成功地解决了所有上述问题。SoPhie生成多个社会敏感和物理上合理的轨迹，并在多个轨迹预测基准上实现最先进的结果。总结本文的主要贡献如下：• 我们的模型使用场景上下文信息与代理之间的社会互动，以预测每个代理的未来路径。• 我们提出了一个更可靠的特征提取策略来编码代理之间的相互作用。• 我们引入了两种注意力机制，并结合基于LSTM的GAN来生成更准确、更可解释的社会和物理可行路径。• 多轨迹预测基准的最新结果。2. 相关工作近年来，在弹道预测任务方面取得了许多进展。以前的许多关于轨迹预测的研究要么关注物理环境对智能体路径的影响（智能体-空间交互），并学习场景特定的特征来预测未来的路径[26]，要么关注社会交互的影响（动态智能体-智能体现象），并对受其他智能体行为影响的智能体行为进行建模很少有作品试图将轨迹和场景线索结合起来[14]。代理空间模型。该模型主要利用场景信息，例如，汽车倾向于在车道之间行驶，或者人倾向于避开长凳之类的障碍物Morris等人[20]将时空模式聚类，并使用hid。使用马尔可夫模型对每个组进行建模。Kitani等人[13]使用隐变量马尔可夫决策过程来模拟人与空间的相互作用，并推断行人的步行路径。最近，Kim et al.[12]，训练一个单独的递归网络，每个未来时间步一个，以预测附近汽车的位置。Ballan等人[3]引入动态贝叶斯网络来对来自预先观察到的模式的运动依赖性进行建模，并通过在类似设置之间转移知识将其应用于未见过的场景。在一个有趣的工作，变分自动编码器是由李等人使用[14]学习静态场景上下文（以及小邻域中的代理萨代吉安等人[26]，也使用顶视图图像，并学习基于静态场景上下文预测轨迹。我们的工作类似于[26]，因为我们都使用注意递归神经网络来预测考虑物理环境的事件;尽管如此，我们的模型能够考虑到周围的其他代理，并能够使用GAN模块生成多个看似合理的路径。代理-代理模型。用于建模和预测人与人之间交互的传统模型使用23、21、17]。这些模型的主要缺点是需要手工制作规则和功能，限制了它们在抽象级别和领域专家之外有效学习的能力13511：N我我我1：无我现代社会意识轨迹预测通常在[N]={1，···，N}的情况下工作。在整个论文中，我们使用使用递归神经网络[25，1，14，6，5，4，11，32]。符号X··1：无来代表Hug等人[10]一项实验研究表明，一些RNN模型在社会意识轨迹预测中的有效性这些方法都是比较成功的，但大多数方法只考虑了局部相互作用，所有N个智能体的状态和所有智能体的目标代理i。我们还使用符号Y τ来表示t + τ中的未来状态。因此，对于T>1，在帧t +1和t + T之间，代理i的未来地面实况和预测状态由Y1：T表示，并且剂.在最近的工作中，Gupta et al.[8]解决这个问题问题以及代理的轨迹可能有多个合理的未来，通过使用GAN。然而，尽管如此，Y1：Trespectiv ely，whereY1：T={（x τ，y τ）|τ = t +1，···，t + T}<$i∈ [N].我我我他们的方法处理所有代理人相互之间的影响，一致地。相比之下，我们的方法使用一种新的注意力框架来突出每个目标代理的最重要代理。在某种程度上，最近很少有方法[14，30，4，28]将场景和社会因素都纳入其模型。我们的目标是学习模型W的参数，以便预测t+1和t+T之间每个智能体的未来状态，给定时间t的输入图像和所有智能体然而，这些模型只考虑了Y= 1：T=f（It，X1：t，X1：t;W），有限的相邻代理并且仅能够为每个代理生成单个似然路径我们通过应用更明智的策略来解决所有这些限制，例如1-使用视觉注意力组件来处理场景上下文并突出每个代理的场景的最显著特征，2-使用社会注意力组件来估计每个代理对目标代理的未来路径预测的贡献量，以及3-使用GAN来估计每个代理的可行路径上的分布。我们通过在几个标准轨迹预测数据集上展示最先进的性能来支持我们的主张3. 苏菲我们的目标是开发一个模型，可以成功地预测一组代理的未来轨迹。为此，每个智能体在未来所采取的路线不仅需要受到其自身状态历史的影响，还需要受到其他智能体的状态和其路径周围的物理地形的影响。SoPhie在预测每个智能体的未来轨迹时会考虑所有这些线索。3.1. 问题定义轨迹预测可以形式化地表述为在给定场景信息和它们的过去状态的情况下估计所有智能体的未来状态的问题。在我们的例子中，场景信息作为图像It被馈送，例如，在时间t的场景的顶视图或角视图图像到模型中。此外，假设每个代理i在时间t的状态为可以是其位置，例如，其二维坐标（xt，yt）∈R2，i i1：N\i其中，模型参数W是我们模型中使用的所有深度神经结构的权重集合。我们通过最小化损失LGAN，使用反向传播和随机梯度下降来端到端地训练所有权重在预测的和真实的未来状态之间，剂.我们将在下一节详细阐述这些细节。3.2. 整体模型我们的模型由三个关键组成部分组成，包括：1-特征提取器模块，2-注意力模块，3-基于LSTM的GAN模块（图1）。2）的情况。首先，特征提取器模块从场景中提取适当的特征I.E.使用卷积神经网络来计算当前帧It它还使用LSTM编码器对每个代理的状态X1：t和所有其他代理的状态之间的索引不变但时间依赖的特征进行直到当前帧X1：t（图2（a））。然后，atten-模块突出显示最重要的信息下一个模块的输入特征（图第2段（b）分段）。注意模块由两个注意机制组成，即社会注意成分和身体物理注意力从训练数据中学习场景中的空间（物理）约束，并专注于每个智能体的物理可行的未来路径类似地，社会关注模块学习代理之间的交互以及它们对每个代理最后，基于LSTM的GAN模块（图2（c））从注意力模块中提取突出显示的特征更详细地说，我我关于参考，例如，图像角或俯视图世界坐标因此，N个智能体的过去和当前状态由其2D位置的有序集合表示为：X1：t={（x τ，y τ）|τ = 1，···，t} i ∈ [N]，LSTM解码器用于预测每个智能体未来的时间依赖状态，即， Y= 1：T. 与GAN类似，a通过强制生成更真实的样本（轨迹），还可以应用该方法来提高发电机模型的性能。在下面的部分中，我们将详细阐述每个模块。我我我和X1352····第i个代所以pHenpHpHDecpH恩我恩pHen(a)（b）（c）图2. SoPhie架构概述。Sophie由三个关键模块组成，包括：（a）特征提取器模块，（b）注意力模块，以及（c）基于LSTM的GAN模块。3.3. 特征提取器特征提取器模块有两个主要组件，如下所述。为了从图像中提取视觉特征Vt，其中πj是根据其到目标代理i的距离排序的其他代理的索引。在这个框架中，每个代理i都有自己独特的联合（社会）特征向量。我们tPh也使用排序作为置换不变函数，其中图I，我们使用卷积神经网络（CNN）。t=CNN（It;Wcnn）（1）在本文中，我们使用 VGGnet-19[27] 作为 CNN（·），其中其权重Wcnn通过ImageNet[24]和微调的场景分割的任务，如[16]中所述。为了从所有智能体的过去轨迹中提取联合特征，我们执行以下过程。类似于[8]，首先使用LSTM来捕获代理i的所有状态之间的时间依赖性，并将其编码为时间t的高维特征表示，即用于排序的参考是目标代理i和其它代理之间的欧几里德距离请注意，与max相比，sort函数是有利的，因为它可以保持输入的唯一性。为了处理可变数量的代理，我们设置代理的最大数量（N=Nmax），并使用一个虚拟值作为功能，如果相应的代理不存在于当前帧中。3.4. 注意模块与人类更关注近距离障碍物、即将到来的转弯和走向它们的人，而不是建筑物或后面的人类似，我们希望模型更多地关注场景的突出区域，Vt（i）=LSTMen（Xt，ht（i）;Wen），（2）更相关的代理，以便预测每个代理的未来状态。为了实现这一点，我们使用两个单独的软t注意模块类似于[29]，用于物理Vt和其中hen（i）表示编码器LSTM在时间t对于agenti。此外，为了捕捉为了解决其他智能体的状态对智能体未来轨迹预测的影响，需要从所有智能体的编码特征Vt（·）中提取一个联合特征。然而，这种联合特征不能简单地通过连接它们来创建，因为代理的顺序很重要。来做关节特征置换不变相对于代理的索引，现有的方法使用置换不变（对称）函数，如max[8]。然后，该联合全局特征由每个代理的特征Vt（i）连接pH社会Vt（i）特征。物理注意力这个注意力模块AT TPh（·）的输入是GAN模块中解码器LSTM的隐藏状态，以及从图像Vt.请注意，解码器LSTM的隐藏状态具有预测智能体未来路径的信息。该模块从训练数据中学习场景中的空间（物理）约束。因此，输出将是上下文向量Ct，其集中于每个代理的可行路径。被馈送到状态生成器模块。然而，这样一来，所有代理将具有相同的联合特征表示。在t（i）=ATTPh（Vttdec(i) ;WPh）（4）此外，置换不变函数，例如max，这里，WPh是物理注意力模型的参数可能会丢弃他们输入的重要信息，ULE和HT(i) 表示解码器的隐藏状态可能会失去他们的独特性。为了解决这两个问题-我们定义了一个一致的排序结构，其中目标代理i的联合特征是通过对其他代理与代理i的距离进行排序来构造的..ΣVt（i）=Vt（πj）−Vt（i）。nπj∈[N]\i），（3）特征提取器模块第一人注意模块GAN模块发生器鉴别器第i人的注意模块CNN物理注意：z编码器计算相对pH社会关注：我的朋友z第n人注意模块z解码器LSTM相对相对相对LSTM第一代理第N代理LSTMLSTM第一代理第i个代理第N代理LSTMLSTMLSTMLSTMLSTMconcat.concat.concat.concat.·······································VC，h1353所以LSTM在时间t对于agenti。社会注意力与物理注意力模块类似，联合特征向量Vt（i）与第i个智能体的解码器LSTM的隐藏状态一起被馈送到具有参数WSo的社会注意力模块ATTSo（·）以获得第i个代理的社会背景向量Ct（i）所以嗯嗯所以1354我我我L、L+T1：τp（Y） iiG So Ph该向量突出了在预测代理i的轨迹时关注哪些其他代理是最重要的。每个智能体直到第τ个未来时间的预测未来路径弗雷姆岛e. T1：τp（Y1：τ，Y1：τ）我我我Ct（i）=ATTSo（Vt（i），ht（i）;（5）Lτ=LST Mdis（Tτ，hτ（i）;Wdis），（7）所以所以Dec伊迪斯我们使用类似于[29]的软注意力来处理ATTPh（·）和ATTSo（·），这是不同的，整个archi。可以利用反向传播来端到端地训练结构其中，Lτ是来自所选轨迹样本的预测标签，其为地面实况（真实）Y1：τ或预测（fak e）Y1：τ，其中真值标签Lτ=1，我我社会注意力和物理注意力聚集了所有参与的智能体和物理地形的信息，以处理建模交互的复杂性，L τ= 0。该函数强制生成器生成更真实的（似然的）状态。为了训练苏菲，我们使用以下损失：所有的代理人在拥挤的地区，同时增加可解释性，我们的预测。这也抑制了W= argminEi，τ[LW. ˆττ ΣGANi i以一种有用的方式输入数据，允许预测λLL2（Yλ 1：τ，Y1：τ）]，（8）模型集中在重要特征上。我们的实验ii表1显示了我们的注意力模块的贡献。3.5. 基于LSTM的生成对抗网络在本节中，我们将介绍基于LSTM的生成式其中W是我们模型中使用的所有网络的权重的集合，λ是两个损失之间的正则化子adversarial lossLGAN（·，·）和L2 lossL LL2（·，·）分别为sho w n.如下：对抗网络（GAN）模块，它将社交网络L甘Lτ，Lτ 为我我和每个代理i的物理上下文向量，Ct（i）和所以呢C（i），作为输入和输出候选未来状态，最小最大 ET1：τp（Y1：τ）[LilogLi]+pH是符合社会和物理限制的。大多数存在于-轨迹预测方法使用L2范数损失G D i iE1：τ[（1−Lτ）log（1−L<$τ）]，（9）我我在地面实况和预测未来的国家[26]。通过使用L2损失，网络仅LL2（Yτ，Yτ）=||Yτ−Yτ||二、（十）学习为每个代理预测一条未来路径，这是每个代理所有可行未来路径的平均值相反，在我们的模型中，我们使用GAN来学习和预测我我4. 实验我我2分布在所有可行的未来路径上。GAN由两个网络组成，一个生成器和一个识别器，它们相互竞争。生成器被训练以学习路径的分布并为代理生成可能的未来路径的样本，而判别器学习区分所生成的路径的可行性或不可行性。这些网络在两个玩家的最小-最大游戏框架中同时训练。在本文中，类似于[8]，我们使用两个LSTM，一个解码器LSTM作为生成器，一个分类器LSTM作为递归，来估计时间相关的未来状态。生成器（ G ）我们的生成器是解码器 LSTM ，LSTMde c（·）。类似于条件GAN[19]，我们的生成器的输入是从以下采样的白噪声向量z多元正态分布，而物理和社会背景向量是其条件。我们简单地将噪声向量z和这些上下文向量作为输入，I.E. Ct（i）= [Ct（i），Ct（i），z].所以，生成的τth1355在本节中，我们首先在com上评估我们的方法-例如ETH [22]和UCY [15]，以及最近和更大的数据集，即斯坦福无人机数据集[23]。我们还将其性能与这些数据集上的各种基线进行了比较。接下来，我们提出了一个定性分析我们的模型的有效性的注意机制。最后，我们通过展示一些定性结果来结束本节，这些结果数据集我们在三个核心数据集上进行基线比较和消融实验。首先，我们探索了公开可用的ETH [22]和UCY[15]数据集，这两个数据集都包含了现实世界行人在各种社交场合互动的注释轨迹这些数据集包括非平凡的运动，包括行人碰撞，防撞行为和群体运动。这两每个场景都包括俯视图和2D位置图。每个代理的未来状态Yτ=LSTMdec.Ct（i），hτ（i）;WdecΣ、（6）每个人的世界坐标。当相机保持静态时，每个场景使用一个图像i G dec鉴别器（D）在我们的例子中，鉴别器是另一个LSTM，LST Mdis（·），其输入是从地面真值或每个场景都发生在一个相对不受约束的户外环境中，减少了物理约束的影响。我们还探索了斯坦福无人机数据集（SDD）[23]，这是一个用于轨迹预测问题的基准数据集数据集1356基线苏菲（我们的）数据集林LSTMS-LSTMS-GANS-GAN-P不是TO+ IOTO+ IATA+ IOTA+ IAETH1.33/2.941.09/2.411.09/2.350.81/1.520.87/1.620.90/1.600.86/1.650.71/1.470.76/1.540.70/1.43酒店0.39/0.720.86/1.910.79/1.760.72/1.610.67/1.370.87/1.820.84/1.800.80/1.780.83/1.790.76/1.67Univ0.82/1.590.61/1.310.67/1.400.60/1.260.76/1.520.49/1.190.58/1.270.55/1.230.55/1.250.54/1.24ZARA10.62/1.210.41/0.880.47/1.000.34/0.690.35/0.680.38/0.720.34/0.680.35/0.670.32/0.640.30/0.63ZARA20.77/1.480.52/1.110.56/1.170.42/0.840.42/0.840.38/0.790.40/0.820.43/0.870.41/0.800.38/0.78AVG0.79/1.590.70/1.520.72/1.540.58/1.180.61/1.210.61/1.220.61/1.240.57/1.200.58/1.200.54/1.15表1.基线模型的定量结果与SoPhie架构跨数据集的任务是预测12个未来的时间步，给定之前的8个。报告的误差指标为ADE /FDE（单位：米）。SoPhie模型的表现始终优于基线，这是由于在生成模型设置中应用了社会和身体注意力的组合。基线苏菲（我们的）数据集林SFS-LSTMS-GAN车联网欲望不是TO+I OTO+I ATA+ITA+I ASDD37.11 /63.5136.48 /58.1431.19 /56.9727.246 /41.44025.72 /51.819.25 /34.0517.76 /32.1418.40 /33.7816.52 /29.6417.57 /33.3116.27/29.38表2.斯坦福无人机数据集上各种型号的ADE和FDE像素。SoPhie由20个独特场景的鸟瞰图组成，与前面的数据集类似，图像是从顶视角提供的，但坐标是以像素为单位提供的这些场景是户外的，包含行人避开的建筑物和圆形物等物理地标实现细节我们使用Adam优化器迭代地训练生成器和学习器模型，使用64的小批量大小和0. 001的生成器和学习器学习率。模型被训练了200个epoch。编码器使用嵌入维数为16的单层MLP对轨迹进行在生成器中，这被馈送到隐藏维数为32的LSTM中;在图中，同样的情况发生，但是尺寸为64。生成器的解码器使用嵌入维数为16的单层MLP来编码代理位置，并使用隐藏维数为32的LSTM。在社交关注模块中，通过将编码器输出和解码器上下文传递通过大小为64、128、64和1的多个MLP层，并穿插ReLu激活，来检索关注权重。最后一层通过Softmax层。考虑了周围Nmax=32个智能体之间的相互作用;选择该值是因为在任何给定的时间步中，在任一数据集中没有场景超过该总活动代理数。如果存在少于N个最大代理，则使用虚拟值0。物理注意力模块获取原始VGG特征（512个通道），使用卷积层投影这些特征，并使用单个MLP将这些特征嵌入该编码器不使用注意模块或解码器网络。在训练时，我们假设我们已经观察到一个智能体的8个时间步，并试图预测下一个T=12个时间步。我们通过设置λ=1来加权损失函数。此外，在传统的GAN设置中联合训练生成器/训练器。此外，为了使我们的模型对场景具有更强的鲁棒性，在此基础上，我们通过翻转和旋转场景以及代理坐标的归一化来增强训练数据。我们观察到，这些增强有助于使训练后的模型足够通用，以便在测试示例和不同场景几何形状（如圆形）中的不可见情况下表现良好。&对于前两个数据集，使用了一些简单但强大的基线。这些包括Lin，一种通过最小化最小二乘误差来估计线性参数的线性回归器; S-LSTM ，一种将LSTM与社交池层相结合的预测模型，如Alahi等人所提出的。al. [1]; S-GAN和S-GAN-P，将生成建模应用于社交LSTM 的预测模型[8]。对于无人机数据集，我们将其与相同的线性和社会LSTM基线进行比较，但也探索了其他几种最先进的方法。这些包括社会力量，来自[31]的相同社会力量模型的实现;EQUIPRE，Lee等人提出的逆最优控制（IOC）模型。al. 利用生成建模;和CAR-Net，来自[26]的物理注意模型。对于所有数据集，我们还通过1- T A在消融设置中呈现了各种版本的SoPhie模型的结果：仅具有社会特征和社会注意机制的Sophie模型，具有视觉和社会特征而没有任何注意机制的2- T O + I OSophie模型，具有视觉和社会特征而只有视觉注意机制的3-T O + I A Sophie模型，4-T A+ I OSophie模型。模型的视觉和社会功能，只有社会注意机制和5-TA+ IA完整的苏菲模型的所有模块。使用平均位移误差（ADE）度量（定义为所有行人和所有时间步长的地面实况和行人轨迹之间的平均L2距离）以及最终位移误差度量（FDE）对所有模型进行评估评估任务被定义为在8秒内执行，使用由前3.2秒组成的过去8个位置作为输入，并预测1357最后4.8秒的12个未来位置。对于前两个数据集，我们遵循与[8]类似的评估方法，执行留一交叉验证策略，在四个场景上进行训练，并在剩下的一个场景上进行测试这两个数据集在仪表空间中进行评估。对于SDD，我们使用标准分割，为了与基线进行比较，我们在从米转换后以像素空间报告结果。4.1. 定量结果ETH和UCY我们将我们的模型与表1中的各种基线进行了比较，报告了米空间的平均位移误差（ADE）以及最终位移误差（FDE）。正如预期的那样，我们看到线性模型通常表现最差，因为它无法模拟不同人类之间的复杂社会互动以及人类与其物理空间之间的互动。我们还注意到，由于使用了社会池，S-LSTM提供了对线性基线的改进，而S-GAN通过从生成的角度来处理问题，提供了对LSTM基线的改进我们的第一个模型TA仅将社会背景应用于行人轨迹，由于更好的特征提取策略和注意力模块，平均表现略好于S-GAN。正如预期的那样，尽管社会背景有助于模型形成更好的预测，但仅凭它还不足以真正理解场景中的交互。类似地，虽然我们的第二个模型T O + I O应用了行人轨迹和来自物理场景的特征（没有注意），但缺乏关于这些附加特征的任何上下文使得模型无法学习哪些组件是最重要的，从而使其具有与T A类似的准确性。我们在模型性能方面的第一个主要收获来自于探索T O + I A和T A + IO模型。由于前者将物理背景应用于图像特征，而后者将社会背景应用于轨迹特征，因此每个模型都能够学习交互的重要有趣的是，TO + IA的表现略好于TA + IO，这可能表明理解物理背景在预测任务中更有帮助。最终的SoPhie模型，包括对轨迹的社会注意力和对图像特征的物理注意力（TA+IA），优于以前的模型，这表明将两种形式的注意力结合起来可以实现强大的模型预测。接下来，我们将我们的方法与表2中的各种基线进行比较，报告像素空间中的ADE和FDE。就像之前的数据集一样，使用SDD，我们看到线性基线的性能最差，而S-LSTM和S-GAN提供了准确性的提高。准确性的下一个重大改进是由于使用了物理注意力，因此使用了CAR-Net。这可能是由于SDD的性质，其中基于道路曲率的行人移动可以从场景的鸟瞰图推断。准确性的下一个主要改进是使用WARRETM框架，该框架从生成的角度探索轨迹预测，使其成为最佳基线。请注意，由于其代码未公开，因此将[14]中报告的4.0s结果线性插值为4.8s。最后，将社会背景纳入TA，以及将社会和物理背景纳入TA + IA允许显著的模型改进，这表明两个专注模型对于解决轨迹预测问题至关重要。社会和物质限制的影响。由于我们的目标是产生社会可接受的路径，不同的评估度量反映了接近碰撞的百分比（如果两个行人比阈值0更接近）。10米）。我们计算了每个BIWI/ETH场景中所有帧中行人接近碰撞的平均百分比。这些结果见表3.为了更好地理解我们的模型产生物理上合理路径的能力，我们还将斯坦福无人机数据集的测试集分为两个子集：简单和复杂，如先前在CAR-Net [26]中所做的，并在表4中报告结果。我们注意到，S-GAN基线在简单场景上实现了另一方面，由于这种物理环境，CAR-Net和SoPhie在简单场景上的性能都比S-GAN和仅轨迹LSTM略有这个实验表明，苏菲的使用物理和社会的注意力成功地使它能够预测更好的物理和社会可接受的路径相比，基线方法。我们还想指出，不幸的是，现有的轨迹预测基准仍然很幼稚，不是为了评估轨迹的社会和物理方面而制定在本文中，我们试图使用简单的度量来评估我们的方法和基线方法然而，具有特定指标的适当基准将是一个很好的未来方向。GT林S-GAN苏菲ETH0.0003.1372.5091.757酒店0.0921.5681.7521.936Univ0.1241.2420.5590.621ZARA10.0003.7761.7491.027ZARA20.7323.6312.0201.464Avg0.1892.6701.7171.361表3. BIWI/ETH中每个场景的每帧碰撞行人的平均百分比如果两个行人之间的欧氏距离小于0.10m，则检测到碰撞。1358Nexus 6 Little 1 Huang 1图3.使用生成器来采样轨迹和验证这些路径，我们提出了高度准确的遍历地图SDD场景。地图以红色表示，仅使用30个起始样本生成，如蓝色十字所示。Ground Truth Social LSTM Social GAN Sophie（Ours）图4.索菲的预测与地面实况轨迹和两个基线的比较。每个行人用不同的颜色显示，其中虚线是观察到的轮廓，实线是预测的。生成模型也有预测样本的分布。模型复杂简单LSTM31.3130.48车联网24.3230.92S-GAN29.2922.24苏菲15.6121.08表4.斯坦福无人机数据集上的多个基线的性能，分为物理上简单和复杂的场景。误差为ADE，以像素为单位报告。4.2. 定性结果我们进一步研究了我们的架构的能力，以模拟社会和物理的相互作用如何影响未来的轨迹。图4证明了注意力在纠正错误预测方面的影响在这里，我们可视化了四个独特的场景，将Sophie与两个基线和地面实况行人运动进行了比较。在前两种情况下，预测的可变性降低，从而避免行人碰撞在最后两个场景中，物理注意力确保行人遵守物理约束，例如留在人行道上。因此，社会和身体注意力的引入不仅允许更大的模型可解释性，场景限制的预测。生成SoPhie架构的另一个好处是，它可以用于了解场景中的哪些区域是可遍历的。为了证明我们方法的有效性，我们从测试集中随机抽取了30个代理（即，每个轨迹的前8秒）具体地，给定场景，在场景中的各个点处对来自测试集的随机轨迹进行采样，并且生成器使用该起始点生成采样轨迹。这些生成的轨迹，然后使用验证。这些轨迹的分布导致了一个可解释的可穿越性图，如图11所示。3.第三章。每张图像都代表SDD中的一个独特场景，叠加的热图显示了可遍历的区域，蓝色十字显示了起始样本。通过Nexus 6，该模型能够成功识别可通行区域，如中央道路和通往侧面的路径使用小1，模型识别行人行走的主要人行道，同时正确忽略行人避开的道路。在Huang 1中，模型能够正确识别图像上的横截面以及侧路径因此，我们观察到生成网络可以成功地用于探索场景中的可遍历区域，即使样本数量很少。5. 结论我们提出了一个轨迹预测框架，在多个基准数据集上表现出最先进的方法。我们的方法利用完整的场景上下文和所有代理的交互，同时使用社会和物理注意力机制实现可解释的预测。为了捕捉未来路径的不确定性，我们使用专注的GAN在预测的轨迹上生成分布，该GAN可以成功地生成多个物理上可接受的路径，这些路径尊重环境的社会约束我们表明，通过联合建模有关物理环境和所有代理之间的交互的信息，我们的模型学习比单独使用这些信息时表现得更好。我们的实验表明，与基线方法相比，Sophie1359引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S. Savarese社会lstm：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别集，第961二、三、六[2] A. Alahi、V. Ramanathan和L.飞飞具有社会意识的大规模人群预测。在2014年IEEE计算机视觉和模式识别上，编号EPFL-CONF-230284，第2211-2218页。IEEE，2014。2[3] L. Ballan，F.Castaldo，A.Alahi，F.Palmieri和S.Savarese用于场景特定运动预测的知识转移。欧洲计算机视觉会议，第697施普林格，2016年。2[4] F. 巴托利湾利桑蒂湖Ballan和A.德尔·宾博情境感知轨迹预测.arXiv预印本arXiv：1705.02503，2017。3[5] T. Fernando，S. Denman，A. McFadyen，S. Sridharan，和C.福克斯树记忆网络用于建模长期时间依赖性。arXiv预印本arXiv：1703.04706，2017。二、三[6] T. Fernando，S. Denman，S. Sridharan和C.福克斯软+硬接线注意：一个用于人体轨迹预测和异常事件检测的lstm框架。arXiv预印本arXiv：1702.05552，2017。二、三[7] I. Goodfellow，J.普热-阿巴迪米尔扎湾，澳-地Xu，L.Warde-Farley，S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统的进展，第2672-2680页，2014年。2[8] A. Gupta，J. Johnson，L. Fei-Fei，S. Savarese和A.阿拉希Social gan：社交上可接受的生成对抗网络轨迹。arXiv预印本arXiv：1803.10892，2018。二三四五六七[9] D. Helbing和P.莫尔纳行人动力学的社会力模型Physicalreview E，51（5）：4282，1995. 2[10] R. Hug，S. Beck e r，W. Hubner和M. 阿伦斯行人轨迹预测的lstm-mdl模型的可靠性在第七届国际研讨会上表示，分析和识别形状和运动从图像数据（ RFMI2017），2017年。3[11] R. Hug，S. Bec k e r，W. Hubne r和M. 阿伦斯使用lstm-mdl 模型预测行人路径。 arXiv 预印本 arXiv ：1804.05546，2018。3[12] B. 金角，澳-地M. 康，S.H. Lee，H.Chae，J.金角，澳-地C. Chung和J. W.崔基于递归神经网络的占有率栅格地图上的概率车辆轨迹预测 arXiv 预印本 arXiv ：1704.07049，2017。2[13] K. M.基塔尼湾D. Ziebart，J. A. Bagnell和M.赫伯特活动预测。欧洲计算机视觉会议，第201-214页。Springer，2012. 2[14] N.李，W。Choi，P. Vernaza，C. B. Choy，P. H.托和M. Chandraker 欲望：在具有交互代理的动态场景中的遥远未来预测2017. 二、三、七[15] A. Lerner，Y. Chrysanthou和D. Lischinski群众的榜样。在计算机图形论坛，第26卷，第655-664页。WileyOnline Library，2007. 5[16] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议集，第3431-3440页，2015年。4[17] A. Maksai，X.Wang，F.Fleuret，和P.呸非马尔可夫全局一致多目标跟踪。2017年IEEE国际计算机视觉会议（ICCV），第2563-2573页。IEEE，2017年。2[18] R. Meiden，A.Oyama和M.Shah.基于社会力模型的异常人群在计算机视觉和模式识别，2009年。CVPR 2009。IEEE Conference，第935-942页。IEEE，2009年。2[19] M. Mirza和S.奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。5[20] B. T. Morris和M.M. 特里维迪用于活动理解的轨迹学习：无监督、多层次和长期自适应方法。 IEEEtransactions on patter

下载后可阅读完整内容，剩余1页未读，立即下载