使用虚拟游戏预测行人的交互动态和行人动力学预测模型

150 浏览量更新于2023-10-16 收藏 14.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Young ManOld ManOld WomanYoung Man17740使用虚拟游戏预测行人的交互动态0麻伟超 1 黄德安 2 李南勋 3 Kris M. Kitani 401 MIT 2 Stanford 3 Oxford 4 CMU0摘要0我们通过使用博弈论和基于深度学习的视觉分析来编码多行人相互作用的耦合性质，开发了行人动力学的预测模型，以估计个体行为参数。我们专注于预测模型，因为它们对于开发交互式自主系统（例如自动驾驶汽车、家庭机器人、智能家居）非常重要，这些系统能够理解不同的人类行为并预先响应未来的人类动作。然而，构建多行人相互作用的预测模型非常具有挑战性，原因有两个：(1)相互作用的动力学是复杂的相互依赖过程，一个人的决策可能会影响其他人；(2)动力学是可变的，每个人的行为可能不同（例如，年长的人可能走得慢，而年轻人可能走得快）。我们通过利用博弈论的概念来建模多行人纠缠的决策过程，并使用视觉分类器将行人外观映射到行为参数。我们在几个公共多行人相互作用视频数据集上评估了我们提出的模型。结果显示，与最先进的活动预测方法相比，我们的战略规划模型在预测和解释人类相互作用方面提高了25%。01. 引言0本研究的目标是通过构建一个预测模型，考虑到复杂的推理，来模仿人类认知的预测能力，包括：(1)多个行人之间相互依赖的相互作用和(2)推断个体行为模式所需的重要视觉线索。考虑到从一张单一图片中预测多个行人的轨迹的复杂性，如图1所示，有四个行人在街上行走。给定这张单一图片，我们能预测他们未来的轨迹吗？一个简单的预测可能是所有人都会直线行走（即最短距离）到达目的地，如图1(b)所示。然而，这种策略可能会导致行人之间的碰撞。0�0(a) 输入图片 (b) 预测10(c) 预测2 (d) 我们的预测0图1.你能预测他们未来的行为吗？一张图片包含了关于未来轨迹的丰富信息。0（例如，年轻人（黄色）和年长夫妇（绿色）可能会发生碰撞）。一个更加周到的模型可能会考虑到一个或多个行人根据他们对其他行人的预测而改变他们的轨迹（图1(c)）。更进一步，一个更加明智的模型可能会考虑到老年夫妇通常以较慢的速度行走，而年轻人更有可能快速行走并采取预先的机动（图1(d)）。考虑到这些观察结果，我们可能会假设年轻人更有可能展示出预先避让行为，并穿过两个行人之间穿行。这个例子突出了在给定有限信息（在我们的场景中是一张单一图片）的情况下预测几个人的行走轨迹所涉及的复杂推理。我们的目标是在计算上模拟这种关于交互社会过程动态的推理能力。然而，开发用于人类交互动态的计算模型是一项极具挑战性的任务。这需要对人类交互的复杂和常常微妙的规范有深入的理解。先驱性的研究尝试通过使用社会力模型[13, 30]、势场模型[2]和流场模型[3,4]等来参数化人类行为。然而，这些研究大多数是在静态环境中进行长期预测。7750作用或短期预测在动态环境中。它们没有解决远期可能发生的相互作用，并且没有解决动态环境中的长期预测问题。为了解决多智能体未来预测的这些复杂性，我们提出了一种博弈论方法。我们使用多人博弈论的语言和概念直接解决人类相互作用的相互依赖性。特别地，我们利用Brown的[8]虚构游戏经典概念来模拟多个行人之间的相互作用。Brown的虚构游戏模型假设每个玩家将根据对其他玩家过去策略的观察经验分布来选择最佳的下一步行动。正如我们将展示的那样，多人博弈模型与多行人预测有很强的相似之处，因为每个行人都根据对其他行人移动方式的信念预先计划自己的路径。为了个性化行人模型，我们训练了一个基于深度学习的分类器，以学习与行为模式相关的视觉线索（例如，年龄可能影响速度）。我们使用该分类器根据子群统计数据估计每个行人的速度。此外，我们通过视觉估计初始身体方向，使模型更有可能预测与起始轨迹方向对齐的运动。通过这种方式，我们将视觉分析与我们的预测模型相结合。图2显示了我们方法的概述。贡献：我们提出了一种从单个图像中预测多行人轨迹的新技术。首先，我们通过建立博弈论和最优控制之间的联系，明确地建模了多个人之间的相互作用。据我们所知，虚构游戏从未应用于建模行人运动的背景中。其次，我们通过建立个性化的预测行人模型来解决人们之间的变异性。我们是第一个尝试从外观中推断每个行人的物理属性以进行多智能体预测的研究。02. 相关工作0人们对开发计算模型的兴趣越来越浓厚，这些模型可以外推未知信息并预测未来未观察到的活动[34, 38, 22, 33, 18, 42,40, 37, 15, 14, 16, 17, 35, 9, 49, 43, 36,32]。在行人动力学的背景下，Helbing和Molonar[13]首次将社会力模型的概念整合到计算框架中，用于理解行人动力学。他们的工作融合了目标、期望速度和社会力的排斥。在计算机视觉中，社会力模型已被用于帮助视觉跟踪[30]和异常检测[26]。最近的工作集中于通过观察人类行为（如运动模式）来发现潜在的势场[2]，相互0年轻的�老的�男性�女性�0个性化路径�博弈论路径�0? �0虚构游戏�0AlexNet � 提取视觉属性 � 从视频中计算统计数据 �0多智能体轨迹预测 �0图2.模型概述。个性化路径（顶部）根据视觉信息和视频统计数据估计每个行人的物理属性。博弈论路径（底部）以输入为：（1）估计的属性，（2）每个行人的个性化运动模型。输出是使用虚构游戏预测的多行人相互作用/轨迹。0凝视或排斥区域。在高密度人群中，人们的运动模式可以用来推断给定场景下的潜在流场[3,4]，而静止人群和行人之间的互动可以用来预测行人的未来运动[46]。稀疏人群的全局运动或共同关注（例如，体育场景）也可以用来推断吸引盆地或社会显著热点[19,29]。避让模式也可以用来学习物理空间的隐藏奖励或成本[21, 44, 41]。0为了对长期未来进行可靠的预测，许多技术通常假设环境是静态的[21,41]。在静态环境中，成本拓扑是恒定的，即环境和特征不会随时间变化。在动态环境中，状态空间的成本拓扑不断变化，这意味着任何计算模型都必须不断更新。当成本拓扑能够准确地随时间更新时，它可以用于短期预测[30, 11,20]（或至少直到下次更新）。因此，这些技术在跟踪多行人轨迹方面非常有效。虽然已经提出了在静态环境中进行长期预测和在动态环境中进行短期预测的方法，但在人类活动分析中，长期预测在动态环境中的任务相对较少研究，除了[1, 24,18]之外。与我们的工作同时进行，[1]引入了一种数据驱动的方法来隐式地编码人们之间的交互动力学。然而，他们的模型仅关注轨迹数据，忽略了视觉数据中的丰富信息。在[24,18]中，代理之间复杂而交织的相互作用要么被忽略[18]，要么仅限于单个代理的视角（仅在[24]中的广义接收器）。相比之下，我们直接使用虚拟游戏来处理人类交互的相互依赖性，并对场景中的所有代理进行长期预测。̸7760t = 3 t = 6 t = 9 t = 120黄色绿色红色0预测分布随时间增长0代理轮流进行预测0从 U(t)n 中采样0从 µ(t)¬n 中采样0n0n0图3. 左：三个行人的虚拟游戏可视化。右：从 U(t)n 和 µ(t)¬n 中采样的状态分布。03.多行人轨迹预测给定一张图像和初始行人检测结果，我们的目标是开发一个预测模型，可以为所有行人预测合理的未来轨迹。为了做到这一点，我们必须建模多个行人之间复杂的预测相互作用，同时考虑可能影响行为的个体差异，以获得准确的预测结果。为了解决这些挑战，我们利用博弈论的概念来建模错综复杂的交互预测过程。我们还利用深度神经网络的最新成功来从视觉证据中推断每个行人的个体行为模型。我们在第3.1节中描述了如何使用博弈论来构建我们的多行人预测问题，并在第3.4节中提出了一种将行人的视觉外观映射到估计个体行为参数的方法。符号表示。我们将状态空间（地面平面）定义为一个二维格子，其中每个位置用x= [x, y] ∈ X表示。行人可以通过采取动作a ∈A从一个状态转移到另一个状态，在二维格子（网格世界）中，动作是速度[˙x, ˙y]。轨迹是一系列的状态-动作对，s ={(x1, a1), ..., (xK,aK)}。每个状态x都有一个相关的特征向量f(x) = [f1(x) ...fJ(x)]，其中fj(x)表示该状态的属性，如视觉分类器的输出、到物体的距离或预测到另一个行人的存在。03.1. 使用虚拟游戏进行交互预测0博弈论[27]是一门广泛适用的学科，旨在模拟理性决策者之间的对抗性和合作性互动。它已应用于一系列学科，包括经济理论[31]、政治[7]和计算机科学[28]。更重要的是，它非常适合模拟我们的多行人预测问题。0场景中，避免碰撞的社交动力学可以建模为协作多人游戏。为了预测多个行人的长期轨迹，我们利用虚拟游戏（FP）[8]，其中我们模拟每个行人根据她对其他行人移动方式的预测来选择路径。通过使用该模型逐步向前模拟行人路径，我们可以获得可能未来多人路径的分布。0形式上，每个行人n∈{1，...，N}有能力从一组宏动作S中选择宏动作sn∈S。在我们的场景中，宏动作sn是一个非常短的轨迹，其长度Ln取决于行人n的速度（详见第3.4节）。每个行人都有一个效用函数Un[sn，µ¬n（s¬n）]，将给定的宏动作映射到一个值Un：sn→R。直观地说，效用函数Un描述了采取某条路径的奖励。如果碰撞的潜力较低，其效用将很高。请注意，Un还取决于所有其他行人的预测宏动作分布µ¬n（s¬n）。这是计算与其他行人的碰撞潜力所必需的。轨迹集合s¬n是所有其他行人的宏动作集合，s¬n={sm |m≠n}。我们在图3（右）中可视化从µ¬n中采样的状态分布。0Algorithm1描述了虚拟游戏的过程。对于每个预测期τ，每个行人n通过更新经验分布µ（t）¬ n使用函数U0TE E MPIRICAL。然后，将分布µ（t）¬n编码为社交特征f（t）n，soc，使用函数E NCODE T O FEA -TURE。第n个行人的效用函数根据这个新特征通过函数U P- DATE U TILITY进行更新。最后一步，使用函数T AKE MACRO A CTION预测行人的移动。̸̸̸7770Algorithm 2: E NCODE T O F EATURE0Input: Empirical distribution µ（t）¬ n，State visitationdistribution D（t−1）¬ n Output: Feature vector f（t）n，socf（t）n，soc = 0 for m = 1: N and m≠n do0D（t：t + Lm）m ← T AKE M ACRO ACTION（µ（t）m，D（t−1）m）¯ D m = � t + Lm l = tD（l）m f（t）n，soc = f（t）n，soc + ¯ D m end0Algorithm 3: T AKE M ACRO A CTION0Input: Empirical distribution µ（t）n，Prior state visitation distributionD（t−1）n Output: Future state visitation distributions D（t：t + Ln）n0π（a | x）← C OMPUTE POLI0D（l）n（x'） = � a，x P（x' | x，a）× π（a |x）D（l−1）（x）� x'0end0Algorithm 1: Multi-Pedestrian Fictitious Play0Input: Initial state x0，n � n，τ Output: Forecasted cumulativestate visitation distribution {¯Dn}D（0）n（x0，n）= 1 for all nfor t = τ: τ: T do0for n = 1: N do0µ（t）¬ n ← U PDATE E MPIRICAL（{µ（t−τ）m |m≠n}）（Eq. 1）0f（t）n，soc ← E NCODE T O FEATURE（µ（t）¬ n，D（t−τ）¬ n）（Alg. 2）0U（t）n ← U PDATE UTILITY（f（t）n，soc）（Eq. 2）0D（t：t + Ln）n ← T AKE M ACRO ACTION（U（t）n，D（t−τ）n）（Alg. 3）¯ D n = ¯ D n + � t +τ−1 l = t D（l）n end end0这个过程重复T个时间步骤。U PDATE EMPIRICAL。在虚拟游戏的假设下，对手宏动作的经验分布µ¬n（s¬n）通常通过计算每个玩家选择每个宏动作的次数来计算。在我们的情况下，我们需要描述一组轨迹的分布，因此我们使用参数化形式的经验分布（即最大熵分布）。所有其他行人的宏动作的经验分布被分解为每个行人的分布的乘积µ¬n（s¬n）∝�0m≠nµm（sm）。每个分布都由最大熵概率（也称为Boltzmann或Gibbs）分布参数化，0µm（sm）∝ex0x ∈ smθ�f m（x），（1）0其中fm（x）是行人m在轨迹sm上状态x的特征，由参数向量θ加权。我们将在第3.2节中解释如何从演示的行人行为数据集中学习经验分布的参数θ。编码为特征。该函数将µ（t）¬n映射到特征向量f（t）n，soc。直观地说，该函数预测了其他所有行人在接下来的几个时间步骤中的移动方式，并将该预测分布转换为状态特征。0对于每个行人m，我们计算他们的状态访问分布D（t：t+Lm）m，该分布描述了行人m在某个时间步骤的某个位置的可能性。然后将所有其他行人的状态访问分布¯D¬n相加，以生成状态特征f（t）n，soc。更新效用。为了预测每个行人在一系列时间步骤中的移动方式，并计算这些预测将如何影响其他行人的预测，我们需要为每个行人n使用一个时变的效用函数。0U（t）n[sn，µ（t）¬n（s¬n）]∝0x ∈ snθ�f（t）n（x）。（2）0注意，效用函数也是最大熵分布，其中所有其他行人的经验分布µ（t）¬n（s¬n）通过特征向量f（t）n（x）被纳入（详见第3.3节）。效用函数每τ个时间步骤更新一次，每个行人预测其他人的移动频率。从Un中采样的状态分布在图3（右侧）中示例。在这一点上，将效用函数U与经验分布µ联系起来非常重要。在我们的公式中，Um与µm（sm）完全等价。一般来说，U不必是概率分布，因为它仅仅描述了一种宏动作相对于另一种宏动作的价值（奖励）。相反，经验分布µ是通过构造成为概率分布，并描述了对手可能采取的宏动作。更重要的是，效用函数U帮助我们理解行人n的预测路径对所有其他行人¬n的预测路径的依赖关系。当我们使用效用函数来预测单个代理的路径时，该预测会影响所有其他预测的路径。这种预测路径之间的相互作用正是我们要建模的。采取宏动作。该函数接受当前的经验分布µ（t）n和先前的状态访问分布D（t-1）n，计算未来的状态访问分布D（t：t+Ln）n。直观地说，该函数向前模拟行人运动Ln步。为了计算未来的状态访问分布D（t：t+Ln）n，需要一个策略P(s; θ) =1Z(θ) exp�x∈sθ⊤f(x),(3)+＝f (t)n,soc(x)7780π首先是从经验分布中推导出来的（这个过程在第3.2节中描述）。使用该策略，我们迭代计算先前状态分布D（t-1）n（x）在接下来的Ln个时间步骤内的变化。作为一个更具体的例子，图3说明了我们如何使用虚构博弈来模拟三个行人之间的互动。这三个行人分别以红色、绿色和黄色表示，依次根据µn（s¬n）预测其他人的宏动作，然后选择最大化自己效用函数的宏动作。每个行人的预测状态访问分布¯Dn（在第3.3节中详细描述）用相应的颜色表示，并随时间逐渐增长。03.2. 决策论行人模型0现在我们解释如何学习最大熵分布，该分布用于效用函数Un 和独立经验分布µm。正如我们之前提到的，生成轨迹s的概率被建模为来自最大熵分布，其中概率与轨迹上遇到的加权特征的指数和成正比，0其中 Z 是归一化函数（或分区函数），θ 是参数向量，f ( x )是状态 x处的特征向量。为了从一组示范的行人轨迹中学习该模型的参数θ，我们利用最大熵逆优化控制[48]。我们首先假设每个行人都是理性的代理人，并根据潜在的马尔可夫决策过程（MDP）规划路径。描述行人 n 的 MDP 由初始状态分布 P n ( x 0 )，转移模型 P n ( x ′ | x , a ) 和奖励函数 R ( t ) n ( x )定义。根据[21]，奖励函数进一步定义为特征的加权组合，R ( t) n ( x ) = θ � f ( t ) n ( x )。然而，我们的奖励函数 R ( t ) n (x ) 是时间索引的，因为特征向量 f ( t ) n ( x )将用于编码其他行人预测行为的变化信息。使用最大熵逆优化控制[48]来学习参数θ，我们实现了一个梯度下降过程，首先根据当前估计的θ计算策略 π ( a | s ; θ)。然后，我们使用估计的累积特征计数与示范轨迹上的经验累积特征计数之间的差异计算梯度更新。当由 MDP模型生成的轨迹上累积的特征收敛到与训练数据的经验特征计数类似的值时，算法获得了一组最优参数ˆθ，这将用于定义经验分布 µ。最大熵分布 P ( s ; θ )的最优策略可以计算为 π ( a | s ) = exp { Q ( x , a ) − V ( x )}，其中状态-动作软值函数 Q ( x , a ) 和状态软值函数 V ( x )可以通过迭代软最大 Bellman 更新方程计算：Q ( x , a ) = θ �f ( x ) + E P ( x ′ | x,a ) [ V ( x ′ )] 和 V ( x ) = softmax a Q( x , a)。我们将此过程称为算法2中的计算策略。请注意，在我们的场景中，策略是时变的，因为状态的特征随时间变化。因此，每个行人的策略必须在特征更新时重新计算，即每个预测周期τ。0预测占用地图由左下角的年轻人生成。0社交合规性0图4.绿色框演示了行人如何对其他人的信念进行建模，并将这些信息编码到社交合规性特征 f ( t ) n,soc ( x ) 中。红色表示高回报，蓝色表示低回报。0表示低回报。0（即在最大熵分布下的似然性最大化），算法获得了一组最优参数ˆ θ，这将用于定义经验分布 µ。最大熵分布 P ( s ; θ) 的最优策略可以计算为 π ( a | s ) = exp { Q ( x , a ) − V( x ) }，其中状态-动作软值函数 Q ( x , a ) 和状态软值函数V ( x ) 可以通过迭代软最大 Bellman 更新方程计算：Q ( x, a ) = θ � f ( x ) + E P ( x ′ | x,a ) [ V ( x ′ )] 和 V ( x )= softmax a Q ( x , a)。我们将此过程称为算法2中的计算策略。请注意，在我们的场景中，策略是时变的，因为状态的特征随时间变化。因此，每个行人的策略必须在特征更新时重新计算，即每个预测周期τ。03.3. 预测功能0在本节中，我们首先展示了如何使用策略来设计时间相关的社交合规性特征 f ( t )n,soc，该特征通过将所有其他代理人的轨迹的经验分布 µ (t ) n ( s ¬ n )编码到其中。然后，我们在之前的工作[21]的基础上引入了语义场景特征，这些特征将考虑到场景的物理布局，因为理性的代理人在规划未来轨迹时会考虑到这一点。最后，我们估计每个代理人的初始身体方向，以鼓励与身体方向一致的预测。社交合规性特征：给定策略 π ( a | x)，我们可以通过递归计算来生成行人 n 的状态访问分布 Dn，该分布用于长度为 L n 的轨迹：0D(l)n(x′)=�0a,xP(x′|x,a)π(a|x)D(l−1)n(x),(4)0其中D(0)n(x)需要初始化为起始位置的分布。由于D(l)n(x)定义在整个状态空间上，它的大小与状态空间相同。我们可以随时间对访问计数进行求和，¯Dn(x)=�0lD(l)n(x)生成一个状态的累积分布。累积状态访问分布¯Dn(x)表示从经验分布µn(sn)中采样时行人n可能占据的状态。通过聚合除n以外的所有行人的累积访问分布，̸7790我们可以获得环境中所有行人的预测占0m≠n¯Dm(x)，它0我们将使用它来形成我们的社交遵从特征 f ( l )n,soc。形式上，这个数量编码了传递给效用函数（方程2）的经验分布µ¬n(s¬n)。该过程在算法2中总结。更直观地说，这个数量描述了一个社交力场。基于Helbing和Molonar的社交力模型[13]，我们定义了几个社交距离特征，将不同大小的力场放置在环境中所有其他行人的预测轨迹周围。特别地，我们定义了三个不同大小的力场，大致对应于霍尔的人际距离区域[12]，以编码人们在拥挤场景中行走时可能保持的一系列物理距离。请注意，社交遵从特征f(t)soc(x)是按时间索引的，因为其他行人的预测路径随时间变化。有趣的是，尽管我们没有像[45]那样明确地对其进行建模，但我们的特征自然地支持群体行为分析。当对所有其他行人的累积分布求和时，附近群体的状态将具有较大的访问计数（即更有可能被占用），从而导致碰撞风险更高的区域。图4显示了一个情况，其中夫妇前面的区域是一个高潜在碰撞区域，因此具有较低的奖励。邻近占用：这个特征是对某个状态周围的局部邻域中障碍物数量的测量。我们计算在一个5×5的网格中标记为障碍物的像素数，并对其进行归一化，以提供状态是否是障碍物的软估计。该特征编码了行人在场景中靠近静态物体的程度。邻近占用特征被表示为focc(x)，由于我们假设场景的几何形状是静态的，因此它不随时间变化。距离目标：特征fdog(x)通过计算状态x与目标xg之间的欧氏距离来捕捉行人迅速接近目标的愿望。身体方向：由于行人的身体方向是她将要行走的方向的强烈线索[10]，我们训练了一个CNN（在第3.4节中详细描述）来预测行人的初始行走方向。我们使用以当前行人位置为中心的8个相邻邻居的余弦距离减去一的值。该值在预测速度方向的方向上最大（0），在相反方向上最小（-2）。身体方向特征被表示为fbod(x)。03.4.从外观中获取行走特征0通过允许模型基于外观为每个行人维护个性化的行走模型，我们进一步增强了我们的多行人框架的预测能力。在本节中，我们专注于传达关于每个个体如何行走的显著线索的视觉信息。0市中心数据集Zara数据集LIDAR轨迹数据集0图5. 我们在实验中使用的数据集概述。0例如，当我们在人群中行走时，一个人的初始身体方向可能告诉我们他可能会走哪个方向。我们还可以进行高级视觉推断，预测老年夫妇可能走得慢，年轻商人可能走得快。我们提出使用视觉分类器来识别行人的各种属性，然后将这些属性映射到行走方向和速度。为了从行人的视觉外观中提取属性，我们使用深度学习模型。具体而言，我们采用类似于[23]的网络结构，但修改顶层以生成三个分类输出：（1）年龄（老或年轻），（2）性别（男或女）和（3）身体方向（8个离散方向）。我们同时训练所有三个顶层分类器，因为先前的研究表明多任务学习有助于约束参数学习[39，47]。预测的身体方向用于生成第3.3节中提到的身体方向特征，而年龄和性别分类器的输出用于构建个性化的行人模型。具体而言，我们使用年龄和性别分类器的软概率输出来估计个性化的速度参数。对于每个行人n，我们计算个体速度vn作为性别和年龄速度平均值的加权平均值，即vn =Σawavstatsa，其中a∈{male，female，old，elder}表示属性，wa表示来自深度网络的softmax输出，vstatsa表示具有属性a的行人的平均速度。然后，将个性化速度vn乘以预测窗口大小W，即Ln = W ×vn。请记住，Ln是宏动作sn的长度，vn表示速度，W可以解释为预测其他人未来多少个时间步骤。通常情况下，给定固定的W，行人行走得越快，他的占用地图¯Dn = Σt+W�vnl=tD(l)n可能越大。我们注意到，当速度信息不可用时，我们为每个行人使用恒定速度C，即Ln = W × C�n。我们还尝试直接从外观回归速度，但在实践中，深度网络无法学习具有区分性的特征进行直接回归。04.实验我们从各个方面分析我们的模型。首先，我们假设目的地已知，以评估我们的预测性能。为了验证我们的模型在真实世界中的有效性，我们随后进行了未受限制的实验，目标未知。7800NLL nMDP[21] MDPCV mTA[30] FP FP + Speed0Zara [25] 46.5396 46.9549 43.3834 42.1426 -0Town Centre [5] 14.4797 14.4011 14.2471 12.5804 10.8920LIDAR轨迹 92.5579 93.1747 91.9748 87.4680 -0Zara（无目标）[25] 98.7343 97.6634 92.8271 88.5693 -0Town Centre（无目标）[5] 33.8454 33.3213 31.5433 27.5732 27.21360LIDAR轨迹（无目标）173.643 175.384 169.782 161.338 -0SCR nMDP[21] MDPCV mTA[30] FP FP + Speed0Zara [25] 0.144 0.114 0.065 0.013 -0Town Centre [5] 0.215 0.213 0.120 0.052 0.0490LIDAR轨迹 0.133 0.105 0.056 0.009 -0Zara（无目标）[25] 0.186 0.175 0.095 0.021 -0Town Centre（无目标）[5] 0.323 0.281 0.170 0.093 0.0660LIDAR轨迹（无目标）0.197 0.173 0.082 0.022 -0表1. 不同方法之间的比较分析。较小的值表示更好。0我们在三个不同的行人交互数据集上评估我们的模型：Zara数据集[25]，TownCentre数据集[5]和LIDAR轨迹数据集。前两个数据集代表了具有非线性轨迹的真实世界拥挤环境。为了展示我们的模型也可以处理其他类型的轨迹数据，我们进一步收集了一个基于LIDAR的轨迹数据集，包含20个交互轨迹。被试者在一个小房间（7m×7m）中的各个起始位置初始化，并被引导向一个目标位置行走，而不与场景中的其他行人发生碰撞。我们在图5中展示了每个数据集的样本。04.1. 指标和基线0负对数损失（NLL）。负对数损失计算绘制示范轨迹的可能0t logπ（t）（a（t）|x（t）），其中轨迹s是状态-动作对（x，a）的序列。状态碰撞率（SCR）。虽然NLL适用于评估单个代理的预测结果，但在多代理预测情况下，它并不明确惩罚碰撞的预测路径。为了编码未来碰撞的概念，我们定义状态碰撞率SCR = �0nD（t）n（x），其中n表示行人ID，D（t）n（x）表示在时间t处于状态x的预期状态访问计数，即在特定时间处于特定状态的概率。通过考虑多个行人的分布并将它们的并集纳入考虑，所有代理的结果状态访问计数表示碰撞区域。我们与以下三个基线进行比较：N-IndependentMDP（nMDP）。这个基线模型是[48]中的方法应用于图像以预测单个行人的轨迹[21]。将他们的方法扩展到我们的多代理场景，我们使用N个实例化的MDP模型并并行运行它们。MDP + ConstantVelocity（MDPCV）。第二个基线模型是独立MDP模型的修改，但在奖励函数中添加了碰撞区域特征。通过假设恒定速度，我们可以计算碰撞区域（即线性运动模型的交叉区域）并使用与邻域占用特征相同的方式进行编码。mTA。基于Pellegrini等人的工作[30]，第三种方法是修改的轨迹避免（mTA）模型。在[30]中，每个代理在每个时间步选择最小化其能量函数的速度。作为MDP来表达，这对应于仅使用常数0年轻老年男性女性0平均速度（网格/帧）1.98 1.25 1.78 1.530年龄性别身体方向0准确率82 . 31% 78 . 44% 65 . 60%0表2.顶部：具有不同视觉属性的人的平均速度。底部：视觉行人分类的准确性。0特征。至于建模社会力特征（例如，代理之间的舒适距离），我们使用第3.3节中描述的社会遵从特征。我们在这里强调，这个基线模型比[30]中描述的原始模型信息更少，因为每个代理都知道其他人的位置和速度。这些信息在我们的问题设置中不可用（即单个图像输入）。04.2. 多行人预测性能为了正确评估我们提出的方法，我们仅将我们的方法应用于展示战略推理的轨迹序列，其中多个行人在行走时积极避免彼此。我们从每个数据集[25]和[5]中获取16个多行人轨迹序列1。我们在这里强调，我们不使用单个行人直线行走的轨迹，因为通过添加更多这些“简单”示例可以人为增加性能。我们使用5折交叉验证计算指标。预测窗口大小设置为W= 3，预测周期设置为τ =1。这两个参数通过网格搜索找到，详细分析可以在补充材料中找到。结果总结在表1中。我们观察到，我们基于虚构博弈的方法在NLL和SCR方面优于所有三种方法。这表明我们的迭代预测和规划过程更好地预测人类互动，并生成最多无碰撞轨迹。我们还使用第3.4节中提到的方法将速度信息纳入我们的模型。我们评估了速度信息对TownCentre数据集的有效性，因为Zara数据集的分辨率太低，无法提取视觉特征，而基于LIDAR的轨迹数据集不提供任何视觉特征。我们从TownCentre数据集[5]中收集了约16K个行人补丁，每个补丁有三个标签，即年龄、性别和身体方向。图像按行人分成相应的5折。我们使用第3.4节中的网络结构训练了一个深度分类器。性能如表2（底部）所示。我们还计算了来自0有关我们如何选择轨迹以及原始数据集上的结果的更多详细信息，请参阅补充材料。foccfdogfbodfsocnMDP[21]MDPCVmTA[30]FPFP + SpeedNLL✓✓14.4814.4014.4814.4814.48✓✓✓14.4514.3314.4514.4514.45✓✓✓14.4814.4014.2912.6511.01✓✓✓✓14.4514.3314.2512.5810.89foccfdogfbodfsocnMDP[21]MDPCVmTA[30]FPFP + SpeedSCR✓✓0.2150.1830.2150.2150.215✓✓✓0.2110.1750.2110.2110.211✓✓✓0.2150.1830.1290.0460.044✓✓✓✓0.2110.1750.1200.0430.039social compliant feature), our proposed model reduces tonMDP. We emphasize that with the inclusion of the socialcompliance feature, our proposed models better explains theinteractions between multiple pedestrians. The FP+Speedmodel attains a NLL of 10.892 compared to the next bestperforming model mTA at 14.247, resulting in a 23.5% im-provement in the NLL.5. ConclusionWe present a novel framework to forecast multi-pedestrian trajectories from a single image by directly mod-eling the interplay between multiple people using conceptsfrom game theory and optimal control. We also developvarious predictive models to show how different modes ofinformation help to reason about the future actions of multi-pedestrian scenarios. By building individualized pedestrianmodels for each person based on his visual appearance, wegenerate more accurate prediction of multi-pedestrian inter-actions. We have compared our Fictitious Play based ap-proach with other state-of-the-art algorithms. Our evalua-tion on multiple pedestrian interaction datasets has shownthat our proposed approach is able to attain more accuratelong-term predictions of pedestrian activity.7810图6.预防性避碰的多智能体预测示例。每个行人都用彩色边界框标记，相应的预测分布与相同颜色一致。请注意，我们考虑所有行人进行定量实验，但仅可视化有限数量的行人的预测分布以改善可视化效果。0视频（见表2（顶部））。使用速度统计和深度网络模型的输出，我们可以为每个行人计算个性化模型。如预期，表1显示，考虑到行人的视觉外观并个性化预测模型后，我们的模型表现更好。图6显示了预测轨迹的选定定性结果。放松目标约束。为了表明我们的模型也适用于在真实工作环境中，行人的最终目的地未知且需要推断的情况下，我们遵循[21]在地图上密集生成潜在目标并进行相同的预测实验。表1中标记为no-dest的结果显示，即使事先不知道目的地，我们基于FP的方法仍然始终优于其他方法，因为它模拟了相互作用和视觉证据。所有模型的绝对性能都会因目标不确定性而降低。 4.3.特征分析我们进一步评估了我们提出的模型中使用的特征的效果。使用不同特征的TownCentre数据集的平均NLL和SCR显示在表3中（其他数据集的结果可以在补充材料中找到）。我们将预测窗口大小W =3和预测周期τ =1设置为之前的值。其他方法的性能也显示在表中供参考。请注意，即使勾选了社交合规特征，nMDP和MDPCV仍然只考虑场景特征和身体方向特征，因为它们无法处理环境中的动态变化。当仅考虑语义场景特征和身体方向特征时，我们的模型与nMDP的性能相同。这个结果是预期的，因为没有社交合规特征可以改变随时间变化的成本拓扑。如果只有一个智能体（这意味着没有社交合规特征），我们提出的模型将简化为nMDP。我们强调，通过包含社交合规特征，我们的模型更好地解释了多个行人之间的相互作用。FP +Speed模型的NLL为10.892，而下一个表现最佳的模型mTA为14.247，NLL提高了23.5％。5.结论我们提出了一种新颖的框架，通过直接建模多人之间的相互作用，使用博弈论和最优控制的概念，从单个图像中预测多人轨迹。我们还开发了各种预测模型，以展示不同信息模式如何帮助推理多人行为的未来动作。通过基于行人的视觉外观构建个性化的行人模型，我们生成了更准确的多人行人相互作用预测。我们将我们的虚构游戏方法与其他最先进的算法进行了比较。我们对多个行人交互数据集的评估表明，我们提出的方法能够更准确地预测行人活动的长期情况。0表3. 每个特征对我们模型的贡献。0

下载后可阅读完整内容，剩余1页未读，立即下载