基于图的空间变换器与记忆重播用于多个未来行人轨迹预测

98 浏览量更新于2023-10-26 收藏 15.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

(b)(d)in a scene also affect the future paths, as pedestrians tendto avoid obstacles (e.g., street lamps, trees, vehicles) or un-necessary change of paths (e.g., walk from the pavement tothe middle of the road). However, reactions to spatial in-teractions may also undermine the original intentions basedon temporal information. Even if both of them are properlyprocessed, it is still a conundrum to predict spatially reason-able trajectories while conforming to temporal consistency.22310基于图的空间变换器与记忆重播用于多个未来行人轨迹预测0Lihuan Li 1 Maurice Pagnucco 1 Yang Song 101 澳大利亚新南威尔士大学0lihuanli80@gmail.com { morri,yang.song1 } @unsw.edu.au0摘要0行人轨迹预测是自动驾驶和机器人运动规划等各种实际应用中的一项重要而具有挑战性的任务。除了生成单一未来路径外，预测多个合理的未来路径在轨迹预测的一些最新工作中变得流行起来。然而，现有方法通常强调行人与周围区域的空间交互作用，但忽视了预测的平滑性和时间一致性。我们的模型旨在通过建模多尺度基于图的空间变换器和一种名为“记忆重播”的轨迹平滑算法，利用记忆图来预测基于历史轨迹的多条路径。我们的方法可以全面利用空间信息，并纠正时间上不一致的轨迹（例如，急转弯）。我们还提出了一种新的评估指标“轨迹使用百分比”，用于评估多个未来预测的综合性。我们的广泛实验证明，所提出的模型在多个未来预测方面达到了最先进的性能，并在单一未来预测方面取得了竞争性的结果。代码发布在https://github.com/Jacobieee/ST-MR。01. 引言0轨迹预测是社会行为分析的重要组成部分，适用于自动驾驶[5,49]、运动跟踪[28,34]和机器人系统[33]等各种应用。这些任务需要对视频和人类社会行为进行高级理解，以根据观察到的轨迹和场景精确预测行人的未来位置。轨迹预测需要同时处理空间和时间信息。虽然行走路径自然地表现出时间上的一致性，但模拟行人之间的空间交互作用（如交谈、聚集和避免碰撞）也很重要。场景中的其他物体也会影响未来路径，因为行人倾向于避开障碍物（如路灯、树木、车辆）或不必要的路径变化（如从人行道走到马路中央）。然而，对空间交互作用的反应也可能削弱基于时间信息的原始意图。即使两者都被正确处理，预测空间上合理的轨迹并符合时间一致性仍然是一个难题。0(a)0(c)0图1.多个未来轨迹预测和现有问题的示意图。黄色和绿色线条是观察到的和真实轨迹。(a)受不同意图和目的地影响的多个未来轨迹(红色箭头)。(b)指向同一目的地的多个路径选项(橙色箭头)。(c)Multi-verse[24]中的一个不完美的预测(带有热图)，穿过了一辆车。(d)Multi-verse[24]中的一个不完美的预测(带有红色圆圈的热图)，违反了时间一致性。0现实世界的数据集[2, 19,30]已经促进了轨迹预测的研究，当前的方法[11,25]在单一未来轨迹预测方面取得了很大进展，其中预测的轨迹与视频中记录的真实轨迹进行了评估。然而，人类的思维是多变的，现实情况是复杂的。给定一个观察到的轨迹，可能存在多个不同的目的地和多个合理的未来轨迹。图1(a)演示了多个意图的情况。22320起点和终点可以驱使底部的行人走不同的路径。图1(b)显示行人可以选择不同的路径到达相同的目的地。为了评估生成多个可能轨迹的模型，Liang等人最近提出了一个名为“ForkingPaths”的模拟数据集，为相同的历史轨迹提供了多个地面真实轨迹。在同一工作中，设计了一个名为“Multiverse”的两阶段端到端概率模型用于多个未来轨迹预测。然而，该模型仍然存在一些问题。例如，图1(c)显示了通过车辆的路径；图1(d)是一个违反人类运动正常模式的例子，具有急转弯。在本文中，我们提出了一个编码器-解码器网络来解决上述问题。为了有效处理空间信息，我们首先构建一个多尺度图来表示场景分割和轨迹特征。然后，我们设计了一个基于图的空间变换器，学习行人与其他行人以及场景对象之间的交互。此外，为了整合全局时间信息，我们开发了一种“MemoryReplay”算法，利用内存图来累积时间信息，并在每个时间步骤将其“回放”到变换器中，以确保轨迹的平滑性。此外，我们提出了一种新的评估指标“轨迹使用百分比”，用于评估多个未来预测的全面性，以补充[24]中现有的minADEK和minFDE K指标。我们展示了我们的模型在ForkingPaths数据集上实现了最先进的多个未来预测性能；我们在单个未来预测上的结果与VIRAT/ActEV[2]数据集上的当前最先进模型相当。我们总结我们的主要贡献如下：01.我们提出了一种基于图的空间变换器，用于行人的空间交互。通过整合注意机制和图结构，空间变换器可以全面生成和聚合空间特征。02. 我们设计了一种新颖的轨迹平滑算法，MemoryReplay，用于改善预测轨迹的时间一致性，减少空间和时间信息之间的冲突。03.我们定义了一个新的评估指标，轨迹使用百分比（PTU），用于评估多个未来预测的全面性。02. 相关工作0行人轨迹预测。已经有各种方法旨在预测多个可能的未来轨迹。最近的方法[11, 18,35]应用生成对抗网络（GANs）生成轨迹的分布。0轨迹。逆强化学习（IRL）[7, 17,27]在多个未来轨迹预测任务中也越来越受欢迎。此外，多个轨迹的预测正在车辆轨迹预测[5, 22, 37,49]中出现。然而，这些方法都是使用单个未来轨迹进行评估，因为地面真实轨迹只包含每个行人的一条路径。目前，Multiverse模型[24]在新的3D模拟数据集ForkingPaths上实现了最先进的性能，该数据集是专门设计用于评估多个未来轨迹的生成的第一个公共基准。我们的模型在ForkingPaths数据集上的多个未来轨迹预测方面优于Multiverse。基于GNN的模型。近年来，图神经网络（GNNs）变得越来越流行。传统的GNN模型，如图卷积网络（GCN）[16]，GraphSAGE[13]和图注意力网络（GAT）[39]在姿态估计[44,51]，全景分割[42]，点云分析[50]等计算机视觉任务中被广泛使用。对于行人轨迹预测，Sun等人[36]根据社会学家的注释构建了基于GCN的递归社交行为图（RSBG）。STGAT[14]模拟了一个时空图注意力网络来编码行人的交互。其他工作[12, 15, 29,48]也对GNN进行了改进，以贡献于行人轨迹预测。我们构建了一个多尺度图，用于建模行人与多个尺度的周围区域之间的交互。基于Transformer的方法。基于Transformer的方法[38]在深度学习任务中成为一种趋势。它首先在自然语言处理[8, 31, 40]中使用，然后在计算机视觉[4, 9, 10,53]中蓬勃发展。建模空间和时间Transformer [45,52]可以与传统的序列到序列模型竞争甚至超越其在轨迹预测中的效果，展示了它们在复杂的时空特征处理中的有效性。其他方法[3, 20,47]也插入了基于Transformer的模块，并在行人和车辆轨迹预测上取得了高性能。我们设计了一个新颖的基于图的空间变换器，其中包含基于注意力的消息生成和基于GAT的聚合方法，以有效地收集和处理空间信息。03. 方法03.1. 概述0给定一系列场景语义分割图 S = S1, S2, ..., STobs和时间1:Tobs内行人的位置X = (x1, y1), (x2, y2), ...,(xTobs, yTobs)，我们的模型旨在通过学习和推断P(ˆY | S,X)来预测多个可能的未来轨迹，其中第i个行人的预测表示为ˆYi = (ˆxi t, ˆyi t)，t = Tobs+1:Tpred。22330图2显示了我们模型的概述。图形编码器和位置编码器分别对多尺度图形处理的节点级和坐标级特征进行编码。在解码的每个时间步骤中，我们提出的基于图形的空间变换器推断下一步的可能邻近位置。然后，我们的轨迹平滑算法根据存储了先前轨迹的时间信息的内存图对违反时间一致性的位置进行平滑和修正。0图2显示了我们提出的模型的整体结构。我们的模型将观察期间的观察轨迹 X 和场景分割 S作为输入。构建了一个多尺度图形，它是一个二维网格，网格单元的区域随不同尺度而变化。每个网格单元包含场景分割和轨迹信息的子区域。经过多尺度图形处理的输入被传入编码器-解码器网络以生成未来的轨迹。编码器对行人的运动模式以及随时间变化的场景特征进行编码。解码器由两个主要组件组成：基于多尺度图形的空间变换器和一个名为“MemoryReplay”的轨迹平滑算法。空间变换器处理信息并预测下一步的位置。MemoryReplay通过读写包含解码轨迹的整体时间信息的内存图来平滑预测。在每个时间步骤，解码器使用这两个组件生成下一个时间步骤的位置的概率分布，然后使用卷积LSTM单元[43]通过多样化的波束搜索[21]确定我们在每个时间步骤选择的最有可能的位置。03.2. 多尺度图形生成0我们将视频帧表示为一个带有节点集合 V 和边集合 E 的图G(V,E)。具体来说，我们使用一个二维规则网格将帧分割成多个区域，其中每个区域可以被视为一个节点 v ∈V，与相邻节点通过一个无向边 e ∈ E相连。每个网格单元可以与水平、垂直和对角邻居建立连接。受到特征金字塔的启发，我们设计了不同尺度的图形来处理多层次的空间信息。有两个与[24]中相同的网格尺度，因此节点的数量可以是36×18和18×9。0我们的实现与特征金字塔不同，我们改变节点中包含的特征数量而不是调整整个图像（视频帧）的大小。较大尺度的节点具有较少但更精细的特征，较小尺度的节点具有较多但更粗糙的特征。通过在多尺度图形上进行学习，我们的模型可以更适应不同级别的信息，并根据行人周围区域做出综合决策。03.3. 时空编码器0受到最近的研究[24,32]的启发，我们提出了两种类型的轨迹编码器：图形编码器和位置编码器。在每个图形尺度上，图形编码器对节点级特征进行编码，该特征是当前位置所属网格单元的索引，而位置编码器记录了相对于节点所覆盖区域中心的具体坐标偏移量。这两个编码的隐藏状态分别传递给解码器。与最近的方法[1, 11,36]不同，这些方法在场景中对所有行人的运动进行建模以丰富空间特征，我们利用卷积LSTM[43]同时编码空间和时间特征：0H(g)Gt = ConvLSTM(gGt, H(g)Gt−1) (1)0H(l)Gt = ConvLSTM(lGt, H(l)Gt−1) (2)0这里分别表示图编码器和位置编码器在时间t时的图G的隐藏状态。由于编码器和解码器中的后续过程都以相同的方式对这两个隐藏状态进行操作，我们将这两个隐藏状态统称为HGt。为了在图G的图编码器中嵌入行人位置(xt,yt)，我们采用了一个独热编码乘以场景分割图：0gGt = one-hot(idx(xt, yt)G) ⊙ SGt (3)M GAttn[i←j] = f GV [i] ⊙ (f GQ[i]||f22340其中idx()函数将坐标转换为G中网格单元的索引。然后，one-hot函数将索引单元投影到图上相应的位置。对于位置编码器，我们还计算了从索引单元中心到偏移量的值：0lGt = x′Gt, y′Gt = (xt, yt) − C(idx(xt, yt)G) (4)0其中C()函数获取索引单元的中心坐标。偏移量(x′Gt,y′Gt)可以通过将该中心坐标从实际坐标(xt,yt)中减去来计算。我们将这个偏移坐标表示为lGt。在完成编码后，我们保留时间Tobs时的隐藏状态HGTobs。根据[24]的方法，我们还计算了语义分割图的平均值¯SG = 10Tobs ≤ Tobs t=1SGt，并构造传递到解码器的隐藏状态，图G的规模为G：0HGTobs = (HGTobs || ¯SG) (5)0其中||表示连接。场景分割图为行人提供了对场景中每个对象的内容和位置的认知，有助于对人与场景的相互作用进行建模。03.4. 基于图的空间变换器0尽管RNN模型通常用于处理序列预测任务[14]，但它们在收集一个人附近的信息方面存在局限性。最近，[20,52]通过在空间和时间上利用注意机制取得了一些轨迹预测方面的进展。[14]采用GAT模型来建模人与人之间的关系。然而，与ETH[30]和UCY[19]数据集中拥挤场景相比，VIRAT/ActEV和Forking Paths数据集[2,24]中的大多数场景中行人较少，而与场景对象的空间交互也很重要。因此，我们设计了一种基于图的空间变换器，以有效地建模人与场景以及人与人之间的关系，并利用场景语义分割特征的帮助。该变换器将图结构编码的隐藏状态HGTobs（参见公式（5））作为输入节点状态。我们使用注意机制为所有节点对生成消息，并通过图结构对它们进行聚合。最终，变换器将产生一组更新后的节点状态，指示下一个时间步的可能位置。基于注意力的消息生成。我们从节点vj到节点vi生成两种类型的消息：注意力消息和全局消息。为了提取行人与邻近区域之间的相互作用，我们首先生成一个注意力消息：0K[j]) + �bG (6)0其中MgAttn是包含所有消息的矩阵0图中节点对G的规模进行了配对。我们从图结构的隐藏状态HGTobs中学习查询矩阵fGQ、键矩阵fGK和值矩阵fGV。受GAT的启发，我们将查询矩阵和键矩阵的转置连接起来，为计算每个节点对vi和vj的注意力值创建一个条目。然后，我们通过在连接矩阵和值矩阵之间进行逐元素乘法并添加偏置向量bG来为每个条目分配重要性值。我们将从节点vj到节点vi的消息表示为MGAttn[i←j]。空间变换器同时适应了自注意机制和图结构的优势，使行人能够对邻近区域赋予不同的重要性。然而，远距离的物体（例如人、车辆、障碍物）在轨迹规划中也提供了重要的空间上下文。因此，我们还计算了每个节点对vi和vj之间的相似度得分作为全局消息：0M G global[i←j] = �h G i �h G T j (7)0其中 M G global[i←j] 估计隐藏空间中节点 v i 和 v j的特征之间的距离。最后，我们通过将这两种类型的消息相加，得到从节点 v j 传递到节点 v i 的总消息：0M G[i←j] = M G Attn[i←j] ⊕ M G global[i←j]0其中 ⊕是逐元素相加。总消息包括来自邻居节点的唯一信息和来自全局视图的相似性估计。节点状态的更新。为了更新节点状态，我们首先根据公式（8）计算边权重：0e G[i←j] = 0�0k ∈N G i exp(M G[i←k]) (9)0其中，计算的边权重 e G[i←j] 通过 softmax函数进行归一化，节点 k 属于节点 i的邻居。为了更新新的节点状态，我们将计算的边权重与前一个时间步的节点状态进行简单的点乘运算：0� H G t(i) = e G[i←j] h G i (10)0其中，� H G t 是所有节点的计算节点状态。时间步 t的输出和时间步 t+1 的新隐藏状态由以下公式生成：0ˆP G t = σ(δ1(H G t)) (11)0H G t+1 = ConvLSTM(δ1(H G t), δ2(ˆP G t))0其中 ˆP G t 是时间 t 的预测。对于每个节点 v i ，ˆP G t(i)可以被视为概率（如果输入来自图编码器）或者是相对于节点 v i中心的坐标值偏移量（如果输入来自位置编码器）。时间 t的输出将成为时间 t+1的输入，并传递到更新后的节点状态的卷积 LSTM 单元中。Tloss−t+1µ22350H G t+1 = ConvLSTM(δ1(H G t), δ2(ˆP G t)) (12)03.5. 记忆回放0我们的空间变换器可以鼓励模型更多地关注最可能的区域，但忽略了时间上的一致性。在解码器中，来自时间步 t的变换器解码隐藏状态主要基于 t-1时刻的解码状态。然而，当前时间的位置也受到所有先前时间步的隐藏状态的影响。换句话说，如果我们只考虑基于最近时间步的计算，我们的预测有时会偏离隐藏状态所暗示的原始目标位置。为了解决这个问题，我们提出了一种轨迹平滑算法“记忆回放”，它利用一个记忆图 G(V)动态记录轨迹的解码时间信息，其中 |V| 与隐藏状态图规模G中的节点数相同。记忆回放操作基于变换器计算的边权重。在每个时间步，记忆图 G保存过去解码时间步中所有节点对（包括节点自身）的平滑边权重，并减小指向时间上不一致位置的边的权重。0算法 1中展示了处理步骤。在解码之前，我们将记忆图初始化为全零。在解码的每个时间步中，我们首先将前一个时间步的隐藏状态传递到空间变换器中，通过公式（9）计算每个节点的边权重 e G（第5行）。然后，我们通过逐元素相加将 eG 的值与 G 进行平滑（第6行）。G在每个时间步都会被平滑后的 e G填充（第7行），以确保它包含最新的解码状态。当前时间的隐藏状态通过在公式（10）中基于平滑的边权重和前一个时间步的隐藏状态，以及在公式（12）中基于前一个时间的输出（观察到的轨迹当时间为 T obs时）计算得到（第9行）。最后，我们通过公式（11）根据新的隐藏状态生成当前时间的输出（第10行）。因此，记忆图可以记录每个时间步的最新边权重，其中边权重由上一个时间步的记忆图平滑。记忆回放以这样的递归方式产生效果。03.6. 损失0根据[24]的方法，我们将训练分为分类任务（图编码器流）和回归任务（位置编码器流）。我们将每个时间步 t的每个图尺度 G 的真实输出 P G i(t) 和损失计算的持续时间T 1: loss视为地面真实数据。我们使用交叉熵损失函数进行计算。0Algorithm 1: 记忆回放。0输入：编码后的最后隐藏状态 H G T obs 和最后观测到的轨迹 ˆP G T obs在图尺度 G 和时间 T obs01 for G ∈ {(18, 32), (9, 16)} do02 G ← zeros × G03 H G T prev, ˆP G T prev ← H G Tobs, ˆP G T obs 4 for T curr ←− T05 e G ← 根据等式（9）中的空间变换器计算边权重06 e G ← σ(e G ⊕ G)07 G ← e G08 T prev ← T curr09 H G T prev ←准备下一个时间步的隐藏状态，通过等式（10）和等式（12）计算010 ˆP G T prev ← generate output with H G Tprev by Eq. (11)011 end012 end0图编码器流：0L G c = −10T loss0Tloss0i ∈ G P G i(t) log(ˆP G i(t))(13)0此外，受到[36]的启发，我们提出了指数平滑 L1损失函数用于位置编码器流：0L G r = 10T loss0Tloss0i ∈ G Smooth L1(P G i(t), ˆP G0(14) 其中我们定义了一个惩罚项 e0为了使模型更加关注较早时间步的预测结果，因为较早的轨迹质量会对后续轨迹产生很大影响，我们使用超参数 µ来控制惩罚项的强度。为了从多尺度图中受益，我们参考多尺度鉴别器 [41]，并对两个尺度 Scales ∈ [36 × 18, 18 ×9] 计算损失的总和：0L = 0G∈ Scales αL G c + βL G r (15)0L 用于优化两个尺度的训练。03.7. 生成多条轨迹0我们参考[21,24]，利用多样性波束搜索在图编码器流中生成多条轨迹。在图尺度 G 的时间 t - 1，我们得到一组 K条解码轨迹，它们的条件对数概率表示为 C G ,k 1 , C G ,k2 . . . C G ,k t - 1，其中 k ∈ [1, K]，K是波束大小。给定模型在时间 t 推断的概率 ˆP G ,kt，我们计算新的对数概率：(17)22360在波束 k 中，图节点 i 的重要性定义为：0C G ,k t (i) = C G ,k t - 1 + log(ˆP G ,k t (i)) - γ(i) (16)0其中 i ∈ G，k ∈ [1,K]。γ(i)是多样性率。总共，我们需要计算所有节点和波束的 | V | × K 个概率，其中 | V |是节点数。最后，我们选择其中的前 K个作为预测结果。对于位置编码器流，我们将偏移值应用于预测的节点，以获得精确的坐标。04. 实验04.1. 评估指标0单一未来评估。与之前的研究[1, 11,25]相同，我们使用以下两个常见的评估指标：1）平均位移误差（ADE）：所有时间步的地面真实位置和预测位置之间的平均 L2距离。2）最终位移误差（FDE）：地面真实位置和预测位置在最后一个时间步的 L2距离。多个未来评估。我们假设对于每个数据样本，有 J条地面真实轨迹和模型进行 K次预测。根据最近的公共基准[24]在ForkingPaths数据集上，我们使用：1）给定 K次预测的最小平均位移误差（minADE K）；2）给定 K次预测的最小最终位移误差（minFDE K）。对于数据样本 i∈ N 中的每个地面真实轨迹 j ∈ J，我们选择与 j距离最小的 K 次预测之一来计算平均位移，并选择与 j最终距离最小的预测来计算最终位移。轨迹使用百分比。我们提出了一种新的评估方法，称为“轨迹使用百分比”（PTU），用于评估多个未来预测的全面性。0图3. minADEK评估中预测轨迹使用率低的示例。有5个真实轨迹（黑色箭头）和8个预测（虚线）。但只有2个预测（绿色虚线）在评估中使用，其他的（红色虚线）未使用。0尽管minADE K和minFDEK可以评估预测与真实轨迹之间的位移，但它们忽略了预测分布的多样性。如图所示0在图3中，有5个真实轨迹和8个预测轨迹。然而，根据minADE K和minFDEK的定义，只有2个预测被包括在评估中，它们是每个真实轨迹的最接近的预测。我们认为这是一个不全面的预测，其中几个真实轨迹共享相同的预测轨迹。理想情况下，我们希望有5个与5个真实轨迹相对应的不同预测。此外，Yuan等人[46]开发了平均自身距离（ASD）和最终自身距离（FSD）来评估预测分布的多样性，通过计算每个预测与其最近预测之间的L2距离。然而，通过ASD和FSD计算的预测多样性未考虑落在真实分布中的预测轨迹的数量。为了评估预测分布的全面性，我们定义PTU为：0PTU = (N i =1 | ˆ p i |)/ (| Y i |)0其中| ˆ p i |表示在minADE K和minFDEK评估中使用的预测数量，| Y i|表示数据样本中的真实轨迹数量。我们对所有N个数据样本的这种百分比求和，然后取平均值。在minADEK和minFDEK的相同结果下，较大的PTU表示更全面的预测。04.2. 实现细节0我们使用与[11]相同的数据处理方法，并且根据[24]的方法，应用预训练的场景分割模型[6]获取场景分割特征。我们在编码器和解码器中都使用了一个卷积LSTM层；在基于图的变换器中，我们聚合了一跳邻居的特征。我们将学习率设置为0.3，衰减值为0.95，权重衰减为0.001，与[24]相同。我们将图特征嵌入到大小为32的嵌入层中，编码器和解码器的隐藏状态大小均为256。对于总损失中的超参数α和β，我们设置α = 1.0，β =0.2；我们的指数平滑L1损失中的µ为10。我们只在单未来预测中应用这种指数损失，因为它会通过实验影响多未来预测的多样性。为了与[24]保持一致，我们还为每个数据样本的多未来预测生成了K = 20个最可能的预测。04.3. 多未来预测0分叉路径数据集。分叉路径数据集[24]是一个专门设计用于多未来预测的模拟数据集。该数据集由VIRAT/ActEV中的5个场景和ETH/UCY中的4个场景构成。共有127个场景，每个场景以三个45度视角和一个俯视视角进行渲染。每个场景中有一个受控代理，平均有5.9个未来轨迹。MethodminADE20minFDE20LSTMSocial-GAN(PV)191.2176.5187.544.70%351.9335.0347.742.82%Social-GAN(V)187.1172.7183.543.00%342.1326.7338.341.85%Next186.6166.9181.7N/A360.0326.6351.7N/AMultiverse168.9157.7166.147.45%333.8316.5329.544.35%2237045度俯视全部PTU增加 45度俯视全部PTU增加0我们的模型 165.5 154.5 162.8 48.65% 318.9 302.5 314.8 50.83%0表1. 多未来轨迹预测的定量评估。45度、俯视和全景视图上呈现minADE K和minFDEK的结果。PTU结果仅针对多未来预测模型进行评估。所有模型都在VIRAT/ActEV数据集上进行训练，并在ForkingPaths数据集上进行测试。0系列。我们的目标是为每个受控代理预测多条轨迹。观察时间长度为T obs = 8帧，预测时间长度为T pred - obs =12帧。0基线。我们将我们的模型与4个基线模型进行比较。LSTM：一个简单的LSTM实现，只模拟轨迹输入。SocialGAN[11]：一种最近的基于GAN的模型，生成多模态预测分布。我们报告两种配置：只有多样性损失的模型（Social-GAN(V)）和既有多样性损失又有全局汇聚的模型（Social-GAN(PV)）。Next[25]：VIRAT/ActEV上单一未来预测的最新模型。由于该模型利用了丰富的视觉特征，我们将我们的模型与Next进行比较，但不包括活动预测模块。Multiverse[24]：ForkingPaths数据集上多未来预测的最新概率模型。0定量评估。表1显示了基线模型和我们模型在minADE20、minFDE20和PTU指标上的多未来预测比较。我们可以看到我们的模型优于所有基线方法。与当前最先进的模型Multiverse相比，平均minADE 20减少了3个点，平均minFDE20减少了15个点。在minADEK下，PTU值比Multiverse高1.2%，在minFDEK下，PTU值比Multiverse高6.5%，这表明我们的模型生成了更全面的预测。0定性评估。图4(a)是多元宇宙的结果，图4(b)是我们的结果。从左边的三组比较中，我们可以看到多元宇宙的预测穿过了车辆，而我们的预测可以在不与其他物体碰撞的情况下落在真实分布中。这些案例证明了我们的空间变换器可以检测物体并做出合理的决策。此外，图4(a)右边的三组显示了多元宇宙的时间不一致情况，而我们的预测可以做出平滑的预测，这反映了我们的记忆回放在保持预测的时间一致性方面的有效性。0方法 ADE ↓ FDE ↓0LSTM 23.98 44.970Social-GAN(V) 30.40 61.930Social-GAN(PV) 30.42 60.700Next 19.78 42.430多元宇宙 18.51 35.840我们的模型 18.58 36.080表2.VIRAT/ActEV数据集上单一未来轨迹预测的ADE和FDE指标的定量评估。0方法 ADE ↓ FDE ↓0单尺度图 19.71 37.320无位置编码器 41.18 61.230无记忆回放 19.34 37.050无指数损失 19.39 37.090完整模型 18.58 36.080表3. 我们模型在单一未来预测中的关键组件消融研究。04.4. 单一未来预测0VIRAT/ActEV数据集。根据[24]，我们使用VI-RAT/ActEV[2]作为单一未来轨迹预测的数据集。该数据集旨在评估活动检测和物体跟踪等任务。我们使用与[23-25]相同的训练、验证和测试划分，以进行公平比较。观察长度为3.2秒（8帧），预测长度为4.8秒（12帧），与之前的工作[1, 11,23-25]相同。定量评估。单一未来预测的结果如表2所示。我们的模型的结果是第二好的，非常接近Multiverse的结果，相比基于GAN的模型有很大的改进。这表明我们的模型在模拟多未来和真实世界单一未来场景中都表现出了有效性。04.5. 割舍研究0关键组件的割舍。对于单未来预测，我们验证了四个组件：没有多尺度图形，只保留一个36×18的尺度，没有记忆重播模块，没有位置编码器，没有指数平滑L1损失。22380(a) Multiverse的不完美/错误案例0(b) 我们模型的改进案例0图4. Multiverse和我们模型之间的定性比较。黄线和绿线是观察到的和地面真实轨迹。热图是预测分布。0方法 minADE 20 ↓ min045度俯视全部PTU ↑ 45度俯视全部PTU ↑0单尺度图形 170.9 160.3 168.3 44.89% 337.9 315.8 332.4 39.96% 无位置编码器 245.4 237.3 243.4 31.14%463.0 441.7 457.7 28.56% 无记忆重播 167.3 153.2 163.7 46.53% 330.1 306.2 324.1 42.43%0我们的模型（完整模型）165.5 154.5 162.8 48.65% 318.9 302.5 314.8 50.83%0表4. 我们模型在多未来预测中关键组件的割舍研究。0µ值 ADE ↓ FDE ↓0+∞ 19.39 37.090µ =20 19.19 36.830µ =10 18.58 36.080µ =5 18.56 36.240表5. 我们指数平滑L1损失在单未来预测中不同µ值的割舍研究。0损失。对于多未来预测，我们只测试前三个组件，因为指数损失只是为了提高训练中单未来预测的性能而设计的。如表3和表4所示，如果没有这些关键组件中的任何一个，我们的模型的性能会有不同程度的下降。此外，我们在多未来预测中对所有关键组件应用了PTU。从表4可以看出，我们的模型在minADE K和minFDEK下实现了最高的PTU。指数平滑L1损失。乘以惩罚项可以带来小幅改进，因为它引导模型更加关注序列中较早的数据，这可能会影响整个序列中预测的整体性能。我们选择µ的值为+∞、20、10和5（+∞表示仅使用平滑L1损失）进行比较。表5显示，当µ=10时，我们的模型实现了最佳的整体性能，平均减少了3.6%的ADE和2.4%的FDE。局限性。我们展示了我们模型的一些不完美案例作为局限性。图5(a)是一个案例，我们的模型只预测直行的轨迹，而实际上有一些地面真实轨迹在不同程度上向右转。如果应用多样性控制，可能会有所改进。0关于损失函数或选择最终预测的问题。图5(b)显示，我们的模型有时没有意识到行走速度，并且预测明显比实际轨迹更长。数据增强可以帮助减少类似情况的发生。这些不完美的案例和可能的想法将激发我们未来的研究。0(a)0(b)0图5. 我们模型的局限性示例。05. 结论0本文关注的是当地面实际情况中每个行人都有多个可能的未来轨迹时的多未来行人轨迹预测。我们通过基于图形的空间变换器来建模空间交互作用，该变换器利用了改进的基于注意力的消息生成和聚合方法，并采用了多尺度图形结构。我们还引入了记忆重播算法，通过与变换器协调生成平滑的轨迹。此外，我们提出了轨迹使用百分比来评估多未来预测的全面性。我们提出的模型在ForkingPaths数据集上实现了多未来预测的最新性能，并且我们的单未来预测结果可以与VIRAT/ActEV数据集上当前最先进模型的结果竞争。22390参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei, 和 Silvio Savarese. SocialLSTM: 在拥挤空间中预测人类轨迹. 在IEEE计算机视觉和模式识别会议论文集, 2016年, 页码：961–971. 3 , 6 , 70[2] George Awad, Asad Butt, Keith Curtis, Yooyoung Lee,Jonathan Fiscus, Afzad Godil, David Joy, Andrew Del- gado,Alan Smeaton, Yvette Graham, 等. Trecvid 2018:视频活动检测、视频字幕和匹配、视频故事链接和视频搜索的基准测试. 在 TRECVID 2018 论文集, 2018年. 1 , 2 , 4 , 70[3] Alessia Bertugli, Simone Calderara, Pasquale Coscia, Lam-berto Ballan, 和 Rita Cucchiara. AC-VRNN:用于多个未来轨迹预测的注意力条件VRNN.计算机视觉与图像理解 , 210:103245, 2021年. 20[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve,Nicolas Usunier, Alexander Kirillov, 和 Sergey Zagoruyko.基于Transformer的端到端目标检测. 在欧洲计算机视觉会议论文集, 页码：213–229. Springer, 2020年. 20[5] Yuning Chai, Benjamin Sapp, Mayank Bansal, 和 DragomirAnguelov. Multipath: 行为预测的多个概率锚定轨迹假设.arXiv预印本 arXiv:1910.05449 , 2019年. 1 , 20[6] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, 和 Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能交易 , 40(4):834–848, 2017年. 60[7] Dooseop Choi, Kyoungwook Min, 和 Jeongdan Choi.通过逆强化学习框架对神经网络进行轨迹预测的正则化.IET计算机视觉 , 14(5):192–200, 2020年. 20[8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, 和 KristinaToutanova. Bert: 预训练的深度双向Transformer用于语言理解.arXiv预印本 arXiv:1810.04805 , 2018年. 20[9] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl-vain Gelly, 等.一张图片等于16x16个单词：用于大规模图像识别的Transformer.arXiv预印本 arXiv:2010.11929 , 2020年. 20[10] Jun

下载后可阅读完整内容，剩余1页未读，立即下载