基于占用栅格地图的轨迹分布预测

110 浏览量更新于2023-10-25 收藏 14.02MB PDF 举报

轨迹预测

性能评估

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

22420基于占用栅格地图的端到端轨迹分布预测0郭科1，刘文熙2，潘佳1*01 香港大学 2 福州大学计算机与数据科学学院0{kguo，jpan}@cs.hku.hk，wenxi.liu@hotmail.com0摘要0本文旨在根据社交场景图像和历史轨迹预测移动代理在现实世界中的未来轨迹分布。然而，这是一项具有挑战性的任务，因为地面真实分布是未知和不可观测的，而只有一个样本可以用于监督模型学习，这容易产生偏见。最近的大多数工作都专注于预测多样的轨迹以覆盖真实分布的所有模式，但它们可能忽视了精确性，因此给不现实的预测过多的权重。为了解决这个问题，我们使用占用栅格地图作为对地面真实分布的明确和符合场景的近似来学习对称交叉熵的分布，这可以有效地惩罚不太可能的预测。具体而言，我们提出了一种基于逆强化学习的多模态轨迹分布预测框架，通过近似值迭代网络以端到端的方式学习规划。此外，基于预测的分布，我们通过可微分的基于Transformer的网络生成一小组代表性轨迹，其注意机制有助于建模轨迹之间的关系。在实验中，我们的方法在斯坦福无人机数据集和交叉口无人机数据集上实现了最先进的性能。01. 引言0由于机器人导航和自动驾驶汽车等新兴应用的出现，轨迹预测引起了越来越多的关注。由于代理人意图或环境的固有多模态不确定性，已经提出了大量的工作来学习未来轨迹的多模态分布。例如，在[20,26]中，多模态分布是使用高斯混合模型明确建模的，尽管很难0*负责作者：潘佳。该项目得到香港特别行政区研究资助局GRF11202119、11207818、T42-717/20-R、HKSAR技术委员会在InnoHK计划下的支持，以及中国国家自然科学基金（编号62072110）的支持。0图1.斯坦福无人机数据集上P2T和我们方法的轨迹预测分布示例。尽管P2T的预测更多样化，但它预测了许多不可行的结果（例如与花坛相交的轨迹）并且给转弯动作分配了太高的概率。0优化和剪枝容易过拟合。其他人尝试使用生成模型（如条件变分自编码器（CVAE）[6, 19, 28, 44]，正态流（NF）[34,38]或生成对抗网络（GAN）[2, 8, 9, 11,43]）来隐式建模轨迹分布。然而，大多数以前的工作都关注预测轨迹的多样性而不是更重要的精确性，除了少数几个工作（例如[34,38]）。问题在于，如果模型只被鼓励覆盖真实分布的所有模式，它可能会给不现实的预测分配太多的概率，并且无法准确反映真实的概率密度。图1显示了P2T[6]预测的多样轨迹的大部分部分转向并与障碍物相交，这显然是不可行的，并且与直行比转弯更有可能的常识不一致。在这种情况下，基于这些预测的导航决策将对不太可能的未来过度反应，同时低估更有可能的未来。具体而言，为了学习多样的轨迹分布，以前的工作通常最小化多样性损失[6, 9,13]或前向交叉熵[23, 26,44]。然而，多样性损失只要存在一个接近真实值的预测，就不会惩罚坏的预测，并且它不会导致真实分布而是其平方根的近似值[46]。另一方面，前向交叉熵22430熵也无法充分惩罚不太可能的预测[34,38]并且对噪声敏感[48]。为了克服这些损失的局限性，我们的解决方案是学习一个最小化对称交叉熵的分布，即预测分布和真实分布之间的正向和反向交叉熵的组合。与正向交叉熵相比，反向交叉熵可以惩罚概率较低的预测，但它需要真实分布作为参考，而在许多情况下很难获得。一个有效的解决方案是使用占用栅格地图（OGM），将社交空间划分为每个单元格中的占用概率。因此，轨迹概率可以近似为在OGM条件下所有未来位置概率的乘积。在[38]中，一个OGM被参数化为成本地图，通过卷积神经网络（CNN）从空间场景特征中嵌入以为不同的社交区域分配适当的概率。然而，用单个OGM表示所有未来位置分布是不准确的，因为它忽略了轨迹的时空对应关系。相反，我们使用基于卷积长短期记忆（ConvLSTM）[51]网络的新型反卷积参数化位置概率流来为每个未来位置预测一个OGM。由此产生的动态OGM不仅可以帮助轨迹预测[23]，还可以帮助下游规划任务[4,53]。0在最小化对称交叉熵时，以前的方法[34,38]通常使用正常化流，通过一系列自回归映射将简单的高斯分布转化为目标轨迹分布。这些映射需要是可逆的、可微分的，并且易于计算雅可比行列式，这在实践中很难满足。此外，从高斯分布中采样的潜变量很难解释。为了解决这些问题，我们开发了一个端到端可解释模型来反向传播对称交叉熵损失。具体而言，我们使用邻近网格内的粗略未来轨迹计划作为可解释的潜变量构建了一个CVAE模型，类似于P2T[6]。然而，P2T无法以端到端的方式进行训练，因为它使用最大熵逆强化学习（MaxEnt IRL）[50,58]通过匹配特征期望来学习规划策略。相反，我们通过可微分值迭代网络（VIN）[45]实现了IRL中的值迭代，并将Gumbel-Softmax[15]引入离散规划策略采样。在我们基于VIN的IRL中，规划和轨迹生成策略可以通过最大化数据似然同时学习。0尽管可以从学习的分布中采样出大量可能的未来轨迹，但许多下游应用通常需要一小组代表性的轨迹。0代表性预测。传统上，通过学习具有多样性损失[5, 9,13]的分布模型或者使用贪婪逼近[36]或K-means[6,7]等启发式方法进行后处理来实现这一要求。受到聚类（如K-means）可以被视为对不同样本付出不同注意力的洞察的启发，我们提出了一种基于Transformer的细化网络，其注意机制也可以确保采样多样性，以从我们的预测模型的过采样结果中聚焦地获取一小组代表性样本。代表性属性可以通过其损失进行方便调整，例如多样性的多样性损失。在实验中，我们将我们的方法与一组最先进的方法在斯坦福无人机数据集[40]和交叉口无人机数据集[3]上进行比较，并展示了我们的方法在轨迹多样性和质量方面的优势。总之，主要贡献如下。0•我们提出了一种基于VIN的IRL方法，简化了学习过程，0•我们通过使用OGMs改进了对轨迹分布的近似，使用对称0•我们引入了一种基于Transformer的细化网络，用于从轨0•我们在两个真实世界数据集上展示了我们框架的最先进性能：斯坦福无人机数据集[40]和交叉口无人机数据集[3]。02. 相关工作02.1. 轨迹分布预测0我们专注于基于深度学习的轨迹分布预测方法。有关更多经典方法的调查，请参阅[41]。在早期的文献中，轨迹分布通常被建模为简单的单峰分布，例如双变量高斯分布[1, 25,54]。然而，单峰模型往往会预测所有可能模式的平均值，这可能是无效的。最近，提出了各种生成模型，如GAN、NF和CVAE，来解决多模态问题，这些模型使用潜在变量来捕捉随机性。基于GAN的方法[2, 8, 9, 11,43]使用鉴别器生成多样化的真实轨迹，但很难训练并且容易出现模式崩溃。NF方法[34,38]从标准高斯分布中采样潜在变量，并通过一系列变换将其映射到目标轨迹。一些CVAE方法，如DESIRE[19]，Trajectron++[44]，使用先验分布和后验分布之间的约束来学习高斯或分类潜在分布。其他方法利用可解释的潜在变量来融入先验知识。22440例如，PECNet [28]，TNT[55]将目标位置视为潜在变量。此外，LB-EBM[33]将几个未来步骤的位置作为从基于能量的模型中采样的潜在变量。P2T [6]从通过深度MaxEnt IRL[50]学习的策略中采样一个粗略的网格计划作为潜在变量。尽管我们的模型也利用计划作为潜在变量，但我们在统一的框架中学习计划和轨迹分布。02.2. 占用格网地图预测0OGMs预测旨在预测每个未来时间步长上网格上的分类占用分布。尽管已经有大量研究预测人群[21,31]或场景中的所有物体[24,32]的OGMs，但我们专注于回顾预测一个代理的OGMs的文献，就像我们的工作一样。0Kim等人[16]直接使用LSTM网络输出每个网格单元的未来概率。Y-net[27]直接从CNN输出的不同通道的特征图中得到每个未来步骤的OGM。类似地，在MP3[4]中，每个通道的特征图被嵌入到每个未来步骤的时间运动场中，通过对场上的运动矢量进行双线性插值来获得连续OGMs之间的概率转移流。为了利用顺序OGMs中的时间和空间模式，广泛应用ConvLSTM[51]。在[39]中，他们直接从ConvLSTM的隐藏图中推导出OGM。为了增加时间一致性，DRT-NET[14]学习了连续OGMs之间的残余概率流。为了融入局部移动的先验知识，Multiverse[23]使用图注意力网络来聚合ConvLSTM的隐藏图上的邻域信息。类似地，SA-GNN[24]通过图神经网络考虑与邻居的交互作用。基于ConvLSTM和反卷积参数化，我们的方法不仅计算效率高，而且明确地建模了局部转移概率。0此外，其中一些工作尝试通过对OGMs进行采样来获得轨迹。但是，从每个OGM独立采样的位置会受到离散化误差的影响，并且在轨迹中缺乏时空对应关系。为了解决这个问题，[39]利用OGMs作为另一个ConvLSTM的输入，该ConvLSTM输出固定数量的未来轨迹的坐标。Multiverse[23]在每个单元格预测连续的偏移量以减轻离散化误差，并应用多样的波束搜索生成多个不同的轨迹。Y-net[27]在采样的目标和路径点的条件下采样中间位置。与以前的所有工作不同，我们在训练损失中将OGMs作为辅助信息，以生成更多可行的轨迹。02.3. 轨迹样本精炼0从预测的轨迹分布中采样的轨迹通常不能满足下游要求。最常见的两个要求是精度和多样性，以准确覆盖所有未来情景[34, 38]。为了提高准确性，以前的工作[19, 29,55]通常使用神经网络对样本进行评分并改进前几个样本。为了增加多样性，需要考虑样本之间的关系。大多数文献[5,9, 13]直接使用多样性损失来提高多样性。此外，P2T[6]、PGP [7]和Y-net[27]使用K-means对样本进行聚类，而CoverNet[36]采用贪婪近似算法创建一个多样性集合。为了同时捕捉多样性和质量，DSF[52]学习了一个多样性采样函数，使用基于确定性点过程的多样性损失在测试时对CVAE的潜在变量进行采样，而DiversityGAN[12]对不同的潜在语义变量进行采样以预测多样性轨迹。与以前的工作不同，我们基于Transformer的样本精炼网络是一个独立且可微分的模块，可以根据下游要求和轨迹样本数量进行灵活调整。03. 背景03.1. 问题建模0给定包括目标代理的上下文和历史轨迹X = {Xt ∈ R2 | t =-tp + 1, ..., 0}的观测Ω，我们的目标是预测其未来轨迹Y =�Yt ∈ R2 | t = 1, ..., tf�的分布p(Y |Ω)。上下文包括邻居的历史轨迹和一个图像I，该图像是以代理当前位置为中心的鸟瞰视图（BEV）感知局部场景。0我们假设一个代理有一个基于网格的计划，其未来轨迹受其条件约束。代理的规划过程使用马尔可夫决策过程（MDP）M = {S, A, T,r}进行建模，其中时间范围为N。状态集S包括2D网格上的所有单元格和一个价值为零的吸收终态。动作集A包括4个相邻移动（上、下、左、右）和一个导致吸收状态的结束动作。确定性转移函数T：S × A →S描述系统动态。非定态奖励函数rn：S × A →R确定每个步骤n的每个状态和动作的奖励。我们假设代理使用非定态随机策略πn(a |s)确定在MDP步骤n时在状态s处选择动作a的概率，并最终根据状态序列S = {sn ∈ S | n = 1, ...,N}制定计划。请注意，这里我们使用上标n作为MDP步骤n，以与下标t作为时间步骤区分开来。0为了减轻建模多模态未来轨迹分布p(Y |Ω)的困难，我们引入了合理的S∈S(Ω)p (S|Ω) p (Y |S, Ω) dS,22450将潜在划，并将其分解为：0p(Y | Ω) = �0其中 S (Ω)是基于观测条件下的可行计划空间。通过这种方式，由于计划的不确定性可以很好地捕捉多模态性，基于计划的轨迹可以很好地近似为单峰分布。03.2. 轨迹分布学习0我们通过最小化预测轨迹分布 q θ ( ˆ Y | Ω) 与真实分布 p (Y | Ω)之间的差异来预测未来轨迹分布。作为这两个分布之间的直观距离度量，计算正向交叉熵（也称为负对数似然（NLL））：0H ( p, q θ ) = − E Ω � Ψ ,Y � p ( ∙| Ω) ,S ∈ S ( Y ) [log q θ (0其中 Ψ 表示真实观测的分布，S ( Y ) 是包含真实计划 S的空间，即轨迹 Y经过的网格状态序列。尽管NLL损失鼓励预测分布覆盖真实分布的所有可行模式，但它对不太可能在真实分布下发生的不合理预测给予较低的惩罚[34, 38]。反向交叉熵 H ( q θ ,p )可以评估预测在真实分布下的可能性并惩罚不太可能的预测，但在真实世界中，只有一个样本被观察到，因此无法得知真实分布p。为了解决这个问题，我们将未来轨迹的连续联合分布 p (Y | Ω) 近似为未来位置的分类边缘分布的乘积 O = { O t | t= 1 , . . . , t f }，表示为OGMs：0p ( Y | Ω) ≈ p ( O | Ω)0t f0t = 1 O t (Y t )，0其中 O t ( Y t ) 表示时间步 t 时代理的位置概率，它是从 Ot 上的附近概率进行双线性插值得到的，而 p ( O | Ω)假设为确定性，并由神经网络参数化，即 O = o α(Ω)。因此，反向交叉熵 H ( q θ , p ) 可以近似为：0H ( q θ , O ) = − E Ω � Ψ , ˆ Y � q θ ( ∙|Ω) log p ( O | Ω)0t f步。0t = 1 O t (ˆ Y t )。04. 方法0如图2所示，我们的模型由五个模块组成，可以以端到端的方式进行学习：观测编码器、策略网络、占用栅格地图解码器（OGMs解码器）、轨迹解码器和细化网络。04.1. 观测编码器0我们方法的第一个组件是一个观测编码器，由一个运动编码器和一个场景编码器组成。运动编码器用于从目标和其邻居的过去轨迹中提取运动特征，场景编码器用于从周围环境的BEV图像中提取场景特征。运动编码器：运动编码器旨在将目标代理和其邻居的过去轨迹嵌入到特征向量和特征图中。为了简洁地表示邻居的状态，我们利用了来自[18]的方向池化网格，其中每个单元格包含一个位于该单元格中的邻居相对于目标代理的相对速度。在每个过去的时间步t，我们首先将网格展平为向量 dt，然后将该向量与代理速度 X t − X t − 1作为输入连接到一个RNN中。时间步 t的RNN的隐藏状态为：0m t = RNN m ( m t − 1 , ϕ [ d t , X t − X t −1 ])，0其中 ϕ 是一个线性嵌入层，括号表示连接。第一个隐藏状态m − t p +1 设置为零，最后一个隐藏状态 m 0被视为运动特征。m 0在场景中的所有单元格中复制，并与每个单元格的以代理为中心、世界对齐的坐标连接起来构成一个运动特征图 M：0M(x, y) = [m0, x, y].0场景编码器：我们应用CNN从邻域的BEV图像I中提取场景特征图：0F = CNNf(I),0其中场景特征图F的空间维度与MDP网格的维度相同，以简化计算。04.2. 策略网络0我们通过两个步骤端到端生成策略：将观察特征映射到奖励，然后使用值迭代网络计算策略。我们采用非平稳奖励来捕捉动态的代理与场景和代理与代理之间的交互。基于场景和运动特征图，应用ConvLSTM架构在每个步骤生成奖励图。ConvLSTM隐藏图和MDP步骤n处的奖励图为：0Hn = ConvLSTM r(Hn-1, F), rn = Φ(Hn),0其中Φ是一个全连接的卷积层。初始隐藏图H0是嵌入的运动特征图Φ(M)。基于奖励图，我们使用近似值迭代在每个步骤n生成一个策略图πn。为了通过值迭代反向传播损失，我们利用值迭代网络[35, 37, 45]，22460图2. 我们方法的概述。0算法1 近似值迭代网络输入：r n(s, a) 输出：πn(a|s)01: VN(s) = 0, � s ∈ S; 2: for n = N, ..., 2, 1 do 3: Qn(s, a)= rn(s, a) + Vn s' = T(s,a)(s'), � s ∈ S, � a ∈ A;04: V n-1(s) = logsumexp a Q n(s, a), � s ∈ S;05: πn(a|s) = softmaxa Qn(s, a), � s ∈ S;06: 结束循环0它通过当前值图与转移滤波器的卷积递归地计算下一个值图。为了提高值迭代网络的性能，我们利用非平稳奖励在MaxEnt IRL公式[50,58]中进行近似值迭代。算法1描述了该网络的整体计算过程。04.3. OGMs解码器0为了提供地面真实轨迹分布的明确近似，我们使用ConvLSTM网络基于观察特征预测一系列动态OGMs。将场景特征图作为输入，ConvLSTM网络在时间t的隐藏图为：0H t = ConvLSTM o(H t-1, F),0隐藏图的初始化是运动特征图的嵌入H0 =Φ(M)。然后，我们不直接从每个隐藏图输出OGM，而是得到一个像素自适应的归一化反卷积滤波器，其权重在空间上变化，非负且总和为一。然后将反卷积应用于最后一个OGM以获得下一个OGM：0O t = Deconv(O t-1, softmax(Φ(H t))),0其中初始OGMO0是一个待学习的概率矩阵。我们的反卷积方法可以直接建模0概率密度转移过程。此外，归一化反卷积核的有限大小确保概率质量以保守的方式扩散到附近的网格单元，反映了代理不会突然消失或在远距离之间跳跃的先验知识。04.4. 轨迹解码器0在根据策略推出的计划或数据的基础上，应用RNN解码器根据局部特征递归地生成未来的位置分布。计划采样：我们通过对策略网络输出的非平稳策略进行采样，生成一个计划ˆS= {ˆsn ∈ R2 | n = 1, ...,N}。然而，直接对离散状态和动作空间进行采样会导致损失反向传播的困难。为了克服这个困难，我们使用Gumbel-Softmax技巧对策略进行采样，从而得到连续的动作和状态。此外，我们通过双线性插值得到连续状态ˆsn的策略。计划编码器：给定一个地面真实计划S（或采样计划ˆS），我们首先从场景特征图F和对应的ConvLSTMr的隐藏图中收集每个计划状态的局部场景特征和非平稳特征。然后，我们将这些特征与状态的坐标连接起来作为RNN的输入，第n步的隐藏状态为：0hn = RNNs � hn-1, ϕ [sn, F(sn), Hn(sn)] �。0由于采样的计划状态ˆsn在连续平面上，因此像F(sn)这样的局部特征是通过双线性插值在特征图F的空间维度上收集的，对应于物理位置sn。图3说明了计划编码器如何提取计划特征h1:N = {hn | n = 1, ...,N}。基于多头注意力的解码器：由于不同步骤的计划特征的不同维度可能对当前隐藏状态产生不同的影响[30]，我们利用多头缩放点积注意力模块[47]来聚合计划信息。tf22470图3.每个计划状态的局部场景和非平稳特征与其位置坐标连接在一起，然后输入到RNN中以获得所有计划特征。0聚合计划信息：0MultiHead(Q, K, V) = [Att(QWQi, KWKi, VWVi) Hi=1]WO，0其中Att(Qi, Ki, Vi) = softmax(QiKTi√dk)Vi，0其中dk是每个头的维度。在每个未来的时间t，我们将轨迹解码器的先前隐藏状态ht-1线性投影到查询Qi和计划特征线性层WQi，WKi和WVi中的键Ki和值Vi。注意力模块的输出at然后与坐标和场景特征图上的局部双线性插值特征以及前一个位置Yt-1的OGM隐藏图作为输入传递给RNN解码器：0at = MultiHead(ht-1, h1:N, h1:N)，0ht = RNNt(ht-1, ϕ [at, Yt-1, F(Yt-1), Ht(Yt-1)])，0其中初始隐藏状态h0是嵌入的运动特征ϕ(m0)。然后，利用隐藏状态ht来预测位置ˆYt的分布，该分布被假设为参数化的双变量高斯分布，参数为均值µt+Yt-1，标准差σt和相关性ρt。0[µt, σt, ρt] = htWP，ˆYt � N(µt+Yt-1, σt, ρt)。0在生成预测ˆY时，使用预测分布中从位置ˆYt-1中采样的位置ˆYt-1来替代上述的真实位置Yt-1，以确保可微分性。04.5. 细化网络0我们设计了一个细化网络，用几个代表性轨迹来呈现轨迹分布的简洁表示。该网络是基于Transformer[47]的编码器-解码器框架，但没有位置嵌入和自回归解码，因为Transformer中的多头注意力模块可以很好地捕捉无序样本之间的关系，以确保多样性。我们首先过采样大量轨迹样本{ˆY(1)，ˆY(2)，...，ˆY(C)}，以覆盖轨迹分布，例如C=200。然后，所有轨迹样本被展平为向量，并嵌入为输入到网络中。0Transformer编码器，没有位置嵌入。为了节省推理时间，我们使用类似于[57]的生成式解码器，但我们的解码器的输入是嵌入的运动特征和K个不同的参数向量的求和，而不是固定的令牌。最后，我们嵌入解码器的输出，以获得一些代表性轨迹{˜Y(1)，˜Y(2)，...，˜Y(K)}，例如K=20。04.6. 训练过程0为了实现不同的目标，包括良好的OGM、分布和不同步骤的代表性集合，我们的训练过程包括以下四个步骤：01.OGMs学习：通过最小化NLL损失，训练观测编码器和OGMs解码器来预测OGMs。0H(p, O) = -EΩ�Ψ, Y�p(∙|Ω), O=oα(Ω)l0t=1 Ot(Yt).02.轨迹分布学习：基于学习的观测编码器和OGMs解码器，我们训练策略网络和轨迹解码器，以诱导最小化近似对称交叉熵损失的轨迹分布：0L sce = H(p, qθ) + βH(qθ, O).03.代表性轨迹学习：使用从学习分布中采样的轨迹，我们训练细化网络以生成具有多样性（MoN）损失[9]的代表性轨迹：0L variety = min k∈{1,...,K} ∥Y -˜Y(k)∥2.04.端到端微调：我们使用多样性损失对整个网络进行端到端微调。0只有前两个步骤需要学习轨迹分布，而前四个步骤则用于获取一组紧凑的代表性轨迹。05. 实验结果05.1. 实现细节0我们通过对训练数据中的所有轨迹和场景图像进行90°旋转和翻转来增强数据。我们模型输入和生成的所有数据都是世界坐标系而不是像以前的作品[6, 28,42]中的像素坐标。输入到场景编码器的BEV图像是围绕代理位置的RGB图像的200×200裁剪。场景编码器CNN f由ResNet34[10]的前两层和一个卷积层组成，卷积核大小为2，步长为2，输出32通道和25×25大小的场景特征图作为MDP网格。RNNson.22480由隐藏大小为64的门控循环单元（GRU）实现。ConvLSTM r 和 ConvLSTM d分别具有1和2层，内核大小为3，隐藏状态分别为32，解卷积内核大小为5。轨迹解码器中的多头注意力模块具有4个头，每个头的维度为16。Transformer编码器和解码器由3层组成，隐藏大小为64，具有8个自注意头和0.1的dropout率。我们使用Adam优化器进行训练，学习率为0.001（前三个步骤）和0.0001（最后一个步骤）。我们已经在https://github.com/Kguo-cs/TDOR上发布了我们的代码。05.2. 数据集和度量0数据集。我们在两个数据集上评估我们的方法。我们的大部分测试都是在斯坦福无人机数据集（SDD）[40]上进行的，该数据集提供了斯坦福大学校园由无人机拍摄的俯视RGB视频，包含60个不同场景，包含超过20,000个目标（如行人，自行车和汽车）的注释轨迹。早期的研究[5, 23,43]考虑了SDD中的所有轨迹，随后的研究[27-29,56]专注于使用TrajNet基准[42]的行人轨迹。在这两个划分上，我们报告了使用8步历史预测12步未来的结果，步长间隔为0.4秒。此外，我们还在交叉口无人机数据集（inD）[3]上报告了我们的长期预测结果，该数据集包含比SDD更长的德国交叉口的无人机记录轨迹。为了评估我们方法的长期预测性能，我们使用[27]中的数据，包括1222个训练和174个测试轨迹，历史为5秒，未来为30秒，采样率为1Hz。度量。我们使用三个度量标准评估我们代表性样本的性能。前两个是常用的基于样本的多样性度量[9]：minADEK，即最小平均位移误差，和minFDEK，即最终位移误差，以像素为单位衡量K个预测和地面真实轨迹之间的误差。根据P2T[6]的做法，我们还报告了质量度量指标OffroadRate，该指标衡量了预测位置在道路之外的比例，而地面真实位置在道路之内。05.3. 性能评估0我们与以下最先进的方法进行了比较。Social GAN[9]提出了一种基于GAN的方法来预测多样且符合社交规范的轨迹。Desire[19]使用CVAE生成轨迹样本，然后递归地对其进行排序和优化。Multiverse[23]通过波束搜索从预测的OGMs中选择多个粗略轨迹，然后用连续位移向量对其进行优化。SimAug[22]通过利用模拟的多视图数据提高了Multiverse[23]的鲁棒性。P2T [6]根据深度MaxEntIRL生成的计划来预测未来轨迹。PECNet [28]是一个目标-0模型 minADE 20 minFDE 20 越野率0S-GAN [9] 27.25 41.44 - Desire [19] 19.25 34.05 -Multiverse [23] 14.78 27.09 - SimAug [22] 10.27 19.71- P2T [6] 10.97 18.40 0.065 我们的方法 8.60 13.900.0500PECNet [28] 9.96 15.88 0.071 LB-EBM [33] 8.87 15.610.070 P2T [6] 8.76 14.08 - Y-Net [27] 7.85 11.85 0.048V [49] 7.34 11.53 - 我们的方法 6.77 10.46 0.0660表1.在整个SDD数据集（上）和其TrajNet划分（下）上与最先进方法的比较，预测短期4.8秒未来。0模型 minADE 20 minFDE 200S-GAN [9] 38.57 84.61 PECNet [28]20.25 32.95 Y-net [27] 14.99 21.130我们的方法 13.09 19.390表2. 在长期30秒预测的inD上的结果。0条件模型将任务分为目标估计和轨迹预测。LB-EBM[33]使用从基于成本的历史中采样的潜在向量来推断中间航点。Y-Net[27]使用热图对未来位置的多模态性进行建模，并在基于采样的目标和航点的热图上采样轨迹。V[49]是一种并发方法，提出了一个两阶段的Transformer网络，分别在关键点和交互水平上对轨迹及其傅里叶谱进行建模。我们在短期轨迹预测方面与SDD上最先进的方法进行了比较，结果在表1中报告。minADE 20和minFDE20的值遵循原始论文，而越野率是使用不同方法的发布代码和模型计算得出的。在两个数据集划分上，我们的模型在minADE 20和minFDE20指标上取得了最佳性能。值得注意的是，我们的结果是在Y-Net [27]中没有手动标记的语义地图或在SimAug[22]中没有模拟数据的情况下实现的。我们还在表2中报告了我们在inD上的长期预测结果。我们的结果再次是在Y-net[27]中没有手动注释的语义地图的情况下实现的。我们在补充材料中提供了一组定性示例，证明我们的模型能够学习到多样且可行的分布，并预测出多样的代表性轨迹。05.4. 消融研究0消融实验使用TrajNet数据集划分来揭示我们模型的不同组成部分的重要性：BC0.2-31.628.104.800.034SR0.2-31.729.526.950.03322490OGMs预测模型 H(p, O)0CNN [38] 17.52 ConvLSTM [39] 10.52 ConvLSTM+ DiscreteResidualFlow [14] 10.64 ConvLSTM +GraphAttentionNetwork [34] 10.40 ConvLSTM +Deconvolution (我们的方法) 10.310表3.在预测OGMs时，四个基线方法和我们的方法的比较，参数数量接近。0OGMs解码器：首先，我们考虑使用一个CNN对场景和运动特征进行操作得到的一个OGM来近似地表示真实分布，称为R2P2[38]。然后，我们研究了我们在ConvLSTM中的反卷积参数化对OGMs预测的有效性。我们实现了三个基准OGMs预测网络，灵感来自于[14, 34,39]：ConvLSTM直接从隐藏图输出OGMs；ConvLSTM +DiscreteResidualFlow输出隐藏图中OGMs的对数概率残差；ConvLSTM +GraphAttentionNetwork在每个步骤中使用图注意力网络处理隐藏图。我们将这些模型作为我们的第一训练步骤。表3中关于使用NLL损失度量的OGM解码损失的结果表明，我们使用反卷积参数化的不同OGMs的近似是最有效的。0超参数 β ：为了研究对称交叉熵损失中的超参数 β如何影响学习轨迹分布，我们使用不同的 β值训练策略网络和轨迹解码器。为了衡量学习到的分布多样性，我们利用[34]中的RF K 指标，即 K个预测中平均FDE与最小FDE的比值（avgFDE K / minFDEK）。较大的avgFDE K 意味着预测分散，而较小的minFDEK确保预测不是任意的随机。还应用了离线率指标来评估分布的精度。如表4所示，随着 β值的增加，离线率和反向交叉熵减少，意味着更精确的分布模型，而正向交叉熵增加和RF 20减少，意味着分布变得不太多样化。这表明超参数 β可以平衡预测分布的多样性和准确性，而仅最小化正向交叉熵的分布可以很好地覆盖数据，但会产生不合理的样本。0奖励层：首先，我们研究了IRL学习方法与行为克隆（BC）相比的优势。在BC方法中，我们消除了值迭代网络，并直接输出非稳态策略来替代非稳态奖励。然后，我们的非稳态奖励与先前工作中使用的稳态奖励（SR）进行了比较[6,35]。SR方法通过两个全连接卷积层将运动和场景特征图的串联映射到一个奖励图中来实现。表4中的结果表明，非稳态奖励0模型 β H ( p, q θ ) H ( q θ , O ) RF 20 离线率0我们的 0 -32.19 24.13 7.52 0.035 我们的 0.1 -31.95 8.564.99 0.034 我们的 0.2 -31.75 7.536 4.23 0.030 我们的 1-31.52 4.21 2.70 0.022 我们的 10 -29.76 3.52 2.130.0200表4. 在基于预测的OGMs的轨迹分布预测中， β 和奖励的影响。0方法 minADE 20 minFDE 20 离线率0无精细化 8.78 14.34 0.045 K-means 7.64 12.12 0.0580无端到端 7.36 11.51 0.077 多任务 6.94 10.68 0.066多样性损失 8.16 13.04 0.084 我们的 6.77 10.46 0.0660表5.在学习到的轨迹分布基础上，根据预测的代表性轨迹预测精细化和训练方法的效果， β = 0.2 。0在正向和反向交叉熵以及离线率方面，我们的方法优于无奖励或稳态奖励。精细化网络：我们考虑了两个没有精细化网络的模型。一个是从我们的方法中去除精细化网络。另一个是将我们的精细化网络替换为[6]中的K-means，并将轨迹样本的K个聚类中心作为代表性轨迹输出。这两个模型都使用基于预训练分布模型的多样性损失进行端到端训练。表5和表1底部的比较表明，精细化网络是必不可少的，且比K-means更有效，但由于多样性损失，离线率增加。训练过程：首先，我们展示了仅完成前三个训练过程而没有端到端微调过程的结果。此外，我们还考虑了另外两个训练过程。一个是使用所有损失的总和进行网络训练，类似于多任务。另一个是仅使用多样性损失进行训练。表5表明，我们的端到端微调训练过程可以提高预测代表性轨迹的性能。我们发现仅使用多样性损失进行训练是不稳定的，可能无法收敛。06. 结论0我们提出了一种基于网格规划的端到端可解释轨迹分布预测模型。我们的模型可以通过最小化对称交叉熵损失来学习生成多样且可接受的轨迹分布。我们还设计了一个灵活的精细化网络来生成一小组代表性轨迹。最后，我们在两个真实世界的数据集上展示了我们方法的有效性，具有最先进的性能。[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei, and Silvio Savarese. So-cial LSTM: Human trajectory prediction in crowded spaces.In CVPR, pages 961–971, 2016. 2[2] Javad Amirian, Jean-Bernard Hayet, and Julien Pettr´e. So-cial Ways: Learning multi-modal distributions of pedestriantrajectories with gans. In CVPRW, pages 0–0, 2019. 1, 2[3] Julian Bock, Robert Krajewski, Tobias Moers, SteffenRunde, Lennart Vater, and Lutz Eckstein. The inD Dataset:A drone dataset of naturalistic road user trajectories at ger-man intersections. 2019. 2, 7[4] Sergio Casas, Abbas Sadat, and Raquel Urtasun. MP3: Aunified model to map, perceive, predict and plan. In CVPR,pages 14403–14412, 2021. 2, 3[5] Patrick Dendorfer, Aljosa Osep, and Laura Leal-Taix´e. Goal-GAN: Multimodal trajectory prediction based on goal posi-tion estimation. In ACCV, 2020. 2, 3, 7[6] Nachiket Deo and Mohan M Trivedi. Trajectory forecastsin unknown environments conditioned on grid-based plans.arXiv preprint arXiv:2001.00735, 2020. 1, 2, 3, 6, 7, 8[7] Nachiket Deo, Eric M Wolff, and Oscar Beijbom.Mul-timodal trajectory prediction conditioned on lane-graphtraversals. arXiv preprint arXiv:2106.15004, 2021. 2, 3[8] Stuart Eiffert, Kunming Li, Mao Shan, Stewart Worral

下载后可阅读完整内容，剩余1页未读，立即下载