没有合适的资源?快使用搜索试试~ 我知道了~
171030ScePT:用于规划的场景一致、基于策略的轨迹预测0Yuxiao Chen 1 Boris Ivanovic 1 Marco Pavone 1 , 201 NVIDIA研究2 斯坦福大学0{ yuxiaoc, bivanovic, mpavone } @nvidia.com, pavone@stanford.edu0摘要0轨迹预测是自主系统的关键功能0与不受控制的代理共享环境的自主系统,一个突出的例子是自动驾驶车辆。目前,大多数预测方法不会强制执行场景一致性,即在场景中预测的不同代理之间存在大量的自碰撞。此外,许多方法生成每个代理的单独轨迹预测,而不是整个场景的联0强制执行场景一致性,即在预测的不同代理的轨迹之间存在大量的自碰撞。此外,许多方法为每个代理生成单独的轨迹预测,而不是整个场景的联合轨迹预测,这使得下游规划变得困难。在这项工作中,我们提出了0ScePT是一种基于策略规划的轨迹预测模型,能够生成准确、与场景一致的轨迹预测,适用于自主系统的运动规划。它明确强制执行场景一致性,并学习一个代理交互策略,可用于条件预测。在多个现实世界的行人和自动驾驶车辆数据集上的实验证明,ScePT与当前最先进的预测准确性相匹配,同时显著提高了场景一致性。我们还展示了ScePT与下游应急规划器的配合能力。01. 引言0预测不受控制代理的未来运动是0对与自主系统进行交互的不受控制代理的未来运动进行预测对安全至关重要。一个突出的例子是自动驾驶汽车,在这种情况下,自动驾驶车辆与其他道路使用者(如车辆、行人和骑车人)共享道路。预测任务很困难,因为人类的不确定性和不一致性是众所周知的。例如,众所周知,在驾驶的背景下,人类表现出多模态行为,例如能够同时保持当前车道、换道、让行或超车。作为一个结果0结果,早期关于人类驾驶行为预测的研究[37]的准确性还不足以在自动驾驶车辆的运动规划中使用。为了解决这个问题,许多研究人员一直在开发现象学方法,即从大量数据中学习代理的行为的方法(例如[2,28,29,44]),取得了很大的效果。0在典型的自主系统堆栈中,轨迹预测0模块后面是一个规划模块,它接受0图1.ScePT的输出示例,包括每个代理的多模态轨迹预测。不同的线条类型(实线、虚线、点线)表示场景一致的联合轨迹预测的不同模式。场景中的代理被划分为高度交互的团体,其中一个示例用黄色虚线表示。0预测周围代理的轨迹,并相应地规划自我运动。在考虑到这个下游规划器的情况下,除了预测准确性之外,还有一些要求,并在下面详细讨论。01.1. 期望0典型的轨迹预测模型所需的特征0包括高预测准确性、快速推理速度和校准的不确定性。当预测被下游规划器使用时,以下特性对于整体系统性能也至关重要:兼容性:场景中不同代理的轨迹预测应在单个联合预测中相互兼容。特别是,预测轨迹之间的碰撞应该很少,因为在现实中碰撞本身就很少。可处理的联合轨迹预测:如前所述,代理的未来运动可以是多模态的。在由多个代理组成的场景中,如果为每个节点生成多模态预测,下游运动规划器需要考虑所有这些轨迹预测的组合。由于模态数随着代理数的增加呈指数增长,规划器171040然而,这种方法往往会导致预测的模态数量过多,使得下游规划器不堪重负。或者,运动规划器可以采取保守的方法,避免所有预测的轨迹,但往往以牺牲规划性能为代价(例如,如果所有计划似乎会发生碰撞,则将机器人停止)。因此,我们希望能够得到有限但完全具有代表性的所有代理的多模态联合预测,以便下游规划器可以进行应急规划。时间一致性:对于下游规划器来说,运动规划严重依赖于预测结果。为了确保平滑的运动规划,如果场景本身在此期间没有发生剧变,预测结果在连续的时间步之间不应该发生显著变化。因此,应避免采样,因为预测结果可能在时间步之间发生显著变化,导致运动规划的不连续性,可能会影响规划性能和安全性。条件:条件是固定一个或多个代理的未来轨迹,并预测其他代理的未来轨迹的分布。条件预测对于运动规划(以自我代理的运动规划为条件)和理解代理之间的相互作用非常有用。条件预测在一些现有的作品中已经存在,例如[42],但需要显式建模。理想情况下,条件分布应该在不需要对模型进行结构改变的情况下生成。01.2. 贡献0在这项工作中,我们提出了ScePT,一种用于多个相互作用代理的联合轨迹预测方法。我们的贡献有三0我们提出了ScePT,一种用于多个相互作用代理的联合轨迹0首先,我们提出预测代理团体的未来,而不是个体或整个场景图(第3.1节),并提出了一种神经网络架构来实现这一点(第3.2节)。其次,我们借鉴运动规划的见解,提出了一种策略网络,通过模拟代理之间的相互作用并将其映射到控制输入,自回归地展开闭环轨迹预测(第3.3节)。最后,我们通过在训练过程中使用可调节的风险度量来改进输出样本多样性,该度量决定了轨迹样本之间的权重(第3.6节)。0在大规模实际行人和驾驶数据集上进行评估时,ScePT取得了显著的改进。0并且通过使用ScePT减少了捕捉场景级多模态性所需的维度(第4.1节);通过碰撞率(第4.2节)来衡量其预测的场景一致性取得了显著的改进;并且轻松实现了反事实分析(第4.3节);所有这些对于仿真(第4.3节),下游规划(第4.4节)和验证自动驾驶性能都至关重要。02. 相关工作0早期的轨迹预测工作主要是0本体论,提出了关于代理决策的结构。0决策过程,例如社交力模型[22,33],隐马尔可夫模型[27]和智能驾驶模型[45]。然而,由于其表达能力的限制,这些模型在复杂场景下无法扩展,尽管进行了大量的调整。为了解决这个问题,许多研究人员一直在开发现象学方法,即专注于从大量数据中学习代理行为的方法。一些值得注意的作品包括Social LSTM [2],GAIL[28],MFP [44]和DESIRE[29]。由于轨迹预测问题本质上是一个序列到序列的建模任务,最近的研究通常应用循环神经网络(RNNs)[10,21,29,40,42,44]和Transformer [31,34,50],取得了强大的结果。0轨迹预测的另一个核心方面是考虑0对于代理和场景几何之间的相互作用,有两种常见的选择来模拟代理之间的相互作用,即图神经网络(GNNs)和卷积神经网络(CNNs)。基于GNN的方法[10,42,48,52]使用代理作为节点和它们之间的相互作用作为边来构建场景图,通过消息传递来聚合信息。基于CNN的方法[4, 16, 19, 26, 34,36,51]通常将场景信息栅格化为图像的层,例如鸟瞰图像(BEV)和速度图像,以编码信息。总的来说,基于CNN的方法具有固定的计算复杂度(通常比基于GNN的方法更快),并保留了场景的几何信息。基于GNN的方法可以被视为场景的“稀疏”表示,并允许更复杂的特征,但其计算复杂度至少与代理数量呈线性关系,并且在没有使用特殊结构的情况下可能会丢失几何信息[9]。0一旦收集和编码了场景信息,生成0通常使用生成对抗网络(GANs)[21,40]和CVAEs[18,29,42]等生成多模态轨迹预测。其中,由于其性能和训练的便利性,CVAE模型是最常见的选择。具有连续潜变量空间的CVAEs[10,48,52]具有更强的表达能力,但需要采样来获得预测结果,从而消除了顺序输出中的时间一致性。另一方面,离散潜变量空间 [42,44]不需要采样,但表达能力较弱,更容易出现模式崩溃。0由于轨迹预测通常涉及多个场景中的代理0在场景中的代理问题中,场景一致性的问题出现了,即不同代理的预测不应与彼此或静态障碍物发生碰撞。对于追求高预测准确性的模型,特别是以代理为中心的模型,场景一致性通常较差。为了解决这个问题,[17,21]在编码器中使用池化来建模代理之间的交互,[52]引入了一个具有聚类代理共享组模式的群级编码器,[10]通过消息传递学习场景交互模型。与编码器相比,耦合解码更加困难,因为未来的轨迹是未知的。[32]使用虚构博弈来进行预测。(171050进行预测并逐步提高预测质量,[44]执行自回归解码,基于先前的预测步骤构建后续的预测。[9]使用消息传递过程搜索最可能的联合轨迹,但只预测单一模式。据我们所知,大多数现有方法不将代理建模为具有观察、成本函数和执行输入的策略规划器,同时明确强制执行场景一致性。0对于涉及下游代理的自动驾驶车辆0对于规划器来说,考虑多模态性也很重要,即存在多个不同的未来可能性。然而,模式的数量不能太大,以免使下游规划器不堪重负。[12]生成一组被认为可能的运动基元,并限制规划器避免它们。[24]将多模态预测表示为线性动力学的混合物(而不是轨迹片段),简化了在下游规划中的应用。为了在有限的计算预算下实现广泛的模式覆盖,提出了几种多样性采样技术。[49]提出使用确定性点过程进行多样性潜变量采样,[23]使用最远点采样算法,[15]应用由GNN给出的系数的重新参数化技巧。总体而言,大多数现有的多样性采样技术都是针对连续潜变量空间设计的。在这项工作中,我们引入了一种新的基于风险的损失修改方法,为具有少量样本的离散潜变量空间提供输出多样性。03. ScePT0ScePT 1是一个离散的CVAE模型,输出联合轨迹0在场景中为多个代理进行轨迹预测,通过推理每个代理的运动策略和其邻居的影响,确保预测具有高场景一致性。0术语。在本文中,我们使用术语0节点和代理可以互换使用,代表着车辆、行人、骑车者或其他类型的道路使用者。我们使用 s 表示代理的状态,e表示两个节点之间的边。由于我们的模型是一个CVAE,我们遵循CVAE文献中的标准术语,即 x 表示条件变量,y表示观察变量,z表示隐藏的潜变量。我们使用粗体字表示与一组节点(例如一个团)相关的变量。例如,对于由节点1到N组成的团,z1,...zN是每个节点的潜变量,z =[z1,...zN]是团的潜变量。03.1. 预处理0模型,即其输出预测是场景中多个节点的联合轨迹。给定一个具有多个节点的场景,生成一个时空场景图,其中节点表示代理,边表示它们的相互作用。我们使用代理的最近未来距离作为相互作用的代理,根据恒定速度模型Φ0:T向前传播每个节点。01 代码可在https://github.com/nvr-avg/ScePT找到0节点表示代理,边表示它们的相互作用。我们使用代理的最近未来距离作为相互作用的代理,根据恒定速度模型Φ0:T向前传播每个节点。0ai=0(si),Φt0ai=0是流量0ai=0(si),其中Φt0dij = 0ai=0(si),Φt0t2[0,T]Dis(Φt0其中Dis是两个代理之间的欧氏距离。然后我们定义场景图邻接矩阵为0ai=0(sj)),(1)0Aij 0dijdij � d0(�i, �j),0d0(�i,�j)0通过邻接矩阵确定的场景图,0其中�i是节点i的类型(例如,车辆、骑车者、行人),d0是每个边类型的固定距离阈值。03.2. 编码器0代理之间的状态)历史记录通过LSTM编码成特征向量。与0与其邻居无关的潜在变量分布不同,我们的编码器模型了联合潜在分布。具体来说,每个代理都配备了一个离散的潜在变量zi,其基数为N,使得团体的联合潜在变量简单地为z=[z1, z2,...zn]。这意味着联合潜在空间的基数随着团体中节点数量的指数增长,这也是我们限制团体大小的原因。0ScePT表示联合潜在变量分布0作为一个由节点因子和边因子组成的吉布斯分布,0log P(z) /0X0i0fi(xi, zi) +0X0eij 2E0fij(xi, xj, zi, zj), (2)171060图2.因子图,其中个体代理的潜在变量作为变量节点,而因子节点是连接的变量节点的函数。因子节点由个体代理和代理-代理交互因子组成,例如,f1是z1的函数,而f12是z1和z2的函数。所有因子节点相加得到对数似然。0其中xi是节点i的状态历史,fi是节点i的节点因子,是一个前馈神经网络,将xi和zi映射到一个实数。fij是节点对i,j的边因子,也是一个前馈网络,E是边的集合。可以通过构建因子图[1]来计算对数似然,因子图是一个具有变量节点和因子节点的二部图。图2显示了一个示例因子图。通过对z的所有可能估值求和(因为Z是离散的),可以进行归一化。0联合潜空间的基数随着团大小呈指数级增长。0我们发现,概率质量通常只集中在少数(<10)个模式上。03.3. 解码器0我们的解码器设计受到运动规划的启发。0过程,即将每个代理视为运动规划器,并模拟他们的规划过程输出轨迹预测。典型的运动规划器接受参考轨迹(即期望运动),并调整以满足约束(例如,避免碰撞)并最小化指定的成本函数。受到这个过程的启发,我们的策略网络的结构如图3所示。0策略网络的输入是当前节点的状态。0团节点、参考轨迹sdes和团潜变量z。参考轨迹是通过门控循环单元(GRU)网络生成的,该网络以状态历史编码、地图编码和潜变量z作为输入。然后将当前节点状态与参考轨迹进行比较,以获得跟踪误差∆s和局部坐标系中的下一个航点∆s+。0为了对边进行建模,将其两个节点状态配对在一起。0将状态对输入到预编码网络(全连接网络)和LSTM单元中。对于每个节点,根据图结构,邻居节点的数量可能不同。为了编码可变数量的邻居,将节点的所有边通过注意力网络[14]压缩为一个观测编码。然后,将观测编码、潜变量和跟踪误差连接起来,并通过全连接的动作网络获得节点的控制动作预测a。在这里,我们假设节点的动力学是状态和控制输入的可微函数,这对于常见的代理类型是成立的。0图3.我们的自回归策略网络架构。对于每个节点,使用注意机制汇集邻居节点的状态,然后生成控制输入和参考轨迹的编码。控制输入通过代理动力学产生位置预测,并在后续时间步骤中重复该过程。0图4.ScePT的概述:对于团中的所有节点,收集节点历史和地图信息,并通过Gibbs分布传递,生成离散的联合潜变量分布。然后,策略网络(解码器)根据潜变量样本生成闭环轨迹预测。0例如,车辆(例如Dubin车模型[20])和行人(单个或双重积分器)。然后将状态预测反馈到状态向量,重复此过程。0ScePT的整体结构如图4所示。0编码器将LSTM编码的状态和边历史以及CNN编码的局部地图作为输入,并生成团潜变量的离散Gibbs分布。潜变量连同状态历史和地图编码用于通过GRU生成每个节点的期望轨迹。然后,将期望轨迹和潜变量传递给策略网络,以获得闭环轨迹预测。03.4. 通过策略学习进行条件约束0如第1.1节所述,条件预测是一种0重要的能力。以前的工作[25, 42]通过明确编码自我未来ELBO = Ez⇠Q(z|x,y)[log(P(y|x, z))]� �DKL(Q(z|x, y)||P(z|x)),(3)Ez⇠Q(z|x,y)[log(P(y|x, z))]=Xz2ZQ(z|x, y)||fy(x, z) � yGT (x)||2,(4)CVaR1�↵(X) = inf⌘2R{⌘ + 1↵0P (x) ↵ P (x),P 0(x)dx=1 EP 0[X],(5)0Q0(z) 1↵ Q(z|x,y),P Q0(z)=1 Ez⇠Q0[||fy(x, z)�yGT (x)||2],(6)171070编码器中的轨迹。然而,假设只能对一个代理进行条件约束,这使得驾驶模拟等使用情况变得困难,因为需要为每对代理训练显式的条件模型。相比之下,PRECOG[38]只需要设置机器人的潜在变量以产生未来条件预测。类似地,ScePT不需要任何结构上的改变来产生条件预测,因为它学习了代理的相互作用策略。条件预测通过简单地固定条件代理的轨迹展开,并输出团中其余代理的轨迹预测来生成。由于固定的未来轨迹不属于任何潜在模式,我们从Gibbs分布因子图中删除了与条件节点有关的任何因素。03.5. 训练0按照标准的CVAE训练[43],我们的目标是0证据下界(ELBO)损失:0其中 z 是团的潜在变量,y 是所有节点的未来轨迹,x是条件变量,包括节点和边的历史、地图编码和团中所有节点的车道信息。对于似然成本,我们假设每个模式的预测轨迹周围存在高斯噪声,导致2-范数损失,0其中 f y ( x , z ) 是解码器的轨迹预测,y GT ( x )是0我们还添加了一项碰撞惩罚,详细说明见附录A.0附录A.3中,作为一种正则化项来惩罚不兼容的预测,其影响将在第4.5节进一步讨论。还可以添加其他类型的正则化,例如乘车舒适性,因为策略网络中明确包含了节点动力学。对潜在空间进行采样。虽然我们的离散潜在0空间是可枚举的,Z的基数随着团的大小呈指数增长。因此,解码所有模式有时是不可行的。为了解决这个问题,我们应用多样性采样。具体来说,我们选择概率最高的 Ng个模式,并从剩下的模式中随机采样 Nr 个模式。当 Z的总基数小于 Ng + Nr时,选择所有模式。然后对样本概率进行归一化,以避免期望损失收敛为0。03.6. 模式崩溃和多样化采样0轨迹预测的离散CVAE容易0模式崩溃,即解码器倾向于在不同模式下预测相似的轨迹,因为似然成本是一个02-范数误差的加权和,平均预测很可能是一个局部最小值。模式崩溃已经在以前的工作中讨论过,并通过多轨迹预测(MTP)损失[16]、使用先验知识[11,19]和通过将地面真值分类为不同类别来分配模式[31]等方法来解决。我们的方法保持了期望损失函数,但引入了CVaR作为避免模式崩溃的新方法。条件风险值(CVaR)[39]是金融和优化中常用的风险度量,定义为0Z 10−10[ x − � ] + P ( x ) }0= min0R0其中P是X的概率分布,�调整风险规避程度。CVaR是在P下x的最低�-百分位值的均值。当�趋近于0时,�!0会得到X的本质下确界,�=1会得到E[X]。0可以理解为将分布P转换为在约束条件下的分布P0,其中P0必须是一个合适的分布,并且对于所有的x,P0(x)≤1�P(x)。受到对偶形式的启发,我们将期望损失在(4)中修改为:0将(4)中的期望损失修改为:0最小值0这是离散模态中最佳的百分位损失值。这种CVaR损失不会强制所有模态与实际情况匹配,只会匹配那些已经接近的模态,直接防止模态坍缩。与通常侧重于最坏结果的风险度量的常见用法相比,我们使用CVaR侧重于最佳预测,以保持输出的多样性。在训练过程中,使用�来权衡模型对编码器准确性和多样性的关注,详见附录A.4。除了使用CVaR,我们还使用贪婪算法来多样地采样产品潜在空间,详见附录A.5。04. 实验0我们评估了ScePT在以下任务上的性能:0行人和车辆运动预测。具体而言,我们使用了众所周知的ETH [35]、UCY [30]和nuScenes[7]数据集。度量标准。我们使用常见的平均位移误差(ADE/FDE)指标来衡量轨迹预测的质量。由于我们的输出是多模态的,我们采用了最佳N(BoN)扩展,并从编码器中选择N个最高概率模态来计算BoNADE/FDE值。与具有连续潜在空间的先前工作不同,ScePT的采样过程不是从潜在分布中随机采样,而是选择编码器认为最有可能的N个模态。因此,当样本数量大于可能的团体模态数量(即N > |Z|)时,我们只采用|Z|个样本。For all pedestrian datasets, the maximum clique size is 5171080图5.ETH数据集在不同样本数量下的FDE,最显著的改进出现在3个样本时。0ETH(包含ETH和Hotel场景)[35]和04.1. 行人运动预测0对于所有行人数据集,最大团体大小为50UCY(包含Univ、Zara1和Zara2场景)[30]数据集是行人运动预测的广泛使用的基准。它们一起包含了9514个独特的行人,在许多具有挑战性的、互动的现实世界场景中。0每个节点的潜在空间基数为6。ADE/FDE的结果如表1(确定性)和表2(多模态)所示。虽然ScePT主要设计用于自动驾驶,但在行人数据集上表现出色,在该领域的最新模型中取得了最佳或次佳的性能。特别是,在ADE方面,ScePT在大多数数据集上优于先前的方法,但在UCY场景中的FDE方面表现稍差。可能的原因是UCY数据集比ETH更密集,迫使ScePT将大型场景图分割成小的团体。一旦分割完成,团体之间的相互作用被忽略,从而损害了预测准确性。然而,使用更大的最大团体大小会导致联合潜在基数过大,进一步降低性能。即使在这些情况下,ScePT仍然与最先进的预测方法相媲美。0图5显示了ETH数据集在不同情况下的FDE0由于我们在损失函数中使用了CVaR,ScePT能够生成多种模式。仅经过3次采样,我们的方法的预测已经非常准确。我们观察到这种现象在所有数据集中都存在,并发现采样3到5种模式可以在预测质量和运行时复杂性之间取得良好的平衡。04.2. 车辆运动预测0nuScenes数据集[8]由1000个驾驶场景组成0场景,每个场景持续20秒,包含多达23个物体类别。为了匹0在挑战集中,只有车辆和行人在训练和评估过程中进行预测。表3总结了我们的方法与一组最先进方法的预测准确性。尽管ScePT丢弃了节点之间的边缘0图6. ScePT的碰撞率优于Trajec-0tron++[42]没有碰撞成本的正则化。通过碰撞成本的正则化,碰撞率几乎为零。0在团体中,预测准确性接近于最先进的水平,特别是在较晚的时间步骤中。此外,由于我们的多样性促进设计,只需添加1或2种额外模式就可以显著提高预测准确性。0如前所述,场景一致性在0轨迹预测对于规划至关重要,尤其是在模拟和验证自动驾驶车辆的性能时。图6比较了碰撞率0Trajectron++[42]和ScePT在不同的预测时间范围内实现了这一目标。碰撞率是通过两个模型预测的所有车辆的轨迹进行平均计算的,包括车辆与车辆之间和车辆与行人之间的碰撞。结果显示,ScePT的预测比Trajectron++的碰撞要少得多,即使没有碰撞成本的正则化,通过正则化,碰撞率几乎为零。此外,碰撞率随着时间范围的增加而减少,这意味着较早时间步骤的碰撞可能是由于初始条件不佳,而学习到的策略网络能够在较晚时间步骤中解决冲突。04.3. 条件化和反事实分析0条件化是一种重要的能力,使得0通过下游规划器获得基于自身运动的轨迹预测。它还可以用于进行反事实的“如果”分析。图7展示了ScePT进行条件预测的能力,左右两个图分别显示了无条件和有条件的预测。在右上方,我们将车辆A和C的制动条件设置为 -4 m/s 2,以完全停止。因此,我们的方法预测:(1)车辆B将制动以避免碰撞,(2)车辆D将进行车道变更以避免与车辆C相撞。在右下方,我们将车辆C的加速度设置为4 m/s 2。这引发了一连串的反应,使得车辆B的预测避开了碰撞,然后进一步影响了车辆A和左下方的两个行人,表明团体中的节点受到该团体中所有其他节点的影响。0有趣的是,从nuScenes学到的策略0数据集对于团体大小非常稳健。我们的模型目前的最大团体大小为4,但我们对其进行了最大为8的大小的评估。即使在这种情况下,模型ETH1.09/2.350.39/3.740.71/1.66/Univ0.67/1.400.33/3.920.44//1.19Zara10.47/1.000.20/0.520.30/0.790.18/1.10Zara20.56/1.170.30/2.130.23/0.590.19/1.20ETH0.81/1.520.70/1.431.01/1.750.39/0.830.10/0.65Hotel0.72/1.610.76/1.670.43/0.800.12/0.210.13/0.77Univ0.60/1.260.54/1.240.44/0.910.20/0.440.12/0.65Zara10.34/0.690.30/0.630.26/0.450.15/0.330.13/0.77Zara20.42/0.840.38/0.780.26/0.570.11/0.250.14/0.81S-LSTM [2,9]0.47-1.61-CSP [9,18]0.46-1.50-CAR-Net [9,41]0.38-1.35-SpAGNN [9]0.35-1.23-Trajectron++ [42]0.070.451.142.20min{ai0:T �1,si0:T }Mi=1Xi⇡iJ (ai0:T �1, si1:T )s.t. sit+1 = Dyn(sit, ait), 8i, t, ait 2 A, xit 2 S,C(si1:T , yi1:T ) 0, i = 1..., M,si0 = s0, a10 = a20 = ...aM0 ,171090数据集 S-LSTM [2] S-ATTN [46] Trajectron++ [42] ScePT0酒店 0.79/1.76 0.29/2.64 0.22 / 0.46 0.18 / 1.120平均值 0.71/1.54 0.30/2.59 0.38 / 0.93 0.19 / 1.190表 1. 使用最可能的模式的 ADE/FDE(以米为单位)。粗体 / 斜体 字体表示最佳 / 第二最佳值。数值越小越好。0数据集 S-GAN [21] SoPhie [40] MATF [51] Trajectron++ [42] ScePT0平均值 0.58/1.18 0.54/1.15 0.48/0.90 0.19 / 0.41 0.12 / 0.730表 2. 最佳 20 种模式的 ADE/FDE(以米为单位)。粗体 / 斜体 字体表示最佳 / 第二最佳值。数值越小越好。0方法 @1s @2s @3s @4s0我们的 0.44 0.93 1.63 2.580我们的(最佳 2 种模式) 0.41 0.83 1.44 2.200我们的(最佳 3 种模式) 0.40 0.80 1.36 2.140表 3. ScePT 在 nuScenes车辆上的预测准确性几乎与最先进的方法相当。此外,由于其多样性促进的设计,ScePT0通过增加 1 或 2 个额外的模式,可以显著提高 ScePT的预测准确性。0图 7. ScePT的设计可以产生根据任意数量的代理进行条件预测。左:原始的、未经条件约束的预测。右上:根据车辆 A 和 C刹车的条件约束预测。右下:根据车辆 C 加速的条件约束预测。0仍然能够产生合理的条件预测,验证了策略网络的注意力网络的有效性。04.4. 与下游规划器的集成0为了展示 ScePT 在集成时的性能0将其预测结果提供给下游的基于模型预测控制(MPC)的规划器。MPC规划器考虑多模态轨迹预测,并通过分支进行应急规划[3,13]。给定 M 个联合轨迹预测,MPC 规划 M个相应的自车轨迹,并附加约束:所有 M个自车轨迹的第一个控制输入必须相同。形式上,0其中 � i 是预测模式 i 的概率,s i 和 u i0第 i 种模式下的自车的计划状态和输入序列,J 是成本函数,C是约束(例如避免碰撞)。方程(7)是一个非线性优化问题,使用 IPOPT [47] 求解。例如,当 M = 3 时,我们未经优化的PyTorch 预测代码在不到 240ms 的时间内执行,MPC规划在不到 60ms 的时间内完成,都在 CPU 上运行。图 8显示了将 ScePT 的预测与下游 MPC规划器相结合的结果,可视化预测模式及其产生的自车运动计划。04.5. 消融研究0碰撞成本正则化和准确性。正如我们在第4.2节中所看到的,没有碰撞惩罚的ScePT的碰撞率已经超过了之前的工作。当添加碰撞惩罚时,ScePT的碰撞率下降到几乎为零。171100图8.预测和规划的整合。黑色车辆:自车;蓝色车辆:自车团伙外的相邻车辆;青色轨迹:规划轨迹(3种模式);绿色和棕色车辆:自车团伙内的相邻车辆;绿色和棕色轨迹:预测轨迹(前3种模式);品红色圆圈:行人;红色线条:自车团伙内的连接节点。0@1s @2s @3s @4s0有碰撞惩罚 0.44 0.93 1.63 2.580没有碰撞惩罚 0.40 0.92 1.70 2.710表4. 包含碰撞惩罚正则化对nuScenes车辆预测准确性的影响。0损失消融 @1s @2s @3s @4s0有CVaR 0.44 0.93 1.63 2.580没有CVaR 0.45 0.97 1.74 2.790表5. CVaR损失对nuScenes预测FDE的影响。0几乎为零。表4总结了包含碰撞惩罚对预测准确性的影响。我们可以看到,在添加碰撞惩罚后,预测准确性要么相同,要么更好,表明避免碰撞也能产生更准确的输出。0我们还评估了没有碰撞的条件预测0碰撞惩罚,当一些节点被分配错误行为时,碰撞更有可能发生。例如,图7(顶部)的情况导致B和D车辆在没有碰撞惩罚正则化训练的模型预测下撞到了前车。这种现象意味着,没有碰撞惩罚正则化,ScePT无法在分布不一致的情况下保持场景一致性。总的来说,这个正则化项强制模型保持场景一致性,使其对分布不一致的情况更加鲁棒。�的影响。为了研究在公式(4)中使用CVaR的效用,我们对不同的 � 值进行了消融研究。我们的基准模型使用变化的�(在训练期间从0.2逐渐增加到1.0)。我们还训练了一个 � =1.0的版本,此时CVaR损失函数等效于原始期望。表5总结了结果,表明在原始损失函数中使用CVaR优于期望。团伙形成的影响。为了评估ScePT对团伙形成过程的敏感性,我们将Sec.3.1中描述的距离标准改为当前时间节点之间的欧氏距离。表6总结了结果,表明流量距离划分导致更好的性能,而使用简单的欧氏距离也能得到不错的性能。0距离消融 @1s @2s @3s @4s0流量 0.44 0.93 1.63 2.580t = 0 欧氏距离 0.43 0.95 1.70 2.710表6. 团伙形成距离标准对nuScenes的影响0nuScenes预测准确性(FDE)。0团伙大小消融 @1s @2s @3s @4s0最大团伙大小 2 0.41 0.90 1.63 2.680最大团伙大小 4 0.44 0.93 1.63 2.580最大团伙大小 6 0.64 1.27 1.90 2.900表7. 最大团伙大小对nuScenes预测准确性(FDE)的影响。0结果,表明流量距离划分导致更好的性能,而使用简单的欧氏距离也能得到不错的性能。0另一个重要的参数是最大团伙大小0大小。由于节点只考虑其团伙内的邻居,因此节点忽略了其周围的邻居。0团伙,小团伙规模导致节点忽视了一些未被分配到同一团伙的附近邻居。另一方面,如果团伙太大,团伙的产品潜在空间的基数变得太大,在贪婪采样时会导致问题。经过实验,我们发现最大团伙大小为4时效果最好。表7总结了这个消融实验的结果。05. 结论和未来工作0该模型使用CVAE生成具有高场景一致性的多模态联合轨迹预测。编码器使用Gibbs分布捕捉代理之间的相互作用,并输出整个团的预测模式概率,而不是单个节点。解码器学习代理之间的相互作用策略,以生成具有高场景一致性的闭环轨迹预测,这要归功于训练过程中使用的显式碰撞惩罚作为正则化项。在ETH、UCY和nuScenes数据集上的实验证明,该模型能够以显著提高的场景一致性实现最先进的预测准确性。还展示了该模型与下游应急计划器集成的能力,并通过条件生成类似人类的行为。该模型的一个重要局限性是其稀疏性的丧失。由于解码器同时为团中的所有节点生成预测,因此无法利用相互作用图的稀疏性仅考虑每个节点的邻居。这导致联合潜在空间的指数基数,并强制限制团的大小。随后,忽略了不同团中节点之间的相互作用,尤其是在UCY数据集中存在大量拥挤代理时,会对准确性产生妥协。另一个局限性是由于自回归策略网络而导致的计算时间,可以通过更高效的编码和并行化进一步改进。[1] Pieter Abbeel, Daphne Koller, and Andrew Y Ng. Learningfactor graphs in polynomial time and sample complexity. TheJournal of Machine Learning Research, 7:1743–1788, 2006.[2] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei, and Silvio Savarese. So-cial lstm: Human trajectory prediction in crowded spaces. InIEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR), pages 961–971, 2016.[3] John P Alsterda, Matthew Brown, and J Christian Gerdes.Contingency model predictive control for automated vehi-cles. In 2019 American Control Conference (ACC), pages717–722. IEEE, 2019.[4] Mayank Bansal, Alex Krizhevsky, and Abhijit Ogale. Chauf-feurnet: Learning to drive by imitating the best and synthe-sizing the worst. arXiv preprint arXiv:1812.03079, 2018.[5] Dhruv Batra, Payman Yadollahpour, Abner Guzman-Rivera,and Gregory Shakhnarovich.Diverse m-best solutions inmarkov random fields. In European Conference on Com-puter Vision, pages 1–16. Springer, 2012.[6] Vincent D Blondel, Jean-Loup Guillaume, Renaud Lam-biotte, and Etienne Lefebvre. Fast unfolding of communitiesin large networks. Journal of statistical mechanics: theoryand experiment, 2008(10):P10008, 2008.[7] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Gi-ancarlo Baldan, and Oscar Beijbom.nuscenes: A multi-modal dataset for autonomous driving. In IEEE/CVF con-ference on computer vision and pattern recognition (CVPR),pages 11621–11631, 2020.[8] Holger Caesar, Varun Bankiti, Alex H Lang, Sourabh Vora,Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Gi-ancarlo Baldan, and Oscar Beijbom.nuscenes: A multi-modal dataset for autonomous driving. In IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition (CVPR),pages 11621–11631, 2020.[9] Sergio Casas, Cole Gulino, Renjie Liao, and R
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功