基于似然的轨迹预测多样抽样方法

131 浏览量更新于2023-10-14 收藏 1.72MB PDF 举报

轨迹预测

概率方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13279基于似然的轨迹预测多样抽样方法宾夕法尼亚大学jasonyma@seas.upenn.eduJeevana Priya InalaMIT CSAILjinala@csail.mit.eduDinesh Jayaraman，Osbert Bastani宾夕法尼亚{dineshj，obastani} @seas.upenn.edu摘要预测复杂的车辆和行人的多模态分布需要强大的概率方法。规范化流（NF）最近出现作为一个有吸引力的工具来模拟这样的分布。然而，一个关键的缺点是，从流动模型中提取的独立样本通常不能充分捕获底层分布中的所有模式。我们提出了基于Likelihood-BasedD iverseS sampling（LDS），这是一种用于提高来自预训练流模型的轨迹样本的质量和多样性的方法。而不是生产个别样本，LDS生产，在一个镜头的轨迹集。给定预先训练的预测流模型，我们使用来自模型的梯度来训练LDS，以优化目标函数，该目标函数奖励预测集中的个体轨迹的高似然性，以及轨迹之间的高空间分离。LDS优于各种预训练流模型以及条件变分自动编码器（CVAE）模型的最先进的事后神经多样性预测方法至关重要的是，它还可以用于转导轨迹预测，其中各种预测在未标记的测试示例上进行实时训练LDS是很容易实现的，我们表明，它提供了一个简单的插件改进基线上两个具有挑战性的基准。代码位于：https://github.com/JasonMa2016/LDS1. 介绍自动驾驶汽车面临的一个关键挑战是准确预测其他车辆的未来轨迹。这些未来轨迹通常是多样的和多模态的，需要预测模型来预测不是单一的真实未来，而是全范围的合理未来[25]。随着驾驶数据的日益丰富[4，6]，一种有前途的方法是从数据中学习深度生成模型，以预测未来轨迹上的概率分布[24，15，18，37，33，34，36，30]。然而，由于自然偏差，采样i.i.d.深度生成模型的先验分布可能无法覆盖深度生成模型中的图1：（a）在这个十字路口，在我们的训练数据集中，90%的汽车右转，(b)在该数据上训练的归一化流轨迹预测器，采样100次i.i.d.，不会产生任何直线轨迹。(c)插入我们的LDS采样器后，同一预测器仅用2个样本即可生成直线和右转轨迹。详情见附录B。轨迹分布，特别是考虑到现实世界交通操纵的不均匀考虑图1（a）中的场景和归一化流量（NF）[32]预测模型[35，34]。身份证。根据图1（b）中的流量模型进行的预测成功地捕获了与右转对应的主要模式; 2然而，为了在该交叉口安全驾驶，我们还必须预测与直行车辆对应的次要模式我们提出了一种通用的，事后的方法，称为基于Likelihood的DiverseS采样（LDS），用于提高质量和样本的多样性从一个预先训练的生成模型。关键的想法是，与其画i.i.d. 从生成模型中提取样本，LDS学习整个轨迹集上的采样分布，这共同最大化两个目标：（i）根据模型的轨迹的似然性，以及（ii）鲁棒的基于目标的多样性目标，其鼓励轨迹之间的高最终空间分离。直观地说，这两个目标一起鼓励一组预测，以覆盖基本轨迹分布中的模式在我们的玩具示例上运行LDS的结果如图1（c）所示;它正确地发现了直行的次要模式，并将样本分布在两种模式上。图2提供了LDS目标和架构的概述由于我们的技术利用了学习的基础生成模型下的轨迹可能性，因此它自然适合于基于NF的13280图2：左：拟合在大多数车辆右转和一小部分直行的交叉口处的数据，（1）：LDS预测一组覆盖两种模式并且是现实的路径，（2）：仅针对模型可能性进行优化生成现实但错过顶部的次要模式（小星形）的样本，以及（3）：仅针对多样性进行优化生成可以覆盖两种模式的样本模式，但并不现实。右图：LDS体系结构概述。LDS取代标准i.i.d.在所述潜在空间中的一组样本上利用学习的联合分布在所述流模型中进行采样这些样本允许预训练的流模型输出多样化和真实的轨迹。模型，其计算其生成的样本的精确可能性。据我们所知，我们的方法是为NF模型量身定制的第一种多样的采样技术然而，我们注意到，我们的技术也可以应用于其他基于可能性的模型，例如，我们可以通过使用可能性的证据下限来处理VAE。LDS的一个关键优势是它可以在转导学习的设置中被利用[38]。特别地，由于LDS不需要成对的轨迹（历史和未来）用于训练，因此它可以直接定制采样器以改进针对给定的新颖测试实例的预测，即使没有任何先前的训练。通过专门针对该测试实例，转导学习可以优于不能执行测试时自适应的监督学习。据我们所知，先前没有考虑过用于轨迹预测的感应设置，但我们认为它最接近地反映了自主车辆在现实世界中面临的预测任务。LDS易于实现，只需要不到 30行代码。我们在nuScenes [4]和分叉路径[25]上评估LDS，这是两个具有挑战性的单未来和多未来[25]基准。我们的实验表明，LDS提供了一个可靠的性能提升时，插入到各种现有的NF/CVAE预测模型和执行竞争的方法。这些结果进一步改进了LDS应用于传导预测时。2. 相关工作多模态预测多模态预测问题有多种方法。一种方法是预先定义用作候选输出的轨迹基元，并将预测问题公式化为分类和回归的混合[10，5，9，31]。然而，这些方法需要额外的标记信息;此外，它们通常只输出一组确定性的预测给定的输入。相反，我们建立在直接模拟多模态密度的深度生成模型[15，24，37，18，36，35，30]上。特别是，规范化流程[32，29]由于其相对容易的优化[33，30，35，13]以及其对下游任务（如目标条件规划[34]）的灵活性而成为流行的选择我们的方法被设计为一个插件的改进采样更好，更多样化的预测，从这个家庭中的任何模型。我们的方法也与基于VAE [21]的预测模型[24，40，36，27]兼容。我们的多样性损失公式化使用预测轨迹的端点。最近已经探索了类似的想法[27，42，7]，但我们的方法是一种事后方法，并且以无监督的方式推断出合理的端点，而以前的工作是端到端架构，并且需要地面真实端点来指导模型训练。事后神经多样性采样。一些先前的作品学习从预训练的生成模型中采样[3，14，12，27]。我们的方法与最近的两种用于预测的神经事后多样采样方法DSF [40]和DLow [41]密切相关。DSF使用神经网络来参数化确定性点过程（DPP）[22]，从中提取样本DPP内核使用基于潜在样本与其先验分布均值的欧几里得距离的阈值函数来选择DSF继承了其DPP的训练缓慢和推理的缺点。撇开计算问题不谈，DSF无法扩展到高维潜在空间，其中欧氏距离不是紧密度的信息度量。相比之下，DLow使用修改的地面实况轨迹重构损失和KL散度来对潜在样本进行整形，并使用指数核函数来诱导样本多样性。然而，它限制其采样网络的结构是关于潜在样本的单层线性网络，以允许易处理的KL约束计算。132812--Z {}NS {}✓简体中文⇠--|D✓✓.DZZ = f-1（S;o）。i j2K2在其目标。这限制了所学习的采样分布的表现力。此外，由于其目标需要用于训练的地面实况轨迹期货，因此它不能用于我们在实验中引入的转导设置中。DSF和DLow都引入了难以优化的额外的内核相关超参数。与DSF和DLow相比，LDS允许多层采样架构和高维潜在空间，利用生成模型下的轨迹似然性以允许包括转导预测的灵活应用，引入很少的超参数，并且在我们的实验中始终表现得更好。3. 问题设置考虑预测智能体的轨迹的问题，智能体在时间t的2D位置被表示为St=（xt，yt）。我们将当前时间步长表示为t=0，并且未来聚合状态为S：=S1：TRT2。在时间t=0时，代理可以访问观察o，其可以包括背景特征，例如激光雷达扫描、物理at-车辆/行人代理的贡献（例如，速度、偏航）以及场景中所有代理的状态历史。轨迹预测的目标是在给定o，p（S）的情况下预测S|o）。我们将训练数据集表示为D={（o，S）}。|D基于似然的D逆S采样（LDS），其学习K个样本Z1，… ZK在f✓的潜空间中。这样做的目的是提高轨迹f（Z1），…（一）保持其根据流动模型1的合理性。特别地，LDS训练神经网络r以将高斯分布（0，I）转换为集合上的分布：=Z1，…ZK=潜伏期的r（;o）向量给定观测值o。该集合进而引起轨迹上的分布：其中对于每个k，Sk=f✓（Zk;o）。由于分布是-在多个样本集上精细化，单个样本Sk不再独立。非正式地说，他们应该是反-以确保它们覆盖不同的模式。我们训练r以最小化以下损失函数：LLDS（）：= NLL（）-λd Ld（），（3）其组合来自流模型的负对数似然（NLL）损失和目标分集损失L_d。图2（左）提供了这两个术语的直观性，并且我们在下面详细解释它们。可能性目标。NLL项定义为：X我们的方法假设为giv en，具有以下的流动模型f✓被预训练以获得分布P✓（SO; ）的情况。在高水平，假设基于多变量高斯采样NLL（）：=-k=1 logp✓（Sk|（k）、（4）分布ZPZ（0，I），f✓是一个双射映射在Z和S之间，由以下向前和在f✓的相反计算中：S=f✓（Z;o）p✓（S|o），Z=f -1（S;o）PZ（1）为了绘制一个轨迹样本S，我们对ZPZ进行采样并计算S=f✓（Z;o）。此外，轨迹S的精确似然由变量变化规则给出：哪里S1，…SK=f✓（r（;o））且logp✓（Sko）为如等式（2）中所计算这个NLL术语激励LDS输出一组预测，根据流动模型f ✓，所有预测都具有高可能性。这个术语激励f✓最大化训练轨迹的可能性通过选择合理且可能发生的轨迹。就其本身而言，它并不能激励预测的多样性;它们可以容易地集中在主模式周围，如图2（左）中的“最可能的”轨迹。llogp（S|o）=l〇 g✓p⑵·。detdf✓.. 1-1◆，多样性目标。为了解决这个问题，我们将...最小成对平方L2距离其中f ✓的双射性质和标准结构选择允许行列式的简单计算。我们建议读者参阅附录A，以获得更详细的介绍。基于流的轨迹预测。4. 流的多样性采样在随机设置中，通常需要使用K >1轨迹预测而不是仅一个，以确保样本覆盖可能的随机期货的全部范围;我们假设预测数K是给定的超参数。但是，如图1所示，简单地绘制Ki.i.d. 来自流动模型f✓的样本可能来自次要模式的样本不足，并且无法捕获所有潜在输出。来了我们提出了一个替代策略，我们称之为预测轨迹端点：Ld（f）：=minkf✓（Zi）T-f✓（Zj）Tk2。（五）最小公式强烈地激励LDS在分布中的不同模式之间分配其样本，因为任何两个最终彼此太接近的预测将显著减小Ld。在我们的实验中，我们观察到基于均值的多样性公式遭受网络“欺骗”行为，其中除了一个预测外，所有预测都崩溃到单个轨迹，并且遗漏的轨迹是遥远的，从而导致相对较高的1虽然我们的技术讨论集中在NF模型上，但我们强调LDS也可以通过用ELBO代替NLL应用于CVAE模型;我们在附录C中提K（二）13282供了LDS-CVAE的详细信息。13283⇥2个N算法1批量LDS训练输入：Flo wf✓，观察批次{o}1：初始化LDS模型r2：foroiodo3：样本（0，1）4：计算Z1，…ZK=r（;oi）5：生成预测f✓（Z1），..，f✓（ZK）6：使用等式4和5第七章：端8：对f执行随机梯度下降以最小化L_LDS（等式3）输出：训练的LDS模型r多样性我们的配方是强大的这种退化，因为只有成对的最小值将被考虑。虽然轨迹之间的距离的许多其他概念与我们的框架兼容，但我们单独测量最后一个时间步长处的距离，因为轨迹端点之间的空间分离是我们的应用中轨迹多样性的良好度量[27，42，7]。最后，为了训练r，LDS使用随机梯度下降最小化L个LDS;参见算法1。实施详情。LDSr被实现为具有K个头的3层前馈神经网络，每个头对应于预测集中单个输出的潜在zk我们假设可以访问输入嵌入预训练流模型的层，其将高维（视觉）输入〇嵌入到较低维特征向量中。将这些特征向量作为LDS的输入。此外，我们固定输入高斯的维度与来自f的轨迹输出S相同✓（即：T 2）。此外，为了防止分集损失。发散时，我们将其裁剪为正值。附加细节见附录F.5和G.3。5. 传导轨迹预测转导学习是指对于多样性采样，它相当于以下内容：给定一个新的观测值O，计算一组最好地捕捉可能的随机未来的不同轨迹。也就是说，监督学习关注所有测试轨迹的平均准确度，而转导学习关注车辆的当前位置。该设置紧密地捕捉了自动驾驶车辆在实践中面临的预测问题;然而，由于现有的端到端预测模型的训练过程需要具有基本事实标签的数据，因此现有的端到端预测模型通常缺乏用于转换设置的能力。相比之下，LDS从这个意义上说，LDS采样器是用-出监督。因此，它可以被转导地使用，并且在运行中适应给定的新观察（例如：车辆进入的新的形式上，给定未标记的输入o，我们可以训练为o定制的LDS模型r。我们称这种变体为LDS-TD-NN。与普通“批处理”LDS相比用于预训练流模型的训练集是不可用的。在转导设置中，LDS可以避开神经网络，直接优化潜在空间样本Z1，… ZK. 我们称这种粒子变体为LDS-TD-P。注意与神经变体不同，LDS-TD-P不能接受观察值O作为输入。LDS-TD-NN和LDS-TD-P总结在附录D的算法2和3中。6. 实验我们的实验旨在解决以下问题：（1）LDS是否提高了不同预训练流模型的性能？（2）LDS也可以应用于预训练的VAE模型吗？、（3）LDS与（a）其他基于学习的多样化采样方法和（b）现有的端到端多模态预测模型相比如何？、（4）LDS在转导学习环境中有效吗？（5）LDS的哪些组件对性能最重要我们通过在两个定性不同的数据集nuScenes [4]和Fork- ing Paths [25]上的实验来解决问题1-4（第6.3节和第6.4节）。对于每一个，我们使用一个不同的预训练流模型，其架构和输入表示都是针对该数据集定制的。我们通过第6.5节中的消融研究解决了问题5。6.1. 数据集和模型我们首先描述我们的数据集、模型和评估指标;有关&模型体系结构、超参数和训练过程的详细信息，请参见附录F G。NuScenes NuScenes是具有大型轨迹预测数据集的多用途自主车辆数据集[4]。在先前的工作[9，31，13]之后，预测器将当前观察值（例如，激光雷达扫描）和属性（例如，速度），并预测该车辆12帧）。LDS模型。我们训练由[35，34]提出的自回归仿射流模型（AF）作为我们用于轨迹预测的底层流模型。在AF之上，我们训练LDS的三个变体。第一个是LDS-AF，算法1中的批处理版本。后两者是第5节中讨论的转导神经和基于颗粒的变体LDS-AF-TD-NN和LDS-AF-TD-P。为了进一步说明LDS的一般性，我们还考虑LDS-CVAE，LDS应用于CVAE模型。这里，我们用ELBO替换等式413284联系我们--⇤i6=j2KTi，tPJmini2KkSi，T-STk2j，tPmini2KPkSi，t-St k不k-k基线。对于神经多样性采样方法，我们考虑了DLow和DSF，并将它们应用于CVAE和AF两者除了神经多样性采样基线，我们还包括三个端到端多模态预测模型：[31]多路径[5]和MTP [9]。对于前两个，我们直接报告了 [31] 中发表的结果 ; 对于 MTP ，我们使用nuScenes的官方实现重新训练模型，为[ 31 ]中不包括的我们选择这些端到端模型进行比较，因为它们使用与我们的AF和CVAE骨干相同的输入，并且我们的目标是测试应用于简单骨干模型的事后采样方法是否与专门的端到端模型竞争在Ap-pendixF.7中，我们与Trajectron++[36]进行了比较，后者使用了与其他先前方法不同的实验设置。分叉路径。大多数轨迹预测数据集（诸如nuScenes）的一个限制是，对于每个训练样本，仅存在单个真实未来轨迹。为了评估每个预测模型该方法直接评估模型是否捕获未来轨迹中的内在随机性。因此，我们还在最近的分叉路径（FP）数据集上评估LDS [25]。FP从CARLA模拟器[11]中的真实世界行人轨迹数据集[28，2]重新创建场景，并要求多个人类注释者在模拟器中注释未来轨迹，从而为每个场景创建多个地面真实未来行人轨迹。流模型将行人在过去3秒内的轨迹（即，12帧），并且其目标是预测它们在接下来的5秒内的轨迹（即，20帧）。LDS模型。对于这个数据集，我们专注于流模型，并使用最近引入的跨代理注意力模型归一化流（CAM-NF）[30]作为我们用于轨迹预测的基础流模型;有关CAM-NF的详细信息，请参见附录G。与用于nuScenes的AF相比实验中，CAM-NF是一个已经很好的生成模型，这个实验的另一个目标是投资-行人场景然后，我们使用训练数据集（VIRAT/ActEV）在预训练的CAM-NF模型之上训练DLow、DSF、LDS。最后，我们使用K=20个样本对多个地面实况期货在测试集FP上评估所有模型对于LDS-TD-NN，我们使用附录D中算法2中描述的小minibatch直接在FP上训练和评估r。一个重要的挑战是FP中的轨迹与VIRAT/ActEV中的轨迹相比具有不同的（通常更长的）长度，因为人类注释者提供了不同持续时间的轨迹;这使得FP测试集上的6.2. 评估指标我们报告最小平均位移误差minADEK和K个预测样本Sk与地面实况轨迹S1，…SJ[37，5，25]：JT2minADEK（S，S）=j=1t=1，TJminFDEK（S，S）=j=1J这些指标广泛用于随机预测任务[37，15]，并且倾向于奖励多样化和现实的预测轨迹集。在诸如分叉路径的多未来数据集（J>1）中，这些度量是独立的，足以评估模型预测的多样性和合理性，因为没有充分覆盖所有未来的一组预测自然会招致高误差。然而，在诸如nuScenes之类的单一未来数据集（J=1）中，它们不会明确地惩罚简单地重复接近单一地面事实的轨迹的预测轨迹为了明确地测量nuScene上的预测差异，我们还报告了预测样本对之间的最小平均自距离minASDK和最小最终自距离minFSDKminASDK（S）=min1XkS-SKt=1衡量LDS是否可以用于已经性能良好的生成模型。如前所述，我们训练LDS和LDS-TD-minFSDK（S）=minSi，TSj，T2i j2 KNN在CAM-NF之上。基线。我们比较了应用于CAM-NF的DSF和DLow。所有其他基线结果直接取自[25]（表2中的行（左）），包括Social- LSTM[1]，Social-GAN[15]，Next[26]和Multiverse[25]，以及简单的线性和LSTM网络。培训和评估。我们遵循[25]中的程序。我们首先使用VIRAT/ActEV [28，2]训练CAM-NF，FP从中提取模拟的真实世界数据集这些度量评估了一个或多个节点之间的下界多样性。预测的轨迹集合的平均值，并且它们倾向于随着K的增加而减小，因为预测在已经覆盖的模式周围变得更加“拥挤”。注意，minFSD与LDS目标（等式（5））中的分集项相同。几个先前的工作已经报告了平均ASD（meanASD ）和FSD （meanFSD ）[40，41];然而，我们观察到minASD是一个更好的度量，因为它对预测中的离群值更鲁棒（参见附录F.8的说明性示例）。为了完整213285--我们还在附录F.7中报告了平均ASD和平均FSD;我们的发现与这里的结果一致。最后，由于在先前的工作中未报告minFDEK、minASDK和minFSDK，因此我们仅针对我们实现的模型报告它们除了vanilla CVAE和NF之外，所有比较的模型都将预测集中的模式数/样本数K我们使用相应的模型配置报告每个指标的结果-例如，当测量minASD5时，我们对所有模型使用K= 5。6.3. 定量结果NuScenes 在表1（左）中，我们比较了LDS-AF、LDS-AF-TD-NN，P和上述基线的预测准确度。每个子类别中的最佳方法用粗体表示。LDS-AF和LDS-AF-TD-NN实现了最佳的整体性能。将AF和CVAE与先前的多模态模型进行比较，我们看到，尽管两个minADE1），当进行更多预测时，它们的表现显著更差。这证实了我们的假设。来自生成模型的样本不能充分地捕获不同的模式，导致其不能以良好的准确度覆盖基本事实因此，事后多样性抽样显着提高了这些模型的性能。在所有事后神经多样性采样方法中，LDS为AF和CVAE提供了最显著的改善。特别是，性能最好的模型LDS-AF在批量设置中的所有模型中实现了最佳结果，甚至优于最强的多模态模型CoverNet。这表明，通过应用适当的事后多样性采样，可以从（简单的）预训练模型中我们强调，尽管没有被设计用于 CVAE ， LDS 仍然优于 DSF 和DLow，这两者最初都是用于CVAE的，证明了我们的方法的一般优点。接下来，在转导设置中，LDS-AF-TD-NN确实能够对每一小批测试实例进行预测最后，LDS-AF-TD-NN还显著优于粒子变体LDS-AF-TD-P，这可能是由于神经变体具有在观察输入o上明确地调节样本的优点。接下来，我们比较了模型的预测-表1（右）中的差异。LDS模型的表现始终大大优于基线模型。特别是，它们是唯一的模式，其多样性不会崩溃时，模式的数量从5增加到10个。这表明LDS更“有效”，其相同-因为它不重复任何轨迹。与此相反，当K=10时，所有其它方法产生非常相似的预测对。由于LDS也产生准确的预测，这些结果提供了有力的证据，LDS是能够同时优化的准确性和多样性。此外，LDS还在附录F.7中的平均多样性指标下实现了最高多样性。分叉路径。CAM-NF和各种基线模型的ActEV/VIRAT训练集结果见附录G.5。为了总结训练集结果，我们发现CAM-NF在该数据集上是有效的，仅优于当前最先进的方法Multiverse [25]，因此满足了我们测试LDS是否可以改进强骨架模型的目标。现在，我们在表2（左）中显示FP测试结果。注意，FP数据集具有两个不同的类别我们报告了两个视图之间的平均结果，并将每个子类别的完整结果划分到附录G.6中。我们观察到CAM-NF已经在所有指标上超过了所有先前的方法使用LDS，CAM-NF甚至进一步改进，大大优于所有现有方法。相比之下，DSF和DLow不能实现相同水平的性能提升，并且在DSF的情况下，效果甚至是有害的。transduc-tive变体LDS-TD-NN进一步提高FDE度量的性能，同时在ADE度量上与LDS同等地执行;该结果是有希望的，因为转导变体从不观察训练集，并且该数据集由训练集和测试集之间的明显分布偏移组成。在附录G.7中，我们提供了关于分叉路径结果的附加6.4. 定性结果接下来，我们说明了两个基准中的LDS和基线的轨迹，以证明LDS确实输出了更多样化和合理的轨迹。NuScenes示例。在图3中，我们示出了相同nuScenes实例的两个单独帧的可视化，覆盖有来自LDS-AF、AF和MTP的预测总体而言，LDS在两个帧中产生最多样化和最合理的轨迹集在第一帧中，AF表现出故障模式，因为它的一些预测偏离了道路。这证明i.i.d.从普通的流动模型可能无法识别真实的轨迹。但是当LDS用于从相同的流动模型中抽取样本时（即，LDS-AF），轨迹变得更加多样化和更加现实。在第二帧中，MTP输出违反道路约束的几个轨迹，而AF轨迹集中在一个集群中。同样，LDS-AF是预测多样性和合理性轨迹的唯一模型。在附录F.9中，我们提供了额外的可视化，包括LDS-AF-TD-NN轨迹（图8），以及通过改变模型的输入（图9）的不同轨迹LDS-AF输出集的13286方法模式minADE1（#）minADE5（#）minADE10（#）minFDE5（#）minFDE10（#）minASD5（“）minFSD5（“）minASD10（“）minFSD10（“）多路径[5]645.052.321.96------CoverNet[31]2324.732.141.72------MTP[9]五、十4.68± 1.042.61± 0.171.84± 0.045.80± 0.493.72± 0.071.74± 0.324.31± 1.600.97± 0.152.43± 0.34CVAEN/A4.20± 0.032.71± 0.032.08± 0.026.20± 0.054.58± 0.051.28± 0.032.99± 0.070.57± 0.021.30± 0.04DSF-CVAE[40]五、十-2.54± 0.212.02± 0.115.77± 0.514.44± 0.271.38± 0.223.33± 0.580.78± 0.041.85± 0.13DLow-CVAE[41]五、十-2.23± 0.131.75±0.035.00± 0.293.71±0.082.64± 0.256.38± 0.651.18± 0.162.73± 0.43LDS-CVAE（我们的）五、十-2.16±0.031.75±0.054.82±0.063.71±0.143.02±0.237.46±0.441.74±0.464.07±1.10AFN/A4.01± 0.052.86± 0.012.19± 0.036.26± 0.054.49± 0.071.58± 0.023.75± 0.040.70± 0.011.63± 0.02DSF-AF五、十-2.61± 0.122.23± 0.105.91± 0.334.80± 0.230.87± 0.132.14± 0.410.44± 0.051.11± 0.10DLow-AF五、十-2.11±0.011.78± 0.054.70±0.033.77± 0.132.56± 0.126.45± 0.241.05± 0.112.55± 0.28LDS-AF（我们的）五、十-2.06±0.091.66±0.024.67±0.253.58±0.053.13±0.188.19±0.262.11±0.056.22±0.09LDS-AF-TD-P（Ours）五、十-2.46±0.091.91± 0.045.21± 0.153.71± 0.112.39± 0.087.07± 0.181.60± 0.065.70± 0.10LDS-AF-TD-NN（我们的）五、十-2.06±0.031.65±0.024.62±0.073.50±0.053.09±0.078.15±0.171.98±0.035.91±0.04表1：NuScenes预测误差结果（越低越好）和多样性结果（越高越好），包括先前报告的结果（顶部）以及LDS变体和新实现的基线的结果（底部）。基于LDS的模型在整个过程中产生最合理和最多样化的预测。LDS（我们的）AF MTP图3：在同一场景中的两个单独帧处的模型轨迹预测。K= 5的预测轨迹以红色示出，并且来自数据集的真实记录的未来轨迹以绿色示出。LDS预测比两个基线更多样化和合理的轨迹。分叉路径示例。 LDS（在CAM-NF之上）、CAM-NF和Multiverse预测在FP测试集上的可视化如图4所示。附录G中的图11提供了其他可视化。再次，LDS优于其他两种方法，是唯一接近覆盖不同地面真相未来的方法。6.5. 消融研究我们进行了一项消融研究，以了解LDS中各种设计选择的影响，特别是LDS损失函数的不同部分对其经验性能的重要性。为此，我们在nuScenes上训练 LDS-AF的前两项省略了LDS目标中的一项，一个没有分集损失（我们的w.o.多样性），和一个没有可能性损失（我们的w.o. 可能性）。后两者修改两个LDS损失项：用DLow的重建+ KL损失（详见附录F）代替NLL损失（公式4）（我们的公式1）。Rec），另一个取代了迷你在分集损失（等式5）中的μ m与平均值（我们的W. meanDiv）。所有这四个模型都使用与LDS相同的程序进行训练如表2（右）所示，前两次消融显著降低了性能。不出所料，我们的工作人员。多样性记录接近零多样性，我们的w.o.似然实现了高多样性，但以似然性为代价。注意我们的w.o.多样性在准确性方面也表现不佳;该结果表明，由于未来轨迹的随机性，多样性对于实现良好的准确性是必要的。因此，LDS目标中的这两个术语都是其成功的组成部分，拿走任何一个都完全消除了它的好处。接下来，我们发现我们的W。Rec也会降低性能。该结果表明，利用生成模型的可能性更好地捕获地面实况轨迹未来。最后，我们的W meanDiv显著降低了整体性能-预测误差增加了两倍，而多样性度量崩溃。这一结果证明了使用更强大的迷你框架2框架113287方法minADE20（#）minFDE20（#）线性LSTMSocial-LSTM[1]社交GAN[15]下一页[26]多元宇宙[25]205.0± 0.0192.4± 2.2189.0± 1.7179.9±4.3176.8± 2.4163.3± 2.3388.0± 0.0368.3± 3.4363.7± 3.0334.4± 9.0343.4± 6.1325.2± 3.5CAM-NF[30]DSF[40]Dlow[41]LDS（我们的）LDS-TD-NN（我们148.0± 2.3162.8± 2.0137.8± 5.998.6±5.8100.0±3.2293.6± 4.7320.6± 3.6273.4 ±14.0182.0±14.5178.1±7.6方法/指标mADE5（#）mFDE5（#）minASD5（“）minFSD5（“）我们2.064.623.098.15我们的工作人员多样性5.9514.630.160.37我们的工作人员可能性8.0619.4010.1624.83我们的w Rec2.164.893.299.00我们的w 均值Div4.8511.430.170.36方法/指标mADE10（#）mFDE10（#）minASD10（“）minFSD10（“）我们1.653.501.985.91我们的工作人员多样性4.9712.520.070.15LDS（Ours）CAM-NF Multiverse图4：来自分叉路径数据集的单个场景上的各种模型的预测的可视化红黄色热图对应于来自每个模型的20个预测轨迹的访问状态密度;黄色表示较高的密度。绿线是人类标注的未来的地面实况LDS产生涵盖不同未来的不同预测，而其他两种方法似乎已经崩溃到一个单一的输出。表2：左：分叉路径结果。LDS增强的CAM-NF显著优于所有其他方法，包括Multiverse和DLow增强的CAM-NF。右：NuScenes上的LDS消融结果。在行2-3中，LDS损耗之一被去除，并且性能显著恶化。在行4-5中，LDS损失中的一个被替换，并且性能再次急剧下降。妈妈多样性度量相比，在目标的平均多样性特别是，平均多样性不惩罚退化的情况下，大多数的预测崩溃到一个轨迹，但一个离群预测是非常遥远的其他。总之，这些消融都验证了LDS中的关键设计选择我们在附录F.8中纳入了额外的消融研究，评估LDS对预训练模型的敏感性、对的依赖性及其训练稳定性。最后，我们已经基于每个数据集的预定义度量设置了模式的数量K。然而，这种选择在实践中可能并不总是容易做出的。一般来说，一个好的策略是选择一个足够大的K，然后根据上升似然丢弃样本。因为LDS表现出模式搜索行为，所以大的K将可能确保模式被包括在样本中。然后，我们可以使用似然作为每个样本的似然性的合理代理，以指导丢弃过程。在附录F.8中，我们举例说明了选择大于模式数的K的例子，并讨论了潜在的缺陷。7. 结论我们提出了流的多样性采样（LDS），这是一种基于事后学习的多样性采样技术。预训练的生成轨迹预测模型。LDS利用预训练的生成模型下的可能性和鲁棒的多样性损失来学习引起多样且合理的轨迹预测的采样分布。虽然旨在归一化流量模型，LDS也与VAE兼容，并且独立于此选择，与其他采样技术和多模态模型相比，在两个不同的预测基准上始终实现最佳结果。除了其简单的最后，我们介绍了转导学习- ING问题的轨迹预测，并表明LDS可以很容易地用于适应测试实例的飞行，并提出了一个有竞争力的解决方案，这个新的问题设置。资金的确认和披露这项工作得到了 GE Research 和 NEC LaboratoriesAmerica的捐赠资金以及NSF奖励CCF 1910769的支持。美国尽管本文件载有任何版权注释，政府仍获授权13288引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页，2016年。五八十六十七[2] George Awad ， Asad Butt ， Keith Curtis ， YooyoungLee ， Jonathan Fiscus ， Afzad Godil ， David Joy ，Andrew Del- gado，Alan Smeaton，Yvette Graham，et al.Trecvid 2018：基准视频活动检测、视频字幕和匹配、视频故事链接和视频搜索。2018年。5[3] Dhruv Batra 、 Payman Yadollahpour 、 Abner Guzman-Rivera和Gregory Shakhnarovich。马尔可夫随机场中的多样m-最佳解。在欧洲计算机视觉会议上，第1-16页。Springer，2012. 二个[4] Holger Caesar、Varun Bankiti、Alex H Lang、SourabhVora、Venice Erin Liong、Qiang Xu、Anush Krishnan、Yu Pan、Giancarlo Baldan和Oscar Beijbom。nuscenes：自动驾驶的多模态数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第11621-11631页，2020年。一、二、四、十二[5] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多个概率锚轨迹假设。arXiv预印本arXiv：1910.05449，2019。二、五、七[6] Ming-Fang Chang，John Lambert，Patsorn Sangkloy，Jag-jeet Singh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Pe- ter Carr，Simon Lucey，Deva Ramanan，etal. Argoverse：3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议论文集，第8748-8757页，2019年。一个[7] 崔志浩用于自动驾驶的共享跨模态轨迹预测arXiv预印本arXiv：2004.00202，2020。二、四[8] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络在序列建模中的实证评估。arXiv预印本arXiv：1412.3555，2014。十三个[9] Henggang Cui ， Vladan Radosavljevic ， Fang-ChiehChou，Tsung-Han Lin，Thi Nguyen，Tzu-Kuo Huang，Jeff Schnei-der，and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。2019年国际机器人与自动化会议（ICRA），第2090-2096页。IEEE，2019。二四五七[10] Nachiket Deo和Mohan M Trivedi。用于车辆轨迹预测的卷积社会汇集。在IEEE计算机视觉和模式识别研讨会会议论文集，第1468-1476页，2018年。二个[11] Alexey

下载后可阅读完整内容，剩余1页未读，立即下载