密集目标集的端到端轨迹预测模型DenseTNT及其在自动驾驶中的应用效果

158 浏览量更新于2023-10-15 收藏 856KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15303DenseTNT：从密集目标集进行端到端轨迹预测顾君如1陈孙2赵航1*1清华大学IIIS2布朗大学摘要由于人类行为的随机性，预测道路智能体的未来轨迹对于自动驾驶来说是具有挑战性的。最近，基于目标的多轨迹预测方法被证明是有效的，其中它们首先对过采样目标候选进行评分，然后选择最后一组。然而，这些方法通常涉及基于稀疏预定义锚和启发式目标选择算法的目标预测在这项工作中，我们提出了一个锚自由和端到端的轨迹预测模型，名为DenseTNT，直接输出一组轨迹从密集的目标候选人。此外，我们引入了一个离线的优化为基础的技术，提供了多未来的伪标签，我们最终的在线模型。实验表明，DenseTNT实现了最先进的性能，在Argoverse运动预测基准测试中排名第一，并成为2021年Waymo开放数据集运动预测挑战赛的第一1. 介绍对于一个安全和平稳的自动驾驶系统，一个必不可少的技术是预测道路参与者的未来行为。例如，了解其他车辆是否打算更好地切入有助于我们做出制动决策。然而，由于人类行为固有的随机性和多模态性，运动预测是一项极具挑战性的任务。为了对这种高度的不确定性进行建模，一些方法通过从由潜在变量表示的分布中采样来预测多个未来轨迹，例如：[18][19]其他方法生成一组轨迹，但在训练期间仅对最接近的一个进行回归[12，20，8]，即使用品种损失。然而，基于采样的方法不能输出预测期货的相似性，并且品种损失在输出上缺乏可解释性。最近，基于目标的方法[39，30，37]已经流行起来，并实现了最先进的性能。*对应于：hangzhao@mail.tsinghua.edu.cn基于目标的轨迹预测上下文编码目标...轨迹预测完井先前稀疏候选评分我们密集候选评分规则选择基于学习的选择图1. 典型的基于目标的轨迹预测流水线在图的上部示出。现有的目标预测方法（左下）首先启发式地定义稀疏目标锚点，并对这些锚点进行回归和分类来估计目标;则使用像非最大抑制（NMS）这样的规则来进行目标选择。相比之下，我们的方法（右下）估计密集目标候选者的概率，而不依赖于启发式锚（无锚）。它通过以端到端的方式生成一组目标，摆脱了基于规则的后处理。曼斯。他们的关键观察是目标（端点）承载了轨迹的大部分不确定性，因此他们首先预测智能体的目标，然后进一步完成每个目标的相应完整轨迹。通过对预定义稀疏锚点进行分类和回归来获得最终目标位置，如图1的左下部分所示。例如，TNT [39]将锚点定义为车道中心线上的采样点;其他一些[37]将车道段作为锚点，并预测每个车道段的目标。这些方法通常采用的另一种技术是应用基于规则的算法来选择最终少量的目标。最值得注意的算法是非最大抑制（NMS）[39]，其中仅选择局部高分目标这些方法的局限性是双重的。首先，这些方法的预测性能在很大程度上取决于目标锚的质量。由于一个锚点只能生成一个目标，因此模型无法围绕一个锚点进行多个轨迹预测。此外，稀疏15304基于锚的方法不能捕获细粒度的信息，即，同一车道段上的不同位置包含不同的局部信息，例如到最近车道边界的相对此外，在估计稀疏目标的概率之后，NMS用于启发式地选择目标集，这是贪婪算法，并且鉴于问题的多模态性质，为了解决这些问题，我们提出了DenseTNT，一种无锚和端到端的多轨迹预测方法。DenseTNT首先从场景上下文生成具有其概率的密集目标候选;根据目标概率，它进一步采用目标集预测器来产生最终的轨迹目标集。与以前的方法相比，DenseTNT更好地建模目标候选人，并摆脱了后处理。DenseTNT中的目标集预测是一个多标签预测问题，需要多个标签作为训练目标。然而，与物体检测不同，物体检测天生具有多个标签框作为监督[2]，在轨迹预测中，我们只观察到每个训练样本中许多可能的未来中的一个真实未来，这使得监督模型极具挑战性。为了解决这个问题，我们设计了一个离线模型，为我们的在线模型提供多个未来的伪标签。与上述在线模型相比，离线模型使用优化算法代替目标集预测器进行目标集预测。优化算法从目标的概率分布中找到最优目标集;然后将目标集用作在线模型训练的伪标签。DenseTNT在自动驾驶轨迹预测任务中实现了最先进的性能，在Argoverse运动预测基准测试中排名第一，在2021年Waymo开放数据集运动预测挑战赛中排名第一2. 相关工作未来的预测是高度不确定的，因为未知的意图和行为的代理[14，33，17，21，28，38]。在自动驾驶领域，为了对高度多模态进行建模，隐式地使用潜在变量是一种流行的方法[15，35，27，29]。DESIRE [18]使用条件变分自编码器（CVAE），SocialGAN [13]使用对抗学习使预测更加现实。一些方法旨在解决模式崩溃[25，36，23，10，3]。最近，基于目标的多轨迹预测方法由于其优越的性能而得到普及我们将在本节稍后讨论它们的映射编码。映射编码方法可以分为两类：光栅化编码和矢量化编码。栅格化编码方法将HD将元素与代理一起映射到图像中，并使用CNN对图像进行编码。基于光栅化的编码，Cui等。[9]超越了单一轨迹，并预测了多个轨迹及其概率。IntentNet [4]开发了一种由CNN组成的检测器，不仅可以从光栅图像中提取特征，还可以从 LiDAR 点中提取特征。Multipath [5]使用CNN从光栅图像中提取特征，然后预测K个预定义锚轨迹上的概率，并从锚状态回归偏移。Liang等人[19]设计了多尺度位置编码和用于映射编码的图上的卷积RNN。为了捕获远程人类轨迹预测中的不确定性，Jain等人。[16]空间位置上的预测和更新离散分布。这些栅格化方法不能捕获高清晰度地图的结构信息，并且由于卷积的形状而不允许目标点的非网格最近，能够更好地捕捉高清晰度地图结构信息的稀疏（矢量化）编码方法得到了迅速发展。它们将每个实体（车道或代理）视为稀疏的元素集，并使用图神经网络来提取实体的特征Vector- Net [11]是第一个直接合并通道和代理的矢量化信息的LaneGCN [20]构建了一个通道图，并使用具有邻接矩阵的图卷积LaneRCNN [37]不是通过特征向量表示每个代理，而是为每个代理提出了基于图的TPCN [34]采用点云学习策略将预测学习任务建模为空间模块和时间模块之间的联合学习不同于这些矢量化的方法，只考虑车道中心线或车道边界的高清地图，我们的道路上的密集空间位置模型。基于目标的轨迹预测。Rehder等人[24]引入行人的目标作为潜在变量，从而将预测问题转化为规划问题。TNT [39]首先从路线图中采样锚点，并生成以这些锚点为条件的轨迹。然后对轨迹进行评分，并使用非最大抑制（NMS）来选择最终一组轨迹。与TNT类似，LaneRCNN [37]的解码流水线将通道段视为锚点并输出每个锚点DROGON [7]专注于不同的任务，即给定个体代理的意图目的地他们创建了一个轨迹预测数据集来研究目标导向行为，并使用条件VAE框架来预测多个可能的轨迹。15305L稀疏上下文编码器密集目标编码器目标集预测器.........目标概率分布...K预测K预测目标轨迹模型化代理特征上下文代理功能车道特征目标热图图2. DenseTNT概述。使用稀疏上下文编码器提取高清地图和智能体的特征;然后采用密集目标编码器输出密集目标概率分布;最后，目标集预测器将目标的概率分布作为输入，并生成一组预测目标。基于目标的思想也被用于寻找自动驾驶的最佳规划策略[1]。此外，在人体轨迹预测中，Tranet al. [31]考虑了行人与以前的作品相比，DenseTNT是一个基于目标的无锚模型，可以以端到端的方式学习。3. 方法DenseTNT是一种无锚点和端到端的轨迹预测方法，它直接从密集的目标候选中输出一组轨迹。我们首先利用稀疏（矢量化）编码方法来提取特征，其捕获高清地图的结构特征（第3.1节）。然后，我们采用密集目标编码器来生成目标的概率分布（第3.2节）。最后，目标集预测器将目标的概率分布作为输入，并直接生成一组目标（3.3节）。为了训练我们的模型，更具体地说是目标集预测器，我们设计了一个基于优化的离线模型，该模型产生用于监督的伪标签。3.1. 稀疏上下文编码场景上下文建模是行为预测的第一步。它提取的车道和代理的功能，并捕捉它们之间的相互作用。最近提出了稀疏编码方法[11，20]（也称为矢量化方法）与将车道和代理栅格化为图像并使用CNN来提取特征的栅格化编码方法相比，稀疏编码方法抽象了所有地理实体（例如：车道、交通灯）和车辆作为折线，并更好地捕捉高清晰度地图的结构我们在这项工作中采用了VectorNet [11]，因为它具有出色的性能。VectorNet是一个层次化的图神经网络，由子图模块和全局图模块组成。子图模块用于对fea-全局图模块使用注意力机制来捕获通道和代理之间的在上下文编码之后，我们获得2D特征矩阵L，其中每行Li指示第i个地图元素的特征（即，泳道或代理）。3.2. 密集目标概率估计在稀疏上下文编码之后，我们对地图上的目标进行概率估计。TNT [39]在道路上定义了离散化的稀疏锚点，然后为它们分配概率值我们的关键观察是，稀疏锚不是道路上真实概率分布的完美近似，因为（1）一个锚只能产生一个目标，我们不能围绕一个锚进行多个轨迹预测;（2）基于稀疏锚点的方法不能捕获细粒度的信息，即：同一车道段上的不同位置包含不同的局部信息，例如到最近车道边界的相对距离因此，我们代之以在地图上执行密集目标概率具体地说，在一定的采样率下，使用密集目标编码器来提取然后，预测密集目标候选的概率分布。泳道得分。在目标概率估计之前，我们采用了一个车道得分模块来预测目标将降落的车道，以减少目标候选的数量。作为更高层次的抽象，每个通道上有数十个目标通过对车道进行评分，我们可以过滤掉不位于候选车道上的目标候选，从而减少后期的计算。车道的评分被建模为一个分类问题，和一个二进制交叉熵损失车道用于训练。最接近地面实况目标的泳道的地面实况得分为1，并且其他为0。车道l和地面实况目标ygt之间的距离定义为（1，yg t）=min（||l1−yg t||二、||l2−yg t||2 、. . . 、||lt−yg t||2）的情况。15306∈Σ·√d目标概率分布线下线上(a) 门槛越高越好。坏阈值更好阈值第①、...K选定目标...K预测目标(b) 门槛越小越好。图4.NMS导致次优目标选择。上图3.目标集预测器的两阶段训练。在第一阶段，我们使用地面实况目标来训练除目标集预测器之外的所有模块在第二阶段中，我们仅使用由优化算法生成的伪标签来训练目标集预测器。概率估计密集目标编码器使用注意力机制来提取目标和车道之间的局部信息。我们首先通过使用MLP对目标的2D坐标进行编码来获得目标的初始特征矩阵F目标和车道之间的局部信息可以通过注意机制获得：Q=FWQ，K=LWK，V=LWV，（1）A（Q，K，V）= softmax。QKT ΣV，（2）K其中WQ，WK，WVRdh×dk 是用于线性投影的矩阵，dk是查询/关键字/值向量的维数，以及F，L是密集目标集合和所有映射元素的特征矩阵（即，通道或代理）。第i个进球的预测得分可以写为：exp（g（Fi））例如，较低的阈值需要较大的阈值，而较低的阈值需要较小的阈值。橙色星表示针对不同热图的不同NMS阈值的选定目标（K=2），NMS阈值被描绘为圆的半径。3.3. 目标集预测利用上述密集概率估计，我们获得指示轨迹的最终位置的概率分布的热图。我们的目标是在不同的模式中选择最有可能的目标，即热图中的一些典型的基于目标的轨迹预测流水线采用非最大值抑制（NMS）进行目标选择。然而，NMS不能灵活地处理各种情况，因为不同的热图具有不同的最佳NMS阈值，如图4所示。我们的发现是目标选择可以被建模为集合预测任务，因此我们设计了目标集合预测器，其将该热图作为输入并以端到端的方式生成目标集合。然而，与具有多个标签框[2]的对象检测不同，在轨迹预测问题中，我们只能从许多可能的未来中观察到一个地面实况未来。为了解决这个问题，我们设计了一个离线模型，为我们的在线模型（更具体地说，目标集预测器）提供多个未来伪标签离线模型由相同的编码模块作为在线模型，但具有优化算法-φi=Nn=1 exp（g（Fn））、（3）Rithm代替目标集预测器。在下文中，我们首先介绍了优化算法，然后详细介绍其中可训练函数g（）也用2层MLP实现。用于训练稀疏上下文编码器和密集概率估计的损失项是预测的目标得分Φ和地面实况目标得分Φ之间的二进制交叉熵损失：L目标=LC E（φ，ψ）。（四）最接近最终位置的目标的地面实况得分为1，其他为0。优化算法目标集预测器监督不良阈值更好的阈值①、①、第第① ②15307{}∈C我们的目标设定预测器。目标集预测器的训练过程如图3所示。优化（离线）。从以上步骤获得的热图由来自以下的映射h表示：=c1，c2，. . .，Cm至[0，1]R，其中c是R2是地图上的第i个目标。设Y是终点坐标的随机变量，其概率分布满足 P （ Y=ci ） =h（ci）。给定一个预测目标集y={y1，y2，. . . ，y{K}和地面实况目标ygt，15308C{}i=1C--我i=1||- -||ΣLΣΣY∈{∞}--算法1用于离线目标集预测的优化1：输入：热图h，其是来自密集目标候选 =cl，c2，. . .，Cm至[0，1]R，表示最终位置的概率分布。第2：目标：找到最小化f（y）=E[d（y，Y）]=mh（ci）d（y，ci）。3：当前目标集y=y（1，y（2，. . . ，yK是从密集目标候选中随机采样的，并且当前期望误差是f（yK）。4：用于步骤1..做第五章：如果超过时间，则6：休息第七章：end if第八章：foreachgoalyido9：y'=随机扰动（yi）十：端十一：e=f（y）十二：e'=f（y（'）十三：r=随机（0，1）14：如果e

下载后可阅读完整内容，剩余1页未读，立即下载