TPNet：两阶段运动预测框架，多模态输出和安全集成物理约束，有效解决运动预测问题

98 浏览量更新于2023-10-23 收藏 21.27MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

PredictionPedestrian 1First stage proposalVehicle 1Pedestrian 2pedestrians should walk on sidewalks or crosswalks. Thusreliable motion prediction should involve the modeling ofthe agent’s previous trajectory as well as the trafﬁc con-straints for the target. Ensuring safe and multimodal pre-dictions is critical for autonomous driving systems.Early work on motion prediction considers the time-series prediction task by utilizing Kalman Filter based dy-namic models [5, 6] or Gaussian mixture models [9], etc.However, these models are sensitive to the observation167970TPNet：用于运动预测的轨迹提案网络0方亮基† � 蒋钦宏† � 史建平† 周博磊‡0† 商汤科技集团有限公司 ‡ 香港中文大学0{fangliangji, jiangqinhong, shijianping}@sensetime.com, bzhou@ie.cuhk.edu.hk0摘要0准确预测周围交通代理人（如行人、车辆和骑车者）的运动对于自动驾驶至关重要。最近的数据驱动运动预测方法尝试直接从大量轨迹数据中回归出确切的未来位置或其分布。然而，这些方法仍然难以提供多模态预测，并整合交通规则和可移动区域等物理约束。在这项工作中，我们提出了一种新颖的两阶段运动预测框架，称为Trajectory ProposalNetwork（TPNet）。TPNet首先生成一组候选的未来轨迹作为假设提案，然后通过对满足物理约束的提案进行分类和细化来进行最终预测。通过引导提案生成过程，实现了安全和多模态的预测。因此，该框架有效地减轻了运动预测问题的复杂性，同时确保了多模态输出。在四个大规模轨迹预测数据集（即ETH、UCY、Apollo和Argoverse数据集）上的实验结果表明，TPNet在定量和定性上都达到了最先进的结果。01. 引言0预测周围交通代理人（如车辆、行人和骑车者）的运动对于自动驾驶系统做出信息丰富和安全的决策至关重要。交通代理人的行为往往是多模态的，即在确定其未来路径时可能存在多个合理的意图。如图1所示，当只接收到有限数量的观测时，绿色的车辆1在这种情况下可以右转或直行。此外，交通代理人的移动不仅由其意图决定，还受附近交通规则（如可能的可移动区域）的规范。例如，车辆应该在道路上行驶，行人应该在人行道或人行横道上行走。因此，可靠的运动预测应该涉及代理人的先前轨迹建模以及目标的交通约束。确保安全和多模态的预测对于自动驾驶系统至关重要。早期的运动预测工作通过利用基于卡尔曼滤波器的动态模型[5,6]或高斯混合模型[9]等来考虑时间序列预测任务。然而，这些模型对观测噪声非常敏感，且无法整合物理约束。0� 表示相等的贡献。更多信息请参见此链接。0过去位置0回归的终点0未来位置0车辆2 自车0图1.交通代理人的移动通常受到可移动区域的规范（白色区域为车辆，灰色区域为行人），而代理人可能有多个合理的未来路径。因此，运动预测系统需要能够结合交通约束并输出多模态预测。我们的框架可以在车辆和行人之间生成具有不同意图的预测结果，并受到物理约束的限制。2. Related workpredict the future location and the maneuver of the vehi-cle. Comprehensive overview of these approaches can befound in [26, 37]. For future location prediction, statisti-cal models such as polynomial ﬁtting [16], Gaussian pro-cesses [23, 43], Gaussian mixture models [9] have been de-ployed. Kalman Filter based dynamic models [5, 6] havebeen also wildly used for motion prediction. For maneuverrecognition, models like Bayesian networks [41], HiddenMarkov models [9, 23], SVMs [3, 33], random forest classi-ﬁers [40] are extensively explored. Some of them propose touse scene information to improve prediction [21, 36]. Theseclassical methods model the inherent behaviors based onlyon the previous movements without considering the uncer-tainty of driver’s decision, thus they can not achieve satis-factory performance in long-term prediction.Recently many deep learning-based methods have beenused for motion prediction [18, 19, 22, 47]. Most of themfocus on how to extract useful information from the envi-ronment. Convolutional Neural Networks (CNN) Encoder-Decoder is proposed in [46] to extract features from agents’past positions and directions and directly regress the futurepositions. In [10] the vehicle’s location and context infor-mation are encoded as binary masks, and a perception RNNis proposed to predict vehicles’ location heat-map.Thetypical pipeline for learning-based prediction methods ﬁrstencodes the input features, then uses CNN or Long Short-Term Memory(LSTM) [15] to extract features and regressthe future locations [2, 24, 34, 45]. However, for thesedata-driven and deep learning-based methods it is difﬁcultto guarantee the safety and the physical constraints of theprediction. There is another pipeline where the possible tra-jectory set is ﬁrst generated based on a lot of motion in-formation (speed, acceleration, angular acceleration, etc.)and then optimize the designed cost function to obtain ﬁ-nal prediction [16]. However this method heavily relies onthe accuracy in the physical measurements, high deﬁnitionmap and the quality of the trajectory set. Different from[16], the proposed TPNet could generate complete propos-als only based on trajectory locations. The proposed two-stage pipeline performs further reﬁnement of the propos-als which reduces the correlation of the generated proposalsand guarantees the diversity of the predictions. Meanwhile,by applying prior knowledge into proposal generation pro-cess, our method could take into consideration the physicalconstraints effectively.267980由于建模代理人的意图失败，噪声会增加并导致长期预测变得不可靠。最近，许多基于深度神经网络的数据驱动运动预测方法已经被开发出来[1, 11, 13, 25, 31, 39, 42, 44,48]。其中大部分尝试通过直接回归大量轨迹数据中的确切未来位置或其分布来学习运动模式。多模态预测是通过从预测分布中进行采样来生成的[25, 49,28]。然而，当不同意图的未来位置分布较大（例如左转和右转）时，数据驱动方法很难提供合理的多模态预测。为了进一步确保预测符合交通规则，环境信息通常被编码为语义地图然后输入到神经网络中[10,4]。然而，这些端到端的深度网络缺乏安全保证，无法使输出预测严格遵循交通规则或语义地图，同时很难有效地结合周围的物理约束。在这项工作中，我们提出了一种新颖的两阶段框架，称为Trajectory ProposalNetwork（TPNet），以更好地处理多模态运动预测和交通约束。在第一阶段，TPNet预测一个粗略的未来终点位置，以减少轨迹搜索空间，然后基于预测的终点生成一组可能的未来轨迹提案作为假设。在第二阶段，TPNet对提案进行分类和细化，然后将得分最高的提案作为最终预测输出。第一阶段可以生成具有不同意图的提案，以实现多样化的多模态预测。利用可移动区域约束等先验知识来过滤提案的结果，使得该模块更加有效和透明。广泛的实验结果表明，提出和细化未来轨迹使得运动预测比直接回归未来位置的方法更准确。本文的贡献总结如下：1）我们提出了一个统一的两阶段运动预测框架，适用于车辆和行人。2）该框架可以在提案生成过程中结合先验知识，以确保考虑到代理人的多个意图的多模态预测，以及交通规则和条件的合规性。3）我们在最近的大规模轨迹预测数据集ETH [35]、UCY[27]、ApolloScape [32]和Argoverse[8]上取得了最先进的结果。03. 轨迹提案网络0为了促进安全和多模态的运动预测，我们提出了一种新颖的两阶段框架，称为轨迹提案网络（TPNet）。该框架如图2所示：在第一阶段，从目标代理中提取基础特征，然后预测一个粗略的终点以减少提案搜索空间。这个预测的终点367990� ��0� � ��0基础特征编码0第一阶段0C0C0回归0FC0FC0分类最大分数输出0第二阶段0提案生成终点回归0CNN0CNN-ED CNN-ED0提案细化0过去位置0未来位置0预测0回归的终点0中心车道线0提案0图2.轨迹提案网络（TPNet）的框架。在第一阶段，通过回归得到一个粗略的终点以减少搜索空间，然后生成提案。在第二阶段，对提案进行分类和细化以生成最终的预测。虚线表示位于可移动区域之外的提案，将进一步受到惩罚。0然后用于生成提案。在第二阶段，提案被分类以找到最可能的未来轨迹，然后进行细化以确保最终预测的多样性。通过监控第一阶段生成的提案，基于深度学习的预测方法可以更具可解释性和灵活性。给定生成的提案，TPNet的第二阶段只需要选择最可信的轨迹，这简化了与直接回归轨迹的先前方法相比的预测问题。此外，通过分别检查两个阶段的输出，可以方便地调试和解释可能的错误预测。03.1. 基础特征编码模块0基础特征编码模块设计为编码器-解码器网络，因为它能够灵活地将不同类型的输入特征扩展到模块中。编码器和解码器块分别由多个卷积层和反卷积层组成。详细的模型结构如图2所示。该模块接受目标代理的一系列过去位置p obs = {p 0 , p 1 , ..., p T obs }和其周围的道路信息r T obs作为输入，道路信息对于不同的数据集是可选的。道路信息由许多语义元素表示，例如车道线、人行横道等，并与代理的位置相关。为了简化起见，我们将道路信息编码为0与[10]相同，我们将道路语义图像视为图像，并将目标的过去位置绘制在图像上。我们使用一个小型的ResNet-18[14]作为特征提取器从道路语义图像中提取特征。03.2. 提案生成0在本节中，我们介绍提案生成的详细过程。根据是否使用道路信息，有两种提案生成方法。基础提案生成仅使用位置信息，适用于没有道路信息的数据集。当与道路信息结合时，多模态提案生成可以为每个可能的意图生成提案，确保更紧凑的假设集。03.2.1 问题定义0在我们的TPNet中，我们将有限时间内的代理轨迹建模为连续曲线，以实现效率、灵活性和鲁棒性。与传统的离散点序列[31,10]预测不同，连续曲线[16]避免了未来轨迹集合的组合爆炸和某些组合中缺乏物理约束的低效问题。通过改变曲线的较少参数，我们可以灵活地生成一组曲线。曲线表示对噪声具有鲁棒性，并且可以反映运动趋势和意图。由于其简单性，我们选择多项式曲线来表示轨迹[16]。为了找到最佳的多项式拟合-Past PositionConstrained End PointProposalFuture PositionReference LineTraversed End Point468000� = 1米 � = 2米0过去位置0未来位置0提案0经过的终点0回归的终点0曲率点0图3.提案生成的示意图。提案围绕第一阶段预测的终点生成。γ用于控制提案的形状。0为了评估拟合度，我们对不同程度进行实验，并计算时间长度为T = T obs + T pre 的轨迹的拟合误差，其中T obs是历史观测的长度，T pre是未来预测的长度。我们选择具有准确性和复杂性平衡的三次曲线。在ApolloScape数据集上，行人的平均拟合误差为0.048米，在Argoverse数据集上，车辆的平均拟合误差为0.068米，对于大多数情况来说已经足够准确（详细分析可在补充材料中找到）。由于曲线对参数非常敏感且难以优化，我们提出使用一组点来表示曲线：两个控制点，即终点和曲率点（如图3所示），以及过去的点。曲率点反映了曲线的弯曲程度，并由名为γ的距离变量确定。γ定义为轨迹曲线与当前点和终点的中点之间的距离，如图3所示。将曲率点编码为γ可以灵活地生成具有不同弯曲程度的曲线。0pep = {(xe + interval * i, ye + interval * j)} i,j ∈ [-N/2,N/2],0一个好的提议生成过程应该能够基于较少的轨迹信息生成完整的提议。因此，基础提议生成方法仅基于轨迹位置生成提议，这是几乎所有轨迹预测数据集提供的最基本和常见的特征之一[8,27,32,35]。根据代理的过去位置，可以通过在第3.2.1节定义的曲线表示下变化不同的控制点来生成提议。基于第一阶段预测的端点pe，在以pe为中心的NxN网格上枚举可能的端点：0图4. 使用道路信息进行多模态提议生成的示意图。参考线表示车辆可能行驶的中心车道线。最佳查看颜色。0其中pe是可能的端点集，(xe,ye)是pe的坐标，interval和N是间隔和网格的大小。0提议 = {f(pobs, p'ep, γ)}, (1)0网格。通过改变γ的值，可以为每个可能的端点生成不同的曲率点。最后，仅基于位置使用公式1生成提议。03.2.3 多模态提议生成0其中f(∙)是三次多项式拟合函数，pe∈pe，γ∈[-2,-1,0,1,2]。03.3. 提议分类和细化0基础提议生成过程对第一阶段回归的端点有很强的依赖性，这可能导致生成的提议多样性较低。多模态提议生成利用道路信息生成多个端点，因为道路对车辆有很强的约束。基于道路信息的基本元素（车道线及其方向等）和车辆的过去位置，我们可以得到一组表示车辆将到达的可能中心车道线的参考线[8]。因此，公式1可以扩展为为不同参考线生成多个提议集。具体而言，预测相对1D端点位置位移dep沿参考线，而不是2D端点pe。然后，我们根据预测的dep在每条参考线上采样未来的端点，从而减少对单个回归端点的依赖性并确保预测的多样性。最后，使用公式1为每个采样的端点生成提议。该过程如图4所示。0分类模块。在训练过程中，为每个提议分配二进制类标签，表示良好轨迹或非良好轨迹。我们将地面真实轨迹和提议轨迹曲线均匀采样点之间的平均距离定义为提议质量的标准，记为：0给定一组提议，分类模块选择最佳提议，而细化模块对提议的端点和γ进行细化。∥pigt − pipp∥,(2)γscore = score ∗ e−r2σ2(4)L = Lep(pe, p∗e)+ 1N�iLcls(ci, c∗i )+ α �i Lref(ti, t∗i )Npos + βNneg,568010N0AD = 10N=0其中N是采样点的数量，pi gt和pipp分别是地面真实轨迹和提议的第i个采样点。我们将AD低于阈值（例如1米）的提议分配为正标签。剩余的提议被视为潜在的负样本。为了避免过多负样本的压倒性影响，我们采用均匀采样方法来保持负样本和正样本的比例为3:1。对于提议的细化模块，我们采用2个坐标和1个变量的参数化方法：0其中 ( x gt e , y gt e ) 和 ( x pp e , y pp e )是真实轨迹和提议的终点坐标，t x , t y 和 t γ是训练过程中使用的监督信息。模型设计。对于每个提议，我们使用第3.1节中提到的相同的编码器-解码器模块提取特征。然后将基础特征与提议特征进行拼接。最后两个全连接层用于分类和提炼提议。03.4. 先验知识0先验知识，例如车辆倾向于在道路上行驶，将使轨迹预测结果更加稳定和安全。然而，基于DNN的解决方案由于模型的复杂性和不可解释性，无法保证这些约束条件。由于基于提议的流程，我们可以明确使用先验知识来过滤提议。结合历史轨迹和高清地图，确定了代理可以在未来行驶的多边形区域，即可移动区域。我们建议通过衰减移动区域之外的提议的分类分数来明确约束预测的轨迹，使用公式4：0其中 r 是提议轨迹点在可移动区域之外的比例，σ是衰减因子。与放弃预测结果在可移动区域之外相比，衰减分类分数可以确保预测的多样性。03.5. 目标函数0在训练过程中，我们最小化一个多任务损失函数，如下所示：0(5) 其中 p e 和 p � e 是预测的终点和对应的真实值，c i 和 ti 是每个提议的预测置信度和轨迹参数，c � i 和 t � i是对应的真实标签，α 是权重项。终点预测损失 L ep和提炼损失 L ref 使用欧几里得损失。分类损失 L cls使用二元交叉熵损失。由于未来轨迹的多模态特性，我们使用正样本和随机采样的一部分负样本来计算提炼损失，并使用 β 控制采样负样本的比例。04. 实验0TPNet 在四个公共数据集 ETH [ 35 ]、UCY [ 27]、ApolloScape [ 31 ] 和 Argoverse [ 8 ]上进行评估。ETH 和 UCY数据集侧重于行人轨迹预测。总共有五个子集，分别命名为ETH、HOTEL、ZARA-01、ZARA-02 和 UCY。我们遵循Social GAN [ 12 ]的相同数据预处理策略。轨迹长度有两种设置，T obs = Tpre = 3.2 s 和 T obs = 3.2 s, T pre = 4.8s。时间间隔设置为0.4s，观察到8帧，预测8/12帧。ApolloScape包含目标代理的鸟瞰坐标轨迹以及周围代理的轨迹。需要预测三种对象类型，即车辆、行人、骑车人。对于轨迹长度，ApolloScape 设置 T obs = T pre = 3 s，时间间隔为0.5s，观察到6帧，预测6帧。Argoverse数据集侧重于车辆轨迹的预测。除了每辆车的鸟瞰坐标，Argoverse数据集还提供了高清地图。对于轨迹长度，Argoverse 设置T obs = 2 s, T pre = 3 s，时间间隔为0.1s。训练、验证和测试集分别包含205942、39472和78143个序列。评估指标。平均位移误差（ADE）和最终位移误差（FDE）是运动预测中最常用的指标。ApolloScape还使用ADE加权和（WSADE）和FDE加权和（WSFDE）作为不同代理类型的指标。Argoverse还计算最小ADE（minADE）、最小FDE（minFDE）和可行驶区域符合度（DAC）。0• WSADE/WSFDE：不同代理类型的ADE/FDE加权和。ADEFDEADEFDE668020指标数据集 S-LSTM [1] S-GAN [12] Liang [30] Li [29] SoPhie [38] STGAT [17] TPNet-1 TPNet-200ETH 0.73 / 1.09 0.61 / 0.81 - / 0.73 - / 0.59 - / 0.70 0.56 / 0.65 0.72 / 1.00 0.54 / 0.840HOTEL 0.49 / 0.79 0.48 / 0.72 - / 0.30 - / 0.46 - / 0.76 0.27 / 0.35 0.26 / 0.31 0.19 / 0.240UNIV 0.41 / 0.67 0.36 / 0.60 - / 0.60 - / 0.51 - / 0.54 0.32 / 0.52 0.34 / 0.55 0.24 / 0.420ZARA1 0.27 / 0.47 0.21 / 0.34 - / 0.38 - / 0.22 - / 0.30 0.21 / 0.34 0.26 / 0.46 0.19 / 0.330ZARA2 0.33 / 0.56 0.27 / 0.42 - / 0.31 - / 0.23 - / 0.38 0.20 / 0.29 0.21 / 0.33 0.16 / 0.260AVG 0.45 / 0.72 0.39 / 0.58 - / 0.46 - / 0.40 - / 0.54 0.31 / 0.43 0.36 / 0.53 0.27 / 0.420ETH 1.48 / 2.35 1.22 / 1.52 - / 1.65 - / 1.30 - / 1.43 1.10 / 1.12 1.39 / 2.01 1.12 / 1.730HOTEL 1.01 / 1.76 0.95 / 1.61 - / 0.59 - / 0.83 - / 1.67 0.50 / 0.66 0.48 / 0.58 0.37 / 0.460UNIV 0.84 / 1.40 0.75 / 1.26 - / 1.27 - / 1.27 - / 1.24 0.66 / 1.10 0.68 / 1.15 0.53 / 0.940ZARA1 0.56 / 1.00 0.42 / 0.69 - / 0.81 - / 0.49 - / 0.63 0.42 / 0.69 0.55 / 0.99 0.41 / 0.750ZARA2 0.70 / 1.17 0.54 / 0.84 - / 0.68 - / 0.55 - / 0.78 0.40 / 0.60 0.43 / 0.72 0.36 / 0.600表1. 在ETH和UCY基准测试上与基线方法的比较，对于Tpre = 8和Tpre =12（8/12）。每行代表一个数据集，每列代表一种方法。20V-20表示根据[12,17]使用多样性损失，在测试时进行20次采样。TPNet-20表示我们从具有前20个分类分数的提案中选择最佳预测。0指标类型 S-LSTM S-GAN StarNet [50] TPNet0Ped 1.29 1.33 0.79 0.740Veh 2.95 3.15 2.39 2.210Cyc 2.53 2.53 1.86 1.850WSADE 1.89 1.96 1.34 1.280Ped 2.32 2.45 1.52 1.410Veh 5.28 5.66 4.29 3.860Cyc 4.54 4.72 3.46 3.400WSFDE 3.40 3.59 2.50 1.910表2.在ApolloScape数据集上与其他方法的比较。表中，Veh，Ped和Cyc分别表示车辆、行人和骑车者的代理类型。由于测试集的真实标签已发布，我们只报告了S-GAN和TPNet的单模态结果。0• minADE/minFDE：多个预测中的最小ADE/FDE。0• DAC：预测位置在可行驶区域内的比例。0基线方法。由于我们提出的方法中的多模态提案生成和安全保证依赖于高清地图，比较方法分为两组。第一组包括不使用高清地图的方法，包括Social LSTM [1]和Social GAN[12]。这些基线方法在ApolloScape、ETH和UCY数据集上进行比较。第二组包括使用高清地图的方法，包括最近邻方法[8]和LSTM ED[8]。这些基线方法在Argoverse数据集上进行比较。0• SocialLSTM（S-LSTM）：使用LSTM提取轨迹特征，并提出社交汇聚来建模行人轨迹预测中的社交影响。0• SocialGAN（S-GAN）：提出了一种条件GAN，将所有代理的轨迹作为输入。0• 最近邻（NN）：使用前K个假设中心线进行加权最近邻回归。0• LSTMED：使用道路地图信息作为输入的LSTM编码器-解码器模型。0实施细节。对于网络输入，相对于目标代理，70m×70m范围内的道路元素被编码为分辨率为0.5m/像素的语义地图。使用ResNet-18[14]提取语义地图的特征。在训练过程中，我们通过随机旋转和翻转轨迹进行数据增强。负样本和正样本之间的比例设置为3:1，实验上将正样本的AD阈值设置为3m。我们使用Adam[20]优化网络，批量大小为128，训练50个epochs，学习率为0.001，衰减率为0.9。04.1. 与基线方法的比较0使用目标的鸟瞰图过去位置作为输入，在Tab. 1和Tab.2中对ETH、UCY和Apollo数据集评估了所提出的两阶段框架的有效性。为了验证我们提出的方法的多模态预测和安全保证，我们在Argoverse数据集上进行了实验，如Tab.3所示。两阶段框架的评估。在Tab.1中，将所提出的TPNet与ETH和UCY数据集上的基线方法进行了ADE和FDE两个指标的比较。按照S-GAN中的评估方法，我们报告了TPNet-1和TPNet-20的结果，其中TPNet-1是具有最高分类分数的预测，而TPNet-20的结果是在具有前K个最高分类分数的预测中的最佳预测。结果表明，TPNet-1的结果已经优于Social LSTM和多768030方法 ADE FDE minADE minFDE DAC0NN [7] 3.45 7.88 1.71 3.29 0.87 LSTM ED [7] 2.96 6.812.34 5.44 0.90 TPNet 2.33 5.29 2.08 4.69 0.91TPNet-map 2.23 4.71 2.04 4.23 0.96 TPNet-map-safe2.23 4.70 2.03 4.22 0.99 TPNet-map-mm 2.23 4.701.61 3.28 0.960表3. 与Argoverse测试集上的基线方法的比较0SocialGAN的模态结果。在使用TPNet-20结果之后，TPNet在所有数据集上与所有基线方法竞争力相当。需要注意的是，TPNet仅使用目标代理的过去位置，而其他基线方法还利用周围代理的位置，这可能会使我们的方法在某些数据集上变差。然后，TPNet和比较方法在ApolloScape数据集上的性能结果如表2所示。从表中可以看出，TPNet在所有代理类型上优于基线方法。具体而言，TPNet在车辆轨迹预测上表现更好，我们认为这是因为曲线表示对车辆轨迹更友好。多模态预测的评估。表3中的TPNet-map-mm根据第3.2节中提到的参考线生成具有不同意图的建议。在表中，TPNet被称为我们的方法，仅使用过去的位置作为输入，TPNet-map被称为我们的方法，使用过去的位置和道路语义地图作为输入。TPNet-map-safe和TPNet-map-mm分别使用先验知识约束建议并生成多模态建议。为了评估预测方法的多样性，Argoverse[8]使用minADE和minFDE作为度量标准。这两个度量标准计算每个目标轨迹的K个样本中的最佳ADE和FDE。在生成具有不同意图的建议之后，minADE和minFDE分别提高了60cm和1m。此外，提出的TPNet甚至可以在不使用参考线的情况下生成多模态预测。如表1所示，ETH和UCY数据集上的TPNet-20结果在不使用参考线的情况下比TPNet-1结果大幅优越。由于建议生成过程，可以确保具有不同意图的预测更加有效。安全保证的评估。为了评估第3.4节中提到的安全保证的有效性，我们在Argoverse数据集上展示了实验结果，如表3所示。表3显示，TPNet在Argoverse[8]提出的基线方法上取得了很大的优势，特别是在FDE上。这表明TPNet可以生成更准确的终点。此外，将道路语义地图作为输入后，TPNet-map取得了更好的结果。然而，预测结果0回归分类 ADE FDE0� � 2.00 4.01 � � 1.85 3.96 � � 1.75 3.880表4.消融研究对Argoverse验证数据集上不同阶段有效性的影响。0范围（米）间隔（米）#锚点 ADE FDE06 × 6 1 245 1.75 3.87 6 × 6 1.5 125 1.78 3.89 6× 6 3 45 1.84 4.01 10 × 10 1.67 245 1.75 3.88 10× 10 2.5 125 1.76 3.88 10 × 10 5 45 1.84 4.01 20× 20 3.3 245 1.77 3.93 20 × 20 5 125 1.79 3.980表5.消融研究对Argoverse验证数据集上锚点生成的不同网格大小的影响。0预测结果仍可能在可行驶区域之外，因为DAC指标仍有改进的空间。通过使用公式4降低驶入区域外建议的分类分数，TPNet-map-safe的DAC提高到0.99，这表明我们的方法可以生成更安全的预测结果。04.2.消融研究0在本节中，我们将说明TPNet的每个部分的有效性。我们选择Argoverse数据集进行消融研究有两个原因：1）Argoverse数据集的规模比其他数据集更大；2）Argoverse数据集为验证集提供了地面真值标签。两阶段框架。为了进一步验证将轨迹预测建模为两阶段框架的有效性，我们逐步移除分类和回归模块进行实验。结果如表4所示。通过同时移除分类和回归，模型在FDE指标上达到4.01米。预测的轨迹是通过对过去位置和预测终点拟合的曲线进行采样得到的。然后，级联回归器用于改进预测的终点，进一步将FDE提高了5厘米，如表4的第二行所示。最后，进行完整的两阶段流程实验，FDE可以进一步提高8厘米。网格大小。所提出的方法依赖于生成的建议的质量。网格范围对建议生成的影响如表5所示。当网格范围设置为6米×6米时，TPNet的结果更好。随着网格范围的增大，性能变差，因为搜索空间变大。较小的间隔大小更好。868040安全性0过去位置0未来位置0TPNet的预测0Uber的预测0没有先验知识的TPNet的预测0回归得到的终点0第一阶段建议0参考线0多样性两阶段0图5. TPNet在Argoverse数据集上各组件有效性的定性结果。从上到下分别展示了两阶段框架、多样性和安全性的有效性。最好以彩色查看。04.3.定性评估0预测交通代理的运动是一项挑战，因为在相同的场景下，代理可能有不同的意图。此外，可能的未来路径不仅由它们的意图决定，还受附近交通规则的限制。图5显示了在Argoverse验证集上的定性结果。大多数选择的场景都接近十字路口。图5显示我们的方法可以生成更安全和多样化的预测结果。两阶段框架。图5的第一行展示了所提出的两阶段框架的有效性。回归得到的终点可能不准确，但是分类和回归过程将改进预测结果。多模态输出。图5的第二行展示了接近十字路口场景下的预测结果。我们可以观察到每个可能意图周围的多模态预测。此外，每个意图的预测结果也是多样化的，例如，车辆可能沿着中心车道线行驶或偏离中心车道线。安全性。图5的最后一行展示了TPNet（紫色三角形）、Uber[10]（黄色三角形）和具有安全保证的TPNet（蓝色三角形）的结果。Uber[10]仍然可能在可行驶区域之外生成预测结果，因为DAC指标仍有改进的空间。通过使用公式4降低驶入区域外建议的分类分数，TPNet-map-safe的DAC提高到0.99，这表明我们的方法可以生成更安全的预测结果。0将道路元素编码为栅格图像，并使用CNN回归未来位置。如图所示，将语义道路地图输入DNN不能确保预测的安全性，而提出的衰减函数Eq. 4更可靠。05. 结论0在这项工作中，我们提出了一个两阶段的流程，以实现更有效的运动预测。所提出的两阶段TPNet首先生成可能的未来轨迹作为提案，并使用基于DNN的模型对提案进行分类和改进。通过为不同意图生成提案来实现多模态预测。此外，通过过滤可移动区域之外的提案，还可以确保安全预测。在公共数据集上的实验证明了我们提出的框架的有效性。所提出的两阶段流程可以灵活地将先验知识编码到深度学习方法中。例如，我们可以使用指示车辆意图的灯状态来过滤提案，这将包含在未来的工作中。968050参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Li Fei-Fei, and Silvio Savarese. So- ciallstm: 人类在拥挤空间中的轨迹预测.在计算机视觉和模式识别的IEEE会议论文集中，页码961-971，2016年。 [2] Florent Altch´e和Arnaud de La Fortelle.用于高速公路轨迹预测的LSTM网络.在2017年IEEE第20届智能交通系统国际会议上，页码353-359，IEEE，2017年。 [3] Georges S Aoude，Brandon DLuders，Kenneth KH Lee，Daniel S Levine和Jonathan P How.交叉口驾驶辅助系统的威胁评估设计.在第13届国际IEEE智能交通系统会议上，页码1855-1862，IEEE，

下载后可阅读完整内容，剩余1页未读，立即下载