自动驾驶的多模态概率轨迹预测方法CoverNet简介及其在城市驾驶中的应用

192 浏览量更新于2023-10-25 收藏 895KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

114074CoverNet：使用轨迹集进行加州理工大学董志明分校tung@caltech.eduElena Corina Grigore，Freddy A.放大图片作者：Oscar Beijbom，EricM.Wolff nuTonomy，一家Aptiv公司{elena.corina.grigore，freddy.boulton，oscar，eric}@ nutonomy.com摘要我们提出了CoverNet，这是一种用于城市驾驶的多模态概率轨迹预测以前的工作采用了多种方法，包括多峰回归，占用地图，和一步随机政策。相反，我们框架的轨迹预测问题的分类在一组不同的轨迹。由于在合理的预测范围内可以采取的不同行动的数量有限，因此该集合的大小仍然是可管理的我们构造轨迹集以a）确保状态空间的期望覆盖水平，以及b）消除物理上不可能的轨迹。通过动态生成轨迹集的基础上代理的当前状态，我们可以进一步提高我们的我们在公共的、真实的自动驾驶数据集上展示了我们的方法，并表明它优于最先进的方法。1. 介绍我们的动机是在动态，交互和不确定的环境中运行的自治系统。具体来说，我们关注的是自动驾驶汽车在城市环境中导航的问题，在城市环境中在这种情况下，推理可能的未来状态的代理是至关重要的安全和自信的操作。未来智能体状态的有效预测取决于道路上下文（例如，车道几何形状、人行横道、交通灯）和其他代理的最近行为由于代理偏好的广泛分布（例如，谨慎的vs.攻击性的）和意图（例如，向右转，直走）。有用的预测必须代表多种可能性及其相关的可能性。此外，我们预计预测的轨迹在物理上是可实现的。多模态回归模型似乎自然适合于此任务，但在训练期间可能会退化为单模态。避免这种在Aptiv公司nuTonomy实习期间完成的工作注意事项[13，7，20]。此外，大多数国家的-现有技术的方法预测不受约束的位置[13，7，20，31]，导致在物理上不可能执行的轨迹（[12]是最近的例外）。我们的主要见解利用特定领域的知识来有效地构建输出表示并解决这些问题。我们的第一个认识是，在合理的时间范围内，可以采取的不同行动相对较少。动态约束大大限制了在标准的六秒预测范围内的可达状态集我们利用这一见解制定多模态，概率轨迹预测作为分类，在轨迹集。这避免了模式崩溃并且允许用户设计轨迹集以满足特定要求（例如，动态可行、覆盖保证）。我们的第二个见解是，预测的轨迹应该与当前的动态状态相一致。因此，我们将输出公式化为相对于初始状态的运动（例如，稍微右转，加速）。当与动力学模型集成时，输出被转换为适当的位置序列。除了帮助确保物理上有效的轨迹，这种动态输出表示确保了输出在控制空间中在很宽的速度范围内是多样的。虽然[12]利用了回归的类似见解，但我们将动态表示的使用扩展到分类和锚箱回归。我们现在总结我们在使用CoverNet进行多模态概率轨迹预测方面的主要贡献：• 介绍了用于多模态轨迹预测的轨迹集的概念，并展示了如何以固定和动态的方式生成它们;• 在nuScenes [5]上比较最先进的方法，nuScenes是一个公共的、真实的城市驾驶基准;• 经验表明，在多模态回归的轨迹集分类的好处。2. 相关工作我们专注于基于深度学习的轨迹预测方法，并请读者参考[26]以了解更经典的方法。以下方法通常114075图1：CoverNet概述。我们生成一个轨迹集（基于当前状态的固定或动态），我们对其进行分类。[ 13]输入和主干遵循[使用CNN将代理历史与场景上下文相结合，并在其输出表示中显着变化。根据方法，场景上下文将包括从单个代理的过去状态到所有代理的过去状态以及高保真地图信息的一切。随机方法通过对随机变量进行采样来对多个位置的选择进行编码。最早的运动预测工作之一将问题框架为学习随机1步策略[22]。R2P2 [30]通过对称KL损失提高了此类策略的最近的工作考虑了多智能体设置[31]和模型本身的不确定性[19]。其他方法使用CVAE[20，25，2，21]或GAN [34，17，36]生成随机方法在计算上可能是昂贵的，这是由于a）重复的1步推出（在1步策略方法中），或b）需要大量样本以获得可接受的性能（通常在实践中难以确定）。单峰方法输出每个智能体的单个轨迹[27，6，15，1]。这往往是无法充分发挥作用的。即使在预测高斯不确定性时，也能在复杂的场景中实现真正的可能性。这些方法通常对行为进行平均，这可能导致无意义的轨迹（例如，在右转和直行之间的中途）。多模态方法输出多个轨迹上的分布[7，13，20，14]或时空概率图[20，28，35]。后者灵活地捕获多个结果，但通常在合理的分辨率下对网格有很大的内存需求。从占用图中采样轨迹a）没有很好地定义，并且b）在推断期间增加了额外的计算。多模态回归方法很容易遭受相比之下，我们贡献的力量在于将问题框架为分类而不是回归。我们还提供了三种创建轨迹集的方法，以进行分类，并在[7]中实现性能改进大多数轨迹预测方法不显式编码运动约束，预测物理上不可行的轨迹（最近的例外是[12]）。通过仔细选择我们的输出表示，我们排除了所有物理上不可能执行的操作。尽管我们的预测可能会在测试时产生越野轨迹，但只要在训练过程中不包括这些轨迹，我们的模型就会学习为它们分配低概率图搜索是运动规划的经典方法[24]，并且经常用于城市驾驶应用[4]。运动规划器生成可能运动的紧凑图（或树）障碍物的最大间隙由于我们不知道另一个智能体相反，我们隐式地估计这些特征，并直接对可能的轨迹集进行分类。在轨迹集的大小和所有潜在运动的覆盖范围之间存在基本的张力[3]。由于我们只是试图预测其他车辆的运动足以驾驶，我们可以很容易地接受在中等时间范围（3到6秒）内出现小错误。比较自适应轨迹预测的结果在城市环境中驾驶汽车具有挑战性。大量论文纯粹基于内部数据集[13，35，6，28]进行评估，因为常见的公共数据集相对较小[16]，专注于高速公路驾驶[9]，或者与驾驶密切相关[32]。虽然公共数据集有令人鼓舞的新发展[8，20]，但没有标准。为了帮助提供清晰和开放的结果，我们在nuScenes [5]上评估了我们的模型，nuScenes [ 5 ]是最近一个专注于城市驾驶的公共3. 方法在本节中，我们概述了本文的主要贡献：一种新的轨迹集生成方法，并展示了如何将其用于行为预测。114076ΣtΣit−m：t3.1. 符号CoverNet使用i）所有代理的当前和过去状态（例如，车辆、行人、骑自行车的人），以及ii）高清地图。我们假设访问对象检测和跟踪系统的状态输出，该系统具有足够的质量用于自动驾驶。我们将自动驾驶汽车在时间t与之交互的代理集合表示为It，si表示代理i∈It的(a) 固定（b）动态在时间t。让si= si，. . .，siwhere m < nandm：n m ni∈It表示智能体i从对于时间t = m，. - 是的- 是的，n.此外，我们假设访问高清地图，包括车道几何形状，人行横道，可驾驶区域，其他相关信息。图2：轨迹集生成方法概述网络倒数第二层的输出与以前的工作[13，7]相比，我们选择不�设C={si;map}表示场景上下文学习空间上的不确定性分布虽然过去的M步（即，所有代理的地图和部分历史图1概述了我们的模型架构。它主要遵循[13]，主要区别在于输出表示（见第3.2节）。我们使用ResNet-50 [18]，因为它在这个领域的作用[13，7]。虽然我们的网络一次只计算单个代理的预测，但我们的方法可以扩展到以与[7]类似的方式对所有代理进行模拟预测。我们专注于单主体预测（如[13]），以简化论文并专注于我们的主要贡献。下一节将详细介绍我们的输入和输出表示。我们的创新在于我们的输出表示（轨迹的动态编码），以及将问题视为对不同轨迹集的分类3.2. 输出表示由于相对较短的轨迹预测范围（最多6秒），以及代理人的内在不确定性，我们近似所有可能的运动与一组轨迹，提供足够的空间覆盖。设R（st）是所有可达到的状态的集合由具有N个时间步的当前状态st我们通过有限数量的轨迹来近似这个集合，定义轨迹集合K= {st：t+N}。我们定义了一个动态轨迹集一般-tor作为函数fN：s0→K，它允许轨迹设定为与当前动态一致。与此相反，固定发生器不使用关于当前状态的信息，因此对于每个输入返回相同的轨迹简单地将高斯不确定性添加到每个与[7]类似，我们的轨迹集的密度与只有少数模式的情况相比降低了其益处。理想的轨迹集总是包含接近地面实况的轨迹我们提出了两大类轨迹集生成函数：固定和动态（见图2）。在这两种情况下，我们将当前状态规范化为原点，标题向上。3.3. 固定轨迹集我们认为一个轨迹集是固定的，如果它包含的trajec- tories不改变作为代理的当前动态状态或环境的函数。直观地说，这使得很容易分类，因为它允许在集合上进行固定枚举，但可能导致许多与当前情况不匹配的枚举。给定一组有代表性的轨迹数据，求最小固定近似轨迹集K的问题可以转化为NP-困难集覆盖问题的一个实例。[11 ]第10段。在机器人运动规划的背景下，已经研究了用仍然保持良好覆盖和多样性的稀疏轨迹集来近似密集轨迹集[3]。在这项工作中，我们使用覆盖度量δ定义为最大逐点欧氏距离之间的投射。我们的轨道设置构建程序开始通过从训练集中二次采样一个相当大的轨迹集KJ 选择一个可接受的误差容限ε，我们继续找到解决方案：站姿我们在第三节讨论轨迹集的构造。我们编码多模态，概率轨迹预测-argminK|K|通过在给定感兴趣的代理和场景上下文C的情况下对适当的轨迹集进行分类来确定。正如在分类文献中常见的那样，我们使用softmax distribu-受KKJ，δ（k，l）≤ ε，（一）第具体地说，第k条轨迹的概率是where δ(st:t+N, sˆt:t+N) := maxt+N ǁsτ − sˆτǁ . Wekexpfk（x）τ=t2给定为p（st：t+N |x）= exp f（x），其中fi（x）∈R是将该度量称为最大逐点L2距离。我我114077我们采用一个简单的贪婪近似算法来求解（1），我们称之为装袋算法。我们在候选轨迹中挑选最好的轨迹放在一个将用作覆盖集的轨迹袋中。我们反复考虑那些尚未覆盖的轨迹作为候选，并选择覆盖最多未覆盖轨迹的轨迹（关系被任意打破标准结果（不使用数据的专门结构）表明，我们的确定性贪婪算法是次优的，最多为log（|王空军|）（见第35.3章[11]）。在我们的实验中，我们能够获得不错的覆盖率（具体来说，最大覆盖率6秒轨迹的逐点L2距离），覆盖集中的元素少于2,000个。3.4. 动态轨迹集我们认为一个轨迹集是动态的，如果它所包含的trajec- tories的变化作为代理的当前动态状态的函数。这种构造保证了集合中的所有轨迹都是动态可行的。我们现在描述一个简单的方法来构建这样一个动态轨迹集，重点是预测车辆运动。我们使用标准的车辆动力学模型[24]，因为类似的模型对于城市（非公路）驾驶速度的规划是有效的[23]。然而，我们的方法并不局限于车辆或任何特定的模型。我们使用的动态模型是：xstec=vcosθystec=vsinθ图3：ε覆盖所需的轨迹数量（单位：米，见第3节）当速度接近零时，所以我们用max（v，1）代替v。请注意，扩展控制（输出空间）以包括非均匀预测范围内的多个横向和纵向加速度是简单的。我们可以以与3.3中处理固定轨迹集类似的方式进一步修剪动态轨迹集构造。主要区别在于，这里的覆盖集是从控制输入集构造的而不是KJ本身的元素。也就是说，我们使用类似的贪婪过程来覆盖sam的集合。具有控制轮廓子集的多个轨迹（例如，作为时间函数的横向和纵向加速度）。注意，与固定轨迹的情况不同，合成na-联系我们vbtan（usteer）动态轮廓的真实性可能不能保证100%覆盖KJ。为了解决这个问题，我们还可以创建通过结合固定和动态的混合轨迹集，vstec=uaccel国家：x、y（位置）、v（速度）、θ（偏航）;控制：usteer（转向角度），uaccel（纵向加速度）;参数：B（轴距）。动力学模型、控制序列和当前状态通过前向积分确定轨迹st：t+N我们创建一个动态轨迹集K的基础上，当前状态的ST通过集成与我们的动态模型在不同的控制序列。这样一个动态的轨迹集对于相同的覆盖范围，具有比固定集合更稀疏的可能性，因为每个控制序列映射到多个轨迹（作为当前状态的函数）。我们参数化的控制（输出空间）由一组不同的恒定的横向和纵向加速度在预测范围。使用横向加速度而不是转向角是一种将输出归一化的方法，速度范围（期望的横向加速度将对应于作为速度的函数的不同转向角）。我们把横向加速度转换成转向角-将瞬时圆周运动aLat=v2κ与曲率κ=tan（u 转向）/b相加。这种转换是不明确的集特别地，我们找到一个覆盖子集的元素KJ不能覆盖的动态选择，并结合这个子集的动态选择。当动态集合构造良好时，这可以导致较小的覆盖集合，如图3所示。4. 实验我们提出了在城市环境中的车辆轨迹预测的实证结果。以下部分描述了我们考虑的基线、指标和城市驾驶数据集我们在模型和基线中使用相同的输入表示和模型架构。4.1. 基线物理预言。我们介绍了一个简单的和可解释的模型，扩展了经典的基于物理的模型。我们使用轨道的当前速度、加速度和偏航率来计算以下预测：i）恒定速度和偏航，ii）恒定速度和偏航率，iii）恒定加速度和偏航，以及iv）恒定加速度和偏航率。114078预言是四个模型上的最小平均逐点欧氏距离。回归基线和扩展。我们通过实现两种主要类型的回归模型来比较我们对最先进方法的贡献：多峰回归坐标[13]和多峰回归残差，从一组锚[7]（有序回归）的样本。我们概述这些方法的完整性，并提供我们介绍的新变化的背景。多模式回归坐标。我们的实现遵循多轨迹预测（MTP）[13]的细节，适用于我们的数据集。该模型预测固定数量的轨迹（模式）及其相关概率每个代理的损失（在时间t的代理i）被去-罚款为：Σ| K|速度，帮助确保锚点在动态上是可行的。然后我们回归到所选锚点的残差4.3. 实现细节我们的实现设置遵循[13]和[7]，主要区别如下。有关概述，请参见图1我们使用ResNet-50 [18]作为我们的骨干来实现我们的模型，并从[10]下载了预训练的ImageNet [33]权重。我们读取ResNetconv5特征图并应用全局池化层。然后，我们将结果与智能体状态向量（包括速度，加速度，偏航率）连接起来，如[13]所述。然后我们添加一个完全连接的层，尺寸为4096。CoverNet的输出维数等于模式数，即|K|.对于混合动力车型，LMTP =1<$[−logpik+αL（si，soui）]修复：nuScenes数据集的动态轨迹分割是它k=1K=kt：t+Nt：t+N（二）92：682，而内部数据集是524：500。我们选择这些值可以最大限度地覆盖200米，其中1（·）是仅对于“最佳匹配”模式等于1我们使用K来表示模型预测的轨迹集，但有些符号滥用。原始实现[13]使用基于每个模式与地面真实值之间的相对角度的启发式。当不存在具有低于阈值的角度的模式时，我们随机均匀地选择模式锚点残差的多模态回归。我们的实现遵循MultiPath（MP）[7]的细节。该模型通过首先在一组固定的锚点（先验计算）中进行选择来实现有序回归，然后回归到所选锚的残差。建议的每个代理损失为（2），其中α=1，第k个轨迹是相应的锚点和预测残差之和。为了保持对[7]中的实现的真实性，我们通过最小化到地面真实值的平均位移来选择最佳匹配锚。我们通过使用3.3节中描述的相同机制来计算固定锚的集合。请注意，这组轨迹对于我们数据集中的所有代理都是相同的。然后我们回归到所选锚点的残差4.2.我们的模型CoverNet（固定）。我们的分类方法，其中K集合只包括固定的轨迹。CoverNet（动态）。我们的分类方法，其中K集是当前代理状态的函数。CoverNet（hybrid）.我们的分类方法，K集是固定轨迹和动态轨迹的组合。使用动态锚点的多路径。多路径方法，扩展到使用动态锚点，在第二节中描述第3.4节。锚的集合是代理最小化类别总数的总和。对于回归模型，我们的输出是维度的|×（|� x|×N+1），其中|K|表示预测模式的总数，|� x|表示我们预测的每个点的特征数量，N表示我们预测的点的数量，每个模式的额外输出是与每个模式相关的概率。|representsthenumberoffeatureswe arepredicting per point, N represents the number of pointsin our predictions, and the extra output per mode is theprobability associated with each mode. 对于我们的实现，N=H×F，其中H表示以秒为单位的预测范围的长度，F表示采样频率。对于每个点，我们预测（x，y）坐标，因此|�x|=2。我们的内部数据集具有F=10Hz，而公开可用的nuScene以F=2Hz采样。我们包括两个不同的预测水平长度，即H=3秒和H=6秒的结果我们在所有实现中使用的损失函数都是相同的：对于任何分类损失，我们利用交叉熵，其中正样本由轨迹集中的元素确定，该轨迹集中的元素在逐点欧几里德距离的最小平均值中最接近于实际地面实况，并且对于任何回归损失，我们利用平滑L1。对于我们的MTP实现，我们在损失的分类和回归分量之间放置相等的权重，设置α=1，类似于[13]。对于我们的分类模型，我们使用1 e-4的固定学习率。对于我们的回归模型，我们使用1 e-4的学习率，下降0。对于我们的内部数据集，我们总是在epoch执行drop。6;对于nuScene，我们针对具有1和3模式的MTP和具有16模式的MP动态在（1）时期31处执行丢弃，(2) 对于具有16和64个模式的MTP、具有16个模式的MP和具有64个模式的MP动态，时间段12，以及（3）对于具有64个模式的MP，时间段7114079τ=tNτ=tt+N(a) CoverNet，固定，ε= 2，1937模式（b）CoverNet，混合，1024模式（c）CoverNet，动态ε= 3，342模式(d)MTP [13]，3模式（e）MultiPath [13]，动态，16模式（f）MultiPath [13]，64模式图4：同一场景中预测轨迹的示例。第一行包括我们的CoverNet模型，从固定到动态。最下面一行包括我们比较的基线，以及我们的动态模板变化。世界中的对象将渲染到当前时间。4.4. 度量有多种评估多模式轨迹预测的方法。常用的测量方法包括对数似然[7，31]、平均位移误差和命中率[20].我们专注于a）位移误差，和b）命中率，两者都是在最可能的模式的子集上计算的为了深入了解存在多个合理动作的场景中的轨迹预测性能，我们使用最小平均位移误差（ADE）。minADEk为mins∈P1t+N||sτ−sτ||，其中P是k个最可能的轨迹。我们还分析了最终位移误差（FDE），||st+N−s||，其中，S是最可能的模式。在规划自动驾驶汽车的背景下，上述指标可能很难解释。我们使用命中率的概念（见[20]）来简化对预测是否“足够接近”的解释。我们将单个实例（给定时间的代理）的命中k，d定义为1，如果mins<$∈Pmaxt+N||sτ−sτ||≤d，否则为0。当对所有实例进行平均时，我们将其称为命中率k，d。4.5. 输入表示与[13，7，15]类似，我们依赖于对象检测模块的结果，并且我们将每个代理的场景作为RGB图像进行渲染。我们从一个大小为（H，W，3）的空白图像开始，并为每个语义类别使用不同的颜色绘制可行驶区域，人行横道和我们旋转图像，使智能体的头部朝上，并将智能体放置在从图像左上角我们为车辆和行人分配不同的颜色，并为代理选择不同的颜色，以便它是可区分的。在我们的实验中，我们使用每像素0.1米的分辨率，并选择l=400和w=250。因此，模型可以我们将每个智能体的过去观察结果的序列表示为与114080方法minADE1 minADE5 minADE10 minADE15最大l21.00.670.64 0.64平均L20.960.660.64 0.64l2的RMS 0.960.660.64 0.63图5：内部数据集上每种类型的最佳模型（6秒范围）。CoverNet模型明显优于其他模型。图例列出模型名称、模型是动态模型还是固定模型（如果适用）以及模式数代理的当前边界框。我们通过线性降低饱和度（在HSV空间中）作为时间的函数来淡化颜色。虽然我们在这些实验中只使用了一个输入表示，但我们的新输出表示可以与[28，35]的输入表示一起工作。4.6. 数据集内部自动驾驶数据集。我们在新加坡收集了60小时的真实城市驾驶数据。原始传感器数据由配备摄像头、激光雷达和雷达的汽车收集。高度优化的目标检测和跟踪系统过滤原始传感器数据，以10 Hz的速率生成跟踪。每个轨道包括关于其类型的信息（例如，汽车、行人、自行车、未知）、姿态、物理范围和速度，质量足以用于完全自动驾驶。我们还可以访问带有道路语义标签的高清地图，例如可行驶区域、车道几何形状和人行横道。在给定时间戳处的每个自我车辆位置被认为是数据点。我们不预测在整个预测范围内静止的任何轨迹。我们的内部数据集包含大约1100万个可用数据点，但对于此分析，我们分别创建了100万个、30万个和30万个数据点的训练集、验证集和测试集。nuScenes 我们还报告了公共自动驾驶汽车数据集nuScenes [5]的结果。nuScenes由1000个场景组成，每个场景的长度为20秒。场景取自美国波士顿和新加坡的每个场景都包括手工注释的轨道和高清地图。轨道具有3D地面实况注释，并以2 Hz发布。由于注释在测试集上不是公共的，我们从训练集创建了一个用于验证的集（称为训练值集），并将验证集视为测试集。与我们的内部数据集一样，我们删除了静止的车辆，也删除了偏离注释表1：内部数据集（3秒范围）上固定轨迹集（150种模式）的地面实况匹配地图这使得我们在训练集中有32，186个观测值，在训练值集中有8，560个观测值，在验证集中有9，041个这种分裂在 nuScenes 软件开发工具包中公开提供[29]。5. 结果主要结果总结见表2。定性结果如图4所示。定量结果。在我们使用的六个指标和两个数据集中，CoverNet在12个案例中的8个案例中优于以前的方法和基线。然而，根据度量标准的不同，方法排名存在很大差异。CoverNet代表了HitRate5.2m指标的显着改进，使用混合轨迹集在nuScenes上实现了33%下一个最好的模型是MultiPath，其中我们的动态网格扩展比作者使用的固定网格略有改进（13%vs.10%）。三种模式的MTP表现更差，达到10%，勉强超过等速基线。我们在内部数据集上注意到类似的模式，其中CoverNet优于以前的方法和基线。在这里，具有1，937种模式的固定集合表现最好（57%），紧随其后的是混合集合（55%）。在以前的方法中，再次使用动态集的MultiPath在30%HitRate5，2m时效果最好。图5显示，CoverNet显著优于以前的方法，因为命中率在更多模式上扩展。根据平均位移误差minADEk度量，CoverNet也表现良好，特别是对于k∈{5，10，15}，其中我们看到CoverNet优于状态-最先进的方法。最值得注意的是，根据我们内部数据集的minADE 15指标，具有固定集合和2，206个模式的混合CoverNet在minADE 15为0时表现最佳。84，比等速基线好4倍，比MTP和MultiPath好2倍。对于minADE1度量，回归方法表现最好。这并不奇怪，因为对于低k，具有非常接近地面实况的一个轨迹是更重要的，这是一种有利于回归而不是分类的度量范式。nuScenes 和 internal 之间的一个显着差异是，HitRate5，2m和minADEk在较大的集合中继续改善，而在大约100%时达到稳定甚至下降。114081方法模式minADE1↓minADE5↓最小ADE10↓最小ADE15↓FDE↓点击率5.2米↑常数vel. &偏航N/A4.61（3.63）4.61（3.63）4.61（3.63）4.61（3.63）11.21（9.86）0.09（0.22）物理预言N/A3.70（1.88）3.70（1.88）3.70（1.88）3.70（1.88）9.09（5.72）0.12（0.31）[第13话]第1（1）4.17（1.88）4.17（1.88）4.17（1.88）4.17（1.88）9.37（5.22）0.05（0.24）[第13话]三（三）4.13（2.01）2.93（1.73）2.93（1.73）2.93（1.73）9.23（5.45）0.10（0.28）[第13话]十六（十六）4.55（3.15）3.32（2.48）3.25（2.43）3.23（2.42）9.58（7.79）0.08（0.25）[第13话]六十四（六十四）4.50（3.21）3.24（2.63）3.15（2.51）3.13（2.47）9.59（7.74）0.09（0.27）多路径[7]十六（十六）4.89（2.34）2.64（1.71）2.47（1.71）2.43（1.70）10.41（5.83）0.08（0.24）多路径[7]六十四（六十四）5.05（2.30）2.32（1.42）1.96（1.36）1.86（1.34）10.69（5.63）0.10（0.27）MultiPath [7]，dyn.十六（十六）3.89 (2.06)3.34（1.47）3.28（1.46）3.27（1.46）9.19（5.76）0.10（0.30）MultiPath [7]，dyn.六十四（六十四）4.05（2.23）3.45（1.53）3.33（1.46）3.28（1.44）9.47（6.17）0.13（0.28）CoverNet，固定，ε=8六十四（六十四）5.16（2.77）2.41（1.98）2.18（1.93）2.13（1.93）10.84（6.65）0.08（0.06）CoverNet，固定，ε=5二百三十二（二百零八）4.73（2.32）2.14（1.35）1.72（1.25）1.60（1.22）10.16（5.67）0.15（0.31）CoverNet，固定，ε=4四一五（三百七十四）5.07（2.27）2.31（1.29）1.76（1.15）1.57 (1.10)10.62（5.85）0.17（0.35）CoverNet，固定，ε=3八四四（七四七）4.74（2.28）2.32（1.32）1.74（1.13）1.51（1.07）10.19（5.92）0.23（0.33）CoverNet，固定，ε=2二二零六（一九三七）5.41（2.16）2.62（1.16）1.92（0.93）1.63（0.84）11.36（5.53）0.24（0.57）CoverNet，动态，ε=3三五七（三四二）3.90（2.06）2.02（1.17）1.57（0.97）1.36（0.88）9.65（5.90）0.33（0.52）CoverNet，混合七七四（一○二四）3.87（2.18）1.96（1.24）1.48（0.99）1.28（0.88）9.26（5.84）0.33（0.55）表2：nuScene和内部数据集（6秒范围）。结果列为nuScenes（内部）。minADEk越小，FDE越好。更大的HitRate5，2m更好。动力学= dynamic，vel. =速度，常数=常数，ε以米为单位。nuScenes上有500- 1，000种模式。我们假设这是由于nuScene的大小相对有限。结果令人满意。在图4中，我们展示了一个场景的可视化，该场景覆盖了我们的顶级模型的预测，并与我们的基线进行了比较。我们注意到，我们对这个场景的预测范围是6秒。因此，预测不反映碰撞，因为场景中的行人将在我们的车辆到达图像中反映的行人姿势之前穿过道路。我们强调，CoverNet预测不包括直线轨迹，因为车辆在曲线之前减速。当可视化为视频时，我们首先预测直线轨迹，然后预测车辆开始减速时的左转我们强调了我们的模型预测的轨迹与回归基线的平滑度。图4还表明，CoverNet比基线模型更好地捕捉了左转的不同选择6. 消融研究6.1. 距离函数我们分析了将地面实况与轨迹集中最合适的轨迹匹配的不同方法。表1使用欧氏距离的逐点误差向量的最大值、平均值和均方根来比较性能，以将地面实况与大小为150的固定轨迹集中的“最佳”轨迹匹配。所有三种选择的性能相对一致，因此我们选择114082平均逐点L2范数，以更好地与相关回归方法对齐[7]。6.2. 动态与固定轨迹集覆盖在图3中，我们比较了固定和混合轨迹集生成函数在不同ε水平下实现轨迹集100%覆盖所需的轨迹数量，其中后者使用固定和动态轨迹的混合此图突出显示了添加动态轨迹的优势：它们能够实现与固定轨迹相同的覆盖水平，但是需要较少数量的轨迹来实现。7. 结论我们介绍了CoverNet，这是一种用于现实世界城市驾驶场景中的多模态概率轨迹预测的新方法。通过将这个问题定义为一组不同轨迹的分类，我们能够a) 确保状态空间的期望覆盖水平，b）消除动态不可行的轨迹，以及c）避免模式崩溃的问题。我们表明，我们的轨迹集的大小在现实的预测范围内仍然是可控的。基于智能体我们将我们的结果与现实世界自动驾驶数据集（公共和内部）上的多种最先进方法进行了比较，并表明它优于类似方法。致谢。我们要感谢Emilio Fraz- zoli和Sourabh Vora进行了富有洞察力的讨论，并感谢Robert Beaudoin在实施方面提供的帮助。114083引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S. Savarese社交LSTM：拥挤空间中的人体轨迹预测。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。2[2] Apratim Bhattacharyya，Bernt Schiele，and Mario Fritz.基于“多个最佳”样本目标的精确和多样的序列采样在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。2[3] M. S.布拉尼茨河A. Knepper和J. J·库夫纳路径和轨迹多样性：理论和算法。在IEEE机器人与自动化国际会议（ICRA）上，2008年5月。二、三[4] Martin Buehler ， Karl Iagnemma ， and Sanjiv Singh.DARPA城市挑战：城市交通中的自动驾驶汽车Springer出版公司，第1版，2009年。2[5] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuScenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。一、二、七[6] Sergio Casas ， Wenjie Luo ， and Raquel Urtasun.IntentNet：学习从原始传感器数据预测意图。在2018年10月举行的第二届机器人学习会议上2[7] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。MultiPath：用于行为预测的多个概率锚轨迹假设。在第三届机器人学习会议（CoRL），2019年11月。一二三五六八[8] Ming-Fang Chang、John Lambert、Patsorn Sangkloy、Jag-jeet Singh 、 Slawomir Bak 、 Andrew Hartnett 、 DeWang 、 Peter Carr 、 Simon Lucey 、 Deva Ramanan 和James Hays。阿尔戈-诗句：3D跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议上，2019年6月。2[9] J. Colyar和J.哈尔基亚斯美国高速公路101数据集，2007年。2[10] 火炬贡献者。Torchvision.models.https：//pytorch.org/docs/stable/torchvision/models.html，2019. 5[11] Thomas H.柯文<英>来华传教士。，1930--人莱瑟森<美>来华传教士。，1930--人Rivest和Clifford Stein 算法导论，第三版。麻省理工学院出版社，第3版，2009年。三、四[12] Henggang Cui，Thi Nguyen，Fang-Chieh Chou，Tsug-Han Lin，Jeff Schneider，David Bradley，and Ne-manjaDjuric. 深运动学模型为车辆轨迹的物理现实预测，2019年。https://arxiv.org/abs/1908.00219v1. 一、二[13] H. Cui，V. Radosavljevic，F. Chou，T. Lin，T.阮氏T.Huang，J. Schneider，and N.久里奇使用深度卷积网络进行自动驾驶的多模式轨迹预测在机器人和自动化国际会议（ICRA），2019年5月。一二三五六八[14] Nachiket Deo和Mohan Trivedi。用于车辆轨迹预测的卷积社会汇集。在IEEE计算机视觉和模式识别（CVPR）研讨会上，2018年6月。2114084[15] Nemanja Djuric ， Vladan Radosavljevic ， HenggangCui ， Thi Nguyen ， Fang-Chieh Chou ， Tsung-HanLin，and Jeff Schnei-der.使用深度卷积网络对自动驾驶的交通行为者进行短期运动预测， 2018 年。https://arxiv.org/abs/1808.05819v2. 二、六[16] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准测试套件。在IEEE计算机视觉和模式识别会议，2012年。2[17] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social GAN：具有生成对抗网络的社会可接受的传输。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。2[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议（CVPR），2015年。三、五[19] Mikael Henaff，Alfredo Canziani，and Yann LeCun. 密集交通中不确定正则化模型预测策略学习第七届国际学习表征会议（ICLR），2019年4月。2[20] Joey Hong Benjamin Sapp和James Philbin道路规则：使用语义交互的卷积模型预测驾驶行为。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二、六[21] 鲍里斯·伊万诺维奇、爱德华·施梅林、凯伦·梁和马可·帕沃内。多模态多人行为的生成式建模。在智能机器人和系统国际会议（IROS）上，2018年10月。2[22] 克里斯·M作者：Brian D. Ziebart，J. Andrew Bagnell，and Martial Hebert.活动预测。在欧洲计算机视觉会议（ECCV），2012年。2[23] J. Kong，M.菲弗

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

自动驾驶的多模态概率轨迹预测方法CoverNet简介及其在城市驾驶中的应用

面向自动驾驶目标检测的深度多模态融合技术.pdf

基于多模态融合的自动驾驶感知及计算.pdf

基于深度学习的多模态多任务端到端自动驾驶研究.pdf

基于transformer的交通车辆多模态轨迹预测

面向自动驾驶多模态感知的激光雷达-相机融合框架

说一下自动驾驶多模态融合的方法和传感器

自动驾驶中的多模态融合感知算法

疲劳驾驶多模态如何实现

transformer 轨迹预测

多模态dbms学习多模态表示

目前的多模态信息融合方法主要包括特征级融合、决策级融合和混合融合。举例说明在时间序列预测中的应用

多模态多目标算法有没有实际案例

transformer多模态融合

自动驾驶感知融合项目

多模态混合融合方法的缺点

多模态情感时间序列预测

提高多模态融合效率的方法

多模态情感分析的应用背景

多模态在计算机视觉发展历程

多模态的概率融合原理

最新资源