鸟瞰单目相机预测未来实例的火热模型

103 浏览量更新于2023-10-14 收藏 1.15MB PDF 举报

单目相机

自动驾驶

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15273FIERY：来自环绕单目相机的鸟瞰视图中的未来实例预测Anthony Hu1，2 Zak Murez1 Nikhil Mohan1Sof´ıaDudas1杰弗里·霍克1维贾伊·巴德里纳拉亚南1罗伯托·西波拉2亚历克斯·肯德尔11韦夫，英国。2英国剑桥大学摘要驾驶需要与道路代理进行交互并预测其未来行为，以便安全导航。我们介绍FIERY：一个概率未来预测模型在鸟瞰从单目相机。我们的模型预测未来的实例分割和运动的动态代理，可以转化为非参数的未来轨迹。我们的方法结合了感知，传感器融合和预测组件的一个传统的自动驾驶堆栈估计鸟瞰图预测直接从环绕RGB单目相机的投入。FIERY学习以端到端的方式仅从相机驾驶数据对未来的固有随机性质进行建模，而不依赖于HD地图，并预测多模态未来轨迹。我们表明，我们的模型在NuScenes和Lyft数据集上超过了以前的预测基线。代码和训练模型可在https://github.com/wayveai/fiery上获得。1. 介绍未来状态的预测是许多自主决策系统中的关键挑战。对于高度动态环境中的运动规划尤其如此：例如，在自动驾驶中，其他道路使用者和行人的运动对运动规划的成功具有实质性影响[10]。估计这些道路使用者的运动和未来姿势使得运动规划算法能够更好地解决多模态结果，其中最佳动作可能是模糊的，仅知道世界的当前状态。自动驾驶本质上是一个几何问题，其目标是在3D空间中安全正确地导航车辆。因此，正交鸟瞰图（BEV）视角通常用于基于LiDAR感测的基于相机的感知的最新进展与LiDAR相媲美基于感知[48]，我们预计这也将有可能用于更广泛的单目视觉任务，包括预测。构建基于相机的感知和预测系统将使得能够实现比LiDAR感测更精简、更便宜和更高迄今为止，基于相机的预测中的大部分工作已经直接在透视图坐标系[1，23]中执行，或者使用由HD映射系统（诸如[29，16]）生成的场景的简化BEV光栅表示[28，12，10]。我们希望构建在正交鸟瞰图帧中操作的预测模型用于自动驾驶车辆的鲁棒感知系统中的关键主题是早期传感器融合的概念，其直接从图像和LiDAR数据生成3D对象检测，而不是寻求合并每个传感器输入上的独立对象检测器的预测输出。如[50]中所示，从多个感官数据源联合学习任务，而不是分阶段的流水线，已被证明可以改善诸如对象检测等任务中的感知性能。我们寻求类似的好处，在加入感知和传感器融合预测估计鸟瞰图预测直接从环绕RGB单目相机的输入，而不是一个多阶段的最后，传统的自动驾驶堆栈[13]通过推断动态代理的当前行为来解决未来预测，而不考虑可能的相互作用。它们依赖于高清地图，并使用道路连接来生成一组未来轨迹。相反，FIERY学习以端到端的方式直接从摄像机驾驶数据预测道路代理的未来运动，而不依赖于HD地图。它可以推理未来的概率性质，并预测多模态的未来轨迹（见博客文章和图1）。总结本文的主要贡献15274×个图1：我们的鸟瞰图网络的多模态未来预测。最上面两行：RGB摄像机输入。预测的实例分割被投影到图像中的地平面。我们还可视化动态代理的平均未来轨迹作为透明的路径。底行：在围绕自我交通工具的100m 100m捕获大小中的鸟瞰图中的未来实例预测1. 我们提出了第一个未来的预测模型，在鸟瞰图从单目摄像机视频。我们的框架工作明确的原因多代理动态预测未来的实例分割和运动2. 我们的概率模型预测合理的和多-动态环境的模态未来。3. 我们展示了未来动态场景分割的定量基准，并表明我们的学习预测优于NuScenes [5]和Lyft [25]数据集上的自动驾驶15275不t，C不×个×个∈--∈我我不不不tt，C12吨2. 相关工作从相机鸟瞰视图表示。许多以前的作品[51，47]已经解决了固有的不适定（我们在我们的实现中使用EfficientNet [45]）来获得一组要提升的特征和一组离散的深度概率。令〇t={I1，…In}是n=6个摄像机的集合时间t的图像。我们用en对每个图像Ik进行问题[17]解除2D透视图像到鸟编码器：k不眼睛视图表示。[35[33]具体涉及et=E（It）∈e e，其中C为数字问题直接从图像生成语义BEV地图，并使用模拟器来获得地面真相。最近的多传感器数据集，如NuScenes [5]或Lyft [25]，通过生成鸟瞰图语义段，可以直接监督真实世界数据D是离散深度值的数量，并且（He，We）是特征空间大小。 D等于D_min（最小深度值）和D_max（最大深度值）之间的等间隔深度切片的数量，其中大小D_size= 1。0米。让我们拆分这个功能从3D对象检测的分割标签。 [39]提出分成两部分：ekKt，CKt，D ）与ek∈RC×He×We和预测道路元素的贝叶斯占用网络，以及kt，D∈RD×He×We. 张量uk∈RC×D×He×We为BEV中的动态代理直接来自单目RGB图像。与我们的方法最相似的是，Lift-Splat [37]学习了一个通过将特征的外积取为随深度概率提升：像素上的深度分布，以将相机图像提升到3D点云，并使用相机将后者投影到BEV中。uk=eke t，D（一）几何Fishing Net [19]解决了使用相机、雷达和LiDAR输入预测确定性未来鸟瞰视图语义分割的问题未来预测。未来预测深度概率充当自我注意的形式，根据特征被预测属于哪个深度平面来调制特征。使用已知的相机内函数和外函数（相机相对于车辆重心的位置），这些张量从每个摄像机（U1，...，un）被提升到共同参考中的3D。通常采用多级检测-跟踪-预测技术轨迹预测的范例[8，20，46]。然而，这些方法容易出现级联错误和高延迟，因此许多方法已经转向端到端方法用于未来预测。大多数端到端方法严重依赖于LiDAR数据[32，11]，通过合并HD地图[7]，编码约束[6]以及融合雷达和其他传感器以实现鲁棒性[43]来显示改进与传统的多阶段方法相比，这些端到端方法更快并且具有更高的上述方法尝试通过产生单个确定性轨迹[7，19]或单个分布来对轨迹的每个航路点的不确定性进行建模来进行未来预测[6，11]。然而，在自动驾驶的情况从观察到的过去来看，有许多有效的和可能的未来可能发生[21]。其他工作[8，46，36]已经在概率多假设轨迹预测上完成，然而所有工作都假设访问自上而下的光栅化表示作为输入。我们的方法是第一个预测不同的和合理的未来车辆轨迹直接从原始摄像机视频输入。3. 模型架构图2给出了我们模型的概述3.1. 将相机功能提升到3D对于每个过去的时间步，我们使用[37]的方法从每个相机提取图像特征，然后提升和参考系（在时间上的自飞行器的惯性中心t）。3.2. 投影到鸟瞰在我们的实验中，为了获得鸟瞰图特征，我们将空间离散为0。50米0. 50米列在一个100米100米的捕获大小周围的自我车辆。3D特征沿着垂直维度求和合并以形成鸟瞰图特征图XtRCXHXW，其中（H，W）=（200，200）是BEV特征的空间范围。3.3. 学习时态表示过去的鸟瞰图特征（x1，… x t）被变换到当前的参考帧（时间t）。 at−1）。at−1SE（3）对应于从tl到t的自我运动，即自我载体的平移和旋转使用空间变换器[22]模块S，对于i ∈ {1，… t − 1}：xt=S（xi，at−1·at−2·...（2）由于我们通过该操作丢失了过去的自我运动信息，因此我们将空间广播动作连接到该操作。扭曲过去的特征xt.然后，这些特征是时间模型的输入，该时间模型输出时空状态st：s t= T（x t，x t，…（3）将它们融合到BEV特征图中。特别地，每个IM-关于xt =x t。 T是一个3D卷积网络年龄通过标准卷积编码器E局部时空卷积、全局3D池化层。=（e得双曲余切值.eK不15276--t，存在Nt，未来图2：FIERY的架构：从相机输入的鸟瞰图中的未来预测模型1. 在每个过去的时间步1，…t，我们提升摄像机输入（O1，...，〇 t）到3D的深度概率分布，并使用已知的相机内函数和外函数。2. 这些特征被投影到鸟的-e_ye_vie_w（x1，… xt）。使用过去的e-go-motion（a1，…at-1），我们利用空间Transformer模块S将鸟瞰3. 3D卷积时间模型学习时空状态st。4. 我们参数化两个概率分布：现在和未来的分布。当前分布以当前状态s t为条件，并且未来分布以当前状态s t和未来标签（y t+1，… y t+H）。5. 我们在训练期间从未来分布中采样潜在代码ηt，并且在推断期间从当前分布中采样潜在代码η t。恩塞当前状态s t和潜在代码η t是未来预测模型的输入，该未来预测模型递归地预测未来状态（st+1，… s（t+H）。6. 状态被解码成鸟的视野中的未来实例分割和未来运动y（t+H）。ers，并跳过连接。有关时态模块的更多详细信息，请参见附录B。3.4. 目前和未来的分布在[21]之后，我们采用条件变分方法来模拟未来预测的固有随机性。我们介绍两种分布：当前分布P，其仅能够访问当前时空状态st;以及未来分布F，其另外能够访问观察到的未来标签（yi +1，...，y t+H），其中H是未来预测范围。标签对应于未来的中心度、偏移、分割和流动（参见第3.6节）。我们将两个分布参数化为对角高斯分布其中均值μ∈RL且方差σ2∈RL，L是潜在维数。在训练期间，我们使用样本ηt与观测到的未来一致的预测，以及覆盖 Kullback-Leibler散度损失的模式，以鼓励当前分布覆盖观测到的未来：L概率=DK L（F（·|st，yt+1，…， yt+H）||P（·|st））（4）在推断期间，我们采样η t（µ t，present，σ2）从当前分布，其中每个样本编码可能的未来。3.5. 鸟瞰图中的未来预测未来预测模型是卷积门控再流单元网络，其将当前状态st和在训练期间从未来分布F采样的潜在码ηt或用于推断的当前分布PN（µt，未来，σ2）从未来的分配来强制执行15277它递归地预测未来的状态（st+1，… s（t+H）。15278D--(a) 摄像头输入。(b) 中心性。（c）分段。（d）抵消。（e）未来流动。（f）实例分割。图3：我们模型的输出。(b)显示实例中心的热图，并指示找到实例中心的概率（从蓝色到红色）。(c)表示车辆分割。(d)显示了指示实例中心方向的向量字段。(e)对应于未来的运动-（f）示出了我们的模型的最终输出：鸟瞰图中的时间一致的未来实例分割的序列，（ii）然后使用偏移向量将像素分组到它们最接近的实例中心（iii）未来流允许通过比较使用从t到t+1的未来流的扭曲中心和时间t+1处的中心来进行一致的实例识别。自我载体由黑色矩形指示。3.6. 未来实例分割和运动所得到的特征是到具有多个输出头的鸟瞰图解码器的输入：语义分段、实例中心和实例偏移（类似于[9]）以及未来实例流。对于j∈ {0，…H}：yt+j=D（st+j）（5）其中st=st。对于每个未来时间步长t+j，实例中心性指示找到实例中心的概率（参见图3b）。通过运行非最大值抑制，我们得到一组实例中心。偏移量是指向实例的中心（图3d），并且可以与分割图（图3c）联合使用，以将相邻像素分配到其最近的实例中心，并形成鸟瞰图实例分割（图3f）。未来流（图3e）是动态代理的位移向量场。它用于通过比较时间t+j处的流扭曲实例中心和时间t+j+1处的检测到的实例中心并运行匈牙利匹配算法来随时间一致地跟踪实例[27]。我们的模型的完整描述在附录B中给出。3.7. 损失对于语义分割，我们使用top-k交叉熵损失[48]。由于鸟瞰在我们的实验中，我们设置k=25%。中心度损失是2距离，偏移和流动损失都是1距离。我们用参数γ= 0指数贴现未来时间步。九十五4. 实验环境4.1. 数据集我们在NuScenes [5]和Lyft[25]数据集。NuScenes包含1000个场景，每个场景的长度为20秒，以2Hz注释。Lyft数据集包含180个场景，每个场景的长度为25 - 45秒，以5Hz进行注释。在这两个数据集中，摄像机装置覆盖了自我车辆周围的整个360°视场，并且由6个摄像机组成，在视场中具有小的重叠。摄像机时代的内部和外部可用于每个场景中的每个摄像机所述标签（y，…y（t+H）是通过将所提供的车辆的3D边界框投影到鸟瞰视图平面中以创建鸟瞰视图占用网格来生成的。看到15279H第11章×个×个×个×个×个×个×个t t t|TP t|+的|+的|FNt|FN t|更多详情见附录B.2 所有的标签（y，t，…y（t+H）在当前的参考系中，并且是通过利用地面真实未来自我运动来变换标签而获得的。4.2. 度量未来的视频全景质量。我们希望在以下两个方面衡量系统的性能：(i) 识别质量：随着时间的推移检测实例的一致性如何。(ii) 分割质量：实例分段的精确程度。我们使用视频全景质量（VQP）[26]度量，定义为：到以前公布的方法从单目相机的鸟瞰许多先前的作品[30，35，39，37，42]已经提出了一种模型，以从单个时间帧的多视图相机图像输出动态场景鸟瞰为了比较，我们调整我们的模型，使得过去的上下文被减少到单个观察，并且我们设置未来视野H=0（以仅预测当前我们将此模型称为FIERY静态模型，并在表1中报告我们观察到，FIERY静态性能优于所有以前的基线。ΣΣ（p，q）∈TP IoU（pt，qt）t=02 2其中TPt是时间步t处的真阳性的集合（正确检测到的地面实况实例），FPt是时间步t处的假阳性的集合（不匹配任何地面实况实例的预测实例），并且FNt是时间步t处的假阴性的集合（未检测到的地面实况实例）。真阳性对应于预测的实例分割，其具有：（i）大于0.5的交并（IoU）表1：鸟瞰视图语义分割对与基础事实一致，以及（ii）随时间与基础事实一致的实例ID（被正确跟踪）。广义能量距离为了衡量我们的模型预测多模态期货的能力，我们报告了广义能量距离（DGED）[44]（在附录A.3中定义）。4.3. 培训我们的模型需要1。0的过去上下文并预测2。未来的0。在NuScenes中，这对应于过去时间上下文的3个帧和2Hz的未来的4个帧在Lyft数据集中，这对应于过去上下文的6帧和未来5Hz的10对于每个过去的时间步，我们的模型处理6个相机图像的分辨率为224 - 480。它在X和y方向上以50cm像素分辨率输出100m 100mBEV预测我们使用Adam优化器，其恒定学习率为3 10−4。我们在4个Tesla V100GPU上训练我们的模型，批量大小为12，以混合精度进行20个5. 结果5.1. 与文献的由于在鸟瞰图中预测未来的实例分割NuScenes在各自公布的方法的设置中。设置1：100m 50m，分辨率为25cm。当前时间框架的预测。设置2：100m 100m，分辨率为50cm。当前时间框架的预测。设定3点32分0m 19. 2米，分辨率为10厘米。预测2. 未来的0 在最后一个设置中，我们将我们的模型与渔网的两个变体进行比较[19]：一个使用照相机输入，一个使用LiDAR输入。我们还训练了一个模型，该模型将1.0s的过去观察值作为上下文（FIERY），并注意到它在没有过去上下文的单时间帧计数器上实现了更高的交集。这是由于我们的模型定性地，如图5所示，我们的预测更加尖锐和准确。最后，我们将我们的模型与渔网[19]进行比较，其中作者预测鸟瞰图语义分割2。0s在未来 Fishing Net提出了其模型的两种变体：一个使用相机作为输入，一个使用LiDAR作为输入。FIERY的表现比相机和激光雷达模型都要好得多，这暗示计算机视觉网络在预测任务上开始与激光雷达传感竞争VPQ=（六）交并（IoU）设置1设置2设置3VED [30]8.8--无源光[39]24.7--VPN [35]25.5--[42]第四十二话36.0--[37]第三十七话- 三十二点一-钓鱼相机[19]- -30.0捕鱼激光雷达[19]- -44.3FIERY静态37.7 35.8-火热39.9 38.257.615280×× ×D交并短长视频全景质量短长静态模型47.930.343.124.5外推模型49.230.843.824.9没有时间背景51.732.640.324.1不转型53.033.841.724.6没有展开55.434.944.226.2没有未来的流动58.036.744.626.9均匀深度57.136.246.827.8确定性58.236.648.328.5火热59.436.750.229.9表2：2的鸟瞰图中的未来实例分割0s在未来的NuScenes上。我们报告了未来在不同范围内进行评估的Intersection-over-Union（IoU）和视频全景质量（VPQ）：30米30米（短）和100米100米（长）周围的自我车辆。结果报告为百分比。5.2. 未来实例预测为了比较我们的模型对于未来实例分割和运动预测的性能，我们引入以下基线：• 不能展开。代替递归地预测n个 xt状态s（t+j）并解码对应的实例信息y（t+j）=（st+j），这个变量直接预测所有未来的实例中心、偏移、分割和来自s t的流。• 深度一致。我们从编码器（e1，…e n）与正交特征变换静态模型模型dy-t t的最简单方法运动障碍是假设它们不会移动并保持静止。我们使用FIERY Static来预测当前时间步（时间t）的实例分割，并在未来重复此预测。我们称这个基线为静态模型，因为它应该正确地检测所有静态车辆，因为未来的标签在当前的参考系中外推模型经典预测方法[14，15]推断未来动态代理的当前行为。我们在每个过去的时间步上运行FIERYStatic[40]模块。这对应于将深度概率分布设置为均匀分布。• 确定性。无概率建模。我们在表2（在NuScenes上）和表3（在Lyft上）中报告了我们的概率模型的平均预测的结果（即，我们将潜在代码η t设置为当前分布的平均值：η t= µ t，存在）。5.3. 分析以获得过去实例分割的序列。我们通过比较实例中心和运行匈牙利匹配算法来重新识别过去的实例然后，我们获得检测到的车辆，我们extrap- olate在未来的过去的轨迹，并相应地转换目前的分割。我们还报告了我们提出的架构的各种消融的结果无时间不转型无展开无未来流动均匀深度确定性火热二十四岁1二十四岁6二十六岁2二十六岁9二十七岁828岁529岁9• 没有时间背景。该模型仅使用来自当前时间步的特征Xt来预测未来（即，我们将3D卷积时间模型设置为恒等函数）。• 没有变形。过去的鸟瞰图特征（x1，...，X t）不扭曲到当前的参考系。• 没有未来的流动。该模型不能预测未来的流量。20 22 24 26 28 30图4：我们模型的各种消融的性能比较。我们测量未来的视频全景质量2。0s在未来的NuScenes上。FIERY在未来预测任务中的表现大大优于静态和外推基线。图4显示了我们的模型从模型的不同部分15281IOU |VPQ短长静态模型外推模型火热35.3 |36.424.1 |20.737.4 |37.524.8 |21.257.8 |50.036.3 |29.2表3：2的鸟瞰图中的未来实例预测在Lyft数据集上。我们报告了未来的Intersection-over-Union和视频全景质量。时间模型。无时间上下文变体与静态模型类似地执行。这是可以预期的，因为该模型不具有来自过去的任何信息，并且不能推断出关于道路代理的运动的很多信息。转换到现在的参照系。有一个大的性能下降时，我们不转换过去的功能，目前的参考框架。这可以通过当自我运动被分解时，时间模型学习动态车辆之间的对应性是多么容易来解释。过去的预测模型要么天真地将过去的图像馈送到时间模型[4，21]，要么不一起使用时间模型，而是简单地连接过去的特征[31，19]。我们认为，为了学习时间对应关系，过去的特征必须映射到一个共同的参考框架，并输入到一个高容量的时间模型，如我们提出的3D卷积架构。预测未来的状态。在预测未来时，重要的是对其连续性进行建模，即时间t+j+1处的预测应当以时间t+j处的预测为条件。直接从当前状态预测所有未来实例分割和运动的No展开变体导致大的性能下降。这是因为顺序约束不再强制执行，与我们以递归方式预测未来状态的方法相反未来动议学习预测未来的运动允许我们的模型使用预测的流和比较实例中心来重新识别实例。我们的模型是第一个在动态代理的鸟瞰图中产生时间上一致的未来实例如果没有未来的流量，预测不再是时间上一致的解释性能急剧下降。使用完美的深度模型，我们可以直接将每个像素提升到3D空间中的正确位置。由于我们的深度预测是不确定的，因此我们在不同的可能深度位置提升特征，并在每个位置分配概率质量，类似于[37]第37段。通过在所有深度位置上设置均匀分布，均匀深度基线使用正交特征变换来提升3D中的特征。我们观察到，这样一个天真的提升执行更差的学习加权深度相比。现在和未来的分布。一个确定性的模型有一个艰巨的任务。它必须充满信心地输出哪个未来会发生，即使所说的未来是不确定的。在我们的概率设置中，模型在训练期间被未来分布引导，该未来分布输出指示正确未来的潜在代码。它还鼓励当前的分配覆盖未来的分配模式。这种模式允许FIERY预测准确和多样化的未来，正如我们将在5.4节中看到的那样。附录A中提供了关于理解学习的潜在空间的结构和未来预测的时间范围的进一步分析。5.4. 概率建模我们将我们的概率未来预测模型与以下基线进行比较：M股骨头、贝叶斯脱落和经典VAE（更多详情见附录A.3）。我们在表4中报告了结果，并观察到我们的模型预测了最准确和最多样化的未来。6. 结论自动驾驶需要在多模态场景中进行决策，其中世界的当前状态并不总是足以单独进行正确的推理。因此，估计世界未来状态的预测模型-特别是其他动态代理-是鲁棒驾驶的关键组成部分。我们提出了第一个预测模型的动态代理自动驾驶我们将其作为一个端到端的学习问题，其中我们的网络用变分分布来模拟未来的随机性。我们证明了FIERY预测时间上一致的未来实例分割和运动，并且能够准确地对不同的未来进行在未来的工作中，我们希望共同训练一个驱动策略，以根据未来的行动来调节未来的预测模型。这样的框架将使得能够在基于模型的强化学习设置中进行有效的运动规划。致谢我们感谢Giulio我们还要感谢Juba Nait Saada和Oumayma Bounou对手稿提出的有见地的意见和建议。15282引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[2] Vijay Badrinarayanan Alex Kendall和Roberto Cipolla。贝叶斯分段：用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。英国机器视觉会议（BMVC），2017年。[3] 放大图片创作者：Michael H.坎贝尔和谢尔盖·莱文。随机变分视频预测。在 2018 年国际学习表征会议（ICLR）的会议记录中[4] 尼古拉斯·巴拉斯、李耀、克里斯·帕斯和亚伦·库维尔。深入研究卷积网络以学习视频表示。在2016年国际学习表征会议（ICLR）的会议记录中[5] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。[6] Sergio Casas ， Cole Gulino ， Renjie Liao ， and RaquelUrtasun.空间感知图神经网络用于传感器数据的关系行为预测，2019年。[7] Sergio Casas，Wenjie Luo，and Raquel Urtasun. 意图-净值：学习从原始传感器数据预测意图。第 87卷，Proceedings of Machine Learning Research ，第947-956页。PMLR，2018年10月29日[8] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多概率锚轨迹假设在Leslie Pack Kael-bling、Danica Kragic和Komei Sugiura编辑的Proceedings of the Conference on Robot Learning，Proceedings of Machine Learning Research第100卷，第86-99页中PMLR，2020年10月30日[9] 放大图片作者：David D.作者：Collins，Yukun Zhu，Ting Liu，Thomas S. Huang，Hartwig Adam，and Liang-Chieh Chen. Panoptic-deeplab：用于自下而上全景分割的简单、强大且快速的基线。在IEEE计算机视觉和模式识别会议（CVPR）上，2020年。[10] Henggang Cui ， Vladan Radosavljevic ， Fang-ChiehChou，Tsung-Han Lin，Thi Nguyen，Tzu-Kuo Huang，Jeff Schnei-der，and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。2019年国际机器人与自动化会议（ICRA），第2090-2096页。IEEE，2019。[11] Nemanja Djuric，Henggang Cui，Zhaoen Su，ShangxuanWu ， Huahua Wang ， Fang-Chieh Chou ， Luisa SanMartin ， Song Feng ， Rui Hu ， Yang Xu ， AlyssaDayan ， Sidney Zhang ， Brian C. 作者： GregoryP.Meyer，Carlos Vallespi-Gonzalez，and Carl K.威灵顿Multixnet：多类多阶段多模式运动预测，2020。[12] Nemanja Djuric，Vladan Radosavljevic，Henggang Cui，Thi Nguyen，Fang-Chieh Chou，Tsung-Han Lin，NitinSingh，and Jeff Schneider.自动驾驶交通参与者的不确定性感知短期运动预测。在IEEE计算机视觉应用冬季会议上，第2095-2104页[13] David Ferguson， Michael Darms ，Chris Urmson ，andSascha Kolski.城市环境中动态障碍物的检测、预测和避免2008年IEEE智能车辆研讨会，第1149-1154页[14] 保罗·菲奥里尼和兹维·希勒。动态环境中使用速度障碍物的运动规划。国际机器人研究杂志，17（7）：760[15] Thierry Fraichard和Hajime Asama。不可避免的碰撞状态。向更安全的机器人迈进了一步在IEEE/RSJ智能机器人和系统国际会议（IROS）的会议记录中，第1卷，第388-393页[16] Jiyang Gao，Chen Sun，Hang Zhao，Yi Shen，DragomirAnguelov ， CongcongLi ， andCordeliaSchmid.Vectornet：从矢量化表示编码高清地图和代理动态。在IEEE/CVF计算机视觉和模式识别会议论文集，第11525[17] Rick Groenendijk，Sezer Karaoglu，T. Gevers和ThomasMensink。对抗训练对单眼深度估计的好处，2020年。[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年。[19] Noureldin Hendy ， Cooper Sloan ， Feng Tian ， PengfeiDuan，Nick Charchut，Yuesong Xie，Chuang Wang，and James Philbin.渔网：网格中语义热图的未来推断。在IEEE计算机视觉和模式识别会议论文集，研讨会（CVPRw），2020年。[20] Joey Hong Benjamin Sapp和James Philbin道路规则：用语义交互的卷积模型预测驾驶行为在IEEE计算机视觉和模式识别会议论文集，第8454-8462页[21] Anthony Hu 、 Fergal Cotter 、 Nikhil Mohan 、 CorinaGurau和Alex Kendall。用于视频场景理解的概率未来预测。欧洲计算机视觉会议（ECCV）论文集，2020年。[22] Max Jaderberg，Karen Simonyan，Andrew Zisserman，Koray Kavukcuoglu.空间Transformer网络。在神经信息处理系统（NeurIPS）的进展中，NIPS'15，第2017-2025页，Cambridge，MA，USA，2015。麻省理工学院出版社.[23] Xiaojie Jin，Huaxin Xiao，Xiaohui Shen，Jimei Yang，Zhe Lin，Yunpeng Chen，Zequn Jie，Jiashi Feng，andShuicheng Yan.预测未来的场景解析和运动动态。神经信息处理系统进展，第6915-6924页，2017年[24] Alex Kendall Yarin Gal和Roberto Cipolla使用不确定性来权衡场景几何15283尝试和语义。在 IEEE计算机视觉和模式识别会议（CVPR），2018年。[25] R. Kesten，M.Usman，J.休斯顿，T.Pandya，K.娜达穆尼A. Ferreira ， M. 袁湾，澳 - 地 Low ， A. Jain ， P.Ondruska，S. Omari，S.沙阿，A.Kulkarni，A.卡扎科瓦角陶湖，澳-地Platin- sky，W. Jiang和V.谢特Lyft 5级感知数据集2020，2019。[26] Dahun Kim，Sanghyun Woo，Joon-Young Lee，and InSo Kweon. 视频全景分割。在IEEE计算机视觉和模式识别会议（CVPR）上，2020年。[27] H. W. Kuhn和Bryn Yaw。指派问题的匈牙利方法。海军后勤部夸脱，1955年。[28] Namhoon Lee，Wongun Choi，Paul Vernaza，Christo-pher Bongsoo Choy，Philip H. S. Torr和Manmohan Kr-ishna Chandraker。欲望：在动态场景中与交互代理的遥远未来预测。IEEE计算机视觉与模式识别会议论文集（CVPR），2017年。[29] Ming Liang ， BinYang ， Shenlong Wang ， and RaquelUrtasun.多传感器三维目标检测的深度连续融合在欧洲计算机视觉会议（ECCV）的会议记录中，第641-656页[30] ChenyangLu ， MarinusJacobusGerardusvandeMolengraft，and Gijs Dubbelman.用卷积变分编码器-解码器网络进行单目语义占用网格映射。IEEE Roboticsand Automation Letters，2019。[31] Pauline Luc，Natalia Neverova，Camille Couprie，JacobVer-beek，and Yann LeCun.预测语义分割的未来。在2017年国际计算机视觉会议（ICCV）的会议记录中[32] Wenjie Luo，BinYang，and Raquel Urtasun.快速和激烈：实时端到端的3D检测，跟踪和运动预测与一个单一的卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。[33] 蒙·H Ng，Kaahan Radia，Jianfei Chen，Dequan Wang，Ionel Gog，and Joseph E. Gonzalez. Bev-seg：使用几何和语义点云的鸟瞰[34] B. Paden，M. Cˇa′p，S. Z. Yong，D. Yershov和E. 弗拉佐利自动驾驶城市车辆运动规划与控制技术综述IEEETransactions on Intelligent Vehicles，1（1）：33[35] 潘博文、孙建凯、梁何茵、安道年、周波磊.用于感知环境的跨视图语义分割。IEEE Robotics and AutomationLetters，5（3）：4867[36] Tung Phan-Minh ， Elena Corina Grigore ， Freddy ABoulton，Oscar Beijbom，and Eric M Wolff. Covernet：使用轨迹集进行多模式行为预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第14074-14083页[37] 乔纳·菲利翁和桑娅·菲德勒。举起，拍，射：通过隐式地取消投影到3d来编码任意相机设备的图像。欧洲计算机视觉会议（ECCV），2020年。[38] 放大图片作者： Nicholas Rhinehart ， RowanMcAllister，Kris M. Kitani和Sergey Levine。PRECOG：以视觉多智能体设置中的目标为条件的预测计算机视觉国际会议（ICCV），2019年。[39] 托马斯·罗迪克和罗伯托·西波拉。使用金字塔占有网络从图像预测语义地图表示。在IEEE计算机视觉和模式识别会议（CVPR）上，2020年。[40] 托马斯·罗迪克、亚历克斯·肯德尔和罗伯托·西波拉。用于单目三维目标检测的正交特征变换在BMVC，2019。[41] Christian Rupprecht ， Iro Laina ， Robert Dipietro ，Maximilian Baust， Federico Tombari ， Nassir Navab ，and Gregory D.海格在不确定的世界里学习：通过多个假设来表示模糊性。在2017年国际计算机视觉会议（ICCV）的会议记录中[42] Avishar Saha，Oscar Mendez ， Chris Russell 和RichardBowden。在鸟瞰图车辆估计中实现时空聚合在机器人与自动化国际会议（ICRA），2021年的会议记录。[43] 来认识一下沙阿、黄志玲、安基特·拉达、马修·朗福德、布莱克·巴伯、西德尼·张、卡洛斯·瓦勒-冈萨雷斯和拉奎尔·乌尔塔松。Liranet：使用时空雷达融合的端到端轨迹预测，2020年。[44] Gabor J. Szekely和Maria L. 里索数据的能量。AnnualReview of Statistics and Its Application，4（1）：447[45] Mingxing Tan and Quoc Le.EfficientNet：

下载后可阅读完整内容，剩余1页未读，立即下载