基于语义交互卷积模型的驾驶行为预测

63 浏览量更新于2023-10-19 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1道路规则基于语义交互卷积模型的驾驶行为预测Joey Hong加州理工学院jhhong@caltech.edu本杰明·萨普电子邮件：benjournal.sapp@gmail.com詹姆斯·菲尔宾·祖克斯james@zoox.com摘要我们专注于在复杂的，现实世界的驾驶场景中预测实体的未来状态的问题。以前的研究使用低水平信号来预测短期范围，并且没有解决如何利用行业自动驾驶系统严重依赖的关键资产：（1）大的3D感知努力，其提供具有丰富属性的代理的高度准确的3D状态，以及（2）环境（车道、交通灯、人行横道等）的详细且准确的语义地图我们提出了一个统一的表示，它在空间网格中编码这种高级语义信息，允许使用深度卷积模型来融合复杂的场景上下文。这使得学习实体-实体和实体-环境的相互作用与简单的，前馈计算在每个时间步长内的代理的行为的整体时间模型我们提出了不同的方法来建模未来的分布在未来的状态使用标准的监督学习。我们引入了一个新的数据集，提供了行业级的丰富的概念和语义输入，并实证表明，我们可以有效地学习驾驶行为的基本原理。1. 介绍真实世界机器人系统的一个关键组成部分是预测环境中其他参与者的未来状态。在一般情况下，其他行为者的意图是无法观察到的，因此，挑战是根据当前和过去的观察结果，对可能的未来得出一个可能的分布。这项工作的一个激励应用是在不受约束的城市环境中运行的自动驾驶机器人;当今最具影响力但最具挑战性的现实世界机器人应用之一。它需要对在Zoox工作时完成的工作。作者还要感谢王凯（kai@zoox.com）为这个项目所做的工作凯在协调该文件的最后版本和准备数据集以供发布方面发挥了重要作用。图1：自顶向下场景中的实体未来状态预测任务：感兴趣的目标实体以红色显示，真实的未来轨迹以粉色显示。最可能的预测轨迹以青色示出，替代轨迹以绿色示出。显示1个标准不确定度的不确定度椭圆仅显示最可能的轨迹。其他实体以洋红色（pedes-trians）、蓝色（vehicles）和橙色（bicycles）呈现拍摄这一场景的自我速度显示为与1m/s成比例的橙色线。所示的底层语义地图信息的示例是车道线、人行横道和停车线。静态和动态环境的语义，包括理解交通法规，未指定的驾驶惯例，以及人类和机器人演员之间的交互。虽然有大量的研究致力于这个领域的真实世界的感知[15，25，26，12，35，29，13，9]，但令人惊讶的是，在同一领域缺乏实体状态预测的工作（见第2节），我们将其归因于两个主要原因：一个，大多数以前的研究[25，22]仅将原始传感器信息（相机，激光雷达或84548455雷达）。因此，研究工作的必要性，需要高度重视提取高层次的实体表示。相比之下，在工业中的现实世界系统中，低级感知系统经由2D和3D中的检测和跟踪从传感器数据提供实体状态和这些系统在过去几年中已经成熟，并且在常见情况下具有高保真度输出。第二，用于学习和评估状态预测模型的公开可用数据集不够小和/或不切实际。一个好的预测数据集应该包括一组不同的真实世界位置和大量有意义的时间间隔内独特的代理3d轨迹。这些标准对于开发模型是必要的，这些模型可以推广到新的场景，并利用过去的行为在5秒或更长时间内做出有意义的未来预测。以前预测研究中的最后一个遗漏是工业自动驾驶机器人严重依赖的关键资产：驾驶环境的语义地图，如图所示。1.一、在本文中，我们介绍了一个车辆预测数据集，该数据集比现有数据集更丰富和更大-在88个物理上不同的位置，在83，880个预测场景（173小时）中有9，659辆独特的车辆-并且包括语义地图信息（见图1）。我们提出了一个模型，它编码的历史世界状态（静态和动态）和语义地图信息在一个统一的，自上而下的空间网格。这允许我们使用深度卷积架构来联合建模实体动态，实体交互和场景上下文。这项工作的另一个重要贡献是直接预测未来状态的分布，而不是在每个未来时间步的单点估计。表示多模态不确定性在现实世界的驾驶规划中至关重要，这必须考虑车辆采取不同的可能轨迹，或评估在一定空间范围内的预期碰撞风险。我们探索了各种参数和非参数的输出分布表示，并显示出强大的perfor-曼斯预测车辆行为长达5秒的未来。我们证明，我们的模型利用道路信息和其他代理2. 相关工作本文的重点是预测实体状态的未来分布。这需要隐式或显式地对实体意图、动态和交互进行建模，以及引入语义环境上下文。活动/运动预测北谷等人[19]将此设置公式化为部分可观测马尔可夫决策过程，并将解决方案转换为通过逆最优控制（IOC）恢复策略更最近，Rhinehart等人，[31]也要学会一步控制强化学习框架内的策略分布，经过专门训练（通过对称KL发散损失）以生成一组轨迹，在多样性和精确度的概念之间保持平衡RESTRE [22]还通过迭代地推出一步策略来生成长达4秒的轨迹，通过在条件变分自动编码器/解码器模块中进行采样，并与自动排序模块一起进行端到端训练。其他工作也集中在多模态分布建模[16，34]，但在自动驾驶领域之外。Fastand Furious [25]和后续工作IntentNet [10]采用标准的监督回归方法;在RL文献中所谓的行为克隆。这些工作着重于在一个模型中实现激光雷达的联合检测、跟踪和运动预测.最近发布的IntentNet使用语义路线图信息作为输入。它建议每个实体的单个轨迹为3s。相关地，ChaufferNet [4]将高级代理信息（就像我们所做的那样）与路线图融合在一起。这项工作的重点是机器人规划设置的意图是已知的，并作为输入。该模型采用行为克隆的方法来回归最佳运动方案，并采用一些特定领域的损失，以鼓励道路规则的遵守和避免碰撞。自动驾驶汽车行业中其他值得注意的行为克隆方法是[28，8，11]。另一种工作尝试从自我中心的观点（移动相机帧）预测，无论是自我实体[30]还是其他实体[6]。这引入了需要恢复自我位置和/或速度的额外挑战，这是这些工作解决的问题。还有大量其他的预测工作，我们[24]）和活动预测（例如，[20]）。实体交互建模上述研究的大部分通过将交互编码为周围的动态上下文来隐式地建模交互。其他作品明确地对交互进行建模：SocialLSTM [1]在实体模型之间池化隐藏的时间状态，[2]是对实体上的显式图结构进行建模以推断语义行为的一个示例，[21]是将结构设置为贝叶斯网络。车辆预测数据集我们在这项工作中对车辆进行评估，并提出了一个新的数据集，大约有80 K例/170小时的数据。相关的数据集是Kitti [15]，pri-penda检测和跟踪基准，它有大约50个例子/ 10分钟的数据; IntentNet的数据集[ 10 ]（未发布）大约是5000个例子/ 35小时，而 CaliForecasting [ 31 ] （尚未发布）是10 K个例子/ 1.5小时。与我们的方法相比，我们的方法是，据我们所知，唯一的端到端的方法，这两个（1）编码se-8456我我J=我i i−i从一个成熟的感知栈中感知场景上下文和实体交互，以及（2）预测多模态未来状态分布。与我们的工作最相似的是，最近的IntentNet [10]和ChaufferNet [4]论文提出在自顶向下的栅格化网格中编码静态和动态场景上下文。我们工作的一个主要区别是，我们明确地为其他实体建模多模态分布，而不是回归单一轨迹。这是一项重要而富有挑战性的任务。[22]和R2P2 [31]解决了多模态问题，但道路网络，让它作为一个建模的挑战，学习有效的道路规则，如合法的交通方向，并通过一个路口的有效路径。我们表示大小为W×H×3的静态道路信息R的渲染张量。交通灯信息被添加到感知信息的张量中，时间步长如下所述。实体表示我们假设访问黑盒感知模块，该模块从低级传感器信息映射到3D跟踪实体3。对于每个时间步t，我们已经测量了每个跟踪实体i的量，包括2D位置xt、速度vt和加速度at。我我我两者都是通过一步随机策略来实现的，与我们的策略其直接预测多模态分布的时间序列。这种基于政策的方法需要未来我们的感知模块还以协方差矩阵的形式给出了状态估计的不确定性，我们通过协方差范数将此信息包含在表示中展开和采样以获得一组可能的轨迹，ti{x，v，a} ||F.所有特征尺寸均按估计值缩放，这对我们的一次性反馈有计算上的权衡向前进。此外，知道需要多少样本才能对经验分布有信心是一个难题，并且取决于场景。3. 方法我们的方法包括（1）一个新的输入表示的实体和它第99个百分位数幅度的配对具有接近[-1，1]的可比较动态范围。我们在表示为Et的任何时间步长t处形成目标实体i的张量，其具有用于上述每个状态维度的通道，编码实体位置的中心处的标量，其与道路图张量R空间对应。为了对实体交互进行建模，我们将张量中的所有其他实体都以相同的方式编码真实的网络映射了过去和现在的世界，不−ijEt。这些张量是W×H×7。未来行为的几种可能的输出表示之一，适合于集成到机器人规划系统中。请注意，我们的模型是以实体为中心的模型，这意味着它对单个“目标实体”进行建模3.1. 输入表示：将世界建模为卷积网格一个完整的轨迹预测模型不仅需要目标实体的过去历史，还需要其他实体的动态和语义场景上下文。道路网络表示我们可以访问道路网络数据，其中包括车道和交叉口范围和连接性，以及驾驶所需的其他相关功能：人行横道、红绿灯车道允许性、停车线和让行线2. 我们将这些信息映射到几何图元，并将其呈现在自上而下的网格表示中，作为RGB图像，其颜色与每个元素类型相对应这个自上而下的网格建立了一个公共的坐标空间，我们可以用它来注册所有额外的特征。注意，通过渲染，我们丢失了1在运行时，直接扩展可以有效地对场景中的所有实体进行推理，大部分计算都可以重新用于每个代理（因为每个代理仅在输入的翻译方面有所不同）。额外的动态上下文我们将额外的场景上下文编码为大小为W×H×3的RGB图像Dt。它包含场景中所有着色实体的定向边界框按类别类型（骑自行车者、车辆、行人中的一个）对对象的范围和方向进行它还包含交叉路口红绿灯允许性的规定：我们通过掩蔽交叉点中展示每种允许性的道路连接来呈现允许（绿灯）、让步（不受保护）或禁止（红灯）。时间步t和目标实体i处的所有输入（在第三通道维度中）被连接成张量：Σ ΣCt=Et，Et，Dt，R即W×H×20。参见图2的图示。我们把过去的历史上所有的Ct沿着时间的差异连接起来-尺寸我们通过在预测时将参考帧以目标实体的位置为中心来固定所有时间戳的静态R这种自上而下的表示很容易在将来用其他实体特征进行例如：车辆刹车灯和转向灯，人的姿势和手势，甚至音频提示都可以集成为附加的状态通道维度。2这种类型的内容可以作为开源数据免费获得，例如在www.openstreetmap.org，但我们在这项工作中使用专有源。[3]对于这些模块相对成熟的大公司来说，这是一个合理的假设。||ΣE8457图2：实体和世界上下文表示。对于一个示例场景（最左边的可视化），世界是用所示的张量表示的，如本文所述。(a) 使用RNN解码器的单次图3：两种不同的网络架构用于占用网格地图（预测高斯轨迹，而是通过简单地用全连接层替换卷积转置网络来完成）。3.2. 输出表示：建模不确定性和多模式我们试图模拟一个实体的未来状态。我们相信一个好的输出表示必须具有以下特征，这与以前的一些工作不同[10，31]。它应该是：（1）在每个时间步的实体状态空间上的概率分布。未来本质上是不确定的，单一的最可能点估计(2)多模式，因为它重要的是涵盖实体可能采取的多种可能的隐式动作（例如，通过交叉口的方向）。(3) 一次性：出于效率原因，期望预测完整轨迹（更具体地说：状态分布的时间序列）而无需迭代地应用递归步骤。我们探索这些迫切需要提出了各种输出分布表示。该问题可以自然地表述为序列到序列生成问题. 对于时刻t，我们观察到X={Ct− ε +1，Ct− ε +2，. . .，Ct}，并且从时间t预测未来xy位移，表示为Y ={（xt+1，yt+1），（xt+2，yt+2），. . . ，（xt+m，yt+m）}，对于tar-得到实体4，其中m和m是我们考虑的过去观测和未来时间范围的时间范围限制我们讨论了模型P（Y）的各种方法|X）下一个。3.3. 不确定性参数回归输出在这种表示中，我们预测了每个未来位置（xt，yt）的二元高斯统计量：平均值μt=（μx ， t，μy ，t），标准差σt=（σx，t，σy，t）和空间相关标量ρt。这比vanilla regression有更丰富和更有用的输出的好处此外，在学习过程中，模型可以弱化数据中离群值轨迹的影响，从而对损失产生较小的影响，这是在其他问题领域中进行的观察[18]。我们训练模型以预测log标准差st= logσt，因为它具有更大的数值稳定范围以进行优化。我们通过最大似然来学习参数-4我们忽略了对未来实体方向的建模，但我们相信在未来的工作中将这里的想法扩展到3-dof或6-dof状态估计是很简单的。845822罩估计logP（Y|X）=t+mt′=t+1logp（xt′，yt′|µt′，st′，ρt′），（1）对于每个未来建模的时间步长，存在输出网格，并且每个网格位置保持对应输出状态的概率。这种表示折衷了其中p是由N（µt，σt，ρt）表示的二元高斯参数的密度函数。不确定性多模态回归这可以预测多达k个不同的高斯轨迹，d由（µi，si，ρi）表示，以及与轨迹的概率相关联的权重wiΣkP（Y|X）=wiP（Y）|µi，si，ρi）。以上讨论的具有任意表达性的参数分布：非参数分布可以捕获非椭圆不确定性和在每个时间步的可变数目的模式。此外，它们还提供了集成到机器人规划系统中的替代方法（易于与其他非参数分布相结合;快速近似积分，例如，碰撞风险计算）。我们将任何未来状态离散化为2D网格坐标（i，j）。我们训练一个模型来最大化不不i=1然而，我们在使用这种天真的方法时遇到了两个主要问题：（1）交换，（2）模式崩溃。对于（1），我们看到输出对于置换是不变的，即对于{1，2，. . . ，k}。为了说明（2），我们考虑两个具有相等协方差的分布的混合或Y<$1N（y1，σ2）+1N（y2，σ2）。可以证明预测网格图gt[i，j]<$P（Y=（it，jt）|X），它们是离散状态空间上的离散分布，每个时间步长。因此，训练损失是t′∈[t+ 1，t+m]的交叉熵损失之和。多种轨迹采样：虽然占用图具有上面讨论的固有的表示益处，但是在许多规划应用中提取离散的轨迹集仍然是有用的。我们讨论一个优化框架-2 2如果yi还不够远，|y1−y2|≤ 2σ [5]，则混合物在1（y1+y2）处具有单模，因此可以近似为一个单一的高斯参数，N（1（y1+y2），σ2+1（y1−y2）2）.这使得学习--工作以获得从未来占用图导出的可变数量的轨迹，具有对轨迹集的几何可扩展性和多样性/覆盖施加硬约束和软约束的能力。2 2将k高斯分布集中在一个状态上，方差（受潜在狄利克雷分配（LDA）[7]的启发，我们引入了一个潜在变量z，使得（µi，si，ρi）在z上相同且独立地分布，设t=（it，jt）是在时间t处t，且n={nt+1，. . . ..我们将采样轨迹的成对结构得分t+mP（Y|X）=ΣKi=1P（zi|X）P（Y |µi，si，ρi，zi），（2）s（m）=t′=t+1logP（Y=10t′|X）−λ·φ（λt′，λt′−1）。（三）其中（µi，si，ρi）是输入X和潜在变量z的某个固定函数，解决了模式可交换性问题。为了解决模式崩溃，我们选择z为k维，k较小，并且鼓励其中φ（·，·）可以是连续状态的兼容性的任意得分函数我们设计了一个软硬约束成本.通过学习过程输出一组不同的φ（λt，λt−1）=ǁξt−v(ξt−1)ǁ2如果·∞≤5modes.为了训练这样的模型，我们使用条件变分自动编码器（CVAE）方法，并且模型P（z|X）作为一个cat-egorical分布，使用Gumbell-Softmax分布与重新参数化技巧[17]来采样和反向传播通过z的梯度。在我们的实验中，我们使用P（z|X）作为我们在未来时间步的状态上的离散的k -高斯混合分布，并且在我们的实验中（松散地）将该方法称为“GMM-CVAE”。3.4. 非参数输出分布作为参数形式的替代方案，我们考虑将occupationalgrid map [33]作为输出表示，其中∞否则，其中λ= 0。1是在我们的实验中手动设置的，v（t）是从时间t到t+ 1在恒定速度运动下过渡到的状态。这用作以恒定速度运动模型为中心的高斯下一状态先验，具有不允许不合理偏差的截止。这是标准链图模型[14]的一个实例，我们可以使用最大和消息传递动态程序有效地除此之外，我们有兴趣提取一组trajec-8459满足以下条件的历史{2001，. . . ，k}= argmax{101，.，}Σki=1（4）受制于：||吉吉||>1个。（五）这试图找到一组k个轨迹，s（·）but与其他的s（·）b ut是充分远的，对于一定的范数，||.||. 在[27]之后，我们通过求解s（k）来迭代提取轨迹，然后掩蔽gt的区域来解决这个问题以保证对于下一轨迹的s（n）的下一次优化的距离约束请注意，此框架仅在推理期间使用。将其扩展到一个学习的端到端系统是未来工作的一个有趣的途径。3.5. 模型我们采用编码器-解码器架构进行建模，其中编码器映射4D输入张量（时间×空间×通道）转换为某种内部潜在表示，解码器使用该表示对在预定的一组未来时间偏移的状态上的输出分布编码器：我们在输入序列的每个3D张量上使用类似于VGG16 [32]的2D卷积的卷积网络（CNN）骨干。在[3]之后，我们发现时间卷积比递归神经网络（RNN）结构具有更好的性能为了结合时间维度，我们添加了两个3D卷积一个在主干的末端，另一个在末端4×3×3无填料。解码器：我们用两种不同的解码架构进行实验：（1）对整个输出序列的“一次性”预测，以及（2）在每个推理递归步骤发出分布的RNN解码器。单次预测只需要一个双层网络来一次回归所有的分布参数，或者一个通道等于序列长度的2D卷积转置网络对于我们的RNN解码器，我们只使用一个GRU单元，其隐藏输出用于回归真实输出，然后将其作为下一个输入。对于占用网格地图输出表示，语义路线图R被馈送通过单独的浅CNN塔（16→16→1个滤波器），从而产生空间网格。该网格直观地充当静态信息的先验热图，其在应用软编码之前被附加到解码器最大这应该允许模型容易地惩罚对应于障碍物和不可驾驶表面的位置。参见图3以获得架构的描述。代码：代码是公开的。†：方法或数据集尚未发表。表1：相关公共数据集的训练集概述统计3.6. 实现细节时空维度：我们选择了= 2。5s的过去历史，并预测未来的m= 5s。为了降低问题空间的复杂性，我们还以2Hz的频率对过去进行子采样，并以1s的间隔预测未来的控制点。我们选择输入帧为128×128像素，并选择相应的真实世界范围为50×50m2。输出网格大小设置为64×64pix-els，因此每个像素覆盖0。七十八平方米。对于采样，垂直轨迹集，我们选择方程5中的范数为||diag（[0，1/3，1/3，1/5，1/5]）x||∞，这迫使轨迹之间在稍后的时间步长中具有更大的空间多样性。模型：为了节省CNN主干中的内存，我们对步幅为2的大部分主干使用可分离的2D卷积（见图2）。（3）第三章。我们采用批量归一化层来处理输入通道的不同动态范围（例如，二进制掩码，RGB像素值，m/s，m/s2）。我们使用CoordConv [23]用于编码器中的所有2D卷积，这有助于将空间输出映射到回归坐标。我们选择了512维的潜在表示作为编码器的最后一层，并用于所有GRU单元。训练：对于训练，我们从10−4的学习率和Adam优化器开始，并在与Adam收敛后切换到10−5对于训练高斯参数，我们发现预训练均方误差模型产生了更好的轨迹。所有模型都在一个带有Tensorflow Keras的NVIDIA Maxwell Ti- tanX GPU在接下来描述的数据集上，训练模型大约需要14个小时。4. 实验4.1. 数据集我们收集了大量的数据来评估我们的方法。它比[10]大一个数量级，5训练时间主要由从磁盘读取数据支配，这可以通过更有效的I/O策略来显着优化。数据集方法模式类型道路信息#tracks>3秒#场景ETH+UCYSocialLSTM [1]儿科没有1,5364斯坦福无人机[22]第二十二话儿科没有19,564100KITTI[22]第二十二话汽车没有30920CaliForecastingR2P2 [31]、C3PO†汽车没有10,000-我们我们汽车是的72,8787984602方法RMSE是说1秒L2 /命中率2秒<1m5秒目标其他路RNN高斯回归C2.550.50/0.791.04/0.593.91/0.34CC2.120.48/0.800.96/0.603.36/0.35CCC1.900.47/0.840.94/0.643.03/0.35CCCC1.820.44/0.880.86/0.662.99/0.34网格图Top-1C3.530.87/0.631.31/0.525.04/0.42CC2.710.77/0.641.17/0.524.40/0.42CCC2.050.61/0.861.00/0.693.37/0.40CCCC1.990.55/0.870.97/0.673.23/0.42表2：高斯回归轨迹和网格图方法的消融研究方法RMSE 1秒2秒5秒表3：多峰预测方法的结果。比KITTI大许多数量级[15]。我们的数据集由跟踪车辆鉴于自我数据收集车辆驾驶在旧金山的密集市区最先进的感知和定位堆栈处理多个传感器模态，以在世界坐标中产生自上而下的投影2D边界框使我们能够将我们的模型扩展到行人预测，未来4.2. 结果我们在所有未来的时间步长上测量所有方法的均方根误差（RMSE）性能，{1，2，3，4，5}秒，以及以下指标1、2、5秒期货：（1）L2平均预测值与平均预测值之间的距离，（2）L2距离的命中率，1m阈值;（3）“oraclee r"r，定义为L2距离的最小值（即最小i<$Y −i<$）。模型：我们比较以下方法：· 线性：使用最新的速度和加速度保持不变。· 行业：用于现实世界自动驾驶汽车的它由物理学、手工设计的规则和有针对性的机器学习的混合体组成分类模型。具体的问题模式是mod-如vt，at和at.我们还包括高清以定制的方式进行，需要多人年的时间，i ii{x，v，a}道路网络的渲染，详细的注释，在第3.1节中描述。数据集有6个以上。在2018年6月至7月期间，超过173小时的驾驶中有2500万帧。我们将数据分为7个非重叠事件。5秒，提取72，878个训练事件和10，473个测试事件。在交叉口附近收集事件，以使数据集分布偏向非平凡和非直线驾驶区域。为了衡量我们的方法对新交叉点的泛化能力，测试/训练分区确保两者中没有交叉点出现;在训练和测试中分别有79个和9个独特的交叉点。为了减少任何一个地理位置的偏差，我们将每个交叉路口的样本数量限制在5000个。请注意，交叉点可能比简单的4路交叉点复杂得多。有关相关数据集的属性和大小的概述注意，其他车辆数据集或者相当小（例如，KITTI [15]），或不可用于比较。Stanford Drone数据集在大小上相当，并提供了一个原生的自上而下的表示，建模的努力。· 具有高斯不确定性的回归：我们的方法在每个未来时间步回归高斯分布。· 多模态高斯回归（GMM-CVAE）：我们描述的从类别潜在变量中采样来预测一组高斯的方法。· 网格地图：我们的方法来预测占用网格地图。为了与其他方法进行比较，我们使用所描述的轨迹采样过程来提取轨迹。消融研究：为了确定不同输入渠道的功效，我们将它们分组并评估其性能，如下所示：· 目标状态：感兴趣的实体的状态，包括其渲染的过去和现在的边界框。· 其他状态：其他动态实体的特征，包括渲染的边界框。· 道路图：道路图和交通灯渲染。如表2所示，每种特征类型都有助于提高模型性能：添加其他实体的动态上下文平均将5s预测提高0.55m线性3.530.37/0.891.08/0.625.87/0.26行业2.310.37/0.900.92/0.674.18/0.40高斯Reg.1.820.44/0.880.86/0.662.99/0.34GMM2.330.48/0.820.95/0.654.17/0.19栅格地图1.990.55/0.870.97/0.673.23/0.42GMM top-51.580.43/0.890.79/0.702.54/0.32网格顶部-51.250.47/0.870.82/0.691.39/0.568461(a) 高斯回归（b）GMM-CVAE图4：高斯回归和GMM-CVAE方法的示例。椭圆表示不确定性的标准差，并且仅针对顶部轨迹绘制;仅概率> 0的轨迹。我们看到，不确定性椭圆在转弯时比直行时更大，并且通常遵循速度的方向。在GMM-CVAE示例中，不同的样本导致在交叉口转向不同的车道。图5：从网格地图方法中采样的轨迹示例。最右边的例子是一个失败的情况下，因为该方法预测的模式，变成迎面而来的交通;然而，这些交通规则可能很难仅从道路图中辨别出来。该方法预测复杂的行为，如操纵周围的车辆和改变车道。L2-错误，包括路线图增加了另一个0.33米的改进。有关消融特征如何影响per-turbation的定性可视化，请定量方法比较：在表3中，我们列出了使用所有功能的所有方法。在所有指标中，评估前5名中最佳轨迹的表现优于单个MAP轨迹，表明在多种模式下概率预测的一些价值一般来说，我们的混合采样高斯轨迹不如我们其他提出的方法;我们观察到有些样品不可信。我们把它留给未来的工作，以确定更好的技术，直接从学习模型中获得不同的轨迹样本集。有趣的是，线性基线和行业基线在较大的时间偏移量下表现得比我们的方法差，但在较小的偏移量下表现得更好。这可以归因于这样一个事实，即预测近期的未来可以准确地实现经典物理学（这两个基线都利用）-更遥远的未来预测，但是，需要更具挑战性的语义理解。请注意，虽然所有模型在这里都是根据L2误差进行评估的，但没有一个模型直接优化这个量化。而是优化未来状态空间上的分布的似然性，这具有优于回归的其他益处-这在前5个度量以及下面的定性结果中得到了证明定性分析：我们在图中显示了高斯回归和GMM-CVAE轨迹的例子。 4，和图中的采样网格地图轨迹。五、请参阅补充材料，了解更多示例和可视化。总的来说，轨迹已经合理地学习了交通规则：车道保持、遵守交通灯、跟随行人，甚至违法的行为也是似是而非的。5. 结论我们提出了一个统一的多模态未来状态预测的框架。我们新颖的输入编码封装静态和动态场景上下文，利用传感器模态和高清晰度路线图的测量我们尝试了连续和离散的输出表示，并得出了解决未来预测的不确定性和多模态实证和定性评估表明，我们的方法改进了基线，不编码场景上下文，并成功地在复杂的驾驶场景中创建不同的样本。8462引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S. Savarese SocialLSTM：拥挤空间中的人类轨迹预测CVPR，2016年。二、六[2] T. M. Bagautdinov，A. 阿拉希F. 弗勒雷特P.Fua，以及S. Savarese社交场景理解：端到端多人动作定位和集体活动识别。在CVPR，2017年。2[3] S. Bai，J.Z. Kolter和V.科尔顿。序列建模的一般卷积和递归网络arXiv：1803.01271，2018。6[4] M.班萨尔A。Krizhevsky和A.奥加尔Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。arXiv预印本arXiv：1812.03079。二、三[5] J· 贝布迪安。关于两个正态分布的混合模式。Technometrics，第131-139页，1970年。5[6] A. Bhattacharyya，M. Fritz和B.席勒不确定交通场景中人的长期车载预测在CVPR，2018年。2[7] D. M. Blei、A. Y. Ng和M. I.约旦.潜在狄利克雷分配。JMLR，2003年。5[8]M. Bojarski，D. Del Testa，D. 德沃拉科夫斯基湾费纳B. Flepp，P. Goyal，L. D.杰克尔湾蒙福特大学穆勒J. Zhang等人，《End to End Learning for Self-Driving Cars》。arXiv预印本arXiv：1604.07316，2016。2[9] S.布林格角博登施泰纳M. Arens和R. Stiefelha- gen. 使用环境结构约束的单目视频数据中的3D车辆轨迹重建在ECCV，2018。1[10] S. Casas，W. Luo和R.乌塔松Intentnet：学习从原始传感器数据预测意图。InCoRL，2018. 二三四六[11] C. Chen，中国山核桃A. Seff，A. Kornhauser和J.萧深度驾驶：自动驾驶中的直接感知学习启示。在ICCV，2015年。2[12] X. Chen，H. Ma，J. Wan，B. Li和T.夏用于自动驾驶的多视角三维物体检测网络。在CVPR，2017年。1[13] N. Dinesh Reddy，M. Vo和S. G.纳拉希姆汉Carfusion：结合点跟踪和部件检测，用于车辆的动态3D重建。在CVPR，2018年。1[14] P. F. Felzenszwalb和D. P. Huttenlocher。用于对象识别的图形结构。IJCV，61（1）：55-79，2005. 5[15] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。CVPR，2012年。一、二、七[16] B. Ivanovic，E. Schmerling，K. Leung和M.帕沃尼多模态多人行为的生成式建模。2018. 2[17] E. 张， S.Gu 和 B. 浦耳使用 gumbel-softmax 进行分类ICLR，2017年。5[18] A. Kendall和Y.加贝叶斯深度学习在计算机视觉中需要哪些不确定性？ NIPS，2017年。4[19] K. M.基塔尼湾D. Ziebart，J. A. Bagnell和M. 赫伯特活动预测。ECCV，2012年。2[20] Y. Kong和Y.Fu. 人类行为识别和预测：一项调查。arXiv预印本arXiv：1806.11230，2018。28463[21] J. F. P. Kooij，N. Schneider，F. Flohr和D.加夫里拉基于上下文的行人路径预测。 2014年，在ECCV。2[22] N.李，W。Choi，P. Vernaza，C. B. Choy，P. H. S.托和M. K. Chandraker欲望：在动态场景中与交互代理的遥远未来预测。CVPR，2017年。一、二、三、六[23] R. 刘先生，雷曼兄弟， P. Molino， F. P.这样， E.弗兰克A. Sergeev 和 J. 尤辛斯基卷积神经网络和CoordConv解决方案的有趣失败。arXiv预印本arXiv：1807.03247，2018。6[24] W. Lotter，G.Kreiman和D.D. 考克斯用于视频预测和无监督学习的深度预测编码网络CoRR，2016年。2[25] W.洛湾，巴西-地Yang和R.乌塔松又快又怒：实时端到端的三维检测，跟踪和运动预测与一个单一的卷积网络。CVPR，2018年。一、二、六[26] A. Mous a vian，D. Anzelo v，J. Flynn 和J。好的，检查一下。使用深度学习和几何学的3D在CVPR，2017年。1[27] D. Park和D. Ramanan零件模型的N最佳最大解码器。ICCV，2011年。6[28] D. A.波默洛Alvinn：神经网络中的自主陆地车辆。NIPS，1989年。2[29] C. R. Qi，H. Su，K. Mo和L.吉巴斯Pointnet：对点集进行深度学习，用于3D分类和分割。CoRR，2016年。1[30] N. Rhinehart和K. M.喜谷第一人称活动预测与在线逆向强化学习。InICCV，2017.2[31] N. Rhinehart ， K. M. Kitani 和 P. 韦尔纳扎R2p2：一种用于多样化、精确生成路径预测的重新计量化推进策略。ECCV，2018年。二三四六[32] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。CoRR，2014年。6[33] S. Thrun，W. Burgard和D.狐狸. 概率机器人麻省理工学院出版社，2005年。5[34] J. Wiest，M.霍夫肯大学Kresel和K.迪特迈尔用高斯混合模型进行概率轨迹预测。智能汽车研讨会，2012年。2[35] Y. Zhou和O.图泽尔VoxelNet：基于点云的3D对象检测的端到端学习。CoRR，2017年。1

下载后可阅读完整内容，剩余1页未读，立即下载