CAR-Net：千里眼递归网络

89 浏览量更新于2023-10-13 收藏 2.47MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

CAR-Net：千里眼专注递归网络Amir Sadeghian1、Ferdinand Legros1、Maxime Voisin1、Ricky Vesel2、Alexandre Alahi3、Silvio Savarese11斯坦福大学，2种族最佳，3瑞士洛桑联邦理工学院（EPFL）{amirabs，flegros，maxime.voisin，ssilviovesel.rw @gmail.com;alexandre. epfl.chstanford.edu抽象。我们提出了一个可解释的路径预测框架，杠杆年龄代理的行为和他们的空间导航环境之间的依赖关系。我们利用两个信息来源：感兴趣的代理的过去运动轨迹和导航场景的宽顶视图图像。我们提出了一个千里眼注意递归网络（CAR-Net），它在解决路径预测任务时学习在场景的大图像中看哪里我们的方法可以关注原始图像内的任何区域或区域的组合（例如，道路交叉口）。这使我们能够可视化细粒度的语义元素的导航场景，影响预测的轨迹。为了研究空间对智能体轨迹的影响，我们构建了一个由数百个场景（一级方程式赛车赛道）的顶视图图像组成的新数据集，其中智能体的行为受到图像中已知区域的严重影响（例如：即将到来的转弯）。CAR-Net成功地关注了这些突出的地区。此外，CAR-Net在标准轨迹预测基准斯坦福无人机数据集（SDD）上达到了最先进的准确性。最后，我们展示了CAR-Net1介绍路径预测包括预测智能体的未来位置（例如人或车辆）。它适用于从自动驾驶车辆[1]和社交机器人导航[2与路径预测相关的可观察线索可以分为动态和静态信息。前者捕获场景内所有代理的先前运动（过去的轨迹）。后者由围绕代理的静态场景组成[11-13]。在这项工作中，我们希望利用静态场景上下文来执行路径预测。任务被公式化如下：给定代理的过去轨迹（过去几秒的x-y坐标）和环境的大视觉图像（场景的顶视图），我们想要预测代理在接下来的几秒内的轨迹。我们的模型应该学习在一个大的视觉输入中看哪里，以提高其预测性能（见图1）。①的人。预测代理的轨迹，同时考虑到静态场景上下文是一个具有挑战性的问题。它需要理解智能体与空间之间的复杂交互，并将这些交互编码到路径预测模型中。此外，委员会认为，表示同等贡献2A.萨代吉安等人预测值观察值多源注意力路径预测单源注意力Fig. 1. CAR-Net是一种基于深度注意力的模型，它结合了两种注意力机制来进行路径预测。特定于场景的提示在视觉输入内通常是稀疏的和小的，例如，场景内的交通最后，这些线索可能远离感兴趣的代理。计算机视觉的最新研究已经成功地解决了路径预测中的一些挑战。Kitani等人[14]已经证明了环境的语义分割（例如，人行道和草地区域的位置）有助于预测行人轨迹。Ballan等人 [15]使用导航地图对先前观察到的场景特定运动模式进行编码，从而这些方法依赖于预先收集的场景语义信息。相反，我们的方法依赖于原始图像，这是更容易获得的，我们的方法有可能在- fer细粒度的场景语义和功能属性的环境。为此，Lee et al. [16]使用原始图像来预测代理的轨迹。然而，他们的方法并没有提供一种方法来理解场景中的哪些视觉信息被模型“使用”来预测未来的我们解决了以前的路径预测方法的局限性，提出了一个视觉注意力模型，利用代理空间的相互作用，提高预测精度。受最近在图像字幕[17]，机器翻译[18]，知识库[19，20]和对象识别[21，22]中使用注意力模型和神经网络的启发，我们引入了第一个视觉注意力模型，该模型可以在关注场景的显著区域时预测智能体的未来轨迹。我们的方法能够处理图像中的任何区域或区域集合。基于注意力的模型可以大致分为单源和多源注意力模型。单源注意力模型（例如，DRAW [23，21]）关注从图像的单个区域提取的特征，而多源注意力模型（例如，DRAW [23，21]）关注从图像的单个区域提取的特征。，来自[17]的软注意）使用来自图像的所有区域的特征的组合。在本文中，我们提出了CAR-Net，这是一种深度神经网络架构，通过处理具有视觉Attentive Recurrent组件的原始顶视图图像来预测未来轨迹-因此是千里眼我们的注意力模型结合了单源和多源注意力机制。通过利用这两种注意力机制，我们的预测框架利用了更广泛的代理空间依赖关系。此外，CAR-Net易于实现和训练。因此，它有助于在广泛的其他视觉任务中使用轨迹预测，例如对象跟踪[5]，活动预测[24]和动作定位[25]。为了研究我们提出的架构是否能够学习可观察的代理空间相关性，我们构建了一个新的数据集，其中代理CAR-Net：千里眼专注递归网络3场景内的区域（例如，道路上的一个弯道）。与其他流行的轨迹预测数据集相反，所提出的数据集允许了解环境对代理未来轨迹的影响。由于数据集由静态场景组成，因此未来的轨迹不会受到其他代理行为等混杂因素的影响。这解开的贡献场景语义信息和其他代理的互动，在路径预测的任务。为了构建这个新的数据集，我们收集了200多条真实世界的一级方程式赛车赛道，并使用[26]中的方程计算了给定赛道曲率的车辆的最佳路径。在这种情况下，道路的几何形状使车辆加速或减速，并转向。我们的注意力机制成功地利用轨道的元素，并有效地预测车辆在这些轨道上的最佳路径。作为我们贡献的一部分，这个用于路径预测和学习代理空间相关性的新数据集将公开发布我们进一步表明，我们的方法的准确性优于斯坦福无人机数据集（SDD），一个公开的轨迹预测基准，其中多个类别的代理（例如：人、骑自行车的人或公共汽车）在户外场景中导航。CAR-Net是一个直观而简单的模型，可以实现最先进的路径预测结果，同时由于注意力机制，可以实现影响预测的语义元素的可视化。2相关工作轨迹预测。给定场景的动态内容的路径预测已经用诸如卡尔曼滤波器[27]、线性回归[28]或非线性高斯过程[29-31，2]的方法进行了广泛的研究Helbing和Mol-nar [32-34]的开创性工作提出了一种具有吸引力和排斥力的行人运动模型，称为社会力模型。所有这些先前的工作都难以模拟复杂的相互作用。在最近成功的递归神经网络（RNN）序列预测任务之后，Alahi等人 [35，36]提出了一种从数据中学习人类运动以预测未来轨迹的模型。最近，Robicquet et al. [37，38]提出了社会敏感度的概念，并采用基于社会力量的模型来改进路径预测。这样的模型足够的情况下，很少代理代理的相互作用，但他们不考虑代理空间的相互作用。相比之下，我们的方法可以处理更复杂的环境，其中代理的行为受到场景上下文的严重影响（例如：、可驾驶道路对树木和草地）。最近的工作已经研究了如何在路径预测任务中有效地利用静态场景Kitani等人。 [14]使用场景的语义知识，使用逆最优控制（IOC）预测行人的可行路径。Walker等人[1]预测了通用代理的行为（例如车辆），但是在有限数量的场景中。 Ballan等人[15]学习场景特定的运动模式，并将其应用于具有基于图像的相似性函数的新场景。不幸的是，这些方法都不能使用场景的原始图像提供预测最近，Lee et al. [16]提出了一种使用原始图像在给定场景上下文的情况下进行路径预测的方法。然而，所有这些方法都具有有限的可解释性。我们的方法是为这个特定目的而设计的：提供关于在给定场景的上下文的情况下为什么预测某些路径的直觉。4A.萨代吉安等人A={}图二. CAR-Net架构概述。注意，视觉注意。Xu和Gregor [17，23]的相关工作介绍了基于注意力的模型，该模型学习关注与感兴趣的任务相关的突出对象Xu等人[17]，提出了注意整个图像的软注意力和硬注意力机制软注意力将权重掩码应用于图像的特征图。由于相关的训练操作是可微的，因此它已被应用于广泛的任务。硬注意机制是不可区分的，必须通过强化学习来训练这种方法的不可微性导致了很少的应用。其他注意力模型将降维应用于图像。他们的目标是通过一系列局部的图像来积累信息。在[21]中引入的它已被用于许多任务，如数字分类和个人识别[39，23，40]。视觉注意力模型也被广泛应用于许多其他应用，如图像分类[41]，图像字幕[17，42]和视频分类[43]。受这些工作的启发，我们特此在我们的模型中使用视觉注意机制来执行轨迹预测。3车联网场景上下文对于预测智能体的未来行为是必要的。例如，一个骑自行车的人在接近环形交叉路口时改变他的路线以避免碰撞。轨迹的这种偏差不能仅通过观察智能体的过去位置来预测。这促使我们建立一个模型，可以利用可观察的场景上下文，同时预测代理的未来路径。我们介绍了CAR-Net，这是一种基于深度注意力的路径预测模型。它使用场景的原始顶视图图像和代理的过去轨迹来执行轨迹预测。CAR-Net能够处理输入图像中最相关的部分。在本节中，我们首先描述模型的整体架构然后，我们解释我们的视觉注意力模块。3.1整体架构我们的模型的目标是预测未来的路径的代理给定其过去的轨迹和俯视图的场景。我们的模型使用特征提取器从原始图像中导出特征向量（图1）。2）的情况。然后，视觉注意力模块计算表示在时间t要注意的图像的显著区域的上下文向量Ct。最后，CAR-Net：千里眼专注递归网络5在递归模块中，长短期记忆（LSTM）网络[44]在每个时间步长生成代理的未来位置（xt+1，yt+1），条件是上下文向量ct，先前的隐藏状态ht和先前生成的代理位置（xt，yt）。我们的模型是能够捕捉代理空间的相互作用相结合的场景上下文向量和过去的轨迹的代理。3.2特征提取器模块我们使用卷积神经网络（CNN）从静态顶视图图像中提取特征图。我们使用VGGnet-19 [45]在ImageNet [46]上进行预训练，并对场景分割任务进行微调，如[47]所述。在场景分割上微调VGG使CNN能够提取图像特征，这些特征可以识别障碍物、道路、人行道和其他对轨迹预测至关重要的场景语义。我们使用第5卷积层的输出作为图像特征。CNN输出L=NXN个特征向量，A= {ai，…其中，N和D分别是由第五卷积层输出的特征图的大小和数量。每个特征向量对应于图像的某个区域。图2描绘了特征提取器模块。3.3视觉注意模块给定一个场景的高维输入图像，我们希望我们的模型专注于这个输入图像的较小的、有区别的区域使用视觉注意方法，提取图像的最相关区域，而忽略不相关的部分一般注意力过程的工作原理如下。注意力机制内的层Φ将LSTM的先前隐藏状态h_t作为输入，并输出由注意力机制用来预测图像的重要区域的向量Φ（h_t）然后将向量φ（h，t）应用于特征向量A（通过函数fatt），得到包含时间步长t+1处的显著图像特征的上下文向量c，t+1：ct+1= fatt（A，φ（ht））。（一）我们的视觉注意模块可以用任何可区分的注意机制来代替。此外，它可以使用几种注意力方法的组合假设fatt和Φ是可微的，则整个架构可通过标准反向传播来训练。我们提出了三个变量的微分注意力模块，很容易训练。第一种方法利用软注意机制从图像的多个区域提取视觉信息第二种方法利用受[23]启发的注意力机制从图像的单个裁剪区域提取局部视觉信息。我们将第一种和第二种方法分别称为多源和单源注意机制。最后，CAR-Net的注意力模块结合了这两种注意力机制，使我们的预测框架能够学习更广泛的场景依赖性。6A.萨代吉安等人电话+1(a)（b）第（1）款图三. 我们的多源和单源注意机制CAR-Net注意。学习代理空间的相互作用，并将其编码到路径预测模型是一项具有挑战性的任务。场景特定的线索有时是稀疏的，并且散布在远离代理的整个图像中，或者在图像的特定区域内很小单源和多源注意机制分别关注场景中的局部和分散的视觉线索。当相关视觉线索分散在输入图像上时，多源注意方法可以成功地从图像的多个关键区域提取特征的组合。相比之下，当相关的视觉信息被定位在图像的一个特定区域时，单源注意力方法很适合关注该特定区域。注意，多源注意并不一定简化为单源注意，它们是相辅相成的。为了在路径预测中利用局部和分散的视觉线索，CAR-Net中的核心注意力模块结合了从单源和多源注意力机制获得的两个上下文向量。组合是通过将来自单源CSS和多源CMS注意机制的上下文向量t tct=[css，cms]。图中的注意力模块2描述了过程。更多的技术t t关于多源和单源注意力机制的细节可以在第2节中找到三点三CAR-Net的表现优于单源和多源注意力机制，证明了它能够利用这两种注意力机制的优势。多方关注。多源注意机制基于场景的所有空间区域的重要性将权重应用于它们，并且输出包含来自图像的多个区域的相关场景上下文的上下文向量首先，通过将隐藏状态ht通过一个全连接的层φ，具有权重Wms和偏置bms。稍后，上下文向量cms计算权重矩阵αt+1和特征图A的元素乘积。图3（a）和Eq.2显示整个过程：mst+1 =fatt（A，φ（ht））=a·φ（ht）=A·αt+1（2）αt+1= softmax（Wmsht+ bms）。[17]中描述的软（多源）注意力机制计算以先前隐藏向量和当前隐藏向量的特征两者为条件的权重CCAR-Net：千里眼专注递归网络7电话+1- -XXY形象然而，我们的αt+1仅依赖于前一个隐藏向量。这种区别很重要，因为对于路径预测任务，我们没有场景的未来图像。此外，它在不影响模型性能的情况下降低了计算成本。单一来源注意。图中所示的单源注意机制。3（b）关注图像中的单个局部区域。为此，我们将DRAW注意力机制（最初设计用于数字生成的无监督设置[23]）调整为路径预测的监督学习设置。单源注意机制关注由N个高斯的局部网格定义的图像区域。网格的中心（gX，gY）、网格的步幅δ和所有N个高斯的方差σ由模型在每个时间步长t+ 1通过将隐藏状态ht线性映射到注意力参数（gX，gY，δ，σ）来预测。网格的步幅控制模型所涉及的局部区域的随着步幅变大，高斯网格覆盖原始图像的更大区域精确位置（νi，νi）Xy使用网格的中心和步幅找到网格上的每个高斯i，如在当量3.第三章。i=gX+（i-N/2-0. 5）δi= gY+（i-N/2 - 0. 5）δ（三）所得到的高斯网格定义了两个滤波器组矩阵FX和FY，使用等式4.使用这些滤波器组矩阵，单源注意力机制能够关注由高斯局部网格定义的图像区域：FX和FY与图像的特征图A进行卷积，如等式（1）所示。五、生成的上下文vec-Torcss包含场景上下文，从到图像的单个局部区域对应到高斯网格。FX[i，a]=1.一、expZX（a−νi）2Σ2σ2FY[j，b]=1 .一、expZY（b−νj）2Σ-是的2σ2（四）sst+1 =fatt（A，φ（ht））= FX（ht）TAFY（ht）。（五）注意，index es（i，j）指的是网格中的高斯分布，并且index es（aΣ，b）指的是局部分布。特征图中的Σ。归一化常数Zx、Zy确保FX[i，a]=1并且b∈Y[j，b]=1。3.4实现细节我们使用Adam优化器[48]从头开始训练LSTM和注意力模块，小批量大小为128，学习率为0.001，每10个epoch依次减少所有模型都在地面实况和预测轨迹之间的L2距离上训练100个历元。与许多序列预测任务一样，训练和测试过程略有不同。在训练时，地面实况ννC8A.萨代吉安等人位置作为LSTM的输入。相比之下，在测试时，位置（xt，yt）的预测在下一个时间步被重新注入作为LSTM的输入。4实验我们提出了CAR-Net，这是一个通过杠杆化空间场景上下文提供准确路径预测的框架。我们进行了全面的比较，我们的方法，以国家的最先进的技术，以及全面的消融实验。然后，我们提出的见解，我们的方法的可解释性。最后，我们通过对不同数据集的实验，展示了CAR-Net的通用性和鲁棒性。4.1数据我们在以下三个数据集上测试了我们的模型，这些数据集都包括导航场景的轨迹数据斯坦福无人机数据集（SDD）[37]。为了证明CAR-Net在路径预测方面达到了最先进的性能，我们在SDD上测试了该模型，SDD是路径预测的标准该大规模数据集由各种目标的顶视图视频组成（例如：、行人、骑自行车的人、汽车）在许多现实世界中导航-在大学校园的门环境（20个不同的场景）。轨迹被分成每个20个时间步长的段（总共8s），产生大约230K轨迹段。每个段由8个过去位置（3.2s）和12个未来位置（4.8s）组成，所述8个过去位置（3.2s）作为顺序输入被馈送到这是SDD上路径预测的标准时间设置。我们使用原始图像来提取视觉特征，没有任何事先的语义标记。我们采用SDD的标准基准数据集分割。一级方程式数据集。研究空间对智能体轨迹的影响例如，行人可以在遇到熟人时停下来。一级方程式（F1）数据集，由真实世界的赛车赛道及其相关轨迹组成该数据集提供了一个受控的环境，以评估模型如何提取有用的空间信息进行轨迹预测。在F1数据集中，智能体与用于轨迹预测的其他流行数据集（例如SDD）相反，F1数据集允许在静态设置中进行评估，其中未来轨迹不受诸如其他代理的行为等混杂因素的影响。这解开的空间信息和其他代理的相互作用的轨迹预测的任务中的贡献。赛车跑道的俯视图是从谷歌地图上获得的。最重要的是，我们模拟了与最佳驾驶模式相对应的轨迹，称为“最佳轨迹”，并使用[26]中给出的方程进行计算。我们使用手工分割的道路作为最佳轨迹计算的输入注意，那些最佳轨迹示出了依赖于远处场景依赖性的复杂导航模式。F1数据集包括250条赛道和超过100KCAR-Net：千里眼专注递归网络9图4.第一章在所提出的F1数据集中捕获的场景的示例。我们用相关的最佳赛车轨迹标注了每条赛道这些数据来自巴西、加拿大、哥伦比亚、墨西哥、法国、美国和其他国家的不同城市，并将提供给公众用于研究目的。样本轨道如图所示。4.汽车轨迹分为24个时间步长段：8个输入过去的位置和16个用于评估的未来位置。我们选择了16个未来的位置进行评估，而不是像SDD中的12个，因为由于更强的代理空间依赖性，预测任务更简单。我们将F1数据集中的赛道分为80%的训练集，10%的验证集和10%的测试集。测试赛道是完全看不见的位置，它们不与训练或验证集赛道重叠。汽车竞赛数据集[49]. 为了进一步了解代理空间依赖性如何影响我们模型Car-Racing数据集由我们生成的3，000条不同曲率和道路宽度的轨迹使用OpenAI健身房的Car-Racing-v0模拟器。我们模拟了（1）每个电路的最佳轨迹，以及（2）以恒定速度沿着道路中间的轨迹比赛轨迹被分成24个时间步长段，8个输入过去位置和16个用于评估的未来位置，产生约500K段。我们将该数据集中的赛道分为80%的训练集，10%的验证集和10%的测试集，它们不重叠。最佳赛车轨迹。在赛车和F1数据集中使用的理想赛车轨迹被定义为允许给定车辆在最短时间内穿过赛道的轨迹。为了计算这些最佳的比赛轨迹，我们人工分割道路，并使用物理模拟计算相关的最佳赛车路径。这些模拟基于[26，50]中的2D物理模型4.2评价指标和基线我们使用以下指标测量我们的模型在路径预测任务上的性能：（i）平均位移误差-预测轨迹的所有预测点和地面实况点上的平均L2距离（ML 2），（ii）最终L2距离误差（FL 2）-最终预测位置和最终地面实况位置之间的L2距离。为了在第4.3节中进行消融研究并在第4.4节中证明我们的模型达到了最新技术水平，我们将CAR-Net与以下基线和文献中的- 车速+10A.萨代吉安等人赛车赛车一级方程式中优优化模型ML2 FL2 ML2FL2 ML2 FL2T-LSTM10.4 15.5 5.84 10.221.2 41.3I-LSTM9.71 14.1 5.629.520.8 40.1MS-LSTM 7.35 12.7 5.30 8.7118.9 37.8SS-LSTM 6.36 9.91 4.64 7.6314.7 28.9车联网5.08.87 3.58 6.7913.3 25.8表1：我们的方法在具有中间和最佳轨迹的赛车数据集和F1数据集上的定量结果。我们报告平均L2误差（ML2）和最终L2误差（FL2）。CAR-Net通过结合单源和多源注意力输出，优于所有模型– 线性模型（Linear Model）我们使用现成的线性预测器在线性速度的假设下外推轨迹。– Social Forces（SF）和Social-LSTM（S-LSTM）。我们使用[51]中的社会力量模型的实现，其中已经建模了几个因素，如群体亲和力。由于Social-LSTM的代码不可用，我们将我们的模型与[35]中的Social-LSTM的自实现版本进行比较。– 仅轨迹LSTM（T-LSTM）和全图像LSTM（I-LSTM）。这些模型是我们模型的简化版本，其中我们分别删除了图像信息和注意力模块。– 多源LSTM（MS-LSTM）和单源LSTM（SS-LSTM）。我们的模型只使用多源注意和单源注意机制，分别。– 欲望来自[16]的深度IOC框架模型。我们报告的性能模型的期望-SI-IT 0最好的前1个样品。4.3消融研究我们进行了一项消融研究，以表明当结合单源和多源注意力机制时，预测准确性提高，这表明它们从原始图像中提取互补的语义线索我们分析了基线模型和CAR-Net在赛道数据集（Car-Racing和Formula One数据集）上的性能。我们在表1中呈现我们的结果。我们在两个赛道数据集上观察到类似的结果首先，I-LSTM仅略优于T-LSTM。这似乎是因为从每条赛道提取的大特征图太复杂而不能显著地补充从智能体其次，注意力模型（MS-LSTM、SS-LSTM、CAR-Net）的表现大大优于I-LSTM。这表明，视觉注意机制，提高性能，参加特定领域的导航场景。我们在4.5节中展示了这些关注区域是导航场景的相关语义元素-例如即将到来的转弯。注意，SS-LSTM实现比MS-LSTM更低的误差。这是由于赛道图像很大，并且相关的语义线索大多位于汽车附近最后，CAR-Net在所有数据集上都优于MS-LSTM和我们认为这是由于鲁棒地结合了单源和多源注意机制的输出。CAR-Net：千里眼专注递归网络11模型ML2FL2是林书37.1163.51SF [51]36.4858.14[16]第十六话35.7363.35S-LSTM [35]31.1956.97T-LSTM31.9655.27I-LSTM30.8154.21MS-LSTM27.3852.69SS-LSTM29.2063.27车联网25.7251.80表2：不同基线在从SDD上的8个过去位置预测12个未来位置上的性能。我们报告原始图像的像素空间中的平均L2误差（ML2）和最终L2误差（FL2）我们的方法CAR-Net实现了迄今为止最低的错误。一般性意见。对于赛车数据集，模型在最佳轨迹的预测上比中间轨迹表现得更好。这是由于中间轨迹的连续位置之间的平均像素距离大于最佳轨迹。此外，我们在1K轨道上训练了中间轨迹的模型，而不是3K的最佳轨迹。4.4轨迹预测基准CAR-Net在SDD基准上从8个过去位置（3.2秒）预测12个未来位置（4.8秒运动）的任务上优于最先进的方法，如表2所示（ML 2和FL 2误差均较低请注意，[16]中的BURRE-SI-IT 0 Best的性能是针对预测4s运动的任务提供的我们对该性能进行线性插值，以获得其预测4.8s运动的性能，并在表2中报告插值数字。T-LSTM基线实现了比线性、SF和S-LSTM模型更低的ML 2误差。然而，T-LSTM和SF或S-LSTM模型的FL 2误差之间的差距很窄，这表明T-LSTM模型在预测最后的未来时间步长时往往相对我们观察到S-LSTM与MS-LSTM相比表现不佳-特别是在FL 2错误方面。我们认为，由于分散的关键语义在SDD场景中的多源注意力表现更好。在所有实验中，CAR-Net在所有指标方面都优于基线方法。此外，我们的模型在前1个样本（DESIREBest）中优于DESIRE这符合[16]这表明基于回归的模型（如CAR-Net）更适合回归准确性比生成概率输出更重要的用例。泛化到看不见的位置。CAR-Net可以推广到所有数据集中看不见的位置。这表明我们的模型利用了可观察到的场景特征，而不是特定于位置的信息。首先，CAR-Net在F1测试集上实现了比其他基线方法更好的准确性，该测试集完全由看不见的F1赛道组成。其次，SDD测试集中的9/17（53%）位置是不可见的。SDD测试集中剩余的8/17（47%）个位置在视觉上与训练位置（可见位置）相似。我们分别评估我们的训练模型CAR-Net在可见和不可见的测试SDD位置上实现了类似的性能-可见和不可见位置上的平均L2距离分别为23.87和26.93像素-证明了其推广到不可见SDD位置的能力。12A.萨代吉安等人赛车（最佳）式1SDD图五. MS-LSTM、SS-LSTM和CAR-Net（行）预测Car-Racing、F1和SDD数据集（列）上轨迹的定性结果。CAR-Net成功地利用单源和多源注意力机制来预测未来路径。定量分析智能体-空间交互的影响。为了分析CAR-Net利用代理空间交互的能力，我们将SDD的测试集分成几何形状复杂并且可能影响代理轨迹的场景（例如，具有草地草坪、人行道、建筑物的场景）和可观察上下文在俯视图图像上变化很小的场景（例如，具有可观察上下文的场景）。没有道路、草地等的开阔地）。我们把这些场景分别称为语义复杂和简单。有关复杂和简单场景的分割过程和样本图像的详细信息，请参阅补充材料。我们在SDD的语义复杂和简单的测试场景上测试了CAR-Net（使用场景上下文）和T-LSTM（不使用任何场景上下文）。我们的结果报告在表3中。CAR-Net和T-LSTM在简单场景上实现了类似的性能，其中场景语义通常不应该影响代理的轨迹。相比之下，CAR-Net在复杂场景中实现了比T-LSTM更好的性能，其中场景语义可能会高度影响代理的轨迹。该实验显示了CAR-Net模型复杂简单T-LSTM31.3130.48车联网24.3230.92表3：T-LSTM和CAR-Net在SDD语义复杂和简单场景上的性能。我们报告原始图像像素空间中的平均L2误差（ML2）。我们的方法CAR-Net能够有效地使用场景上下文来预测未来的轨迹。预测GT观察到T=1T=6T=1T=6T=1T=4T=11T=16T=11T=16T=7T=10T=1T=6T=1T=6T=1T=4T=11T=16T=11T=16T=7T=10车联网MS-LSTMSS-LSTMCAR-Net：千里眼专注递归网络13T=30T=1T=90T=11开始T=30T=1T=90T=11开始T=1 T=6T=60 T=16T=1 T=6T=60 T=16（c）第（1）款图六、定性分析：（a）对Car-Racing数据集的长期路径预测。预测保持在轨道上，表明我们的模型成功地使用场景上下文的路径预测。(b)通过手动移动注意力到图像的其他部分，我们表明，预测heav- ily依赖于场景的几何形状。(c)当手动地将初始汽车位置强加为越野时，预测的轨迹使用视觉提示回到道路上。4.5定性分析可视化细节。在所有图中，地面实况和预测轨迹分别以红色和蓝色绘制。过去的位置用黑色圈出。我们通过白色高亮显示多源注意力机制随时间的权重图。单源注意网格也随时间显示：黄点表示网格的中心，矩形表示注意力网格的边界框。短期预测。图5示出了由我们的模型在我们的实验中使用的数据集在赛车赛道数据集（赛车和F1），我们希望道路的区域接近汽车包含显着的语义元素。我们观察到MS-LSTM成功地关注了汽车周围的区域在中间左侧和中间的图中，我们观察到SS-LSTM的注意力网格最初是关闭的（白色矩形），然后跳到靠近汽车的一个小区域，从而识别相关的视觉信息。如底行所示，CAR-Net使用单源注意力聚焦在图像中靠近汽车的它还能够使用多源注意力来关注其他领域，例如下一个曲线，证明其能够在赛道数据集上利用两种注意力机制。在关键语义元素分散的SDD上，多源注意力机制成功地注意到多个相关的视觉区域（右上和右下图像）。我们观察到，在SDD上，多源注意力会关注随着时间的推移而变大的区域这可能反映出预测的不确定性越来越大。与赛道数据集相比，单源注意力网格关注SDD上智能体更前方的区域（例如中右图）。它表明，只参加接近代理将无法捕捉所有显着的语义，使注意力网格提前到达。在赛车数据集上进行非常长期的轨迹预测。在本节中，我们提出了在赛车数据集上预测未来位置超过4.8秒的任务的定性结果，作为补充结果。我们并不声称我们的模型在现实世界的数据集上实现了超过4.8s的类似路径预测性能。图6（a）示出了CAR-Net对我们观察到，随着时间的推移，预测仍然在路上T=1T=30T=60T=90（一）（b）第（1）款14A.萨代吉安等人注意，智能体的初始几个位置对于预测非常长的时间间隔上的未来轨迹（例如，在从初始位置几圈之后）没有帮助。预测停留在路上的事实证明，CAR-Net在这种情况下成功地从场景上下文中提取了语义理解我们观察到，无论是单源和多源的注意力机制是一致的预测位置随着时间的推移，因为他们出席了现场的突出部分-例如。，车前的弯道代理空间交互的定性分析。我们进一步研究了我们的模型利用代理空间对赛道数据集的依赖性首先，我们表明，道路几何形状对未来位置的预测有很大的影响如图图6（b）左，在赛车数据集上，我们手动将视觉注意力放在道路的一个不相关的部分上，该部分沿着右上方向定向。我们观察到，该模型预测的位置遵循类似的右上轴，而没有任何场景信息的预期轨迹将遵循左上方向。我们在图1左下角的图像中观察到类似的行为。第6（b）段。在真实世界的F1数据集上进行的相同实验产生了类似的行为，如图所示。6（b）正确。其次，我们研究CAR-Net是否足够强大，可以通过手动设置智能体在道路外的过去位置来从错误或扰动中恢复。图中的左图。图6（c）显示了在Car-Racing数据集上的实验结果，使用在中间轨迹上训练的模型。预测的未来轨迹成功地回到了道路上，并在之后保持稳定，这表明我们的模型图中的右图。图6（c）示出了在真实世界F1数据集上的类似实验。由于该数据集比赛车数据集更具挑战性，因此我们对智能体的过去轨迹应用较小的扰动，将其稍微移动离开道路。我们观察到，这种扰动不影响预测的轨迹，遵循的道路。5结论在本文中，我们使用CAR-Net来处理轨迹预测任务，CAR-Net是一种基于深度注意力的模型，可以处理过去的轨迹位置和导航场景的俯视图。我们提出了一个注意力机制，成功地利用多种类型的视觉注意力。为了研究我们的模型利用代理行为与其环境之间的依赖关系的能力，我们引入了一个新的数据集，该数据集由数百条F1赛道的顶视图图像组成，其中车辆的动态在很大程度上由图像中的特定区域（例如：即将到来的曲线）。CAR-Net在SDD轨迹预测基准上的表现大大优于以前的最先进方法。通过可视化的注意力机制的输出，我们表明，我们的模型利用相关的场景语义特征的预测任务。6确认本出版物中报告的研究得到了SAIL-丰田人工智能研究中心（1186781-31-UDARO ）， ONR （ 1165419-10-TDAUZ ）， Nvidia 和 MURI （ 1186514-1-TBCJE）的资助。CAR-Net：千里眼专注递归网络15引用1. Walker，J.，Gupta，A.，Hebert，M.：补丁到未来：无监督视觉预测。IEEE计算机视觉和模式识别会议论文集。（2014）3302-33092. Trautman，P.Krause，A.：解冻机器人：在密集、互动的人群中导航在：智能机器人和系统（IROS），2010年IEEE/RSJ国际会议，IEEE（2010）7973. Karasev，V.，Ayvaci，A.，Heisele，B.，Soatto，S.：意图感知的长期预测在：机器人与自动化（ICRA），2016年IEEE国际会议，IEEE（2016）25434. Hirose，N.等：去还是不去？机器人导航的近无监督学习方法。arXiv预印本arXiv：1709.05439（2017）5. Sadeghian，A.，Alahi，A.，Savarese，S.：追踪无法追踪的对象：学习跟踪具有长期依赖性的多个线索。arXiv预印本arXiv：1701.01909（2017）6. S Hoogs ， A. ， Perera ， A. ， Cuntoor ， N. Chen ， C.C. ，李 J.T. Mukherjee ， S. ，Aggarwal，J.，李，H.，戴维斯湖等：用于监视视频中事件识别的大规模基准数据集在：计算机视觉和模式识别（CVPR），2011年IEEE会议，IEEE（2011）31537. Morris，B.T.，Trivedi，M.M.：基于视觉的监控轨迹学习与分析综述。IEEE视频技术电路和系统汇刊18（8）（2008）1114-11278. Xie，D.，Shu，T.，Todorovic，S.，Zhu，S.C.：学习和推断“暗物质”，并预测视频中的人类意图和轨迹。IEEE Transactions on Pattern Analysis and Machine Intelligence（2017）9. Hirose ， N. 等： Gonet ： A semi-supervised deep learning approach for traversabilityestimation. arXiv预印本arXiv：1803.03254（2018）10. Hirose，N.等：Gonet++：通过动态场景视图合成的可通行性估计。arXiv预印本arXiv：1806.08864（2018）11. 龚，H.，Sim，J.，Likhachev，M.，Shi，J.：视觉目标跟踪的多假设运动规划在：计算机视觉（ICCV），2011 IEEE国际会议，IEEE（2011）61912. Makris，D.，Ellis，T. ：从视觉监控中的观察活动学习语义场景模型。IEEETransactions on Systems ， Man ， and Cybernetics ，Part B（ Cybernetics ） 35 （ 3 ）（2005）39713. Kretzschmar，H.，Kuderer，M.，Burgard，W.：学习预测合作的轨迹导航代理在：机器人与自动化（ICRA），2014年IEEE国际会议，IEEE（2014）401514. Kitani，K.M.，Ziebart，B.D.，Bagnell，J.A.，Hebert，M.：活动预测。在：欧洲计算机视觉会议，Springer（2012）20115. 巴兰湖Castaldo，F. Alahi，A.，Palmieri，F.，Savarese，S.：用于场景特定运动预测的知识转移。参见：欧洲计算机视觉会议，Springer（2016）697-71316. Lee ， N. Choi， W. Vernaza ，P. ， Choy，C.B. ，托，pH 值，Chandraker ，M. ：Desire：在具有交互代理的动态场景中进行远程未来预测。arXiv预印本arXiv：1704.04394（2017）17. 徐，K.，Ba，J.，基罗斯河周，K.，Courville，A. Salakhudinov河泽梅尔河Bengio，Y.：Show，attend and tell：Neural image caption generation with visual attention.国际机器学习会议（（2015）204818. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv：1409.0473（2014）19. Sadeghian，A.，Rodriguez，M.Wang，D.Z.，Colas，A.：事件知识图上的时态推理（2016年）16A.萨代吉安等人20. Sadeghian，A.，孙达拉姆湖Wang，D.，中国科学院，Hamilton，W

下载后可阅读完整内容，剩余1页未读，立即下载