多模态轨迹预测的记忆增强神经网络方法

157 浏览量更新于2023-10-25 收藏 1.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7143MANTRA：用于多轨迹预测的Francesco Marchetti Federico Becattini Lorenzo Seidenari Alberto Del BimboMICC，佛罗伦萨name. unifi.it摘要观测轨迹存储器网络多个预测轨迹自动驾驶车辆预计将在复杂的场景中与几个独立的非合作代理一起驾驶。在这样的环境中安全导航的路径规划不能仅仅依赖于感知当前位置和其他代理的运动。相反，它需要在足够远的未来预测这些变量。在本文中，我们解决的问题，多模态轨迹预测利用记忆增强神经网络。我们的方法使用递归神经网络学习过去和未来的轨迹嵌入，并利用关联外部记忆来存储和检索这样的嵌入。然后通过解码以观察到的过去为条件的存储器中的未来编码来执行轨迹预测。我们通过在语义场景图之上学习CNN来将场景知识纳入解码状态。内存增长是有限的学习，ING的基础上现有的嵌入预测能力的写入控制器。我们表明，我们的方法能够在三个数据集上原生地执行多模态轨迹预测，获得最先进的结果此外，由于记忆模块的非参数性质，我们展示了一旦经过训练，我们的系统如何通过输入新的模式来1. 介绍使人类能够在各种各样的任务中取得成功的是从经验中学习的能力，回顾过去的事件并概括新的事件。学习驾驶就是这种能力的一个明显例子。近年来，已经做出了很多努力来模仿这种技能，并开发能够在其他智能体中安全驾驶的自动驾驶车辆，无论是自动驾驶还是由人类驾驶。虽然automotive [2，8，38]已经取得了显着的进展，但当前的方法仍然缺乏在尝试推断周围代理的可能未来状态时从经验中明确记住特定实例的能力。这对于预测移动代理的未来位置特别重要，以便采取适当的决策并避免碰撞或潜在的危险情况。预测这些代理的未来轨迹是内在的-图1. MANTRA解决了多模式轨迹预测。我们获得多个未来的预测给定一个观察到的过去依赖于记忆增强神经网络。Sically多模态：车辆动力学为外部观察者带来了一组类似可能的结果（图1A）。1）。虽然人类可以通过内隐学习来解决这个任务，即。从先前经验的类似场景中利用程序记忆（知道如何做事情），而没有明确和有意识的意识，对于机器来说，这项任务已经被证明是非常困难的。常见的机器学习模型，如递归神经网络，无法解决这个问题。它们能够将过去的信息存储到内部状态中，在每个时间步更新，并根据长期模式进行预测。但在这样的网络中，记忆是一个单一的隐藏的表示，只能作为一个整体来处理。状态到状态的转换是非结构化和全局性的。相反，元素可寻址存储器对于选择性地仅访问相关的信息片段将是有用的这将允许峰值进入可能的未来，以指导预测。在本文中，我们提出了MANTRA：记忆增强神经轨迹预测器。MANTRA是一种新的方法，实现了一个持久的记忆增强神经网络（MANN）的车辆轨迹预测。在我们的模型中，一个外部的联想记忆被训练成写下成对的过去和未来的轨迹，并保持一致。过去存储器TOP-K未来存储器7144仅选择最有意义和非冗余的样本。该模型逐步创建一个知识库，作为经验来执行有意义的预测。这模仿了人类内隐记忆的工作方式。由于知识库是从轨迹样本构建的，因此它还可以包括在系统被训练之后在系统运行时观察到的实例。以这种方式，系统在线获得经验，增加其准确性和能力，以在没有训练成本的情况下进行概括。为了记忆样本，过去和未来的轨迹以编码的形式分别存储在存储器中。事实上，这允许使用观察到的轨迹的编码作为存储器密钥来读取编码的未来并将它们联合解码以生成预测。因此，实际的坐标是通过解码来自历史的未来读数来获得的，用观察到的过去来以这种方式，输出不是先前看到的示例的简单副本，而是从系统经验（即，它的记忆）和目前观察到的实例。通过从记忆中读取多个未来，可以获得各种有意义的预测。本文的主要贡献如下：• 提出了一种基于记忆增强神经网络的多轨迹预测新体系结构.据我们所知，我们是第一个采用人工神经网络的轨迹预测。• 我们的配方，利用增强与关联存储器的编码器-解码器管道，更容易检查，并提供自然的多模态预测，获得国家的最先进的三个交通数据集的结果。• 我们的模型能够在经过训练后，在线观察新的示例时逐步改进。这一特性对于工业汽车应用很重要，并且目前缺乏其他最先进的预测器。2. 相关工作在过去的几年中，在轨迹预测方面已经做出了显著的努力。几位研究人员专注于行人的轨迹[1，13，14，27，31]，无论是被视为个体还是群体，也利用了社会行为和个体之间的互动[1，13，14，21，27]。虽然与行人相关，但社会行为与车辆的相关性要小得多[20]。在这种情况下，重点转移到观察个体行为体的运动（它们过去的轨迹）和理解周围环境上[20，33]。交通动态可能简化为简单的场景，其中移动受到环境的限制和约束。一个值得注意的例外是估计高速公路上的车道变化[10，18]。已经做出了一些努力来理解和预测城市场景中的车辆轨迹[20，23，33，41]。其中，[20]使用可变自动编码器来估计未来轨迹可以被采样的分布。然而，该方法不能生成置信度分数以提供经排名的轨迹集合。需要大量的预测来覆盖所有的搜索空间，然后使用逆最优控制来提取最终的排序子集。INFER [33]而是利用一个完全卷积的模型，该模型考虑了中间语义表示，并生成可能的未来位置的多模态热图，然后寻找分布的峰值。在我们的工作中，我们解决城市场景中的多个车辆轨迹的预测。这样的多个预测可能是必要的情境的示例是车辆可能采取不同的同等可能的路径的环形交叉路口和十字路口。与此同时，我们的方法能够直接估计一小部分排名轨迹，这些轨迹已经表现出足够的多样性来覆盖多个未来。从INFER [33]开始，我们直接使用坐标而不是热图，提供更好的空间分辨率和更精确的预测。从ABCRE和INFER中，我们训练了一个记忆增强神经网络模型来生成多模态轨迹，据我们所知，这从未用于此目的。MANN的使用具有两个主要优点：（i）对于给定的轨迹观测，可以从记忆中读取多个未来，使得模型能够预测多个结果，符合问题的多模态性质;（ii）通过从记忆中检索可能的未来，我们可以依赖于暗示在不久的将来会发生什么的预言。一个概念上与我们相似的研究方向是基于意图的方法[4，7，30]。在这里，一些锚信息（如轨迹，动作或位置）是预定义的，然后用于指导预测后，估计的概率分布在每个候选人。在[30]中，预测是以机器人代理的状态为条件的，目标是给定或估计的。[7]的作者提出了一种交叉口模型，该模型在5个固定地图区域上产生可能性，从而产生不同的运动模式。在[4]中，锚点轨迹是用k均值和随机抽样在训练数据上创建的。在某种程度上，我们的记忆条目可以被解释为编码未来而不是意图的锚。然而，我们不选择一个参考代理条件的预测或限制的适用性，以约束的情况。为了获得有意义的预测，我们还考虑了上下文及其物理约束。根据这一点，通过使用语义地图整合周围环境的知识来细化最后，与之前的工作不同，我们的轨迹预测模型也能够在线增长，在训练后根据新的观察结果逐步提高其性能。7145多模态预测图2. MANTRA的架构。观察到的过去轨迹的编码被用作从存储器读取可能的未来编码的关键。多模态预测通过解码每个未来编码来获得，由观察到的过去调节。周围的上下文由CNN处理并馈送到细化模块以调整预测。记忆网络具有记忆能力的神经网络已经被引入来解决一些需要对时间维建模的机器学习问题最常见的模型是递归神经网络（RNN）及其变体，如长短期记忆（LSTM）[15]和门控递归单元（GRU）[6]。然而，在这些模型中，记忆是一个单一的隐藏状态向量，编码所有的时间信息。因此，知识论是作为一个整体可寻址的，它们缺乏处理知识的单个元素的能力，这是应用算法操作和快速推理所必需的此外，状态到状态的转换是非结构化的和全局的.在每个时间步更新状态，最终它无法建模非常长期的依赖关系。最后，参数的数量与隐藏状态的大小有关。因此，从外部环境中增加知识必然意味着增加国家的规模。这些特征阻止使用这些模型来有效地解决我们在本文中所解决的问题。[2019 - 12 - 16]【2019 - 09 - 19 00：00：00】已经提出了记忆增强神经网络，或简称记忆网络，以克服RNN的局限性。该模型的主要特点是使用一个控制器网络与外部元素可寻址存储器的年龄。这是用来存储明确的信息和访问选择性相关的项目。存储器控制器被训练为动态管理存储器内容优化预测。从RNN开始，状态到状态的转换通过读/写操作获得，并保持一组独立的状态。一个重要的考虑因素是，在内存网络中，参数的数量与内存的大小无关，即，增加存储器插槽不会增加参数的数量。虽然最近介绍，这个模型的一些应用已经出现在文献中。第一个em-在神经图灵机（NTM）[12]中提出了存储器网络的实施例，以执行需要顺序操作步骤的算法任务，例如排序或复制由于完全可微控制器，该模型通过读/写操作与内存进行交互。该架构后来在[32]中扩展为执行一次性学习。从NTM开始，他们训练MANN实现最近最少使用的内存访问策略，以写入很少使用的位置。在[37]中，MANN已被证明能够有效地解决问题推理任务，其中模型必须回答与一系列句子相关的问题。在[34]中，使用具有注意力权重的端到端记忆网络解决了相同的问题，以将重要性从一个句子转移到另一个句子。最近的方法提出了一个MANN来解决视觉问题分类的更复杂的问题[19，22]，训练MANN学习不常见的问题-答案对。在线学习也已经使用记忆网络来解决Rebuffi等人[29]学习一个分类器，增量地添加类。已经提出了用于对象跟踪的MANN，其中模型经过训练以记住模板，这些模板在跟踪对象时更新[40]。所有这些MANN都依赖于情景记忆。系统学习从内存中读写，但存储的数据仅限于当前的观察集（例如要排序的数字列表[12]或收集[37]回答问题的句子。与之前的工作相一致，我们建立了一个具有非情节记忆的MANN。相反，它就像一个持久的存储器，存储相关数据的经验，以执行任何观察的准确预测，而不仅仅是一个受限制的事件或一组样本。这种方法背后的基本原理是，我们学习如何创建一个样本池，用于未来的轨迹预测，而不是像神经图灵机那样解决简单的算法任务。存储器网络PAST FUTURE内存内存TOP-K编码器过去轨迹内积解码器+精细化CNN俯视语义图7146FFPF所提出的模型学习仅在内存中存储执行准确预测所严格需要的内容我们对MANN的用法接近[26]，但有很大的不同。虽然他们利用嵌入的解耦来更好地拟合数据，但我们利用不相交表示从单个输入创建多个输出，从而实现整个系统的完全多模态预测能力。编码器过去轨迹编码器未来轨迹未来轨迹重建3. 模型我们将车辆轨迹预测的任务表示为估计P（λxF）的问题|xP，c），其中xF是预测的未来轨迹，xP是观察到的轨迹（或过去），c是上下文的表示（例如，道路、人行道）。我们认为车辆轨迹作为一个序列的二维空间坐标。过去的xP是由它的位置观察到的一些参考点识别为目前。类似地，未来xF是它在下一个时间步将发现自己的位置序列。3.1. 基于记忆的轨迹预测给定样本轨迹xi=[xi，xi]，设πi=Π（xi）图3.表征学习：过去和未来的轨迹被单独编码;解码器仅重建未来轨迹。3.2. 特征表示学习编码-解码函数Φ，Φ，Φ被联合训练为自动编码器，如图2所示。3. 编码器学习将过去和未来的点映射成有意义的表示，解码器学习再现未来。我们不再仅仅使用未来作为输入，而是用过去的编码来调节重建过程这在两个方面是有用的。首先，我们能够为过去和未来训练两个不同的编码器。这两个编码器用于获得内存中键（过去）和值（未来）第二，我们要侦察-P F P和φi=Φ（xi）是两个编码函数，其将过去和未来轨迹的2D坐标映射到两个单独的潜在表示中。类似地，设f（πi，φi）是将一对过去-未来编码解码为未来子轨迹xi的坐标的函数，如图1B所示。二、我们将M={π i，φ i}定义为关联键值存储器，|M|过去-未来编码对。与过去相容的未来结构这对预测至关重要，因为在测试时，我们通过组合来自不同示例的过去和未来部分来合成轨迹编码。这也允许生成与内存中的轨迹不同的轨迹，而不仅仅是已经观察到的样本的简单副本当一个新的轨迹xk它的编码πk3.3. 存储器控制器是用来作为关键检索有意义的样本，奥里请注意，观察到的轨迹都被认为是过去的轨迹，因为未来的对应轨迹尚未被观察到，并且是我们想要预测的。存储器寻址机制被实现为过去编码之间的余弦距离，其产生相似性分数所有内存位置上的{si}πkπ is i= πkπii = 0，.， |M|（一）根据相似性得分，前K个元素φj的未来编码分别与观察到的过去π k的编码组合。新的编码对使用解码函数φxj=φ（πk ， φj ）被变换到2D坐标中，其中j=1，.， K. 注意，πk是固定的，而φj根据从存储器y读取的样本而变化。未来的编码φj充当了一个预言，它基于过去的观察提出了可能的结果。这种策略允许模型预测可能的未来，以便预测正确的未来。由于可以独立地使用多个φ j，因此我们可以解码多个未来并在不确定性的情况下获得多模态预测（例如，道路的分叉处）。传统的记忆增强神经网络[12，34，37]旨在观察数据集合，通常称为事件。这些模型配备了一个工作存储器来存储有关事件的相关信息，以便为事件生成有意义的输出。然而，每一集的记忆都被清除，训练的是决定读/写什么的控制器训练的监督源于片段结束时的成本函数，将梯度跟踪到控制器。与标准存储器一样，我们训练控制器在每次观察到样本时发出写入概率P（w），但与这些方法不同的是，我们训练它来构建紧凑且富有表现力的永久存储器。训练这样的控制器可能会导致挑战，因为P（w）不仅取决于所观察到的样本的固有重要性，而且还取决于存储器的当前状态。为了解决这个问题，我们不依赖于预测损失进行监管。相反，我们将重建误差e馈送给控制器，控制器决定网络是否足够接近地面真实。为了强制执行此行为，我们将控制器损失Lc定义为：Lc=e·（1−P（w））+（1−e）·P（w）（2）解码器7147其中，假设e具有[0，1]中的值。当误差较低时，即e→0，则LcP（w）（3）因此，写入概率被最小化。反之，当e→1时，则Lc1−P（w）（4）并且控制器最大化写入概率。控制器正在学习的是关于重构误差的自适应阈值，其允许仅将对准确预测有用的内容存储在存储器中，从而限制冗余。如果模型表现出大的预测误差，则控制器将当前样本与其地面真实未来编码一起写入存储器中。当这种情况发生时，它表明记忆缺乏准确重建未来的样本因此，通过将样本写入内存，模型将提高其预测能力。为了满足有界误差函数的假设，其值在[0，1]中，用于等式10的控制器损失。2，我们引入了一个自适应未命中率误差函数，其阈值取决于时间步长：1ΣN存在于原点并旋转轨迹以使其与原点中的Y轴相切。这样，所有的期货都是从（0，0）开始向上的。首先，编码器和解码器的预训练作为自动编码器共同完成为此，我们输入属于相同样本的过去和未来轨迹对，只重建未来坐标。然后，我们训练内存控制器，利用学习的过去编码器和未来解码器，并在每个时期后重置内存。作为控制器，我们使用带有sigmoid激活的线性层经过训练的控制器允许通过迭代训练集并测量其重建误差来用有用的和非冗余的训练样本虽然原则上，样本被呈现到存储器中用于写入的顺序可能会导致不同的最终内容，但在我们的实验中，我们发现这不会影响最终的预测结果。作为最后一步，我们共同训练的细化模块和微调解码器。在这里，我们为解码器提供属于不同样本的过去和未来编码，因为未来是从内存中读取的。两个编码器和解码器被实现为门控递归单元，每个编码器具有48维隐藏状态，解码器具有96维隐藏状态。细化模块中的GRU使用过去的嵌入进行初始化，并将预测的坐标作为输入e=1 − N i=1（5）第一章：第这为模块提供了关于整个轨迹的完整信息。我们优化方程中定义的Lc2至其中，如果pred_i_f_x_F的第i个点位于距地面真值的阈值t_h内，则f_i （f_x_F，x_F）是等于1的指示函数，我们为每个时间步长使用不同的阈值，允许最远点（4秒）的给定不确定性，并线性下降到0。在我们的实验中，我们使用4s=2m。3.4. 迭代细化模块为了确保与环境的兼容性，我们用迭代过程来改进预测。与DE-SIRE[20]类似，我们采用特征池策略：首先，CNN从上下文c中提取特征图γ k;然后，预测与特征图重叠，并且对于每个时间步坐标，我们提取相应的特征值（每个通道一个）;最后，将得到的矢量馈送到GRU和全连接的GRU，其输出轨迹偏移。CNN 是：8×（k3，s2，p1）; 16×（k3，s1，p1），其中k是内核大小，s步幅，p填充。这两个层都有批处理-Norm和ReLU。GRU的隐藏状态大小为48。我们做了4次迭代，我们观察到增加它们并没有引入实质性的变化。3.5. 培训我们训练我们的模型来观察2秒的轨迹，并预测未来4秒的轨迹。为了实现平移和旋转不变性，每个轨迹通过移位来归一化训练控制器和均方误差损失用于解码器和细化。所有组件都使用Adam优化器进行训练，学习率为0.0001。4. 实验4.1. 数据集KITTI [11]数据集包括许多注释，如Velodyne LiDAR3D扫描，对象边界框和轨迹，校准，深度和IMU。并非所有的数据都存在于每个视频中，所以我们使用了被归类为KITTI原始数据的数据，在分割后[20]。虽然分割是已知的，但如何在数据块中划分轨迹为了获得样本，我们从数据集中的所有轨迹（包括自我车辆）中收集6秒的块（2秒为过去，4秒为未来）。我们获得了8613个用于训练的顶视图轨迹和2907个用于测试的顶视图轨迹。请注意，这些数字与原始的BIGRERE分裂不同，因为它们声称总共收集了2509个轨迹。为了有利于可重复性和未来的比较，我们将公开发布我们的数据集版本。由于KITTI不提供俯视图，因此我们使用Velodyne 3D点云和IMU将使用DeepLab-v3+ [5]从所有帧获得的静态类别的语义标签投影到公共俯视图中。生成的地图的空间分辨率为0.5米，并将随着轨道释放。7148方法1sAde2s 3s4s1sFDE2s 3s4s卡尔曼0.511.141.993.030.972.544.717.41线性0.200.490.961.640.401.182.564.73MLP0.200.490.931.530.401.172.394.12MANTRA（top 1）0.240.571.081.780.441.342.794.83MANTRA（前5名）0.170.360.610.940.300.751.432.48MANTRA（前10名）0.160.300.480.730.260.591.071.88MANTRA（前20名）0.160.270.400.590.250.490.831.49加拿大（Top 1）[20]----0.511.442.764.45DESIRE (top 5) [20])----0.280.671.222.06[20]第20话-------2.04表1.KITTI数据集上的结果通过DE获得的结果由于数据收集过程的原因，即使不具有可比性，也将SIRE作为参考。[33]最近提出了另一个用于轨迹预测的KITTI的较小版本，并已公开。作者提出了5种不同的训练/测试分割和所有运行的平均结果，因此我们遵循此评估协议。我们报告的两个变种KITTI的实验。在下文中，除非另有说明，我们将KITTI称为我们在收购后获得的分割。Oxford RobotCar [25] Cityscapes [9]两个数据集RobotCar和Cityscapes已在[33]中适用于轨迹预测，以显示不同域上的零射击转移能力。特别令人感兴趣的是转移到RobotCar的能力，因为序列是在英国获取的，其中汽车在道路的左侧行驶。RobotCar有6秒的轨迹，分为2秒的过去和4秒的未来。相反，Cityscapes有更短的视频，并且预测在未来只有一秒，就像[33]中所做的那样。4.2. 评价指标和基线我们报告了车辆轨迹预测的两个常用指标的结果：平均位移误差（ADE）和最终位移误差（FDE），其中ADE是所有未来时间步之间的平均L2误差，FDE（有时称为地平线误差）是给定时间步的误差如[20，33]所示，我们从K个预测中选取最佳预测，以考虑任务的内在多模态性。我们将我们的方法与几个基线进行比较：线性坐标回归器（Linear）;具有两层的多层感知器，其被训练为坐标回归器（MPL）;卡尔曼滤波器[17]，具有用于传播估计而不结合测量的恒定速度模型（卡尔曼）。我们在KITTI数据集上实现并测试了基线，以显示可比较的结果。当可用时，我们还报告了文献中的现有基线。4.3. 结果表1显示了KITTI数据集的结果。简单地用卡尔曼滤波器传播轨迹被证明不足以准确地预测未来位置，特别是在长时间跨度上，FDE@4s高于7m。表2.KITTI数据集上的结果（INFER分割）。基于学习的基线都比卡尔曼滤波器表现得更好，多层感知器的表现略好于线性回归。生成单个预测的模型无法解决任务的多模态，因为它们被训练为即使在可能有多个同样可能的期望结果时也能用单个输出来降低误差可能发生的情况是，在分叉之前，模型预测两个可能轨迹的平均值，试图满足两个sce- narios。这种行为的例子如图所示4.第一章MANTRA的每个预测都遵循一条特定的路径，忽略其他路径。这导致在仅生成一个未来时在某些示例上的高误差，因为模型可能决定遵循不同的可能路径。另一方面，一旦我们生成K个多重预测，前K个错误就会急剧减少，因为我们能够覆盖不同的未来路径。我们还报告了来自WANGRE [20]改变K的结果。尽管这些结果不能直接比较，如第4.1节所述，但有趣的是，当K增加时，观察到Δ RE如何快速饱和，而我们的方法则显著降低了误差这表明MANTRA在粗水平（即，走一条路或另一条路）和在一个很好的水平（即，在同一条路上的不同行为）。KITTI的一些定性结果如图4所示，并与基线进行了比较。此外，我们在 [33] 中提出的 KITTI 分裂上评估MANTRA，如表2所示。在这里，我们还报告了一些来自最新技术水平的可用基线，包括单模态和多模态预测。在K=1的情况下，我们的方法在低时间步长下表现得更好或与INFER [33]相当，但在4s时失去了一些精度相反，增加K，我们能够在所有时间步长上大大优于INFER。在[33]之后，我们展示了我们的模型将零拍摄转移到其他数据集的能力。Oxford RobotCar（牛津机器人车）3)MANTRA仍然能够提供令人满意的结果，在多模态预测的时间步长上始终优于INFER。类似地，在城市景观（选项卡。（4）与其它方法相比，该模型具有较低的误差在这里，我们只报告未来1s的错误，这是数据集中轨迹的最大长度。方法1sAde2s 3s4s1sFDE2s 3s4s卡尔曼0.330.540.931.40.461.182.183.32线性0.310.560.891.280.471.131.942.87MLP0.300.540.881.280.461.121.942.88[36]第三十六话0.681.943.204.46----马可夫[33]0.701.412.122.99----Conv-LSTM（top 5）[33]0.761.231.601.96----[33]第33届中国国际音乐节0.750.951.131.421.011.261.762.67美国（公告牌百强单曲榜）[33]0.560.750.931.220.811.081.552.46MANTRA（top 1）0.370.671.071.550.601.332.323.50MANTRA（前5名）0.330.480.660.900.450.781.222.037149(a) 线性（b）卡尔曼（c）MANTRA图4.MANTRA与线性回归（a）和卡尔曼滤波器（b）的比较方法（a）、（b）缺乏多模式能力。过去的轨迹用蓝色表示，地面实况用绿色表示，未来的预测是青色（a），紫色（b）和红色（c）。在（c）中，高等级是较暗的。50045040035030025020015000.10.20.30.40.50.60.70.80.91%观察样品2.42.22.01.81.61.400.10.20.30.40.50.60.70.80.91%观察样品表3.Oxford RobotCar数据集。方法AdeFDEConv-LSTM（top 1）[33]1.50-Conv-LSTM（top 3）[33]1.36-Conv-LSTM（top 5）[33]1.28-[33]第33届中国国际音乐节1.111.59美国（公告牌成人另类歌曲榜）[33]0.991.45美国（公告牌百强单曲榜）[33]0.911.38MANTRA（top 1）0.811.42MANTRA（前3名）0.661.15MANTRA（前5名）0.601.00MANTRA（前10名）0.540.86MANTRA（前20名）0.490.79表4. Cityscapes数据集在未来1s时的结果。4.4. 增量设置图5.在线设置。内存增长（左）和错误率（右）的平均值和方差在100次运行中取平均值，增加了观察到的样本。5. 模型分析在下文中，我们进行消融研究，旨在突出我们模型中组件的重要性。我们通过检查写入的内容和解码的方式来彻底研究模型是如何组织语义的消融研究我们研究了MANTRA的修改，报告结果见表1。5在KITTI。我们测试以下内容：（i）未经提炼;（ii）没有解码器，即，使用编码从存储器读取，但仅复制对应的未来坐标;（三）不轮换与先前的轨迹预测工作相类似，MANTRA能够在线提高其能力，即。在驾驶时观察其他智能体的行为。我们在KITTI上模拟了一个在线场景，迭代地从测试集中删除一小部分50个轨迹，将它们呈现给内存控制器。该控制器根据P（w）引入了新的模式。在每次迭代中，我们测试预测剩余的测试集。图5记忆增长并给出了K=5的MANTRA的检验误差。类似的行为可以观察到不同的K。有趣的是，内存大小缓慢增长，而错误不断减少。请注意，内存只存储了16%的新看到的示例。为了应对当剩余样本集的大小减小时误差方差的增加，我们对100次运行的结果进行平均。不变性，即使用随机轨迹轮换;(iv)没有存储器控制器，即将所有训练样本添加到存储器中;（v）没有编码器-解码器，即，过去轨迹坐标之间的最近邻，复制坐标空间中最近样本的未来。一方面，当存储器充满所有训练样本而不是用控制器选择它们时，误差急剧增加;另一方面，当样本没有用递归GRU层编码和解码时，获得更差的结果。即使只删除解码器也会大大降低预测的精度。这并不奇怪，因为解码器的重要作用是将建议的未来从记忆中调整到当前样本，使其与过去一致。令人惊讶的是，内存大小FDE@4s方法1sAde2s 3s4s1sFDE2s 3s4s[33]第33届中国国际音乐节1.061.351.481.681.311.711.702.56美国（公告牌百强单曲榜）[33]0.851.141.291.501.181.581.582.41MANTRA（top1）0.550.771.011.300.601.151.822.63MANTRA（前5名）0.550.680.821.030.580.881.372.077150方法1sAde2s 3s4s1sFDE2s 3s4s内存大小MANTRA（前5名）0.170.360.610.940.300.751.432.48190(2.2%的百分比）MANTRA（不含参考）0.180.390.671.040.330.851.592.65190(2.2%的百分比）MANTRA w/o dec.0.250.460.761.180.420.911.753.12190(2.2%的百分比）MANTRA w/o rot.inv.0.250.510.881.380.451.092.103.582170人（25.2%）MANTRA w/ocampaign.0.200.450.821.340.371.022.073.648613人（100%）MANTRA w/o enc-dec.0.240.581.081.750.471.362.744.688613人（100%）表5.完整方法对变体的消融研究-输出具体组件：解码器，细化，旋转不变性，训练控制器，编码器-解码器。误差为K=5。内存大小显示为样本数量和训练集的百分比。图7.存储在内存中的过去（左）和未来（右）编码的T-SNE表示。嵌入空间中的每个点与解码轨迹一起示出。轨迹按方向（绿色调）和速度（红色调）进行颜色编码。30 3020 2010 100 030 30 3020 20 2010 10 100 0 0图6.从记忆中解码出轨迹。10 1010 10 10细化模块在重建中不起非常重要的作用，这表明最初生成2005101520（一）2005101520(a)2005101520(b)2005101520(c)2005101520(d)轨迹已经很精确了旋转不变性证明是非常相关的调节内存大小和提高精度。通过将旋转不变性添加到训练中，我们将内存大小从观察到的训练集的25.2%降低到2.2%。内存检查为了了解模型正在学习什么，我们检查控制器在内存中存储了什么。我们获取每个样本并绘制其解码的未来，以描绘内存中每个样本的快照。图6示出了来自针对K=5个预测填充的存储器的所有样本。在图7中，我们绘制了存储器中过去和未来编码的T-SNE投影[24]，作为点。在左边，我们绘制过去的嵌入，而在右边，我们报告未来的嵌入。对于每个投影样本，我们显示了解码器生成的未来轨迹，从T-SNE点开始显示。由于我们引入了用于存储样本的旋转不变性，图像中的所有轨迹都有向上的趋势。相似的轨迹聚集在一起，表明编码器正在学习相似模式接近的流形。观察过去的编码的T-SNE，问题的多模态性质出现。事实上，空间似乎主要由轨迹速度组织，并且对于每个点，存在几个可能的未来方向。当轨迹具有较低的速度时，期货可以自由地跨越许多可能的方向，而当轨迹具有较高的速度时，期货在长度上而不是曲率上变化更大。解码器分析我们检查解码器的行为以及不同的过去对未来重建的影响。编码器和解码器是联合训练的，但与标准自动编码器不同，只有部分输入图8.在解码器中的过去的影响。（ a）观察过去;（b）第（1）款慢过;（c）较快速地通过;（d）过去嵌入归零;（e）多重随机过去嵌入。蓝色：用于解码的过去轨迹。红色：未来的重建。绿色：原创的未来。重建，即。未来过去的重要作用是调节重建，使我们能够对看不见的例子进行概括。在图8中，我们展示了同一个未来的几个重建，只改变了过去的编码，并保持了未来的编码。对原始过去的重建通过缩短或拉长过去来改变过去，即：改变速度，重建会加速或减速，从而影响曲率。作为对照实验，我们还使用零向量或随机嵌入。在这两种情况下，生成的轨迹是非常不精确的，但仍然大致遵循原始趋势。这些测试证明使用解码器馈送属于不同样本的编码组合是合理的，就像我们在测试时所做的那样事实上，生成的轨迹与实验室中的样本相比是新的，并且它们适应当前的观察。6. 结论我们提出了MANTRA，第一个记忆增强神经轨迹预测框架。我们的方法，基于联想记忆，可以原生地把握未来轨迹预测问题的内在多模态性质，在三个交通数据集上产生最先进的结果此外，我们表明，内存是能够摄取新的样本，降低错误看不见的数据。致谢感谢NVIDIA捐赠TitanXP GPU。这项工作部分由IMRA Europe S.A.S.创立。7151引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[2] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal ， Lawrence D Jackel ， Mathew Monfort ， UrsMuller，Jiakai Zhang，et al.自动驾驶汽车的端到端学习。arXiv预印本arXiv：1604.07316，2016。[3] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。在IEEE计算机视觉和模式识别会议论文集，第4080-4088页[4] 柴玉宁、本杰明·萨普、马扬克·班萨尔和德拉戈米尔·安格洛夫。多路径：用于行为预测的多个概率锚轨迹假设。arXiv预印本arXiv：1910.05449，2019。[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[6] KyunghyunCho，BartVanMerrieünboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv：1406.1078，2014。[7] Chiho Choi，Abhishek Patil和Srikanth Malla。Drogon：未来轨迹预测的因果推理框架。arXiv预印本arXiv：1908.00024，2019。[8] 费利佩·科德·维拉，马蒂亚斯·米耶，安东尼奥·洛佩斯，弗拉德连·科尔通和阿列克谢·多索维茨基。通过条件模仿学习实现端到端驾驶。2018年IEEE机器人与自动化国际会议（ICRA），第1IEEE，2018年。[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[10] Nachiket Deo和Mohan M Trivedi。基于机动的lstms环境车辆多模态轨迹预测 2018年 IEEE 智能车辆研讨会（IV），第1179-1184页。IEEE，2018年。[11] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。2012年IEEE计算机视觉和模式识别会议，第3354-3361页。IEEE，2012。[12] Alex Graves Greg Wayne和Ivo Danihelka神经图灵机。arXiv预印本arXiv：1410.5401，2014。[13] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年[14] Dirk Helbing和Peter Molnar行人动力学的社会力模型。Physical review E，51（5）：4282，1995.[15] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[16] 卡鲁卡斯·凯泽，奥菲尔·纳彻姆，奥科·罗伊和萨米·本·吉奥.学会记住罕见的事件。arXiv预印本arXiv：1703.03129，2017。[17] 鲁道夫·埃米尔·

下载后可阅读完整内容，剩余1页未读，立即下载