没有合适的资源?快使用搜索试试~ 我知道了~
Chenxin Xu1*, Weibo Mao1*, Wenjun Zhang1, Siheng Chen1,2†,1Shanghai Jiao Tong University, 2Shanghai AI LaboratoryoreI used the 64880记忆意图:基于回顾性记忆的轨迹预测0{xcxwakaka,kirino.mao,zhangwenjun,sihengc}@sjtu.edu.cn0摘要0为了实现轨迹预测,大多数先前的方法采用基于参数的方法,将所有已见的过去-未来实例对编码为模型参数。然而,这种方式下,模型参数来自于所有已见的实例,这意味着大量无关的已见实例可能也会涉及到预测当前情境,影响性能。为了提供当前情境与已见实例之间更明确的联系,我们模仿了神经心理学中回顾性记忆的机制,提出了MemoNet,一种基于实例的方法,通过在训练数据中寻找相似情景来预测代理的运动意图。在MemoNet中,我们设计了一对记忆库,用于明确存储训练集中的代表性实例,起到神经系统中前额叶皮层的作用,并设计了一个可训练的记忆寻址器,以自适应地搜索与记忆库中相似实例的当前情境,起到基底神经节的作用。在预测过程中,MemoNet通过使用记忆寻址器在记忆库中索引相关实例来回忆先前的记忆。我们进一步提出了一个两步轨迹预测系统,其中第一步是利用MemoNet预测目的地,第二步是根据预测的目的地完成整个轨迹。实验证明,所提出的MemoNet在SDD/ETH-UCY/NBA数据集上相对于先前最佳方法提高了20.3%/10.2%/28.3%的FDE。实验证明,我们的MemoNet在预测过程中具有追溯到特定实例的能力,提高了可解释性。01. 引言0轨迹预测旨在根据过去的轨迹预测一个或多个相互作用的代理的未来移动。一方面,这个任务在自动驾驶[24]、无人机[6]、监控系统[42]和交互机器人[18]等领域有广泛的实际应用;另一方面,这是一个关于连接过去和未来的基础科学问题。0* 共同贡献. † 通讯作者. 代码可在以下链接找到:https://github.com/MediaBrain- SJTU/MemoNet0寻址器0过去轨迹未来意图0过去情境未来决策0前额叶皮层0基底神经节0MemoNet0神经系统0MemoNet0过程0回顾性0记忆过程0记忆库0图1.MemoNet模拟回顾性记忆过程。我们使用记忆库来明确存储代表性实例,起到前额叶皮层的作用;使用记忆寻址器来搜索与当前情境相似的记忆实例,起到基底神经节的作用。0从过去到未来的整体策略是从大量已见的过去-未来对中总结有用的经验,然后利用这些经验来预测当前情境的可能未来意图。为了获得有用的经验,先前的工作采用了基于参数的方法,使用训练数据来优化模型参数。这样,在优化过程中,所有经验都被隐式地总结和存储在模型中。例如,[16, 35,46]使用编码器-解码器架构,[13,15]考虑生成器-判别器架构来回归未来轨迹预测。[17, 23,32, 38,47]使用条件变分自编码器从潜在分布中采样多个未来轨迹嵌入。[10,26]依赖于双变量高斯混合模型来输出位置分布。然而,基于参数的方法有两个不足之处。首先,它缺乏可解释性,因为所有模型参数在物理世界中没有明确的语义含义。这在安全敏感的应用中尤为重要,如自动驾驶。其次,由于模型参数是从所有已见实例中训练得到的,大量无关的已见过去-未来对可能也会涉及到预测当前情境,影响性能。为了提高可解释性并提供当前情境与已见实例之间更明确的联系,我们提出了MemoNet,其工作机制是64890受到神经心理学中人类回顾性记忆的启发[3,9],人类通过回忆之前学习到的信息来学习未来的意图行为。所提出的MemoNet通过搜索在训练过程中存储的相似实例来实现意图预测。在MemoNet中,我们使用一对过去和意图记忆库来存储过去-未来实例对的特征,并使用一个记忆寻址器在记忆库中搜索与新的预测案例相关的实例。记忆库模拟了神经系统中的前额皮质,记录了执行任务时人类的反应。记忆寻址器模拟了神经系统中的基底节,激活前额皮质中的相关记忆记录。图1显示了回顾性记忆过程与我们的MemoNet过程之间的类比关系。0所提出的MemoNet包括四个关键设计。首先,我们提出了一个基于联合重构的特征学习架构来初始化过去和意图记忆库。该架构包含两个编码器,并遵循联合重构结构来获取兼容的过去轨迹和未来意图特征。其次,我们提出了一个记忆过滤算法来擦除记忆库中的冗余实例。该过滤算法是无需训练的,并且对训练样本的排列不变,提供了记忆库的高效性和鲁棒性。第三,我们提出了一个可训练的记忆寻址器来搜索相似的记忆实例。该寻址器包含一个可学习的注意力网络来计算相似度分数。为了训练这样一个寻址器,我们提出了伪标签生成来引导寻址器正确搜索最相似的记忆实例。第四,我们提出了一个意图聚类算法来产生多样的意图预测。通过聚类算法,捕获低频次出现的意图以促进预测的多样性,并合并高频次出现的意图以提高预测的鲁棒性。0我们构建了一个两步轨迹预测系统,其中第一步是利用MemoNet预测意图,第二步是根据预测的意图完成整个轨迹。需要注意的是,MemoNet只预测目的地来表示意图,因为目的地在轨迹中承载了大部分的模态信息。这种两步预测将一个复杂的问题分解为两个相对简单的问题,提高了预测的准确性。为了评估我们方法的有效性,我们在三个数据集上进行了实验:StanfordDrones(SDD)、ETH-UCY和NBA。定量结果显示,我们在FDE上的表现超过了先前的最先进方法20.3%/10.2%/28.3%,表示我们通过MemoNet实现了准确的意图预测。定性结果也反映出我们的MemoNet在预测过程中具有追溯到特定记忆样本的能力,提高了可解释性。0本文的主要贡献包括:•我们提出了MemoNet,一种新颖的基于实例的框架来实现未来意图预测。MemoNet的工作机制基于当前情况与已见实例之间的更明确的联系,模仿了神经心理学中研究的回顾性记忆。•我们在MemoNet中提出了四个新颖的设计,包括1)基于重构的特征学习架构,用于初始化记忆库,2)记忆过滤,用于减少记忆库中的冗余,3)记忆寻址器,用于在记忆库中搜索与输入的预测案例相似的记忆实例,以及4)意图聚类,用于促进预测的多样性。•我们在几个真实世界的数据集上进行实验来评估我们的方法。我们的方法通过在SDD/ETH-UCY/NBA数据集上减少FDE20.3%/10.2%/28.3%的表现,达到了最先进的水平。我们的方法还具备在预测过程中追溯到特定记忆实例的能力,提高了可解释性。02. 相关工作0轨迹预测。早期的轨迹预测工作采用确定性方法,使用社交力模型[14, 34]、马尔可夫过程[21, 44]和RNNs[1, 36,43]等模型。最近,研究人员开始提出框架来预测多模型轨迹,主要可以分为两类:回归和生成。回归框架主要利用编码-解码结构[7, 16, 27, 35,46],或基于强化学习的结构[25],或生成器-判别器结构[13, 15],并添加噪声[13, 15, 16, 35,46],使用随机初始化[28],或使用多头输出[29,41]来回归多个未来轨迹。生成框架使用深度生成模型来估计未来轨迹或其嵌入的分布[19]。[10,26]利用高斯混合分布来建模未来轨迹分布,并估计其均值和协方差。主要使用的框架是条件变分自编码器[17, 23, 32,38,47],通过估计中间分布的参数并从该分布中采样未来轨迹特征来实现预测。回归和生成框架都是基于参数的,利用训练数据来优化模型参数。在这样的框架中,学习的经验是作为整体存储在模型参数中的隐藏表示,缺乏处理个体经验实例的能力。在本工作中,我们提出了一种基于回顾性记忆的新实例化框架,该框架记忆了各种过去的轨迹和相应的意图。在预测时,该框架回忆起类似的先前记忆实例来指导未来预测。与以前的方法相比,我们的方法提供了更明确的联系64900当前预测与已观测数据之间的差异,促进了更高的可解释性和性能。记忆网络。第一个提出的记忆网络是称为神经图灵机(NTM)的模型[11],它类似于冯∙诺伊曼体系结构,由神经网络控制器和存储器组成。NTM架构在元学习中得到了扩展[39],它实现了最近最少使用的存储器访问策略,以使用少量样本进行预测。[12]提出了一种可微分的神经计算机,可以从外部存储器矩阵中读取和写入。记忆网络还在问答任务中证明了其有效性[45],其中模型将问答对存储到长期记忆中作为知识库,并输出文本响应。[40]提出了一种端到端的记忆网络,用于问答任务,其中循环读取大型外部存储器。[22,30]进一步将记忆网络应用于视觉问答任务[2]。[31]应用生成式记忆进行连续轨迹预测。与我们的工作密切相关的是[33],它利用记忆机制实现单智能体轨迹预测。然而,两者的区别包括四个方面:i)以前的工作只考虑单智能体轨迹预测;而提出的MemoNet能够处理具有社交影响的多智能体轨迹预测;ii)以前的工作中的存储器存储整个轨迹;而MemoNet关注意图,更有效地记忆可能的运动模式;iii)以前的工作使用固定的余弦相似度来搜索相关的记忆;而MemoNet使用可训练的寻址器来学习相似度度量,从而实现更好的记忆搜索;iv)以前的工作很难同时确保多样性和保持精度,而MemoNet采用意图聚类来促进具有鲁棒性的多模态预测。总体而言,提出的MemoNet在SDD/ETH-UCY数据集上的FDE上优于[33] 28.7%/46.2%。03. 问题描述0轨迹预测是根据代理的过去轨迹和邻近代理的过去轨迹来预测代理的未来轨迹。数学上,对于一个待预测的代理,令 x t ∈ R 2 为其时间戳 t 处的空间坐标,X = [x - T p +1, x - Tp +2, ..., x 0] ∈ R T p × 2 为其过去轨迹,其中 T p 是时间戳的数量。令 N为邻近代理集合,X N = [X N 1, X N 2, ..., X N N] ∈ R N × T p × 2为邻近代理的过去轨迹,其中 X N ℓ ∈ R T p × 2 是第 ℓ个邻近代理的轨迹。待预测代理的未来轨迹为 Y = [y 1, y 2, ..., y T f] ∈ R T f × 2。0其中 y t ∈ R 2 是时间戳 t处的空间坐标。总体目标是训练一个预测模型 g ( ∙),使得预测的未来轨迹 Y = g (X, X N) 尽可能接近真实轨迹Y。为了实现这个目标,我们考虑了一个两步策略,其中0我们首先预测代理的意图,然后根据预测的意图完成完整的轨迹。背后的直觉是将一个复杂的问题分解为两个相对简单的问题,从而提高预测的准确性。在这里,我们将代理的意图表示为其目的地,因为目的地可以反映出大部分的移动模式。数学上,我们的目标是学习一个意图预测模型 g int ( ∙),它预测一个意图 y T f = g int (X, XN)。接下来,我们的目标是基于预测的意图 y T f训练轨迹完成模型 g full ( ∙)。在这个思路下,我们提出了MemoNet进行意图预测;参见第4节;然后我们基于MemoNet构建整体预测模型;参见第5节。04. MemoNet:意图预测0MemoNet利用先前经验中类似情景的回顾性记忆,获取可能的多模态未来运动意图。MemoNet的核心是将代表性实例存储在内存库中,然后使用内存寻址器在内存库中搜索与当前情况相关的已见实例。第4.1节提出了内存库,第4.2节提出了内存寻址器。为了实现多样化的意图预测,我们在第4.3节中提出了意图聚类。最后,我们在第4.4节中总结了MemoNet的推理过程。04.1. 内存库0内存库初始化。我们考虑一对相关的内存库:过去的内存库和意图的内存库。过去的内存库存储一组过去轨迹特征,意图的内存库存储一组相应的未来意图特征。它们将过去与未来联系起来。数学上,令 M past = { k i | i = 1, 2, ..., M }为过去的内存库,其中 k i 是第 i个内存地址上的实例,记录从第 i个训练样本中提取的带有社交影响的过去轨迹的特征。相应地,令 M int = { v i | i = 1, 2, ..., M }为意图的内存库,其中 v i 是第 i个地址上的实例,记录从第 i个训练样本中提取的未来意图(目的地)的特征。过去和意图的内存库共享相同的大小 M。为了获得内存库对 k i , v i中的特征,我们提出了一种基于联合重建的特征学习架构;参见图 3(a)。社交编码器提取带有过去轨迹社交影响的过去特征。意图编码器从未来意图(目的地)中提取意图特征。解码器接收连接的过去和意图特征,并联合重建过去轨迹和未来意图。数学上,令 E social ( ∙ ) 和 E int ( ∙ )为社交编码器和意图编码器,D ( ∙ )为解码器,给定一个代理的轨迹 X,其邻近代理的轨迹 XN,以及其未来......k =social(X, X), v =int(yTf ), X, yTf =([k; v]),rec = XX 22 + α yTfyTf22 ,̸̸64910c 意图聚类 解码器 社交0编码器0Top-K0注意力0地址相似度得分0意图内存库0过去轨迹0粗略意图锚点 预测的意图0x0x0xx0寻址器0过去内存库0过去特征0图2.MemoNet的推理阶段。红色代理是待预测的代理,蓝色/橙色代理是邻居。根据社交编码器获得的过去特征,我们通过注意力网络在过去内存库中寻址相关的内存实例,产生相似度得分。意图内存库根据具有最高相似度得分的内存地址输出未来意图特征,用于解码粗略意图锚点。最后,我们利用聚类算法获得多样且稳健的意图预测。0对于意图 y T f ,联合重构过程如下:0其中 [ ∙ ; ∙ ] 表示连接操作,� X , � y T f表示重构的过去轨迹和未来意图。为了优化特征学习架构,我们使用联合重构损失函数:0其中 α是一个权重超参数。通过提出的特征学习架构,我们获得过去和意图的各自特征。由于联合重构过程,它们的特征是兼容的。一旦我们完成特征学习架构,我们固定过去和意图编码器,并在训练数据中枚举所有过去-意图样本,以初始化过去内存库 M (0) past 和意图内存库0M (0) int 。具体而言,对于第 i个过去/意图样本,我们使用社交编码器/意图编码器获取存储在过去/意图内存库的第 i 个地址的过去特征 k i/意图特征 v i;参见图3(b)。内存库过滤。当我们将所有过去和意图特征写入内存库对时,许多实例可能是冗余的,这浪费了存储空间。因此,我们提出了一种过滤算法来删除冗余的内存实例并保留代表性的内存实例。对于初始内存库对 M (0) past和 M (0) int 中第 i 个地址的特征 k i , v i,我们使用其对应的起始位置和意图 x − T p +1 i , y T f i来过滤相似的内存实例。对于第 i 个和第 j个地址,如果它们的内存实例具有相近的过去起始位置和未来意图,则这对地址是冗余的,应该删除一个。数学上,对于第 i 个地址中的内存实例,其起始位置为 x − T p +1 i,意图为 y T f i ,以及第 j个地址中的内存实例,其起始位置为 x − T p +1 j 和0当意图 y T f j与它们的相似度超过阈值时,它们是冗余的:0∥ x − T p +1 i − x − T p +1 j ∥ 2 ≤ θ past ,∥ y T f i− y T f j ∥ 2 ≤ θ int ,(1)0算法1 内存库过滤0输入:初始内存库 M (0) past ,M (0) int0输出: 过滤后的内存库 M past , M int 1: 初始化M past 为 � ,M int 为 � 2: 当 M (0) past � = � 且M (0) int � = � 时执行03: 在 M past ,M int 中随机选择地址 i04: 对于当前的 M past 中的所有地址 j ,M past05: 如果对于所有地址 j ,不满足等式(1) 则06: 将 k i , v i 添加到 M past , M int 中07: 从 M (0) past ,M (0) int 中删除 k i ,v i08:结束如果09:结束循环10:返回Mpast,Mint0其中θpast和θint是用于调节的两个阈值。我们使用这个规则来过滤过去和意图记忆银行;参见算法1。简要地说,θpast/θint将控制最终过去/意图记忆银行的内存大小。与使用控制器减少冗余的先前方法相比,我们的过滤具有两个优点。首先,我们的记忆银行对训练样本的排列是不变的;而在先前的方法中,训练样本的各种排序会导致不稳定的记忆银行。其次,我们的记忆过滤器是无需训练的,更加高效;而先前的方法需要对控制器进行多个时期的训练。与先前的方法的关系。提出的记忆银行与字典学习类似,因为两者都旨在从输入数据中推断出一些代表来近似输入数据,但差异包括:i)字典通常需要一个固定和预定义的大小;而记忆银行的大小是灵活的,能够适应输入数据的复杂性;ii)为了进行预测,字典通常通过加权平均来组合几个原子;而记忆银行直接搜索一个允许推断数据和训练数据之间存在明确链接的单个记忆实例。04.2.记忆寻址器0记忆寻址器的功能是在记忆中搜索相似的过去记忆实例的地址......................si = FATT(q, ki) =Fq(q)FTk (ki)q(q) 2k(ki) 2, i = 1, 2, · · · , M,ground-truth intention of the input and the predicted inten-tions. Mathematically, let yTf be the ground-truth intentionof the input trajectory and �yTfi= D([ki; vi]) be the pre-dicted intention of the ith memory instance produced by theaforementioned intention decoder D(·). The pseudo label theith memory instance is defined as max(0, dT−did)[0, 1],LAddr =(si − max(0, dT − didT))2;64920c0解码0轨迹0重0意图0意图编码器0初始意图行0社交0编码器0过去轨0记忆0意器0社器0(a)通过联合重构的特征学习架构。0过去轨迹0未来意图0c0解码器0重0轨迹0重0意图0意图编码器0意图0初始意图记忆银行0社交编码器0过去轨迹0记忆银行0意图编码器0社交0编码器0(b)通过枚举过去意图样本进行初始化过程。0图3.记忆银行初始化。我们通过联合重构过程训练一个特征学习架构,并通过枚举所有过去意图样本使用两个编码器初始化记忆银行。0解码器0c0解码的意0相对距离0意图记忆银行0真0意图0标签0过去特征0注意力0相0得分0损失0过去的记忆银行0图4.寻址器学习过程。为了训练注意力网络,我们根据解码的意图与真实意图之间的相对距离生成伪标签。0为输入过去轨迹特征设计一个银行。关键是找到一个合适的相似度度量。以前的记忆寻址机制利用两个特征之间的余弦距离作为相似度度量[11,33]。然而,包括余弦距离在内的任何预定义函数可能无法完全反映两个特征向量之间的相似度。为了解决这个问题,我们提出了一个可训练的寻址器,其中包含一个浅层注意力网络来学习相似度度量。在数学上,给定输入的过去特征q和过去的记忆银行Mpast={ki | i=1, 2, ...,|M|},我们计算所有记忆实例之间的相似度得分,其公式如下:0其中,F q ( ∙ ) 和 F k ( ∙ )是两个单独的MLP,将特征转换为更适合距离测量的空间,si是输入特征与第i个记忆实例之间的相似度分数。然后选择最大的相似度分数并返回它们的内存地址。0为了训练这样一个地址器,我们需要确定“地面真实”相似度分数。直观上,特征空间中的相似度分数应该反映物理空间中的预测误差。因此,我们考虑一个与两个意图之间的相对距离相关的伪标签。0其中,d i = ∥ y T f − � y T f i ∥ 2 是两个意图之间的相对距离,d T是一个距离阈值。基于这个伪标签,我们使用以下损失函数训练地址器:0参见图4中内存地址器的训练过程。04.3. 意图多样性0图5(a)展示了一个情景,前几个搜索到的内存实例可能属于同一模态,无法提供足够的多样性。原因是内存库可能会回忆起许多已见的实例,比如代理将以各种方式直行,但会错过其他移动模态,如急转弯或右转。请注意,尽管简单地使用具有大 θ past / θ int的内存库过滤可以促进多样性,但会删除太多的内存实例,使搜索相关的内存实例更加困难,从而降低性能。为了实现保持精度的多样化预测,我们提出了一种意图聚类方法。假设我们需要预测 K 条可能的轨迹。首先,我们根据 L个最大相似度分数找到 L ( L � K )个基于这些相似度分数的内存实例,并将它们解码为 L个意图锚点,称为粗糙意图锚点。然后,我们使用K-means聚类方法从这 L 个粗糙意图锚点中产生 K个可能的意图。一方面,由于 L �K,粗糙意图锚点更有可能捕捉到更多代理的移动模式,聚类操作能够保留这些模式以产生更多样化的预测。另一方面,意图聚类保留了内存库的丰富性,并考虑多个内存实例来聚类预测的意图,从而实现更精确和自信的意图预测,参见图5(b)的示例。64930(a) 无意图聚类0(b) 带有意图聚类0图5.意图预测示例。通过意图聚类,MemoNet产生了更多样化的预测。4.4. 推理阶段0在推理过程中,MemoNet包括四个步骤来获取可能的未来意图:过去轨迹编码、内存寻址、意图解码和意图聚类;参见图2。首先,我们将过去轨迹及其相邻的过去轨迹输入到社交编码器 E social ( ∙ )中,以获取过去轨迹特征。其次,我们通过提出的内存地址器在过去内存库中搜索 L个最相关的内存实例,并返回它们的地址。根据内存地址,意图内存库输出 L 个对应的未来意图特征。第三,解码器 D( ∙ ) 将每个 L 个意图特征解码为 L个意图锚点。第四,我们使用提出的聚类算法将 L个意图锚点细化为 K 个最终意图。05. 轨迹预测系统05.1. 轨迹实现0在获得代理人的轨迹意图(目的地)之后,我们通过基于预测意图的编码-解码过程来完成整个轨迹;参见图6。数学上,给定代理人过去轨迹 X 及其邻居的过去轨迹 XN 的预测意图 � y T f,轨迹完成过程如下:0h x = E full (X, X N),h ′ x = [h x; F d ( � yT f)],� Y,� X full = D full (h ′ x),0其中 E full ( ∙ ) 和 D full ( ∙ )分别表示轨迹完成编码器和解码器,与 E social ( ∙ ) 和 D ( ∙) 具有相同的结构。我们将轨迹特征 h x 与由 MLP 函数 F d( ∙ ) 编码的意图特征进行连接,以进行整个轨迹 Y的解码。为了保留大部分过去信息,完成解码器还旨在重构过去轨迹 X full。为了训练完成编码器和解码器,我们使用 ℓ2 损失函数:0L traj = ∥ � X full − X ∥ 2 2 + β ∥ � Y0其中 β 是一个权重超参数。05.2. 整体训练流程0为了使用 MemoNet训练整个系统,我们设计了以下训练流程:1.使用联合重构损失函数 L rec 训练两个编码器 E social ( ∙ )和 E int ( ∙ ) 以及解码器 D ( ∙ ) 的特征学习架构。0MemoNet0过去轨迹0完成解码器0完成编码器0预测的轨迹0预测的意图0图 6. 使用 MemoNet进行轨迹预测系统的推理。红色表示待预测的代理人,蓝色/红色表示邻居。我们根据 MemoNet 的预测意图完成整个轨迹。02. 冻结两个编码器 E social ( ∙ ) 和 E int ( ∙ )。使用 E social( ∙ ) 和 E int ( ∙ ) 创建初始过去和意图记忆库的对 M (0) past和 M (0) int。应用记忆过滤以获得最终的过去和意图记忆库M past 和 M int。3. 冻结记忆库 M past、Mint、过去轨迹编码器 E social ( ∙ )、E int ( ∙ ) 和解码器 D ( ∙)。使用损失函数 L Addr 训练记忆寻址器。4. 冻结MemoNet 并使用损失函数 L traj 训练轨迹完成编码器 Efull ( ∙ ) 和解码器 D full ( ∙ )。06. 实验06.1. 数据集0斯坦福无人机数据集(SDD):SDD是一个从鸟瞰视角收集的大规模数据集。我们使用标准的训练-测试分割,并使用过去 3.2 秒(8 帧)预测未来 4.8秒(12 帧)。ETH-UCY:ETH-UCY 数据集包含 5个子集,包括 ETH、HOTEL、UNIV、ZARA1 和ZARA2,其中包含以 2.5Hz 捕获的各种场景。我们使用与SDD 相同的 8 秒段长度,采用留一法,使用 4个集合进行训练,剩余的一个集合进行测试。NBA:NBA轨迹数据集由 NBA 使用 SportVU跟踪系统收集,报告了真实篮球比赛中十名球员和球的轨迹。我们随机抽取了 5 万个样本进行训练和测试。06.2. 实现细节0对于MemoNet,过去记忆库和意图记忆库的特征维度分别为128 和 64。在 SDD 上,我们使用 θ past = 1,θ int = 1进行初始记忆库的过滤,粗糙意图锚点数量 L 为 120。在ETH-UCY 上,我们使用 θ past = 0.02,θ int = 0.02进行初始记忆库的过滤,粗糙意图锚点数量 L 为320。损失函数中的系数 α 和 β 设置为 1。我们使用 SGD优化器 [5] 训练整个框架。我们使用初始学习率为 10^-3训练特征学习框架,10^-4 训练记忆寻址器,10^-3训练轨迹完成器。所有这些模块都使用学习率 10^-6进行微调。更多细节请参见补充材料。ETH0.87/1.620.65/1.120.61/1.080.48/0.880.61/1.120.36/0.650.54/0.870.39/0.830.45/0.750.40/0.61HOTEL0.67/1.370.35/0.660.33/0.630.17/0.330.18/0.300.17/0.360.18/0.240.12/0.210.14/0.220.11/0.17UNIV0.76/1.520.52/1.100.52/1.110.37/0.810.35/0.650.31/0.620.35/0.600.20/0.440.25/0.450.24/0.43ZARA10.35/0.680.34/0.690.32/0.660.27/0.580.22/0.380.29/0.520.22/0.390.15/0.330.18/0.300.18/0.32ZARA20.42/0.840.29/0.600.43/0.850.30/0.670.17/0.320.22/0.460.17/0.300.11/0.250.14/0.240.14/0.24AVG0.61/1.210.43/0.830.41/0.820.32/0.650.31/0.550.26/0.530.29/0.480.19/0.410.23/0.390.21/0.3564940表1. 轨迹预测的 minADE 20 / minFDE 20(像素)。数值越小越好。粗体/下划线字体表示最佳/次佳结果。我们的方法相比于PECNet在FDE上提升了20.3%。0时间 Social -GAN [ 13 ] Social- STGCNN [ 35 ] Trajectron++ [ 38 ] SOPHIE [ 37 ] NMMP [ 15 ] EvolveGraph [ 26 ] CF-VAE [ 4 ]MANTRA [ 33 ] PECNet [ 32 ] 我们的方法04.8秒 27.23/41.44 20.60/33.10 19.30/32.70 16.27/29.38 14.67/26.72 13.90/22.90 12.60/22.30 8.96/17.76 9.96/15.88 8.56 / 12.660表2. 轨迹预测的 minADE 20 / minFDE 20(米)。数值越小越好。粗体/下划线字体表示最佳/次佳结果。我们的方法相比于Agentformer在FDE上提升了10.2%。0子集 Social- GAN [ 13 ] STGAT [ 16 ] NMMP [ 15 ] MANTRA [ 33 ] Transformer -TF [ 8 ] STAR [ 46 ] PECNet [ 32 ] Trajectron++ [38 ] Agentformer [ 47 ] 我们的方法0表3. 轨迹预测的 minADE 20 / minFDE 20(米)。数值越小越好。粗体/下划线字体表示最佳/次佳结果。我们的方法相比于NMMP在FDE上提升了28.3%。0时间 Social- LSTM [ 1 ] Social- GAN [ 13 ] Social- STGCNN [ 35 ] STGAT [ 16 ] NRI [ 20 ] STAR [ 46 ] PECNet [ 32 ] NMMP [ 15 ]我们的方法04.0秒 1.79/3.16 1.62/2.51 1.59/2.37 1.41/2.22 2.06/3.74 1.26/2.04 1.83/3.41 1.33/2.05 1.25 / 1.4706.3. 定量结果0使用的两个评估指标是最小平均位移误差 ( minADE K),即预测轨迹与真实轨迹之间的 K个时间平均距离中的最小值,以及最小最终位移误差 (minFDE K ),即预测轨迹的 K个终点与真实终点之间的最小距离。在SDD数据集上,我们将我们的方法与当前的9种最先进的预测方法进行比较;见表1。我们可以看到,i)我们的MemoNet在意图预测方面明显优于所有基线方法,通过FDE测量。我们的方法将FDE从15.88降低到12.66,相比于当前最先进的方法PECNet,提高了20.3%;ii)在更精确的意图预测下,我们的方法更准确地预测整个轨迹。我们的方法在ADE方面比PECNet提高了14.1%。在ETH-UCY数据集上,我们将我们的方法与9种预测方法进行比较;见表2。我们可以看到,i)MemoNet在意图预测方面优于竞争方法。具体而言,我们的方法将平均FDE从0.39降低到0.35,相比于之前最先进的方法AgentFormer,提高了10.2%;ii)我们的方法在ADE方面在所有五个子集中表现最好或接近最佳。在NBA数据集上,我们将我们的方法与8种预测方法进行比较;见表3。我们可以看到,MemoNet将FDE从2.05降低到1.47,相比于当前最先进的方法NMMP,提高了28.3%。06.4. 定性结果0多样的意图可视化。图7展示了MemoNet的多样意图预测,其中粉色点是粗略的意图锚点。我们可以看到,在MemoNet的帮助下0过去轨迹 粗糙意图锚点 我们的预测 真实值0图7.MemoNet在SDD上提供多样且准确的意图预测,从120个粗糙意图锚点中聚类出20个最终意图。0通过意图聚类,MemoNet可以提供多样且准确的意图预测。预测轨迹的可视化。图8比较了我们的Mem-oNet和先前的最先进方法PECNet和MANTRA生成的最佳20个预测轨迹。我们发现,我们的预测(红色)与真实值(绿色)更接近。特别是对于具有挑战性的转向情况(第三列),先前的方法无法捕捉到正确的方向;而我们的MemoNet仍然提供了精确的预测。显式链接的可视化。图9显示了通过寻址的内存实例追踪的预测案例及其过去-未来轨迹实例。我们发现,相似的场景提供了实例级别的经验,以获取多模态的未来意图,并反映出我们的模型在预测过程中可以追溯到特定的记忆样本。06.5. 切除研究0MemoNet中各组件的影响。我们探讨了Mem-oNet中四个关键组件的影响,包括内存库、内存过滤、内存寻址器和意图聚类。表4呈现了结果。我们发现:i)所提出的内存库可以显著提高性能。Address: 8957Address: 7338Address: 5075Address: 9015Address: 6670Address: 75114.16/27.76 0.78/1.44✓◦9.64/15.250.55/0.94✓✓◦9.59/15.080.55/0.93✓✓✓9.50/14.780.53/0.89✓✓✓✓8.56/12.660.40/0.612045008.68.89.09.29.412.513.13.14.14.5minADE20minFDE2064950过去轨迹 真实值 MANTRA PECNet 我们的方法0图8.我们在SDD上将我们的方法和两种先前方法的最佳20个预测轨迹进行了比较。我们的方法实现了更精确的轨迹预测。0当前预测0内存实例10内存实例20内存实例30过去轨迹 预测意图 已见意图0图9.通过内存寻址器追踪的相应过去-未来轨迹的预测案例。我们的模型促进了当前情况与已见实例之间的更明确的联系。0表4. MemoNet在SDD和ETH数据集上各组件的切除研究。◦ / �表示使用余弦距离/可学习寻址器。每个组件都是有益的。0内存库 内存过滤 内存寻址器 意图聚类 SDD ETH0显著提高了预测性能;ii)内存过滤、可学习的寻址器和意图聚类都有助于提高准确预测。粗糙意图锚点数量的影响。图10说明了粗糙意图锚点数量L的影响。我们发现,L过小或过大都会导致性能下降,原因是:i)当L较小时,模型往往会错过意图模态,导致多样性不足和预测性能较差;ii)当L过大时,预测涉及太多无关实例,也会导致预测性能较差。内存过滤中的阈值影响。表5报告了内存过滤中不同阈值θ past /θint 的预测误差。我们发现:i)适当的θ past /θ int可以显著提高性能并减少存储开销;ii)当θ past /θ int过小时,模型往往会保留冗余信息并降低意图多样性,浪费存储空间并影响性能;iii)当θ past /θ int过大时,会有大量有用信息丢失。0表5. 在SDD上对内存过滤中的阈值θ past /θ int 进行切除研究。θpast = θ int = 1 取得了最佳性能。0θ过去/θ意图minADE 20 /minFDE 20 内存大小存储00 8.65/12.84 17970(100.0%)13.8MB 0.5 8.59/12.7015442(85.9%)11.9MB 1 8.56/12.6614652(81.5%)11.2MB 5 9.22/14.2910698(59.5%)8.2MB 10 9.64/15.576635(36.9%)5.1MB 20 10.41/17.322692(15.0%)2.1MB 50 13.77/25.86 604(3.4%)465KB0粗糙意图锚点数L0ADE(像素)0FDE(像素)0图10.ADE/FDE作为粗糙意图锚点数L的函数在SDD上的性能。L=120提供了最佳性能。0过滤掉了不相关的信息,这使得更难找到相关的实例,从而降低了性能。实时推理速度。我们在SDD数据集上使用一台RTX-3090GPU对整个推理模型进行了10次运行。平均预测时间为每个样本18.03毫秒,实时预测FPS=55.5,比数据收集的常见采样率要快得多。07. 结论0本文提出了MemoNet,这是一种基于回顾性记忆机制设计的基于实例的方法,在训练过程中将观察到的实例存储到内存库对中,并在推理过程中用于相关运动模式匹配。所提出的MemoNet包括四个关键设计:基
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功