没有合适的资源?快使用搜索试试~ 我知道了~
940在线自适应时间记忆结合概率估计的人体轨迹预测Manh Huynh,Gita Alaghband计算机科学与工程科罗拉多大学丹佛{manh.huynh,gita.alghband}. ucdenver.edu摘要更新权重E 运动编码器D运动解码器行人轨迹预测是自主系统和机器人导航的重要组成部分。最近的研究表明,通过设计预测网络来模拟各种运动相关特征,具有很好的预测性能。与现有作品不同,我们的重点是(一)�������预测器�������E内存(ATM)D�������中文(简体)设计一个新的在线适应框架(OAT-(b)第(1)款预测器(c)第(1)款预测器Mem)以利用在测试期间遇到的轨迹样本之间的时间相似性来提高任何这样的模型的预测精度(即,预测器)而不知道这些预测器的细节。我们的框架由两个新模块组成:增强的时间观测目标记忆网络(ATM)和基于确定性的选择器(CS)。受键值记忆网络概念的启发[16],提出ATM通过以观察目标的形式对过去行人的轨迹样本进行编码来从短期过去帧中学习时间信息(即,key-value)测试期间。此外,我们提出了一个基于确定性的选择器(CS),以增强我们的框架下的预测能力,其中有很大的时间差异之间的当前行人的运动和存储在内存中。在动态场景中,这些场景通常是由于上下文的突然变化而发生的,例如相机运动、场景上下文和行人 我们在常用数据集中广泛评估我们的框架:JAAD [12]和PIE [19],并表明我们的框架显着提高了最先进模型的预测准确性。最后,进行了深入的研究,以显示每个拟议的组成部分的重要性。1. 介绍从以自我为中心的视图(即,从仪表盘摄像头捕获的前视图)是从机器人导航[5,37]到自主智能系统的广泛应用中的重要组成部分,(a,b)现有方法(c)我们建议的架构(OATMem)图1. 我们的框架(c)与现有的方法(a,b)在测试期间的轨迹预测的比较。(a)(b)使用最近的测试样本更新预测器权重的框架;(c)我们的架构有两个新的组成部分:ATM和CS用于在线适配。tems [18,6]. 尽管最近的研究工作,预测行人轨迹从自我为中心的视图仍然是一个具有挑战性的任务,因为动态场景的变化,其中行人已经提出了许多最近的模型[19,26,31,32,33]一个典型的范例是,预测器首先在大型运动数据集上进行训练,从那时起,模型的权重将在测试期间保持固定(图1a)。由于视频序列中运动的动态变化,这些预测器在训练阶段期间未看到或很少发生行人运动的情况下失效一种可能的解决方案是调整预测器(即,使用最近的样本更新网络权重)(图1b)。通过在线自适应,可以利用轨迹样本之间的相似时间动态来提高预测精度[27,10,15,13]。虽然时间特征被证明可以有效地缓解不可见场景中的轨迹预测问题首先,这些方法对于现实世界的应用是不切实际的,因为更新941在每个时间步的整个预测网络是非常耗时和存储器消耗的。其次,如果当前测试样本的运动与先前样本(用于更新模型)不同最后,它要求框架设计者了解每个预测器的细节,以便进行有效的调整。这限制了将这些框架扩展到新预测因子的灵活性。本文介绍了一种新的在线自适应框架来处理上述限制。建议的框架(OATMem)由两个主要模块组成:如图1所示,一个增强的时间记忆模块(ATM)和一个基于确定性的选择器(CS)。受键值记忆网络概念的启发[16,15],我们设计了记忆模块,以保持从短期历史帧中提取的行人轨迹,以观察目标的编码表示形式作为键值。这种结构允许我们选择最相关的目标轨迹(即,值),其键包含与当前轨迹样本的最相似的运动,以提高该样本的预测精度。为了进一步增强对时间动态的自适应能力,我们仅更新我们的运动解码器的权重(即,我们的框架的子部分来解码未来的轨迹)。这与以前的工作不同,在以前的工作中,整个网络模型的权重需要更新。 此外,我们观察到,仅依赖信息(来自记忆)在场景中可能无效新遇到的上下文变化(例如,突然的摄像机运动、场景改变、新的行人或具有突然改变的意图的行人)。这是因为突然的变化导致当前行人为了缓解这个问题,我们提出了一个基于确定性的选择器(CS)来估计我们的框架的预测不同的情况下的确定性。基于确定性分数,学习选择器可以选择最终轨迹预测,即,无论是从我们的框架(当确定性高时)还是从原始预测模型(当确定性低时)。总之,我们工作的主要贡献是:• 我们提出了一种新的在线自适应框架,该框架由时间记忆网络组成,以提高训练预测器在测试过程中的预测精度。我们的框架适用于任何预测模型,而无需知道预测模型• 我们提出了一个新的基于确定性的选择器来估计我们的框架的置信度,并根据确定性得分做出最终的预测决策。• 我们对我们的框架进行了广泛的评估,并在常用的行人轨迹预测数据集上使用最先进的模型。我们实现了最先进的结果,而不需要这些数据集上的任何额外的训练数据。2. 相关作品动态视频场景中的人体轨迹预测。最近的工作[19,26,31,32]利用常见的网络架构,如递归神经网络(RNN)[36],时间卷积神经网络(TCN)[39],图形神经网络[21],Transformer网络[22]或其他变体[9,25]来预测人类未来的位置。主要主题是如何有效地整合不同的运动相关特征,如相机运动,人类姿势,人类意图和行为,而其他一些学习人类场景交互[11,8,34]和/或人与人之间的相互作用[7,1,17]。由于突然的相机运动、各种各样的人体运动和动态场景变化,预测动态场景中人类的未来位置仍然是一个挑战由于训练数据不可能是详尽的,因此这些预测模型在测试期间不能很好地通用于所有不同的场景。本文从不同的角度来看,给定一个训练好的预测器,我们是否可以在测试过程中提高它的准确性性能,而不需要访问这个预测器的细节在线适应轨迹预测。与其他研究领域(如视频分类[2])相比,在线适应新场景以进行轨迹预测仍然是一个未开发的主题。最近的许多研究[30,27,10]集中在适应特定的神经网络(即,将学习转移到新场景。这些工作假设测试数据的场景上下文是已知的,并且与训练数据集中的场景上下文明确区分开。这样的模型仅适用于鸟瞰图(BEV)中的预测。相比之下,预测轨迹从自我为中心的视图与不断变化的场景是更具挑战性的,因为场景上下文的变化是不容易识别。与我们的工作密切相关的研究之一是AOL[10],它生成预测模型的多个权重,每个权重代表它表现最好的特定上下文。虽然达到了很好的精度,但它导致了高适应时间和大内存消耗。这对于实时应用来说是不切实际的。用于轨迹预测的记忆网络。记忆网络[28,23]可用于显式存储信息并选择性地访问相关值。键值记忆网络[16]的最新进展已经显示出它们在视觉问题/答案[29],对象跟踪[38]等应用中的有效性。对于轨迹预测,MANTRA[15]依赖于键值记忆网络[16]来记住它过去失败的时刻存储器中编码的信息然后用于影响当前测试样本。我们的工作与以前的工作[15]明显不同,因为重点是设计框架而不是预测模型。是-942|不t+T电话+1特特|∈−特特特特不∈不θ不 不不不t′t′不不 不ttttttt联系我们--此外,所提出的存储器结构允许通过对短期过去帧中的最近轨迹样本进行编码来学习场景的时间动态。3. 问题公式化我们的目标是提高轨迹预测模型的预测精度( 即 , 预 测 器 ) 。 在 当 前 测 试 时 间 t , 令 Xt=[X1,. . .,X,N]表示i的观测轨迹4.2. 扩充的时态键值记忆网络(ATM)为了提高预测器的准确性,我们寻求利用轨迹样本之间的时间相似性。我们的直觉是,当行人在过去帧中成群行走时,行人的未来移动很可能与他们的历史移动或其他附近行人的移动相似我们在图3中展示了这些场景的示例。我们可以看到,[Xi,XiN个行人,其中Xt=. . . ,Xi]是观测位置的集合穿过街道时,可能会保持相同的速度,t−To+1t−To+2t在不久的将来的方向。 图3b示出了另一示例ˆ在最后的T0帧中的行人i预测器pθ(YtXt),与网络权重θ,可以用来估计fu-真实轨迹Y=[Y=1,...,中的所有N个行人中的共享相似运动的一组行人(例如,(二)未来的发展方向,即未来的发展方向。不ne xtTp帧,其中Y∈i不ˆi电话+1ˆit+2日、...、[Yi ]p特里安可能会与该集团的议案类似受这些观察的启发,我们提出了一个增强的时间类似于现有的设置[31,19],我们提出每个位置Xi=(xi,yi,wi,hi)作为边界框,关键值记忆网络来捕获短期过去帧中的这些时间相似性。增加的颞叶(xi,yi)是中心,wi,hi是宽度和高度不t t t的边界框。预测的地方-也被呈现为预测的边界框Y,i=内存网络由M行组成我们代表每一个行m1,..,M作为一对键和值km,vm,其中km和vm是观测器的编码特征我电话+1我电话+1我电话+1ˆi电话+1)的情况。我们的目标是设计一个新的框架-vationXj以及过去轨迹样本的目标Yj工作F(Y)|Y_n,X),其产生新的预测Y_steccon。{Xj,Y<$j},其中j∈[1,. . . ,N′]是行人id,在预测器pθ(Y<$tX t)的过去轨迹X t和预测轨迹Y <$t上进行划分。如前所述,我们假设行人的过去轨迹完全这意味着没有噪声观测,因此可以使用地面实况位置。一些作品[14,35]解决了噪声观测的问题;然而,这不是我们工作的重点。4. 方法Nt′ 是 在 时 间 t′ 的 行 人 数 量 。 我 们 从 短 期 历 史 帧t′[0,. . .,tδ],其中δ是帧的数量,以确保在当前测试样本Xi、Yi和在存储器中编码的那些样本之间不存在重叠。注意,我们j=i),因为行人可能具有长期轨迹。使用运动引擎执行编码过程4.1. 预测模型编码器,其映射观察到的Xj和目标轨迹在当前测试时间t,预测器pθ(Y<$t|Xt)估计数Yj到不同的潜在特征空间中,如下所示:未来轨迹Ytg iv en过去轨迹Xt。在在这项工作中,我们假设预测器是在训练数据集上训练的,并且可以使用任何预测器在测试期间-因此,预测器 为了以后的改进,预-使用所述预测编码器编码的所述指示轨迹Ykm=GRU( Conv1D(Xj))∈Rdv,(2)vm=GRU( Conv1D(Yj))∈Rdk,(3)其中,dv和dk分别是键km和值vm接下来,我们讨论读和写内存操作的细节。如下所示不zp=GRU( Con v1D(Yn)),(1)读/写操作。 如前所述,我们的记忆网络的目标是找到与当前测试样本{X t,Y t}最相似的过去轨迹{Xt′,Yt′},因此t检验其编码表示(即, 从存储器中检索)可用于改进预测器的预测Y t。这其中zpRd是Yt的编码特征,d是大小隐藏的层。为了提高速度和效率,我们使用GRU(门控递归单元[4]),然后使用1维卷积,在一个实施例中,该方法包括使用卷积层来编码图像的时间信息。通过计算在当前时间步长t处的编码的观察轨迹Xt与存储器中的所有键之间的相似性得分来实现:预测轨迹预测器的编码特征zp然后与来自时间存储器的信息结合使用etkm=[Y,Y(x,y,w,h.943tmsm=||e||||K||,m∈{0,.,M−1},sm∈[0,1],(四)944←----p新的行人OATMem���′运动编码器������′运动解码器基于知识的中文(简体)增强颞叶内存(ATM)预测编码器���������ሶ������[−+1,.���. . ,]预测器[,+ 1,������������[,+ 1,������������图2. 我们提出的框架包括三个模块:预测器(4.1节),增强时间记忆(ATM)(4.2节)和基于确定性的选择器(CS)(4.4节)。(a)(b)(c)(d)目标行人的目标行人历史轨迹。目标行人的未来轨迹其他行人其他行人的历史轨迹图3.目标行人和其他行人之间存在高运动相似性(a,b)和不相似性(c,d)的场景其中et是使用等式2获得的X t的编码表示。 sm分数越高,当前测试样本Xt、Yt与过去编码轨迹样本Xt′、Yt′之间的时间相似性越高。 . 基于这些相似性得分,所选择的存储器值vm′可以被重新确定为:vm′M ( m′ ) , m′=a r gma ×m(sm),其中m′是所选择的r w。值vm′然后用于im-在轨迹解码阶段证明预测器的预测,如4.3节所述。在测试期间的每个时间步,存储器被扩充(即,(已更新或更新)是大的(即,在拥挤的场景中),写入所有这些样本将增加存储器大小。在这种情况下,我们随机选择这些样本以保持M固定。我们在5.2节中分析了内存大小的影响。4.3. 运动解码器给定预测器zt和存储器vm'的预测轨迹的表示,运动解码器将未来轨迹解码为:Y′=fc ( GRU ( [zp , vm′] ) ) ,( 5)新的测试样本。这使得内存可以应对t t随着视频场景的动态变化。然而,我们保持固定大小的M行存储器,因为我们不仅以准确性为目标,而且还以速度和存储器功效为目标。为了实现这一点,我们使用先进先出(FIFO)策略来丢弃来自最旧帧的轨迹样本,并从最近的帧中增加新样本。这是合理的,因为考虑到视频序列的快速时间动态性,在新增加的样本其中fc是完全连接的层。我们将预测器的预测轨迹的编码表示和从内存中选择的值连接起来,以利用两者的优点。本机预测器可以依赖于不同的特征,诸如目标、行人意图等。而我们的记忆为轨迹预测提供了有用的时间信息。为了进一步提高我们的框架的预测性能,运动解码器 我们在消融研究中显示了这些手术的影响(第5节)。945→·S|22|| ·||||||−||2||−4.4. 基于安全性的安全性(CS)仅仅依靠记忆中的时间信息不足以应付动态场景中的不同场景。动态场景可能固有地包含当前行人的运动与过去的运动不相关的许多场景,如图3c和图3d所示。 我们可以看到,图3c中的场景由来自不同行人的各种运动组成,而图3d中的场景示出了在远处出现的新行人的示例,并且该行人的运动与更靠近相机的行人的运动非常不同。在这些情况下,我们观察到,来自神经网络的预测结果为了缓解这个问题,我们提出了一种新的基于确定性的选择器,学习从预测器Yt或从我们的框架Yt′变成了最终的预测Ystect。最终预测Ystect可以被定义为:Ystect=(1−S(st|Yt′,Yt))Yt+St(st|Yt′,Yt′)Yt′,(6)哪里 (stYt′,Y与原生预测器的。具体地,确定性得分被估计为:c t = m(MLP(G R U(Co n v1D([Y t,Yt ′])))),c t ∈ [0,1],(7)st=1(ct>δs),st∈{0,1},(8)其 中 , MLP 是 一 个 多 层 感 知 器 , Σ ( ) 是 一 个sigmoid函数。高确定性分数(即,CT1)表示该框架产生比Predictor的预测更准确的预测。1(ct>δs)是一个指示函数用于在Y t或Y t ′上执行“硬选择”。δs是a预先定义的阈值,在我们的实验中设置为0.5。我们训练基于确定性的选择器来模仿指示函数1(Yt′,Yt′)=1(Yt′)的行为Yt2YtYt2)。具体地,y,1(Yt′,Yt)=1表示如果从我们的框架Yt′的预测更准确(即,更接近FrobeNius范数测量的地面真实轨迹Yt2)比来自预测器的预测Yt =t;否则,1(Yt′,Yt =t)=0。因此,使用二进制交叉熵损失分别 训练 选择器 [20]。 我们提出训练/测试程序和损失函数在补充材料中。5. 实验我们使用JAAD[12]和PIE[19]数据集评估我们的框架,以从以自我为中心的视图进行行人轨迹预测。我们在补充材料中描述了这些数据集的详细信息和实施细节。评估指标。我们使用常用的评估指标[19,31]进行评估:ADE,预测边界框的平均位移误差和地面实况;CADE,包围盒中心的平均位移误差; CFDE,包围盒中心在最终位置的最终位移误差所有指标都以像素为单位。比较模型。 我们结合三个最近的预测模型来评估我们的框架:双陷阱[31]:预测目标条件下的轨迹。PIEtraj[19]:基于RNN的编码器-解码器模型,具有时间关注。PIEfull[19]: PIEtraj的变体,通过将人类意图和车辆速度用于轨迹预测。我们用其他现有方法报告了我 们的结果 :Linear [19],LSTM [19], B-LSTM[3],FOL-X [33]、PIEtraj [19]、PIEfull [19]、BiTrap [31]。5.1. 定量结果我们在表1中给出了我们的定量结果。我们可以看到,我们的框架与其他原生预测器(PIEtraj[19],PIEfull[19]和BiTrap[31])相结合,实现了更好的结果(即,较低的预测误差)与单独的本地预测器一致。这表明来自记忆和选择器的时间信息对提高预测精度起着至关重要的作用。此外,我们的框架与BiTrap相结合,在所有指标中获得了最佳的预测结果。消融研究。 我们进行了消融研究(表2),以研究每个框架变体的影响。这些变体包括:OATMem:我们的完整框架; OATMem(w/o concat):我们的框架,但没有在等式5中连接预测器的预测和从存储器检索的目标轨迹的表示; OATMem(w/o选择器):我们的框架没有基于确定性的选择器; OATMem(无在线更新):我们的框架没有更新的运动解码器(第4.3节)。我们观察到,丢弃其中一个组件会增加预测误差。在这些组件中,值得注意的是,选择器起着最重要的作用,因为OATMem(w/o selec- tor)在大多数度量中导致最高的预测误差。然而,我们的框架没有选择器仍然比单独的本地预测器实现这意味着存储器能够对用于改进轨迹预测的时间信息进行5.2. 分析在本节中,我们将提供额外的分析,以了解我们的框架的性能。预测误差与选择器准确度之间的相关性。我们分析预测误差和选择器性能之间的相关性,如图4a所示。我们在训练数据分裂的随机子集上用200个epoch训练选择器,并在每个epoch报告我们的框架+ BiTrap的相应FDE。我们可以看到,选择器准确性的增加这是合理的,因为更准确的预测选择会导致946表1.PIE和JAAD数据集的定量结果方法JAAD PIEADE CADE CFDE(0.5/1.0/1.5s)(1.5s)(1.5s)ADE CADE CFDE(0.5/1.0/1.5s)(1.5s)(1.5s)线性[19]LSTM[19]B-LSTM[3][33]第三十三话PIEtraj[3]PIEfull[3]BiTrap[31]233/857/2303289/569/1558 1473 5766159/539/1535147/484/1374 1290 4924110/339/1248 1183 4780- -93/378/1206123/477/1365 950 3983172/330/911 837 3352101/296/855 811 315947/183/584 546 2303决议草案58/200/636 - 596 247742/154/559 - 520 2162第41/161/511号来文OATMem(我们的)+ PIEtraj[3]+ PIEfull[3]+ BiTrap[31]105/306/1089 1107 4385- -83/294/926 876 3690第52/163/497号决议41/150/502 433 181940/157/457 369 1726表2.消融研究。我们调查的影响,我们的框架的每个拟议组成部分方法框架变体JAAD馅饼Ade(0.5/1.0/1.5s)凯德(1.5秒)CFDE(1.5秒)Ade(0.5/1.0/1.5s)凯德(1.5秒)CFDE(1.5秒)BiTrap[31]93/378/12061105456541/161/5114811949OATMem83/294/926876369040/157/4573691726OATMem(不含concat)92/329/1037891413257/171/4954051810OATMem(不带选择器)87/325/1018969401754/168/5064171918OATMem(无在线更新)87/309/976923388977/195/4534251801更准确的轨迹预测。预测误差和运动变化之间的相关性我们试图了解预测器的性能和我们的框架在不同的轨迹上的表现,这些轨迹按高、中、低运动方差分类(图5)。轨迹样本的运动方差使用最终位置(即,边界框的中心)和每个轨迹样本的当前位置。然后,我们将其分为三个主要类别:高方差:前20%,低方差:最低20%,以及中等:介于两者之间,用于进一步分析。 图5a显示了轨迹样本的t-SNE可视化[24],这些轨迹样本通过其预测误差(CFDE)和运动方差(图5 b)进行分类。 对于那些导致大运动的轨迹(即,以高速或突然运动移动),预测器将可能受到影响(即,高预测误差)。有趣的是,我们可以看到我们的框架可以显著改善这些样本的预测误差(图5c)。这说明我们的记忆模块提供了有用的时间信息,可以用于提高预测最后,图4d示出了我们可以减少那些高误差样本上的预测误差(即,对应于大运动)高达27%。内存大小的影响内存大小的影响(即,行数)对两个框架变体(具有和不具有基于确定性的SE)的轨迹预测误差的选择器)在图4b中示出。我们可以看到,有足够的样本(即,8)两种变型都获得了最佳结果。然而,有趣的是,观察到较大的内存大小并不会导致更好的预测性能。这表明,在内存大小为8的情况下,我们捕获了大多数时间变化。因此,编码更多的样本增加了来自更远的过去帧的样本之间的不相似性,导致增加的预测误差。迭代次数对解码器更新的影响。如4.3节所述,调整解码器可以提高我们框架的自适应能力。为了获得深入的理解,我们分析了具有不同迭代次数的两种变体的性能,用于使用最新的测试样本更新解码器,如图4c所示。我们观察到,当迭代次数增加时,没有CS的变体收敛得很快,并且在3次迭代时达到饱和。这表明,自适应解码器显着有助于提高自适应能力。此外,我们还发现,在迭代次数较少的情况下,CS变量可以容忍预测误差,尽管其预测性能也随着迭代次数的增加而收敛.时间和内存复杂度使用来自图像的实验数据的处理在计算上是昂贵的。我们的目标之一是通过设计一个具有最小内存和时间消耗的框架来减少时间和内存复杂度。我们与最近框架的比较947向前稳速向前加速度右转(一)(二)(三)(四)(a)(b)(c)(d)图4. (a)选择器的准确度与轨迹预测误差之间的相关性;存储器大小的影响(b)和(c)用于更新解码器的迭代次数对轨迹预测的影响;(d)对大运动样本的误差减少。阴影区域表示差异。(a)(b)(c)第(1)款图5.2D t-SNE可视化[24]具有两个组件(comp-1,comp-2)(即,尺寸)。BAOL [10]见表3。因为我们的框架不需要访问预测器,所以我们框架的可训练参数的数量比BAOL少得多。此外,由于我们只适应解码器在测试时间,我们的适应时间是显着更少。预测行为与自我载体运动的相关性研究自我载体的运动,如速度、转向等,对场景的动态性有很大的影响;从而影响预测性能,如图6a所示。我们可以看到,当车辆在稳定状态下移动时,例如以相同或逐渐变化的速度前进时,存储器可以携带有用的信息来改善预测器这可以在场景1和场景3中观察到,其中我们的变体OATlets +BiTrap(没有CS)优于BiTrap。然而,当自我车辆突然转弯(场景2)或加速它们的速度(场景4)时,情况并非如此通过学习模型和预测器的比较预测行为,我们的框架与基于确定性的选择器能够识别这些场景。因此,我们的框架与基于确定性的选择器在这些情况下超过了BiTrap的预测性能。适应新的场景。我们调查了一个常见的情况下,在新的场景中,新的行人与不同的运动模式出现测试的预测。在图6b中,在新视频的开始处,OATfib +BiTrap(没有CS)比原生预测器表现序列,因为这个新场景中的行人的运动有趣的是,这种变体开始提高预测准确性(即,降低预测误差),并且在帧60处优于预测器,其中在存储器中编码最后,我们的最终框架OAT-100 +BiTrap(具有CS)同时利用了预测器和记忆器;因此它在大多数帧中表现最好。帧t帧t(a)(b)图6. (a)来自PIE数据集的连续视频序列的预测结果(每帧中所有样本的平均FDE),其由不同的自我车辆的运动组成(b)预测结果适应新的视频序列。6. 定性结果我们在图7中展示了定性结果。对于每个场景,我们可视化预测结果(右图)和存储器中编码的轨迹(左图)。在27%的误差减少轨迹样本(按CFDE排序)CFDECFDECFDECFDEFDEFDE948表3.与JAAD[12]数据集上的基础自适应在线学习(BAOL)[10]的比较方法CADE/CFDE(像素)推理时间(毫秒)适应时间(毫秒)可训练参数(百万)[31]第十一届全国政协委员OATMem + BiTrap1014/3824876/369020.926.2415.51145.411.530.12Δ���(a)(b)(c)(d)(e)(f)在OATMem的存储器预测轨迹中编码的目标轨迹BiTrap的预测轨迹ATM的预测轨迹地面实况图7. 我们框架的定性结果。在每个场景中,在内存中编码的轨迹在左侧可视化,图像上的预测显示在右侧。在第一行中,选择器在目标行人的运动与存储在框架中的运动高度相似的情况下从我们的框架中选择预测。 这些场景包括行人穿过街道(图7a)或行人沿着街道行走(图7b),以及行人成群行走(图7c)。 另一方面,第二行示出了其中存在对改进轨迹预测没有帮助的突然或各种运动的场景。例如,图7d示出了将动作从静止不动改变为横穿街道的行人的示例。正如我们所看到的,记忆存储了所有的短期轨迹,这代表了这个行人的慢动作。然而,来自神经网络的该信息与目标行人的未来运动无关。图7f中示出了改变意图的另一示例。在这种情况下,行人将运动从快变为慢。最后,图7e示出了不同行人的多个运动的示例,其对于预测未来轨迹没有然而,在这些场景中,选择器仍然能够选择由预测器产生的更好的预测。7. 结论我们提出了一个新的框架,在线适应和改进一个给定的预测模型在测试时间。我们的框架的关键组件包括一个增强的时间键值记忆(ATM)模块,编码时间信息从过去的轨迹。我们还提出了一个基于确定性的选择器(CS),推断确定性得分的基础上预测在未来的工作中,该框架可以扩展到改善其他应用中的预测模型,如多智能体轨迹预测,并可以与其他预测器相结合,以提高这些预测器的预测精度。引用[1] Alexandre Alahi,Kratarth Goel,Vignesh Ramanathan,Alexandre Robicquet,Li Fei-Fei,and Silvio Savarese.社会lstm:人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集,第961-971页[2] JawadulHBappy , SujoyPaul 和 AmitKRoy-Chowdhury。联合场景和对象分类的在线自适应在Δy949欧洲计算机视觉会议,第227-243页。施普林格,2016年。[3] Apratim Bhattacharyya,Mario Fritz,and Bernt Schiele.不确定交通场景中人的长期车载预测。在IEEE计算机视觉和模式识别会议论文集,第4194- 4202页[4] KyunghyunCho,BartVanMerrieenboer,DzmitryBahdanau,and Yoshua Bengio.关于神经机器翻译的特性:编码器-解码器方法。arXiv预印本arXiv:1409.1259,2014。[5] Guilherme N DeSouza和Avinash C Kak.用于移动机器人导航的视觉:一个调查。IEEE模式分析与机器智能学报,24(2):237[6] Sorin Grigorescu,Bogdan Trasnea,Tiberiu Cocias,andGigel Macesanu.自动驾驶深度学习技术综述。Journal ofField Robotics,37(3):362[7] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴:具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集,第2255-2264页,2018年[8] Sirin Haddad和Siew-Kei Lam。自生长空间图网络用于情境感知行人轨迹预测。2021年IEEE图像处理国际会议(ICIP),第1029-1033页IEEE,2021。[9] 黄志恒,徐伟,于凯。序列标签的双向lstm-crf模型。arXiv预印本arXiv:1508.01991,2015。[10] Manh Huynh和Gita Alaghband Aol:动态视频场景中人体轨迹预测的自适应在线学习。arXiv预印本arXiv:2002.06666,2020。[11] 阿拉什·卡拉蒂安和比拉尔·法鲁克一个上下文感知的自动车辆的步行轨迹预测框架。交通研究C部分:新兴技术,134:103453,2022。[12] Iuliia Kotseruba,Amir Rasouli,and John K Tsotsos.自动驾驶中的共同注意力(Jaad)。arXiv预印本arXiv:1609.04741,2016年。[13] Maosen Li,Siheng Chen,Yanning Shen,Genjia Liu,Ivor W Tsang,and Ya Zhang.基于可解释协作图神经网络的在线多智能体预测。IEEE Transactions on NeuralNetworks and Learning Systems,2022。[14] Karttikeya Mangalam , Ehsan Adeli , Kuan-Hui Lee ,Adrien Gaidon,and Juan Carlos Niebles.解缠人体动力学行人运动预测与噪声监督。在IEEE/CVF计算机视觉应用论文集,第2784[15] Francesco Marchetti , Federico Becattini , LorenzoSeidenari,and Alberto Del Bimbo.咒语:用于多轨迹预测的记忆增强网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第7143-7152页[16] Alexander Miller 、 Adam Fisch 、 Jesse Dodge 、 Amir-Hossein Karimi、Antoine Bordes和Jason Weston。用于直接读取文档的键值arXiv预印本arXiv:1606.03126,2016。[17] Abduallah Mohamed,Kun Qian,Mohamed Elhoseiny,and Christian Claudel.社会-stgcnn:用于人类轨迹预测的社会时空图卷积神经网络。在IEEE/CVF计算机视觉和模式识别会议论文集,第14424[18] Ryosuke Okuda,Yuki Kajiwara,和Kazuaki Terashima.自动驾驶系统与自动驾驶之技术动向2014年VLSI设计、自动化和测试,第1-4页。IEEE,2014。[19] Amir Rasouli 、 Iuliia Kotseruba 、 Toni Kunic 和 John KTsotsos。Pie:用于行人意图估计和轨迹预测的大规模数据集和模型在IEEE/CVF计算机视觉国际会议论文集,第6262-6271页,2019年[20] 乌莎·鲁比和瓦姆哈尔·延达帕利二进制交叉熵与深度学习技术用于图像分类。国际先进趋势计算杂志Sci.Eng,9(10),2020.[21] Franco Scarselli、Marco Gori、Ah Chung Tsoi、MarkusHa-genbuchner 和 Gabriele Monfardini 。 图 神 经 网 络 模型。IEEE Transactions on Neural Networks,20(1):61[22] 泽随、岳州、徐昭、敖辰、倪一阳。基于Transformer的联合意图和轨迹预测。 2021年IEEE/RSJ智能机器人和系统 国际 会议(IROS ), 第7082-7088 页。 IEEE,2021。[23] Sainbayar Sukhbaatar,Jason Weston,Rob Fergus,et al.端到端记忆网络。神经信息处理系统的进展,2015年28日。[24] Laurens Van der Maaten和Geoffrey Hinton使用t-sne可视化 数 据 。 Journal of Machine Learning Research , 9(11),2008.[25] Peta rVelicˇko vic´,GuillemCucurull,ArantxaCasanov a,Adriana Romero,Pietro Lio,and Yoshua Bengio.图at-tension网络。arXiv预印本arXiv:1710.10903,2017。[26] 王楚华,王宇晨,徐铭泽,大卫·J·克兰达尔.用于轨迹预 测 的 逐 步 目 标 驱 动 网 络 。 IEEE Robotics andAutomation Letters,7(2):2716[27] 王乐天,胡叶平,孙丽婷,战伟,富冢正吉,刘长流。可转换和可适应的驾驶行为预测。arXiv预印本arXiv:2202.05140,2022。[28] 杰森·韦斯顿苏米特·乔普拉和安托万·博德斯记忆网络。arXiv预印本arXiv:1410.3916,2014。[29] Caiming Xiong,Stephen Merity,and Richard Socher.视觉和文本问题回答的动态记忆网络。国际机器学习会议,第2397-2406页。PMLR,2016.[30] 易虚、王离尘、益州王、云甫。基于可转移gnn的自适应轨迹预测。在IEEE/CVF计算机视觉和模式识别会议论文集,第6520-6531页950[31] Yu Yao , Ella Atkins , Matthew Johnson-Roberson ,RamVa- sudevan,and Xiaoxiao Du. Bitrap:双向行人轨迹 预 测 与 多 模 态 目 标 估 计 。 IEEE Robotics andAutomation Letters,6(2):1463[32] 余瑶,艾拉阿特金斯,马修约翰逊罗伯森,拉姆瓦苏德万,杜晓晓。行人过街行为预测之意图与行为耦合。arXiv预印本arXiv:2105.04133,2021。[33] Yu Yao,Mingze Xu,Chiho Choi,David J Crandall,Ella M Atkins,and Behzad Dariush.基于自我中心视觉的智能驾驶辅助系统的未来车辆定位在2019年机器人和自动化国际会议上,第9711-9717页IEEE,2019。[34] Jian Yu , Meng Zhou , Xin Wang , Guoliang Pu ,Chengqi Cheng,and Bo Chen.一个用于轨迹预测的动态和静态上下文感知注意网络。ISPRS国际地理信息杂志,10(5):336,2021。[35] 睿宇和周紫涵。在原始视频中实现鲁棒的人体轨迹预测 。 2021 年 IEEE/RSJ 智 能 机 器 人 和 系 统 国 际 会 议(IROS),第8059IEEE,2021。[36] Wojciech Zaremba,Ilya Sutskever,and Oriol Vinyals.递归神经网络正则化。arXiv预印本arXiv:1409.2329,201
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功