没有合适的资源?快使用搜索试试~ 我知道了~
可转移的图神经网络:自适应轨迹预测及域对齐
65200通过可转移的GNN进行自适应轨迹预测0Yi Xu 1 , Lichen Wang 1 , Yizhou Wang 1 , Yun Fu 1,201 电气与计算机工程系,美国东北大学 2 Khoury计算机科学学院,美国东北大学0xu.yi@northeastern.edu, { wanglichenxj,wyzjack990122 } @gmail.com, yunfu@ece.neu.edu0摘要0行人轨迹预测是自动驾驶和机器人等广泛应用中的一个重要组成部分。现有方法通常假设训练和测试的运动遵循相同的模式,而忽视了潜在的分布差异(例如购物中心和街道)。这个问题导致了性能下降。为了解决这个问题,我们提出了一种新颖的可转移图神经网络(T-GNN)框架,它在一个统一的框架中同时进行轨迹预测和域对齐。具体而言,我们提出了一个域不变的GNN来探索结构化运动知识,减少域特定知识。此外,我们还提出了基于注意力的自适应知识学习模块,用于探索细粒度的个体级特征表示,以进行知识传递。通过这种方式,不同轨迹领域之间的差异将得到更好的缓解。我们设计了更具挑战性但实用的轨迹预测实验,并通过实验结果验证了我们提出的模型的优越性能。据我们所知,我们的工作填补了不同领域实际行人轨迹预测的基准和技术之间的空白。01. 引言0轨迹预测旨在从给定的轨迹历史中预测未来的轨迹,可以提前几秒甚至一分钟。它在许多实际应用中起着不可或缺的作用,如自动驾驶、机器人、导航、视频监控等。在自动驾驶场景中,准确的行人轨迹预测对于规划[3,42]、决策[81]、环境感知[52,64]、人员识别[40]和异常检测[50,78]至关重要。轨迹预测是一项具有挑战性的任务。例如,陌生人倾向于独自行走以避免碰撞,而朋友倾向于成群结队行走[49]。此外,行人可以与周围环境进行交互。0源轨迹 目标轨迹0图1.展示原始学习策略的局限性的示例。这两个帧来自两个不同的场景,这些轨迹之间存在巨大差异。0度量轨迹领域 E-D S-D0ETH HOTEL UNIV ZARA1 ZARA20NoS 70 301 947 602 921 877 383.63 NoP 181 1053 24334 2253 5833 2415310073.07 AN 2.586 3.498 25.696 3.743 6.333 23.11 9.78 AV ( m/s ) 0.437 0.178 0.2050.369 0.206 0.259 0.11 AA ( m/s^2 ) 0.131 0.06 0.035 0.039 0.026 0.105 0.040表1.五个不同场景(ETH,HOTEL,UNIV,ZARA1和ZARA2)的统计数据。NoS表示要预测的序列数,NoP表示行人数,AN表示每个序列中的平均行人数,AV表示每个序列中行人的平均速度,AA表示每个序列中行人的平均加速度。E-D表示极端偏差,S-D表示标准偏差。0在预测行人轨迹时,通常会忽略交互行为的复杂性和微妙性,例如绕行物体或其他行人。为了考虑这种交互,Social-LSTM[1]中设计了一个汇集层,用于在行人之间传递交互信息,然后应用长短期记忆(LSTM)网络来预测未来的轨迹。许多方法[24, 38, 75, 82,86]都遵循这种模式,通过不同的机制(例如注意力机制或相似度度量)共享信息。一些基于生成对抗网络(GAN)[11, 16, 21, 35,56]和编码器-解码器(encoder-decoder)的方法[7-9, 47,58, 59,74]不是预测一个确定的未来轨迹,而是生成多个可行的轨迹。然而,这些现有方法通常侧重于学习...ing a generic motion pattern while ignoring the potentialdistribution differences between the training and testingsamples. We argue that this learning strategy has some lim-itations. Fig. 1 illustrates one basic concept. It is obviousthat the trajectories of walking pedestrians in different tra-jectory domains are different, the trajectory in the left figureis stable but the trajectory in the right figure is much moretortuous. The original strategy is to learn these two samplestogether without considering distribution differences, whichintroduces domain-bias and disparities into the model.In order to quantitatively and objectively evaluate the po-tential domain gaps, Tab. 1 gives five numerical statistics offive commonly used trajectory domains. We can observethat the number of pedestrians in UNIV is much larger thanthat in ETH, and the differences among five trajectory do-mains are significant. As for pedestrian moving pattern,pedestrians in ETH have the largest average moving veloc-ity, which is nearly three times larger than that in HOTEL.In addition, pedestrians in ETH also have the largest aver-age moving acceleration, which is nearly five times largerthan that in ZARA2. The E-D value and S-D value alsoreveal the huge differences among five different trajectorydomains. This situation is general and always exists in prac-tical applications. For example, in vision applications, cam-eras located in different cities/corners could lead to signif-icant distribution gap. Similar situations are also commonin robot navigation or autonomous driving-related applica-tions since the environments are constantly changing.Tofurtherdemonstratethischallenge,weapplythreestate-of-the-artmethods,Social-STGCNN[48],SGCN [60], Tra2Tra [74] to demonstrate the performancedrop when it comes to different trajectory domains. Wetake ETH as the example, these models are trained on thevalidation set of ETH and evaluated on the standard testingset of ETH. Note that there is no overlap trajectory sam-ple between the training and testing set, but the distribu-tions of them can be regarded as consistent. We refer tothis evaluation setting as “consistent setting” and the per-formance under this new protocol as “updated ADE” and“updated FDE”. Fig. 2 shows the updated ADE/FDE aswell as the original ADE/FDE reported in their papers. Theperformance drops are significant which further reveal thedomain-bias problem in the original leave-one-out setting.Domain adaptation (DA) is a subcategory of transferlearning which aims to address the domain shift issue. Thebasic idea is to minimize the distance of distributions ofsource and target domains via some distance measures, suchas maximum mean discrepancy (MMD) [39, 51], correla-tion alignment distance (CORAL) [61, 87], and adversarialloss [17,71]. Among these methods, the feature dimensionof one sample is fixed in both source and target domain.On the contrary, a “sample” in our task is a combination ofmultiple trajectories with different pedestrians, which has65210图2.三种最先进方法在原始留一法设置和一致设置下的性能比较。所有三个模型的性能下降都是显著的。0不仅存在全局域偏移,还存在内部相关性。因此,直接利用一个“样本”的一般特征表示会导致关键的个体级细粒度特征的缺失。因此,最流行的域自适应方法在这里不适用。在这项工作中,我们深入研究了轨迹域偏移问题,并提出了一种通过自适应知识学习的可传递图神经网络。具体来说,我们提出了一种新颖的基于注意力的自适应知识学习模块,用于轨迹到轨迹的域自适应。此外,还提出了一种新颖的轨迹图神经网络,能够提取增强域不变知识学习的行人的全面时空特征。我们的工作的贡献总结如下:0•我们深入研究了不同轨迹领域之间的领域转移问题,并提出了一种统一的T-GNN方法,用于联合预测未来轨迹和自适应学习领域不变的知识。0•我们提出了一个专门设计的图神经网络,用于提取全面的时空特征表示。我们还开发了一种有效的基于注意力的自适应知识学习模块,用于探索细粒度的个体级可转移特征表示,以进行领域自适应。0•我们为行人轨迹预测问题引入了一个全新的设置,这在实际中具有意义。我们为这种领域转移设置下的行人轨迹预测建立了强大的基线。0• 在五个轨迹领域的实验验证了我们方法的一致且优越的性能。0由于使用基于图的模型来表示社交网络的拓扑结构是自然的,最近的方法[26, 36, 48, 60, 62,69]将图神经网络作为其骨干。与这些方法不同,我们使用的图神经网络不仅简单而且专门设计,不仅可以提取有效的时空特征,还适用于领域不变的知识学习。2.3. Domain Adaptation3. Our MethodThe overall framework of T-GNN model is illustratedin Fig. 3. It consists of three main components: 1) a graphneural network to extract effective spatial-temporal featuresof pedestrians from both source and target trajectory do-mains, 2) an attention-based adaptive knowledge learningmodule to explore domain-invariant individual-level repre-sentations for transfer learning, 3) a temporal predictionmodule for future pedestrian trajectory predictions.3.1. Problem Definition652202. 相关工作02.1. 预测行人轨迹0预测行人轨迹旨在根据目标人的过去位置和周围环境预测其未来位置。早期的研究尝试使用数学模型[43]进行预测,如高斯过程[15, 29]和马尔可夫决策过程[31,45]。最近,提出了大量的深度学习方法来解决这个预测问题。在Social-LSTM[1]中,行人被建模为循环神经网络(RNNs),并且通过设计的汇聚层集成行人的隐藏状态,其中共享人与人之间的交互特征。为了提高提取的交互特征的质量,许多最近的工作[5, 24, 38, 68, 82,84]都遵循这个思路,在行人之间传递信息,并提出了不同的有效的信息传递方法。考虑到行人行走的不确定性,一些研究[2, 11, 16, 32, 35, 56,66]利用生成对抗网络(GAN)对每个人进行多个可能的预测。此外,不同的编码器-解码器结构[9, 47,63]也应用于这个任务中,这些结构更灵活地编码不同的有用的上下文特征。Transformer结构[66]在自然语言处理领域取得了显著的性能[12]。受到这个设计的启发,一些研究[19, 79,80]将其应用于轨迹预测任务,并提高了整体预测精度。在过去的两年中,一些工作[46, 65,83]已经提出了探索目标驱动的轨迹预测。主要思想是估计轨迹的终点以进行预测引导。此外,一些有趣的观点已经引入到这个任务中,例如长尾情况[44],基于能量的模型[53],可解释的预测模型[33],主动学习[73]和反事实分析[7]。与最近的工作[37]不同,该工作研究了仅使用3D模拟数据在未见摄像头中预测未来轨迹的问题,我们的工作在更一般和实际的轨迹预测设置下进行,具有更深远的影响。02.2. 涉及图的预测模型0由于图神经网络(GNNs)在非欧几里得空间中具有强大的表示能力,最近在轨迹预测任务中广泛应用[27, 67, 70, 72,76]。基本思想是将行人视为图中的节点,通过图边来衡量它们之间的相互作用。最近的研究利用了不同变体的图神经网络,例如边特征聚合[55, 62],时空特征提取[26,48],适应性图结构[18, 48, 60,85]和图注意力方法[32]。我们的工作也应用了图模型进行特征表示提取。与上述方法不同的是0T-GNN模型的整体框架如图3所示。它由三个主要组件组成:1)图神经网络,用于从源轨迹和目标轨迹领域提取有效的时空特征,2)基于注意力的自适应知识学习模块,用于探索领域不变的个体级表示以进行迁移学习,3)用于未来行人轨迹预测的时间预测模块。0给定一个行人i的观测轨迹Γi = {oi1, ...,oiobs},从时间步T1到Tobs,目标是预测从时间步Tobs+1到Tpred的未来轨迹Γi = {oiobs+1, ..., oipred},其中oi t =(xi t, yi t) ∈R2表示坐标。考虑到场景中的所有行人,目标是通过具有参数W�的模型f(∙)同时预测所有行人的轨迹。形式上,02.3. 领域自适应0其中Γ是所有行人未来轨迹的集合,N表示行人的数量,W�表示模型中的可学习参数的集合。�(�)�(�)�(�)o′it = oit − 1Noiobs,(2)at;i,j = ∥o′it − o′jt∥2,(3)ft;i = σ((x′it, y′it); Wo),(4)pt;i = σαt;i,jat;j⎞⎠ .(6)652303. 我们的方法0目标轨迹03.1. 问题定义0� (�) …0目标图0预测损失0共享权重0联合训练自适应知识学习0源图0时间预测模块0轨迹特征空间图卷积网络层0对齐损失0图卷积网络层0注意力模块0图3.T-GNN模型的流程图。给定源轨迹和目标轨迹,我们首先构建相应的连续图G(s)和G(t),然后应用GCN层从这些图中提取特征表示F(s)和F(t)。随后,F(s)和F(t)通过基于注意力的自适应知识模块进行传递,学习用于对齐源轨迹和目标轨迹领域的可转移特征c(s)和c(t)。之后,只有来自源轨迹领域的F(s)被用于未来轨迹预测,通过时间预测模块。最后,我们的T-GNN模型共同最小化预测损失和对齐损失。03.2. 时空特征表示0与传统的时间序列预测不同,由于隐含的人与人之间的相互作用和强烈的时间相关性,预测行人未来轨迹更具挑战性。因此,提取准确预测轨迹所需的全面的时空特征表示成为关键。在我们的工作中,考虑到轨迹的数据结构,首先采用图神经网络来提取时空特征表示。在构建图之前,首先将所有行人的坐标通过一层传递,如下所示:0N0其中,N 是场景中行人的数量,o i obs 表示最后观察帧 Tobs 时刻行人 i的坐标。这种去中心化操作能够消除场景大小差异的影响,最近的一些工作也采用了这种方法[74, 85]。我们将 o ′ i t =( x ′ i t , y ′ i t )称为“相对坐标”,用于后续的图构建。我们定义图 G t =( V t , E t , F t ),其中 V t = { v t ; i | i = 1 , ..., N }是图中行人的顶点集,E t = { e t ; i,j | i, j = 1 , ..., N }是指示两个行人之间关系的边集,F t = { f t ; i | i = 1 , ...,N } ∈ R N × D f 是与每个行人 v t ; i相关联的特征矩阵(D f 是特征维度)。图 G t的拓扑结构由邻接矩阵 A t 表示,其中 a t ; i,j 的值为:0初始化为行人 i 和 j 之间的距离,如下所示:0其中,∥ � ∥ 2 是L2距离,o ′ i t 表示时间步 t 时刻行人 i的“相对坐标” o ′ i t = ( x ′ i t , y ′ i t )。由于 a t ; i,j的定义可能有其他可能性,我们还研究并分析了其他三种不同的定义,结果表明在这种情况下使用 L2距离更合适。特征矩阵 F t 中 f t ; i 的值定义如下:0其中,W o ∈ R 2 × D f 是可学习的投影参数,σ(∙)是ReLU非线性激活函数。为了衡量行人之间动态空间关系的相对重要性,采用了[67]中的图注意力层来更新邻接矩阵A t 。图注意力系数计算如下:0α t ; i,j = exp ( φ ( W l [ a t ; i ⊕ a t ; j ])) / ∑N j =1 exp ( φ ( W l [ a t ; i ⊕ a t ; j ])) , (5)0其中,a t ; i ∈ R N × 1 是 A t 中的第 i 列向量,W l ∈ R1 × 2 N 是可学习参数,⊕ 表示按行连接操作,φ 是带有 θ= 0.2的LeakyReLU非线性激活函数。这里使用相同的参数,详情请参考[67]。线性组合 p t ; i根据得到的注意力系数计算如下:0� NF (l+1) = σD−(10)(11)65240将每个列向量 p t ; i 连接在一起,得到新的更新后的邻接矩阵 A′ t ∈ R N × N,其中包含了时间步 t时刻行人的全局空间特征信息。然后,在此基础上应用 GCN层[30]进一步提取时空特征。与[48]类似,我们首先将单位矩阵添加到ˆ A t 中,如下所示:0ˆ A_t = A'_t + I. (7)0然后,我们将ˆ A_t从时间步T_1到T_obs堆叠为ˆ A = {ˆ A_1,ˆ A_2, ..., ˆ A_obs} ∈ R N × N ×L_obs,同时将第l层的顶点特征矩阵从时间步T_1到T_obs堆叠为F(l)_t = {F(l)_1, F(l)_2, ..., F(l)_obs} ∈ R N × D_f ×L_obs,其中L_obs表示观测长度。此外,从{ˆ A_1, ˆ A_2,..., ˆ A_obs}相应地计算出节点度矩阵的堆叠D = {D_1, D_2,..., D_obs}。最后,第(l+1)层的输出F(l+1) ∈ R N × D_f ×L_obs计算如下:02 ˆ AD 1 2 F(l) W(l) �, (8)0其中W(l)是第l层的可学习参数。在我们的情况下,使用了三个级联的GCN层(l=3)来提取观测轨迹的时空特征表示。源轨迹和目标轨迹分别构建为相应的图,并输入到参数共享的GCN层中进行特征表示提取。为简单起见,我们将源轨迹领域的最终特征表示表示为F(s) ∈ R N_s × D_f ×L_obs,将目标轨迹领域的最终特征表示表示为F(t) ∈ R N_t× D_f ×L_obs,其中N_s和N_t分别是源领域和目标领域中的行人数量。03.3. 基于注意力的自适应学习0鉴于源轨迹和目标轨迹领域特征表示之间的不对齐,我们引入了一种基于个体注意力的自适应知识学习模块进行迁移学习。与传统的领域自适应情况不同,每个样本都有确定的类别和固定的特征空间。轨迹样本的特征空间不固定,因为源轨迹和目标轨迹领域中的行人数量不同。为了解决这个不对齐问题,我们提出了一种新颖的基于注意力的自适应知识学习模块,以细化并有效集中于最相关的特征空间以减轻不对齐问题。对于个体注意力,我们首先将最终的特征表示F(s)和F(t)重新格式化为:0F(s) = � f_1(s), f_2(s), ..., f_N_s(s) �, f_i(s) ∈ R0F(t) = � f_1(t), f_2(t), ..., f_N_t(t) �, f_i(t) ∈ R D_f ×L_obs, (9)0其中f_i(s)和f_i(t)对应于源轨迹和目标轨迹领域中一个行人的特征图。然后,我们将特征图f_i(s)和f_i(t)重塑为大小为RD_v的特征向量,其中D_v = D_f ×L_obs。虽然特征向量保留了一个行人的时空信息,但我们无法确定一个行人的特征向量在一个轨迹领域中的代表性。因此,引入了一个注意力模块来学习特征向量和轨迹领域之间的相对关联性。注意力分数的计算如下所示:0β_i(s) = exp(h� tanh(W_f f_i(s)))0� N_s j=1 exp(h� tanh(W_f0β_i(t) = exp(h� tanh(W_f f_i(t)))0� N_t j=1 exp(h� tanh(W_ff_j(t))),0其中h�和W_f是可学习参数。然后,源轨迹和目标轨迹领域的最终特征表示c(s) ∈ R D_v和c(t) ∈ R D_v计算如下:0c(s) =0i = 1 (β_i(s)f_i(s)),0c(t) =0i = 1 (β_i(t)f_i(t)).0这两个上下文向量c(s)和c(t)对应于源轨迹和目标轨迹领域的精细化个体级表示。相应地,引入了分布对齐的相似性损失L_align,如下所示:0L align = E[c(s) ∈ source, c(t) ∈ target] � dist � c(s), c(t) �� .(12)距离函数dist有多种选择,例如L2距离,MMD损失[39,51],CORAL损失[61, 87]和对抗损失[17,71]。我们在第4节中探索了这四种对齐度量,结果表明L2距离更合适。因此,我们有,0L align = 1 D f0���� c(s) − c(t) ���� 2 2 . (13)03.4. 时间预测模块0与逐帧预测不同,我们使用TCN[4]层根据源轨迹域的空间-时间特征表示F (s)进行未来轨迹预测。这种预测策略能够减轻由RNN引起的顺序预测中的误差累积问题。它还可以避免梯度消失或减少高计算成本[10, 23]。最近的工作[48,60]也使用了这种策略进行预测。ADE =�.(18)FDE =�.(19)65250给定特征表示F (s) ∈ R N s × D f × L obs ,我们将F (s)在时间维度上通过TCN层进行传递,以获得它们对应的未来轨迹。具体来说,对于第l个TCN层,我们有,0F (l+1) (s) = TCN(F (l) (s); W (l) t), (14)0其中W (l) t 是第l个TCN层的可学习参数,F (l+1) ∈ R N s× D f × L pred 表示预测输出(L pred表示要预测的长度)。在我们的情况下,我们使用三个级联的TCN层(l = 3)来获得最终输出,我们称之为F (s) ,pred。类似的假设是行人坐标(x i t,y it)遵循双变量高斯分布,如(x i t,y i t)�N(ˆ μ i t,ˆ σ it,ˆ ρ i t),其中ˆ μ i t = (ˆ μ x,ˆ μ y) i t是均值,ˆ σ i t= (ˆ σ x,ˆ σ y) i t是标准差,ˆ ρ it是相关系数。这些参数通过将F (s) ,pred通过一个线性层来确定,如下所示,0(ˆ μ i t, ˆ σ i t, ˆ ρ i t) = Linear(F (s),pred; W p), (15)0其中W p 是这个线性层的可学习参数。03.5. 目标函数0总体目标函数由两个项组成,预测损失L pre用于预测未来轨迹预测,对齐损失L align用于对齐源轨迹域和目标轨迹域的分布。预测损失L pre是负对数似然,如下所示,0L pre = −0t = T obs +1 log � P � (x i t, y i t) | ˆ μ i t, ˆ σ it, ˆ ρ i t �� . (16)0请注意,只有来自源轨迹域的样本参与预测阶段。整个模型通过联合最小化预测损失L pre 和对齐损失L align进行训练,因此我们有,0L = L pre + λ L align, (17)0其中λ是平衡这两个项的超参数。04. 实验0在本节中,我们首先介绍了我们提出的新设置的定义以及评估协议,然后我们在这个新设置下对我们提出的T-GNN模型进行了广泛的评估,与之前的现有方法和不同的领域自适应策略进行了比较。附加的评估结果和特征可视化在补充材料中提供。数据集。实验在两个真实世界的数据集上进行:ETH [54]和UCY[34],因为这两个公共数据集在这个任务中被广泛使用。ETH由两个场景ETH和HOTEL组成,UCY由三个场景UNIV,ZARA1和ZARA2组成。实验设置。我们引入了一个更一般和实用的设置,将每个场景视为一个轨迹域。模型仅在一个域上进行训练,并在其他四个域上进行测试。给定五个轨迹域,我们有总共20个轨迹预测任务:A→B/C/D/E,B→A/C/D/E,C→A/B/D/E,D→A/B/C/E和E→A/B/C/D,其中A,B,C,D和E分别代表ETH,HOTEL,UNIV,ZARA1和ZARA2。这个设置具有挑战性,因为存在域差异问题。评估协议。为了确保在新的设置下进行公平比较,现有的基线方法使用一个源轨迹域以及目标轨迹域的验证集进行训练。具体来说,以A→B为例,现有的基线方法使用A的训练集和B的验证集进行训练,然后在B的测试集上进行评估。我们提出的模型将A的训练集视为源轨迹域,B的验证集视为目标轨迹域,然后在B的测试集上进行评估。请注意,验证集和测试集彼此独立,验证集和测试集之间没有重叠样本。在训练阶段,我们提出的模型只能访问验证集中的观测轨迹。基线。我们将与我们提出的方法在新的设置和评估协议下进行比较的五种最先进的方法是:Social-STGCNN[48],PECNet [47],RSBG [62],SGCN [60]和Tra2Tra[74]。我们还使用以下四种广泛使用的DA方法进行比较:T-GNN+MMD:使用多核最大均值差异损失[39]作为Lalign,T-GNN+CORAL:使用CORAL损失[61]作为Lalign;T-GNN+GFK:使用基于核的领域自适应策略[20],T-GNN+UDA:使用对抗损失的无监督领域自适应图卷积网络[71]。评估指标。使用以下两个指标进行性能评估。在这两个指标中,N t 是目标轨迹域中的行人总数,o i t 是预测值,o i t是真实坐标。0场景名为ETH和HOTEL,UCY包括三个场景UNIV,ZARA1和ZARA2。实验设置。我们引入了一个更一般和实用的设置,将每个场景视为一个轨迹域。模型仅在一个域上进行训练,并在其他四个域上进行测试。给定五个轨迹域,我们有总共20个轨迹预测任务:A→B/C/D/E,B→A/C/D/E,C→A/B/D/E,D→A/B/C/E和E→A/B/C/D,其中A,B,C,D和E分别代表ETH,HOTEL,UNIV,ZARA1和ZARA2。这个设置具有挑战性,因为存在域差异问题。评估协议。为了确保在新的设置下进行公平比较,现有的基线方法使用一个源轨迹域以及目标轨迹域的验证集进行训练。具体来说,以A→B为例,现有的基线方法使用A的训练集和B的验证集进行训练,然后在B的测试集上进行评估。我们提出的模型将A的训练集视为源轨迹域,B的验证集视为目标轨迹域,然后在B的测试集上进行评估。请注意,验证集和测试集彼此独立,验证集和测试集之间没有重叠样本。在训练阶段,我们提出的模型只能访问验证集中的观测轨迹。基线。我们将与我们提出的方法在新的设置和评估协议下进行比较的五种最先进的方法是:Social-STGCNN [48],PECNet [47],RSBG[62],SGCN [60]和Tra2Tra[74]。我们还使用以下四种广泛使用的DA方法进行比较:T-GNN+MMD:使用多核最大均值差异损失[39]作为Lalign,T-GNN+CORAL:使用CORAL损失[61]作为Lalign;T-GNN+GFK:使用基于核的领域自适应策略[20],T-GNN+UDA:使用对抗损失的无监督领域自适应图卷积网络[71]。评估指标。使用以下两个指标进行性能评估。在这两个指标中,N t 是目标轨迹域中的行人总数,o i t是预测值,o i t 是真实坐标。0• 平均位移误差 (ADE):0i =1 � T pred t = T obs +1 ∥ o i t − oi t ∥ 20• 最终位移误差 (FDE):0i =1 ∥ o i pred − o i pred ∥20实现细节。与之前的基线模型类似,观察到8帧,预测下一帧的12帧。GCN层数设置为3,特征维度设置为64。在训练阶段,批大小设置为16,λ值设置为1。整个模型训练200个epochs,使用Adam [13]作为优化器。初始学习率设置为0.001,在100个epochs后改为0.0005。在推理阶段,采样20个预测轨迹,选择其中最佳的进行评估。65260方法 年份 性能 (ADE) (源到目标) 平均0A2B A2C A2D A2E B2A B2C B2D B2E C2A C2B C2D C2E D2A D2B D2C D2E E2A E2B E2C E2D0Social-STGCNN [ 48 ] 2020 1.83 1.58 1.30 1.31 3.02 1.38 2.63 1.58 1.16 0.70 0.82 0.54 1.04 1.05 0.73 0.47 0.98 1.09 0.74 0.50 1.22 PECNet [ 47 ] 2020 1.97 1.68 1.24 1.35 3.11 1.35 2.69 1.621.39 0.82 0.93 0.57 1.10 1.17 0.92 0.52 1.01 1.25 0.83 0.61 1.31 RSBG [ 62 ] 2020 2.21 1.59 1.48 1.42 3.18 1.49 2.72 1.73 1.23 0.87 1.04 0.60 1.19 1.21 0.80 0.49 1.09 1.37 1.03 0.78 1.38 Tra2Tra [74 ] 2021 1.72 1.58 1.27 1.37 3.32 1.36 2.67 1.58 1.16 0.70 0.85 0.60 1.09 1.07 0.81 0.52 1.03 1.10 0.75 0.52 1.25 SGCN [ 60 ] 2021 1.68 1.54 1.26 1.28 3.22 1.38 2.62 1.58 1.14 0.70 0.82 0.521.05 0.97 0.80 0.48 0.97 1.08 0.75 0.51 1.220T-GNN (我们的模型) - 1.13 1.25 0.94 1.03 2.54 1.08 2.25 1.41 0.97 0.54 0.61 0.23 0.88 0.78 0.59 0.32 0.87 0.72 0.65 0.34 0.960表2. 我们的T-GNN模型与现有最先进基线模型在20个任务上的ADE结果进行比较。“2”表示从源域到目标域。A、B、C、D和E分别代表ETH、HOTEL、UNIV、ZARA1和ZARA2。0方法 年份 性能 (FDE) (源到目标) 平均0A2B A2C A2D A2E B2A B2C B2D B2E C2A C2B C2D C2E D2A D2B D2C D2E E2A E2B E2C E2D0Social-STGCNN [ 48 ] 2020 3.24 2.86 2.53 2.43 5.16 2.51 4.86 2.88 2.30 1.34 1.74 1.10 2.21 1.99 1.41 0.88 2.10 2.05 1.47 1.01 2.30 PECNet [ 47 ] 2020 3.33 2.83 2.53 2.45 5.23 2.48 4.90 2.862.22 1.32 1.68 1.12 2.20 2.05 1.52 0.88 2.10 1.84 1.45 0.98 2.29 RSBG [ 62 ] 2020 3.42 2.96 2.75 2.50 5.28 2.59 5.19 3.10 2.36 1.55 1.99 1.37 2.28 2.22 1.77 0.97 2.19 2.29 1.81 1.34 2.50 Tra2Tra [74 ] 2021 3.29 2.88 2.66 2.45 5.22 2.50 4.89 2.90 2.29 1.33 1.78 1.09 2.26 2.12 1.63 0.92 2.18 2.06 1.52 1.17 2.34 SGCN [ 60 ] 2021 3.22 2.81 2.52 2.40 5.18 2.47 4.83 2.85 2.24 1.32
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 最优条件下三次B样条小波边缘检测算子研究
- 深入解析:wav文件格式结构
- JIRA系统配置指南:代理与SSL设置
- 入门必备:电阻电容识别全解析
- U盘制作启动盘:详细教程解决无光驱装系统难题
- Eclipse快捷键大全:提升开发效率的必备秘籍
- C++ Primer Plus中文版:深入学习C++编程必备
- Eclipse常用快捷键汇总与操作指南
- JavaScript作用域解析与面向对象基础
- 软通动力Java笔试题解析
- 自定义标签配置与使用指南
- Android Intent深度解析:组件通信与广播机制
- 增强MyEclipse代码提示功能设置教程
- x86下VMware环境中Openwrt编译与LuCI集成指南
- S3C2440A嵌入式终端电源管理系统设计探讨
- Intel DTCP-IP技术在数字家庭中的内容保护
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功