没有合适的资源?快使用搜索试试~ 我知道了~
With the increase of motion diversity and complexity,155800通过分布区分个性化轨迹预测0Guangyi Chen 1 , 2 , 3 , Junlong Li 1 , 2 , 3 , Nuoxing Zhou 1 , 2 , 3 , Liangliang Ren 1 , 2 , 3 , Jiwen Lu 1 , 2 , 3 , �01 清华大学自动化系,中国02 国家智能技术与系统重点实验室,中国03 北京信息科学与技术国家研究中心,中国0chen-gy16@mails.tsinghua.edu.cn; {ljlong.leo,nuoxingzhou}@gmail.com;0renliangliang@cvte.com; lujiwen@tsinghua.edu.cn0摘要0轨迹预测面临着一个困境,即如何捕捉未来动态的多模态特性,既要具备多样性又要准确。在本文中,0捕捉未来动态的多样性和准确性。本文提出了0通过区分潜在分布,我们提出了一种预测个性化运动模式的分布区分(DisDis)方法。受到运动模式0每个人的运动模式都是个性化的,由于他/她的习惯,我们的DisDis学习潜在分布来表示不同的运动模式,并通过对比区分进行优化。这种分布区分鼓励潜在分布更具区分能力。我们的方法可以作为插件模块与现有的多模态随机预测模型集成,以学习更具区分能力的潜在分布。为了评估潜在0分布,我们进一步提出了一种新的度量方法,概率累积最小距离(PCMD)曲线,该曲线在排序后的概率上累积计算最小距离。在ETH和UCY数据集上的实验结果表明了我们方法的有效性。101. 引言0人类轨迹预测旨在预测未来的行人轨迹0在复杂的动态环境中,通过观察历史行为来预测人类轨迹[1,12, 18, 31]0在开发安全的人机交互自动系统(如自动驾驶车辆[28]、社交机器人[4]和智能监控应用[5, 3,6])方面,人类轨迹预测发挥着关键作用。0预测人类轨迹面临严峻的挑战0面对相同的环境和社交互动,建模人类行为的不确定性是一个挑战。0� 通讯作者 1 代码和视频演示可在https://github.com/获取0CHENGY12/DisDis0图1.以三口之家为例,说明动机。具有相似历史轨迹的家庭成员(父亲、母亲和孩子)可能由于他们的习惯而具有不同的运动模式。(最好以彩色查看)0人类可能采取不同的合理行动。例如,为了避免与其他行人发生碰撞,可以选择停下来片刻或加快速度。为了生成多模态的未来状态而不是确定性轨迹,许多方法[12, 18, 32,50]采用生成对抗网络[11](GAN)来扩展预测的分布并覆盖可能路径的空间,而一些方法[19, 16,34]则应用条件变分自编码器(CVAE)[35]来明确地编码具有潜在变量的多模态分布。0使用先验高斯分布的随机预测不足以覆盖未来可能性的广泛范围。如图1所示,考虑到具有不同习惯的三口之家,即使给出相似的轨迹,运动模式也总是不同的。例如,孩子倾向于直接去学校,而父亲可能会右转坐公交车。尽管一些方法[9, 16,34]尝试为不同的人使用不同的潜在分布,但这些潜在分布的区分能力有限。该模型无法始终生成适当的155810通过最可能的方式输出。明显的一点证据是现有生成方法中最可能的单个输出与后验选择的最佳输出之间存0现有生成方法[9,34]中最可能的单个输出与后验选择的最佳输出之间存在较大的性能差距。最可能的单个输出的性能差表示学习到的分布不能表示个性化倾向。自动驾驶系统从学习到的分布中采样可能的轨迹来做决策。良好的潜在分布对于减少采样成本而无性能下降至关重要。0为了克服上述问题,本文提出了一种。0一种分布判别方法(DisDis)来学习个性化的多模态分布,其中每个人的行为模式被建模为潜在分布。与其他基于统一先验分布的生成预测方法不同,我们学习了一个分布判别器来区分潜在的行为模式。在没有任何额外监督信号的情况下,我们以自监督的方式优化分布判别器,鼓励相同运动模式的潜在变量分布相似,同时将不同运动模式的潜在变量分布推开。然而,盲目增加潜在分布的判别能力可能会破坏预测的准确性。因此,我们还优化了。0潜在分布的判别能力可能会破坏预测的准确性。因此,我们还优化了。0通过策略梯度算法将潜在分布与预测准确性相结合。为了评估学习到的潜在变量是否能够表示运动模式,我们进一步提出了一种新的评估指标,用于评估随机轨迹预测方法。我们计算概率累积最小距离(PCMD)曲线,以综合稳定地评估学习到的模型和潜在分布,该曲线从高概率到低概率逐渐选择采样轨迹与真实轨迹之间的最小距离。我们强调DisDis方法。0是一个即插即用的模块,可以与现有的多模态随机预测模型集成,以增强潜在分布的判别能力。需要注意的是,DisDis方法只改变了损失函数,没有引入任何额外的参数。我们展示了我们的。0DisDis方法在ETH [21]和UCY[27]数据集上取得了改进的性能。我们总结主要贡献如下:0• 我们提出了一种DisDis方法来学习判别。0通过自监督对比学习和一致性约束的离散优化,实现了个性化的潜在分布。0• 我们进一步提出了一种用于随机方法的新度量。0综合稳定地评估多模态分布下的预测轨迹的方法。0• 所提出的DisDis方法可以与现有的方法集成。0现有的随机预测方法在实验中取得了改进的性能。02. 相关工作0社交互动:许多先前的方法模拟了现有的随机预测器,并在实验中取得了改进的性能。0基于手工规则的能量潜力的复杂社交人际互动,例如社交力模型[14]、连续动力学[41]、离散选择框架[2]、高斯过程[39, 43]、人群分析[30,46]和社交敏感性[29]。随着深度学习的发展,一些方法[1,12]使用社交汇聚层来聚合邻近轨迹的线索,而注意力模型[42, 32, 18, 10, 23,22]也被引入来区分不同邻居或线索的重要性。为了进一步分析社交互动,许多最近的方法[48, 47, 16, 34, 18, 24, 15,37]将时空图作为社交互动的编码器。除了人际互动外,许多研究[19, 33, 45,18]还将环境互动(例如物理场景)作为额外的线索。0确定性预测:大多数先前的方法[14,01, 20, 48, 25, 45,42]以确定性的方式预测人类轨迹。它们将轨迹预测视为序列预测问题,并应用诸如循环神经网络(RNN)[1, 45, 42,48]、时态卷积神经网络(TCNN)[25]和逆强化学习(IRL)[20]等模型。例如,Social LSTM[1]使用LSTM网络对每个历史轨迹进行编码,并使用社交汇聚层连接相邻轨迹,然后应用LSTM解码器进行顺序预测,而Nikhil等人[25]则使用时态CNN模型人类运动的时间连接并预测未来运动。IRL方法[20]将运动视为马尔可夫决策过程进行优化。然而,这些确定性模型无法处理人类行为的多种可能性。0随机预测:为了探索未来状态的不确定性,提出了许多随机预测方法来预测多个可能的路径。这些方法0未来状态,许多随机预测方法被提出来预测多个可能的路径。这些方法总是将潜在变量引入原始预测器,如GAN[11]模型或CVAE [35]。基于GAN的方法0方法[12, 18, 32, 50, 8,36]隐式地建模多模态并通过鉴别器优化生成的轨迹,而基于CVAE的方法[19, 16,38, 34,23]明确地表示多模态分布并通过先验和后验分布之间的约束进行学习。随机方法生成一个潜在的分布,而不是预测一个最可能的单一输出。然而,随机模型[12,34]在最可能的单一输出和从分布中选择最佳后验之间存在较大的性能差距。这表明潜在分布没有很好地学习到表示个性化未来行为。为了解决这个问题,我们提出了一种DisDis方法,以自监督的方式区分潜在分布。0潜在运动路径的分布,而不是预测一个最可能的单一输出。然而,在随机模型[12,34]中,最可能的单一输出与从分布中选择的最佳后验之间存在较大的性能差距。这表明潜在分布没有很好地学习到表示个性化未来行为。为了解决这个问题,我们提出了一种DisDis方法,以自监督的方式区分潜在分布。,(2)1558203. 方法03.1. 问题定义0我们将行人轨迹预测任务定义为0一个序列预测问题,从先前的移动和社交互动中提取线索,预测行人可能的未来导航移动。预测模型的输入是场景中观察到的N个历史人类轨迹,xi = {(xt, yt) ∈0i, yt0R2|t = 1, 2, ..., Tobs},对于 �i ∈ {1, 2, ..., N},其中 (xt, yt) 是时间点t的2D位置。0i, yt0i)是时间点t的2D位置。给定所有0上述输入,我们的模型的目标是学习潜在分布,生成可能的未来轨迹yi = {(xt, yt) ∈ R2|t= Tobs + 1, Tobs + 2, ..., Tpred}。0i, yt0i) ∈ R2|t = Tobs + 1, Tobs + 2, ..., Tpred}。0为了简单起见,我们在0以下描述中,分别用x和y表示观察到的和未来的轨迹。0变分轨迹预测方法[19, 16,038, 34,23]总是学习一个潜在变量来编码多模态分布并生成随机的未来状态。预测过程如下:潜在变量0变量z是从分布pθ(z|x)中生成的,未来轨迹y是由生成分布gψ(y|x,z)预测的。这个生成过程可以被表示为目标分布p(y|x):0p(y|x) =0gψ(y|x, z)pθ(z|x)dz. (1)0在训练过程中,分布 pθ(z|x)受到先验分布的Kullback-Leibler约束。传统上,先验分布是固定的,即高斯分布 N(0,I)。这意味着预测的轨迹y受到固定的N(0,I)的控制,而不是真实世界的个性化运动分布。03.2. 分布鉴别0个性化的运动模式。我们的工作的核心是学习一个有区分性的潜变量分布。与原始的变分预测方法不同,原始方法只学习建议分布和先验分布之间的一致性约束,我们学习一个分布鉴别器来区分潜在的行为模式。我们在潜变量分布的优化过程中强制执行三个重要的准则:0• 潜变量分布应该有助于预测0准确的行人轨迹。除了多模态运动的多样性之外,准确性对于轨迹预测系统也非常重要。0对于多模态运动的多样性,预测模型的准确性对于轨迹预测系统也非常重要。0• 潜变量分布应该是一致的0用于历史轨迹和相应未来轨迹的0预测。我们假设同一个人的运动模式是一致的,由于历史轨迹和未来轨迹的关系。0同一个人的运动是一致的,这是由于他/她的习惯和个性。0• 潜变量分布应该是有区分性的0为了建模个性化的运动模式,我们鼓励相同运动模式的潜变量分布相似,而将不同运动模式的潜变量分布推开。0为了实现这些准则,我们制定了以下损失函数:0函数用于学习潜变量分布:0LDisDis(ψ,φ,θ) = L1(φ,θ)0= LKL0∫qφ(z|x,y)||pθ(z|x)0�0- λEqφ(z|)[loggψ(y|x,z)]0- µ Eqφ(z)0∫0log h(z,x)0qφ(z)h(z,x)0�0其中h(z,x)表示保持z和x之间的互信息的密度比,λ和µ是平衡目标函数中不同项影响的两个超参数。qφ(z)是通过从分布qφ(z)=qφ(z|x)pD(x)[49]中无偏采样评估的边缘分布,其中pD(x)表示由训练集(或批次中选择的样本)近似的真实潜在分布。我们解释了DisDis损失函数的每一项如下:0• 受CVAE [35]的启发,我们减小KL散度0在(2)的第一项中,我们计算了建议分布qφ(z|x,y)和先验分布pθ(z|x)之间的KL散度。建议分布编码了未来的运动,而先验分布只观察历史轨迹。这个负的KL散度鼓励从历史和未来运动生成的潜变量的一致性。0• 我们还鼓励学习到的潜变量预测0与传统VAE方法中重建部分从分布中采样潜变量以独立优化预测器gψ不同,我们同时学习潜变量分布和预测器。我们应用离散优化算法,如策略梯度,来学习潜变量分布,因为采样过程不能直接通过梯度反向传播进行优化。0�L2(φ) ≈ -10N个0i=10�φ log qφ(zi|xi,yi)R0∑, (3)0策略被定义为潜变量的采样过程,奖励R表示负的L1范数。策略梯度是通过选择N个样本使用蒙特卡洛方法估计的。zzzFigure 2, we optimize a discriminative latent space,where the trajectories with the same motion patternhave similar representation while negative trajectoriesare pushed away. We predict a latent distribution asthe motion pattern to optimize the embeddings of tra-jectories and latent distributions as pseudo labels. Notethat profiting from the consistency constraint in L2, weoptimize prior distribution pθ(z|x) to replace qφ(z|x),(from L3(φ) to L3(θ) ). In the following, we give twoperspectives to understand our distribution discrimi-nation formulation in L3(θ), including the contrastivemetric learning and mutual information optimization.fi∼pD(f)�,(5)∕(7)155830编码器0编码器0编码器0z 解码器0解码器0解码器0分布鉴别0图2.DisDis方法的训练过程。DisDis将潜在分布视为运动模式,并优化具有相同运动模式的轨迹靠近,而具有不同模式的轨迹被推开,相同的潜在分布用相同的颜色表示。对于给定的历史轨迹,DisDis预测一个潜在分布作为运动模式,并将潜在分布作为判别来联合优化轨迹和潜在分布的嵌入。(最佳观看效果为彩色)0• (2)的最后一项优化了判别能力0潜在变量的分布鉴别的主要思想是区分个性化的运动模式(潜在变量)。如图所示。0对比度度量学习的角度:我们将轨迹x的嵌入f的h(z, x)定义为基于能量的模型:0鼓励模型学习一个有区分性的潜在变量空间,其中潜在分布(运动模式)表示轨迹的识别目标。考虑图2,我们优化一个有区分性的潜在空间,其中具有相同运动模式的轨迹具有相似的表示,而负面轨迹则被推开。我们将潜在分布作为运动模式来优化轨迹和潜在分布的嵌入,并将潜在分布作为伪标签。需要注意的是,在L2中受益于一致性约束,我们优化先验分布pθ(z|x)来替代qφ(z|x),(从L3(φ)到L3(θ))。接下来,我们从两个角度来理解我们在L3(θ)中的分布鉴别公式,包括对比度度量学习和互信息优化。0其中WTf是线性变换,用于预测运动模式z和输入x之间的关系。我们假设潜在变量表示运动模式,并将具有相同运动模式的轨迹称为正向轨迹f+,将其他轨迹称为负向轨迹f-。当使用这个线性变换来参数化pθ(z|x)时,我们可以得到z = WTf = WTf+,并将原始的L3(θ)写为:0h(z, x) = exp(zTW Tf), (4)0fi � pD(f) exp(d(f, fi))0L3(θ) = -log exp(d(f, f+)) �0� 1 +0fi �pD(f)0exp(d(f, fi) - d(f, f+))0其中,d(f, f+) =fTWWTf+是嵌入f的马氏距离,可以用其他距离(如余弦距离)替代。我们用轨迹嵌入或正向嵌入的投影来表示潜在变量z。这个公式被视为典型的度量学习目标,完全侧重于缩短具有相同运动模式的轨迹嵌入之间的距离,同时增大不同运动模式之间的距离。0互信息优化的角度:0分布鉴别也等于优化互信息I(z,x),它表示观测轨迹x和对应的潜在运动模式z之间的依赖关系。当基于能量的函数h(z,x)被定义为pθ(z|x)和pθ(z)之间的密度比时:0h(z, x) ∝ p0pθ(z), (6)0我们将L3重新定义为互信息的下界:0L3(θ) = -Ez log0� pθ(z|x)0z)0p0pθ(z) + �0zi /= z0pθ(zi|x)0pθ(zi)0�0>= -I(z, x) + log(N'),0其中N'是选择的负样本数量。因此,最小化分布判别损失等价于增加x和z之间的互信息,从而减少信息偏好问题[7]。正式证明由[26]给出。03.3. 讨论0与InfoVAE的关系:InfoVAE [49]方法通过近似qφ(z)和p(z)之间的KL散度来优化互信息。然而,使用x0通过使用x ~p(x)的采样评估qφ(z),优化互信息。然而,这可能引入额外的噪声,影响KL散度的计算。事实上,我们主要关注分布判别。trajectories are sampled in 0.4 seconds (20 frames), wherethe first 3.2 seconds correspond to observed data and thenext 4.8 seconds correspond to predicted future data.155840(a) 基于ADE的CDM曲线0(b) 基于FDE的CDM曲线0图3. 基于ADE和FDE的CDM曲线的消融比较。我们设置采样M =80,并绘制前10个排名。数值越低越好。0引入额外的噪声,影响KL散度的计算。事实上,我们主要关注分布判别。0在我们的DisDis方法中,我们优化互信息的下界而不是计算KL散度,因为KL散度在最大化互信息时并不关注其精确值。在实验中,我们保持了InfoVAE中的互信息项,并添加了我们的对比判别。结果显示了添加对比判别的优势。0分布判别。0对比学习[13, 40,44]是一种自监督方法,鼓励在同一场景的不同视图下进行紧密嵌入。传统对比学习方法与我们的DisDis方法有两个主要区别:1)我们的方法的目标是学习潜在变量分布,而不是无监督表示学习;2)我们鼓励轨迹嵌入与相同运动模式的轨迹嵌入接近,而不是相同轨迹的不同视图。一个直观的解释是,我们将潜在变量视为伪标签,而传统对比学习方法将相同轨迹的增强样本视为一个类别。04. 实验0在本节中,我们首先提出了一种新的评估指标0对于随机预测算法,我们考虑了在学习分布下的综合评估。然后,我们在两个公开的人类轨迹预测数据集ETH[27]和UCY[21]上评估我们的DisDis方法。在定量方面,我们进行了消0研究,将我们的方法与基线模型进行比较,包括VAE、CVAE、InfoVAE以及VAE和对比学习的组合。此外,我们还比较了我们的方法与其他最先进的人类轨迹预测方法。0方法与其他最先进的人类轨迹预测方法进行比较。在定性方面,我们提供了在真实环境下的可视化解释,并展示了所提出的DisDis方法可以学习到有区分性的潜在模式模型。04.1. 数据集和实验设置0数据集:我们的实验在两个公开数据集上进行0公开数据集ETH [27]和UCY[21],这些数据集是人类轨迹预测任务的主要基准。这些数据集包含1536个检测到的行人在五个独特的场景中:Zara1、Zara2、Univ、ETH和Hotel。我们遵循常用的留一集交叉验证评估策略,即在四个场景上进行训练,在剩下的一个场景上进行测试[12, 18, 15, 34]。所有0评估指标:与先前的方法相同的评估指标0轨迹在0.4秒(20帧)内进行采样,其中前3.2秒对应观测数据,接下来的4.8秒对应预测的未来数据。0与确定性预测不同,随机预测方法生成未来运动的多模态分布,并使用它来计算ADE和FDE。0采用了先前的方法[12, 18, 15,34],包括平均位移误差(ADE)和最终位移误差(FDE)。ADE计算预测轨迹和真实轨迹中所有估计位置的均方误差(MSE),而FDE计算预测的最终目的地与真实的最终目的地之间的距离。0•“最可能”策略预测最可能的单个点0预测方法生成了多模态分布下的未来运动。对于预测的多模态轨迹,有两种广泛使用的策略来计算ADE和FDE:0•“最佳N”策略生成N个样本(即N = 20 [12, 34,18]来评020 [12, 34,18])基于预测分布,并选择与真实值最接近的样本来计算ADE和FDE指标。它评估了多模态分布下的输出,并使用它来计算ADE和FDE。它将0通过考虑尽可能多的样本,以获得模型的最佳性能。0然而,这两种策略都忽略了对学习到的潜在分布的评估。对于随机预测算法来说,潜在变量代表了人类的个性化运动模式,因此对于潜在分布的评估至关重要。在本文中,我们提出了一种新的评估策略,称为概率累积最小距离(PCMD)曲线,用于评估多模态分布下的预测模型。我们的PCMD评估指标有两个动机:1)虽然最可能策略考虑了潜在分布,但它只评估了最可能的点。单个点无法代表潜在分布。2)最佳N策略从潜在分布中采样多个点。然而,它只使用最佳点进行评估,忽略了每个样本的概率。与这两种策略不同,PCMD考虑了具有相关性的预测。MethodsPCMDADE@{ 1M / 5M / 20M }|M = 80ETHHOTELZARA1ZARA2UNIVAVGSocial-GAN [12]0.98/0.82/0.73 0.63/0.54/0.48 0.47/0.38/0.33 0.39/0.33/0.3 0.64/0.58/0.55 0.62/0.53/0.48STGAT [15]1.03/0.89/0.78 0.59/0.45/0.38 0.53/0.39/0.33 0.43/0.34/0.29 0.68/0.59/0.56 0.65/0.53/0.47Social-STGCNN [24] 1.01/0.87/0.76 0.74/0.53/0.42 0.57/0.42/0.34 0.51/0.38/0.31 0.71/0.59/0.51 0.71/0.56 0.47Trajectron++ [34]0.73/0.58/0.43 0.27/0.19/0.11 0.30/0.20/0.13 0.22/0.16/0.10 0.39/0.27/0.17 0.38/0.28/0.19DisDis(Ours)0.71/0.55/0.38 0.25/0.17/0.11 0.28/0.20/0.13 0.22/0.16/0.10 0.36/0.27/0.17 0.36/0.27/0.18MethodsPCMDF DE@{ 1M / 5M / 20M }|M = 80ETHHOTELZARA1ZARA2UNIVAVGSocial-GAN [12]1.98/1.58/1.40 1.36/1.14/1.02 1.02/0.79/0.67 0.87/0.70/0.63 1.38/1.24/1.17 1.32/1.09/1.03STGAT [15]2.20/1.86/1.52 1.21/0.89/0.73 1.17/0.81/0.67 0.94/0.70/0.60 1.49/1.28/1.20 1.40/1.11/0.94155850表1.与几种最先进的模型进行PCMD曲线比较。所有模型均使用先前在线发布的代码进行复现。我们显示了PCMD曲线上排名为1、5和20的值。数值越低越好。0Social-STGCNN [24] 1.83/1.54/1.29 1.42/1.00/0.74 1.13/0.79/0.57 0.97/0.69/0.52 1.38/1.15/0.98 1.35/1.03/0.820Trajectron++ [34] 1.73/1.36/0.92 0.57/0.37/0.18 0.76/0.49/0.27 0.57/0.41/0.23 0.99/0.67/0.36 0.93/0.66/0.390DisDis(我们的方法)1.67/1.24/0.75 0.52/0.33/0.18 0.73/0.50/0.27 0.56/0.41/0.22 0.92/0.66/0.37 0.88/0.63/0.360表2. 使用最佳20策略与SOTA模型的比较0方法 ADE FDE0Social-GAN [12] 0.58 1.180STGAT [15] 0.43 0.830Social-STGCNN [24] 0.44 0.750Trajectron++ [34] 0.19 0.410DisDis(我们的方法)0.17 0.370对应的概率,用于评估模型在整个潜在分布下的性能。受到识别任务中累积匹配特征曲线(CMC曲线)的启发,我们从高概率到低概率累积计算最小ADE和FDE。0形式上,给定分布pθ(z|x),z∈Ω,我们可以0定义一个投影为:0F(τ)= Ez∈ΩI(pθ(z|x)≥τ),(8)0其中输入表示选择的概率值τ∈(min pθ(z|x),maxpθ(z|x)),I是一个指示函数,而输出F(τ)∈(0,∥Ω∥)表示满足条件的z的区间长度。我们定义k=F(τ)0∥Ω∥为0将其归一化为(0,1),如果潜在空间Ω是有限的。(当我们通过蒙特卡洛方法离散近似时,可以忽略条件∥Ω∥→∞。)我们得到PCMD曲线的值为:0PCMD(k)= Ex min {D(z)|pθ(z|x)≥τ,z∈Ω},(9)0其中D(z)表示基于地面真值和采样预测轨迹之间的ADE或FDE距离。0对于满足条件pθ(z|x)≥τ的所有采样潜变量,PCMD(k)表示最小ADE或FDE距离。较低的PCMD值表示我们可以在相同的采样数量下获得更好的性能。这对于自动驾驶系统至关重要,因为更多的采样意味着更多的时间延迟。0满足条件pθ(z|x)≥τ的所有采样潜变量的FDE距离。较低的PCMD值表示我们可以在相同的采样数量下获得更好的性能。这对于自动驾驶系统至关重要,因为更多的采样意味着更多的时间延迟。0变量zi∈Ω|i=1,2,∙∙∙,M}进行排序,按照概率pθ(zi|x)从大到小排序,得到排序后的变量Zsort={z*,z*,∙∙∙,z*}i0i}。然后,PCMD的值为0计算如下:0PCMD(k)= Ex min{D(z)|z∈{z*,z*,∙∙∙,z*}i}。然后,PCMD的值为01,z02,∙∙∙,z*0m}},(10)0其中k=mM表示数值计算中的排名比例。0计算中,例如当k=20时,我们计算前20个概率轨迹的最小ADE/FDE。0M0提出的PCMD曲线具有两个重要优势:0相比现有的评估指标,PCMD具有更全面和更稳定的优势。首先,PCMD通过概率的累积来全面分析潜在分布,而其他评估指标可以看作是PCMD曲线的一部分。PCMD(1/M)表示最可能的单一输出ADE/FDE性能,而PCMD(N/M)表示具有前N个最高概率轨迹的最佳ADE/FDE性能。注意,在计算PCMD时,我们使用的是最佳N而不是最佳M。0最可能的单一输出ADE/FDE性能,而PCMD(N/M)表示具有前N个最高概率轨迹的最佳ADE/FDE性能。注意,在计算PCMD时,我们使用的是最佳N而不是最佳M。0为了公平比较,我们在实验中为所有方法使用相同的采样数量。0此外,提出的PCMD曲线比现有方法更稳定。0由于随机采样带来的大量性能抖动,我们使用“最佳N”评估来减少这种随机性。PCMD通过更大的采样M(M�N)来减少这种随机性。155860我们的 基线 真值 观察到的0我们的方法0基线0图4. 学习到的分布示例。我们比较了我们的方法和Trajectron++[34]基线在4个不同场景中的学习到的分布,包括一个行人独自行走;行人并行行走;行人跟随前面的人;行人从不同方向相遇。我们绘制了20个最高排名的轨迹以展示分布。0更稳定的表达(曲线而不是数字)。对于离散潜在分布,我们可以通过完全采样获得完全固定的评估。采样M条轨迹仅在评估不同模型并选择更好的模型时进行。在实际场景中,我们只能使用选定的模型生成具有较高概率的一部分轨迹。04.2. 实现细节0我们选择了SOTA的Trajectron++ [34] 2方法,0基于CVAE和InfoVAE的DisDis作为基线和改进方法。我们遵循Trajectron++的编码器和解码器网络,并进行了一些修改以便于公平比较:1)我们没有使用场景线0Trajectron++的网络,并进行了一些修改以便于方便和公平的比较:1)我们没有使用场景线索(例如局部地图)并去除了复杂的动力学。0集成以获得更简单的嵌入;2)我们使用更高维度的离散变量(|Z|=80)对潜在变量进行建模,更好地评估学习到的潜在变量分布;3)我们使用固定的最可能输出替代了高斯输出结构,这样保证多样性仅来自学习到的潜在分布。我们采用与Trajectron++[34]相同的数据预处理策略,将场景中的轨迹围绕场景原点旋转15度间隔。04.3. 定量评估0与基线方法的比较:我们进行了对比研究。0比较研究以相同的网络实现和不同的潜在分布学习方法比较我们的方法与以下基线方法:1)VAE[17]优化潜在分布以接近固定的先验分布。2)CVAE[35]通过KL散度学习潜在变量,该散度衡量了提议分布qφ(z|x,y)与先验分布pθ(z|x)之间的差异。3)CVAE + InfoVAE[49]通过近似计算qφ(z)进一步考虑x和z之间的互信息。4)CVAE +0对比学习优化了相同轨迹的不同视图的相似潜在变量。02我们使用官方发布的Trajectron++ [34]方法进行了复现。0代码来自https://https://github.com/StanfordASL/0Trajectron-plus-plus。0我们在我们的项目中评估了我们的方法和基线。0我们在我们的项目中使用提出的PCMD曲线度量对我们的方法和基线进行评估。如图3所示,0原始的VAE基线在最高概率排名上表现最差,这表明固定的先验分布与真实世界的个性化运动分布之间存在偏差,而我们的DisDis由于更具有区分性的分布而获得了最佳的最高排名表现。与CVAE和Info+CVAE相比,我们的DisDis也取得了改进的性能,这表明通过分布判别优化互信息比近似计算qφ(z)更好。此外,DisDis方法优于直接在VAE上应用对比自监督学习。这表明使用潜在分布来表示运动模式比将每个轨迹视为一个运动模式更好。在我们的假设中,具有相同运动模式的轨迹在嵌入空间中被聚类。当增加累积概率的数量时,所有方法之间的性能差距变小,这是因为我们对所有基线方法和我们的方法使用相同的编码器和解码器网络。请注意,当我们采样足够的轨迹时,所有方法的性能将收敛到相同的点,因为我们使用相同的网络。这些方法之间的主要区别是潜在变量的优化策略。在这种设置下,我们的DisDis方法的潜在分布优于其他方法,因为我们可以用更少的采样达到相同的性能。0与SOTA随机方法的比较:我们0我们始终将我们的方法与一系列SOTA随机方法进行比较,包括:Social-GAN [12],STGAT [15],Social-STGCNN[24]和Trajectron++[34]。所有模型都是使用在线发布的代码进行复现,并进行0PCMD曲线度量。如表1所示,我们提供了0提供了一些详细的观点,包括PCMD @ { 1 的性能0M, 50M, 20M }。为了方便起见,我们定义了0PCMD @ { 10M, 50M, 20M }作为排名 1、排名 5 和排名 20。0排名 1的ADE/FDE表示最可能的单一输出ADE/FDE性能,而排名20 的ADE/FDE表示前20个轨迹的最佳ADE/FDE性能155870ETH0我们的 基线 真实 观察0ZARA1 HOTEL ZARA2 UNIV0图5展示了我们的DisDis方法和基线Trajectron++[34]方法在ETH和UCY数据集中不同场景中的可视化示例。我们将最可能的预测结果作为结果,定量地证明了分布区分性学习区分性潜变量分布的有效性。(最好以彩色查看)0概率。我们观察到基线Trajectron++是当前具有强大社交交互表示能力的SOTA方法。通过更好的潜变量,我们的DisDis方法在排名 1 上取得了进一步的改进,而不会牺牲排名 20的性能。这是因为DisDis可以在更高的概率上选择更好的预测轨迹。我们还在表2中报告了最初的“最佳20个”性能。04.4. 定性评估0我们定性分析了我们的DisDis方法如何学习0个人化的潜变量并改进了运动预测。图4可视化了我们方法和基线方法在4个不同场景中学习到的潜变量分布,包括一个行人独自行走;行人并行行走;行人跟随前面的人;行人从不同方向相遇。我们绘制了排名前20的轨迹来表示学习到的分布。对于所有场景,我们观察到我们预测的轨迹与真实轨迹更接近,而基线方法的轨迹与真实轨迹的距离更远,这表明我们的潜变量分布具有更好的区分性。以第一张图像为例,我们的预测轨迹明显比基线方法的轨迹更集中。0此外,我们还提供了可视化示例,展示了0图5中展示了ETH和UCY数据集中不同场景中我们的DisDis方法和基线Trajectron++[34]的最可能预测结果。我们绘制了最可能的预测轨迹。我们观察到0预测轨迹与真实轨迹更相似,这表明我们的方法可以以更高的概率获得更好的预测结果。05. 结论0在本文中,我们提出了一种分布0区分性(DisDis)方法用于区分潜变量0通过自监督对比学习来区分潜变量分布。0DisDis方法鼓励模型学习一个有区分性的潜变量空间,其中具有相同运动模式的轨迹具有相似的潜变量分布,而负面轨迹则被推开。为了评估学习到的潜变量分布,我们进一步提出了概率累积最小距离(PCMD)曲线作为随机轨迹预测方法的度量,该曲线在排序后的概率上累积计算最小距离。最后,我们展示了我们的DisDis方法和基线Trajectron++[34]在ETH和UCY数据集中不同场景中的最可能预测结果。我们观察到0DisDis方法可以与现有的随机预测器集成,并在潜在分布的学习中获得改进。0致谢 本工作部分得到中国国家自然科学基金(Grant61822603、Grant U1813218和GrantU1713214)的支持,部分得到北京人工智能学院(BAAI)的资助,部分得到清华大学郭强研究所的资助。[11] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing[12] Agrim Gupta, Justin Johnson, Li Fei-Fei, Silvio Savarese,155880参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,0Alexandre Robicquet, Li Fei-Fei和Silvio Savarese. Sociallstm: 拥挤空间中的人类轨迹预测。在0CVPR,页码为961-971,2016年。0[2] Gianluca Antonini, Michel Bierlaire和Mats Weber. Dis-0行人行为的离散选择模型。《交通研究B部分:方法论》,40(8):667-687,2006年。0[3] Goutam Bhat, Martin Danelljan, Luc Van Gool和Radu0Timofte.学习用于跟踪的判别模型预测。在ICCV中,页码为6182-6191,2019年。0[4] Changan Chen, Yuejiang Liu, Sven Kreiss和Alexandre0Alahi. 人群-机器人交互:基于注意力的深度强化学习的人群感知机器人导航。在ICRA中,页码为6015-6022,2019年。0[5] Guangyi Chen, Chunze Lin, Liangliang Ren, Jiwen Lu和0Zhou Jie. 自临界注意力学习用于人员再-0识别。在ICCV中,2019
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功