基于运动不确定性扩散的随机轨迹预测

99 浏览量更新于2023-10-25 收藏 3.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17113基于运动不确定性扩散的随机轨迹预测顾天培*，1，5，陈光毅，2，3，李俊龙4，林春泽5，饶永明4，周杰4，陆继文4，1加州大学洛杉矶分校，2MBZUAI，3卡内基梅隆大学，4清华大学、5商汤科技摘要人的行为具有不确定性，这就要求行人轨迹预测系统对未来运动状态的多模态进行与通常使用潜变量来表示多模态的先验随机轨迹预测方法不同，我们显式地模拟了人体运动变化从不确定到确定的过程。在本文中，我们提出了一个新的框架来制定轨迹预测任务作为一个反向的运动不确定性扩散（MID）的过程中，我们逐步放弃不确定性从所有的可步行区域，直到达到所需的轨迹。这个过程是学习的参数化的马尔可夫链条件下观察到的轨迹。我们可以调整链的长度来控制不确定性的程度具体而言，我们将历史事件信息和社会交互编码为状态嵌入，并设计了一个基于Transformer的扩散模型来捕获轨迹的时间依赖性。在Stanford Drone和ETH/UCY数据集上进行的大量人体轨迹预测实验证明了代码可在https://github.com/gutianpei/MID获得。1. 介绍由于人在环境中无处不在，因此人的轨迹预测在自动驾驶汽车和社交机器人等人机交互系统中起着至关重要的作用。尽管在过去几年中已经取得了显著的进展[6，28，29，32，38，45，49，53]，但由于人体运动的多模态性，预测行人的未来轨迹仍然是一个挑战。行人的未来运动轨迹具有很大的不确定性，因为人可以根据自己的意愿改变未来的运动轨迹，也可以根据周围的环境调整自己的运动方向。从观察到的吸毒史来看-*同等贡献。†通讯作者。观察轨迹未来轨迹Fy&……yp！yk#$|yk，&Kyk#$……y%qy k| yk#$多样性确定性图1. 人体运动不确定性变化的逆扩散过程图解.在高度不确定性下，轨迹分布可以被视为噪声高斯分布，其表示模糊的可步行区域。随着不确定性的减小，该分布逐渐逼近真实数据分布，生成期望轨迹。这个从高不确定性到低不确定性的过程被定义为一个反向扩散过程，在这个过程中，我们学习一个马尔可夫链来逐步丢弃不确定性。通过调整链的长度，我们可以在多样性和确定性之间进行权衡，其中较长的链导致较低的多样性和较高的确定性。最好用彩色观看。然而，存在许多行人在未来可以移动的可行路径面对这一挑战，以往的研究大多采用生成模型，用一个潜变量来表示多模态。例如，一些方法[6，9，12，19，37，43，54]利用生成对抗网络（GAN）将分布扩展到所有可能的未来轨迹，而其他方法[3，16，20，25，38，46]利用条件变分自动编码器（CVAE）对未来轨迹的多模态分布进行编码尽管这些方法取得了显著的进步，但仍面临着固有的局限性，例如：由于对抗性学习，GAN的训练过程可能不稳定，CVAE往往会产生不自然的轨迹。在本文中，我们提出了一个新的轨迹预测框架，称为运动不确定性扩散（MID），模拟人类行为的不确定性灵感来自17114在非平衡态热力学中，我们把未来的位置看作是热力学中的粒子在低不确定度下，粒子（位置）聚集并变形为清晰的轨迹，而在高不确定度下，粒子从低不确定度向高不确定度演化的过程称为扩散过程。这个过程可以通过逐渐向轨迹中添加噪声直到路径被高斯噪声破坏来模拟。我们的MID的目标是通过逐步丢弃不确定性来逆转这种扩散过程，并将模糊预测区域转换为确定性轨迹。我们在图1中说明了运动不确定性的反向扩散过程。与其他随机预测方法在运动特征上加入噪声潜变量以获得不确定性不同，我们显式地模拟了运动不确定性的变化过程。我们的MID学习一个马尔可夫链与参数化的高斯transi-tion建模这个反向扩散过程，并训练它使用变分推理条件下观察到的矩阵。通过选择不同的链长，我们可以得到一个灵活的不确定性，能够适应动态环境的预测此外，我们的方法比GAN更有效地训练，并且能够产生比CVAE更多的高质量样本。更具体地说，我们通过时空图网络将历史人类活动和社会互动编码为状态嵌入。然后，我们利用这种状态嵌入的马尔可夫链的条件，以指导反向扩散过程的学习。为了对轨迹中的时间依赖进行建模，我们精心设计了一个基于transformer的架构作为MID框架的核心网络。在训练过程中，我们用变分下界优化模型，在推理过程中，我们从噪声分布中通过渐进去噪采样合理的轨迹。大量的实验表明，我们的方法准确地预测了多模态的合理未来轨迹，在斯坦福 Drone 和ETH/UCY数据集上取得了最先进的结果。我们总结了本文的主要贡献如下：• 本文提出了一种新的随机轨迹预测框架，该框架具有运动不确定性扩散，逐渐丢弃不确定性，以从模糊的可步行区域获得期望的轨迹。• 我们为所提出的框架设计了一个基于transformer的架构，以捕获轨迹中的时间依赖性。• 该方法在广泛使用的人体轨迹预测基准上实现了最先进的性能，并为平衡预测的多样性和准确性提供了潜在的方向。2. 相关工作行人轨迹预测：给定观察到的路径，人类轨迹预测系统旨在估计未来的位置。现有的大多数方法将轨迹预测问题描述为序列预测问题，并侧重于对复杂的社会交互进行建模。例如，社会力量[13]引入了吸引力和排斥力来模拟人类的互动。随着深度学习的发展，许多方法设计了巧妙的网络来模拟社会互动。例如，Social- LSTM [1]设计了一个社交池层来聚合社区的交互信息。一些方法应用注意力模型[10，19，37，47，51]来探索人群的关键交互。此外，时空图模型被应用于对时间线索和社会交互进行联合建模[15，16，30，38，44，50]。除了社交互动，许多方法通过引入地图图像来结合物理环境互动[6，19，20，28，37]。最近，一些方法分析了社会互动的影响，并显示它是有偏见的[2，27]。随机预测模型：由于人类行为的内在不确定性，许多随机预测方法被提出来模拟未来运动的多模态。一些方法[6，9，12，19，37，43，54]采用GAN [11]对具有噪声变量的多模态进行建模，另一种方法[3，16，20，25，38，46]适用[41 ]第41话。此外，一些方法[7，23，24]提出学习用于多模态概率预测的基于网格的位置编码器。最近，在轨迹预测系统中引入了pedes- trians[28，29，52，53]的目标，虽然这些随机预测方法已经取得了显著的进展，但它们也存在一些固有的局限性，例如：不稳定的训练或不自然的轨迹。本文提出了一种新的具有运动不确定性扩散的随机框架，将轨迹预测问题表示为从模糊可行走区域到期望轨迹的过程去噪扩散概率模型：去噪扩散概率模型（DDPM）[14，40]，简称扩散模型，是一类受非平衡热力学启发的深层生成模型。它首先由Sohl-Dickstein等人提出。 [40]并且最近由于各种生成任务中的最新技术水平而引起了广泛关注，包括图像生成[5，8，14，31]，3D点云生成[26，55]和音频生成[4，18，34]。扩散模型通常学习一个参数化的马尔可夫链，从一个原始的共同分布到一个特定的数据分布逐渐去噪。在本文中，我们引入扩散模型来模拟轨迹预测的不确定性的变化，并设计了一个基于transformer的架构的时间依赖的轨迹。17115过去轨迹2X21X1X&3未来轨迹MSEn ~n（0，1X1y1FC…y0时间社会编码器y*FCTransformerFC…）%（一）$S1 S1 S1 …4S1&S12S11S1K···K···不{∈|···s=1FNKKKKK0KK0K-QK图2.我们的MID框架的架构。MID由一个时间-社会编码器网络和一个基于Transformer的解码器网络组成。编码器将历史路径和社交互动线索映射到状态嵌入中。然后，解码器将yk与状态嵌入和时间嵌入一起进行，其中yk被来自地面实况轨迹y0的噪声变量破坏k次。我们学习模型的MSE损失之间的模型输出和噪声变量在标准高斯分布。3. 该方法在本节中，我们介绍了我们的MID方法，它通过运动不确定性扩散来建模随机轨迹预测任务。我们首先明确地将不确定性变化表示为一个反向扩散过程.然后，我们描述了如何使用变分推理来训练这个扩散模型最后，我们展示了我们的方法的详细网络架构，如图2所示。3.1. 问题公式化行人轨迹预测的目标是根据行人先前的运动为他们生成合理的未来轨迹。预测系统不yK和数据分布下的期望轨迹y0，我们定义扩散过程为（y0，y1，，yK），其中K是扩散步骤的最大数目。该过程旨在逐渐增加不确定性，直到地面实况轨迹被破坏成嘈杂的可行走区域。相反，我们学习逆过程（yK，yK−1，，y0）来逐渐减少y K的不确定性以生成投射。扩散过程和逆扩散过程都是由具有高斯转移的马尔可夫链来表示的。首先，我们将从y0到yK的扩散过程的后验分布公式化为：q（y1：K|y0）：=Yq（yk|yk−1）是场景中的N个历史轨迹，使得xi={si∈R2|t= −T init，−T init+1，···，0}，i ∈ {1，2，···，N}，q（y|yk=1）：=N（y;β1−βy，βI），（一）t初始化其中β1，β2，···βK是固定方差矩阵，注意观察到的轨迹的长度，以及电流时间戳为t= 0。类似地，预测的未来预测可以写为yi=siR2t=1，2，.，T pred。为了清楚起见，我们使用x和y而不带上标i来表示历史和未来的轨迹在下面的小节。控制注入噪声的规模。由于高斯跃迁的显著特性，我们以封闭形式计算任何步骤k处的扩散过程：q（y |y）：= N（y; α<$y，（1 − α<$）I），（2）3.2. 运动不确定性扩散由于人类行为的不确定性，每个人在未来状态中有多条可能的路径。因此，我们提出了一个新的框架，制定的随机轨迹预测的运动不确定性扩散。与其他随机预测方法不同，这些方法在轨迹特征上添加潜在变量以获得不确定性，我们的MID通过使用参数化马尔可夫链将所有可步行区域的不确定性逐渐减少到确定性如图1所示，给定初始模糊区域，其中α k=1β k，α<$k=kα s。因此，当K足够大时，我们近似地得到，（0，1）。结果表明，当逐渐加入噪声时，信号被破坏成高斯噪声分布，这符合扩散过程的非平衡热力学现象。接下来，我们将轨迹生成过程表示为来自噪声分布的逆扩散过程。我们用参数化的高斯变换来模拟这个逆过程，并给定由时间-社会编码器学习的状态特征f，该时间-社会编码器由历史轨迹x作为输入的时间-社会编码器进行参数化，我们其中si是时间戳t处的2D位置，T去k−1k−117116|N-|KK∈···NΣ|Q|q（yk|yk−1）N−将反向扩散过程表示为：在µ k和µθ的平均值之间：p θ（y0：K|f）：=p（yK）Yp θ（yk−1|yk，f）DKL= Eq λµk（yk，y0）-µθ（yk，k，f）ǁ2Σ+C，（八）k=1pθ（yk−1yk，f）：=（yk−1;μθ（yk，k，f）;μθ（yk，k）），（三）其中p（yK）是初始噪声高斯分布，并且θ表示扩散模型的参数两个都是-其中λ和C是对梯度方向没有影响的系数注意，当k =1时，第二项logp θ（y0y1，f）也可以用公式表示为（8）中的形式。最后，我们应用[14]中所示的参数化方法重新参数化：扩散模型θ和编码器网络λ的参数是使用轨迹数据进行训练注意，我们共享所有转换的网络参数. 如前所示，1μθ（yk，k，f）=μαβk（yk−<$1−α<$θ（yk，k，f）），（9）工作[14]中，高斯跃迁的方差项可设为：Σθ（yK，k）=σ2I=β kI。该设置表示数据的逆过程熵的上限，并在实践中显示出良好的性能[40]。3.3. 培养目标在建立了扩散和反向扩散过程之后，我们描述了如何训练扩散模型。为了预测真实的轨迹y0，期望的训练应该在反向过程中优化对数似然E[logpθ（y0）]然而，精确的对数似然是棘手的，因此我们最大化优化的变分下限并获得简化的损失函数为：L（θ，I）=E，y0，k−（θ，I）（yk，k，x），（10）其中（0，I），yk=α<$ky0+1α<$k并且训练在每个步骤k1，2，.，K处执行。（详细推导和详细算法请参见sup.js）补充材料）。3.4. 推理一旦反向过程被训练，我们就可以通过反向过程pθ由噪声高斯yK（0，I）生成合理的轨迹。通过（9）中的重新参数化，我们生成从yK到y0的轨迹为：E[logp（y）]≥ E[logpθ（y0：K，f）]1βky=（y −√n（y，k，f））+nβz，θKθ0qq（y1：K|y0)Kαkk1−α<$k（十一）=E[logp（y）+logp θ（yk−1|yk，f）]。k=1其中z是标准高斯分布中的随机变量。行动与预防θ 是经过训练的网络，其输入包括（四）我们利用负界作为损失函数，并通过优化它来执行训练：KL（θ，θ）=Eq[DKL（q（yk−1|yk，y0）<$p θ（yk−1|yk，f））K=2- logp θ（y0|y1，f）]。（五）在这个损失函数中，我们忽略了（4）中具有Eqlogp（yK）的项，因为p（yK）是标准高斯，q（yKy0）没有可学习的参数，如（2）所示。在这里，我们描述如何计算第一项DKL。DKL中的后验q（yk−1yk，y0）是易处理的，并且可以由高斯分布表示为：q（yk−1|yk，y0）=N（yk−1;μk（yk，y0），βk I），（6）其中计算μk（yk，y0）和βk的闭合形式KKK17117α<$k−1βky+k k−1yKK融合过程前一步K.3.5. 网络架构与基于图像的扩散模型[8，14，31]中广泛使用的UNet [36]不同，我们为我们的MID设计了一种新的基于Transformer的网络架构使用Transformer，该模型可以更好地探索轨迹预测任务的路径具体来说，MID由两个关键网络组成：一个编码器网络，其参数为θ，通过观察到的历史轨迹及其社会交互来学习状态嵌入;以及一个基于transformer的解码器，其参数为θ，用于反向扩散过程。整个架构的概述如图2所示。我们将在下面详细介绍每个部分。编码器网络将历史行为和社会交互建模为状态嵌入f。这个嵌入-如：µ˜√√α(1−α¯)DING被馈送到解码器网络中作为扩散模型请注意，设计网络以建模kk01−α<$k1−α<$kK（七）社会互动不是这项工作的主要重点，βI=1−α<$k−1βI。由于dif1−α<$k（6）和reverse过程（3）都是高斯，我们可以通过差值计算DKL-MID是一个与编码器无关的框架，它可以直接与以前的方法中引入的不同编码器相匹配。在实验中，我们应用Trajec- tron++ [38]的编码器，因为它具有优越的表示能力。（y，y）=017118Nk√ −†对于解码器，我们设计了一个基于Transformer的架构来模拟马尔可夫链中的高斯转换。如图2所示，解码器的输入包括地面实况轨迹y0、噪声变量（0，I），来自编码器的条件特征f，以及时间嵌入。在步骤，我们首先将噪声添加到轨迹中以获得yk=α<$ky0+1好的同时，我们计算时间嵌入，并将其与观察轨迹。然后，我们应用全连接层对轨迹yk和条件f进行上采样，然后将输出求和作为融合特征。我们还以正弦函数的形式引入位置嵌入，以强调在不同轨迹时间戳t处的位置关系。最后，将融合后的特征与位置嵌入相结合，输入到Transformer网络中学习复杂的时空线索。基于Transformer的解码器网络由三个自注意层组成，充分模拟了轨迹的时间依赖性，将高维序列作为输入，输出同维序列。对于全连接层，我们将输出序列下采样到轨迹维度。最后，我们将输出与随机高斯分布之间的均方误差（MSE）损失作为当前迭代的参数，以优化网络。请参阅供应商资料中的网络详细信息。4. 实验在本节中，我们首先将所提出的方法与两种广泛使用的步行轨迹预测基准上的最新方法进行了比较，然后进行了消融研究以分析我们的MID框架的关键组件的有效性，并提供了关于反向扩散过程的分析。4.1. 实验装置数据集：我们在两个公共行人轨迹预测基准上评估了我们的方法，包括斯坦福无人机数据集（SDD）[35]和UCY/ETH [21，33]。斯坦福无人机数据集：斯坦福无人机数据集[35]是鸟瞰图中人类轨迹预测的良好基准该数据集由20个场景组成，这些场景是使用无人机在大学校园周围以自上而下的方式捕获的，其中包含几个移动代理，如人类和车辆。ETH/UCY：ETH [33]和UCY [21]数据集组由五个不同的场景组成所有场景报告了世界坐标中行人的位置，因此我们报告的结果以米为单位。这些场景是在无约束的环境中捕获的，几乎没有物体阻挡行人路径。表1.斯坦福无人机数据集上的定量结果，采用ADE/FDE度量中的20强策略。“T” denotes the method only意味着结果由我们用官方发布的代码复制。越低越好。方法输入采样AdeFDECGNS [22]T + IT + IT + IT + I2020201000015.6010.278.977.8528.20[23]第二十三话19.71[28]第二十八话14.6111.85[28]第二十八话社交GAN [12]TTTTT不20202020202020× 2027.239.968.988.878.6210.677.6541.44PECNet [29]15.88[38]第三十八话19.0215.61LB-EBM [32][45]第四十五话16.16[53]第五十三话14.3814.38[53]第53话中期不207.6114.30评估指标：我们采用了广泛使用的评估指标平均位移误差（ADE）和最终位移误差（FDE）。ADE计算轨迹中所有地面实况位置与估计位置之间的平均误差，FDE计算地面实况端点与预测轨迹端点之间的位移。每隔0.4秒对轨迹进行采样，其中轨迹的前3.2秒用作观测数据以预测下一个4.8秒的未来轨迹。对于ETH/UCY数据集，我们遵循留一交叉验证评估策略，这样我们就在四个场景上训练了我们的模型，并在剩下的一个场景上进行了测试[12，15，19，38]。考虑到该方法的随机性，我们使用Best-of-N策略计算最终的ADE和FDE（N=20）。实施详情：我们设计了一个三层的Transformer作为MID的核心网络，其中Transformer维度设置为512，并应用4个注意力头。我们采用一个全连接层将模型的输入从2维上采样到Transformer维，另一个全连接层将观察到的轨迹特征f上采样到相同的维。我们利用三个全连接层将Transformer输出序列逐步下采样到预测轨迹，使得512d-256d-2d。训练使用Adam优化器进行，学习率为0。001，批量为256。所有的实验都在一个Tesla V100 GPU上进行。4.2. 与最新方法的我们定量比较我们的方法与广泛的当前方法。如表1所示，我们提供17119SDD ADESDD FDESDD多样性+ZARA 1 ADEZARA 1 FDEZARA 1多样性+表2.在ADE/FDE指标中使用Best-of-20策略的ETH/UCY数据集的定量结果越低越好。输入采样ETH HOTEL UNIV ZARA1 ZARA2 AVGAdeFDE Ade FDE Ade FDE Ade FDE AdeFDEAde FDE[37]第三十七话T + I200.70一点四三0.76 一点六七0.54 一点二四分0.300.630.380.78 零点五四一点一五CGNS [22]T + I200.62一点四0.70 零点九三0.48 一点二二0.320.590.350.710.49 0.97[19]第十九话T + I200.69一点二九0.49 一点零一0.55 一点三二0.300.620.360.750.48 一元MG-GAN [6]T + I200.47零点九一0.14 零点二四0.54 一点零七0.360.730.290.60 零点三十六0.71[28]第二十八话T + I100000.28零点三三0.10 零点一四0.240.410.17零点二七0.13零点二二零点一八零点二七社交GAN [12]不200.81一点五二0.72 一点六一0.60 一点二六0.340.690.420.840.58 一点一八[2]第二章不200.64一元 0.38 零点四五0.490.810.340.530.320.490.43 0.66PECNet [29]不200.540.87 0.18 零点二四0.350.600.220.390.17零点半零点二十九0.48[第四十九话]不200.360.65 0.17 零点三十六0.310.620.26零点五五0.220.460.26 0.53[38]第三十八话不200.390.83 0.12 零点二一0.200.440.15零点三三0.11零点二五零点一九0.41LB-EBM [32]不200.30零点五二0.13 0.200.27 零点五二0.20零点三七0.15零点二十九零点二一零点三八[45]第四十五话不200.28零点五四0.11 零点一九0.290.600.210.440.15零点三四零点二一0.42[53]第五十三话[53]第53话不不2020×200.370.290.650.650.110.080.150.150.200.150.440.440.150.11零点三一零点三一0.120.090.260.26零点一九零点一四零点三十六零点三十六中期不200.390.66 0.13 零点二二0.22 零点四五0.17零点半0.13零点二七零点二一零点三八表3. MID的消融研究和网络结构设计。Trans是Transformer组方法架构AdeFDE1中期反式-512d7.6114.302中期中期反式-256d反式-1024d7.917.64十四块五十四点三七3中期中期线性LSTM8.858.41十七点二十五分1/多样性误差17120十六点五十七分4轨迹机++轨迹机++LSTM反式-256d8.989.86十九点零二分十九点五六我们的方法和现有的方法在斯坦福无人机数据集上的比较。我们将方法分为仅轨迹方法（T）和轨迹和图像（T+I）方法，因为额外的图像信息在某些情况下可能是至关重要的，但会增加计算成本。此外，我们还报告了抽样数，因为增加抽样数可以有效地提高性能。我们提供了MID和其他方法的标准20个样本下的结果，以进行公平的比较。我们观察到，我们的方法实现了平均ADE/FDE为7。61/14. 30的像素坐标，该方法在所有现有方法中实现了最好的性能，而不涉及图像数据。具体而言，我们的MID在ADE指标上优于当前最先进的T+I方法请注意，我们的方法没有使用图像数据并应用任何后处理，例如测试时间采样技巧（TTST）[28]。我们在补充资料中提供了采样技巧的结果。反向扩散步骤k图3.确定性（ADE/FDE）和反向扩散步骤（0至100）内的多样性之间的权衡。我们还对ETH-UCY数据集进行了实验，并将结果列于表2中。我们的方法实现了可比的性能，只有轨迹输入，把在20个采样，平均性能为0。21、0。38例FDE。我们发现MID在较大的数据集（例如SDD数据集）上受益4.3. 消融研究在本小节中，我们进行了消融研究，以调查每个关键组件（包括扩散模型和Transformer架构）的有效性然后，我们提供了一个详细的分析，反向扩散过程。扩散模型：为了检查我们的扩散模型的重要性，我们将MID降级为CVAE17121K = 100k = 0 k = 10 k = 20 k = 30 k = 40 k = 50 k = 60 k = 70 k = 80 k = 90地面实况图4.在每个扩散时间步长t处生成的轨迹的可视化。我们可以看到，逆扩散过程逐步减少不确定性，并通过时间步长达到期望的轨迹。从t= 0时的正态分布（对应于所有可步行区域）和观察到的路径（红色虚线）开始，我们的MID方法成功地消除了不可能的轨迹，并逐渐拟合地面真实的未来路径（蓝线）。最好用彩色观看。基于框架Trajectron++。在这个基于CVAE的框架中，我们将常用的 LSTM 解码器替换为我们的Transformer，以验证性能提升是否来自Transformer。表3中的第2组和第4组显示了性能比较。我们观察到，使用相同的编码器和解码器，但没有我们的扩散模型，结果显着下降，证明了我们的扩散模型的有效性。此外，仅在基于 CVAE 的框架中用我们的Transformer架构替换解码器并不能提高性能，如表3中的组4所示。Transformer体系结构：我们还对MID的解码器体系结构进行了实验。根据表3中的第1组和第3组，Transformer的性能大大优于Linear和LSTM架构。结果表明，Transformer结构能够有效地为MID建模轨迹的时间依赖关系此外，我们还对不同维度的Transformer架构进行了评估。如表3第1组和第2组所示，我们观察到具有512个维度的Transformer导致最佳性能，并且进一步增加Transformer维度或模型参数不会产生更好的结果。反向扩散过程分析：为了进一步解释反向扩散过程，我们在每个反向扩散步骤生成了20个轨迹，并分析了分布的逐渐变化。如图3所示，我们提供了反向扩散步骤与相应的多样性和ADE/FDE之间的分析。轨迹多样性被计算为所生成的20个轨迹中的任意两个之间的欧几里得距离的平均值。当反向扩散步骤是小的，轨迹分布是更加不确定的，并产生高度多样化的轨迹。随着反向扩散步骤的增加，我们注意到多样性的下降和决定性的上升。在MID框架中，我们可以通过调整步数来控制不确定性的程度，并在生成轨迹的多样性和确定性之间实现灵活的权衡此外，我们将轨迹的分布可视化为图4中的轮廓，并且每个轮廓图以十步间隔采样我们看到，轮廓在扩散过程的早期阶段是多样的，并且逐渐变形以更加集中并适合地面真实轨迹。4.4. 定性评价我们进一步研究了我们的框架的能力，定性的结果。图 5 展示了我们的 MID 和 Trajectron++ [38] 对ETH/UCY数据集上所有五个场景的最可能预测。定性结果表明，MID和Trajectron++都很好地拟合了地面真实路径。我们观察到Trajectron++在短期预测方面与MID表现相似，但在长期预测方面与地面实况路径略有偏离。此外，我们在图6中将SDD上的多个预测轨迹可视化。我们观察到，所有的预测显示其可行性的条件下观察到的轨迹。虽然使用反向扩散模型减少了模糊性，但我们发现生成的轨迹在可步行区域内仍然充满了多样性。5. 结论讨论在本文中，我们介绍了一个新的MID框架制定轨迹预测与运动不确定性扩散。在这个框架中，我们学习了一个参数化的马尔可夫链的条件下观察到的轨迹，逐步放弃不确定性的模糊区域17122ETH HOTEL UNIV ZARA1 ZARA2观测轨迹地面实况MID Trajectron++图5. ETH/UCY数据集上预测轨迹的可视化。给定观察到的轨迹（红色），我们通过MID（青色虚线）和Trajectron++（绿色）为五个不同场景展示了地面实况路径（蓝色）和预测轨迹。我们看到，与Trajectron++相比，我们的结果更接近真实情况。最佳的颜色和放大查看更清晰。实测弹道地面实况MID图6.斯坦福无人机数据集中生成的轨迹的可视化。给定观察到的轨迹（红色），我们在不同场景中通过MID（青色虚线）说明了地面实况路径（蓝色）和预测的20个最佳轨迹。在所有场景中，蓝线被青色虚线覆盖。最佳的颜色和放大查看更清晰。可接受的轨道。通过调整链的长度，我们可以实现多样性和确定性之间的权衡。此外，我们设计了一个基于transformer的架构作为我们的方法的核心网络来建模轨迹中的复杂时间依赖。实验结果表明，我们的方法的优越性，达到了最先进的性能在斯坦福无人机和ETH/UCY基准。更广泛的影响：MID可以应用于人机交互的广泛应用。通过不确定性建模，我们可以生成准确和合理的未来轨迹，这对自动驾驶的决策有很大帮助。此外，MID还可以调整不确定性的程度，具有在动态交互环境中应用的潜力局限性：尽管有前景的性能和适用的权衡性质，但由于多个步骤（在我们的实验中为100个步骤），反向扩散过程的时间成本可能是昂贵的。在ZARA 1数据集上使用512个轨迹进行评估时，Trajectron++需要0。443，但MID需要17。368s，100个扩散步骤设置。幸运的是，最近已经做出了许多努力来显著降低采样成本，同时保持高生成性能[17，31，39，42，48]。然而，在我们的MID中插入这些方法并不简单。我们把它作为未来的工作，以建立一个更有效的系统。鸣谢本工作得到了中国国家自然科学基金62125603和U1813218的部分支持，部分得到了北京人工智能研究院（BAAI）的资助17123引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在CVPR，第961-971页，2016年。2[2] Guangyi Chen，Junlong Li，Jiwen Lu，and Jie Zhou.通过反事实分析预测人类轨迹。在ICCV中，第9824-9833页，2021年。二、六[3] Guangyi Chen，Junlong Li，Nuoxing Zhou，LiangliangRen，and Jiwen Lu.通过分布判别进行个性化轨迹预测。在ICCV中，第15580-15589页，2021年。一、二[4] 陈南新，张宇，陈海嘉，罗恩·J·维斯，莫汉·马德·诺鲁兹，陈威廉Wavegrad：估计波形生成的梯度。ICLR，2021年。2[5] Jooyoung Choi 、 Sungwon Kim 、 Yonghyun Jeong 、Youngjune Gwon和Sungroh Yoon。Ilvr：用于去噪扩散概率模型的条件化方法。ICCV，2021。2[6] PatrickDendorfe r ， S v enElflein ， andLauraLeal-Taix e'.Mg-gan：一个多生成器模型，防止行人轨迹预测中的分布样本。在ICCV中，第13158-13167页，2021年。一、二、六[7] Nachiket Deo和Mohan M Trivedi。基于网格规划的未知环境中的轨迹预测。arXiv预印本arXiv：2001.00735，2020。2[8] 普拉富拉·达里瓦尔和亚历克斯·尼科尔。扩散模型在图像合成中优于gans。在NeurIPS，2021年。二、四[9] Liangji Fang，Qinhong Jiang，Jianping Shi，and BoleiZhou. TPnet：用于运动预测的轨迹建议网络。在CVPR，2020年。一、二[10] Tharindu Fernando、Simon Denman、Sridha Sridharan和Clinton Fookes。软+硬连线注意力：人类轨迹预测和异常事件检测的LSTM框架。神经网络，108：466-478，2018。2[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS，第2672-2680页，2014中。2[12] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社交伙伴：具有生成对抗网络的社会可接受的轨迹。在CVPR中，第2255-2264页一、二、五、六[13] Dirk Helbing和Peter Molnar行人动力学的社会力模型。Physical Review E，51（5）：4282，1995. 2[14] Jonathan Ho，Ajay Jain，and Pieter Abbeel.去噪扩散概率模型。在NeurIPS，2020年。二、四[15] Yingfan Huang，HuiKun Bi，Zhaoxin Li，Tianlu Mao，and Zhaoqi Wang. Stgat：为人类轨迹预测建模时空交互在ICCV，第6272二、五[16] 鲍里斯·伊万诺维奇和马可·帕沃内。The ProbabilisticMulti-AgentTrajectoryModelingwithDynamicSpatiotemporalGraphs（ProbabilisticMulti-AgentTrajectoryModelingwithDynamicSpatiotemporalGraphs）在ICCV，第2375-2384页，2019年。一、二[17] Al-xiaJolicoeur-Martineau ， KeLi ， Re' miPiche'-Taillefer，Tal Kachman，and Ioannis Mitliagkas.必须走得快，17124使用基于分数的模型生成数据。arXiv预印本arXiv：2105.14080，2021。8[18] Zhifeng Kong，Wei Ping，Jiaji Huang，Kexin Zhao，and Bryan Catanzaro. Diffwave：音频合成的通用扩散模型。ICLR，2021年。2[19] Vineet Kosaraju ， Amir Sadeghian ， Roberto Mart´ın-Mart´ın ， Ian Reid ， Hamid Rezatofighi ， and SilvioSavarese.Social- bigat：Multimodal trajectory forecastingusingbicycle-ganandgraphattentionnetworks. 在NeurIPS，第137-146页，2019年。一、二、五、六[20] Namhoon Lee ， Wongun Choi ， Paul Vernaza ，Christopher B Choy ，Philip HS Torr， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测。在CVPR，第336-345页，2017年。一、二[21] Alon Lerner、Yiorgos Chrysanthou和Dani Lischinski。群众的榜样。在Computer Graphics Forum，第26卷，第655-664页，2007中。5[22] Jiachen Li，Hengbo Ma，and Masayoshi Tomizuka.概率弹道预测的条件生成神经系统。在IROS中，第6150-6156页。IEEE，2019。五、六[23] JunweiLiang，LuJiang，andAlexanderHauptmann.Simaug：从模拟中学习鲁棒表示以进行轨迹预测。在ECCV，第275-292页，2020中。二、五[24] Junwei Liang，Lu Jiang，Kevin Murphy，Ting Yu，andAlexander Hauptmann.分叉路径的花园：多未来轨迹预测。在CVPR中，第10508-10518页，2020年。2[25] 刘跃江，齐燕，亚历山大·阿拉希。社会认知：社会意识运动表征的对比学习在ICCV中，第15118-15129页，2021年。一、二[26] 罗世通和胡伟。三维点云生成的扩散概率模型。在CVPR中，第2837-2845页，2021年。2[27] 奥萨马·马坎西、朱利叶斯·v·库格尔根、弗朗西斯科·洛卡泰洛、彼得·盖勒、多米尼克·詹津、托马斯·布罗克斯和伯尔尼-哈德·肖尔克·奥普夫。你主要做的是：分析轨迹预测中的特征属性。 arXiv 预印本 arXiv ：2110.05304，2021。2[28] Karttikeya Mangalam，Yang An，Harshayu Giras

下载后可阅读完整内容，剩余1页未读，立即下载