MUSE-VAE:用于环境感知长期轨迹预测的概率建模框架

149 浏览量更新于2023-10-25 收藏 1.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2221MUSE-VAE：用于环境感知长期轨迹预测的罗格斯大学ml1323@rutgers.edu尹世宗新泽西学院yoons@tcnj.edu塞缪尔·S SohnRutgersUniversitysamuel. rutgers.eduMubbasir Kapadia罗格斯大学mubbasir. rutgers.edu文成贤罗格斯大学sm2062@cs.rutgers.edu弗拉基米尔·帕夫洛维奇罗格斯大学vladimir@cs.rutgers.edu摘要在复杂场景中准确的长期轨迹预测，其中多个代理（例如，行人或车辆）在试图完成不同且通常未知的目标的同时彼此和环境交互在这项工作中，我们提出了MUSE-VAE，一个新的概率建模框架的基础上级联的条件VAE，它解决了长期的，不确定的轨迹预测任务，使用粗到细的多因素预测架构。在其宏观阶段，该模型学习两个关键因素的联合像素空间表示，即底层环境和智能体运动，以预测长期和短期运动目标。在此基础上，微阶段学习细粒度的时空表示，用于预测个体代理轨迹。跨两个阶段的因此，MUSE-VAE提供了多样的和simultaneously更准确的预测相比，目前的国家的最先进的。我们证明了这些断言，通过一套全面的实验nuScenes和SDD基准以及PFSD，一个新的合成数据集，挑战模型的预测能力，对复杂的代理-环境相互作用的情况。1. 介绍人类行为预测是计算机视觉[14]、计算机图形学[15]、机器人学[10]和齿轮科学[44]等各个研究领域中研究的一个基本问题。预测人类运动的基本问题是固有的随机性，这源于人类在任何给定时刻使用众多信息源来做出各种不同的决定，这些决定都会影响他们未来的运动。(a) （b）全面发展轨迹图1.（a）预测轨迹热图覆盖在语义图中。地面实况（GT）长期目标（LG）和短期目标（SG1和SG2）用“x”标记(b)根据预测的LG和SG完成轨迹预测。每个轨迹序列是从不同的LG和SG预测对获得的。这种运动的不确定性不仅限于人类的运动，还包括人类控制的物体的运动，例如车辆[6]。为了拥抱不确定性，在本文中，我们专注于开发计算模型，从数据中学习，可以预测未来代理（人类，车辆等）的现实多模态分布轨迹这些模型是在驱动这种不确定性的两个主要因素的背景下设计的：代理人占据的环境和他们试图完成的然而，直接预测长期轨迹是一项具有挑战性的任务。一个人通常以一种由粗到细的方式计划自己最先进的（SOTA）方法[25，43，46]利用这种直觉提出目标条件预测模型。然而，尽管与传统方法相比它们是有效的[1，14，42]，但这些模型在处理复杂环境[43]，部分2222#36825;，因为它影响了运动[46]。这通常会导致违反代理环境碰撞约束的物理上不可信的轨迹预测。此外，这些模型经常难以解释预测目标和轨迹的多样性[25]，这是由问题的不确定性和多模态性质驱动的。为了解决这个问题，我们提出了MUSE-VAE：一种用于长期轨迹预测的多尺度环境感知模型，其（1）通过预测更高级别的目标和目标条件轨迹来采用逐阶段、从粗到细的轨迹预测方法，（2）避免与障碍物碰撞，而不会损失空间信号，这可能是由于将2D信息压缩为1D特征时的空间重组而发生的，以及（3）学习跨阶段的多模态预测分布，从而捕获固有的不确定性。MUSE-VAE体现了跨越宏观阶段和微观阶段的三步学习策略。宏阶段包括两个用于粗略预测的步骤。我们首先预测长期目标，即，基于热图轨迹表示的给定序列的最后一步。给定长期目标，如图1a所示预测连续的短期目标。在获得宏观阶段的目标位置后，最后，我们的模型在微观阶段产生完整的轨迹，如图1b所示。我们的主要贡献如下：（a）我们引入了一种新的多尺度学习策略，基于CVAE的概率模型，以使环境感知的无碰撞轨迹预测。（b）与先前的工作不同，我们表明，人们可以学习轨迹分布，这些轨迹分布可以在测试时在新场景中很好地推广，从而给出符合环境的各种合理预测，而不需要额外的多样性步骤（c）所提出的从粗到细的方法通过目标预测来预测整个轨迹的前进方向，然后将其扩展到粒度和完整的预测，从而实现多样化和我们通过在真实和合成数据集上的实验来证明这些贡献与各种接地评估指标，我们表明，MUSE-VAE可以产生类似于GT轨迹的预测，同时实现与环境的碰撞比SOTA方法。2. 相关工作智能体运动行为的建模，包括个人、人群、车辆等，是一个跨越多智能体和计算机视觉社区边界的长期存在的问题。我们专注于三个相关方面：预测个人轨迹，运动行为和环境之间的相互作用，以及需要建模运动预测中的不确定性序列学习人类的轨迹具有序列特征，随着时间的推移而依次变化。为了捕捉顺序信息的性质，许多先前的作品[1，14，21，32，33，42]利用递归神经网络（RNN）[27]，如LSTM和GRU。然而，随着递归的进行，RNN会忘记过去的隐藏状态。[12，45]通过采用Transformer网络[41]来解决人体轨迹预测的时间方面。Transformer通过自注意和位置编码将a序列作为一个整体来处理，解决了长距离依赖问题。Y-net [25]解决了仅使用卷积层的顺序轨迹学习问题。它们表示具有多个热图的轨迹，这些热图沿着通道维度与语义环境地图图像堆叠在一起，并作为一个整体馈送到它们的卷积网络通过这种方式，它们可以学习与环境相关的时间运动，而无需传统的序列学习网络。环境学习关于朝着目标采取的轨迹的决定取决于周围的环境。许多先前的方法向其模型提供环境信息以用于现实的轨迹预测。[32，33，45，46]使用卷积网络将环境布局和语义编码虽然这些方法可以学习轨迹周围的场景上下文，但它们在CNN和FC层之后将其压缩为Y-net [25]通过在空间上将语义图与轨迹热图对齐并将它们作为一个整体处理来解决这个问题。我们的模型尝试在没有不必要信息的情况下进行更有意义的环境学习，方法是关注轨迹周围的有限区域而不是整个场景，同时利用热图轨迹表示来保持空间信号Multimodal Learning智能体的轨迹（人类，车辆等）行为受许多因素的影响，如目的地、周围环境、附近的代理人等，这导致了对未来行为的内在不确定性。最近的研究集中在基于深度生成模型学习人类轨迹的分布，避开了确定性轨迹预测。[17，21，33，40，45]有条件地变分自动编码器（CVAE）[35]和[14，20，32]引入了生成对抗网络（GAN）[13]，用于学习轨迹分布，其中可以对多个预测进行采样。Trajectron++ [33]通过采用潜在空间的离散潜在分布和高斯混合模型作为解码器的输出分布来在CVAE框架中。AgentFormer [45]通过预测之间的成对距离损失来促进预测的多样性。然而，每当在测试时寻求不同数量的预测时，这种方法需要Y-net [25]在测试时利用预测离散密度图的K均值聚类来实现不同的2223|联系我们我∈我我t=1我t=tp+1我tp--tp+f联系我们(a) 语义映射(b) 宏观阶段模型图2.（a）具有8个过去/12个未来轨迹的语义图而不是全球地图，我们使用本地地图专注于给定轨迹的附近环境。(b)宏阶段模型、LG-CVAE和SG-net的输入和输出格式轨迹热图与局部视图语义图重叠。在这里，我们假设12个未来步骤中的未来时间步骤4和8处有2个短期目标。因此，SG-net输出3个热图; 2个用于短期目标，1个用于长期目标。然而，该模型并不明确地学习无分辨率的多模态轨迹密度。一些先前的作品[25，28，43，46]通过提出一个目标条件预测模型来鼓励多模态，MUSE-VAE采用阶段式训练过程，在保持与环境一致的轨迹的同时结合顺序信息。首先，在宏观阶段，通过利用轨迹的热图表示以及语义环境地图来获得未来预测，然后在微观阶段，使用基于RNN的网络来促进序列学习。微观阶段利用宏观阶段的粗略预测，减少长期依赖性问题，并引导路径避开障碍物。在宏观和微观阶段都采用VAE，我们的模型学习预测的固有不确定性，可以给出各种合理的预测。3. 该方法轨迹预测问题的公式如下。假设我们被给予t p>0个时间戳，则过去的轨迹位置x= 0。X t在场景S中的智能体i的二维世界坐标，其中，xtR2表示智能体i在时间t处的二维世界坐标。我们的目标是预测未来的轨道-相同代理在tf>0个未来时间戳期间的历史，y=yt在分布上。 ytR2是与xt在同一坐标系中的未来2D位置。这一预测应考虑到环境-心理背景S，即，p（y x，S）. 我们提出了我们的多尺度环境感知模型，MUSE-VAE的粗到细的轨迹预测。宏阶段被定义为对未来轨迹的粗略预测，而微阶段被定义为基于粗略预测的精细预测。在宏观阶段，只有未来步骤的一个子集被预测为长期和短期目标。我们将长期目标表示为tLG= tp+f的最后一步，将短期目标表示为一些中间步骤 tSGtp+1，. . .，t p+f−1。宏观阶段旨在获得与场景一致的粗略预测，以避免环境障碍物的碰撞。基于粗预测，微阶段生成所有t f未来步骤的细粒度预测。在这个阶段，我们采用RNN [27]来有效地学习轨迹的顺序特征节中3.1，我们介绍了粗预测阶段，宏观阶段，并详细说明了如何制定主要的宏观阶段模型，长期目标条件VAE（LG- CVAE），以及随后的宏观阶段模型，短期目标网络（SG-net）。秒3.2介绍了微观阶段，精细预测阶段，用于完善完整预测轨迹的预测。3.1. 宏观阶段：粗预测阶段未来行为的不确定性中最重要的因素之一是个体的未来走向。缩小可能性的一种方法是意识到周围环境并从过去学习模式。[33，45，46]通过将场景的语义映射编码为1D平坦化特征来学习在图像空间为了在语义图和语义图之间进行对齐，我们使用高斯热图（由Ix表示）来表示像素空间中的轨迹x，如Y-net [25]中所建议的。高斯滤波器的方差为4，我们创建单应性矩阵将世界坐标（以米为单位）映射到基于图像的坐标（以像素为单位）。tp过去时间戳中的轨迹全部表示在单个热图中，而每个未来步骤表示为每个步骤一个热图。轨迹热图大小与语义图的大小匹配。通常，给定场景的完整环境信息对于长期轨迹预测是不必要的。通常情况下，接近代理当前位置的场景就足够了。因此，我们只关注局部语义图，如图2a所示创建轨迹热图。本地地图以最后观察到的代理位置为中心。宏级的输入和输出如图所示。 2b. 长期目标预测模型LG-CVAE的输入由级联的（局部语义图、过去轨迹热图）组成，并输出一个长期目标热图。短期目标预测模型SG-2224我HH我ˆ|||||图3.MUSE-VAE架构。LG-CVAE是基于CVAE框架预测长期目标的第一阶段以长期目标为条件，SG-net预测从过去轨迹到长期目标的路径点。我们将这两个阶段归类为宏观阶段，其中预测是在热图表示中进行的，以保持空间信号和语义图。最后，在微阶段，使用基于RNN的CVAE获得完整的轨迹更多实施细节见补充材料。net，具有级联的输入（局部语义图、过去轨迹热图、长期目标热图）并且输出NSG+ 1个热图，其中NSG是短期目标1的数量。局部语义图IM可以被确定为f（S，x，p，n），其中f是将全局场景信息S和单应性转换为以代理i的最后观察位置xtp。3.1.1LG-CVAE：长期目标预测模型一个人将来要去哪里，主要取决于长期目标定位。因此，对于不同的潜在未来轨迹，高质量地预测不同的长期目标位置至关重要为了用语义图和热图轨迹表示对固有的不确定性进行建模，我们结合了U网[30]和条件变分自动编码器（CVAE）[35]，如[19]中所研究的。在给定过去目标的热图Ix、长期目标的热图ILG和局部语义图IM的情况下，CVAE的目标是最大化条件分布，p（I LG|I x，I M）=Ip θ（I LG|w，I x，I M）p（w|I X，I M）dw。（一）条件潜在分布p（w Ix，IM）的随机性被传播并且有助于p（ILG Ix，IM）的多模态。LG-CVAE损失定义为负证据下限，如下所示。其中q φ（w I LG，I x，I M）和p φ（w I x，I M）分别是后验分布和条件先验分布，假定为高斯分布以便于处理。输出轨迹热图分布pθ（ILG w，Ix，IM）具有伯努利分布。这些密度的参数分别使用具有学习参数φ、θ和θ的深度神经网络进行建模，参见图3。我们使用预测热图ILG和地面实况（GT）热图ILG之间的焦点损失用于重建损失，以减轻轨迹热图表示中的不平衡类问题联合基于像素的环境轨迹输入（IM，Ix）使用U-网络架构主干[30]进行编码，其在语义分割学习方面表现出出色的性能。维度（C，H，W）的编码的U-网特征（其中特征图具有C个通道、高度H和宽度W）在空间维度中被平均池化，并且输出（C，1，1）个特征图，其最终被转换为C维向量。它与从潜在分布采样的潜在因子w连接。后验和先验潜在分布分别从由卷积层组成的分离的后验和先验网络获得为了避免强U网解码器产生的后验崩溃[4，39]，我们预训练编码器并应用[22]中研究的Free Bits [18]和KL退火[5中讨论了其他实施细节补充材料。LILG= − E qφ（w|ILG，Ix，IM）[log p θ（I LG|w，Ix，I M）]+ KL（q φ（w|I LG，I X，I M）||p（w|I X，IM）），1额外的计数对应于长期目标。（二）3.1.2SG-net：短期目标预测模型在宏观阶段的第二阶段，我们根据LG的长期目标预测来预测短期目标2225SGiˆ||||CVAE。SG-net的目的是提供从最后观察到的步骤到与环境保持一致的长期目标的路点。最后一个阶段在SEC。3.2微阶段将轨迹和语义图分别作为一维特征向量进行处理。因此，仅使用长期目标信息来预测所有细粒度的未来步骤增加了基于被破坏的空间信号做出与环境不一致的预测的风险。SG-net利用U-net生成NSG+ 1个热图，其中NSG是短期目标的数量，1代表长期目标，如图2b所示。与LG-CVAE不同，该阶段基于预测的长期目标输出确定性预测，因为我们在下一阶段处理除长期目标之外的精细轨迹的不确定性。因此，SG-净损失是具有如下焦点损失的简单重建损失。NSG+14. 实验秒4.1介绍了实验中使用的数据集、评估指标和统计分析。秒4.2 quantitative 评估SOTA模型以及MUSE-VAE。秒4.3比较预测的定性方面，以进行直观评估。节中4.4，通过消融研究分析MUSE-VAE的每个组成部分。4.1. 预赛数据集我们使用三个数据集进行评估。斯坦福无人机数据集（SDD）[29]用于TrajNet挑战[31]和之前的工作[25，32]。nuScenes数据集[6]是许多现有技术[24，26，45]使用的公共自动驾驶数据集。此外，我们使用从[38]借来的环境创建了一个新的路径查找模拟数据集（PFSD）。与SDD和nuScenes不同，LSG=−Σi=1. α（1−I^SGi）γISGilog（I^SGi）（三）PFSD中的空间导航更加复杂有关详情，请参阅补充资料。+（1−α）I^γ（1−ISGi）log（1−I^SGi），评估方法在评估中，我们采用了最小平均位移误差其中I SG是GT轨迹热图，I SG是预测热图，α = 0。25，γ= 2，如[23]中所研究的3.2.微观阶段：精细预测阶段在模型的最后阶段，我们预测微观层面的完整未来轨迹。在这里，我们将坐标从离散像素坐标改变为连续世界坐标以进行精细预测。即使在SG-net预测的长期和短期目标的指导下，个别步骤也可能具有源于周围环境的可变性。为了应对这种不确定性，我们在这一步中也利用了CVAE。如图3所示，我们将p（z x）设置为以过去的投射x为条件的先验，其被学习以近似后验潜在分布p（z x，y），其中y表示未来的投射。在测试时间，我们从p（z x）中采样潜在因子z以预测p（y z，x）。在解码未来步骤时，我们的模型以LSTM编码特征的形式使用来自SG-net的长期和短期目标信息。我们应用教师强迫技术，通过在训练/测试期间分别提供GT/预测的长期和短期目标来校正预测。为了减少训练和测试时间重建之间的差距，我们提供了一个额外的重建损失，从先前的discovery以下[7，36]。因此，具有β加权ELBO的微阶段训练损失[16]公式化如下。最终位移误差（FDE）。我们还报告了[17，33]中使用的基于核密度估计的负对数似然（KDE NLL）作为预测性能的综合指标最后，我们评估了环境无碰撞可能性（ECFL）[37]，智能体具有与环境无碰撞路径的概率。我们用它来解决现有的工作，往往忽视了预测的重要性，坚持环境结构的缺点。我们以百分点报告更多细节可以在补充材料中找到。统计分析/模型排名跨多个指标比较不同模型是一项挑战。因此，我们使用传统方法[9]和现代贝叶斯分析[2]来检验结果的统计显著性。补充材料提供了详细信息。4.2. 定量结果我们在第二节介绍的三个数据集上进行实验。4.1并使用其公共代码比较 MUSE-VAE 与 Trajectron++（T++）[33]，Y-net [25]和AgentFormer（AF）[45]基线的性能。与SSD相比，PFSD和nuScenes提供的场景地图显示了更广泛的环境因此，我们为所有模型（包括我们的模型）提供语义映射的本地视图LMicro = − E q（z|x，y）[log pη（y|z，x）]-E pτ（z|x）[log pη（y|z，x）]+ βKL（q∈（z|x，y）||pτ（z|x）），（四）为了公平的比较。对于MUSE-VAE中的所有实验，我们在Micro-stage中仅对潜在因子z进行一次采样，并且我们在LG-CVAE中从潜在因子w其中，潜在分布和输出轨迹分布都假定为高斯分布。我们将LG-CVAE的U网特征馈送到Micro-stage的先前网络中，以便Micro-stage也识别该增强。因为我们假设不确定性主要取决于长期目标位置。选项卡. 1总结了PFSD的实验结果。根据常用的时间范围设置，我们观察3.2秒（8帧），预测4.8秒（12帧）2226未来的轨迹考虑到PFSD局部环境布局的复杂性增加，我们选择采样数K= 20，50来研究学习轨迹的分布。我们的模型可以在K= 20，50的所有指标中实现最佳性能，除了K= 20的FDE，我们的模型处于第二好的位置。Y-net和AF的KDE NLL分数表明，它们的K预测未能反映真实的轨迹分布。这是因为K个预测不是从它们的第一个训练阶段的学习分布中采样的，而是在下一个阶段通过对它们进行操纵以关注多样性来采样的Y-net基于K-means聚类进行测试时间采样，以获得不同的预测。AF具有第二阶段训练，以将K个预测之间的成对距离损失应用于多样性，这是低效的，因为每当K改变时，它都需要另一方面，MUSE-VAE可以在GT轨迹的低误差范围内产生预测，同时反映GT轨迹分布（较低的KDE NLL）并做出减少环境碰撞（较高的ECFL）的现实预测。选项卡. 2显示了对SDD的评价。它遵循与PFSD相同的与先前的工作一样，我们选择K= 5，20，并以像素距离报告误差。MUSE-VAE可以显著优于ADE中的最新方法。虽然我们的模型在FDE中表现出第二好的性能，但MUSE-VAE在很大程度上与最好的方法联系在一起。由于PFSD中分析的相同原因，我们的模型在KDE NLL中具有最佳性能我们可以看到，MUSE-VAE的ECFL略差于Y-net，但仍然是这是因为从Y-net提供的场景的标记是不完整的2，这对在宏观阶段预测中严重依赖语义图的MUSE-VAE产生了不利影响对于nuScenes数据集，遵循先前的工作，仅对车辆进行2秒（4帧）观察和6秒（12帧）预测，并且研究K= 5，10代。选项卡.结果表明，在各个指标和样本数上，我们的模型都一致优于其他模型。与前两个数据集相比，nuScenes具有更窄和严格的可导航空间，我们的Macro阶段可以利用与环境一致的准确LG和SG预测。另一方面，由于nuScenes是真实世界的数据集，因此也观察到许多静态的过去轨迹。由于我们的模型专注于学习轨迹分布，而不是简单地基于不同的采样和生成来获得最小ADE/FDE，因此nuScenes中的这些真实世界数据特征在训练模型中得到了很好的反映，这可以在所有指标中实现更好的性能。统计分析我们计算了这些方法的平均排名，T++，Y-Net，AF和Ours分别获得3.42，2.92，2.33，1.33。我们进行了油炸-2标签不完整的问题在补充材料中讨论。表1. K= 20和50时PFSD的结果其中tp = 3。2s（8帧）和tf= 4。8秒（12帧），误差单位为米。K型ADE↓ FDE↓ KDE NLL↓ ECFL↑T++0.170.37-0.8883.3220Y形网AF0.130.080.200.110.200.4791.5294.54我们0.070.12-1.4696.95T++0.140.25-1.1183.3950Y形网AF0.090.080.120.090.041.1791.7495.37我们0.060.09-1.6897.02表2.K= 5和20时SDD的结果其中tp = 3。2s（8帧）和t f=4。8秒（12帧），误差以像素为单位K型ADE↓ FDE↓ KDE NLL↓ ECFL↑T++11.1124.428.7486.945Y形网AF11.4911.4720.1918.888.988.5789.9989.02我们9.6019.708.4389.30T++8.1616.407.3786.8820Y形网AF7.848.3511.9411.038.057.4889.3287.30我们6.3611.107.2189.30表3.在K= 5和10的nuScene上的结果 tp = 2s（4帧）和t f= 6s（12帧）时，误差单位为米。K型ADE↓ FDE↓ KDE NLL↓ ECFL↑T++3.147.457.2068.995Y形网AF2.461.595.153.1411.039.3985.4686.74我们1.382.905.1289.24T++2.465.655.6169.0210Y形网AF1.881.303.472.477.527.7682.9085.76我们1.092.103.8289.33man检验[11]，并证实我们的方法优于AF，具有统计学显著性。我们还进行了贝叶斯符号秩检验[3]，并证实我们的方法优于竞争对手或至少与竞争对手相当。补充材料对此作了更详细的解释。4.3. 定性结果我们为定量指标提供了额外的定性背景，以揭示支持每个模型的优势和权衡的潜在因素。在图4中，我们可视化了预测的长期和短期目标的几个实例具体地，图1A-1B。图4a和图4b是来自PFSD的实例，K= 20，图4c和图4d是针对K= 20的SDD绘制的，图4a和图4b是针对K =20的SDD绘制的4e和4f来自nuScenes，K=10。我们来看看-2227从每个数据集的“岔路口”情景的立场，以测试模型的能力，以了解以环境为条件的长期目标的多模态。图在图4a、4c和4e中，我们将来自宏阶段的预测轨迹和目标热图覆盖在局部语义图上，以证明模型在不同环境特征的上下文中进行合理粗略预测的能力第一列绿色边框是LG-CVAE的长期目标预测。下面三列橙色边框是SG-Net的两个短期目标和一个长期目标。这两行显示了基于相同的观测值，通过对LG-CVAE中的两个不同潜在因子w进行采样而生成的两个不同预测。我们可以看到，（1）短期目标与给定的预测长期目标一致，（2）长期目标预测自然会因“岔路口”情景的结构而变化图图4 b、图4d和图4f示出了完整的轨迹预测，其中，从左上角开始，按顺时针顺序的图像分别对应于MUSE-VAE的微平台，之后是T++、AF和Y-net。在所有三个数据集中，我们可以观察到T++和AF的预测往往会导致与环境的冲突另一方面，Y-net 和我们的MUSE-VAE的预测很好地对齐并且没有冲突。我们将其归因于T++和AF将语义图编码为1D表示，这会使空间信号纠缠在一起，而我们的模型和Y-net则会在2D中处理语义图和轨迹热图。尽管Y-网络产生避免与障碍物碰撞的预测，但与MUSE-VAE相比，它产生具有不同持续时间的轨迹，这些轨迹通常超过或低于真实轨迹地平线。这是因为Y网络的目标预测不是直接由学习模型做出的;相反，它们源于测试时间采样技巧，该技巧弱地取决于过去的轨迹信号，特别是其速度。另一方面，我们的MUSE-VAE4.4. 消融研究我们通过消融研究分析了MUSE-VAE中每个组件的有效性。选项卡.图4示出了使用完整模型MUSE-VAE的三次烧蚀实验。w/o SG-net模型在宏观阶段没有SG-net，因此，长期目标预测直接馈送到微观阶段。w/o微阶段模型不包括微阶段，这意味着所有未来的轨迹都是在表4. K= 20时PFSD的消融研究其中tp = 3。2s（8帧）和tf= 4。8秒（12帧），误差单位为米。模型ADE↓ FDE↓ KDE NLL↓ ECFL↑Muse-VAE0.070.12-1.4696.95不含SG-net0.100.13-0.4891.88不带微型载物台0.130.12-99.24无LL优先级0.070.13-0.9695.34在训练和推理时间重建之间。我们的模型需要从LG-CVAE的LG预测，有必要在所有实验中的存在。因此，在最小FDE中观察到的变异性很小。性能上最显著的差异来自于没有Micro-stage，没有Micro-stage就无法评估KDE NLL分数。在这种情况下，完整的轨迹预测发生在SG网络中，以离散像素坐标定义，因此限制了预测轨迹3的准确性。另一方面，该模型的优点是由ECFL表示的很少的在没有SG网络的情况下，除了来自LG-CVAE的LG预测之外，Microstage没有路点的信息。因此，KDE NLL值表明w/o SG-net的分布学习不如完整模型好。w/o LL-prior也会降低KDE NLL的性能。这表明在训练期间来自先验分布的重建损失允许模型学习如何生成更好地反映给定过去轨迹的运动模式的预测这种彻底的烧蚀研究表明，考虑宏观阶段和微观阶段是至关重要的，宏观阶段用于与环境良好对准的粗用于反映过去连续状态的精细预测5. 结论在本文中，我们介绍了MUSE-VAE概率模型能够识别环境和生成的多模态预测的基础上，从粗到细的方法。我们使用各种数据集和指标的实验结果表明，MUSE-VAE 实现了与环境条件良好匹配的通用和MUSE-VAE独立地处理每个代理，这不能反映代理交互。在未来的工作中，我们将考虑多代理感知模型，可以避免与相邻代理的冲突。确认这项研究得到了 NSF 奖项的部分支持： IIS-1703883，IIS-1955404，IIS-1955365，RETTL-2119265和EAGER-2122119。SG-网，令N SG= t f− 1。在w/o LL先验模型中，我们从先验分布p τ（z|（x）评估这一术语在缩小差距方面的效用3在这种情况下，完整的轨迹预测是根据热图最大值进行的。2228(a)（b）第（1）款(c)（d）其他事项(e)（f）第（1）款图4.左：分别为（a）PFSD、（c）SDD和（e）nuScene的宏观阶段结果。在第一列中，来自LG-CVAE的长期目标（LG）热图预测覆盖在本地语义图上。以下三列是来自SG-Net的两个短期目标（SG）和一个LG。在这里，我们在每个数据集中只显示了两个不同的采样代。蓝色和橙色线分别表示GT过去和GT未来的轨迹。GT LG和SG标有“x”。右：分别完成（b）PFSD、（d ）SDD和（f）nuScene的轨迹预测。在每个数据集中，从左上到右下的第1/2/3/4张图像分别来自我们的Micro-stage/Trajectron++/Y-net/AgentFormer。蓝线、橙线和红线分别表示GT的过去、GT的未来和预测的未来轨迹2229引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测。2016年IEEE计算机视觉和模式识别会议（CVPR），第961-971页，2016年。一、二[2] AlessioBenavoli ， GiorgioCorani ， JanezDemsEscherar，and Marco Zaffalon.是时候改变了：通过贝叶斯分析比较多分类器 Journal of Machine LearningResearch，18（77）：1-36，2017。5[3] A. Benavoli，F. Mangili，G. Corani，M. Zaffalon和F.鲁盖里基于dirichlet过程的baught-wilcoxon符号秩检验。在第31届国际机器学习国际会议的会议录-第32，ICMLJMLR.org，2014年。6[4] Samuel R. Bowman，Gabor Angeli，Christopher Potts，and Christopher D.曼宁一个用于学习自然语言推理的大型注释语料库在EMNLP，2015年。4[5] Samuel R.放大图片作者：Andrew M.Dai，Ra f alJo'zef owicz，andSamyBengio. 从连续空间生成句子InCoNLL，2016. 4[6] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。2020 IEEE/CVF 计算机视觉和模式识别会议（CVPR），第11618-11628页，2020年。一、五[7] 王一伟，朱一恒，詹达仁，蔡剑飞，袁俊松，刘俊，蔡玉军，等。基于条件变分自动编码器的三维人体运动综合模型。 IEEE International Conference on ComputerVision，2021。5[8] Eric Chown，Stephen Kaplan，and David Kortenkamp.原型、位置和关联网络：走向认知映射的统一理论。认知科学，19（1）：1-51，1995年。1[9] Janez Demsˇar分类器在多个数据集上的统计比较。Journal of Machine Learning Research，7（1）：1-30，2006. 5[10] Gonzalo Ferrer、Anais Garrell和Alberto Sanfeliu。城市环境中具有社会意识的机器人导航。在2013年欧洲移动机器人会议上，第331IEEE，2013。1[11] 米尔顿·弗里德曼使用秩来避免方差分析中隐含的正态性假设。Journal ofthe AmericanStatisticalAssociation，32（200）：675 6[12] Francesco Giuliari，Irtiza Hasan ，Marco Cristani，andFabio Galasso.用于轨迹预测的Transformer网络。2020年第25届国际模式识别会议（ICPR），第10335-10342页，2021年。2[13] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Bing Xu，David Warde-Farley，Sherjil Ozair，Aaron C.Courville和Yoshua Bengio。生成性对抗网。在NIPS，2014。2[14] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。第2255- 2264页一、二[15] Dirk Helbing和Peter Molnar行人动力学的社会力模型。Physical review E，51（5）：4282，1995. 1[16] Irina Higgins，Loıc Matthey，Arka P. Burgess，XavierGlorot，Matthew M.波特维尼克，沙基尔·莫哈米德，亚历山大·勒施纳。beta-vae：使用受约束的变分框架学习基本视觉概念在ICLR，2017。5[17] B.伊万诺维奇和马可 ·帕沃内。The Probabilistic- ticMulti-AgentTrajectoryModelingwithDynamicSpatiotemporal Graphs.2019年IEEE/CVF计算机视觉国际会议（ICCV），第2375-2384页，2019年。二、五[18] Diederik P. Kingma，Tim Salimans，and Max Welling.用逆自回归流改进变分推理。ArXiv，abs/1606.04934，2017年。4[19] Simon A. A. 放大图片创作者：John W. 作者：KlausMaier-Hein ， S. M. AliEslami ， Danilo JimenezRezavih，and Olaf Ronneberger.一种用于模糊图像分割的概率u-网。NeurIPS，2018。4[20] 放大图片作者：Robert Mart 'ın-Mart' ın，Ian D.Reid，Seyed Hamid Rezatoeli ， and Silvio Savarese. Social-bigat：Multimodal trajectory forecasting using bicycle-ganand graph attention networks.NeurIPS，2019。2[21] Namhoon Lee，Wongun Choi，Paul Vernaza，Christo-pher Bongsoo Choy，Philip H.S. 托尔和曼莫汉·陈德雷克。欲望：在具有交互代理的动态场景中的遥远未来预测。2017年IEEE计算机视觉和模式识别会议，第2165-2174页2[22] Bohan Li，Junxian He，Graham Neubig，Taylor Berg-Kirkpatrick，and Yiming Yang. 一个令人惊讶的有效修复文本的深层潜在变量建模。自然语言处理经验方法会议（EMNLP），香港，2019年11月。4[23] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andPiotrDol la'r. 密集目标检测的焦面损失。 2017 年 IEEE 计算机视觉国际会议（ICCV），第2999-3007页5[24] Yecheng Jason Ma ， Jeevana Priya Inala ， DineshJayaraman和Osbert Bastani。基于流的轨迹预测归一化的多样性采样。ArXiv，abs/2011.15084，2020。5[25] Karttikeya Mangalam，Yang An，Harshayu Girase，andJi- tendra Malik.从目标，航点路径到长期的人类轨迹预测。在proc 国际计算机视觉大会（ICCV），2021年10月。一、二、三、五[26] 放大图片创作者：Chang Jiang，Elena Corina Grigore，A. 放大图片作者： Oscar Beijbom ， Eric M. 沃尔夫Covernet：使用轨迹集进行多模式行为预测。2020IEEE/CVF计算机视觉和模式识

下载后可阅读完整内容，剩余1页未读，立即下载