多发电机模型的行人轨迹预测：学习多个模式的分布以减少分布外样本

23 浏览量更新于2023-10-14 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13158MG-GAN：一种防止行人轨迹预测Patrick Dendorfer*Sven Elflein*Laura Leal-Taixe慕尼黑技术大学{patrick.dendorfer，sven.elflein，leal.taixe} @ tum.de摘要行人轨迹预测是一个具有挑战性的虽然生成对抗网络可以学习未来轨迹的分布，但当未来轨迹的分布是多个可能断开的模式的混合时，它们倾向于预测分布外的样本为了解决这个问题，我们提出了一个多发电机模型的行人轨迹预测。每个生成器专门学习朝向场景中的主要模式之一路由的轨迹上的分布，而第二个网络学习这些生成器上的categorical分布，以动态和场景输入为条件。这种架构使我们能够有效地从专门的发电机采样，并显着减少了分布外的样本相比，单发电机的方法。1. 介绍为了安全地在拥挤的场景中导航，智能代理（如自动驾驶汽车或社交机器人）需要预测人类的运动。预测人的轨迹是特别困难的，因为未来的行动是多模态的：给定过去的轨迹，存在几个合理的未来路径，这取决于场景布局和行人之间的社交最近的方法利用条件生成对抗网络（GANs）[14，16，34，22]来学习轨迹上的分布这些方法比确定性模型[1，18]有显着改进然而，它们遭受在GAN [38，20]的背景中观察到的限制，其表现为模式崩溃或预测不期望的分布外（OOD）样本，有效地产生不现实的轨迹。模式崩溃可以通过多个最佳采样[6]或潜在空间的正则化[22，2]来解决，但OOD样本的问题仍未解决。这些OOD样本在现实世界的应用中是特别有问题的，其中高*同等贡献。预测的精确性很重要。想象一下，一辆自动驾驶汽车在拥挤的环境中行驶，并与行人互动为了确保行人的安全，车辆需要预测他们未来的运动并相应地作出反应，刹车或转弯。因此，不切实际的预测可能导致对其他交通参与者构成危险的突然反应。为了理解为什么OOD样本是由最先进的GAN方法产生的考虑一个行人到达图1a中的交叉口。行人可以采取三个合理的主要方向，即直行、左转或右转。此外，存在朝向这些方向路由的若干虽然所有最近的工作都认为这种轨迹分布本质上是多模态的，但我们进一步观察到该分布由几个断开的模式组成。每个模式在图1c中以不同的颜色示出，并且如我们可以观察到的，三个模式在空间中是断开的。现有的GAN模型不考虑该属性，因此在模式之间生成不期望的OOD样本，在图1b中可视化为红色轨迹。这是单生成器GAN的固有问题，因为它们无法学习从连续潜在空间到断开的多模态目标分布的映射[38]。在本文中，我们解决了这个问题，并明确专注于学习这种断开的多模态分布的行人轨迹预测。为此，我们提出了一种新的多发电机GAN，它通过优化每个模式的连续发电机，将多模态与以前的多发电机模型[19，7]不同，我们的模型需要适应不同场景的发电机选择，例如，双向和三向连接。为此，我们采用了固定数量的发电机，并允许该模型直接从视觉场景信息学习必要数量的模式。为此，我们训练了第二个模块，估计各个生成器的分类概率分布，条件是输入观察。在测试的时候，我们首先选择一个特定的基因-13159pDPGpG3pG1pG$(a) 目标分布pD(b) 单台发电机配电pG(c) 多机配电图1：该图示出了行人到达交叉点（黑色），包括（a）未来路径的多模态目标分布，（b）通过单个生成器GAN预测分布外样本的学习的未来轨迹分布（红色），以及（c）多生成器混合模型的学习的轨迹分布。基于其分类概率和样本，然后是专用于场景中存在的该特定模式的轨迹。为了测量预测的质量，我们扩展了传统的L2错误度量的概念，并使用精确度和召回率度量[36，23]。我们的实验评估表明，我们提出的模型克服了国家的最先进的和单生成器的方法比较预测OOD样本的行为。我们将我们的主要贡献总结如下：（i）我们讨论了单生成器GAN的局限性，并提出了一种新的多生成器方法，该方法以视觉输入为条件，在未来轨迹上学习多峰分布为此，我们（ii）提出了一个模型，该模型估计发电机上的条件分布，并详细说明了一个训练方案，该方案允许我们端到端地联合训练我们的模型最后，（iii）我们引入召回和精确度指标行人轨迹预测，以measure- sure整个预测分布的质量，特别是OOD样本。我们通过广泛的消融证明了我们的方法模型和实验的源代码可获得：https://github.com/selflein/MG-GAN。2. 相关工作轨迹预测自其成立以来，行人轨迹预测领域已经从手工制作[18]转移到数据驱动[1]方法。虽然第一种学习方法使用确定性LSTM编码器-解码器架构（S-LSTM[1]），但深度生成模型[16，34，22，2，12，8]很快成为最先进的预测方法。这一发展使得从预测单一的未来轨迹转变为产生可能的未来轨迹的S-GAN [16]建立了一个条件生成对抗网络[14]来学习地面真实轨迹分布，S-GAN- P [16]和SoPhie [34]扩展了S-GAN的视觉和社交交互组件此外，S-BiGAT [22]通过利用自行车GAN训练[42]来增加样本的多样性，该训练鼓励输出和潜在代码之间的连接是可逆的。Goal-GAN [8]通过将解码器调节在基于场景的拓扑估计的目标位置GAN [14]具有众所周知的模式崩溃问题，这就是为什么许多模型[16，34]使用L2多样性损失[6]或修改GAN目标[2]以鼓励样本的多样性。虽然生产高度多样化的样本，确保覆盖所有模式的分布，我们也获得了许多不切实际的分布样本。OOD样本的问题一直未被注意到，部分原因是该领域使用的评估指标仅测量预测集与地面事实（即召回率）之间的最小L2尽管如此，预测轨迹的真实性，相当于一个精确的度量，很少评估。我们主张对弹道预测方法的评价应兼顾上述两个方面。其他工作使用条件变分自动编码器（VAE）[21]进行多模式行人轨迹预测[24，35，26，5]。最近，Trajectron++ [37]使用VAE并在图形结构的递归神经网络中表示代理的轨迹。PECNet [28]提出了目标条件轨迹预测。与GAN类似，VAE也是连续变换，并且受到在断开流形上生成分布的限制[32]。最后，P2TIRL [9]使用最大熵逆强化学习来学习基于网格的策略总之，现有的方法很少注意到所产生的分布外样本的出现，并且没有讨论在不连通支撑上学习分布的拓扑限制。13160我2ZZNZZXY{}2XZYXZY--YZ不连通流形的生成。在训练深度生成模型时，理解问题的底层几何结构非常重要[11]。更确切地说，学习不连通流形需要模型内的不连通性。单个生成器保留连续潜在空间的拓扑，并且不能专门预测不连通流形上的样本[38]。对于图像生成，多模态学习的问题是众所周知的并且被广泛研究。为了解决这个问题，[38]提出了一种基于发电机雅可比矩阵范数的拒绝采样方法InfoGAN[7]通过引入额外的维度来离散潜在空间。其他作品使用生成器的混合物[40，39，41，17，13，4]来构造不连续函数。然而，这些模型假设其离散潜在代码或生成器的均匀或无条件概率结果，这些方法不能够适应不同的场景，并且因此不适合于轨迹预测任务。我们的研究是第一个解决学习的问题，ING断开流形使用多个发电机的行人轨迹预测的任务，通过建模的条件分布的发电机。3. 问题定义在这项工作中，我们解决的问题，共同预测，ING未来的轨迹在现场的所有行人。对于每个行人i，我们生成一组K个未来轨迹Yk k=1，…，K与t[to bs+1，tpre d]对于给定输入轨迹Xi与t[t1，to bs]。这意味着学习以输入trac为条件的轨迹的真实分布和场景布局。在诸如图1中的许多现实世界场景中，目标分布pD是多模态的并且由断开的模式组成。为什么单发生器GAN产生OOD样本？最先进的方法使用标准条件GAN架构[14]及其修改[29，3]来学习未来轨迹上的分布。这些模型从与观测空间相结合的潜在空间学习连续映射G：到未来轨迹的空间。概率先验p（z）主要是一个标准的多元正态分布（0，1）。当用神经网络对G建模时，映射是连续的并且保持空间的拓扑。因此，概率分布的支持的变换G（xi）在输出空间中连接[38]。因此，理论工作[38，20]讨论了在不连通流形上学习分布是不可能的;我们在实验中也观察到了这种现象。为什么OOD样本有问题？真实世界-依赖于轨迹预测的应用，例如. au-车辆必须将每个预测视为可能的未来场景，并需要相应地调整其行动因此，不仅错过，而且不切实际的预测可能会严重损害这些应用程序的性能。由于在地面实况分布中没有支持的OOD样本可能是不现实的，因此我们的目标是保持它们的数量较小，同时仍然覆盖所有模式。我们如何防止OOD样品？如果目标分布位于不连通流形上，则所有单发生器模型都将预测OOD理论上，只有两种方法可以实现G的不连通性：使生成映射G：不连通或使生成映射G：不连续。我们在我们的论文中讨论了这两种方法，但发现后者更有效。如何测量OOD样品？最佳的许多L2距离度量集中在最小化之间的误差，一个单一的一个角样本的一组预测，而不评估剩余的轨迹的质量。因此，我们比较了我们的模型的召回率和准确率[36，23]，这通常用于评估生成模型的质量虽然现有的距离测量与召回率高度相关，但我们同样对与OOD样本数量相关的精度感兴趣。4. 方法在本节中，我们提出了用于行人轨迹预测的多生成器框架。我们的模型将不连续函数学习为由多个生成器建模的分布的混合（第4.1节）。为了适应不同的场景，我们训练了第二个网络，估计新的不可见场景在生成器上的分类分布（第4.24.1. MG-GAN视觉和轨迹编码器。我们在图2中概述了模型的架构。首先，特征编码器从每个行人的输入序列Xi和场景图像块IiI. 注意力模块组合这些编码以计算物理注意力[34]特征vi和社交注意力[2]特征si。在编码和关注之后，我们将动态di、物理vi和社会si特征连接为ci=[di，vi，si]。在下文中，我们省略指示个体行人的索引以避免符号混乱。请注意，我们利用已建立的模块来建模物理和社会交互[34，2，16]，因为我们的贡献是多生成器框架。我们在补充资料中提供了有关这些组件的更多详细信息。多发电机模型。在我们的模型中，我们利用nG个不同的生成器Gg，其中每个生成器专门学习不同的轨迹分布，条件是13161！1！2...！2发电机LSTM1X（1C =二个3*+2（LSTM56LSTM2下午网络|G=1····--|LLLN分布PgpG（Y|（三）建立的再-L）（编码注意模块CNN身体注意力X（XJ社会关注LSTMLSTM图2：MG-GAN的架构场景图像Ii和观察到的轨迹X被编码并传递到物理和社会注意力模块。对于给定的场景观测，n个G生成器可以预测不同的条件轨迹分布PM-Net估计发电机的概率模型从和中采样或选择生成器预测以特征c和噪声向量z为条件的轨迹Y输入C.所有发电机共享相同的网络体系结构，但是，它们不共享权重。生成器架构由LSTM解码器组成，其用特征c和随机噪声向量z初始化（0，1）as初始隐藏状态h0。最后的轨迹Y循环预测：∆Y t=LSTM g.∆Xt-1，ht-1Σ。（一）在图像生成的背景下提出的现有多生成器模块假设在生成器上的分布是恒定的[19，17]。然而，在轨迹预测的情况下，模式的数量是先验未知的。因此，我们通过激活特定的生成器来训练一个适应场景的模块，以观察和交互c为条件。4.2. 路径模式网络（PM-Net）路径模式网络（PM-Net）参数化生成器p（g，c）=[1，，nG]，并且用多层感知器MLP（c）进行建模。的输出g将概率分配给n个G生成器中的每一个。在推理期间，我们可以基于预测的分布对不同的发电机进行注意，这提供了优于现有方法[19，20]的主要优点，其中分布是固定的并且不能适应不同的场景。相比之下，我们的PM-Net能够为给定场景选择相关的发生器，同时停用不合适的发生器。4.3. 模型训练我们现在提出一个训练算法，共同op-4.3.1GAN训练我们使用条件生成器，区分真实和虚假轨迹的判别器网络D[14]和学习识别哪个生成器预测给定轨迹的分类器C[19]来训练我们的模型。有关这些网络对抗性损失我们定义每个发生器 GgasY（g，z）=Gg（c，z），导出一个隐分布pGg（Y（c））.所有n个G生成元一起描述一个联合概率nGG”[14]《礼记》云：“礼之以礼，礼之以礼。我们使用原始的对抗性损失Adv[14]。鉴别器D学习在真实样本Y和由鉴别器D生成的样本Y之间进行区分。模型鼓励现实主义的预测。然而，D其本身并不能防止发生器崩溃到相同的模式。分类损失。为了激励生成器覆盖占据输出空间的不同区域的不同的、可能不同的模式，我们遵循[19]并引入分类器C，其旨在识别生成器索引g生成样本Yg，z。跨行业亏损CL分类器输出和预测轨迹的真实发生器标签之间的差异鼓励发生器对非重叠分布进行建模，并驱动不同发生器的轨迹在空间上分开。这种行为通过对抗性损失Adv来调节，该对抗性损失Adv将样本约束为现实的并且不偏离真实分布。总的来说，训练对象如下minmaxLAdv+λTrajLTraj+λClLCl，（2）G D优化由以下参数化的发电机上的分布PM-Net和多发电机GAN模型。为此，我们提出了一个交替的训练方案，灵感来自期望最大化[15，20]。其中，我们另外应用具有q个样本的L2多个最佳损失[6，16]Traj以增加预测轨迹的多样性。 λTraj和λCl是加权超参数。...13162X1比厄Pp（g| c，Y）=。nG0p（Y|c、g）埃·¨1百分之二十七23%24%12%14%1234五个发生器id百分之四十五百分之二十六百分之二十六2%1%1234五个发生器id(a) GT（b）GAN L2（c）InfoGAN（d）MGAN（e）MG-GAN（我们的）图3：合成数据集中两种场景的预测轨迹。上一行包含具有3种模式和交互行人（白色）的交叉路口上的场景。下面一行示出了具有两种模式的场景。图（a）表示这些场景的条件多模态地面实况分布的支持。MG-GAN的图（e）还示出了PM网络的概率。我们以相同的颜色可视化一个生成器/离散潜在变量的轨迹。4.3.2PM-Net培训为了训练PM-Net，我们近似支持轨迹Y的粒子生成器分布pGg的可能性1. PM-Net训练步骤：我们对每个发电机的l个轨迹进行采样，并使用等式（5）优化PM-Net的参数，同时保持网络的其余参数固定。通过生成的轨迹Y（g，c，zi）=Gg（c，zi），如下：p（Y |c、g）/LLi=10-Yg，c，zi-Y2σ时22CA.（三）2. 发生器培训步骤：在生成器训练步骤中，我们使用PM-Net生成概率和样本q生成器预测轨迹。通过这些预测，我们更新了模型，排除了PM-Net优化在这里，我们将GAN噪声z边缘化，并假设一个正态分布，并在等式（2）。我们提供了伪代码，详细说明了我们的培训过程中的补充。Y和Y对于回归任务是共同的[10]。Weob-通过应用贝叶斯规则来获得生成器上的条件概率4.4. 轨迹采样我们可以使用估计的概率=p（Y|c、g）的g0（四）[1， . ...... 你好。，nG]，以建立不同的机制来从多个生成器采样轨迹。这有助于我们覆盖所有模式最后，我们用近似似然最小化交叉熵损失来优化PM-Net：L= H（p（g|c，Y），（c））.（五）直观地，网络被训练为对生成最接近地面实况样本的轨迹的生成器进行最高加权。我们在补充资料中提供了目标的完整推导。4.3.3交替训练计划我们的训练方案由两个交替的步骤组成，类似于期望最大化算法[15]：尽可能少的预测。在单发生器模型[22，34]中，高斯潜在空间中的区域与输出空间是隐含的和未知的。然而，对于MG-GAN，我们可以使用估计的概率...... 你好。，nG]，以控制并覆盖场景中存在的所有模式的预测。接下来从随机采样k个轨迹（随机），我们引入一个额外的策略（期望），其中我们计算每个生成器的期望样本数为ng=kg。我们将所有n g四舍五入到最接近的整数，并调整得分最高的生成器的个数，以确保所有数的和都等于kexp131631 .一、00的情况。8DMGAN-PLMGANMG-GAN0.280的情况。60的情况。4GAN+L2GANGAN+L2+拒绝InfoGAN0.32图5：生成我们的MG-GAN、Trajec-0的情况。40506070八点零分9精度图4：精度与回想一下合成数据集。5. 实验评价我们在四个公开可用的行人轨迹预测数据集[30，25，31，27]上评估了我们的模型，并将我们的结果与最先进的方法进行了比较。此外，我们在合成数据集上进行实验与真实数据相比，合成数据提供了对地面实况轨迹分布的访问，这使得我们能够通过比较地面实况和生成的轨迹分布来识别OOD样本最后，我们对MG-GAN的各个组件进行消融，并研究我们的模型w.r.t的鲁棒性。数生成元nG.5.1. 实验装置我们遵循先前的工作[31，1]并观察8个过去的时间步长（3.2秒），并预测场景中每个行人的未来12个时间步长指标. 我们使用以下指标评估结果：平均位移误差（ADE）被定义为预测和地面实况轨迹之间的平均L2距离。最终位移误差（FDE）被定义为在时间tpred处的预测与地面实况轨迹位置之间的距离。对于两个度量，ADE和FDE，我们遵循k上的最小值过程[16，34，22]，其中k=20。注意，该方法仅考虑具有最低ADE和FDE的单个预测，而不是组合的k个生成的输出轨迹的集合的全部。因此，我们包括GAN文献[36，23]中常用的其他指标，即召回率和精度。召回措施，确保所有地面实况模式的覆盖范围，而precision，在地面实况分布的支持下，测量生成的样本的比率。因此，精密度与OOD样本的数量直接相关我们还计算了F1分数，结合召回率和精度.数据集。我们使用以下数据集进行评估。ETH [30]和UCY数据集[25]包含五个序列（ETH：ETH和HOTEL，UCY：UNIV，ZARA1，和ZARA2），记录在四个不同的场景中。我们遵循标准的留一法进行培训和召回13164tron++和PECNet。测试，我们在四个数据集上训练，并在剩下的一个数据集上测试。斯坦福无人机数据集（SDD）[31]由从斯坦福大学校园的俯视图中捕获的20个在我们的实验中，我们遵循[33]的列车测试分割，只关注行人。最近提出的分叉路径数据集（FPD）[27]是一个逼真的3D模拟数据集，为单个输入轨迹提供多个未来轨迹。为了研究我们的模型在预防OOD样本的同时预测多模态轨迹的能力，我们创建了一个合成数据集，在该数据集中，我们模拟了由于场景布局和社会交互而出现的相同观测的多个可能的未来路径。补充材料中提供了关于生成的数据集的详细信息。基线。我们比较了我们的方法与几个单和多发电机GAN基线。我们评估了（i）vanillaGAN基线，（ii）使用品种损失训练的GAN L2[6]，（iii）基于潜在空间中的梯度过滤OOD样本的GAN L2 Reject[38]，以及（iv）具有离散随机潜在变量的InfoGAN [7此外，我们将MG-GAN与在图像生成的背景下提出的多生成器模型MGAN [19]和DMGAN-PL [20]进行比较，我们将其适用于轨迹预测的任务。为了确保可比性，所有模型都使用相同的基础模型，遵循SoPhie [34]，具有第4.1节所述的注意力模块。对于定性比较，我们评估我们的方法对国家的最先进的预测模型在第2节中提出的标准基准轨迹预测。5.2. 合成数据我们首先在一个合成数据集上研究我们的模型，在这个数据集上我们可以获得未来轨迹的真实分布在这个实验中，我们证明了MG-GAN在学习具有断开支持的多模态轨迹分布方面取得了更好的性能，并且比基线更有效。结果图4中的结果示出MG-GAN胜过单发电机基线并且将Re-call增加0。28，精度为0。三十二为此，我们发现所有多生成器方法都具有类似的召回率，但MG-GAN实现了15%的更高精度，对应于更少数量的OOD样本。13165第一百一十二章0的情况。80的情况。60的情况。40的情况。25 10 1520样本数量k（一）1 .一、51 .一、00的情况。5二、三、四参数数量（104）（b）第（1）款0的情况。80的情况。60的情况。40的情况。2二、三、四参数数量（104）（c）第（1）款4.03.02.01.014二、三、四参数数量（104）（d）其他事项图6：单发电机模型GAN+L2和MG-GAN之间的比较。(a)不同样本数k和采样方法的召回率。(b)- （c）比较ADE/FDE、查全率/查准率和MAC（目视检查结果。在图3中，我们可视化预测的TRA-I。数据集S-LSTMS-GAN苏菲S-BiGATCGNSGoalGANPECNetTrajectron++ MG-GAN[1]第一章[16个][34个][22日][26日][八]《中国日报》[28日][37]第三十七届（我们的）两个不同场景的轨迹，其中白色轨迹表示另一个相互作用的行人。每个时间步长的地面实况分布的支持在图3a中显示为红色圆圈。在图4中，如果许多轨迹点位于特定时间步长的相应红色圆圈之外，则模型实现低精度。类似地，如果模型的样本覆盖红圈的大部分区域，则模型具有高召回率单发电机模型，GAN+L2（图3b）和InfoGAN（图3c）产生许多OOD相同。ETH 1.09/2.35 0.81/1.52 0.70/1.430.69/1.290.62/1.400.59/1.180.54/0.870.39/0.830.47/0.91HOTEL 0.79/1.76 0.72/1.61 0.76/1.67 0.49/1.010.70/0.930.19/0.350.18/0.240.12/0.210.14/0.24UNIV 0.67/1.40 0.60/1.26 0.54/1.24 0.55/1.320.48/1.220.60/1.190.35/0.600.20/0.440.54/1.07ZARA1 0.47/1.00 0.34/0.69 0.30/0.63 0.30/0.62 0.32/0.59 0.43/0.87 0.22/0.390.15/0.330.36/0.73ZARA20.56/1.17 0.42/0.84 0.38/0.78 0.36/0.75 0.32/0.65 0.17/0.300.11/0.250.29/0.60AVG0.72/1.54 0.58/1.18 0.54/1.15 0.48/1.00 0.49/0.97 0.43/0.85 0.29/0.480.19/0.410.36/0.71表1：ETH [30]和UCY [25]的定量结果。我们以米为单位报告ADE（）/FDE（）。带下划线的结果表示第二好。S-LSTM S-GAN CAR-NET DESIRE SoPhie CGNS CF-VAE P2TIRL GoalGAN PECNet MG-GAN（4）导致精度低。特别是，我们发现In-foGAN无法学习[1]第一章[16个][35]第三十五届[24日][34个][26日][五]《中国日报》[9]第一章[八]《中国日报》[28日]（我们的）离散的潜空间和轨迹空间中的模式。虽然理论上是合理的，但这些结果表明，离散化的潜在空间并不适合在断开连接的支持下学习分布。相反，MGAN可以学习分布，但是不能调整发生器，从而在模式的数量与发生器的数量不匹配时产生图3d最后，我们的MG-GAN能够适应图3e中的两种场景，因为PM-Net停用了不合适的生成器并阻止了OOD样本，这解释了图4中的高精度。有效模式覆盖。图6a示出了取决于样本数量k的召回。我们的方法涵盖了更多的模式的地面实况分布比单一的发电机模型相同数量的样本所指示的更高的召回。此外，与随机抽样相比，我们观察到显著的改进，通过使用期望抽样利用PM-Net，如第4.4节所述，特别是对于较少的样本。参数数量和计算成本。在这个实验中，我们表明，我们的MG-GAN不需要更多的资源w.r.t.参数或计算与单个发生器基线进行比较。为此，我们将使用四个发生器的MG-GAN与单发生器基线进行比较，同时通过仅使用大约100%的发生器来保持两个模型的参数总数每个发生器参数的1/4如图6 b和6c中可见，MG-GAN优于单发电机GAN。w.r.t. ADE/FDE（50%）和召回率/精确率（30%）模型抽样GAN L2随机MG-GAN期望度量ADEFDEnG14度量精准召回nG14召回ADE/ FDE召回率/精确度MAC（105）Ade57.027.325.719.316.3十五点六分十二点六十二点六12.210.013.6FDE31.241.451.834.129.4二十八点二22.3 22.122.115.925.813166--2表2：斯坦福无人机数据集的定量结果(SDD)[31 ]第30段。我们以像素为单位报告ADE和FDE。在不同的参数预算上具有相同数量的总参数。在图6a中，与基线相比，对于MG-GAN，由MAC测量的用于预测轨迹的计算成本该模型只运行一个选定的发电机与1/4的数量的参数，而运行PM-Net的成本可以忽略不计。5.3. 基准测试结果在本节中，我们将我们的方法与标准基准ETH[30]，UCY [25]和SDD [31]以及最近提出的分叉路径数据集（FPD）[27]上的最新技术进行了比较。我们报告的模型的性能与最低的验证误差，因为我们训练我们的方法与不同数量的发电机nG2、. ..，8.我们讨论的鲁棒性w.r.t.的数量第5.4节中的生成器。ADE FDE。我们的MG-GAN在ETH/UCY和斯坦福无人机数据集（SDD）上实现了ADE和FDE的竞争结果，分别如表1和表2所示。即使我们的方法没有实现SOTA性能的ADE和FDE指标在这些基准测试，我们仍然认为，我们的方法提供了显着的改进的任务。这是因为基于距离的L2度量可以通过增加生产价格预测的方差13167ADE# FDE# Precision“调用”F1GAN+L2 28.81 58.370.55 0.87零点六七PECNet13.14 24.550.460.950.62Trajectron++13.15 32.000.380.960.54MG-GAN（我们的）22.0946.380.710.890.79表3：关于FPD的结果我们以像素报告ADE/FDE更多OOD样本图5中Trajectron++和PECNet产生的轨迹的视觉比较显示，这些方法产生高方差预测，而不考虑场景中的任何约束。相反，MG-GAN仅预测地面实况M C PM ADE# FDE# Precision“召回”0.94 1.58 0.46 0.480.59 0.79 0.370.35 0.49 0.720.37 0.53 0.730.32 0.44 0.77表4：消融实验：（M）多生成器、（C）分类器和（PM）路径模式网络。2345678 最好ADE 0.37 0.38 0.38 0.39 0.37 0.36 0.37 0.36FDE 0.72 0.74 0.75 0.76 0.71 0.71 0.72 0.70歧管（红色）。在涵盖所有模式的同时，我们的预测继续支持地面实况的传播。为了量化这种观察，我们计算召回率和精度指标。精准召回由于ADE和FDE不考虑整个生成的分布的质量，因此我们在FPD数据集[27]上使用精度/召回度量[36，23]添加结果。这在FPD上是可能的，因为它包含多个可行的、人类注释的地面实况轨迹。在表 3 中， MG-GAN 在精确度方面优于GAN+L229%，PECNet 54%，Trajectron++86%，而在召回率方面的差异为0。02，0。06，以及0的情况。07分很小。单发电机模型预测过度不同的轨迹，从而略微增加召回率并减少ADE/FDE，但产生OOD样本，导致低精度。这些结果证实，MG-GAN在预测与人类注释的未来轨迹很好地对齐的路径（高精度）方面显著更可靠，同时还覆盖场景中类似数量的模式总体而言，我们得出结论，MG-GAN在表1和表2中的传统评估指标上与SOTA性能不匹配。然而，研究精度和召回率表明，我们的模型可以降低OOD的数量，并实现了整体上更好的F1比目前的SOTA方法。5.4. 消融研究在本节中，我们将详细介绍MG-GAN的关键模块。我们强调，本文的目标是证明行人轨迹预测的条件多生成器框架的必要性和有效性。因此，在第4.1节中描述的我们的模型中使用的注意力模块的研究不是这项工作的目标，并且已经在先前的工作中广泛完成[16，2，34，22]。关键模块的有效性。我们通过从最终模型中删除关键组件来对合成数据集进行消融：多个发生器、分类器C和表4中的PM-Net。将生成器的数量减少到1会导致性能显著下降几乎表5：对于ηG2 {2，. ......、在ETH/UCY上。召回率为50%，准确率为31%如第4.1节所述，分类器C鼓励个体生成器进行专门化，并将精度从37%提高到73%。类似地，通过PM-Net学习发电机上的分布，精度从37%增加到72%。最后，利用PM-Net和分类器C，结合两者的优点，进一步提高了所有考虑的指标的性能。对发电机数量的鲁棒性。未来轨迹的多模态取决于社会互动和场景布局，在训练时选择发电机数量nG为此，我们引入了PM-Net，它可以根据观察到的场景特征来学习激活生成器如在表5中可以看出，PM-Net成功地使MG-GAN相对于相对于网络的可靠性更高。选择nG作为结果最大仅偏离最佳报道值7%。6. 结论在本文中，我们解决了行人轨迹预测的单发电机GAN模型虽然现有的生成网络学习未来轨迹的分布，但它们基本上无法学习由多个断开模式组成的分布。为了克服这个问题，我们提出的MG-GAN利用了多个专门用于不同模式的生成器，并学习根据场景观察从这些生成器中进行采样。我们证明了MG-GAN与现有技术相比在减少分布外样品方面的功效。最后，我们强调了查全率指标的重要性，并希望在未来的工作中鼓励对防止OOD的讨论。鸣谢。该项目由Hum- boldt基金会通过Sofja Kovalevskaja奖资助。我们非常感谢Aljosˇa Osˇep的有益讨论、建设性反馈和校对。13168引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会LSTM：拥挤空间中的人体轨迹预测。计算机视觉与模式识别会议，2016年。一、二、六、七[2] J av adAmirian ， Jean-BernardHayet ， andJulienPett re´.Social-cial Ways：使用GANs学习行人轨迹的多模态分布。在计算机视觉和模式识别研讨会上，2019年。一二三八[3] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络2017年国际机器学习会议。三个[4] Sanjeev Arora，Rong Ge，Yingyu Liang，Tengyu Ma，and Yi Zhang.生成对抗网GANs中的泛化和均衡2017年国际机器学习会议。三个[5] Apratim Bhattacharyya ， Michael Hanselmann ， MarioFritz，Bernt Schiele，and Christoph-Nikolas Straehle.用于结构化序列预测的条件流变分自编码器在神经信息处理系统，2019。二、七[6] Apratim Bhattacharyya，Bernt Schiele，and Mario Fritz.基于“最佳”样本目标的精确和多样化的序列采样计算机视觉与模式识别会议，2018年。一、二、四、六[7] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. InfoGAN：通过信息最大化生成对抗网络进行可解释的表示学习。在神经信息处理系统，2016年。一、三、六[8] PatrickDendorfe r，Alj osˇ aO sˇ ep，andLauraLeal-T aix e´.目标-GAN：基于目标位置估计的多模式轨迹预测. 2020年亚洲计算机视觉。二、七[9] Nachiket Deo和Mohan M.特里维迪基于网格计划的未知环境中的轨迹预测 arXiv 电子印刷品，第 arXiv ：2001.00735，2020页。二、七[10] Norman R Draper和Harry Smith。应用回归分析，第326卷。John Wiley Sons，1998年。五个[11] CharlesFefferman、SanjoyMitter和HariharanNarayanan。测试流形假设。美国数学学会杂志，2013年。三个[12] Tharindu Fernando、Simon Denman、Sridha Sridharan和Clinton Fookes。GD-GAN：用于人群中轨迹预测和群体检测的生成对抗网络。2018年亚洲计算机视觉会议。2[13] A. Ghosh，V. Kulharia，V. Namboodiri，P. H. S.托和P. K.多卡尼亚多智能体多样化生成对抗网络。计算机视觉与模式识别会议，2018年。三个[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在神经信息处理系统，2014年。一、二、三、四[15] KlausGref f ， SjoerdvanSteenkiste ， andJürgenSchmidhu-ber.神经期望最大化。在神经信息处理系统，2017年。四、五[16] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。Social GAN：具有生成对抗网络的社会可接受的传输。在Confer-ence onComputer Vision and Pattern Recognition，2018。一二三四六七八[17] Hao He ， Hao Wang ， Guang-He Lee ， and YonglongTian. GAN的贝叶斯建模和蒙特卡罗推理。在2019年国际学习代表会议上。三、四[18] DirkHelbing和P e'terMoln a'r。行人动力学的社会力模型Physical Review E，51，1995。一、二[19] Quan Hoang、Tu Dinh Nguyen、Trung Le和Dinh Q.冯MGAN：用多个生成器训练生成对抗网络。在2018年的学习代表国际会议上。一、四、六[20] Mahyar Khayatkhoei，Maneesh K.辛格和艾哈迈德·埃尔·加马。生成对抗网络的不连通流形学习。神经信息处理系统，2018。一二三四六[21] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。2013年，在国际学习代表会议上。二个[22] Vineet Kosaraju ， Amir Sadeghian ， Roberto Mart´ın-Mart´ın ， Ian Reid ， Hamid Rezatofighi ， and SilvioSavarese.社会- BiGAT：使用Bicycle- GAN和图形注意力网络进行多模态轨迹预测。在神经信息处理系统，2019。一、二、五、六、七、八[23] TuomasKynkaüaünniemi 、 TeroKarras 、 SamuliLaine 、Jaakk oLehtinen和Timo Aila。用于评估生成模型的改进的精确度和召回率度量。在神经信息处理系统，2019。二三

下载后可阅读完整内容，剩余1页未读，立即下载