轨迹预测和估算的新型非自回归模型

127 浏览量更新于2023-10-25 收藏 938KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12736弹道预测和估算的模拟非自回归模型孟氏齐桓公1、2、捷勤4、郁武2、3、易阳31瑞士洛桑联邦理工学院CVLab 2中国百度研究院3ReLER，悉尼科技大学，澳大利亚4阿联酋人工智能Inception Institute of Arti-official Intelligencemengshi. epfl.ch; qinjiebuaa@gmail.com; yu.wu-student.uts.edu.au;yi. uts.edu.au摘要轨迹预测和插补是理解人与物体运动的关键步骤，由于时间序列中的未来轨迹和缺失值是充满的，因此具有相当大的挑战性的不确定性，并且时空背景相关性难以建模。然而，现有的方法忽视了序列预测和插补之间的相关性。为此，我们提出了一种新的模仿非自回归建模方法，同时处理的轨迹预测任务和缺失值imputation任务。具体来说，我们的框架采用了模仿学习范式，其中包含一个经常性的条件变分自编码器（RC-VAE）作为演示器，和一个非自回归转换模型（NART）作为学习器。通过联合优化两个模型，RC-VAE可以预测未来的轨迹，并捕捉序列中的时间关系，以监督NART学习器。因此，NART从演示者那里学习，并在非自回归策略中估算缺失值。我们在三个流行的数据集上进行了广泛的实验，结果表明，我们的模型在所有数据集上都达到了最先进的性能。1. 介绍由于新兴人工智能应用的需求不断增长，轨迹预测和估算已成为相关领域的热门话题。如图1所示，序列预测任务是指在给定先前移动的情况下生成未来轨迹，而序列插补的目的是基于一些离散观测值填充序列中的缺失值。这项工作的一部分是在M.齐磊正在参观百度研究院。图1.轨迹预测和估算。给定篮球比赛中几个移动主体的2D轨迹历史，我们需要（a）预测未来轨迹（即，给定几个先前的连续观测，预测下一个值），以及（b）输入缺失值（即，给定一些离散的观测值，输入缺失值）。不同颜色的圆圈和线条表示各种玩家的位置和移动，其中浅色圆圈和虚线表示缺失的值。大量的现实世界的问题可以被利用作为轨迹预测和插补的任务，例如运动分析[10，23，33]，动作捕捉[37，39]，场景理解[32，34]、自动驾驶[25，49]等。例如，机器人或自动驾驶汽车通常需要预测人或汽车的未来运动，然后及时给出反馈或采取行动。同时，由于轨迹交叉或遮挡，如何推理时间序列中的缺失值在许多关键应用中也起着重要作用。因此，增加预测将要发生的事情的能力并补充序列中缺失的值是必要的。不幸的是，到目前为止，这些问题仍然缺乏有希望的解决办法。一些努力已经投入到轨迹预测和插补的任务中[1可变自动编码器（VAE）[10]或生成对抗网络（GAN）[29，46]）来生成未来的移动和缺失值，而其他人则利用中间变量12737Ω我我或通过层次模型捕获长期协调的表示[48，51]。然而，他们中的大多数通常专注于学习粗略的解纠缠潜变量，忽略了环境中额外细粒度条件的重要性（例如，背景和身份）。此外，目前大多数深度生成模型都是自回归的，即，它们根据先前的运动对当前时间步长处的值进行建模。因此，它们在长距离时间序列模拟中常常会出现组合误差。此外，目前没有统一的框架同时处理轨迹预测和估算。虽然取得了巨大的成就，以往的研究都是将这两个任务分开处理，但都没有考虑到两个任务之间的相关性。事实上，序列预测可以提供过去和未来之间合理的时间依赖性，这对于估算时间序列中的缺失值也是必要和重要的。因此，上述研究可能会因这一点而受到影响。此外，如何从预测模型中转移有益的时空信息以帮助监督插补模型仍然是一个开放的挑战。为了解决上述问题，我们提出了一种新的模仿非自回归模型框架，用于未来轨迹预测和缺失值插补。具体来说，我们提出了一个循环条件变分自编码器（RC-VAE）来捕获序列中的回归相关性，并根据先前的观察结果生成未来的运动。同时，我们引入了一个非自回归转换模型（NART）来将不完全序列转换为完全序列.此外，我们的关键见解是在整个模型中利用模仿学习策略，特别是将模仿学习模块插入到每个部分中，并使RC-VAE作为示范者来监督NART学习者。值得注意的是，我们的框架可以通过这种策略将回归模型的时空相关性转换为非自回归模型。我们的主要贡献总结如下：1) 我们提出了一种新的模仿非自回归建模方法，同时解决轨迹预测和缺失值填补。2) 我们引入了一种新的循环向前向后架构和非自回归推理策略，分别学习长期依赖性和建模时间差异，这使得所提出的模型能够生成未来的轨迹和估算缺失值。3) 我们采用模仿学习的思想来进一步提高学习效率。2. 相关工作轨迹预测和插补。如何预测未来的运动轨迹[2，4，10，17，18，21，24，27，30，42，48，50，51]和插补序列中的缺失值[6，13，29，46，47]是非常重要但具有挑战性的任务。例如，Zheng等人。[51]提出了一种深度分层策略模型，Felsen等人。 [10]利用条件变分自编码器来预测细粒度的多智能体运动。以前的缺失值插补研究集中在利用统计方法，如线性回归[3]和k-最近邻[13]。最近的研究人员利用深度生成模型来估算时间序列，递归神经网络[6，47]和生成对抗网络[29，46]。However, such autoregressive models haveweaknesses in matching the generated data and the actualvalues.在这项工作中，我们建议将模仿学习利用到非自回归模型中，以实现序列预测和插补。模仿学习。最近，在模仿学习方面有几个主要的进展[11，19，25，35，38，43，52]，显示出很强的学习能力，可以从一组演示中模仿智能体Ziebart等人[52]和Finn等人。[11]用逆再激励学习解决了模仿学习问题。Ho等人 [19]将模仿学习纳入对抗训练。在这项工作中，我们首次提出了一个具有模仿学习的非自回归模型，用于序列预测和插补。生成模型。如今，生成对抗网络（GAN）[14]和变异自动编码器（VAE）[22]已经引起了越来越多的关注。特别是，VAE通过正则化潜在变量来生成新的示例，用于大量应用，例如图像生成[15]，句子生成[5]以及预测静态或动态场景中的未来运动[24，41]。最近，非自回归模型也被引入到相关应用中（例如，自然语言处理[16，26，44]和语音合成[31]），因为它们相对于自回归方法具有竞争优势。我们提出了一个联合框架与模仿学习，以解决轨迹预测和填补，它可以同时利用自回归和非自回归模型的优点。3. 预赛问题定义。我们将多智能体轨迹生成问题定义如下。给定一个随时间[t0，tq]观察到的代理集合，以及它们对应的通过一个演示器来增强我们提出的模型，将轨迹X [t0，tq]=X[t0，tq]|∀i∈Ω. 还有那个...监督学习者的每个解码状态。4）对三种广泛采用的chal进行了广泛的实验第i个代理的历史可以定义为X [t0，tq]={xt0，xt0+1，···，xtq}，其中每个轨迹xt表示为我我我测试基准验证了提出的模型超过了最先进的方法。表示为时间t时的2D坐标。我们的目标任务是生成或预测未来的运动轨迹。12738图2.提出的模仿非自回归建模框架概述。我们的模型主要由两部分组成：上部分是递归条件变化自动编码器（RC-VAE）演示器，其用于在给定观察到的先前序列的情况下预测未来运动，并且下部分是非自回归变换建模（NART）学习器，其用于在给定几个离散观察的情况下估算缺失值。值得注意的是，我们在两个模型中引入了模仿模块，这使得RC-VAE演示器能够在解码过程中监督NART学习者。从时间tq+1到时间tv的多个智能体的历史，即学习后验分布P（Y（tq，tv））|X [t0，tq]，O），通过引入变分分布q φ（z），在这种潜变量模型下的数据的对数似然|X），P其中Y（tq，tv]={Y（tq，tv]}|j∈P指的是未来的trajec-其用于对输入数据x进行Pj后验pθ（z|x）生成模型。φ表示代理子集P的历史，P ∈N，O表示另可用的输入条件。在[10]之后，我们利用身份和未来上下文作为额外条件O，其中（1）进攻/防守每一个队员。序列插补任务的定义如下：设X=（x1，x2，· · ·，xT）表示T个观测值的序列，其中xt∈RD，D分别表示每个时间步的值和每个轨迹的维数.通常，X中存在一些缺失数据，由掩码序列M=（m1，m2，· · ·，mT）表示。如果xt缺失，我们将掩蔽mt插补的目的是在一个连续的时间序列中用逻辑或合理的值替换或补充缺失的数据。可变自动编码器。在这里，我们回顾一下变分自编码器（VAE）的定义。为了构造潜变量模型，我们定义了潜因子生成模型：pθ（x，z）=p（z）pθ（x|其中θ是指解码器的参数，p（z）是先验分布在潜在变量z上。VAE旨在最大限度地编码器的参数。因此，我们对似然性的易处理证据下限（ELBO）如下：E qlogpθ（x）≥E qlogpθ（x）−DKL[qφ（z|x）||pθ（z|x）]=Eqlogpθ（x|z）−DKL[qφ（z|x）||pθ（z）]。（一）4. 该方法4.1. 概述图2说明了我们的模拟非自回归建模方法的总体框架。我们的目标是将模仿学习的直觉带到非自回归模型中，并使其适应我们的场景。该方法采用递归条件变分自动编码器（RC-VAE）模拟知识型演示器，非自回归变换模型（NART）模拟学习器。通过模仿学习策略，RC-VAE有望为NART的解码状态提供有效的监督和足够的知识。值得指出的是127392P2不不不不不不不ΩzzRC-VAE用于轨迹预测，而NART用于缺失值填补。在接下来的部分中，我们将分别描述我们提出的框架中的RC-VAE演示器和NART学习器的细节。4.2. RC-VAE演示器我们提出了一个递归的条件变分自动编码器（RC-VAE）作为演示。RC- VAE的编码器采用多种条件作为输入，解码器有一个关键部件，即，模仿学习模块。模仿学习模块可以在每个时间步发出动作，其中包含必要的时间上下文信息，作为NART学习者训练过程中的监督指导，这里的轨迹和地面实况，即， ||Y−Y||2（其中Y=Y（tq，tv）表示地面实况，Y表示预测值，P表示预测所需的所有代理的子集）。因此，我们构造损失函数如下：LRC-V AE=||Y−Y||2+βDKL（Q||（4）其中P（z|X [t0，tq]，O）=N（0，1）是先验分布，Q（z=z|X [t0，tq]，O）<$N（μ，μ）是潜在的离散度，被建模为正态分布，并且z是采样的潜在变量。β是加权因子。在我们提出的模型中，我们在所有实验中设置β= 1模仿学习模块。为了以模仿学习的方式导出我们的框架，我们在解码器中加入了模仿学习模块我们定义了每个解码器层的输入Sl={sl，sl，···，sl}，通过观察数据”l l l12TL架构在RC-VAE演示器中，是推断给定观测帧的连续时间潜在位置和速度轨迹，并学习建模高阶动力学和捕获时间序列中的不确定性。因此，我们采用变分RNN（VRNN）[7]作为我们的基线模型，它是指以RNN的隐藏状态为条件的变分自动编码器（VAE），并且可以通过最大化等式中的ELBO来训练。1.在我们提出的RC-VAE演示的编码器设计在一个向前向后的方式。同时，我们还在编码器和解码器中采用了类似于Transformer[40]的自注意层和前馈层。前后向编码器。与传统的双向RNN不同，我们采用了前向-后向编码器。编码器是一个两层RNN，它将A={a1，a2，· · ·，aT} ∈ A表示一个ac-在我们的模仿学习框架中， l表示解码器中的第l层，A表示有限动作空间，T表示时间步长。在我们的模仿学习设置中，RC-VAE演示器的动作分布可以用作NART学习器的训练信号。为了预测动作A1，我们需要考虑状态S1，然后通过策略π1将S1映射到动作。设n表示一个策略类，其中每个策略πl∈n决定在给定Sl的情况下生成一个动作分布序列Al.同时，设πl（sl）表示关于当前状态的决策的概率或环境SL。然后，每个动作可以计算如下：将观测到的输入和掩蔽序列分成两组隐藏状态，即，对于弱隐态Hf=（hf，···，hf）哪里at= arg max（πl（sl）），（5）1TbblL l和后向隐藏状态H=（h1，· · ·，hb），且π（st）= softmax（FFN（st））。（六）分布可以表示如下：q（Hf|I）=Yq（hf|hf，I）这里FFN指的是前馈层[40]。由方程式5、由于不可微问题，训练起来很困难t=1Tt< t≤t（二）在端部具有离散操作arg max（·）学习框架。为了解决这个问题，我们q（Hb|I）= Yq（hb|hb，I），决定计算动作att=1fb不>t≥tding作为action状态：el=Eal<$πl（sl）<$（al），（7）其中ht和ht分别表示来自历史和未来的编码隐藏状态，并且I指给定的观察.然后，我们利用一个包括前向RNN（“RNN f”）和后向RNN（“RNN b”）的双层RNNtt t t tt其中，k（al）∈RK表示作用al的嵌入，K是嵌入向量的维数然后，可以根据前一层的当前输出状态和发射的q（hf|hf ，I≤t）=RNNf（hf，It）行动预期t tt−1（三）q（hb|hb，IRNN（hb），I）。s1+ 1=解码器（e1+ s1）。（八）不>t≥tB电话+1不t t t培训阶段。在训练阶段，我们需要最小化变分模块中的Kullback-Leibler（KL）散度（DKL）和预测动作分配规则化。在模仿学习框架中，一个常见的挑战是，未监督的动作聚类可能会使12740不Jt−nt−n^^Σ不行动不平衡。受文献[44，45]的启发，我们采用了一种增加利用空间的方法。为了评估累积激活水平，我们将ρ定义为每个操作类别的累积历史：ρ←α·ρ+（1−α）<$π（st）/T，（9）t=1在我们的实验中，参数α被设置为0.9。ρ的作用是重新分配策略π（st）的概率，使类别分配更加平衡。之后，我们可以基于以下内容使用π（st）进行重新归一化：模仿学习目标。为了促进我们提出的框架中的模仿学习过程，第4.2节中描述的RC-VAE演示器能够生成动作分布πRC-VAE作为后验指导，期望其监督NART学习器的生成过程。然后，NART学习器可以通过从RC-VAE演示器逐渐学习来发出策略分布πNART（S）∈RN形式上，模仿学习的目标是最小化由RC-VAE演示器和NART学习器生成的策略之间的分布的交叉熵损失LIL=−EπRC-VA E（st）logπNA RT（st）。（十四）′π（st）2/ρπ（st）=J π（st）2/ρj.（十）4.4.联合目标学习我们将正则化目标绘制为π（st）和重新分布的π′（st）之间的KL散度，为了训练整个框架，我们首先需要通过结合动作分布来训练RC-VAE演示器。Lπ=π不4.3. NART学习者π′（st）测井π′（st）π（st）.（十一）在Eq中的正则化项11，在Eq中的VAE损失。第四章：L demon =L RC-VAE + λ1Lπ。（十五）在NART学习者的训练过程中，我们将模仿受新兴的非自回归转换模型[16，28]的启发，我们提出了一种用于序列插补的非自回归转换模型（NART）NART的结构与RC-VAE几乎相似，但主要区别在于非自回归推理策略。非自回归推理在从编码器r获得联合隐藏状态H=[Hf，Hb]之后，解码器需要学习整个时间序列p（X）的分布|H）的情况下。如图2所示，解码器将识别两个观察到的时间步长（例如，x1和x5），并且首先估算中点缺失值（例如，x3）在每次推理迭代时。然后，可以通过这样的过程重复地推断其它缺失值（例如，x2和x4）。在每个时间步，NART的解码器采用解码函数g来映射所获得的隐藏状态，学习Eq.14与方程中的平方误差十三：L学习=LNART+λ2L IL，（16）其中λ1和λ2是控制相应损失函数权重的超参数。在训练过程中，我们将随机采样的轨迹作为RC-VAE和NART的输入。我们首先训练RC-VAE，然后通过冻结 RC-VAE 的参数来训练 NART 通过这种方式，NART中的仿真模块的参数将被更新，以确保其在策略πNART下生成的动作与RC-VAE演示器最后，我们最小化交叉熵之间的分布的两个政策的基础上方程。十四岁连接森林和森林国家hf和落后的国家5. 实验结果bt+n 一个概率分布：p（xt|H）=g（hfbt+n ）的情况。（十二）为了充分验证所提出的模型，对序列预测和填补任务的三个基准进行了广泛的实验：1）多-培训目标。给定一系列完整的时间序列C={X∈}，设Gθ（X，M）表示带参数θ的NART学习器的生成过程，p（M）表示缺失值的先验概率。这里X和x都表示生成的值。然后，我们提出的NART学习器的训练目标可以表述如下：在篮球跟踪数据集来自职业篮球比赛的代理轨迹运动[10]; 2）PEMS-SF交通数据集上的真实世界交通时间序列[8];3)台球轨迹来自物理引擎上台球球轨迹数据集[12].5.1. 实验设置LNART=E^（英文）.篮球跟踪数据集[10]总共包含95，002个记录职业篮球运动员轨迹的X<$C，M<$p（M），X<$Gθ（X，M）t=12（十三）H，h12741玩游戏的人。每个序列都从球员和球的3D位置转换为2D俯视图。12742方法交通[8]高尔夫球场[12]篮球[10]P-L2 ↓I-L2↓P-L2↓I-L2↓罪步骤壁P-L2↓I-L2↓路径-LOOB步骤路径-DMaskGAN [9]- 六点零二分-1.8301.09515.350.100-0.4270.7934.5929.6220.680KNN [13]- 四块五毛八-5.3811.46924.590.189-0.4030.9210.12813.240.746GRUI [29]- 十五点二十四分-20.571.85928.190.225-0.3981.1414.70314.950.690线性插值- 十五块五毛九-19.001.1210.9610.247-0.4220.4822.9970.5220.519[28]第二十八话- 三块五毛四-0.0671.0067.2390.023-0.4230.5731.7332.5650.581C-VAE [10]9.23-6.56----2.66-----VRNN [7]8.92-5.59----2.93-----Vanilla LSTM [20]19.56-15.89----10.44-----Social LSTM [2]12.67-9.25----5.23-----GT0.000.000.000.0001.0001.5880.0180.0000.0000.5560.8611.9820.580我们的完整模型5.222.723.050.0521.0126.8920.0301.790.3230.5621.9222.1550.595我们的模型w/o模仿-3.66-0.0651.1077.5350.159-0.4120.5952.3562.3560.602表1.在序列预测和插补方面，我们的完整模型，基线模型和最先进的方法在Traffic/Billiards/Basketball数据集上的性能比较。(P-L2）和（I-L2）分别表示所有数据集上预测和插补的平均距离L2损失。(Sin)、（Step）和（Wall）分别表示关于台球上的插补的弯曲度、阶跃变化（10−3）和对壁的反射（Path-L）、（OOB）、（Step）和（Path-D）指的是路径长度、越界率（10−3）、步长变化（10- 3）和篮球上的路径差。GT表示地面真值。↓表示结果越小越好。球场，其用50个时间步长中的5个玩家的2D坐标（x，y）以6.25Hz进行注释。在[10]之后，我们将整个数据集分为107，146个训练序列和13，845个测试序列。同时，我们为每个轨迹创建一个掩码序列，其中有40到49个缺失值[28]。PEMS-SF流量数据集[8]包括267个训练序列和173个测试序列，每天每10分钟采样一次。所有数据由963个维度组成，其中每个维度代表从各种传感器记录的高速公路占用率。在我们的实验中，我们为每个测试数据创建了一个包含122到140个缺失值的掩码序列[28]。台球轨迹数据集[12]包含由[12]中的模拟器生成的4，000个训练序列和1，000个测试序列。在所有生成的序列中，球的大小和密度是固定和均匀的，并且在轨迹中没有摩擦发生。此外，每个球的位置和速度都是随机初始化的，并在200个时间步长内滚动球。我们为每个轨迹创建一个掩码序列，其中每个轨迹有180到195个缺失值[28]。指标. 至于序列预测，我们计算生成的未来轨迹与每个代理在每个时间上平均的地面真实值之间的L2距离（P-L2），并且我们利用ft作为测量单位。此外，观测轨迹历史和预测长度均设置为4s。同时，关于序列插补，我们还测量了插补值和地面真实值之间的L2损失（I-L2）、生成轨迹的直线度（ Sunity ）、平均步长变化（Step）、8秒内的平均轨迹长度（Path-L）、平均越界率（OOB）和最大-最小路径差（Path-D）。比较方法。在实验中，我们选择C- VAE [10]，VRNN [7]，Vanilla LSTM [20]，So-cial LSTM [2]与我们提出的序列预测任务框架进行比较。而我们选择 MaskGAN [9] ， KNN [13] ， GRUI[29]，线性插值和NAOMI [28]作为序列插补的基线。5.2. 实现细节我们的实现基于PyTorch库。我们还使用PaddlePaddle来实现我们的方法，并实现类似的性能。在训练过程中，我们使用ADAM优化器，并将批量大小设置为256，初始学习率设置为0.001，学习率衰减为0.5每十个时期。我们随机抽取所有的训练数据，以使实验结果更可靠。在我们的框架中，我们采用具有1024-d隐藏单元的双层LSTM和六个自注意和前馈层的堆栈作为编码器，并且解码器也由Trans- former之后的六个自注意和前馈层实现至于篮球跟踪数据集[10]上的实验，我们采用基于树的角色对齐方法[36]进行轨迹对齐[10]，该方法能够最小化重建误差并生成多智能体轨迹的最佳表示。此外，在实验中我们将λ1和λ2都设为0.001，因为我们发现在训练开始时Lπ和LIL的值比LRC-VAE和LNART的值大103倍左右同时，我们还发现，我们提出的模型的性能是不是很敏感，这些超参数。5.3. 结果和分析定量结果。表1总结了我们的方法和其他基线在序列预测和插补方面的定量结果。从桌子上，我们可以12743图3.篮球轨迹预测的可视化例子，我们提出的方法与其他国家的最先进的approaches相比。给定所有球员的4s轨迹历史，任务的目标是预测接下来的4s进攻球员运动。不同颜色的圆圈和线条分别表示玩家和相应的轨迹浅色线和白色虚线圆圈分别表示预测的轨迹和球员的位置图4.与其他国家的最先进的方法相比，我们提出的方法的虚拟篮球轨迹的可视化给定多智能体的五个已知观察位置，任务的目标是在序列中估算缺失值彩色圆圈表示给定的离散观测值，白色虚线圆圈表示插补值。T=8sT=6sT=4sT=2sT=1s0 5 10 15 20 25 30错误：平均距离（FT）常规VAE能够改善所产生的轨迹结果。此外，我们提出的方法实现了最好的结果，对大多数指标的插补任务，如L2损失，路径-L，和步骤。这些发现符合我们的预期，即将模仿学习和非自回归模型结合到一个单一的框架中是一个更好的策略，并且模仿模块在弥合RC-VAE演示器和NART学习器之间的差距然而，未能考虑时间相关性阻碍了NAOMI [28]和MaskGAN [9]实现满意的结果。此外，我们还表明，预测误差随着图5中的预测时间范围单调增加。我们可以观察到，我们的方法意义-图5.我们提出的模型与其他基线的比较在篮球跟踪数据集[10]上，给定4s观察序列的10个代理的w.r.t预测误差我们所提出的方法在所有标准w.r.t.方面都表现出了相对于其他方法的最佳性能。序列预测例如，在PEMS-SF交通数据集[8]上，我们的模型报告的P-L2与篮球跟踪数据集[10]上的其他模型相比，我们提出的模型具有显著的优势，这也说明了它的优势。在所有的基准测试中，我们的模型实现了最好的预测性能w.r.tP-L2，击败了其他自回归模型，例如，C-VAE [10]和VRNN [7]，表明引入的经常性条件。明显优于当前最先进的方法。值得一提的是，我们的模型在每个时间步长上获得的结果是Social LSTM [2]的四倍，这表明我们提出的前向-后向编码器优于传统的RNN结构。定性结果。我们还描述了相当多的可视化结果，以定性地验证我们在篮球跟踪数据集上提出的方法生成的未来轨迹和估算的缺失值[10]。图3和图4分别显示了我们提出的模型和其他基线的轨迹预测和序列插补的可视化结果。结果表明，该模型能够成功地预测多个运动员的未来运动轨迹，并对缺失值进行补加，与已知观测结果最为一致。相反地，我们C-VAESocial LSTMVanilla LSTM时间12744图6.在Basketball Tracking Dataset上对多智能体的轨迹进行了可视化结果给定每个玩家的运动的前2s每个彩色圆圈和线条代表玩家和相应的轨迹。浅色线和白色虚线圆圈分别表示预测的运动员轨迹和位置其他基线的结果仍然与地面实况有很大的差异，因为这些方法忽略了序列中固有的时间关系。例如，在图4中，我们的模型可以捕获和恢复地面实况时间序列的模式，而KNN和MaskGAN则失败了。因为这些基线只学习一些平均的时间依赖性，而不是连续的时间依赖性，并且没有考虑上下文信息。此外，为了评估我们提出的模型可以预测多长时间，我们提供了4s的多智能体轨迹历史，然后生成1 s/2s/4s/6s的未来运动，如图6所示。我们可以明显地观察到，我们的模型生成的未来轨迹几乎接近于6005004003002001000正则化无正则化选动作在方向上的地面真理，即使一些错误仍然存在。总之，定性结果表明，我们提出的框架可以生成高质量的未来运动轨迹，并通过模仿学习策略填充各种条件下的缺失值。5.4.消融研究模仿学习与非模仿学习我们在表1中展示了我们的完整模型和不带模仿学习模块的模型的性能我们可以观察到，模仿学习模块纳入我们的框架带来了改善，在所有的指标方面的序列插补任务。作为一个例子，我们的框架与模仿学习模块可以减少所有三个数据集上的预测和插补L2没有模仿学习的模型容易受到不可避免的延迟奖励的影响，并且它生成所有的序列值，导致搜索空间过大。来自比较结果的观察与我们的直觉一致，即从RC-VAE演示器学习的时间相关性显著提高了NART学习器的性能。动作分配规则化。在4.2小节中，我们提出了一个动作分布正则化技术在RC-VAE演示，以克服不平衡的问题时，搜索动作来监督NART学习者。在实验中，我们以最大概率将π（st）作为解码过程中的选择动作，图7.动作类别分配分布示例篮球跟踪数据集[10]。行动分布规则化策略可以使分布更加均衡（蓝色），否则，它将是压倒性的不均衡（红色）。每一个动作的选择都可以被看作是所使用的空间。我们检查了Basketball Tracking- ing [10]测试集上的已使用空间，结果如图7所示。从图中，我们可以观察到我们提出的动作分布正则化使类别分布更加平衡，并为NART学习者提供更有效的指导。相比之下，没有动作分布正则化的模型导致大部分空间未被利用，并且只有少数动作类别可以用于监督。6. 结论本文提出了一种新的模拟非自回归建模方法，以弥补自回归模型和非自回归模型在时间序列预测和插补中的性能差距。我们提出的框架利用模仿学习范式，包括两个部分，即。递归条件变分自编码器（RC-VAE）演示器和非自回归变换模型（NART）学习器。我们在三个广泛采用的基准上进行了广泛的实验，通过可视化的例子和定量的证明，我们所提出的方法的有效性和优越性，有希望的结果证明。300250200150100501产品分类12745引用[1] 埃德加·阿库纳和卡罗琳·罗德里格斯缺失值的处理及其对分类器准确性的影响在分类、聚类和数据挖掘应用中，第639-647页Springer，2004.[2] AlexandreAlahi，KratarthGoel，VigneshRamanathan ， Alexandre Robicquet ， Li Fei-Fei ， andSilvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在Proc. CVPR. IEEE，2016.[3] 克雷格·F·安斯利和罗伯特·科恩。缺失值arima模型的估计。不规则观测数据的时间序列分析，第9-37页。Springer，1984年。[4] Lamberto Ballan ， Francesco Castaldo ， AlexandreAlahi，Francesco Palmieri，and Silvio Savarese.用于场景特定运动预测的知识在Proc. ECCV中。施普林格，2016年。[5] Samuel R Bowman ， Luke Vilnis ， Oriol Vinyals ，Andrew M Dai ， Rafal Jozefowicz ，and Samy Bengio.从连续空间生成句子。 arXiv 预印本 arXiv ：1511.06349，2015。[6] 魏操、王东、李简、周浩、李雷、李一潭。英国：时间序列的双向循环插补。InProc. NeurIPS，2018.[7] Junyoung Chung 、 Kyle Kastner 、 Laurent Dinh 、Kratarth Goel、Aaron C Courville和Yoshua Bengio。序列数据的递归潜变量模型在proc 神经IPS，2015年。[8] 迪鲁·杜瓦和凯西·格拉夫。UCI机器学习存储库，2017年。[9] William Fedus ， Ian Goodfellow ， and Andrew M Dai.Maskgan：通过在_中填充更好的文本生成。arXiv预印本arXiv：1801.07736，2018。[10] 潘纳·费尔森帕特里克·露西和苏乔伊·甘古利他们会去哪里？使用条件变分自编码器预测细粒度对抗性多智能体运动在Proc. ECCV中。Springer，2018.[11] Chelsea Finn，Sergey Levine，Pieter Abbeel。引导成本学习：通过策略优化的深度逆最优控制在Proc.ICML.JMLR，2016.[12] Katerina Fragkiadaki，Pulkit Agrawal，Sergey Levine，and Jitendra Malik.学习物理学的视觉预测模型arXiv预印本arXiv：1511.07404，2015年。[13] 杰罗姆·弗里德曼特雷弗·哈斯蒂罗伯特·提布希拉尼。统计学习的要素，第1卷。Springer系列，纽约，2001年。[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚 · 本吉奥。生成性对抗网。在Proc.NeurIPS，2014中。[15] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。 Draw：用于图像生成的递归神经网络。arXiv预印本arXiv：1502.04623，2015。[16] Jiatao Gu ， James Bradbury ， Caiming Xiong ， VictorOK Li ，and Richard Socher. 非自回归神经机器翻译arXiv预印本arXiv：1711.02281，2017。[17] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社交伙伴：具有生成对抗网络的社会可接受的轨迹在 proc CVPR。IEEE，2018年。[18] Irtiza Hasan 、 Francesco Setti 、 Theodore Tsesmelis 、Alessio Del Bue、Fabio Galasso和Marco Cristani。Mx-lstm：混合tracklet和vislet来共同预测轨迹和头部姿势。在Proc. CVPR. IEEE，2018年。[19] Jonathan Ho和Stefano Ermon。生成对抗性模仿学习。在Proc.NeurIPS，2016中。[20] Sepp Hochreiter和Jürgen Schmidhuber长短期记忆。神经计算，9（8）：1735[21] Yingfan Huang ， HuiKun Bi ， Zhaoxin Li ， TianluMao，and Zhaoqi Wang.Stgat：为人类轨迹预测建模时空在proc ICCV. IEEE，2019。[22] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[23] Hoang M Le ， Yisong Yue ， Peter Carr ， and PatrickLucey.协调的多智能体模仿学习。在proc ICML。JMLR，2017。[24] Namhoon Lee ， WongunChoi ， Paul Vernaza ，Christopher B Choy ， Philip HS Torr ， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测在Proc. CVPR. IEEE，2017年。[25] YunzhuLi，JiamingSong，andStefanoErmon.Infogail ：从视觉演示中学习可解释的模仿InProc. NeurIPS，2017.[26] Jin d BubrichLibo vic ky`andJind BubrichHelcl.端到端非自回归神经机器翻译与连接- ist时间分类。arXiv预印本arXiv：1811.04719，2018。[27] Matteo Lisotto，Pasquale Coscia，and Lamberto Ballan.拥挤空间中的社会和场景感知轨迹预测载于ICCVW。IEEE，2019。[28] Yukai Liu，Rose Yu，Stephan Zheng，Eric Zhan，andYisong Yue.Naomi：非自回归多分辨率序列插补。在Proc. NeurIPS，2019年。[29] 罗永红，蔡祥瑞，张颖，徐军，等.基于生成式对抗网络的多变量时间序列插补。InProc. NeurIPS，2018.[30] Wei-Chiu Ma，De-An Huang，Namhoon Lee，and KrisM Kitani. 预测行人与模拟游戏的互动动态在 Proc.CVPR. IEEE，2017年。[31] Aaronvan den Oord ， Yazhe Li ， Igor Babuschkin ，KarenSi-monyan，OriolVinyals，KorayKavukcuoglu ， George van den Driessche ， EdwardLockhart，Luis C Cobo，Florian Stimberg，et al.平行波网：快速高保真语音合成。 arXiv 预印本 arXiv ：1711.10433，2017。[32] Mengshi Qi，Weijian

下载后可阅读完整内容，剩余1页未读，立即下载