动态神经关系推理：实体关系建模与预测中的挑战及解决方案

132 浏览量更新于2023-10-24 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8513动态神经关系推理Colin Graber Alexander Schwing伊利诺伊大学香槟分校{cgraber2，aschwing}@ illinois.edu摘要理解实体之间的相互作用，例如，人体的关节、团队运动员等，对于预测这样的任务至关重要。然而，实体之间的相互作用通常无法观察到，并且通常难以量化。为了应对这一挑战，最近，它预测系统中实体之间的静态关系，并提供用于更好的轨迹预测的底层系统动态的可解释然而，一般来说，实体之间的关系随着时间的推移而变化。因此，静态051015202530051015202530051015202530051015202530051015202530051015202530关系不正确地对数据建模。针对这一点，我们开发了动态神经关系推理（dNRI），它结合了序列潜变量模型的见解，为每个时间步预测单独的关系图。我们在几个真实世界的数据集上证明，建模动态关系可以改善复杂轨迹的预测。1. 介绍实体之间的关系是多方面的，无处不在，往往我们没有注意到。例如，人体的关节在运动中受到骨骼的限制，团队运动员以练习的队形移动，由于强制执行的规则和对同伴的尊重，交通模式出现了尽管在许多不同的情况下出现的实体之间的不同的时间动态，它是非常具有挑战性的明确表征和恢复它们从观察到的轨迹。这在一定程度上是因为几乎没有可用的地面真实标签。例如，团队运动员通常很难具体说明他们反应的原因。由于这一困难，近年来投入了大量的工作来开发检索这些相互作用的方法。然而，这些方法中的许多方法仅隐式地恢复交互，例如，通过图形网络[41，33，37，17，45，11，44]或通过注意力[31，3]。隐式表征和利用关系并不能深入了解底层系统，因为这些类型的方法缺乏显式可解释的组件。为了解决这个问题，最近，神经关系第2帧第21帧第46帧图1：捕获受试者#35上dNRI的预测运动（顶行）和所有预测关节关系（底行）。所示的边缘表示在这三个帧期间改变的连接到右脚跟的边缘。NRI（NRI）是一个新的概念[21]。NRI是在预测系统动力学过程中产生可解释的实体间关系表示的第一种方法之一。然而，重要的是，NRI假设这些关系在观察到的轨迹上保持静态。这是一个重要的限制：在许多系统中，实体关系随时间而改变。在这些情况下使用NRI将检索随时间平均的交互，这为了解决这个问题，我们开发了“动态神经关系推理”（dNRI），一种在每个时间点恢复实体之间交互的方法。更具体地说，在NRI之后，我们将系统相互作用的显式恢复公式化为潜变量模型：每个潜在变量表示实体之间的关系的强度。使用估计的关系强度，我们希望尽可能准确地恢复观察到的轨迹。然而，与NRI不同，开发的系统在每个时间点估计潜变量（见图1）。这些动态关系的示例可视化）。此外，我们将序列潜变量模型的最新进展适应于NRI框架，以学习依赖于输入轨迹历史的序列关系先验和近似关系后验，8514我φ考虑过去和未来的变量状态。我们在具有挑战性的运动捕捉和运动轨迹数据集上评估了所提出的dNRI方法。我们表明，所开发的技术显着提高了恢复所观察到的轨迹相比，静态NRI。我们还证明，该模型预测的关系，在不同的阶段的变化，静态NRI不可能实现。2. 背景：神经关系推理为了揭示系统实体之间的相互作用，通常研究代理任务：预测它们在时间上的轨迹。具体地，给定N个实体，令x（t）表示实体i ∈ {1，. - 是的- 是的，N}，时间步长t，例如位置和速度。新-ral关系推理[21]框架模型预测轨迹xi=（x1，. - 是的-是的，XT），首先预测一组连续逼近离散分类分布，并且通过首先从Gumbel（0，1）分布采样向量g，然后计算：zi，j=softmax（（hi，j+ g）/τ），（2）其中hi，j是zi，j的预测后验对数，τ是控制分布平滑度的温度参数该过程以可微分的方式近似离散采样，并且使得能够将来自解码器重构的gra一直反向传播到编码器参数φ。解码器pθ（x|z）使用一组采样的交互 z来帮助预测变量x的未来状态。为此，它以自回归的方式进行因子分解，即，它采取的形式iiYT.Σ实体之间的互动。后来，这些人--动作用于改进对未来轨迹的预测这背后的理由是：精确恢复的相互作用pθ（x|z）：=pθt=1xt+1|x1：t，z.（三）允许准确的预测。形式上，实体之间的交互采取潜在变量 zi ， j∈{1，. . .，e}，其中e是被建模的关系类型的数量。这些关系没有任何预定义的含义，而是模型学习为每种类型赋予意义为了预测潜在关系变量zi，j和实体的未来轨迹，NRI学习变分自动编码器（VAE）[20，36]。其观测变量表示实体轨迹x，潜变量表示实体关系z。在经典的VAE之后，与编码器类似，解码器模型基于GNN。然而，与编码器不同的是，对于每个边缘类型，都要学习一个单独的GNN。当针对给定边缘（i，j）运行消息传递时，所使用的边缘模型对应于由输入潜变量zi，j做出的预测。还可以硬编码一个边类型来表示没有交互，在这种情况下，在计算过程中没有消息通过该边Kipf等人[21]用马尔可夫解码器进行实验，在这种情况下，GNN只是先前预测的函数，以及依赖于所有先前状态的解码器，在这种情况下，递归隐藏状态是向上的。最大化以下证据下限（ELBO）使用GNN标注日期。先验p（z）：=Qii=jp（zi，j）是一个一致独立的，L（φ，θ）= Eq（z|x）[log pθ（x|z）] −KL[qφ（z）|x）n（z）]，（1）其中φ和θ是概率分布的可训练参数该公式由三个主要的概率分布组成，我们将在后面描述。编码器产生形式为qφ（z）的因子化的猫的几何分布|x）=ii=jqφ（zij|x）作为函数-整个输入序列x的值。这是使用全连接图神经网络（GNN）架构[38，27，12]每个实体包含一个节点该模型学习每对实体的嵌入，然后用于为预测的每个关系类型产生后验关系概率。给定由编码器提供的分布，关系的样本被用作解码器中的输入。采样过程需要是可微的，以便我们可以通过反向传播更新模型权重;然而，分类分布的标准抽样是不可微的。因此，我们从具体分布中取样本[32，19]。这个分布是一个骗局-每个关系变量的分类分布。如果一条边被固定为表示没有相互作用，则可以基于给定问题的关系的预期稀疏性来选择该边这调整了损耗，使得编码器偏向于期望的稀疏水平。NRI的培训程序包括以下步骤：首先，编码器处理当前输入x以预测后验关系概率qφ（z|x）对于每一对实体。接下来，一组关系被采样，这个分布的具体近似值给定这些样本z，最后一步是预测原始轨迹x，2，. -是的-是的，xT. 为了提高解码性能并确保解码器依赖于预测的边缘，Kipf等人。[21]在训练时间为解码器提供有限数目的步骤的基本事实输入，例如，10，然后根据先前的预测来预测轨迹的剩余部分Eq. （1）包含两个术语：首先，重建误差，假设预测输出表示高斯分布的平均值，8515我我i、ĵ1+12+2解码器|（1：-11：-1 ）（一）|+1个一比一：）（一）|、+2个1：+11：+1、、）̃−1̃1+1编码器（一）| )−1|（）下一页（一）| )+1个（一）|、之前−11：-11：-2 ）（一曰：1：-1|、）（一）+1个1：+11：|、）−1+1个图2：dNRI使用的计算图。具有固定方差σ的分布，因此采用以下形式3.1. 概述在每个时间步预测单独的关系需要重新思考每个模型组件的目的。如第2，先验有效地是损失函数的可调分量。相比之下，为了使先验在顺序上下文中更有用，我们现在要求它在给定系统的所有先前状态的每个时间点预测实体之间的关系。在静态NRI中，编码器预测覆盖整个输入轨迹集的单个边缘配置。相反，在这里，我们的任务是编码器根据过去和未来来理解系统在每个时间点的由于损失函数的KL发散项，该“信息”在训练期间从编码器传递到先验。因此，这种变化鼓励先前的模型更好地预测未来的关系。ΣΣT−xt−x+常量（四）2σ2作为顺序关系预测的结果，解码器现在也更灵活：它可以在不同的情况下使用不同的模型，我t =2Second, the KL-divergence between the uniform prior andthe predicted approximate posterior, which takes the follow-ing form:ΣH（qφ（zij|x））+cons t.（五）i/=j这里，H表示熵函数。常数项是由于均匀先验，这导致损失中的编码器项之一的边缘化。NRI公式假设所有实体之间的关系不过，我们认为这起谋杀案-根据系统的变化，在不同的时间点。所有这些变化的一部分导致改进预测性能的更有表现力的模型。我们用于dNRI的计算图概述见图。二、我们现在详细描述它的每个组件。3.2. 解码器我们的dNRI配方允许使用任何解码器也开发静态NRI。但更重要的是，我们获得了额外的灵活性。该阶段的主要区别在于，关系变量输入z现在每个时间步长都变化。形式上，解码器模型因此分解如下：对于许多应用程序来说，作用太强了--实体交互的方式经常会随着时间的推移而例如，低音提琴演奏者调整他们的位置相对于不同的pθ（x|z）：=YTpθt=1.Σxt +1 |x 1：t，z1：t.（六）不同时间点的队友为了解决这个问题，在下面的部分中，我们将描述我们的3. 动态神经关系推理为了揭示动态交互并更好地跟踪关系随时间变化的实体，我们开发了动态神经关系推理（dNRI）。我们特别在实践中，这相当于在每个时间步长为每个边缘选择模型，而不是在整个序列中这允许解码器根据系统的状态调整其预测，提高其建模动态系统的能力。3.3. 之前由于我们期望实体关系在每个时间步都发生变化，因此在先验分布中捕获这些变化是很重要的预测一个单独的关系zt对于每个时间步t。这bition。为此，我们学习了一个自回归模型，允许模型响应其关系在整个轨迹中变化，从而提高其预测未来状态的能力。使用我们的dNRI公式要求跟踪实体之间关系的演变，关系变量的先验概率，其中在每个时间步长t，先验以先前的关系以及直到时间t的输入为条件。这采取的形式如下：这是静态NRI不需要的。这需要一种新的编码器、解码器和先验知识，它们是受先前序列潜变量建模工作的启发而设计的pφ（z|x）：=YTpφt=1. zt|x1：t，z1：t−1.（七）(see秒5详情）。在概述了我们提出的方法之后，我们将在下面讨论这些组件8516我们使用的现有架构如下：每个时间步长的输入通过以下GNN ar-8517j，2v（i，j），教统局h =f（8）=fhGNNLSTM−1之前之前（一）|、−11：-11：-2 ）GNNLSTM加密ENC（一）| )−1̃−1|、（一曰：11：1的比例）̂−−DecGNNLSTM之前之前|（一曰：1：-1、）GNNLSTM加密ENC|（）̃Dec（一）|、+1个一曰：一曰：）1+1GNNLSTM之前之前|（一）+1个1：+11：、）GNN+1个LSTMENCENC|（）下一页+1个1+1Dec|、（+2个1：+11：+1）2+2编码器优先级解码器图3：dNRI的三个模型组件输入通过一个全连接的GNN来产生嵌入在每个时间步上的每对实体。使用前向LSTM对实体关系的过去历史进行编码，使用后向LSTM对实体关系的未来历史进行先验被计算为仅过去历史的函数，而近似后验被计算为过去和未来的函数从近似后验中采样一组边缘解码器使用该GNN和先前的预测来演化隐藏状态，并预测实体在下一个时间步的状态用于产生每个时间步长每个边缘的嵌入的架构：3.4. 编码器ti，1.tΣEMBIΣΣ编码器的作用是在每个时间步近似关系的分布，作为en-functional。v→e：ht=f1.t，ht（九）（i，j），1ei，1j，1轮胎输入，而不仅仅是过去的输入历史。作为德-e→v：htΣ=f1i/=j不（i，j），1中国（10）由Krishnanet al撰写。[23]和Fraccaroet al. [10]，潜变量pθ（z）的真后验分布|x）是观测变量未来状态的函数不（i，j），教统局2.非政府组织ei，2tj，2ΣΣ（十一）X.因此，我们编码器的一个关键组件是一个LSTM，它可以反向处理变量的状态。我们重复使用这种架构实现了一种形式的神经消息关系嵌入先前描述且在图中传递，其中顶点v表示实体i，边e表示实体对（i，j）之间的关系。每个模型f是一个多层感知器（MLP），每个h代表计算过程中实体或关系的中间隐藏状态这个计算将这些表示通过反向LSTM。的然后，通过连接该反向状态和先验提供的前向状态并将结果传递到MLP中来获得最终的近似后验。编码器也在图中示出。3，并通过以下方式正式描述：是嵌入ht，它捕获t的状态.Σt t+1（i，j），教统局h（i，j），enc=LSTMenc h（i，j），emb，h（i，j），enc，（14）在时间t实体i和j之间的关系。这些嵌入中的每一个都被馈送到LSTM中[16]。在-.Σ。.Σqφzt|x = softmax fencht，htΣΣΣ. （十五）然而，这个LSTM模拟了关系的演变，（i，j）（i，j），enc（i，j），事先在不同时间的实体之间。最后，另一个MLP变换形式的隐藏状态在每个时间步到先验分布的logits。这最后两个步骤正式规定如下：请注意，编码器和先验模型共享参数，因此我们使用φ来指代这两个模型的参数由于dNRI的模型组件已经从静态NRI改变，因此训练和推理过程也重新定义。不（i，j），事先.=LSTM先验不（i，j），教统局Σt−1（i，j），事先quire修改。这些将在下面讨论。3.5. 训练/推理pφ（zt|x1：t，z1：t−1）=softmax..f先验ΣΣ不（i，j），事先（十二）. （十三）为了训练编码器/先验和解码器的参数φ和θ，我们如下进行：输入轨迹x通过GNN模型以产生关系嵌入。图3提供了先验模型的说明注意不（i，j），教统局对于每个时间t和每个实体对（i，j）。HHH，hH丁河、v→e：h，h8518而不是将先前的关系预测传递给先验作为输入，我们编码先验对隐藏状态h（i，j），先验中先前时间步的关系的依赖性。这些表示被输入到向前/向后LSTM和先验pφ（z|x）和近似后验qφ（z|x）计算。然后，我们从近似后验中采样，以获得预测关系z。给我这些，我们8519IJz |x，z，e ve然后预测轨迹分布pθ（x|z）。与静态NRI情况不同，我们总是在训练期间向解码器提供地面实况状态作为输入，因为我们观察到，为固定数量的步骤提供地面实况，然后使用预测作为其余轨迹的输入，对于dNRI表现更差。最后，我们计算ELBO：重建误差按照等式（1）计算。（4），KL散度计算为：0.0050.0040.0030.0020.0010.000NRI静态dNRI0 10 20ΣTφ. zt|x−.t.qφz ij|x log pφt1：t1：t−1IJ步骤图4：合成数据轨迹预测误差和相关预测可视化。t=1ztIJ（十六）预测关系类型;然后使用这些关系在测试时，我们的任务是预测系统的未来状态。这意味着我们不能利用编码器来预测边缘，因为我们没有关于未来的适当信息。因此，鉴于此前的预测，第sx1：t，我们计算关系上的先验分布来解码整个轨迹的末端标记为“静态NRI”、“动态”推理“的第二推理过程除了基于NRI的模型，我们还研究了其他pφ z 1：t|x 1：t，z1：t−1. 我们从之前的样品中获得简单基线：SingleLSTM预测了关系预测zt，并使用这一点以及我们的公关vi-是的预测来重新估计变量的下一个状态每个独立地使用具有共享参数的LSTM特斯 JointLSTM预测了所有en的轨迹，pθ xt +1|x1：t，z1：t. 这个过程一直持续到整个联合使用LSTM，即，输入和输出-轨迹是预测的。4. 实验为了展示dNRI与静态NRI相比的优势，我们提供了合成粒子，人体运动捕捉，篮球运动员和交通轨迹数据集的实验结果。为了展示我们的模型的操作，我们还可视化了样本轨迹和预测关系。除非另有说明，我们比较以下模型和架构：对于dNRI编码器/现有GNN，femb，f1，f1和f2都是具有256个隐藏/输出单元和ELU激活的两层MLP。先验和编码器使用的LSTM模型使用64个隐藏单元。fprior和fenc都是3层MLP，有128个隐藏单元和ReLU激活。静态NRI编码器由完全相同的GNN架构，除了到femb的输入由整个输入轨迹组成。在这种情况下，编码器logit是通过将hemb传递通过具有256个隐藏单元和等于被建模的关系类型的数量的输出单元的数量的3层MLP来这相当于Kipf等人描述的MLP编码器。[21]，除了我们添加一个额外的MLP到GNN的输出我们使用Kipf等人描述的递归解码器。[21]在《易经》中。13-17 和C.静态和动态NRI均为5。此外，每个模型都对第一个边类型进行硬编码，以表示没有交互。出于评估目的，模型被提供有n个初始时间步长的输入，并且被赋予预测一定数量的未来步骤的任务。当评估静态模型时，我们使用两种不同的推理过程：第一种，标记为put是所有实体的连接状态FCGS2使用与dNRI相同的解码器架构，但假设在每个时间步具有一个边类型的全连接图。其他实验细节和预测可视化见附录。用于实现这些模型和运行这些实验的代码可以在https://github.com/cgraber/cvpr_dNRI上找到。4.1. 合成物理模拟这些实验的目的是评估dNRI恢复地面真实动态关系的能力。为此，我们考虑构建包含动态关系的合成数据集。每个轨迹由三个部分组成：前两个（红色）在某个方向上以恒定速度运动。第三个（蓝色）以随机速度初始化，但当它们之间的距离小于1时，另一个粒子会额外地我们的研究结果总结在Fig.4.第一章静态NRI，平均关系预测F1为27。1，不能对动态关系进行建模，并且比dNRI表现更差，dNRI具有54的平均关系预测F1。3 .第三章。4.2. 运动捕获数据接下来，我们研究从CMU运动捕捉数据库中获取的几个受试者的运动捕捉记录[8]。我们对两个主题进行了实验：第一个，#35，是由Kipf等评价的同一受试者。[21]由行走轨迹组成。第二个是#118，由试验组成，受试者在不同的时间内保持静止，然后向前跳跃。对于前一个主题，我们遵循Kipfet al.[21]：使用长MSE8520度为50的序列进行训练85210.00140.00120.00100.00080.00060.00040.00020.00140.00120.00100.00080.00060.00040.00020.0080.0070.0060.0050.0040.0030.0020.0010.0080.0070.0060.0050.0040.0030.0020.0010.00000 20 40步骤0.00000 20 40步骤0.0000 10 20 3040步骤0.0000 10 20 3040步骤(a) #35，2关系类型(b) #35，4关系类型(c) #118，2关系类型(d) #118，4关系类型图5：运动捕捉数据的轨迹预测误差。结果是5次初始化的平均值，阴影区域表示标准差。框架2框架21框架46图6：使用4种关系类型对运动捕捉对象#35的测试轨迹进行dNRI（顶行）、静态NRI（中间行）和具有“动态”推断的静态红色实心骨架表示地面实况状态，蓝色虚线骨架表示模型预测。并通过提供前50帧并预测随后的49帧来评估长度为99的序列由于受试者118在试验中缺乏规则运动，因此我们无法以相同的方式进行评价-每次试验的相反，我们评估如下：在向模型提供给定试验的初始50帧之后，我们保存当前编码器/先验/解码器状态并预测接下来的40帧。然后，我们恢复这些异常状态，为模型提供下一步的输入，然后预测另外40帧。这个过程一直持续到审判结束。然后，我们对每一步的误差进行平均，从1到40，因为地面真实状态被提供给模型。单独的模型被训练来预测两种和四种关系类型。图5a和图5b显示了对象#35的预测误差。dNRI模型能够比静态NRI模型和简单基线更好地预测未来轨迹如图所示6、dNRI模型是图7：使用4种关系类型，在运动捕捉受试者#118的测试轨迹上对dNRI（顶行）、静态NRI（中间行）和具有“动态”推断的静态红色实心骨架表示地面实况状态，蓝色虚线骨架表示模型预测。在提供最近的地面实况之后，每帧被预测20个时间步长。能够预测步行循环的未来的许多帧，而不会偏离地面实况骨架太远。相比之下，静态NRI模型更早地产生显著错误，达到骨骼中出现显著变形的点。该轨迹的一些预测边缘的可视化显示在图1中。1.一、我们观察到，相对于骨架的这表明，在这三个运动阶段，不同的模型是有用的。图5c和图5d显示了受试者#118的预测误差。再一次，dNRI模型在预测未来方面优于静态NRI模型，同时与其他基线进行比较。然而，与这些基线不同，dNRI有助于预测解释，即，关系预测图图7示出了静态和动态模型的四个预测时间步，每个预测时间步是在提供最近的地面实况状态之后的第20个所有模型都能够捕捉到一般FCGS2SingleLSTMJointLSTM静态NRIS. NRI，“Dyn.“Inf. dNRIFCGS2SingleLSTMJointLSTM静态NRIS. NRI，“Dyn.“Inf. dNRIFCGFounderSingleLSTMJointLSTM静态NRIS. NRI，“Dyn.“Inf.dNRIFCGFounderSingleLSTMJointLSTM静态NRIS. NRI，“Dyn.“Inf.dNRIMSES. NRI（动态）静态NRIdNRIMSEMSE静态NRIS. NRI（动态）MSEdNRI85220.0150.0100.0050.0005 10 15步骤图8：篮球数据的预测误差（左）和样本轨迹预测（右3）。从左到右，这些图表示地面实况、静态NRI和dNRI（我们的）。前40帧提供给模型（透明），模型的任务是预测最后9帧（实心）。0 0 0 05 5 5 510 10 10 1015 15 15 1520 20 20 2025 25 25 2530051015202530300510152025303005101520253030051015202530图9：对应于图9中的dNRI预测的边缘预测。7.第一次会议。所显示的边缘表示在这些帧期间改变的连接到左手的那些边缘。跳跃运动，但dNRI更准确地跟踪腿和髋关节的位置。图9可视化了用于进行这些预测的边缘。在跳跃准备阶段由模型预测的关系不同于当受试者处于跳跃中间时预测的关系。静态模型不能选择不同运动阶段之间的不同关系，因此不如动态模型灵活。4.3. Basketball数据我们接下来研究篮球运动员的轨迹数据[51]。每个轨迹包含进攻队的2D位置和速度，由5名球员组成。它们被预处理成49帧，跨度约为8秒。所有模型都是在训练轨迹的前40帧上训练的;在评估时，向模型提供输入的前30或40帧，并负责预测剩余的帧。我们训练预测两种关系类型的模型。图8显示了这些实验的测试数据的预测误差。在此数据上，dNRI在预测运动员未来轨迹方面明显优于静态NRI模型。图8还呈现了来自验证数据集的样本玩家轨迹，以及10显示第三和第 45个时间步长期间的预测边缘。图10：篮球数据的预测边样本。顶行表示静态NRI，底行表示dNRI（我们的）。静态模型错误地预测了红蓝球员的大致路径，而dNRI能够捕获正确的运动方向。这可能是预测边缘的结果：静态模型不预测橙色玩家与红色或蓝色玩家之间的关系，因此该模型不使用橙色玩家的路径来通知他们的轨迹。相比之下，动态模型在轨迹开始时预测这些参与者之间的关系在后一帧中，动态模型不再预测这些关系，表明它们此时对于预测这些实体的运动没有用4.4. 交通轨迹数据最后，我们研究了新引入的inD流量数据集[5]。该数据集由记录的车辆、自行车和行人在交通路口的轨迹组成。与其他研究的数据集不同，被跟踪的实体的数量随着它们进入/离开该区域而随时间变化。FCGFounderSingleLSTMJointLSTM静态NRIS. NRI，“Dyn.“Inf. dNRIMSE8523因此，RNN 模型或静态NRI不适用：它们总是假定存在相同的实体。数据包括36个记录;我们使用19/7/10进行训练、验证和测试。为了评估，我们将每个记录分为50个步骤的序列。为0.100.080.060.040.020.00dNRI（4边）FCGS20 10 20 30 40步骤其他环境中的关系，包括因果推理[14]和计算神经科学[28，29]。最近的一系列工作研究了潜在变量模型的序列版本，将变分自动编码器扩展到序列数据。深度卡尔曼滤波器[23]虽然是作为具有非线性转换/观测函数的卡尔曼滤波器的扩展而被激发的，但在VAE框架内学习潜在状态变量的自回归近似后验，该VAE框架是过去和未来观测状态的函数。其他相关作品有每一个存在在序列中，我们为模型提供地面实况图11：轨迹预测inD数据集上的操作错误。动机是将随机变量引入递归神经网络模型。这些包括VRNN [7]，它学习平滑先验/近似后验，这是函数。前5步的位置和速度，该模型预测其轨迹的剩余部分。图11呈现了针对FCGRI基线，用4个关系dNRI能够对不同实体之间的多种类型的交互进行建模，其性能优于FCG算法5. 相关工作与我们开发的“动态神经关系推理”（dNRI）相关的NRI是一个无监督的模型，它明确表示和推断纯粹从观测数据的相互作用。为此，制定了变分自动编码器模型[20，36]编码器和重建模型都基于图形神经网络[38，27，12]。与我们的dNRI不同，这个静态版本假设相互作用在时间上保持相同。虽然这个假设对某些系统是有效的，但它在大多数情况下都是违反的。我们通过开发一个模型来解决这个问题，该模型预测每个时间点的单独关系此外，每个潜在变量使用独立的统一先验，而我们学习数据相关的序列先验。其他最近的工作试图以其他方式扩展NRI，通过使用因子分解图[47]或包括额外的结构先验[26]。这些扩展与我们的方法正交。许多先前的工作已经尝试学习各种类型的系统的动力学。这些包括物理系统，使用来自模拟轨迹的数据[4，15，6，34，30]或生成的视频数据[46，44]，人类运动，行动[1，24，48，49]，和模拟或真实的代理人[42，18，50]。与我们的工作不同，这些方法要么知道/假设底层图结构，要么隐含地推断交互。注意力机制[31，3，39，40]也可以被视为揭示系统的相互作用，并且它们以前曾被用作图神经网络的组件[33，17，45，11，44，35]。然而，与这些作品不同，我们明确地推断潜在图结构上的相互作用。有人试图发现SRNN [10]，其先验/近似后验是每个时间步长处的整个输入的函数，以及Z-Forcing [13]，其使用类似的先验/近似后验，但将预测的潜在变量作为输入提供给解码器。 Aneja等人[2]将类似的模型应用于图像字幕的任务，但它们为编码器和解码器使用单独的隐藏状态。我们在几个方面与这些方法不同：最重要的是，我们的潜变量有一个明确的解释，代表实体之间的关系，而他们没有一个直接的解释意义。此外，我们应用我们的模型来预测提供的输入轨迹的未来，而他们的模型用于分析文本/语音的结构，并从训练分布中生成真实的样本。类似地，使用潜在变量方法预测轨迹的其它工作（例如，[25，9，22，43]）的不同之处在于，学习的潜在变量表示单个实体或场景的状态，而不是交互。其中几项工程增加了ELBO额外的辅助损失，以提高性能。类似的损失可能能够提高dNRI的性能，我们将其留给未来的工作。6. 结论我们引入了动态神经关系推理，将NRI框架扩展到实体之间的关系预计会随时间变化的系统。我们证明了动态实体关系建模可以在各种任务中获得更好的性能。在未来，我们将研究我们是否可以采用最近的序列潜变量模型使用的其他方法，如辅助损失函数，以进一步提高性能。鸣谢。这项工作得到部分支持由NSF授予，编号为1718221 和 MRI #1725729 ， UIUC ， Samsung ， 3M，Cisco Systems Inc. (Gift奖CG 1377144）和Adobe。我们感谢雷蒙德·叶的视觉-化代码，Yurii Vlasov用于有用的讨论，Cisco用于访问Arcetri集群。MSE8524引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S.Savarese Social lstm：Human trajectory prediction incrowded spaces.在Proc. CVPR，2016中。8[2] J. Aneja，H. Agrawal、D. Batra和A.施温在不同的图像字幕期间建模意图的顺序潜在空间InProc. ICCV，2019.8[3] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译在procICLR，2015年。 1、8[4] P. W.巴塔利亚河帕斯卡努湾Lai，D. Rezestival和K.Kavukcuoglu学习对象、关系和物理的交互网络。在Proc. NIPS，2016中。8[5] 博克河Krajewski，T. Moers，S.伦德湖Vater，以及L. Eckstein ind数据集：德国十字路口的自然道路使用者轨迹的无人机数据集。在 arXiv 预印本 arXiv ：1911.07602，2019。7[6] M. B.张氏T. Ullman，A. Torralba和J. B. 特南鲍姆一种基于组合对象的物理动力学学习方法。InProc. ICLR，2017. 8[7] J. 钟K.卡斯特纳湖Dinh，K.Goel，A.C. Courville和Y. 本吉奥。序列数据的递归潜变量模型。在Proc.NIPS，2015中。8[8] CMU。2003年的动作捕捉数据库。5[9] N. Deo和M. M.特里维迪用于车辆轨迹预测的卷积社会汇集在Proc. CVPRW，2018中。8[10] M. Fraccaro，S. K.松德比Paquet和O.温瑟具有随机层的序列神经模型在procNIPS，2016年。四、八[11] 诉Garcia和J.布鲁娜图神经网络的少样本学习InProc.ICLR，2018. 1、8[12] J. Gilmer，S.S. Schoenholz，P.F. Riley，O.Vinyals和G.E.达尔量子化学的神经信息传递。InProc. ICML，2017.二、八[13] A. G o yal，A. Sordoni，M.- A. C o t e'，N. R. Ke和Y.本吉奥。Z-forcing：训练随机递归网络。在procNIPS，2017年。8[14] C.格兰杰用计量经济模型和交叉谱方法研究因果关系。《计量经济学》，1969年。8[15] N. Guttenberg，N.室女岛Witkowski，H. Aoki和R.加井置换-等变神经网络在动力学预测中的应用。arXiv预印本arXiv：1612.04530，2016。8[16] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。4[17] Y. 何申 Vain ： AttentionalMulti-AgentPredictiveModeling。在Proc. NIPS，2017年。1、8[18] B. Ivanovic和M.帕沃尼轨道电子：基于动态时空图的概率多智能体轨迹建模。InProc. ICCV，2019. 8[19] E. 张， S.Gu 和 B. 浦耳使用 gumbel-softmax 进行分类InProc. ICLR，2017. 2[20] D. P.Kingma和M.威林自动编码变分贝叶斯。InProc.ICLR，2014. 二、八[21] T. Kipf，E. Fetaya，K.- C. Wang，M. Welling和R.泽梅尔交互系统的神经关系推理。InProc. ICML，2018.一、二、五、八8525[22] V. Kosaraju ，A. 萨代吉安河马林-马林岛 Reid ， H.Rezatoi和S. Savarese社交大腕：使用自行车-甘和图形注意力网络的多模式轨迹预测。在Proc. NeurIPS，2019年。8[23] R. G.克里希南U. Shalit和D.桑塔格深度卡尔曼滤波器Inhttps://arxiv.org/abs/1511.05121，2015. 四、八[24] H. M. Le，Y.Yue，P.Carr和P.露西协调的多智能体模仿学习。InProc. ICML，2017. 8[25] N.李，W。Choi，P. Vernaza，C. B. Choy，P. H. S.托和M. Chandraker 欲望：在具有交互代理的动态场景中的遥远未来预测在Proc. CVPR，2017中。8[26] Y. Li，C.孟角，澳-地Shahabi和Y.刘某用于关系推理和模拟的结构通知图自动编码器。在ICML研讨会上学习和推理与图形-结构化数据，2019年。8[27] Y. Li，D. Tarlow，M. Brockschmidt和R.泽梅尔门控图序列神经网络InProc. ICLR，2016. 二、八[28] S. Linderman和R.亚当斯发现点过程数据中的潜在网络结构。InProc. ICML，2014. 8[29] S.林德曼河Adams和J.枕头多神经元记录的贝叶斯潜在结构发现。在procNIPS，2016年。8[30] 我 -- J. LiuJiang ， R. YehJiang 和 A. G. 施温 PIC ：PermutationInvariantCriticforMulti-AgentDeepReinforcement Learning-ing （多智能体深度在 Proc.CORL，2019年。*同等贡献。8[31] M.- T. Luong，H. Pham和C. D.曼宁基于注意力的神经机器翻译的有效方法。在Proc. EMNLP，2015中。1、8[32] C. J. Maddison，A.Mnih和Y.W. 茶具体分布：离散随机变量的连续松弛InProc. ICLR，2017. 2[33] F.蒙蒂D. Boscaini，J. Masci、E. Rodola、J. Svoboda和M. M.布朗斯坦使用混合模型cnns对图和流形进行几何深度学习。在Proc. CVPR，2017中。1、8[34] D.姆罗卡角Zhuang、E. Wang，N.哈伯湖Fei-Fei，J.Tenenbaum，and Daniel L.亚明斯用于物理预测的灵活神经表示。InProc. NeurIPS，2018. 8[35] M. Narasimhan、S.Lazebnik和A.G. 施温开箱即用：用图卷积网络进行事实可视化问题推理。 InProc.NeurIPS，2018. 8[36] D. J. Rezende，S. Mohamed和D.维尔斯特拉深层生成模型中的随机反向传播和近似推理。InProc. ICML，2014. 二、八[37] A. Santoro，D. Raposo，D. G. Barrett，M.马林诺夫斯基河Pascanu，P. Battaglia，and T. Lillicrap一个用于关系推理的简单神经网络模型.在Proc. NIPS，2017年。1[38] F. Scarselli，M. Gori，A. C. Tsoi、M. Hagenbuchner和G.蒙法迪尼图神经网络模型。IEEE Trans. on NN，2008. 二、八[39] I. Schwartz，A. G

下载后可阅读完整内容，剩余1页未读，立即下载