人体轨迹预测的互逆学习网络

90 浏览量更新于2023-10-23 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7416用于人体轨迹预测的互逆学习网络Hao Sun，Zhiqun Zhao，and ZhihaiHe密苏里大学{hshq7，zzhv7，hezhi}@ mail.missouri.edu摘要我们观察到，人类的轨迹不仅是向前可预测的，而且向后可预测。向前和向后的轨迹都遵循相同的社会规范，服从相同的物理约束，唯一的区别是时间方向。基于这种独特的特性，我们提出了一种新的人体轨迹预测方法，称为交互学习。两个网络，前向和后向预测网络，紧密耦合，满足互惠约束，这使得他们能够共同学习。基于这一约束，我们借用了深度神经网络对抗性攻击的概念，即迭代地修改网络的输入以匹配给定或强制的网络输出，并开发了一种新的网络预测方法，称为匹配预测的互惠进一步提高了预测精度。我们在基准数据集上的实验结果表明，我们的新方法优于最先进的人类轨迹预测方法。1. 介绍人类运动轨迹和运动模式由人类感知、行为推理、常识规则、社会惯例以及与他人和周围环境的交互来管理人类可以有效地预测他人的短期身体运动并做出相应的反应。机器学习这些规则并使用它们来理解和预测复杂环境中的人类运动的能力人类轨迹预测的中心研究问题是：给定所观察到的人的运动轨迹，我们能否在短时间内（例如，5秒）预测他们未来的轨迹？预测人类运动并对其常识行为进行建模是一项非常具有挑战性的任务[2]。用于人体轨迹预测的有效算法需要完成以下任务：（1）遵守物理约束图1.说明了我们对人类轨迹预测的相互学习的想法。环境的影响。为了在可行的地形上行走并避开障碍物或其他物理约束，我们需要分析个人周围的局部和全局空间信息，并注意环境中的(2)预测其他人或车辆的运动及其社会行为。有些轨迹在物理上是可能的，但在社会上是不可接受的。人类的运动受到社会规范的制约，比如让出通行权或尊重个人空间。(3)寻找多条可行路径。通常存在到达目的地的运动轨迹的多种选择。这种不确定性对精确的人体轨迹预测提出了重大挑战最近，已经开发了许多基于深度神经网络的方法用于人类轨迹预测[2，20]。早期的方法集中在学习移动代理（人和车辆）的动态模式[2]和对导航环境的语义建模[17]。已经开发了方法来建模人与人之间的交互[14]，理解社会可接受性[4，1，20]，并对场景中所有代理的联合影响进行建模[12]。还努力预测人类的多个可行路径[1，20，35]。在这项工作中，我们提出了探索人类轨迹的独特特征，并开发了一种新的方法，称为交互学习的人类轨迹预测。如图1所示，我们观察到人类轨迹不仅是向前可预测的，而且是向后可预测的。想象一下，时间被逆转，这个人正在倒退。如上所述，对于-7417病房移动轨迹遵循社会规范，服从环境约束。向后运动的轨迹也是如此，因为它们之间唯一的区别是时间是颠倒的。从训练数据中，我们可以训练两个不同的预测网络，前向预测网络Fθ和后向预测网络Gφ。这两个网络紧密耦合在一起，满足相互约束。例如，使用前向网络，我们可以从观察到的或过去的轨迹X预测未来的轨迹Y=Fθ（X）。如果预测Y是准确的，那么Gφ（Y）必须近似等于X。基于这种观察和独特的互惠约束，我们开发了一种新的方法，称为互惠网络学习，用于准确和鲁棒的人体轨迹预测。我们引入倒数预测损失，并建立一个迭代过程来训练这两个紧密耦合的网络。我们借用了深度神经网络的对抗性攻击的概念将互逆约束与对抗攻击方法相结合，提出了一种新的人体轨迹匹配预测方法。我们在基准数据集上的实验结果表明，我们的新方法优于最先进的方法用于人体轨迹预测。本文的其余部分组织如下。第2节回顾了人体轨迹预测的相关工作。在第3节中介绍了所提出的互逆网络学习和匹配预测。第4节介绍了实验结果、性能比较和消融研究。第五节总结了我们的主要贡献，并结束了论文。2. 相关工作在本节中，我们回顾了相关的工作，包括用于人类轨迹预测、对抗性攻击和周期一致性的人-人模型和人-场景模型。(1) 人-人模型为轨迹预测. 文献中已经开发了许多方法来对拥挤场景中的人类社会互动和行为进行建模，例如人们试图避免走路彼此之间Helbing和Molnar [14]引入了社会力模型，使用耦合朗之万方程来描述拥挤场景中人们之间的社会互动。在最近基于LSTM（长短期记忆）的方法其关键思想是合并附近行人的隐藏状态，使每个轨迹知道它的邻居。[5]发现，在一个方向上连贯移动的人群应该被排除在上述汇集机制之外。[12]生成对抗网络（Generative Adversarial Network，GAN）来区分多个可行路径。该模型能够捕获不同的运动风格，但不区分结构化和非结构化环境。[34]使用时空图来模拟行人之间的位置演化和相互作用来预测人的轨迹。(2) 用于轨迹预测的人体场景模型。另一组用于人类轨迹预测的方法集中于学习物理环境的影响。例如，人类倾向于沿着人行道行走，绕过树或其他物理障碍物。Sadeghian等人。 [29]考虑了旅行区域和语义上下文，使用GAN（生成对抗网络）预测社交和上下文感知位置。[21]提取多个视觉特征，包括每个人[4]研究了静态物体（如艺术品）的吸引力[2]提出了一个贝叶斯框架，预测未观察到的路径，从以前观察到的运动和转移学习的运动模式，以新的场景。在[8]中，研究了长期轨迹预测的动力学和语义学。Scene-LSTM[23]将静态场景划分为网格，并使用LSTM预测行人的位置。CAR-Net方法[30]将过去的观察与鸟瞰(3) 对抗性攻击。作为我们的主要贡献之一，我们探索了基于互惠约束的网络预测的对抗性攻击对抗攻击的目标是在输入样本上添加小噪声，使它们被网络错误分类。生成对抗样本的第一个成功方法之一是快速梯度符号法（FGSM）[11]。 Kurakin等人[18]提出了一种称为I-FGSM的FGSM变体，它以小步长迭代地应用FGSM更新。请注意，FGSM和I-FGSM都旨在最小化输入和生成的对抗示例之间的切比雪夫距离。基于优化的方法[32，25，7]也被开发用于生成对抗样本。我们的工作借鉴了FGSM的思想，对我们预测的未来轨迹进行对抗性攻击作为后处理步骤，以最大限度地减少自一致性损失，如第3.5节所述。(4) 循环一致性学习。研究了利用传递性对结构化数据进行正则化的方法。例如，在视觉跟踪中，[16，31]开发了一个向前-向后一致性约束。在语言处理中，[6，13，33]研究了人类和机器翻译人员，以验证和改进基于回译和协调机制的翻译。循环一致性也在运动分析[37]、3D形状匹配7418[15]，密集语义对齐[40，39]，深度估计[10，36，38]和图像到图像平移[3，41]。Cy- cleGAN[41]引入了一个循环一致性约束，用于学习将图像从源域转换到目标域的映射。在这项工作中，我们探索了人类轨迹的独特特征，并开发了互惠学习的新方法。我们的想法与周期一致性有关，但非常独特。我们引入了互逆损失，并设计了两个紧耦合的预测网络，前向和后向预测网络，这是联合学习的基础上的互逆约束。3. 人体轨迹预测的互反网络在本节中，我们将介绍用于人体轨迹预测的互易网络学习方法。3.1. 问题公式化我们遵循文献[34，21]中轨迹预测问题的标准公式.通过观察场景中所有移动主体的轨迹，包括人员和车辆，任务是预测所有主体在最近的下一段时间内的移动轨迹。未来具体地，令X=[X1，X2，···，XN]是场景中所有人的轨迹我们的任务是预测导致这两个预测网络之间的紧密耦合的迭代学习和性能改进过程。一旦前向和后向网络使用互惠学习方法成功训练，我们开发了一种新的网络推理方法，称为recipro- cal攻击匹配预测。它借用了深度神经网络的对抗性攻击的概念，其中输入被迭代修改，使得网络输出与给定目标匹配[11]。我们提出的想法与CycleGAN[41]其提出了一种用于学习映射以将图像从源域转换到目标域的方法。他们还学习逆映射，并引入循环一致性约束。我们的方法与CycleGAN方法有很大不同。我们设计了两个紧密耦合的预测网络，前向和后向预测网络，这是联合学习的基础上的互逆约束。在测试部分，我们的方法引入了一种新的相互攻击的匹配预测人体轨迹的方法所有人类的未来轨迹Y=[Y1，Y2，···，YN]同步人n的输入轨迹由下式给出：对于时间步长t= 1，2，···，T0，Xn=（xt，yt）。地面nn未来轨迹的真实性由Yn=（xt，yt）给出，时间nn步长t=To+ 1，···，Tp。3.2. 方法概述如图1所示，在互逆学习中，我们学习两个耦合网络，前向预测网络Fθ，它根据过去的数据X预测未来的轨迹Y=Fθ（X），后向预测网络Gφ，它根据未来的数据Y预测过去的轨迹X=Gφ（Y）。应该指出，在培训期间，过去和未来的数据都是可用的。如果两个网络都训练得很好，那么我们应该有以下两个相互一致性约束：XGφ（Fθ（X）），（一）Y<$Fθ（Gφ（Y））。（二）这两个网络能够互相帮助，以提高学习和预测性能。具体来说，如果训练了后向预测网络Gφ，我们可以使用倒数约束（1）来双重检查前向预测网络Fθ的准确性，并在训练期间提高其性能。同样，如果前向预测网络Fθ被训练，我们可以使用（2）来提高后向预测网络Gφ的训练性能。这图2.相互学习的训练过程。3.3. 互惠网络培训为了成功地训练前向和后向预测网络，我们定义了两个损失函数J−和J+，以衡量过去和未来轨迹的预测准确性。一个合理的选择将是L2范数之间的原始轨迹和它的预测。这两损失函数将交替更新并组合以指导这两个网络中的每一个的训练，如图2所示例如，在训练前向预测网络Fθ时，现有文献中使用的损失函数是未来轨迹L+的预测误差。在交互训练中，我们首先使用所有轨迹在时间上反转的训练数据来预训练反向预测网络Gφ然后，我们使用该网络将Fθ，Yθ=Fθ（X）的预测结果映射回过去7419SH轨迹，由下式给出Xθ=Gφ（Yθ）=Gφ（Fθ（X））。（三）过去的轨迹损失则由L−=||X−X||二、我们把这种损失称为相互损失。它将与L+组合以形成前向预测网络Fθ的损失函数：J +[θ]=λ·L ++（1− λ）·L −= λ·||Y − Fθ（X）||第二（四）条+ （1 −λ）·||X −Gφ（Fθ（X））||二、类似地，我们可以推导出后向预测网络Gφ的损失函数：设计如图3所示，我们采用[12]中现有的Social-GAN作为我们的基线预测网络。我们的模型由两个关键组件组成：（1）特征提取模块和（2）基于LSTM（长短期记忆）的GAN（生成对抗网络）模块。3.4.1特征提取器我们的特征提取器模块有三个主要组件，将在下面进行解释。具体来说，我们首先使用LSTM编码器来捕获人类n的每个轨迹内的时间模式和依赖性，并将其编码为高维特征Ft（n）。为了捕捉周围所有人类运动对前J −[φ]=λ· L−+（1 − λ）· L+=λ·||X-Gφ（Y）||2+ （1 −λ）·||Y −Fθ（Gφ（Y））||二、（五）目标人n的发音，我们借用[12]的思想来构建社会汇集模块，该模块提取场景中所有人的联合社会特征 Ft（n）来编码人与人的交互。相对距离值在交互训练中，我们首先独立地预训练前向和后向预测网络。然后，这两个网络联合训练的基础上的互逆约束的迭代方式图3.我们的预测网络有两个关键组件：（1）特征提取模块和（2）基于LSTM的GAN模块。3.4. 前向和后向预测网络前向和后向网络共享相同的网络结构。在下文中，我们使用前向预测网络Fθ作为示例来解释我们的网络7420vDD目标人物和其他人之间的关系。这些距离向量与每个人的LSTM网络中的隐藏状态连接在一起，然后通过MLP嵌入，然后通过Max-Pooling函数形成联合特征。设置了场景中移动人体的最大数量，如果当前不存在相应的代理，则默认值为0正如[35，29]中所认识到的，环境背景影响人类在规划其下一步运动时的决策。当前场景的特征可以并入到推理过程中与之前的工作类似[29]，我们使用在ImageNet [28]上预训练的VGGNet-19 [28]来提取背景场景It的视觉特征，然后将其输入LSTM编码器以计算隐藏状态张量Ft。作为我们所提出的方法的一个独特的功能，我们还建议将3D场景深度图纳入推理过程，这也提高了人体轨迹的预测精度这是因为人体运动发生在原始3D环境中。因此，它的自然形状和运动模式更好地由它的3D轨迹来表示，而不是2D图像坐标。例如，由于相机视角变换，在相机附近行走的人的轨迹与远离相机行走的人的轨迹有很大不同为了解决这个问题，我们建议从使用现有的深度估计方法的单个图像[9]。我们使用他们的预训练模型来执行单目深度估计并获得场景It的深度图Mt，然后使用LSTM将其编码为深度特征Ft。3.4.2基于LSTM的GAN弹道预测受以前工作的启发[12，29]，在本文中，我们使用基于LSTM的生成对抗网络（GAN）模块来生成人类7421GANGANGANGAN3. 生成器由解码器 LSTM 构造。类似于条件 GAN[24]，从多元正态分布中采样白噪声向量Z。然后，在我们提出的网络中使用合并层，该合并层将上述所有编码特征与噪声向量Z联系起来。我们将其作为LSTM解码器的输入，为每个人生成候选未来路径。该算法使用LSTM编码器构建，该编码器将输入作为从地面实况或预测轨迹中随机选择的轨迹，并将其分类为“真实”或“假”。一般而言，该算法将不准确的轨迹归类为“假”轨迹，并迫使生成器生成更真实可行的轨迹。在人类轨迹预测的互逆学习框架内，设Gθ：X→Y和Gφ：Y→X分别为前向预测网络Fθ和后向预测网络Gφ的生成元Dθ是Fθ的导数。它的输入Y′是从地面实况Y或预测的未来轨迹Y′中随机选择的。类似地，Dφ是Gφ 的判别子。为了训练Fθ和Gφ，我们将对抗损失与等式中的前向预测损失J+[θ]和后向预测损失J−[φ]相结合。（4）和（5）一起分别构造Fθ和Gφ的总体损失函数图4.说明拟议的攻击方法。这个预测是否准确如何进一步提高其准确性？幸运的是，在我们的互逆学习框架中，我们有另一个网络，即后向预测网络Gφ，它可以用来将估计的Yφ映射回已知的输入X。我们的理由-如果Y是准确的，那么它的反向预测X=Gφ（Y）=Gφ（Fθ（X））应与原始输入X。当预测Y不准确时，我们可以修改预测，使得上述匹配误差为Lθ=Lθ+J+[θ]， Lφ=Lφ+J−[φ]，（6）最小化这导致以下优化问题：其中对抗性损失LθLφ定义为：Y轴=argminY=Y+（t）||二、||2.（九）Lθ=min maxE′[logD（Y′）]（7）GANG D Yp（Y， Y）+EXp（X），Zp（ Z）[log（1−D（G（X，Z）]，这里，λ（t）是添加到预测结果Y的小扰动或修改。上述优化Lφ=最小最大E′[logD（X′）]（8）程序的目的是找到最佳修改Y=Y+最小化匹配误差。GANG D Xp（ X， X）这个优化问题可以通过adversar来解决+EYp（Y），Zp（Z）[log（1 −D（G（Y，Z）].3.5. 人体轨迹一旦前向和后向网络成功地使用基于Reciprocal学习方法的上述损失函数进行了充分训练，我们就可以对人体轨迹进行利用前向网络和后向网络的互逆性，提出了一种新的网络推理方法--互逆攻击匹配预测，作为后处理步骤，充分利用当前观测值，进一步提高预测精度。如图4所示，Fθ是我们用于人体轨迹预测的训练网络。对于过去的轨迹X，最近在深度神经网络攻击和防御的文献中研究的主要攻击方法。在这项工作中，我们提议借用Goodfellow等人 [11]开发的快速梯度符号方法（FGSM）的思想本质上，它是与网络训练相同的误差反向传播过程唯一的区别是网络训练基于误差梯度修改网络权重。然而，对抗性攻击不修改网络权重，它将错误一直传播到输入层以修改原始输入图像以最小化损失。该方法使用每个像素处的梯度的符号来确定其像素值的变化方向。在我们的例子中，我们删除了符号函数，直接使用梯度来更新输入轨迹。与匹配输入，它预测未来的轨迹Y=Fθ（X）。持续时间人体轨迹误差E=||X−GΦ（Y）||2、我们可以7422ing网络测试还是实际预测，我们不得而知未来轨道的真实情况我们怎么知道对所述预测Y执行所述修改的FGSM攻击的多次迭代，使得所述匹配误差被最小化。7423不不不不在迭代m处，攻击轨迹（输入）由下式给出：Ym=Ym−1+·YE（X，Ym−1），（十）其中Y=0=Y。这是攻击的规模[11]。直观地说，更新后的轨迹Ym将使E最小化。然后，我们执行{Ym}的指数平均以获得改进的4.3. 评价指标和方法我们在[1，26]中使用相同的错误度量进行性能评估。(1)平均位移误差（ADE）是在从T0+ 1到Tp的所有预测时间步长上地面实况与我们的预测之间的平均L2距离。(2)最终位移误差（FDE）是预测的最终目的地和真实的最终目的地ΣΣY轴=Σ ΣMeα·m·Ym//下一页eα·m，（11）预测周期Tp结束时的目的地。他们是定义为：m=1m=1ΣΣTp√（（xi，yi）−（xi，yi））2不tt 不其中M是总迭代次数，α是要控制这些不同的攻击迭代之间的相对权重它的值是根据启发式研究选择的。在我们ADE=i∈Tt=To+1，（12）|Ψ|·T pΣ。在实验中，我们设置α =0。1.一、FDE=i∈Ψ（（xip，和，p）−（xip，yip））2、（十三）4. 实验结果在本节中，我们介绍了我们的实验结果，每-|Ψ|其中，（xi，yi）和（xi，yi）是预测和基础不tt 不与最先进的方法进行比较，并lation研究4.1. 基准数据集在ETH [27]和UCY [19]数据集上进行比较和消融实验，这些数据集包含真实世界的人类轨迹和各种自然的人与人交互环境。这两个数据集中总共包括5个子数据集：ETH、HOTEL、UNIV、ZARA 1和ZARA 2每个集合包含每个人的鸟瞰图像和2D位置。这五组数据中共有1536人。它们包含具有挑战性的情况，包括人类碰撞避免，人类相互交叉和群体行为[29]。4.2. 实现细节我们的GAN模型是使用LSTM为编码器和解码器构建的。使用Adam优化器迭代地训练生成器和训练器我们选择批量大小为64，初始学习率为0。001。整个模型训练了200个epoch。使用具有16维的单层MLP嵌入轨迹。生成器的编码器和解码器使用隐藏状态维度为32的LSTM在LSTM编码器中，隐藏状态四十八被目标人物包围的最大人数设定为32人。选择该值是因为在所有数据集中，没有一个数据集在任何帧中具有超过32个人类对于深度图提取，我们使用来自[9]的预训练模型“monodepth 2”，并且使用嵌入维度为16的单层MLP嵌入深度特征。损失函数的权重为λ = 0。五、我们执行20次迭代的相互攻击，扰动的最小值设置为−0。05.人类i在时间t的真值坐标，t是人类的集合，|Ψ|是测试集中的总人数。根据以前的论文[1，12，29]，我们使用simi-最大“留一法”评价方法。四个数据集用于训练，剩下的一个用于测试。给定过去8个时间步长（3.2秒）的人类轨迹，我们的模型预测未来12个时间步长（4.8秒）的未来轨迹。4.4. 与现有方法的比较我们将我们的方法与以下最先进的方法进行比较：（1）线性：该方法应用线性回归，通过最小化最小二乘误差来估计线性参数[12]。（2）LSTM：这是LSTM方法的基线模型，不考虑任何人-人交互或背景场景信息。(3)S-LSTM[1]：该方法通过LSTM对每个人进行建模，并提出了一种社会池机制，其中每个时间步都有一定网格内的人类隐藏状态。(4)S-GAN[12]：这是第一个基于GAN的方法之一。在汇集阶段，考虑场景中的所有人S-GAN和S-GAN-P的不同之处仅在于是否应用池化机制。该方法从20个网络预测中选择最佳轨迹作为最终测试结果。(5)SoPhie[29]：这项工作实现了由背景场景特征描述的所谓物理约束在这种基于GAN的方法中还引入了注意力机制(6)下一步[21]：该方法实现了基于多特征池LSTM的预测器。在测试部分，除了使用单一的模型外，[12]使用随机初始化训练20个不同的模型本文报道了在我们的比较中，我们从这两个部分中选择最好的结果。M7424表1.在ETH（第2列和第3列）和UCY（第4-6列）数据集上比较不同的方法，在给定前8个时间步的情况下，预测未来12个时间步。报告的误差指标为米级ADE / FDE。方法ETH酒店UnivZARA1ZARA2Avg线性1.33/2.940.39/0.720.82/1.590.62/1.210.77/1.480.79/1.59LSTM1.09/2.140.86/1.910.61/1.310.41/0.880.52/1.110.70/1.52S-LSTM[1]1.09/2.350.79/1.760.67/1.400.47/1.000.56/1.170.72/1.54S-GAN[12]0.81/1.520.72/1.610.60/1.260.34/0.690.42/0.840.58/1.18S-GAN-P0.87/1.620.67/1.370.76/1.520.35/0.680.42/0.840.61/1.21[29]第二十九话0.70/1.430.76/1.670.54/1.240.30/0.630.38/0.780.54/1.15下一页[21]0.73/1.650.30/0.590.60/1.270.38/0.810.31/0.680.46/1.00我们0.69/1.240.43/0.870.53/1.170.28/0.610.28/0.590.44/0.904.5. 定量结果表1显示了我们的方法与现有方法在米级性能指标ADE和FDE上我们遵循先前的工作[12]，在L2范数中选择多个样本中的最佳预测进行定量评估。我们可以看到，我们的方法比Next方法执行了除Hotel数据集之外的所有其他方法。线性模型通常表现最差。它只能预测直线轨迹，并且在复杂的人与人以及人与环境的交互中性能下降。LSTM方法的性能优于线性方法，因为它可以处理更复杂的轨迹。S-LSTM的性能也优于线性模型，因为它使用了社会池机制，但它的性能比LSTM差。根据[12]，S-LSTM[1]在合成数据集上进行训练，并在真实数据集上进行微调以提高准确性。为了评估我们的方法在拥挤场景中预测可行路径的性能，我们遵循以前的论文[29]中的程序来报告一个新的评估指标，即人类之间接近碰撞当两个人之间的欧几里德距离小于0.1m时，定义为碰撞。我们计算了ETH和UCY数据集每帧中人类近碰撞的平均百分比。与Linear、S-GAN和SoPhie方法的比较结果如表2所示。我们可以看到，我们的方法在ETH、HOTEL和ZARA2数据集上的性能优于这三种方法，在未来产生更少的人为碰撞。对于其他两个数据集，UNIV和ZARA 1，S-GAN和SoPhie略好于我们。然而，它们在其他数据集上遭受显著的性能下降。总体而言，实验结果表明，我们的方法可以预测更好的物理和社会可接受的路径相比，这些现有的方法。4.6. 消融研究为了系统地评估我们的方法并研究每个算法组件的一致性，我们执行了一个数字-表2. ETH和UCY数据集中每个场景的碰撞人的平均百分比当两个人之间的欧几里得距离小于0.1m时，定义并检测到人体碰撞第一列表示地面实况。GT线性S-GAN苏菲我们ETH0.0003.1372.5091.7571.512酒店0.0921.5681.7521.9361.547Univ0.1241.2420.5590.6210.563ZARA10.0003.7761.7491.0271.094ZARA20.7323.6312.0201.4641.252Avg0.1892.6701.7171.3611.194烧蚀实验的误差。我们的算法有三个主要的新组件，互惠学习，3D深度图特征的描述，以及匹配预测的互惠攻击在表3的第一行中，我们列出了我们的方法（完整算法）的ADE和FDE结果。第二行显示了我们的方法在没有交互训练的情况下的结果第三行显示没有深度图特征的结果。最后一行显示了没有用于预测的相互攻击的结果我们可以清楚地看到，每个算法组件都有助于整体性能。在相互一致性约束下，在训练过程中，我们的模型迫使向后预测的轨迹与观察到的过去轨迹一致，从而作为向后网络输入的预测的结果表明，深度特征的好处，因为它可以帮助模型更好地理解人类行为和背景场景上下文。相互攻击机制以迭代方式修改预测轨迹，以使原始轨迹与后向预测轨迹相匹配。词汇网络4.7. 定性结果图5显示了我们从ETH，HOTEL，UNIV，ZARA 1和ZARA 2数据集预测的成功和失败的例子。根据先前的工作S-GAN [12]，我们显示了20个7425表3.我们的完整算法的消融实验，没有不同的组件。报告的误差指标为米级ADE/FDE方法ETH酒店UnivZARA1ZARA2我们的方法（完整算法）0.69/1.240.43/0.870.53/1.170.28/0.610.28/0.59- 没有相互学习0.73/1.310.49/0.970.60/1.220.38/0.730.36/0.70- 无深度特征0.71/1.300.43/0.880.56/1.190.31/0.630.31/0.62- 没有相互攻击0.70/1.260.45/0.900.55/1.180.32/0.650.30/0.61图中的模型输出。前两列显示了我们提出的方法能够正确预测未来路径的场景。根据背景场景，我们可以看到，我们的方法可以确保每个人类路径遵循场景的物理约束，例如绕过障碍物（例如树木）行走，以及停留在人行道上。在人与人交互的情况下，我们的方法也显示出良好的预测结果。当人们在拥挤的道路上行走时，当他们从不同的方向汇合，然后向一个共同的方向行走时，他们可以彼此避开。图5中的最后一列显示了一些错误率相对较大例如，我们看到人类放慢速度，甚至停了一会儿，或者人类走直线而不是绕过障碍物。然而，在大多数情况下，我们的方法仍然可以预测合理的路径，即使预测的路径与地面事实不太相同。例如，对于最后一列中的第一、第三和第五种情况，在我们的预测路径中，目标人试图绕过另一个人或路上的树，这在实践中是相当合理的。5. 结论和主要贡献本文研究了人体运动轨迹的特点，提出了一种新的人体运动轨迹预测方法--互逆网络学习方法。大量的实验结果表明，我们的方法实现了国家的最先进的性能在公共基准数据集。本文的主要贡献可概括如下。(1)我们建立了一个人体轨迹预测的前向和后向预测网络结构(2)基于这一约束，我们开发了一种互惠学习方法，以协作和迭代的方式联合训练这两个预测网络(3) 一旦网络被成功训练，我们已经开发了一种新的方法，通过集成对抗性攻击的概念与互惠约束的网络推理。它能够通过前向网络迭代地细化预测轨迹，使得满足互逆约束(4)我们的消融研究表明，所提出的新方法是非常有效的，具有显着的组成，图5.说明我们的方法预测未来12个时间步的轨迹ETH、HOTEL、UNIV以及ZARA 1和ZARA 2的结果分别显示在第1至5行中。我们展示了我们的模型成功预测前两列中误差较小的轨迹的例子。最后一列显示了一些失败案例。请注意，我们裁剪并调整了原始图像的大小，以获得更好的可视化效果。贡献的整体性能，我们的方法，这优于其他国家的最先进的方法在文献中。确认这项工作得到了美国国家科学基金会的部分支持，资助号为1647213和1646065。本材料中表达的任何观点、发现、结论或建议均为作者的观点，不一定反映国家科学基金会的观点。7426引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类在拥挤的空间轨迹预测在IEEE计算机视觉和模式识别会议论文集，第961-971页[2] LambertoBallan ， FrancescoCastaldo ， AlexandreAlahi，Francesco Palmieri，and Silvio Savarese.用于场景特定运动预测的知识转移。在欧洲计算机视觉上，第697施普林格，2016年。[3] Aayush Bansal 、 Shugao Ma 、 Deva Ramanan 和 YaserSheikh。再生甘：无监督视频重定向。在欧洲计算机视觉会议（ECCV）的会议记录中，第119-135页[4] Federico Bartoli，Giuseppe Lisanti，Lamberto Ballan，and Alberto Del Bimbo.上下文感知轨迹预测。2018年第24届国际模式识别会议（ICPR），第1941-1946页。IEEE，2018年。[5] Niccolo 'Bisagno，BoZhang，andNicolaConci.Grouplstm：拥挤场景下的群体轨迹预测。在欧洲计算机视觉会议（ECCV）的Proceedings中，第0-0页[6] 理查德·沃林。跨文化研究中的回译。跨文化心理学杂志，1（3）：185-216，1970。[7] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页。IEEE，2017年。[8] Pasquale Coscia ， Francesco Castaldo ， Francesco ANPalmieri ， Alexandre Alahi ， Silvio Savarese ， andLamberto Ballan.使用圆形分布的城市场景中的长期路径预测。图像和视觉计算，69：81[9] Cle' mentGodard ， OisinMacAodha ， MichaelFirman ，andGabriel J Brostow.深入研究自我监督的单目深度估计。在IEEE计算机视觉国际会议论文集，第3828-3838页[10] Cle' mentGodard，OisinMacAodha，andGabri elJBros-tow.具有左右一致性的无监督单目深度估计。在IEEE计算机视觉和模式识别会议论文集，第270-279页[11] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。[12] 阿格里姆·古普塔、贾斯汀·约翰逊、李飞飞、西尔维奥·萨瓦雷塞和亚历山大·阿拉希。社会性伙伴：具有生成对抗网络的社会可接受的投射物。在IEEE计算机视觉和模式识别会议论文集，第2255-2264页，2018年[13] 翟和，夏颖策，秦涛，王立伟，于能海，刘铁岩，马伟英。机器翻译的双重学习神经信息处理系统进展，第820-828页，2016年[14] Dirk Helbing和Peter Molnar行人动力学的社会力模型。Physical review E，51（5）：4282，1995.[15] 黄启兴和列奥尼达斯·古巴斯。基于半定规划的一致形状映射。在Computer Graphics Forum，第32卷，第177-186页中。Wiley Online Library，2013.[16] Zdenek Kalal，Krystian Mikolajczyk，and Jiri Matas.前向-后向错误：自动检测跟踪故障。2010年第20届国际模式识别会议，第2756-2759页。IEEE，2010。[17] Kris M Kitani，Brian D Ziebart和J Andrew。巴涅尔和马蒂尔赫伯特。活动预测。欧洲计算机视觉会议。Springer，第59卷，第88页，2012年。[18] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。 arXiv 预印本 arXiv ：1607.02533，2016。[19] LauraLeal-Taixe´ ， MicheleFenzi ， AlinaKuznetsova ，BodoRosenhahn，and Silvio Savarese.学习用于多人跟踪的基于图像的运动上下文。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第3542-3549页[20] Namhoon Lee ， Wongun Choi ， Paul Vernaza ，Christopher B Choy ， Philip HS Torr ， and ManmohanChandraker.欲望：在具有交互代理的动态场景中的遥远未来预测。在IEEE计算机视觉和模式识别会议论文集，第336-345页[21] Junwei Liang，Lu Jiang，Juan Carlos Niebles，AlexanderG Hauptmann，and Li Fei-Fei.窥视未来：预测未来的人的活动和地点的视频。在IEEE计算机视觉和模式识别会议的论文集中，第5725-5734页[22] Matthias Luber，Johannes A Stork，Gian Diego Tipaldi，and Kai O Arras.人们跟踪人类运动预测来自社会力量。2010年IEEE机器人与自动化国际会议，第464-469页。IEEE，2010。[23] Huynh Manh和Gita Alaghband Scene-lstm：一个人体轨迹预测模型。arXiv预印本arXiv：1808.04018，2018。[24] Ramin Mehran、Alexis Oyama和Mubarak Shah。Ab-使用社会力模型的正常人群行为检测。2009年IEEE计算机视觉与模式识别会议，第935-942页。IEEE，2009年。[25] Seyed-Mohsen Moosavi-Dezfoooli ， Alhussein Fawzi ，and Pascal Frossard. Deepfool：欺骗深度神经网络的简单而准确的方法。在Proceedings of the IEEE conferenceon computer vision and pattern recognition，pages 2574[26] Stefano Pellegrini，Andreas Ess，Konrad Schindler和LucVan Gool。你永远不会独自行走：多目标跟踪的社会行为建模。在2009年IEEE第12届计算机视觉国际会议上，第261-268页。IEEE，2009年。[27] Stefano Pellegrini，Andreas Ess和Luc Van Gool。通过对行人轨迹和分组进行联合建模，改善数据关联。欧洲计算机视觉会议，第452-465页。施普林格，2010年。[28] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al. Imagenet大7427规模视觉识别的挑战。International Journal of ComputerVision，115（3）：211[29] Amir Sadeghian 、 Vineet Kosaraju 、 Ali Sadeghian 、Noriaki Hirose 、Hamid Rezatofighi和 Silvio Savarese 。Sophie：一个专注的神经元，它能预测符合社会和物理约束的路径在IEEE计算机视觉和模式识别会议论文集，第1349- 1358页[30] Amir Sadeghian 、Fe

下载后可阅读完整内容，剩余1页未读，立即下载