未来人轨迹预测的多任务学习系统

181 浏览量更新于2023-10-18 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1展望未来：预测视频梁俊伟1蒋璐2胡安·卡洛斯·尼布尔斯3，2亚历山大·豪普特曼1李飞飞3，21卡内基梅隆大学2谷歌AI3斯坦福大学{junweil，alex}@ cs.cmu.edu，lujiang@google.com，{feifeili，jniebles}@ cs.stanford.edu摘要解读人类行为以预测他们未来的路径/轨迹以及他们将从视频中做什么在许多应用中是受此启发，本文研究预测行人我们提出了一个端到端的，多任务的学习系统，利用丰富的视觉特征的人类行为信息和互动与他们的周围环境。为了便于训练，网络通过预测活动将发生的未来位置的辅助任务来学习。实验结果表明，我们的国家的最先进的性能超过两个公共基准对未来的轨迹预测。此外，我们的方法是能够产生有意义的未来活动的预测，除了路径。结果提供了第一个经验证据，联合建模的路径和活动有利于未来的路径预测。11. 介绍随着深度学习的进步，系统现在能够从视频中分析前所未有的丰富视觉信息。一个重要的分析是预测行人的未来路径，称为未来人轨迹预测。这个问题在计算机视觉界越来越受到关注[13，1，7]。它被认为是视频理解中的重要组成部分，因为查看过去的视觉信息来预测未来在许多应用中是有用的，如自动驾驶汽车，社会意识机器人[19]等。人类在公共空间中穿行时通常会有特定的目的，从进入房间这样简单的目的到把东西放进车里这样复杂的目的。然而，这种意图在现有的工作中大多被忽视。考虑图中的示例。1，人（在右上角）可能根据他们的意图采取不同的路径，例如，他们可能会采取绿色路径传输对象或黄色路径加载对象到在Google的兼职研究项目期间完成的部分工作1代码和模型发布于https://next.cs.cmu.edu图1.我们的目标是共同预测一个人未来的道路和活动。绿线和黄线表示两个可能的未来轨迹，绿框和黄框表示两个可能的活动。根据未来的活动，人（右上）可能会采取不同的路径，例如。黄色路径表示车受此启发，本文有兴趣在视频中与这种意图一起建模我们根据NIST提供的一组预定义的29个活动（如“加载”、“对象传输”等）对意图进行见补充材料的完整列表。联合预测模型可以具有两个益处。首先，学习活动和路径可以有益于未来的路径预测。直觉上，人类能够从他人的肢体语言中读懂在图1的示例中。1、这个人提着一个箱子，左下角的人在向这个人挥手。根据常识，我们可能会同意这个人会走绿色的路而不是黄色的路。其次，联合模型通过考虑视频中丰富的语义上下文，不仅提高了理解未来路径的能力，而且提高了理解未来活动的能力。这增加了自动视频分析的社会公益功能请注意，我们的技术专注于预测未来几秒钟的情况，对于非常规活动应该没有用处。为此，我们提出了一个多任务学习模型，称为Next，它具有用于学习任务的预测模块5725物转移未来活动-人未来的活动未来活动-加载5726未来的道路和行动，同时进行。由于预测未来的活动是具有挑战性的，我们引入两种新的技术来解决这个问题。首先，与大多数现有的工作[13，1，7，26，21，31]不同，这些工作将人过度简化为空间中的一个点，我们通过关于视觉外观，身体运动和与周围环境的交互的丰富语义特征对人进行编码，这是由于人类通过依赖类似的视觉线索来获得这种预测。其次，为了方便训练，我们引入了一个辅助任务来预测未来活动，即。活动位置预测在辅助任务中，我们设计了一个离散化的网格，我们称之为曼哈顿网格作为系统的位置预测目标。据我们所知，我们的工作是第一个联合未来的路径和活动预测流媒体视频，更重要的是，第一个证明这样的联合建模可以大大提高未来的路径预测。我们在两个基准上实证验证我们的模型： &[23] 和ActEV/VIRAT [22，3]。实验结果表明，我们的方法优于国家的最先进的基线，实现了最好的出版结果在两个共同的基准，并产生额外的预测未来的活动。总之，本文的贡献是三方面的：（一）我们进行关于联合未来路径和活动预测的试点研究在视频里。我们是第一个以经验证明这种联合学习的好处的人。（ii）我们提出了一个多任务学习框架，采用新技术来应对联合未来路径和活动预测的（iii）我们的模型在两个公开的基准测试中达到了最好的公开性能进行消融研究，以验证所提出的子模块的贡献。2. 相关工作用于轨迹预测的人-人模型。人的轨迹预测模型试图预测人的未来路径，主要是行人。大量的工作通过考虑拥挤场景中的人类社会互动和行为来学习预测人的路径[32，34]。Zou等人在[36]通过模仿决策过程来学习人群中的人类行为。Social-LSTM [1]添加了社交池来模拟附近的行人轨迹。Social-GAN [7]在Social-LSTM上添加了对抗训练以提高性能。与这些复杂的工作不同，我们用丰富的视觉特征来表示人，而不是简单地将人视为场景中的点。同时，我们使用几何关系来显式地建模场景中的人与人之间的关系，这在以前的工作中没有使用。用于轨迹预测的人物场景模型。一些作品集中于学习物理场景的效果，例如，人们倾向于走在人行道上，而不是草。 Kitani等人”[13]《礼记》云：“礼之以礼，礼之以礼。学习预测人类轨迹。Xie等人在[31]中，将行人视为“粒子”，其运动动力学在拉格朗日力学的框架内建模。Scene-LSTM [21]将静态场景划分为曼哈顿网格，并使用LSTM预测行人CAR-Net [12]提出了一种基于场景语义CNN的注意力网络来预测人的轨迹。SoPhie [26]结合了来自场景语义分割模型和生成对抗网络（GAN）的深度神经网络特征，使用注意力对人的轨迹进行建模。与[26]的一个不同之处在于，我们在每个时刻明确地将每个人周围的场景语义特征池化，以便模型可以直接从这种交互中学习。人视觉特征为轨迹预测.一些最近的研究试图通过UTI来预测人的路径，将个体的视觉特征化，而不是将其视为场景中的点。Kooij等人[14]看在仪表盘摄像头视频中使用动态贝叶斯网络对行人Yagi等人在[33]中，使用卷积神经网络的每个关键点特征来预测第一人称视频中的未来路径。不同于这些作品，我们认为丰富的视觉语义未来的预测，包括人的行为和他们的相互作用与探测。活动预测/早期识别跟踪。许多工作已经提出来预测未来的人类行为使用递归神经网络（RNN）。[20]和[2]提出了不同的损失，以鼓励LSTM识别早期的互联网视频。Srivastava等人在[29]中，使用LSTM的无监督学习来重建和预测视频表示。另一项工作是在机器人视觉中模拟人类活动[15，10]。有以前的作品考虑到视频中的多个线索用于跟踪[11，25]和群体活动识别[5，28，27]。我们的工作不同之处在于，丰富的视觉特征和焦点注意用于联合人的路径和活动预测。同时，我们的工作利用新的活动位置预测（见3.5节）来桥接这两个任务。3. 方法人类在空间中航行时，往往有着特定的这些目的可能在很大程度上决定未来的轨迹/路径。这促使我们有目的地共同研究未来路径预测。在本文中，我们根据一组预定义的未来活动（如“步行”、“开门”、“谈话”等）来建模意图问题表述：在[1，7，26]之后，我们假设每个场景首先被处理以获得所有人在不同时刻的空间坐标。基于坐标，我们可以自动提取它们的边界框。我们的系统观察从时间1到Tobs的所有人的边界框，以及对象（如果有的话），5727图2.我们的模型概述。给定一个包含预测人物的帧序列，我们的模型利用人物行为模块和人物交互模块将丰富的视觉语义编码到特征张量中。预测它们在时间Tobs+1到Tpred的位置（根据xy坐标），同时估计在时间Tpred的未来活动标签的可能性。3.1. 网络架构图2显示了我们的Next的整体网络架构模型与大多数现有工作[13，1，7，26，21，31]不同，这些工作将人过度简化为空间中的一个点，我们的模型采用两个模块来编码关于每个人的行为和与周围环境的交互的丰富视觉Next具有以下关键组件：人的行为模块从人的行为序列中提取视觉信息。人与人之间的互动模块着眼于一个人和他们的周围环境之间的互动。轨迹生成器总结了编码的视觉特征，并通过LSTM解码器预测未来的轨迹[17]。活动预测利用丰富的视觉语义来预测人的未来活动标签。此外，我们将场景划分为多个尺度的离散网格，我们称之为曼哈顿网格，以计算分类和回归，用于稳健的活动位置预测。在本节的其余部分，我们将详细介绍上述模块和学习目标。3.2. 人员行为模块该模块编码场景中每个人的视觉信息。与将人过分简化为空间中的一个点相反，我们对人的外观和身体运动进行建模为了对一个人的外观变化进行建模，我们利用一个预先训练好的对象检测模型“参见图3。我们对每个人的空间维度的特征进行平均，并将它们送入LSTM编码器。最后，我们得到一个特征Tobs×d的表示，其中d是LSTM的隐藏大小为了捕捉身体的运动，我们利用一个人在MSCOCO数据集上训练的关键点检测模型[6]提取人的关键点信息。我们应用线性变换来嵌入关键点坐标，然后输入LSTM编码器。的形状。编码特征具有Tobs×d的形状。这些外观图3.人的行为模块给出了一个人的序列跳转参见第3.2节。并且运动特征通常用于各种各样的研究中，因此不会引入对机器学习公平性的新关注。3.3. 人员交互模块这个模块着眼于一个人与周围环境之间的互动，即。人-场景和人-物体交互。个人场景为了对人的附近场景进行编码，我们首先使用预先训练的场景分割模型[4]来提取每个帧的像素级场景语义类。我们总共使用Ns=10个常见场景类，如道路、人行道等。场景语义特征是大小为Tobs×h×w的整数（类索引），其中h，w是空间分辨率。我们首先将整数tensor转换为Ns二进制掩码（每个类一个掩码），并沿时间维度平均。这导致Ns个实值掩码，每个掩码的大小为h×w。我们在掩码特征上应用两个卷积层，步长为2，以获得两个尺度的场景CNN特征给定一个人如图底部所示的例子4、卷积特征的红色部分是人在当前时刻的离散化位置。特征在每个时刻的接收场，即。模型所观察的人周围的空间窗口的大小取决于从哪个尺度汇集以及卷积核的大小。在我们的实验中，我们将尺度设置为1，内核大小设置为3，这意味着我们的模型在每个时刻都会查看人周围的3 × 3区域。人物的人物场景表示为RTobs×C，其中C是卷积层中的通道数。我们将其馈送到LSTM编码器中，以捕获时间信息并获得最终的5728=hJK图4.人机交互模块包括人-场景建模和人-物建模。参见第3.3节。RTobs×d中的人物场景特征。人-物。与以前的工作[1，7]不同，它依赖于LSTM隐藏状态来建模附近的人，我们的模块显式地建模场景中所有对象/人的几何关系和对象类型在任何时刻，给定一个人的观察箱（xb，yb，wb，hb）和K场景中的其他对象/人{（x k，y k，w k，h k）|k ∈所有编码器的隐藏状态被打包到一个名为Q∈RM×Tobs×d的张量中，其中M=5表示特征的总数，d是LSTM的隐藏大小。在[7]之后，我们使用LSTM解码器直接预测xy坐标中的未来轨迹。这个解码器的隐藏状态是使用人的轨迹LSTM编码器的最后状态来初始化的在每个时刻，xy坐标将从解码器状态ht=LSTM（ht-1，[et-1，qt]）和通过全连接层计算。 qt是重要的关注特征向量，其对输入特征Q中的显著线索进行求和。为此，我们采取了有效的集中注意力[17] 它最初被提出来进行多模态推理的图像序列的视觉问题回答。其关键思想是将多个特征投影到一个相关空间中，在这个空间中，注意力机制可以更容易地捕获有区别的特征为此，我们计算相关矩阵S t∈RM×Tobs 在每个时刻t，其中每个条目[1，K]}，我们将几何关系编码为G ∈RK×4，tijt−1 ·Qij：是用点积来计算其中第k行等于：ity and：是一个切片运算符，它从[001 pdf1st-31files]Gk =[log（|xb− xk|W），log（|yb− yk|H）、log（wkW）、log（hkH）]（1）这个维度。然后我们计算两个注意力矩阵：At=softmax（mMaxSt）∈RM（3）b b b bi=1i：该编码根据以下方式计算几何关系：Bt=[softmax（St），· · ·，softmax（St）] ∈RM×Tobs（四）1：男：几何距离和分数框大小。我们使用一个对数函数来反映我们的观察然后，关注特征向量由下式给出：轨迹更可能受到附近物体或人的影响。这种编码已被证明有效，qt= ΣMj=1Tobs不Jk=1tQjk：∈Rd（5）目标检测[9]。对于对象类型，我们简单地使用一个-热编码，得到RK×No中的特征，其中No是对象类的总数。然后，我们将当前时间的几何特征和对象类型特征嵌入到d维向量中，并将嵌入的特征馈送到LSTM编码器中，以获得RTobs×d的最终特征。如图1所示的例子。4、人-物特征可以捕捉人与其他人和汽车的距离。人物场景特征可以捕捉人是否在人行道或草地附近。我们将这些信息设计给模型，希望能够学习一些东西，比如一个人在人行道上行走的次数比他们会避开草地，尽量避免撞到汽车上。3.4. 具有焦点注意的轨迹生成如上所述，上述四种类型的视觉特征，I.E. 外观、身体运动、人-场景和人-对象由单独的LSTM编码器编码到相同的维度中。此外，给定一个人et−1=tanh{We[xt−1 ， yt−1]}+be∈Rd ，（2）其中[x t−1，y t−1]是时间t − 1的轨迹预测，W e，b e是可学习的参数。然后，我们将嵌入的e t−1送入另一个LSTM编码器以获得轨迹。S一B5729如图所示，焦点注意力对不同特征之间的相关性进行建模，并将其总结为低维关注向量。第4节显示了它的好处。3.5. 活动预测由于轨迹生成模块一次输出一个位置，因此误差可能随着时间累积，并且最终目的地将偏离实际位置。使用错误的位置进行活动预测可能导致不良的准确性。为了克服这个缺点，我们引入了一个辅助任务，即。活动位置预测，以及预测人的未来活动标签我们在下面描述两个预测模块。使用曼哈顿网格进行活动位置预测。为了弥补轨迹生成和活动标签预测之间的差距模块，以预测该人将从事未来活动的最终位置活动区位预测包括区位分类和区位定位回归分析如示于图5、首先将视频帧划分为离散化的h×w网格，即曼哈顿网格，然后学习正确的网格块分类，同时从网格块的中心回归到实际位置。具体而言，分类任务的目标是就是预测出正确的网格块5730网格网格网格法我法图5.基于多尺度曼哈顿网格的分类回归活动位置预测。参见第3.5节。坐标存在。在对网格块进行分类之后，回归任务的目标是预测网格块中心（图中的绿点）与最终位置坐标（绿色箭头的末端添加的原因表示在时刻Tpred的未来活动。我们使用编码器的级联的最后隐藏状态来计算未来的Naclsact=softmax （ Wa·[Q1Tobs ：， ·· · ， QMTobs ： ] ）（6）其中Wa是可学习的权重。个人未来的活动可能是多类的，例如：一个人可以同时3.6. 培训整个网络通过最小化多任务目标进行端到端训练。主要损失是预测的未来轨迹和地面实况轨迹之间的共同L2损失[21，7，26]。从Tobs+1到Tpred的所有人的损失被求和为Lxy。第二类损失是活动地点-第二节中讨论的分类和回归损失回归任务是：（i）它将提供更精确位置，第3.5节。我们有L 网格cls=Ni=1ce（clsi∗网格），而不仅仅是一个网格块区域;（二）补充Whereclsclassi是地面实况最终位置网格块需要xy坐标lo的轨迹预测，第i个训练轨迹的ID。同样，L网格reg=钙化我们在曼哈顿网格上重复这个过程，ΣNi=1 光滑L1i网格格网）和rgi是地面-不同的尺度，并使用单独的预测头来建模他们这些预测头与模型的其余部分进行端到端的我们的想法部分受到了区域提案网络[24]的启发，我们的直觉也是如此。真差到正确的网格块中心。这一损失的目的是弥合之间的差距轨迹生成任务和活动标签预测任务。第三种损失是用于活动标签预测。我们的员工对于目标检测问题，我们需要准确的定位，交叉熵损失：Lact=Ni=1 ce（clsi，cls101）。的以具有成本效益的方式使用多尺度特征如图5，我们首先将场景CNN特征（见3.3节）与编码器的最后一个隐藏状态（见3.4节）连接起来。为了兼容性，我们将隐藏状态Q ： Tobs ：沿着高度和宽度维度产生大小为M×d×w·h的张量，其中w·h是网格块的总数隐藏的国家骗局-从所有编码器中保留丰富的信息，并允许梯度从预测到特征编码器平滑流动级联的特征被馈送到两个单独的卷积层中用于分类和回归。这个骗局网格分类clsgrid∈Rw·h×1的卷积输出指示每个网格块是正确的概率目的地相比之下，最后损失的计算公式如下：L=Lxy+λ（Lgridcls+Lgridreg）+Lact（7）我们使用平衡控制器λ = 0。1用于位置目的地预测，以抵消训练期间较高的损失值4. 实验我们在两个用于未来路径预测的常见基准上评估所提出的Next模型：[ 23 ][24][25][26][27][28][29]4.1. ActEV/VIRAT数据集设置。ActEV/VIRAT [3]是NIST于2018年发布的公共数据集，用于流媒体视频中的活动检测研究（https://actev.nist.gov/）。此数据集回归RG网格∈Rw·h×2表示偏差，是VIRAT的改进版本[22]，有更多的视频xy-坐标，在最终目的地和每个网格之间街区中心。rggrid的行表示与网格块的差，根据[xt-xci，yt-yci]计算，其中（xt，yt）表示预测位置，并且（xci，yci）是第i个网格块的中心。网格回归可以用类似的方法计算在训练期间，只有正确的网格块接收用于回归的梯度。最近的工作[21]也结合了位置预测的网格我们的模型的不同之处在于，我们将网格位置与场景语义联系起来，并一起使用分类层和回归层来进行更强大的预测。活动标签预测。给定编码的视觉观察序列，活动标签预测模块预处理。，cls（rg，rg5731和注释。它包括来自12个场景的455个30 fps的视频，超过 12 小时的录制。大多数视频具有1920x1080的高分辨率。我们使用官方训练集进行训练，使用官方验证集进行测试。在[1，7，26]之后，模型观察每个人的3.2秒（8帧）并预测未来4.8秒（12帧）的人的轨迹。我们将视频采样到2.5fps，并使用[7]中发布的代码提取人的轨迹由于我们没有单应矩阵，我们使用轨迹坐标的像素值，如[33]中所做的那样。评估指标。根据先前的工作[1，7，26]，我们使用两个误差度量进行人的轨迹预测：5732我方法AdeFDE移动ADE移动FDE单个模型线性32.1960.9242.8280.18LSTM23.9844.9730.5556.25社会LSTM23.1044.2728.5953.75SGAN-PV30.5160.9037.6573.01SGAN-V30.4862.1735.4168.77我们17.9937.2420.3442.54我们的吵闹34.3257.0440.3366.7320输出SGAN-PV-2023.1141.8129.8053.04SGAN-V-2021.1638.0526.9747.57我们的-2016.0032.9917.9737.28表1.与ActEV/VIRAT验证集的基线方法比较。Top使用单个模型输出。底部使用20个输出。数字表示错误，因此越低越好。i) 平均位移误差（ADE）：在所有时刻上地面实况坐标与预测坐标之间的平均欧几里得距离，ΣN Tpr从人物边界框中识别特征。场景语义分割特征被调整大小为（64，36），场景卷积层被设置为具有3的内核大小、2的步幅和64的通道维度。我们将所有视频的大小调整为1920x1080，并使用两种网格比例，32x18和16x9。激活函数是tanh，如果没有其他说明，我们不使用任何归一化。对于训练，我们使用Adadelta优化器[35]，初始学习率为0.1，dropout值为0.3。我们使用10的梯度剪裁和0.0001的权重衰减。对于Social LSTM，邻居被设置为256像素，如[33]所示。所有基线都使用与我们的模型相同的嵌入大小和隐藏大小我们用于基线的其他超参数遵循[7]中的参数。主要结果。表1列出了测试误差，其中顶部是单个模型输出的误差，底部是ADE=i=1t=1t t2NTpred（八）显示了20个模型输出的最佳结果。“ADE”和“FDE”列总结了ii) 最终位移误差（FDE）：欧几里德距离在最终预测时刻Tpred处的预测点与地面实况点之间，最后两列进一步详细说明了子集一系列的活动（“走”，“跑”，和“骑自行车”）。我们报告的平均性能20运行我们的单一FDE=ΣNi=1i T预测值NT预测值2002（九）模型在第七排。“ADE”指标的标准差0.043. 完整的数字可以在补充材料中找到误差在ActEV/VIRAT上以像素空间测量，而在ETH和UCY上以仪表测量。对于未来的活动预测，我们使用平均精度（mAP）。基线方法。我们将我们的方法与两个简单的基线和两个最近的方法进行比较：线性是一个单层模型，它使用基于前一个输入点的线性回归来预测下一个坐标LSTM是一个简单的LSTM编码器-解码器模型，仅具有坐标输入。社会LSTM[1]：我们训练社会LSTM模型直接预测轨迹坐标，而不是高斯参数。SGAN[7]：我们使用Social-GAN[7]（https://github.com/agrimgupta92/sgan/）发布的代码训练了论文中详细描述的两个模型变体（PV V）。除了在测试时使用单个模型外，Gupta等人。[7]还使用了每帧20个模型输出，并选择最佳预测来计算最终性能。在实践中，我们使用随机初始化训练了20个相同的模型实施详情。我们将LSTM单元用于编码器和解码器。嵌入大小de被设置为128，并且编码器和解码器的隐藏大小d都是256。在观察期间（从时间1到Tobs）使用人和物体的地面实况边界框。对于人物关键点特征，我们利用[6]中的预训练姿态估计器为每个地面真实人物框提取17个关节对于人的外观特征，我们利用预训练的对象检测模型FPN [18]来提取ap。正如我们所看到的，我们的方法与其他方法相比表现良好方法，特别是在预测运动活动的轨迹。例如，我们的模型在“移动FDE”指标方面比Social- LSTM和Social-GAN高出10个点。结果表明，该模型的有效性和其国家的最先进的性能对未来的轨迹预测。此外，作为走向现实世界应用的一步，我们用对象检测和跟踪的噪声输出训练我们的为了评估，遵循跟踪中的常见实践[30]，对于每个轨迹，我们假设时间1处的人边界框位置接近地面实况位置，并且我们使用跟踪输入和从时间1到T的其他视觉特征来评估模型预测，如表1定性分析我们可视化并比较我们的模型输出和图中的基线。六、正如我们所看到的，我们的方法为每个人输出了更准确的轨迹，特别是右边的两个人，他们即将加速他们的运动。我们的方法也能够预测大多数活动的正确除了一个（步行与跑步）。我们的模型成功地预测了活动我们进一步提供了我们的模型预测的定性分析。(i)成功案例：在图6（e）和6（f）中，轨迹预测和未来活动预测都是正确的。(ii)不完美案例：在图6（g）中，尽管轨迹预测大部分是正确的，但我们的模型ǁY-Y5733图6.（颜色更好）我们的方法和基线之间的定性比较黄色路径是可观测轨迹绿色路径是预测期间的地面实况轨迹预测显示为蓝色热图。我们的模型还预测了未来的活动，这是显示在文本中，并与人的姿势模板。如表2的前三行所示，两个特征对于轨迹预测都是补充材料中有单独的特征消融。集中注意力的效果。在表2的第四行中，我们用Eq.（5）具有来自所有编码器的最后隐藏状态弹道和表2.多任务性能消融实验。预测该人将打开车门，因为观察到他正朝车的一侧走。(iii)失败案例：在图6（h）中，我们的模型未能捕捉到两个人之间的微妙互动，并预测他们将分道扬镳，而实际上他们将停下来互相交谈。4.2. 烧蚀模型在表2中，我们系统地评估我们的方法，通过一系列烧蚀实验，其中“ADE”和“FDE”表示误差，因此越功效丰富的视觉功能。我们调查的特征贡献的人的行为和人的互动。作为活动预测因此受到伤害。多任务学习的影响。在表2的最后三行中，我们删除了预测活动标签或活动位置或两者的额外任务，以查看多任务学习的影响。结果显示了我们的多任务学习方法的好处。4.3. ETH UCY数据集。ETH [23]和UCY [16]是人轨迹预测基准[1，7，21，26]的常见数据集。与以前的工作相同[1，7，21，26]，我们通过对两个数据集进行平均来报告性能。我们使用与[7]中详述的相同的数据处理方法和设置。此基准测试包括来自五个场景的视频：ETH、HO- TEL、UNIV、ZARA 1和ZARA 2。留一幕方法ADE↓FDE↓行动mAP↑我们的完整模型17.9137.110.192无p行为18.9939.820.139无p相互作用18.8339.350.163无重点关注19.9342.080.144无行为标签丢失19.4841.45-无动作位置丢失19.0739.910.152无多任务20.3742.79-5734方法ETH酒店UNIV *ZARA1ZARA2AVG单个模型线性1.33/2.940.39/0.720.82/1.590.62/1.210.77/1.480.79/1.59LSTM1.09/2.410.86/1.910.61/1.310.41/0.880.52/1.110.70/1.52Alahi等人[1]第一章1.09/2.350.79/1.760.67/1.400.47/1.000.56/1.170.72/1.54我们的单一模式0.88/1.980.36/0.740.62/1.320.42/0.900.34/0.750.52/1.1420输出Gupta等人[7]（五）0.81/1.520.72/1.610.60/1.260.34/0.690.42/0.840.58/1.18Gupta等人[7]（PV）0.87/1.620.67/1.370.76/1.520.35/0.680.42/0.840.61/1.21Sadeghian等人[26日]0.70/1.430.76/1.670.54/1.240.30/0.630.38/0.780.54/1.15我们的-200.73/1.650.30/0.590.60/1.270.38/0.810.31/0.680.46/1.00表3.ETH（第3和4列）和UCY数据集（第5-7列）上不同方法的比较* 我们在UNIV上使用较小的测试集因为1个视频无法下载。使用数据分割，我们在5组数据上评估我们的模型。我们遵循与上一节相同的测试场景和基线。我们还引用了[26]的最新最先进的结果由于1个视频不能下载，我们使用一个较小的测试集为UNIV和一个较小的训练集在所有分裂。其他4个测试子数据集与[7]中相同，因此数量相当。由于没有活动标注，我们在模型中没有使用由于注释只是每个人的一个点，并且每个视频中的人体比例我们不使用任何其他边界框。与基线相比，我们实施详情。我们不使用人物关键点功能。使用最终位置损失和轨迹L2损失。与[26]不同，我们不使用任何数据增强。我们用adadelta优化器训练我们的模型40个epoch。其他超参数与第4.1节相同。结果分析。实验示于表3中。我们的模型在这两个评估中都优于其他方法，我们在ETH上获得了最佳发布的单一模型和ETH UCY基准上的最佳平均性能。如表所示，我们的模型在HOTEL和ZARA2上表现得更好。这两个场景中每个时刻的平均运动分别为0.18和0.22，远低于其他场景：0.389（ZARA 1），0.460（ETH），0.258（UNIV）。回想一下，在训练中使用了留一个场景的数据分割。结果表明，其他方法更有可能过拟合大运动的轨迹，例如。Social-GAN [7]在预测未来轨迹时经常“过冲”。相比之下，我们的方法使用注意力来找到5. 结论本文提出了一种新的神经网络捕捉人类行为和与周围环境交互的视觉特征。然后，我们增加了一个辅助任务，预测活动的位置，以促进联合培训过程。我们将生成的模型称为Next。我们展示了我们的模型在流行的和最近的大规模视频基准上对人轨迹预测的有效性此外，我们定量和定性地证明，我们的Next模型成功地预测了有意义的未来活动。我们的研究目标是在机器人或自动驾驶等我们在公共基准ActEV上进行了实验，其主要驱动程序是通过流媒体视频2中的自动活动检测来支持公共安全和交通监控和管理。我们的方法适用于NIST提供的一组预定义的29个活动，如见补充材料的完整列表。我们的系统可能无法超出这些预定义的活动。未来对活动和路径预测的研究可能会涉及隐私、安全和公平方面的伦理问题，在用于现实世界的应用之前应该仔细考虑。我们预测轨迹和活动的方法尚未在不同人群中进行测试。因此，重要的是要进一步评估这些问题，然后才采用该模型的情况下，可能会有不同的影响人。鸣谢这项工作得到了财政援助奖60NANB17D156的部分支持，美国商务部、国家标准与技术研究所（NIST）。这项工作也得到了情报高级研究计划活动（IARPA）通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC00340的支持。的美国政府被授权为政府目的复制和分发重印本，尽管此处有任何版权注释。免责声明：本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，NIST，DOI/IBC或美国的政策或认可，无论是明示还是政府的预测人类轨迹和未来活动的模型同步我们首先通过rich vi-2对人进行编码https://actev.nist.gov/1B-Evaluation5735引用[1] A. Alahi，K. Goel，V. Ramanathan，A. 罗比奎特L. Fei-Fei和S. Savarese社会lstm：拥挤空间中的人体轨迹预测。在CVPR，2016年。一二三四五六七八[2] M. S. Aliakbarian，F. Saleh，M.萨尔茨曼湾费南多湖Petersson和L.安德森鼓励地方标准化培训机制尽早采取行动。2017. 2[3] G. Awad，A.Butt，K.Curtis，J.Fiscus，A.Godil，A.F. Smeaton，Y. Graham，W.克拉艾湾Qunot，J.Magal-haes，D. Semedo和S. Blasi Trecvid 2018：基准视频活动检测，视频字幕和匹配，视频故事链接和视频搜索.在TRECVID，2018年。二、五[4] L- C. Chen，Y. Zhu，G.帕潘德里欧F. Schroff和H. Adam. 编码器-解码器与atrous可分离卷积的语义图像分割。在ECCV，2018。3[5] W. Choi和S. Savarese 从视频中了解人们的集体活动。 IEEE transactions on pattern analysis andmachine intelligence ， 36 （ 6 ）： 1242-1257 ，2014。2[6] H.- S. Fang，S.谢玉W. Tai和C.陆RMPE：区域多人姿态估计。InICCV，2017. 三、六[7] A. Gupta，J. Johnson，S.萨瓦雷斯，李飞飞，A.阿拉希Social gan：社交上可接受的生成对抗网络轨迹。在CVPR，2018年。一二三四五六七八[8] K. 他，G. Gkioxari，P. Dol la'r和R. 娘娘腔。面具R-CNN。InICCV，2017. 3[9] H. Hu，J. Gu，Z. Zhang，J. Dai，and Y.伟.用于对象检测的关系网络。在CVPR，2018年。4[10] A. 贾恩，H。S. 科普拉湾Raghavan，S.所以，A.萨克塞纳汽车知道在你做之前：通过学习时间驾驶模型预测机动。CVPR，2015。2[11] A.贾恩A. R. Zamir，S. Savarese和A. 萨克斯那。结构-rnn：时空图的深度学习。在IEEE计算机视觉和模式识别会议论文集，第5308-5317页，2016年。2[12] N. Jaipuria，G. Habibi和J. P如何一种适用于不同几何形状交叉口的可迁移行人运动预测模型。arXiv预印本arXiv：1806.09444，2018。2[13] K. M. 喜谷 B. D. 齐巴特， J. A. Bagnell和M.赫伯特活动预测。ECCV，2012年。一、二、三[14] J. F. P. Kooij，N. Schneider，F. Flohr和D. M.加夫里拉基于上下文的行人路径预测。2014年，在ECCV。2[15] H. S. Koppula和A.萨克塞纳使用对象启示预测人类活动，用于反应性机器人响应。 IEEEtransactionsonpatternanalysisandmachineintelligence，38（1）：14-29，2016。2[16] A. Lerner，Y.Chrysanthou和D.Lischinski 群众的榜样。计算机图形论坛，第 655-664 页。 WileyOnline Library，2007. 二、五、七[17] J. 梁湖，加-地江湖，澳-地曹湖J. Li和A.豪普特曼视觉问题回答的视觉-文本焦点注意。在CVPR，2018年。三、四[18] T.- Y. Lin，P. 多尔河B. 格希克角他，B. Hariha-ran和S. J·贝隆吉用于对象检测的特征金字塔网络。在CVPR，2017年。6[19] M. Luber，J. A. Stork，G. D. Tipaldi和K. O. 阿拉斯人们跟踪人类运动预测来自社会力量。InICRA，2010. 1[20] S.马湖，加-地Sigal和S. Scaroff用于活动检测和早期检测的lstms中的学习活动进展。在CVPR，2016年。2[21] H. Manh和G.阿拉班德Scene-lstm：一个人体轨迹预测模型。 arXiv 预印本 arXiv ： 1808.04018 ，2018。二三五七[22] S.哦，A。Hoogs，A. Perera，N.坎图尔角C. 陈先生，J. T. 李，S。穆克吉阿加瓦尔利湖，澳-地Davis等人监控视频事件识别的大规模基准数据集CVPR，2011。二、五[23] S. Pellegrini、A. Ess和L.范古尔通过对行人轨迹和分组进行联合建模，提高数据关联性。ECCV，2012年。二、五、七[24] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域投影网络进行实时目标检测。2015年，在NIPS中。5[25] A. Sadeghian、A. Alahi和S. Savarese追踪无法追踪的对象：学习跟踪具有长期依赖性的多个线索。在IEEE计算机视觉国际会议论文集，第300-311页，2017年。2[26] A. Sadeghian ， V. Kosaraju ， A. Sadeghian ， N.Hirose和S. Savarese苏菲：一个专注的家伙，预测符合社会和物理约束的路径arXiv预印本arXiv：1806.01482，2018。二三五七八[27] T. Shu，S. Todorovic和S.- C.竹Cern：用于群体活动识别的信心-能量循环网络。在IEEE计算机视觉和模式识别会议上，第2卷，2017年。25736[28] T. 舒、D. 谢先生，B. 罗斯洛克S. 托多罗维奇，以及S. 春竹。航空视频中群体、事件和人的角色的联合推断在Proceedings of the IEEE5737计算机视觉和图案识别会议，第4576-4584

下载后可阅读完整内容，剩余1页未读，立即下载