内向：通过条件3D注意力预测人类轨迹

24 浏览量更新于2024-01-22 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

116815Introvert：通过条件3D注意力东北大学shafiee. northeastern.edu东北大学t. northeastern.eduEhsan Elhamifar东北大学e. northeastern.edu摘要预测人类轨迹是诸如社交机器人和自动驾驶汽车等自主移动平台人类的轨迹受到环境的物理特征和与其他人的社会互动尽管近年来对人的路径预测的研究越来越多，但大多数研究都集中在静态的场景信息上，无法充分利用场景丰富的动态视觉信息在这项工作中，我们提出了内向，预测人类路径的模型，根据他/她观察到的轨迹和动态场景上下文，通过有条件的3D视觉注意力机制工作的输入视频捕获。内倾推理通过观察动态场景而不是与其他人交流来此外，为了专注于每个人的相关交互和约束，Introvert将其3D注意力模型设置在目标人的观察轨迹上，以提取并专注于相关的时空基元。我们在五个公开数据集上的实验表明，内向型改善了现有技术的预测误差。1. 介绍预测人类在动态环境（如街道、机场、购物中心和运动场）中的未来轨迹是计算机视觉的一项重要任务，应用于自动驾驶、人机交互、城市安全和广告等[50，11，48，21，15]。然而，预测人的运动是一个非常困难的问题，这是由于身体、社会和心理因素共同影响人们特别是，当我们在一个环境中移动时，我们会避开物理限制和障碍，遵循地标，给附近的人让路，遵循社会规范，并根据环境的变化改变我们的轨迹。近年来，这激发了大量的工作，这些工作旨在对人类轨迹预测的各种影响因素进行建模和合并[1，39，23，3，13]。以前的工作和挑战。早期作品[14，9，10，24、25、30、36、4、49、46、51、42、53]的设计能量功能来模拟人与人之间的互动，也称为尽管它们相对成功，但这些方法需要仔细的特征和能量函数设计，这通常只能捕获简单的相互作用，而不能在拥挤的环境中捕获复杂的相互作用为了减轻这些限制，最近的方法通过利用深度神经网络的进步提出特别是，基于递归神经网络（RNN）的序列预测方法通过RNN对每个人的轨迹进行建模然而，它们不能捕获更远的人对目标轨迹的影响，同时给予附近的人相同的重要性权重。为了克服这些限制，基于注意力的模型已与RNN[39，3]和时空图[41，40，33，20]集成，通过调整邻居对每个目标人的重要性来权衡不同的轨迹。然而，上面讨论的大多数方法仅依赖于运动学数据，其仅包含关于场景中的移动代理的信息。考虑到视频包含关于场景的物理配置和导航约束的丰富信息，一些作品已经尝试将场景的视觉上下文与运动学数据结合使用以进行更有效的预测。这是通过将所有RNN的状态与当前帧的视觉特征连接起来来实现的，例如通过CNN [40，26，41]，这可以通过注意力模型来选择相关特征[39，40]。然而，现有的作品面临着多重挑战.首先，目前的方法提取的视觉信息，往往是共享的和相同的所有人在环境中移动。然而，在实际应用中，每个人第二，通过对一帧进行编码而获得的视觉特征，116816时间不能捕获复杂的交互和社会规范，这就是为什么现有方法需要通过对运动学数据进行操作的RNN的池化状态来并入社会交互。更重要的是，从计算的角度来看，在推理时间期间，首先需要对场景中的所有人运行人类检测和跟踪算法，然后使用最近邻图或注意力，以便能够预测目标人的轨迹这使得现有的方法无法在推理时实时运行，特别是在有许多人但只有一个或几个感兴趣目标的拥挤环境中。纸质捐款。在本文中，我们开发了一个有效的框架，用于人类轨迹预测使用条件三维视觉注意力机制，它解决了上述挑战。我们认为，视频本身（而不是一个单独的帧）包含所有必要的信息，关于运动和人类的互动以及动态约束，例如，移动车辆和静态约束，例如，建筑物和人行道，环境。这可以从运动学轨迹是从视频中提取的事实看出，因此，不能包含比视频本身更多的信息。因此，不是通过连接场景中的人类轨迹的附近或所有重现模型来对人与人的交互进行建模，而是利用视频来提取3D视觉交互信息（2个空间维度和1个时间维度）。这消除了对场景中的每个人运行检测和跟踪算法的需要，因此增加了测试时的效率，其中仅需要目标人的视频和跟踪。我们开发了一个序列到序列的方法，包括两个并行的编码流，收集3D视觉和运动学相关的目标人的信息，和一个解码流，预测未来的轨迹的目标人。为了关注每个人的相关社会互动和物理约束，我们的视觉编码器使用了一个有条件的3D注意力机制，该机制接收输入视频并调节目标人的观察轨迹，提取时空基元并学会关注最具信息性的基元。这些前向基元可以是例如，人行道的一部分、很少的车辆、远处的地标以及场景中附近或远处的人。通过对UCY [27]和ETH的实验，[35]数据集，我们表明，我们的方法显着提高了最先进的性能，降低了5个数据集的平均预测误差从0.41到0.34。2. 相关作品现有的人体轨迹预测研究主要分为人-空间交互和人-人交互两大类。虽然第一组侧重于学习环境的物理特征第二组研究人类对彼此路径的影响。人文空间互动物理场景信息，如人行横道和道路，已被利用，以广告-完成人体轨迹预测的任务。为了推断可行路径，[22]提出利用隐马尔可夫决策过程。另一方面，[26]采用静态场景上下文对基于RNN-CVAE的框架生成的可能的轨迹进行排名和细化。[40]通过双注意机制提取静态场景信息，预测目标行人的未来路径。此外，[39]和[41]通过分别考虑相邻行人和多模态输出配置的影响，分别通过注意GAN和Info-VAE框架提取静态场景信息。我们的工作类似于[40]然而，在我们也使用双重注意力框架的意义上，我们的方法提取静态和动态场景特征，并且它考虑了场景中目标人与其他人的交互。人与人之间的互动。行人行为预测的研究考虑行人之间的相互作用，无论是作为一个群体还是作为一个个体。社会力及其变体[14，32，2，52，38，36]是帮助行人在避免碰撞的同时走向目标的先驱模型。这些方法的主要缺点是使用手工制作的动能和能量势，其不能在拥挤的环境中捕获复杂的相互作用，并且不能利用数据驱动的方法。为了预测人类的未来轨迹，最近的工作使用数据驱动的模型，特别是深度神经网络，来编码轨迹信息和个体之间的交互。这些相互作用已通过池化模块[1，13]或注意力模块[39，3]并入。捕捉社会互动的另一种趋势是使用图形表示，其中节点和边对应于人类及其互动[54，23，12，55，33，20，41]。另一方面，我们的工作重点是通过动态的三维场景信息来捕捉社会互动。使用RNN进行序列预测。递归神经网络在自然语言处理和计算机视觉等领域有着广泛的应用。最近对人体轨迹预测的研究主要采用RNN对运动轨迹信息进行编码和解码[1，56，16，43，45，44，6，31，34、28、29、8、37、17、47、5]。然而，如[13，39]中所观察到的，RNN无法捕获场景中人类之间的时空交互。克服这个问题的一种方法是通过池化或注意力模块来增强RNN，以捕获时空交互。我们的工作通过基于注意力的条件3D视觉编码器利用动态场景特征来解决这个问题[19，18]，该编码器捕获复杂的交互。116817关注OkinvisviskinFt tt条件注意条件注意视觉编码器图1.（A）内向是序列到序列模型，其由i）运动编码器，ii）使用条件3D注意的3D视觉编码器，iii）轨迹解码器组成(B)条件3D注意模块的结构。3. 基于条件3D注意的轨迹预测在本节中，我们开发了一个用于人类轨迹预测的序列到序列框架，该框架利用视频数据直接使用条件3D注意力机制来推断依赖于人类的交互。3.1. 问题设置轨迹预测是在给定人类先前的位置和场景的视觉信息的情况下估计人类在未来的位置的问题假设我们有多个训练视频，每个视频在tf帧中包含几个人类轨迹。类似于先前的工作，我们假设每个训练视频由人体检测和跟踪算法预处理，以获得跨tf个视频帧的每个人的空间坐标（在测试期间，我们的方法仅需要目标人的轨迹我们表示人类p在帧t处由u（p）=（x（p），y（p））2R2. 假设我们观察到-图1.运动学编码器接收观察到的轨迹信息T（p），并产生潜在的运动学轨迹Z（p ），其对物体的信息进行编码。服务的位置。另一方面，视觉编码器接收观察到的帧V（），并为每个人提取条件时空上下文Z（p），其涵盖需要必要的物理约束和社会互动，预测未来轨迹所需的条件。为了提取时空上下文Z（p），我们使用3D双重注意机制，包括i）多个空间注意-学习提取和聚焦于视频的全局描述符（例如人、人行横道、汽车和小巷）的描述符模块; ii）发现帧中每个像素的每个描述符的重要性的描述符关注。考虑到每个人在环境中移动所使用的显著视觉信息与其他人不同，我们将双注意机制置于潜在运动轨迹上，人的历史，Z（p），以捕获人类特定的视觉编码。解码器接收编码信息从运动学和视觉编码器，并解码它们，从第1帧到第0帧，目标是预测帧t0+ 1到tf中的轨迹。对于一个人p，我们表示观察到的序列，未来职位，分别由目标未来轨迹的分布，T（p）。请注意，与以前的作品不同，在我们的框架中，不同人类的运动学编码器不会相互作用。相反，交互是通过视觉流T（p）=（u（p），. ..，u（p）），T（p）=（u（p）），. ..，u（p））。（一）通过对观察到的视频作为整体进行操作，而不是o1tofto+1tf单独处理每个帧，并通过调节我们还通过Vo=（I1，. ..，I to0），其对应于场景的顶视图或角度视图视频帧。3.2. 拟议框架为了解决人体轨迹预测的问题，我们开发了一个新的序列到序列模型使用的编码器-解码器架构。我们的模型由两个并行编码器组成：一个运动编码器和一个视觉编码器，请参见每个人的观察轨迹的视觉编码器。这允许我们的方法固有地捕获相关场景元素的运动学信息，并且具有关注物理约束和可能很远的人的灵活性。接下来，我们详细讨论了我们的框架的每个组件，然后提出了我们的学习和推理策略。为了简化符号，我们从变量中去掉上标p，因为从上下文中可以清楚地看到。CNNCNN矩阵乘积关注模块116818j=1i=1σ我3.3. 每个块Bi中的运动编码器由三个卷积层组成，为了获得合适的轨迹表示，运动学编码器E（·）接收观察到的轨迹{ρj}3，过滤器大小等于1。第一层ρ1细化输入Fi并扩展其通道数kδ到m。第二层，ρ2，学习n个空间注意力模型，作为形式To的输入 =（u1，u2-u1，u3-u2，. . . ）的情况下，Z条件规则kin 为了构建n个全局视觉基元，其由开始位置的坐标和人在连续帧之间的相对位移组成我们选择这种格式，因为它使模型每个都是m号的最后，ρ3对应于关于在每个帧处的每个像素的全局描述符的使用的关注向量我们可以这样写，为了更好地捕捉几乎相同的跨F0=ρ（F）g（F|Z>。Σ可能有不同的起点。我们-i1ii kin，u1）σ ρ3（Fi），（2）使用全连接网络Φ形成每个输入向量，并将其传递给递归网络（LSTM），以捕获观察到的不同坐标之间的依赖关系。σ表示softmax运算，g（Fi|Zkin，u1）对以运动信息为条件的全局视频描述符进行注释. 我们用后面的第二个ρ2构建g，弹道我们用Zkin表示LSTM单元的输出序列，它捕获了潜在的运动轨迹。.Σg（Fi| Z（kin，u1）= σρ2（Fi）σ（µ（[Zkin，u1]）），（3）3.4. 条件3D视觉编码器如前所述，所观察到的视频Vo包含-其中μ是全连接层，μ表示阿达玛（条目式）产品之间的输出µ和由ρ2生成的n个全局注意力图中的每个。我们建立条件视觉特征向量，Z通过传递F0，关于场景中所有人类的身体和社会约束的形成。因此，我们使用视觉编码器Ev（·）来为场景中的每个人提取定制的视觉信息，我们用Zvis表示。我们的编码器由三个连续的条件视觉特征提取和3其是最后一个块的输出，到全连接层。我们将在解码器模块中使用Zvis来预测目标人的未来轨迹。3.5. 轨迹解码器注意事项块{Bi}3学会越来越在对图像的运动学和视觉信息进行编码后，复杂和高层次的特征。每个块Bi是com-3D CNN层（由Θi表示）的姿态，随后是我们将聚变张量Z金Z金 × Zvis到条件双重注意网络（用WDAI表示）。虽然每个3DCNN从视频中提取时空信息，但条件双注意力网络通过使用他/她的潜在运动轨迹信息来关注视频中与每个人相关的时空区域你好，亲爱的。换句话说，视觉编码器具有3个维度（2个空间维度+1个时间维度，因此，它通过3D CNN处理视频，1ZvisMaxpool层之后是线性层，以从用于解码器的视觉和运动流中捕获信息。接下来，结果作为隐藏向量被馈送到解码器模块中的LSTM。然后，表示未来时刻t >to的每个LSTM单元的输出连接到由两个完全连接的层组成的MLP，其输出位移产生3D关注（2个空间维度+1个时间维度）✓Xδut，ut−ut−1<$N（μ，μt），μt=t◆0，（4）y对于每个视频输入。条件性双重注意网络。令Fi表示第i个视觉特征ex中的3D CNN的输出特征牵引块，Bi.我们采用了[7]中提出的双注意力架构，并对三层3D CNN的运动学条件进行了修改。每个块i中的条件双重注意网络执行两步操作，t0σt两个坐标在哪里被认为是独立的。请注意，预测位移而不是绝对位置，使我们的模型能够更好地解码具有不同起点的相同或我们方法输出轨迹在随机M.颂歌更具体地说，我们对C序列进行采样对Fi进行运算以产生其输出F0。第一步提取δuto+1 ，的。.... . .你好。，δutf从已知的高斯分布，以人的运动信息为条件的全局视频描述符，我们用g（Fi）表示|Zkin，u1）.这些全局描述符将对应于场景ele-例如，与目标人的轨迹相关的行人、地标、障碍物的子集。另一方面，第二步找到这些全局描述符中的每一个116819与每个帧中的每个像素的相关性。更具体地说，条件双重注意网络以获得目标人类的K个合理轨迹，可能会在未来。每个采样轨迹的预测坐标的不确定性来自于特定时间步长及其先前时间步长中的预测的不确定性这些不确定性允许该方法处理人类轨迹的多模态性质，其中存在多个可能的路径。1168203.6. 培训战略我们使用以下损失函数以端到端的方式训练我们的网络，L， LMSE+λL reg（五）其中Lmse表示均方误差，Lreg是预测一致未来轨迹相对于所观察到的。特别地，正则化被定义为以下各项之间的欧几里得距离之和：预测轨迹y的每一步Tf和拟合到观测轨迹To的直线。我们通过第一次采样C未来轨迹来计算Lmsetory，然后选择最接近的前N个轨迹，地面实况，最后计算这N个轨迹和地面实况之间的均方误差的平均值（在实验中，我们设置 C=20 和N=5）。我们根据经验观察到，这种策略可以让我们的网络更快地收敛，同时具有更准确的预测。4. 实验4.1. 实验装置数据集。我们在两个公开可用的UCY [27]和ETH [35]数据集上评估了我们提出的方法。ETH数据集有两个场景，每个场景有750个行人，分为两个集合（ETH和酒店）。UCY数据集也有两个场景，有786个行人，分为三个集合（ZARA 1，ZARA 2和UCY）。这些数据集由来自静态鸟瞰摄像机的视频和行人的运动轨迹组成，并且包含不同类型的行人活动，例如个人和群体行走、交叉、群体形成和分散。我们在所有5组数据上评估我们的方法。评价与现有工程类似[1，3，13，39，41，54]，我们使用以下错误度量：• 平均位移误差（ADE）：在[to+1，t f]上地面实况和预测轨迹之间的平均L2距离。• 最终位移误差（FDE）：在tf时地面实况和预测位置之间的距离。评价方法。我们遵循类似的评价方法，在以前的作品[1，13，39]。我们使用留一法（leave-one- out），在4组数据上进行训练，并在剩余的数据集上进行测试。我们观察每个训练轨迹8个时间步（3.2秒），并测量8个（3.2秒）和12个（4.8秒）时间步的预测误差。基线。我们将我们的方法与几种最先进的方法进行比较。1）Social-LSTM，[1]，它使用两个LSTM进行编码和解码，并使用社会池来捕获表1.我们提出的序列到序列模型的架构细节，它包括一个运动编码器，三维条件视觉编码器和一个轨迹解码器。相邻行人对目标行人轨迹的影响2）Trajectron++[41]，它使用时空图输入来编码基于在他们的第二类{汽车，行人}上使用LSTM。为了下一代-吃预测的轨迹，Trajectron++收集所有的en-从图形数据和视觉信息中编码信息，并使用LSTM对其进行解码。3)STAR [54]，它采用一个时间和一个空间Transformer来学习人群交互。4）社交GAN [13]，它采用生成式对抗网络，并从邻近的行人那里汇集社交信息5)SoPhie [39]，它利用了attentive GAN网络，并使用运动学和静态视觉输入。6）社交方式[3]，其采用info-GAN和注意力池来基于从目标行人和邻居两者捕获信息来生成多模式轨迹。7)PECNET [31]，它首先预测未来轨迹的终点并使用终点生成路径。8）BiGAT [23]，它利用Bicycle-GAN框架和图形表示来建模社交互动。实施细节。表1显示了我们提出的深度架构的细节（K表示内核大小，S表示步幅大小）。每个子模块元素都由ReLU激活功能增强。与其他工作类似，我们使用两个Vanilla LSTM作为编码器，256.第256章我们嵌入每个To和Tf通过两个线性层，然后将其传递到编码器，解码器，分别。此外，解码器的输出被传递到嵌入层，该嵌入层在每个时间步中生成高斯分布的均值和方差。我们使用随机梯度下降优化器以端到端的方式训练整个网络，使用我们在（5）中提出的损失函数，λ=0。五、为了更快地收敛，我们最初将教师力量策略应用于70%的批次，并将百分比线性降低到0%，在训练中。如前所述，在训练期间，我们对输出轨迹进行20次采样（即C=20），运动编码器嵌入2 →643D视觉编码器Θ1Θ2Θ12001年、2002年、2003年3（线性）ρ1，ρ2 ， ρ3µ（线性）K=[3，3，3]，S=[3，3，3]2×K=[3，3，3]，S=[1，3，3]K=[3，3，3]，S=[1，3，3]m=16，n= 81563 →256K=[1，1，1]，S=[1，1，1]258→16 → 16116821ADE/FDEtf−to大学Zara 1Zara 2酒店ETHAVG社交LSTM*120.67/1.400.47/1.000.56/1.170.79/1.761.09/2.350.72/1.54社交GAN120.60/1.260.34/0.690.42/0.840.72/1.610.81/1.520.58/1.18苏菲120.54/1.240.30/0.630.38/0.780.76/1.670.70/1.430.54/1.15BiGAT120.55/1.320.30/0.620.36/0.750.49/1.010.69/1.290.48/1.00社交方式120.55/1.310.44/0.640.51/0.920.39/0.660.39/0.640.46/0.83PECNet120.35/0.600.22/0.390.17/0.300.18/0.240.54/0.870.29/0.48明星120.31/0.620.26/0.550.22/0.460.17/0.360.36/0.650.26/0.53轨迹++120.22/0.430.17/0.320.12/0.250.12/0.190.43/0.860.21/0.41内向（我们的）120.20/0.320.16/0.270.16/0.250.11/0.170.42/0.700.21/0.34社交LSTM*80.41/0.840.27/0.560.33/0.700.49/1.010.73/1.480.45/0.91社交GAN80.36/0.750.21/0.420.27/0.540.48/0.950.61/1.220.39/0.78内向（我们的）80.16/0.240.12/0.190.14/0.190.09/0.120.32/0.490.17/0.25表2.所有数据集上所有方法的平均/最终位移误差（ADE/FDE）带 * 的模型具有确定性输出。随机模型对20个轨迹进行采样，并报告最佳结果。所有模型都接收到to = 8个观测时间步长，并预测tf−to= 12/8个未来时间步长的位置。使用具有最低损失值的5个样本来训练模型。我们提出的模型在运行Ubuntu 18的服务器上用Pytorch实现。04采用英特尔至强金牌CPU和四个NVIDIA QuadroRTX6000 GPU。与现有的所有工作类似，我们使用留一策略进行训练测试和训练我们的模型超过200个时期。4.2. 实验结果✓定量分析表2示出了在所有五个数据集上对于tf-to2 {8，12}两者的不同方法的平均FDE和ADE结果从结果中，我们得出以下结论：– 在FDE指标上，我们的方法显着提高了最先进的水平，在5个数据集中有4个数据集的性能特别是，我们的方法实现了0.34所有数据集的FDE平均误差，与0.41 第二个最好的方法（Trajectron++）。正如预期的那样，由于更高的不确定性和更剧烈的轨迹变化，提前12个时间步的误差总是大于8个时间步的预测。– 在ADE度量上，我们的方法在5个数据集中的3个上优于现有的算法，并且与Trajectron++类似，在数据集上实现了0.21的最低平均ADE误差。请注意，ADE通常是比FDE更容易的指标，因为近期预测通常接近于t0的位置。– 请注意，大多数方法，包括我们的方法，在大学和ETH数据集上都有较大的大学上的较大误差是由于数据集中的人群密度高于其他数据集。换句话说，由于它涉及更多的人与人之间的互动，它会导致对未来轨迹的更准确的预测。此外，人群的高密度迫使目标行人在不同的选项之间进行选择，例如超车或跟随其他行人，使预测更加不确定。然而，请注意，我们的方法实现了最低的FDE（ 0.32 ，而 Trajectron++ 为 0.43 ）和 ADE （ 0.20 ，而Trajectron++为0.22），这表明内向在捕捉未来轨迹的多模态性质方面是有效的。此外，ETH上的较大误差是由于与其他数据集相比，视频帧和运动学数据的频率较低。考虑到轨迹将持续更长的时间段，并且模型需要预测更远的未来，ETH的性能通常低于其他数据集。– 在酒店数据集中，有大量的行人正在等待火车，运动有限。因此，大多数方法，包括我们的方法，由于成功地预测了行人的我们的方法还在该数据集上获得了最低的– 事实上，对于大多数数据集，我们的方法获得了最低的位移误差，显示了我们提出的框架在使用我们的3D条件视觉编码器捕获人与人之间的相互作用，而不使用场景中相邻行人的运动学数据的有效性快速推理我们的方法比现有的作品的一个优点是在推理（实时）计算效率。这是因为通过直接使用视觉信息，我们不需要对场景中的所有人运行人类检测和跟踪算法，然后使用最近邻图或注意力连接RNN，这是昂贵的。为了更好地证明这一点，表3显示了SocialWays，Social GAN和我们的方法（Introvert）在数据集上的平均推理时间，其中我们的方法实现了0.12秒的推理时间，而0.42 秒0.82秒被人116822University Zara 1 Zara 2 ETH酒店大学Zara 1，2图2.用我们的方法进行轨迹预测的定性例子黄色、红色和绿色点分别对应于观测、对于每列中的每个数据集，我们在两行中显示两个行人的轨迹。前5列(A)展示了我们的方法成功预测的例子，而最后两列（B）显示了不准确的预测。方法社交方式社交GAN内向（我们的）时间0.817s0.419s0.120s表3.推理时间的比较。✓定性分析图2显示了我们的方法对来自UCY和ETH数据集的几个视频进行轨迹预测的定性结果。每列中的两个图显示同一数据集中的两个不同行人（两个步行场景）。在所有情况下，我们显示第一个观察帧，用黄色点表示观察到的轨迹，用绿色和红色分别表示地面实况和我们的方法的预测。图2的A部分显示了来自5个数据集的10个不同的成功例如，来自大学的顶部示例演示了人与人交互的场景，其中目标行人在到达一群站立的人之前减速，从左侧绕过他们，然后加速。请注意，在如此拥挤的场景中，我们的方法能够很好地捕捉交互并预测未来的位置。此外，Zara 1中的底部示例展示了捕获人与空间交互的成功示例，其中我们的模型准确地预测目标行人将通过场景左侧的商店门。此外，对于酒店中的顶部示例，我们的方法正确地预测了进入场景的目标人类将避开树并向左转。也有一些情况下，我们的模型无法准确预测未来的位置图2的B部分显示了此类故障的四个示例。这些场景的共同特点是目标人的轨迹请注意，即使在这些情况下，我们的模型也能够捕捉目标行人行为的一些一般特性，例如步行的方向。116823方向和速度，但它不能提供对未来位置的准确预测。虽然预测的轨迹并不完全匹配的地面真相，我们的方法提供了一个可行的轨迹，避免了场景中的移动和静止的障碍物。我们认为，这种不一致性源于未来人行道的多样性和多模式性，是进一步调查的途径。图3 显示了对 Introvert （我们的），Social Ways[3]，STAR [54]和SRLSTM [56]的定性分析，表明我们的方法可以更准确地预测未来的轨迹。内向明星SRLSTM社交方式地面实况观察图3.我们的方法（内倾）和其他算法之间的轨迹预测比较。条件注意的可视化。接下来，我们证明了我们的条件时空注意力模型的有效性，成功地预测了目标行人的未来轨迹图4显示了条件注意力的可视化，其中对于每个模块（102和103），我们首先计算双注意力矩阵的元素乘积，然后在n个空间注意力图上对它们进行平均，并绘制结果。该图包括来自三个不同数据集的三个示例视频（对应于图中的三行）对于一行中的每个样本视频，我们示出两个行人（行人1：对应于前三列，行人2：对应于后三列）同时行走，因此他们共享相同的视频输入。我们在第一列中绘制了原始框架和我们的预测，而由2012和2013模块产生的注意力分别显示在第二列和第三列中。如图4所示，每个条件注意模块116824行人1注意1注意2行人2注意1注意2图4.第一个观察帧的条件时空注意力模块（注意力1 = 102，注意力2 = 103）的可视化。每行对应于来自不同数据集的不同视频。在每一行中，对于同时移动的两个不同的行人（前三列为行人1，后三列为行人2），我们在第一列中显示了观察/地面实况/预测轨迹，并在第二列和第三列中分别显示了第一和第二条件注意力的输出。捕捉不同层次的视觉抽象。注意力1（对应于注意力2）关注行人和物体，而注意力2（对应于注意力3）关注场景中更远的视觉基元，诸如目标行人前方的位置、远处的建筑物和汽车。还请注意，由于我们的条件模型，同一场景中不同行人的注意力地图是完全不同的。例如，在视频3中，对于从左向右移动的第一个行人，注意力2聚焦于目标行人前方的汽车和远处的人。另一方面，对于从右向左移动的第二个行人，注意力2集中在目标人前面的建筑物和人上✓不同成分注意力地图的数量如前所述，条件注意力模块，MITi，具有双重注意力机制，具有n个空间注意力映射和用于每个注意力映射的m个图5（左）显示了对于固定的m=8，空间注意力的数量n2 {2，4，8，16}。请注意，我们的方法对不同的n值执行鲁棒性。正则化参数我们在（5）中的损失函数由均方损失和正则化项Lreg组成，L reg控制未来轨迹与观测轨迹相比的平滑度。图图5（右）示出了正则化参数λ2 {0，0. 25，0。50，0。75，1}关于ADE性能。我们的模型对于λ 2 { 0}获得了较低的误差。五，零。75.第75章和λ的值越大，λ的值通常越小。这来自于这样一个事实，即更大的正则化可以防止图5.左图：空间注意力地图的数量（n）对表现的影响。右：正则化参数（λ）的影响。模型从捕捉目标行人的轨迹的突然变化（我们使用λ=0.（5）主要实验。5. 结论我们提出了一种基于条件三维视觉注意机制的行人轨迹预测方法--Introvert。我们发现，内向者通过为每个行人产生独特的时空注意力来正如我们所讨论的，我们的计算成本是独立的人群密度，利用生成灵活的但固定大小的视觉图元和他们的紧张局势。我们还在UCY和ETH数据集的ADE和FDE指标上对Introvert的性能进行了基准测试，表明它提高了最先进的性能。确认这项工作得到了 DARPA Young Fac-Eye Award（D18 AP 00050）、ONR（N 000141812132）和ARO（W 911 NF 1810300）的部分支持视频3视频2视频1116825引用[1] Alexandre Alahi，Kratarth Goel，Vignesh Ramanathan，Alexandre Robicquet，Li Fei-Fei，and Silvio Savarese.社会lstm：人类轨迹预测在拥挤的空间。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。一、二、五[2] Alexandre Alahi，Vignesh Ramanathan，and Li Fei-Fei.具有社会意识的大规模人群预测。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition中，第2203-2210页，2014年。2[3] J av adAmirian，Jean-BernardHayet，andJulienPett re'. 社会的方式：学习多模态分布的行人轨迹与gans。在IEEE计算机视觉和模式识别工作室会议论文集，第0-0页，2019年。一、二、五、七[4] 吉安卢卡·安东尼尼，米歇尔·比尔莱尔和马茨·韦伯。行人步行行为的离散选择模型。运输研究B部分：方法学，40（8）：6671[5] Huikun Bi，Zhong Fang，Tianlu Mao，Zhaoqi Wang，and Zhigang Deng.车辆行人混合场景中运动轨迹的联合预测。在IEEE计算机视觉国际会议论文集，第10383-10392页，2019年。2[6] Huikun Bi，Ruisi Zhang，Tianlu Mao，Zhigang Deng，and Zhaoqi Wang.我怎么能看到我的未来？fvtraj：使用第一人称视角进行行人轨迹预测。2[7] Yunpeng Chen ， Yannis Kalantidis ， Jianshu Li ，Shuicheng Yan，and Jiashi Feng. A-2-nets：双重注意力网络。神经信息处理系统的进展，第352-361页，2018年4[8] Chiho Choi和Behzad Dariush。展望未来的轨迹预测关系。在IEEE国际计算机视觉会议集，第921-930页，2019年2[9] 崔元君和西尔维奥·萨瓦雷塞多目标跟踪和集体活动识别的统一框架欧洲计算机视觉会议，第215Springer，2012. 1[10] 崔元君和西尔维奥·萨瓦雷塞从视频中了解人们的集体活动。IEEE transactions on pattern analysis and machineintelligence，36（6）：12421[11] Alex G Cunningham，Enric Galceran，Dhanvin Mehta，Gon- zalo Ferrer ， Ryan M Eustice 和 Edwin Olson 。MPDM：从自动驾驶到社交机器人导航的多策略决策。高级驾驶员辅助系统和自动驾驶功能的控制策略，第201-223页。施普林格，2019年。1[12] Stuart Eiffert ， Kunming Li ， Mao Shan ， StewartWorrall，Salah Sukkarieh，and Eduardo Nebot. Probablycrowd gan ： Multimodal pedestrian trajectory predictionusing a graph vehicle-pedestrian attention network. IEEERobotics and Automation Letters，5（4）：5026-5033，2020。2[13] 阿格里姆·古普塔，贾斯汀·约翰逊，李飞飞，西尔维奥·萨瓦雷斯，亚历山大·阿拉希。社会性伙伴：社会上可接受的具有生成对抗网络的投射。进行中-IEEE计算机视觉和模式识别会议，第2255-2264页，2018年。一、二、五[14] 德克·赫尔宾和彼得·莫尔纳。行人动力学的社会力模型。Physical review E，51（5）：4282，1995. 一、二[15] 广濑纪明，阿米尔·萨代吉安，帕特里克·格贝尔，西尔维奥·萨瓦雷塞.去还是不去？机器人导航的近无监督学习方法。arXiv预印本arXiv：1709.05439，2017。1[16] 岳虎，陈四恒，张雅，顾晓。通过神经运动消息传递的协作运动预测。在IEEE/CVF计算机视觉和模式识别会议论文集，第6319-6328页，2020年。2[17] Yingfan Huang，Huikun Bi，Zhaoxin Li，Tianlu Mao，and Zhaoqi Wang. Stgat：为人类轨迹预测建模时空交互。在IEEE计算机视觉国际会议论文集，第6272- 6281页，2019年。2[18] D. Huynh和E.埃尔哈米法通过密集的基于属性的注意力的细粒度广义零射击学习。IEEE计算机视觉和模式识别会议，2020年。2[19] D. Huynh和E.埃尔哈米法一种用于多标签零激发学习的共享多注意框架IEEE计算机视觉和模式识别会议，2020年。2[20] 鲍里斯·伊万诺维奇和马可·帕沃内。The ProbabilisticMulti-AgentTrajectoryModelingwithDynamicSpatiotemporalGraphs（ProbabilisticMulti-AgentTrajectoryModelingwithDynamicSpatiotemporalGraphs）在IEEE国际计算机视觉会议论文集，第2375-2384页，2019年。一、二[21] Vasiliy Karasev ， Alper Ayvaci ， Bernd Heisele ， andStefano Soatto.行人运动的意图感知长期预测。2016年IEEE机器人与自动化国际会议（ICRA），第2543-2549页。IEEE，2016年。1[22] Kris M Kitani，Brian D Ziebart，James Andrew Bagnell和Martial Hebert。活动预测。在欧洲计算机视觉会议上，第201-214页。Springer，2012. 2[23] Vineet Kavaju，Amir Sadeghian，Roberto Mart 'ın-Mart'ın，Ian Reid，Hamid Rezatoi和Silvio Savarese。Social-bigat：Multimodal trajectory forecasting using bicycle-ganand graph attention networks. 神经信息处理系统的进展，第137-146页，2019年。一、二、五[24] LauraLeal-Taixe' ， MicheleFenzi ， AlinaKuznetsova ，BodoRosenhahn和Silvio Savarese。学习基于图像的多人跟踪运动上下文。在Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition中，第3542-3549页，2014年。1[25] LauraLeal

下载后可阅读完整内容，剩余1页未读，立即下载