人类轨迹预测问题的多模态表达方法

44 浏览量更新于2023-10-14 收藏 19.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

152330从目标、航点和路径到长期人类轨迹预测0Karttikeya Mangalam †� Yang An §� Harshayu Girase † Jitendra Malik †0† 加州大学伯克利分校 § 慕尼黑工业大学0图1：我们解决长期人类轨迹预测问题。给定一个场景上一个代理（蓝色）在过去五秒内的运动，我们的目标是预测未来一分钟内的多模态运动。为了实现这一目标，我们将整体多模态性分解为其认知因素和随机因素。认知因素通过对长期目标的估计分布进行建模，而随机因素则通过对中间航点和轨迹的分布进行建模，每个目标分别进行。这个过程对于场景合规的多模态人类轨迹预测进行了多个目标和航点的重复。每种颜色表示不同采样目标的预测轨迹。0摘要0人类轨迹预测是一个固有的多模态问题。未来轨迹的不确定性源于两个来源：（a）已知于代理但对模型未知的来源，如长期目标；（b）对代理和模型都未知的来源，如其他代理的意图和决策中不可避免的随机性。我们提出将这种不确定性分解为其认知和随机的来源。我们通过长期目标的多模态性来建模认知不确定性，通过航点和路径的多模态性来建模随机不确定性。为了说明这种二分法，我们还提出了一种新的长期轨迹预测设置，预测时间范围长达一分钟，比之前的工作长一个数量级。最后，我们提出了一种场景合规的轨迹预测网络Y-net，利用所提出的认知和随机结构进行长时间预测范围内的多样轨迹预测。Y-net在斯坦福无人机（FDE为31.7%）和ETH/UCY数据集（FDE为7.4%）以及重新设计的斯坦福无人机和交叉口无人机数据集上显著改进了先前的最先进性能。01. 引言0序列预测是几个工程学科的基本问题，如信号处理、模式识别、控制工程以及几乎任何涉及时间测量的领域。从马尔可夫（A. A.Markov）在预测诗歌《叶甫盖尼∙奥涅金》中下一个音节的马尔可夫链的开创性工作[29]，到现代的自回归后代如GPT-3[6]，在序列中预测下一个元素具有悠久的历史。时间序列预测是序列预测问题的一个关键实例，其中序列由按时间采样的元素组成。几种经典技术，如自回归移动平均模型（ARMA）[43]，已经被纳入深度学习架构[41,16]中，成为现代最先进的时间序列预测方法[37]。然而，人类不是无生命的牛顿实体，不受预定的物理定律和力的奴役。预测台球在充满摩擦和物理约束的台球桌上平稳滚动的未来运动与预测人类运动和位置的未来运动是不同性质的问题。0� 表示相等的贡献。152340人类是以目标为条件的代理，与球不同，人类通过行动来实现预期的结果[40]。预测人类运动对于其他人类、自主机器人[3]和自动驾驶车辆[39]等动态代理至关重要。人类运动本质上是目标导向的，并由代理通过行动来实现预期的效果。然而，即使在代理的过去运动和总体长期目标的条件下，未来轨迹是否确定呢？想象一下自己站在繁忙街道的十字路口，等待行人信号灯变绿。虽然你打算过马路，但确切的未来轨迹仍然是随机的，因为你可能会避开其他行人、加快步伐如果信号灯即将变红，或者突然停下来如果有一个骑车人闯过。因此，即使在过去观察到的运动和场景语义的条件下，未来人类运动本质上是随机的[14]，这是由于认知不确定性（由长期目标等潜在决策变量引起）和随机决策变量（如环境因素）引起的随机性。在长期预测中，由于未来的不确定性增加，随机性对轨迹的影响比短期时间范围更强烈。这促使我们采用分解的多模态方法来建模人类动力学，其中两个随机性因素都是层次化建模而不是联合建模。我们假设代理的长期潜在目标代表了运动预测中的认知不确定性。虽然代理在规划和执行轨迹时有一个目标，但预测系统对此一无所知。在物理术语中，这类似于代理想要去哪里的问题。类似地，随机性通过通往目标的路径的随机性来表达，其中包括环境变量（如其他代理）、代理可用的部分场景信息以及最重要的是人类决策中的无意识随机性[18]。在物理术语中，这类似于代理如何到达目标的问题。因此，我们提出首先建模认知不确定性，然后在获得的估计值的条件下建模随机性。具体而言，通过RGB场景和过去的运动历史，我们首先估计代理的长期目标的显式概率分布。这代表了预测系统中的认知不确定性。我们还估计了未来几个选择的航点位置的分布，这些位置与采样的目标点一起用于获得所有剩余中间轨迹位置的显式概率图。这代表了预测系统中的随机不确定性。从而，从认知目标分布和随机航点和轨迹分布中的样本形成0预测的未来轨迹。总之，我们的贡献有三个方面。首先，我们提出了一种新颖的长期预测设置，将预测范围延长到未来一分钟，这比以前的文献要长一个数量级。其次，我们提出了一种场景符合的长期轨迹预测网络Y-net，它明确地建模了目标和路径的多模态性，并有效利用了场景语义。第三，我们展示了分解的多模态建模使得Y-net在提出的长期设置和研究充分的短期预测设置上都能改善最先进的方法。我们在Stanford Drone [32]和ETH [31]/UCY[23]基准测试中对Y-net的性能进行了评估。在SDD上，ADE指标提高了13.0%，FDE指标提高了31.7%，在ETH/UCY上，ADE指标相当，FDE指标提高了7.4%。此外，我们还研究了Y-net在提出的长期预测设置上的性能，结果显示在Stanford Drone和Intersection Drone Dataset[5]上，Y-net在ADE指标上分别提高了50.7%和39.7%，在FDE指标上分别提高了77.1%和56.0%。预处理的数据、模型和代码可以在这里找到以供未来工作使用：https://karttikeya.github.io/publication/ynet/02. 相关工作0最近的几项研究在不同的场景中研究了人类轨迹预测。广义上，这些方法可以根据所提出的多模态预测公式、预测模型可用的输入信号以及模型提供的预测结果的性质和形式进行分组。多种不同的输入信号已被使用，如代理的过去运动历史[15]、人体姿势[27]、RGB场景图像[13, 35, 8, 22,26]、场景语义线索[8]、位置[36, 24,4]以及场景中其他行人的凝视[27,46]、汽车等移动车辆[36]，以及代理的目标[28]等潜在推断信号。预测结果的形式也是多样的，多模态[26]和符合场景的预测是先前工作的核心。单模态预测：早期的轨迹预测工作主要集中在对未来的单模态预测上。Social Forces[15]提出将相互作用建模为吸引力和排斥力，并将未来轨迹建模为在这些力下演化的确定性路径。Social LSTM[1]关注场景中的其他代理，并通过一种新颖的汇聚模块对其影响进行建模。[46]预测自我中心视图中的运动，并利用身体姿势和凝视以及佩戴摄像机的自我运动来预测其他代理的未来位置。[42]提出使用注意力来建模目标代理与其他代理的交互。[27]预测轨迹152350图2：模型架构：Y-net由三个子网络Ue、Ug和Ut组成，这些子网络是根据U-net架构[34]建模的（第3.1节）。Y-net采用分解方法进行多模态建模，通过Ug提供的估计分布来表达目标和路径的随机性。通过在Ug的样本上条件化得到的概率分布，U t实现了路径的多样性，从而预测出多样的符合场景的未来。0作为姿势预测的“全球”分支，提出在预测单模态轨迹的基础上，将下游任务（如姿势预测）与预测的单模态轨迹相结合。0通过生成建模实现多模态性：另一种方法旨在通过具有定义先验分布的潜在变量来建模未来预测中的随机性，这可以通过条件变分自编码器等方法来实现[20]。DESIRE[22]是一种基于逆强化学习的方法，它使用多模态的潜在变量进行采样，并通过一个细化模块对其进行排序和优化。[27]引入了使用CVAE来捕捉与过去运动历史有关的行人最终位置的多模态性。Trajectron++[36]使用图结构的循环网络来表示代理的轨迹，以实现符合场景的轨迹预测，并考虑与多个代理的交互。LB-EBM[30]在潜在空间中学习了基于能量的模型和策略生成器，将潜在向量映射到轨迹上。基于注意力的方法AgentFormer[47]同时建模时间维度和社交交互，使用序列表示保留每个代理的身份。Introvert[38]使用基于观察到的轨迹的3D视觉注意机制，从视频中提取场景和社交信息。预测未来的位移分布，并可以采样多个序列。0另一种工作线路包括Social GAN[13]，它使用对抗性损失[12]来引入多模态性的预测。0虽然这种生成方法确实能够产生多样化的轨迹，但无法保证对关键模式的整体覆盖，并且对于预测轨迹的属性（如方向、样本数量等）提供的控制很少。相比之下，我们的方法Y-net估计了明确的概率图，可以轻松地将空间约束引入到下游任务中。通过空间概率估计实现多模态性：另一种方法是通过估计的概率图获得多模态性。Kitani等人的活动预测[21]提出使用隐马尔可夫决策过程来建模未来路径。然而，与我们的工作不同，[21]中的未来预测是基于活动标签（如“接近汽车”，“离开汽车”等）进行条件化的。最近一些工作使用基于网格的场景表示来估计未来时间步长的概率。相关地，一些先前的工作，如[27，48，8]，提出了一种以目标为条件的轨迹预测方法。然而，没有先前的工作提出了像Y-net一样对认知不确定性或目标以及aleatoric不确定性或路径进行分解建模。03. 提出的方法0多模态轨迹预测问题可以形式化如下。给定RGB场景图像I和过去在场景I中的行人位置{un}npn=1，表示过去tp=np/FPS秒，在帧率FPS下采样，模型旨在预测位置。H(n, i, j) = 2∥(i, j) − un∥max(x,y)∈I ∥(x, y) − un∥152360对于未来的行人在接下来的tf秒内的预测，用{uin}np+nfn=np+1来表示，其中tf=np/FPS。由于未来是随机的，会产生多个未来轨迹的预测。在本文中，我们将整体的随机性分解为两种模式。第一种是与认知不确定性相关的模式，即最终目的地的多模态性，模块会产生Ke个目标。第二种是与aleatoric不确定性相关的模式，即在给定目标的情况下，路径的多模态性，源自于给定目标的不受控制的随机性，模块会为每个估计目标产生Ka个预测。在短时间范围内，由于整体路径长度较小，到达给定目标的路径选择有限且相似。这在自然界中通过约束Ka=1来建模，因此在短期范围内，预测的路径总数（先前工作中的K）与短期范围设置中的Ke相同。然而，在较长的时间范围内，到达相同目标的路径有几条，因此Ka>1。接下来，我们详细描述我们的模型Y-net及其三个子网络Ue、Ug和Ut的工作原理，然后介绍非参数采样过程（第3.2节）和使用的损失函数的细节。03.1. Y-net子网络0为了在语义空间（类似图像）中有效利用场景信息和轨迹信息（坐标），需要在不同的模态之间创建像素级对齐。一些先前的工作[35]通过将RGB图像I编码为从预训练的CNN网络中提取的隐藏状态向量来实现这一点。虽然这为网络提供了场景信息，但当被压缩成向量并且像素对齐被破坏时，任何有意义的空间信号都会被高度混淆。这在[28]中得到了突出，该论文在没有任何场景信息的情况下建立了先前的最先进技术，强调了先前工作中对图像信息的误用。在本文中，我们采用了一种在与图像I相同的空间中表示轨迹的场景热图表示方法，从而解决了对齐问题。03.1.1 轨迹-场景热图表示0首先，RGB图像 I 通过语义分割网络（如U-net [ 34]）进行处理，生成由 C 类别组成的图像 I 的分割图 S，根据表面对代理人行为（如行走、站立、奔跑等）的可行性进行确定。在并行分支中，过去的运动历史 { u n } n p n=1 被转换为一个空间尺寸为 I 和 n p 个通道的轨迹热图H ，每个时间步长有一个通道。数学上，0然后，将热图轨迹表示与语义图 S沿通道维度进行连接，生成轨迹-场景热图张量 H S a H × W × ( C + n p ) 维输入张量，传递给编码器网络 U e。03.1.2 轨迹-场景热图编码器 U e0张量 H S 经过设计为U-net编码器 [ 34 ]（图2）的编码器U e 进行处理。编码器 U e 由 M个块组成，其中空间尺寸从 H × W 减小到 H M × WM，每个块在一定数量的块之后使用具有ReLU的卷积层将通道深度从 C + n p 逐渐增加到 C M （通过maxpooling（步长为2）进行减半）。在块 M之后，最终的空间紧凑和深度表示以及 M - 1个中间张量 H m （其中 1 ≤ m ≤ M）被传递到目标解码器 U g 和轨迹解码器 U t进行进一步处理。03.1.3 目标和路径点热图解码器 U g0在不同空间分辨率上处理的轨迹-场景张量 H m被传递到目标和路径点热图解码器 U g，该解码器的设计模仿了U-net架构中的扩展部分 [ 34]。中心块由两个具有ReLU的卷积层组成，首先接收最终的空间紧凑特征张量 H M。然后，扩展部分通过双线性上采样和卷积（一起形成反卷积 [ 34]）在每个块的开始处将分辨率加倍。在每次反卷积之后，使用跳跃连接融合来自 U e 的相应中间表示 H m，并使用两个具有ReLU非线性的卷积层处理特征。从 U e合并中间高分辨率特征图是必要的，因为仅使用最终特征H M会严重限制目标热图的最终分辨率，从而丢失保留在中间特征图中的细节。U-net块以反卷积操作开始，然后进行特征融合和两个卷积层，所有这些操作按顺序重复 M 次以形成 U g。输出层由一个卷积层和一个像素级sigmoid组成，对于每个选择的 N w 路径点和目标 u n p + n f，产生一个显式的、非参数化的概率分布 P ( u w i ) 和 P( u n p + n f ) （经过归一化）。U g 的整体输出形状为H × W × ( N w +1) 。因此，对于每个 N w路径点和目标，该子模块预测一个 H × W矩阵，其中矩阵的 ( i, j )元素表示在所选时间步长处代理人位于位置 ( i, j )的估计概率值。S-GANCF-VAEP2TIRLSimAugPECNetLB-EBMY-net (Ours)DESIRETNTPECNetY-net (Ours)K = 20K = 5ADE27.2312.6012.5810.279.968.877.8519.2512.2312.7911.49FDE41.4422.3022.0719.7115.8815.6111.8534.0521.1629.5820.23ETHHOTELUNIVZARA1ZARA2AVGS-GAN0.81/1.520.72/1.610.60/1.260.34/0.690.42/0.840.58/1.18PECNet0.54/0.870.18/0.240.35/0.600.22/0.390.17/0.300.29/0.48LB-EBM0.30/0.520.13/0.200.27/0.520.20/0.370.15/0.290.21/0.38Introvert0.42/0.700.11/0.170.20/0.320.16/0.270.16/0.250.21/0.34Trajectron++0.39/0.830.12/0.210.20/0.440.15/0.330.11/0.250.19/0.41AgentFormer0.26/0.390.11/0.140.26/0.460.15/0.230.14/0.240.18/0.29softargmax(X) =�ii�j eXiji,j eXij ,�jj�i eXiji,j eXijLgoal = BCE(P(unp+nf ), ˆP(unp+nf ))N w152370表1：SDD上的短期时间预测结果：我们的方法在Stanford Drone Dataset [ 33 ]上的ADE和FDE指标上显著优于先前的最先进方法，对于 K的两种设置，其中 K 表示多模态样本的数量。报告的误差以像素为单位，其中 t p = 3 . 2 秒， t f = 4 . 8 秒， n p = 8 ， n f = 12，数值越小越好。0Y -net (我们的方法) 0.28/ 0.33 0.10/0.14 0.24/ 0.41 0.17/0.27 0.13/ 0.22 0.18/0.270表2：ETH/UCY基准测试的短期预测结果：我们提出的方法在流行的ETH-UCY基准测试上建立了新的最先进结果，使用标准的短期视野设置（与SDD相同）的ADE/FDE指标。报告的误差以米为单位，数值越小越好。03.1.4 轨迹热图解码器 U t0U t 由M个解码器块组成，其工作方式与Ug（第3.1.3节）类似。然而，与U g 不同的是，U t除了场景S和过去的轨迹{ u n } n p n=1之外，还以采样的目标和航点为条件。由U g估计的概率分布用于采样潜在的目标和航点集。采样过程在第3.2节中描述，更多细节请参见补充材料第1节。总共采样了K e个目标，对于每个目标采样了Ka个航点集，表示到达同一目标的Ka条路径。获得的坐标采样集合ˆu n p + n f用于类似于过去轨迹的热图表示Hg，如第3.1.1节所述。最后，获得的目标和航点条件张量Hg 被下采样以适应每个相应块的空间尺寸，并与相应的H m连接到前一个U t块的输出中，然后传递到下一个块。对于每个未来时间步长，它预测一个单独的概率分布，结果是形状为H×W×n f的输出，其中每个通道对应于每个时间步长中的位置分布。03.2. 非参数分布采样0给定未来帧位置的分布P作为概率矩阵X，我们的目标是采样一个二维点作为代理的位置估计。由于在初始训练阶段，估计的分布P存在噪声，因此采用简单的argmax方法不够稳健。相反，我们提出使用softargmax操作[11]，以稳健的方式近似最可能的位置。有关采样过程的更多细节，包括测试时间采样技巧和条件航点采样，请参见补充材料第1.1节和1.2节。0以稳健的方式近似最可能的位置。有关采样过程的更多细节，包括测试时间采样技巧和条件航点采样，请参见补充材料第1.1节和1.2节。03.3. 损失函数0由于预测是每个时间步长的显式概率分布，我们直接对估计的分布ˆP施加损失，而不是对绘制的坐标样本施加损失。地面真实未来以预先确定的方差σH为中心的高斯热图P表示。三个网络U e，U g和Ut都使用预测的目标、航点和轨迹分布的二元交叉熵损失的加权组合进行端到端联合训练。0L航点 =0i =1 BCE(P(uwi), ˆP(uwi))0L轨迹 =0i = np +1 BCE(P(ui),ˆP(ui))0L = L目标 + λ1L路径点 + λ2L轨迹04. 结果0我们使用三个数据集来研究Y-net的性能-斯坦福无人机数据集（SDD）[33]，交叉口无人机数据集（InD）[5]和ETH[31]/UCY[23]预测基准。斯坦福无人机数据集：我们在流行的斯坦福无人机数据集[33]上对我们提出的模型进行基准测试，在过去几年中，一些最近提出的方法显著改进了最先进的性能[45]。该数据集由斯坦福大学校园中以鸟瞰视角使用飞行无人机捕获的20个顶视场景中的11000多个独特行人组成。对于短期预测，我们遵循[35, 28]的标准设置和数据集划分，采样FPS =2.5，得到长度为np = 8的输入序列和长度为nf = 12的输出，即tp = 3.2秒，tf =4.8秒。在我们提出的长期设置中，我们以FPS = 1进行采样，因此过去5秒的np =5，并预测未来一分钟。此外，我们使用语义分割地图为场景标记了C =5个“物体”类别，即[7]路面、地形、结构、树木和道路，这取决于表面的可行性。我们以与短期设置相同的方式拆分数据集的场景，以评估训练期间未见过的场景上的性能。交叉口无人机数据集：我们建议使用交叉口无人机数据集[5]来评估长期轨迹预测。该数据集在城市环境中的4个不同交叉口记录了超过10小时的测量数据。数据集以FPS = 25记录。我们将轨迹下采样到FPS =1，以适应我们的SDD长期设置，过滤掉非行人和短轨迹，并使用无重叠的滑动窗口方法拆分长轨迹。经过预处理步骤后，InD包含1396个长期轨迹，np = 5和nf =30。为了评估在未见环境上的性能，我们仅在测试时使用位置ID 4。该场景使用与SDD相同的C =5类别进行标记。我们将坐标从世界坐标（米）转换为drone. For short term prediction, we follow the [35, 28]standard setup and dataset split, sampling at FPS = 2.5yielding a input sequence of length np = 8 and output oflength nf = 12, i.e. tp = 3.2 sec, tf = 4.8 sec.In our proposed long term setting, we sample at FPS = 1thus yielding a np = 5 for tf = 5 seconds in the past andpredicting up to one minute into the future. Further, welabel the scenes with semantic segmentation maps consist-ing of C = 5 “stuff” classes, namely [7] pavement, terrain,structure, tree and road, depending on the walking afford-ability of the surface. We split the dataset’s scenes in thesame way as the short term setup, to evaluate the perfor-mance on unseen scenes during training.Intersection Drone Dataset: We propose to use the Inter-section drone dataset [5] for benchmarking long term tra-jectory forecasting. The dataset comprises over 10 hours ofmeasurements over 4 distinct intersection in an urban envi-ronment. The dataset is recorded in FPS = 25. We down-sample the trajectories to FPS = 1 to match our SDD longterm setting, filter out non-pedestrian and short trajectoriesand use a sliding window approach without overlap to splitlong trajectories. After the preprocessing steps, inD con-tains 1,396 long term trajectories with np = 5 and nf = 30.To evaluate performance on unseen environments, we areusing location ID 4 only during testing time. The scene islabeled with the same C = 5 classes as in SDD. We con-vert the coordinates from world coordinates (meters) into152380图3：定性的长期轨迹预测结果：我们展示了SDD测试集中三个不同场景（行）的各种热图和可视化。第一列显示了过去观察到的蓝色轨迹，持续时间为tp = 5秒。第二列显示了未来tf = 30秒（目标多模态性）的Ug的热图和一些从估计分布中采样的目标。第三列显示了Ut在从第二列中采样的目标的条件下的轨迹热图（路径多模态性）。最后一列显示了预测的轨迹，绿色表示地面真实轨迹，红色表示我们的多模态预测。0使用作者提供的比例因子评估像素坐标，并以像素为单位评估指标。ETH &UCY数据集：近年来，ETH/UCY基准已被广泛用于评估短期预测模型的轨迹预测性能[44]。仅在过去两年内，预测性能就平均提高了约64%[13]。它包括五个不同的场景，所有场景都报告世界坐标中的位置（以米为单位）。我们遵循之前的工作中概述的留一验证策略[35, 13, 9]。对于所有ETH&UCY数据集，由于表面提供的可供性类别较少，我们使用C=2，将每个像素标识为属于“道路”或“非道路”类别。与短期SDD类似，帧以FPS = 2.5进行采样，预测nf =12帧，tf = 4.8秒的未来，给出最后np = 8帧，包括tp =3.2秒的运动历史。实现细节：我们使用Adam优化器[19]对整个网络进行端到端训练，学习率为1×10-4，批量大小为8。使用预训练的分割模型，并对特定数据集进行微调。更多细节请参阅补充材料。指标：我们使用已建立的平均位移误差（ADE）和最终位移误差（FDE）指标来衡量未来预测的性能。ADE被计算为整个轨迹上预测未来与实际未来之间的ℓ2误差的平均值，而FDE则是指预测轨迹与实际轨迹之间的ℓ2误差。Y-NetPECNet05001000ADE in pixelY-NetPECNet012502500FDE in pixelY-NetPECNet051015KDE-NLL152390斯坦福无人机数据集交叉无人机数据集0S-GAN PECNet R-PECNet Y -net (我们的) S-GAN PECNet R-PECNet Y -net (我们的)0K a 1 1 1 1 2 5 1 1 1 1 2 50ADE 155.32 72.22 261.27 47.94 44.94 39.49 38.57 20.25 341.80 14.99 14.02 12.67 FDE 307.88 118.13 750.42 66.71 66.7166.71 84.61 32.95 1702.64 21.13 21.13 21.130表3：长期轨迹预测结果：我们在我们提出的长期预测设置中进行性能基准测试，预测未来的 t f = 30 秒，给定过去的 t p = 5秒运动历史。所有报告的误差以像素为单位（值越小越好），对于 K e = 20 进行了评估，并提供了对于固定 K e 的不同 K a 的额外结果。0图4：根据时间范围进行性能基准测试：在预测范围内长达一分钟，我们观察到Y-net和PECNet之间的ADE差异不断增长，突出了长期预测中因子化目标和路径建模的重要性。0是预测未来和实际结果之间的ℓ2误差[2]。根据之前的工作[13]，在存在多个未来预测的情况下，最终误差被报告为所有预测未来中的最小误差。ADE和FDE是适合确定性性能评估的指标。然而，它们使用样本而不是预测分布进行误差估计。因此，我们报告基于核密度估计的负对数似然（KDE-NLL）指标，与[17,36]相同。使用标准化的KDE来为每个预测的未来时间步估计概率分布函数，并使用它计算地面真实轨迹的NLL。请注意，Y-net预测明确的概率图。为了与先前的文献保持一致并与基线进行公平比较，我们也应用了KDE。04.1.短期预测结果斯坦福无人机结果：表1呈现了在短期设置下SDD的结果。我们报告了K e =5和20的结果。由于在短期设置中存在有限的随机多模态性，我们使用K a =1，与之前使用20个轨迹样本进行评估的工作相当。表1显示我们提出的模型实现了ADE为07.85和FDE为11.85，在K e =20的情况下，优于先前的LB-EBM[30]在ADE上提高了13.0％，在FDE上提高了31.7％。此外，在K =5的情况下，它实现了ADE为11.49和FDE为20.23，优于先前的TNT[48]的最新性能。ETH/UCY结果：我们在表2中报告了ETH/UCY基准测试的结果。与SDD类似，我们设置K e = 20，Ka = 1。我们观察到Y-net将FDE的性能从AgentFormer[47]提高了7.4％至0.27，并在ADE方面表现出色，为0.18。04.2. 长期预测结果0为了研究认知和随机不确定性的因素化效果，我们提出了一个长期轨迹预测设置，预测范围比之前的工作长10倍（长达一分钟）。为了进行基准测试，我们分别重新训练了短期预测的先前最先进方法PECNet [28]和Social GAN[13]。我们还训练了一个基于PECNet的短期循环基线（R-PECNet），其中模型仅针对 t f = 5秒进行训练，并且通过循环地输入其自身的预测来预测更长的时间范围。0图5：ADE和FDE箱线图和KDE-NLL：左侧和中间：ADE和FDE的箱线图，右侧：KDE-NLL指标的结果。所有指标都是在SDD上进行长期设置的估计，使用100个样本。0预测结果：表3报告了在SDD和InD上的基线和我们的结果，预测未来的时间范围为 t f = 30 秒，给定过去的 t p = 5秒输入。所有报告的结果都是在 K e = 20 的情况下，对于Y -net，条件是 N w = 1 个中间航点在 w 1 = 20处，即在观察到的输入和估计的目标之间的时间中点。所有报告的基线结果都是在 K = 20 的情况下，以便与我们的 Ke = 20，K a = 1 的设置进行公平比较。In summary, we present Y-net, a scene-compliant tra-jectory forecasting network with factorized goal and pathmultimodalities.Y-net uses the U-net structure [34] forexplicitly modeling probability heatmaps for epistemic andaleatoric uncertainties. Overall, Y-net decrease the error ofprevious state-of-the-art performance by up to 31.7% on theSDD and by up to 7.4% on ETH/UCY benchmarks in theshort term setting. We also propose a new long term trajec-tory forecasting setting with a prediction horizon of up toa minute for exemplifying the epistemic and aleatoric un-certainty dichotomy. In this setting, we benchmark on theStanford Drone and Intersection Drone dataset where Y-netexceeds previous state-of-the-art by over 77.1% and 56.0%respectively thereby highlighting the importance of model-ing factorized stochasticity.152400图6：对比与aleatoric不确定性（Ka）的基准性能：固定目标多模态性（Ke），我们变化Ka以观察路径多模态性的影响。此外，我们通过允许PECNet为公平比较的Ke=20的每个Ka增加20倍的样本来与PECNet进行基准测试。0在SDD上，我们观察到我们提出的模型在长期设置中优于最先进的短期基线，实现了ADE为47.94和FDE为66.72，相比PECNet的性能提高了50%以上。同样，Y-net在InD上优于PECNet，将ADE性能从20.25提高到14.99，将FDE从32.95提高到21.13。为了对性能进行更全面的评估，我们在图5中显示了PECNet和Y-net的箱线图。这些图显示了SDD上长期预测中四分位数的中位数性能和变异性。Y-net的中位误差约为一半，并且更加一致，波动性更小。此外，Y-net在SDD上的KDE-NLL[17]得分为8.75，明显优于PECNet在相同长期设置上的12.15得分（图5）。这些额外的指标证实了我们从ADE和FDE指标中观察到的结果。变化的预测时间范围：我们将Y-net与PECnet和R-PECNet进行了不同预测时间范围的比较。在图4中，我们观察到随着预测时间范围从5秒增加到60秒，Y-net和PECNet之间的性能差异增大。这表明Y-net在长期预测时间范围内的适应性，归因于分解的多模态建模。我们还观察到，对于PECNet来说，为不同的时间范围训练单独的模型明显优于使用短期时间范围模型进行循环训练（R-PECNet）。这激发了我们对长期预测的研究提案，因为将短期模型直接应用于长期设置时，性能非常差。变化的Ka：我们还报告了在Ka=2和5的情况下的结果，以研究来自aleatoric多模态性的性能改进（表3）。我们观察到在两个数据集上ADE都有一致的改进，从而表明在给定相同估计的最终目标unp+nf的情况下，预测路径的多样性。我们还在图6中对固定Ke的不同Ke和Ka的选择进行了路径多模态性Ka的广泛结果报告。此外，为了进行基准测试，我们与PECNet进行了对比，评估时使用Ke倍数的样本，同时变化Ka。我们显示了在增加Ka时各种Ke的一致ADE改进，表明有效利用多模态性。此外，即使在增加20倍的额外样本时，PECNet在Ke=20时的性能仍然明显不如Y-net，这凸显了对于多样性和准确的未来轨迹建模，分解目标和路径多模态性的重要性。定性结果：我们在图3中展示了一些长期轨迹预测（tf=30）的定性结果，并通过GIF在图7中进行了时间上的展示。我们观察到Y-net预测了多样的场景一致轨迹，包括未来目标和路径的多模态性。0图7：GIF可视化：展示长期人类轨迹预测的目标、航点和路径多模态性（30秒）。给定过去5秒的输入历史（绿色），我们预测多样的未来轨迹（当前位置为橙色，过去为红色）。由于限制，我们只能展示一个快照。请参考补充文件或ArXiv版本获取动画。0总之，我们提出了Y-net，一种具有分解目标和路径多模态性的场景一致轨迹预测网络。Y-net使用U-net结构[34]来明确建模表征和aleatoric不确定性的概率热图。总体而言，Y-net将先前最先进性能的误差降低了高达31.7％，在SDD上缩短期设置的ETH/UCY基准测试中降低了7.4％。我们还提出了一个新的长期轨迹预测设置，预测时间范围长达一分钟，以示范表征表征性和aleatoric不确定性的重要性。在这个设置中，我们在Stanford Drone和IntersectionDrone数据集上进行了基准测试，其中Y-net的性能分别超过了先前最先进的77.1％和56.0％，从而凸显了建模分解随机性的重要性。05. 结论3152410参考文献0[1] Alexandre Alahi，Kratarth Goel，VigneshRamanathan，Alexandre Robicquet，Li Fei-Fei和SilvioSavarese。社交LSTM：拥挤空间中的人类轨迹预测。在IEEE计算机视觉和模式

下载后可阅读完整内容，剩余1页未读，立即下载