基于目标候选相似性搜索的动态轨迹预测

65 浏览量更新于2023-10-13 收藏 15.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

31276290你要去哪里？通过专家目标示例进行动态轨迹预测0赵贺约克大学0zhufl@eecs.yorku.ca0Richard P.Wildes约克大学0wildes@cse.yorku.ca0摘要0最近发现，当提供充分的目标估计时，基于目标条件的方法对于人类轨迹预测非常有用。然而，目标推断本身就很困难，并且通常需要额外的学习工作。我们提出通过目标专家知识的指导来预测行人轨迹，这可以通过在已经看到的训练示例上进行新颖的目标搜索机制来获得，而这种机制的成本较低。我们的研究有三个关键贡献。首先，我们设计了一个框架，利用最近的示例进行高质量的目标位置查询。这种方法自然地考虑了多模态性、物理约束、与现有方法的兼容性，并且是非参数的；因此，它不需要目标推断中典型的额外学习工作。其次，我们提出了一个端到端的轨迹预测器，可以将目标检索与过去的运动信息有效地关联起来，并动态地推断可能的未来轨迹。第三，有了这两个新技术，我们在两个广泛研究的数据集（SDD和ETH/UCY）上进行了一系列实验，并展示了我们的方法在性能上超过了以前的最先进水平，并减少了对额外参数的需求。代0对人类或机器人代理的运动模式进行视频预测理解对于许多现实世界的智能系统至关重要。在拥挤场景中预测行人的未来轨迹是这种研究的一个例子，最近受到了相当大的关注[1,12, 51, 20,25]。它研究了人工视觉系统从当前观察中预测个体未来运动的能力，因此对于包括自动驾驶车辆、服务机器人和监控系统在内的各种相关领域非常重要[38]。对行人行走轨迹建模的研究已经从相对简单的物理运动模型（例如社会力[13]或恒定速度[42]）发展到更复杂的模型。01 https://github.com/JoeHEZHAO/expert_traj078% 相似*083% 相似*061% 相似*0专家知识库0目标候选相似性搜索0查询检索0图1：基于查询检索的框架概述。将具有未知未来目标位置的测试轨迹与之前在专家知识库中看到并存储的专家示例进行匹配。比较基于相同观测长度的测试（查询）和存储的专家示例（显示为实线）轨迹。这一步骤会检索到具有高相似度的多模态最近轨迹，即紫色、红色和绿色轨迹，以及它们的目标位置（用彩色旗标表示）作为后续完整轨迹预测的潜在目标。0考虑社会合规性[30, 52, 41]、环境意识[27, 39, 44,26]以及最终目标政策[29,6]的复杂努力。最近的研究通过将目标位置（也称为目的地或终点）与历史观测到的轨迹一起编码，发现了显著的性能改进，特别是在长期预测范围内。这些努力基本上分为两个步骤：（i）从通常与轨迹估计器并行训练的估计器中推断目标位置；（ii）在过去的运动历史和推断的目标信息的条件下，预测未见运动的轨迹。在自然界中，这种方案将轨迹外推转化为内插（即在初始轨迹和目标位置之间建立路径）。目标导向的研究在各个领域都有应用，例如运动规划[16]和强化学习[17, 32, 8,9]。这些努力要么通过人工监督预定义所需的目标空间[7,33]，要么利用可学习模块直接从输入中获取该信息，例如初步状态或原始图像[32]。后者受到了普遍的轨迹预测领域的青睐[29, 6]。76300因为通常行人在没有预先指定的目标位置的场景中行走。然而，这种选择带来了额外的需求：在测试过程中训练边缘模型来推断目标位置，这需要额外的可学习参数和目标注释，如果默认情况下没有给出的话。此外，学到的目标可能不是理想的质量，例如违反道路边界或交通规则。0贡献。针对上述挑战，我们提出了三个贡献。首先，我们专注于开发一种有效且低成本的方法，通过利用基于先前示例的专业知识，自动从候选轨迹库中探索潜在的目标位置，而无需额外的训练过程。我们的方法利用了最近在数据高效机器学习方面的进展，其中未标记的数据通过最近邻度量匹配进行自注释。根据这一洞察，我们设计了一种目标检索算法，它在测试集中的部分观察到的轨迹与训练集中的专家示例之间进行相似性搜索，以获得一组小型的多模态候选目标位置。以前的研究没有使用专家仓库中的目标检索进行轨迹预测。我们提供了目标检索方法的概述，如图1所示。其次，我们开发了一个后续轨迹预测器，它将轨迹观测历史和查询的目标结果作为输入，并采用一种新颖的低开销数据偏移编码来共同推断出多样化但准确的未来轨迹集合。第三，我们进行了大量实验证明我们的方法在斯坦福无人机数据集（SDD）上的性能超过了之前最佳性能15%，在ETH/UCY数据集上超过了15%。值得注意的是，我们的结果是在目标推断中没有涉及任何额外的学习组件的情况下实现的。0相关工作。人类轨迹预测取得了很大的进展。探索复杂场景中一组行走行人的集体动力学是过去几年的主要关注点之一[1,12,3,30,52]。这个目的的流行方法包括注意力[46]和图神经网络[19]框架。同时，建模环境约束是另一个已经显示出明显好处的方向[39,24,27,41,44]。产生多模态预测也受到了相当大的关注[12,41,24]。多样化输出的主要方法包括深度生成模型[18,11]和高斯混合模型[15,30]。我们的工作遵循后者的思路，以允许在预测的轨迹中具有多样性。最近，基于目标条件的方法表现出优于上述方法的性能[45,35,29,6]。其中一种方法模拟了语义目标（例如右转或直行）与未来轨迹之间的因果关系[35,45,36]，而其他方法依赖于位置目标（例如目的地坐标）[29,6]。0跨这些方法的共同点是建立一个监督的目标估计器，以帮助后续的轨迹预测。相比之下，我们的工作利用目标信息，采用了一种新颖的非参数搜索方法。从专家那里学习是一个已经确立的原则。这个研究方向假设一组代表性的示例可以作为一个智能系统来模拟多样化的真实世界数据。例如，早期的工作将一组人类行走的示例分组，以模拟仿真环境中的人群轨迹[23]。一些最近的工作还发现它对多模态视频帧预测[49]以及自适应机器人运动生成[50]也很有用。其他工作使用示例外推来纠正数据欠表示以进行鲁棒学习[22]。使用专家示例的直觉也已经在最近的努力中用于数据高效学习（例如，一次性[47]、原型[43]和少样本[54]学习）。在这里，研究发现，智能模型的训练可以仅依赖少量的注释示例，因为其他未观察到的数据可以通过与相邻的专家示例进行匹配来进行自注释[2，10，47，43，48，22]。我们提出的解决方案受到专家学习和数据高效机器学习中的技术的启发。我们将他们对目标条件轨迹预测任务的洞察力应用于目标推断步骤。我们利用可用的轨迹训练数据作为一个专家仓库，可以根据观察到的测试轨迹进行索引。然后，索引轨迹的目标被用作我们完整轨迹估计器的输入。我们发现，使用定制的动态时间规整（DTW）[40]度量进行相似性搜索可以为未观察到的测试轨迹提供高质量的目标估计，进一步为整体预测产生优越的评估结果。值得注意的是，搜索步骤可以通过现有工具[31]加速以满足实时推理的需求。我们是第一个探索非参数目标推断方法并展示其在行人轨迹预测中具有最先进性能的研究。02. 技术方法02.1. 问题建模0我们试图预测第 i 个行人的正确未来轨迹0二维坐标中的行人：ˆ Y i = {(ˆ x t i, ˆ y t i) ∈ R^2, t = {tobs +1, ..., t end}}，给定 M 个共存的行人及其观测轨迹 Xi = {(x t i, y t i) ∈ R^2, t = {1, ..., t obs}} 作为输入，其中 i∈ [1, M]。具体而言，我们假设预测的坐标 (ˆ x t, ˆ y t)是遵循双变量高斯分布的随机变量，即 (ˆ x t, ˆ y t) � N(µ x,µ y, σ x, σ y, corrxy)，以支持多模态的多样化结果。我们的方法分为以下两个步骤：首先，我们查询测试的伪目标位置 (ˆ x t end i, ˆ yt end i)𝑊𝑒𝑛𝑐𝐿𝑆𝑇𝑀𝑒𝑛𝑐𝐿𝑆𝑇𝑀𝑑𝑒𝑐𝑊𝑑𝑒𝑐mini≤n ai,γ = 0−γ logΣni=1e−ai/γγ > 0(3)76310查询0目标检索0输入轨迹编码器解码器0预测轨迹0专家存储库0社交注意力0采样0目标融合0相似性搜索0图 2：基于目标检索的轨迹预测算法的流程。部分观测轨迹组 {X i} 首先通过在专家存储库 X 上运行查询搜索引擎来产生伪目标候选组 {ˆ x t end i, ˆ y t endi}（紫色虚线框）。随后，观测轨迹和估计目标的融合信息 {˜ X i} 通过顺序编码器（绿色虚线框）进行处理，其中输入被嵌入到高维特征 {h i}中。经过社交注意力处理（SocialATTN），顺序解码器（粉色虚线框）递归地在每个时间步预测双变量高斯分布。通过从双变量高斯分布中多次采样获得最终预测的轨迹 {ˆ Y i}。0输入 X i 通过在专家轨迹库 X中进行搜索来检索有用的目标估计。该存储库中的每个条目由一个与 X i 格式相同的轨迹序列 X e 和其对应的终点位置(x t end e, y t end e) 组成。返回测试轨迹 X i ∈ X 的 K e个最近邻的终点位置，其中 K e是返回的数量。存储库是从训练数据中构建的，详见第 3.2节。其次，我们预测未来轨迹 ˆ Y i = f(X i, ˆ x t end i, ˆ y tend i)，其中 f(∙)表示后续轨迹预测器。在接下来的章节中，我们详细介绍这两个步骤的工作原理。图 2 概述了我们整体方法的流程。02.2. 基于动态时间规整的目标检索0我们方法的第一个组成部分是一个搜索引擎，对测试数据和专家示例（即 X 中的示例）进行相似性比较。我们根据0{(ˆ x t end i, ˆ y t end i)} K e = S arg min X e ∈ X(D(X i, X e), (1)0其中 D 是两个轨迹之间的距离函数，上面的 arg min运算符表示返回 X 中产生最小距离的 K 个条目，S选择这些匹配的终点位置。我们通过计算测试轨迹 X i 与 X中每个条目之间的距离，按距离排序并取最小距离的 K个条目来选择最小距离的 X e 。S简单地选择与这些轨迹在存储库中关联的终点位置。换句话说，我们将最接近的 K个专家示例中的目标位置作为测试数据的伪目标。对于匹配函数D(∙)，我们发现动态时间规整（DTW）对我们的需求非常有效。DTW 是0作为衡量时间序列之间距离的一种成熟方法[40]。最初，它通过动态规划来解决。然而，最近它在计算开销上得到了放松，变得可微分并且变得流行起来，例如[5, 53, 4,28]。对我们来说，特别有趣的是它的计算效率。具体来说，我们遵循一些现有的例子[5,4]，将匹配函数γ-Soft-DTW定义为以下形式0D(Xi, Xe) =0= min γ {� A, ∆(Xi, Xe) �, A ∈ Rn×m}, (2)0其中∆(∙)是距离矩阵(例如，欧几里得距离)，用于测量逐元素的邻接性，A是对应匹配选择的对齐矩阵，内积操作符��产生相似度分数。这里，软最小值minγ，其中γ≥0，定义为[5]0min γ (a1, ..., an) =0其中ai表示距离矩阵中的条目，γ是一个经验性设置的平滑因子；参见第3.2节。最后，为了更好地进行匹配，我们通过连接它们的运动信息作为速度(Vi,Ve)来丰富轨迹描述符，即( cat(Xi, Vi), cat(Xe,Ve))成为(1)中D的参数。因此，相似性不仅考虑地理位置，还考虑速度和方向。图3显示了使用我们的方法在评估的数据集上进行目标搜索的结果。可以看到，大部分目标检索的质量很高，例如，斯坦福无人机数据集[37]的83%的测试数据(a)的检索误差小于10个像素，其中超过一半接近完美，即≤1个像素的误差。在另一个010203040020040060080010001200Count010203040020040060080010001200Count010203040020040060080010001200Count76320(b) ETH0(d) ZARA2 (e) HOTEL0(c) ZARA10(f) UNIV0(a) SDD0图3：通过绘制在我们的实验中所有数据集的测试数据上的检索误差（l2范数）分布来说明目标检索质量（X轴值越接近0，越好）。这些结果是通过使用动态时间规整进行相似性搜索跨专家存储库实现的。0五个数据集[23,34]展示了一致良好的结果(b)-(f)。值得注意的是，我们能够在不需要学习模型的情况下达到这个性能水平，因为训练数据本身就是模型，就像存储库X一样。此外，我们通过存储库进行的相似性搜索可以以适度的计算成本实现；参见第3.5节。按照其他地方提出的目标条件轨迹预测协议[29]，我们根据地面真实情况评估所有Ke个目标候选项，并选择提供最小误差的候选项。因此，只有一个目标候选项(ˆxtendi,ˆytendi)与测试轨迹Xi一起作为输入传递给轨迹预测器，如下所述。02.3. 目标条件轨迹预测器0我们现在详细介绍了我们的后续轨迹预测器，它结合了过去的观测值Xi和查询的目标位置(ˆxtendi,ˆytendi)，以推断出多样化和准确的预测。0目标编码为目标偏移。我们的模型处理目标信息与现有工作不同，现有工作中目标位置与运动历史在高维特征空间中进行了连接[29]，或者明确地用于计算剩余距离作为额外的输入，例如[6]。这两种方法都需要额外的嵌入工作。相反，我们受到了根据均值进行数据偏移的直觉的启发，这在机器学习（例如，批量归一化）和序列建模（例如，Trajectron++中的轨迹稳定化的时间减法）中被采用，并且发现将目标位置值从所有过去的运动轨迹中减去后再使用多层感知器（MLPs）进行编码同样足够。通过这样做，我们将目标信息无需额外努力地融入特征嵌入中；特别地，我们定义0˜X it e0= { ( x t i , y t i ) - (ˆ x t end i , ˆ y t end i ) , t = { 1 ,..., t obs }}，(4)0作为我们的移位输入轨迹和0F i = W enc ( ˜ X i ) (5)0作为移位编码。F i将每个时间戳的二维坐标的投影高维特征关联起来，即 F i∈ R D × t obs 和 W enc ∈ R 2 × D。W enc实现为一个多层感知机。我们在第3.5节提供了关于我们选择将目标与输入运动历史进行连接的消融研究。请注意，在训练过程中，我们使用地面真实目标位置 ( x t end i , y tend i ) 作为 (4)的输入，以防止学习过程受到噪声数据的干扰，而在测试时使用查询的目标位置。0轨迹预测。对于给定一系列输入嵌入特征 Fi，采用作为两个长短期记忆 (LSTM) 单元实现的 seq2seq生成器进行序列生成[14]。序列生成通过顺序编码和解码嵌入特征进行，然后映射到中间结果，这些中间结果根据递归方式用于后续预测，根据0h k enc = LSTM enc ( F k i , h k − 1 enc )，k ∈ (1, t obs0其中 h k enc 是第 k 个隐藏编码器状态和初始隐藏状态 h 0从正态分布中采样得到。对于解码，使用另一个LSTM，其第一个输入设置为编码历史 h enc和最后观察到的坐标 X t obs i的连接，以递归方式生成输出隐藏状态序列，根据0h k +1 dec = LSTM dec cat ( h enc , ˆ Y k i )，h kdec，k ∈ ( t obs , t end )，(7) 其中 ˆ Y k i是在线生成的下一个坐标。为了允许多模态预测，我们将输出设置为双变量高斯分布的参数，参考 [30, 41]：0µ x , µ y , σ x , σ y , corr xy = W dec ( h k dec )；(8)0ˆv k i � N ( µ x , µ y , σ x , σ y , corr xy )；(9)ˆY k i = ˆY k − 1 i + ˆv k i，(10)0其中 W dec 是一个 MLP 解码器，将解码的 LSTM隐藏状态 h k dec 投影到表示双变量高斯分布 N ( µ x , µ y ,σ x , σ y , corr xy ) 的5维向量。最后，完整的预测 ˆ Y k i可以通过根据 (9) 和 (10) 将先前的预测 ˆ Y k − 1 i和采样的运动向量 ˆv k i 相加得到。0社交合规性。为了考虑共存行人的集体效应，我们遵循最近的研究结果，并使用一个注意机制来关注彼此靠近的行人，根据一个阈值来确定。在阈值内，邻近行人，例如 ( X i , X j)，被赋予连接值 C i,j 为1，否则为0，即如果 d( X i , X j ) < 阈值：C i,j = 1；否则 C i,j =0。我们使用 l 2 范数作为距离函数d(∙)，并使用先前的程序选择阈值，详见第3.2节。注意机制在 LSTM enc的最后输出上操作，这里简化为 h i。具体而言，令L(θ) = −tpredk=tMi=1log(Yi|µx, µy, σx, σy, corrxy),ADE =�Mi=1�tendk=tobs+1 ||Yki − ˆYki ||2M × T(14)FDE =�Mi=1 ||Ytendi− ˆYtendi||2M,(15)76330范数作为距离函数d(∙)，并使用先前的程序选择阈值，详见第3.2节。注意机制在 LSTM enc 的最后输出上操作，这里简化为 hi。具体而言，0e ( i, j ) = softmax (W θ ( h i ) W φ ( h j ))，(11)0注意加权输出如下所示：0˜ h i 0j ∈ M C i,j e ( i, j ) W g ( h i )，(12)0其中 W θ 和 W φ是在规范化权重转换之前对任意一对行人进行学习的线性变换矩阵，即 e ( i, j )。随后，对另一个学习的线性变换矩阵W g 的结果应用加权求和操作 (12)产生输出。这种社交关注嵌入更具信息性，因为它考虑了邻近代理的运动历史以及他们的目的地计划。我们将此输出用作轨迹解码器的输入 (7)，即 h enc = ˜ h i。02.4. 学习方案0我们发现仅通过最小化所有行人和未来时间的双变量高斯负对数似然，就足以端到端地训练模型。0(13)其中θ是与所有可学习模块相关的参数，即Wenc，Wdec，LSTMenc，LSTMdec和attention模块权重{Wφ，Wθ，Wg}。03. 实证评估03.1. 数据集和评估协议0为了评估我们的方法，我们选择了三个广泛研究的数据集，分别是斯坦福无人机（SDD）[37]，ETH [34]和UCY[23]数据集。SDD是一个人类轨迹预测数据集，由20个自上而下的场景组成。我们遵循TrajNet++挑战赛[21]的训练-测试分割，并关注行人。ETH数据集包含两个场景（ETH和Hotel），UCY数据集包含3个场景（ZARA1，ZARA2和UCY）。它们总共包含1536个行人。对于这两个数据集，我们的模型以一个八个时间步长的轨迹观测作为输入，并预测接下来十二个时间步长的轨迹。我们以两个众所周知的指标，平均位移误差（ADE）和最终位移误差（FDE）来表示预测准确性。0和0其中M是目标数量，T是预测时间步长数量，Yki和ˆYki分别是目标i在时间步长k处的预测和真实位置，tend是最终预测的时间步长。基于目标的评估。目前基于目标的轨迹预测协议评估了一组初始目标采样，选择最接近真实最终轨迹位置的目标，并继续生成中间预测，参见[29]。我们遵循相同的过程来评估我们的模型，但用我们的目标检索方法替代目标采样，该方法通过搜索专家库来实现，详见第2.2节。在选择传递给轨迹预测器的单个目标候选之前，搜索库中搜索的初始候选集为Ke =20，我们发现这是有效和高效的，这在消融研究中得到了验证；参见第3.5节。最佳N次采样。我们从轨迹预测器的多次采样结果中报告最佳ADE和FDE准确性，使用单个选择的目标检索。在以下评估中，N设置为20，以与现有工作[1，12]进行公平比较。我们将这个最小化值表示为Minx，例如Min 20表示N =20。在消融研究中，考虑了不同的值，N∈[5，10]，参见第3.5节。03.2. 实现细节0为了构建我们的模型，我们规定LSTMenc和LSTMdec的隐藏状态维度为128。对于运动历史编码器Wenc，我们采用一个MLP，它由形状为[2→512→256→128]的顺序激活组成。对于双变量-GMM解码器Wdec，我们使用一个类似的MLP，它具有形状为[128→64→32→5]的激活。对于注意力模块，我们将线性变换矩阵Wθ和Wφ规定为具有相同形状[128→256→64]的两个MLP，将Wg规定为具有相同形状[256→256→128]的MLP。在整个过程中，使用ReLU激活函数增加非线性。对于SDD数据集，训练采用Adam优化器和学习率0.0003，β1 = 0.9和β2 =0.99来最小化损失（13）。批量大小为512，训练进行350个周期。对于ETH和UCY数据集，采用相同的优化器来训练模型250个周期，批量大小为128。学习率在前150个周期初始化为0.01，之后衰减为0.002，参见[30]。我们使用与第3.1节介绍的相同的训练数据为所有数据集构建专家库X ={Xe，xtende，ytende}。我们还通过将场景中的所有轨迹旋转0°到360°的角度范围内，间隔为15°，来丰富ETH和UCY数据集的库。随机旋转通常用作数据增强方法。Evaluation Metrics (ADE / FDE) on Min20ModelsETHHOTELZARA1ZARA2UNIVAVGLinear [1]1.33 / 2.940.39 / 0.720.62 / 1.210.77 / 1.480.82 / 1.590.79 / 1.59Social-GAN [12]0.81 / 1.520.72 / 1.610.34 / 0.690.42 / 0.840.60 / 1.260.58 / 1.18SoPhie [39]0.70 / 1.430.76 / 1.670.30 / 0.630.38 / 0.780.54 / 1.240.54 / 1.15Social-STGCNN [30]0.64 / 1.110.49 / 0.850.34 / 0.530.30 / 0.480.44 / 0.790.44 / 0.75Goal-GAN [6]0.59 / 1.180.19 / 0.350.43 / 0.870.32 / 0.650.60 / 1.190.43 / 0.85PECNet [29]0.54 / 0.870.18 / 0.240.22 / 0.390.17 / 0.300.35 / 0.600.29 / 0.48Trajectron++ [41]0.43 / 0.860.12 / 0.190.17 / 0.320.12 / 0.250.22 / 0.430.20 / 0.39Ours0.30 / 0.620.09 / 0.150.15 / 0.310.12 / 0.240.19 / 0.440.17 / 0.35Table 1: Evaluation results on the ETH and UCY datasets for next 12 timestep prediction. Numbers are taken from the minimum ADE/FDE of 20 randomlyevaluated samples, denoted as Min20. Though Linear is deterministic, we list it here as a sanity check. Bolded numbers indicate best performance.in recent work [42, 41], to combat overﬁtting. We ﬁnd thisaugmentation unnecessary for the SDD dataset, which indi-cates SDD is more balanced. Empirically, we set the γ-Soft-DTW smoothing parameter to γ = 2. The social attentionthreshold in Sec. 2.3 is set to 100 pixel distance for SDDand 3 world distance for ETH/UCY, cf. [29, 41].3.3. Overall prediction resultsETH and UCY datasets. Table 1 shows comparativeresults for our algorithm vs. various alternatives. Ours per-form on-par with the previous best method Trajectron++ onthe average ADE (i.e., 0.17 vs. 0.20), while further reduc-ing the FDE by 10% on average, with the biggest improve-ment happening in the ETH subset (e.g., around 30%). Weﬁnd the lowest absolute displacement error in both ADE andFDE when evaluated on the HOTEL subset, i.e., 0.09/0.15.The overall relative success of our approach can be ex-plained by the discrepancy in data use. Trajectron++ usesthe full future trajectory (i.e., more than just goal positions)to learn a latent structure in training. This structure is sup-posed to implicitly provide future information for testing.In contrast, we go further to use goal information more ex-plicitly in both training and testing. (We further explore thepecularities of the HOTEL dataset in the ablation studies.)Especially, when compared with two other goal-basedmethods, i.e., Goal-GAN [6] and PECNet [29], ours hasshown to be more effective, likely for two reasons: First,both methods use deep generative models with a ﬁxed priordistribution (standard Gaussian) to approximate the goaldistribution. This paradigm has been found suffering fromdiversity collapse as well as limited sample quality [49];second, their methods are constrained to modelling the di-versity of goal positions, not that of other trajectory points,which naturally lose the ability to cover a diverse set of mid-way trajectories. Instead, ours uses a nonparameteric ap-proach to goal retrieval, which decouples the goal inferencefrom subsequent trajectory sampling, and therefore reprior-itizes the sampling on the overall trajectories.SDD dataset. The evaluation results on this dataset canModelADEFDEMC ↑F ↑Goal-GAN [6]0.551.0392.4889.47Ours0.520.9794.6791.93Figure 4: Illustration of the feasibility quality of our results on the SDDHyang4 scene. Most of our goal retrievals (green ﬂags) are reasonablyclose to GT goals (yellow ﬂags) and our trajectory predictions (green dot-ted lines) respect road boundaries. See text for deﬁnition of metrics.be viewed in Table 2 (i.e., Ours). Looking especially atthe goal based methods (Goal-GAN [6], PECNet [29] andOurs), it is seen that more desirable performance is ob-served when compared to all others (e.g., graph neural net-work based EGraph [25], scene image conditioned CGNS[24] and the rest [12, 39]). These results show solid im-provement from incorporating goal information into trajec-tory forecasting. Notably, our approach again achieves bestresults overall. Similar to the earlier discussion, we can ex-plain these improvements in terms of goal search with re-spect to an expert repository being more effective than al-ternatives, which we further document in Sec. 3.5.To explore further the possible performance of ourmodel, we also show results from full twelve step trajectorysampling given retrieved goals (denoted as ours-F), ratherthan the standard protocol we report elsewhere, i.e. usingthe goal prediction (or retrieval) results for FDE and thenmerging them with the ﬁrst eleven timestep trajectory sam-pling for ADE. If allowed, our model produces exceptionalresults on FDE (e.g. 9.03 vs. 14.38) through reﬁnement ofinitial goal estimates. This result suggests that current goal-based evaluation does not adequately consider the power ofgoal-based estimators to inﬂuence ﬁnal destinations.763476350在最小20个样本上的评估指标（ADE/FDE）0指标 S-GAN -[12] Sophie [39] CGNS [24] EGraph [25] Goal-GAN [6] PECNet [29] 我们的方法我们的方法-F0ADE 27.23 16.27 15.6 13.9 12.20 9.96 7.69 7.51 FDE 41.44 29.38 28.2 22.9 22.10 15.88 14.38 9.030表2：在SDD数据集上对未来12个时间步长轨迹预测的评估结果。数字取自20个随机评估样本的最小值，表示为Min20。F表示在给定检索到的目标的情况下，对所有未来12个步骤进行采样，以揭示所提出方法的全部能力。0匹配 D(∙) ADE 时间0DTW-Dual. 7.69 10.9msDTW-Vel. 7.95 7.1msDTW-Geo. 8.68 7.1msEuc.-Vel. 8.43 6.2ms Euc.-Geo.9.01 6.2ms0(a) 目标搜索比较0方法 ADE 参数0Goal-Shift 7.69 � Goal-Cat10.74 � Goal-Cat2 9.06 �Goal-Res 11.43 �0(b) 目标使用比较0表3：在SDD上的准确性和搜索速度与匹配函数以及准确性与目标编码的消融研究。详见正文。3.4.专家示例的可行性0为了进一步验证我们的方法，我们使用SDDHyang-4场景上的可行性评估协议[6]进行了额外的比较；结果见图4。值得注意的是，为此设计了两个额外的指标：模式覆盖率（MC），用于衡量目标预测（或我们方法中的目标检索）与地面真实目标之间的距离，最多为2米（红色虚线圆圈）；以及F，表示位于可行区域内的轨迹比例（手动分割的道路边界）。在不使用任何目标学习的情况下，我们的结果优于Goal-GAN[6]。我们将这归因于专家目标示例遵守环境约束，例如保持在人行道上。详见补充材料。03.5. 消融研究0目标搜索效率。我们的搜索引擎实时运行，这要归功于三个主要因素：首先，可以使用CUDA加速计算的松弛软动态时间规整[5]；其次，对于在专家库中测试轨迹的K个最近邻的快速搜索[31]；第三，搜索的数据实体具有低维度，即每个条目是八个时间步长轨迹的位置和速度的连接。因此，每个测试条目的抓取最近的20个目标示例的成本约为10毫秒。表3a提供了其他匹配选项及其效率的详细研究。Geo.、Vel.和Euc.分别表示地理位置、速度和欧氏距离。我们提出的方法被表示为DTW-Dual。目标信息的使用。鉴于现有的工作已经转向不同的策略来使用目标信息，我们进行实验来系统地验证它们。具体而言，我们研究了四种目标使用策略：我们提出的Goal-Shift（方程4）将目标位置从输入轨迹中减去；Goal-Cat将目标与原始输入在编码之前连接起来；Goal-Cat2将目标与原始输入在编码之后连接起来。0在特征空间中对Nate的编码目标和输入进行了研究，参见[

下载后可阅读完整内容，剩余1页未读，立即下载