高效向量变换器：多参与者运动预测

156 浏览量更新于2023-10-25 收藏 12.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Zikang Zhou1Luyao Ye1Jianping Wang1,2Kui Wu3Kejie Lu4{zikanzhou2-c,luyaoye2-c}@my.cityu.edu.hkjianwang@cityu.edu.hkwkui@uvic.cakejie.lu@upr.edu88230HiVT: 分层向量变换器用于多参与者运动预测01 香港城市大学 2 香港城市大学深圳研究院 3 维多利亚大学 4 波多黎各大学Mayag¨uez0摘要0准确预测周围交通参与者的未来动作对于自动驾驶车辆的安全至关重要。最近，基于向量的方法在交通场景中的运动预测领域占据主导地位，因为它们能够捕捉到复杂的交互作用。然而，现有方法忽视了问题的对称性，并且计算成本高昂，面临着在不牺牲预测性能的情况下进行实时多参与者运动预测的挑战。为了解决这个挑战，我们提出了一种用于快速准确的多参与者运动预测的分层向量变换器（HiVT）。通过将问题分解为局部上下文提取和全局交互建模，我们的方法可以有效地模拟场景中的大量参与者。同时，我们提出了一种平移不变的场景表示和旋转不变的空间学习模块，可以提取对场景的几何变换具有鲁棒性的特征，并使模型能够在单次前向传递中对多个参与者进行准确预测。实验证明，HiVT在Argoverse运动预测基准测试中实现了最先进的性能，并且可以进行快速的多参与者运动预测。01. 引言0在动态环境中安全驾驶是自动驾驶车辆的关键任务。为此，自动驾驶车辆需要理解周围环境并预测道路上的未来情况。然而，准确预测附近交通参与者（如车辆、自行车和行人）的未来动作具有挑战性，因为它们的目标或意图可能是未知的。在多参与者交通场景中，一个参与者的行为受到与其他参与者的复杂互动的影响。这些互动进一步与依赖于地图的交通规则交织在一起，使得理解多样化的行为变得极其困难。0场景中多个参与者的行为。最近，基于学习的方法在运动预测任务中展示了其有效性[9, 12, 31, 32, 36,49]。受计算机视觉进展的启发，一些研究将场景栅格化为鸟瞰图像，并应用CNN进行预测[9, 12,25]。尽管这些方法易于使用现成的图像模型实现，但计算成本高昂且具有有限的感受野。鉴于这些限制，最近的研究[17, 31,49]采用了一种基于向量的方法来获得更紧凑的场景表示，该方法从轨迹和地图元素中提取一组向量或点。然后，通过图神经网络[6, 20, 29]、Transformer[46]或点云模型[39,40,47]处理场景，以学习向量化实体（如轨迹航点和车道段）之间的关系。然而，现有的向量化方法在需要在快速变化的交通条件下进行实时运动预测时面临挑战。由于向量化方法通常对参考框架的平移和旋转不具有鲁棒性，为了缓解这个问题，最近的研究将场景规范化为以目标参与者为中心并与目标参与者的行进方向对齐的形式[17, 31,49]。然而，当需要预测场景中大量参与者时，这种补救措施变得有问题，因为重新规范化场景并为每个目标参与者重新计算场景特征的成本很高。此外，现有的方法在空间和时间维度上建模了空间和时间维度上的所有关系，以捕捉向量化实体之间的细粒度交互[38,51]，这不可避免地导致了计算量的增加。由于实时准确预测对于自动驾驶的安全至关重要，因此我们的动力是通过开发一种新的框架来推动最新技术，实现更快速、更准确的多参与者运动预测。简而言之，我们的方法利用了多参与者运动预测问题中的对称性和分层结构。我们将运动预测任务分为多个阶段，并以分层方式建模参与者之间的关系88240基于Transformer的实体之间的交互建模[46]。在第一阶段，我们的框架避免了昂贵的全局交互建模，并仅在本地提取上下文特征。具体而言，我们将场景划分为一组本地区域，其中每个本地区域以一个建模代理为中心。对于每个以代理为中心的本地区域，我们从本地向量化实体中提取上下文特征，这些实体包含与中心代理相关的丰富信息。在第二阶段，为了弥补受限的本地感受野并捕捉场景中的长程依赖关系，我们通过在本地参考框架之间赋予Transformer编码器几何关系来在以代理为中心的本地区域之间进行全局消息传递。最后，给定本地和全局表示，解码器在单次前向传递中为所有代理生成未来轨迹。为了进一步利用问题的对称性，我们采用了一种对全局坐标系的平移不变的场景表示，其中我们使用相对位置来描述所有向量化实体。基于这种场景表示，我们引入了用于空间学习的旋转不变的交叉注意力模块，可以学习对场景旋转不变的本地和全局表示。我们的方法具有以下明显优势。首先，通过将问题分解为本地上下文提取和全局交互建模，我们的方法可以逐渐聚合不同尺度的信息，并以高效的方式对场景中的大量实体进行建模。其次，我们的方法可以通过平移不变的场景表示和旋转不变的空间学习模块学习对输入的平移和旋转具有鲁棒性的表示。第三，与最先进的方法相比，我们的模型可以更快、更准确地进行预测，并且参数更少。我们通过大规模驾驶数据的广泛实验证实了以上所有优势。我们的代码将公开提供。02. 相关工作0交通场景表示。解决运动预测问题需要从交通场景的元素中学习丰富的表示，包括高清地图和代理的过去轨迹。许多研究使用栅格化场景作为模型输入[4, 9, 12, 15, 19, 25,43]，并采用标准图像模型[11, 24, 26,44]进行学习。具体而言，这些方法从高清地图中提取地图元素（例如车道边界、人行横道、交通灯），并使用不同的颜色或掩码将场景渲染为鸟瞰图像。代理的过去轨迹要么作为额外的图像通道进行栅格化[9,12]，要么通过RNN等时间模型进行处理[2, 41,42]。栅格化方法与计算机视觉中成熟的技术兼容，但也昂贵且效率低下。0在学习中。最近，基于向量化的方法[17, 31,49]因其高效的稀疏编码和捕捉复杂结构信息的能力而受到欢迎。与栅格化方法不同，这些方法将场景视为一组与语义和几何属性相关联的实体，并学习实体之间的关系。VectorNet[17]使用图神经网络模拟车道和轨迹折线之间的交互。它也被一些后续工作[22, 32, 52]使用作为骨干网络。LaneGCN[31]从车道段构建车道图，并利用多尺度图卷积网络学习图节点的表示。TPCN[49]将点云模型扩展到由轨迹航点和车道点组成的时空点集上进行学习。我们的场景表示也属于这一类别，但不同之处在于所有向量化实体都由相对位置来描述，使得我们的表示具有平移不变性。0运动预测。由于社交互动在交通场景中普遍存在，并且显著影响交通代理的未来运动，许多运动预测方法考虑了代理行为之间的依赖关系，并使用社交汇聚[2, 13,23]、图神经网络[8, 27, 31, 37]或注意机制[17, 30, 32, 36,38, 43, 48,50]推理代理-代理交互。受Transformer模型[46]在各个领域[5, 7, 14,16]的成功启发，一些最近的工作在运动预测任务中使用Transformer来建模空间关系、时间依赖性以及代理与地图元素之间的关系[21, 30, 32, 36, 38, 50,51]。相比之下，我们的Transformer架构通过层次化地学习本地和全局表示与现有方法不同。这种层次化策略有助于模型学习多尺度特征，并且比那些在空间和时间轴上执行全对全消息传递的方法更高效。此外，我们通过代理为中心的表示来建模多个代理，该表示对场景的平移和旋转不变。层次化架构和对称设计使得我们的方法在参数更少、计算成本更低的情况下实现了最先进的预测性能。03. 方法03.1. 总体框架0我们提出的框架的概述如图1所示。我们首先将交通场景组织为一组矢量化实体。基于这种场景表示，我们的框架在场景中层次地聚合空间-时间信息。在第一阶段，我们为每个代理编码旋转不变的局部上下文特征。自我运动、邻近代理的运动和局部地图结构的聚合可以提供与代理行为相关的丰富信息。88250本地0编码器0本地0编码器0本地0编码器0h ! h " h # "h #0h "0h !0解码器0解码器0解码器0本地区域0h #0h "0全局0交互0h !0轨迹地图0代理本地嵌入全局嵌入位置 + 空间嵌入0多模态预测0A-A0交互0A-A0交互0A-A0交互0时序Transformer0A-L0交互0h !0T-2 T-1 T 本地车道0S !0矢量化场景0图1. HiVT的概述。A-A交互和A-L交互分别表示代理-代理交互和代理-车道交互。0建模代理。在第二阶段，全局交互模块聚合不同代理的局部上下文，并更新每个代理的表示以捕捉长程依赖和场景级动态。最后，层次学习的表示用于同时对所有代理进行多模态轨迹预测。03.2. 场景表示0一个交通场景由代理和地图信息组成。为了以结构化的方式表示场景，我们从场景中提取矢量化实体，包括交通代理的轨迹段和地图数据中的车道段。矢量化实体与语义和几何属性相关联。与以前的矢量化方法[17, 31,49]相比，其中代理或车道的几何属性涉及点的绝对位置，我们的表示避免使用任何绝对位置，并使用相对位置表征几何属性，使得场景成为一个完全的矢量集合。具体来说，代理i的轨迹表示为{pti−pt−1i}Tt=1，其中pti∈R2是代理i在时间步t的位置，T是总历史时间步数。对于车道段ξ，几何属性由p1ξ−p0ξ给出，其中p0ξ∈R2和p1ξ∈R2。0ξ的起始和结束坐标。通过将点集转换为向量集，这种表示自然地保证了平移不变性。然而，也丢失了实体之间相对位置的信息。为了保持空间关系，我们引入了0为了产生参与者-参与者和参与者-车道对的相对位置向量。例如，时间步骤t时，参与者j相对于参与者i的位置向量是ptj-pti，它完整地描述了两个参与者之间的空间关系，并且是平移不变的。在不丢失任何信息的情况下，我们的场景表示确保对其应用的任何可学习函数都必须尊重平移不变性。03.3. 分层向量Transformer0为了在高度动态的环境中准确预测交通参与者的未来轨迹，模型需要有效地学习大量向量化实体之间的时空关系。Transformer [46]在捕捉各种任务中实体之间的长程依赖性方面显示出了潜力[5, 7, 14, 16,33]。然而，直接将Transformer应用于时空实体会遇到O((NT +L)2)的复杂度问题，其中N、T和L分别是参与者数量、历史时间步长和车道段数。为了有效地学习大量实体，我们的模型将空间和时间维度进行因式分解，并仅在每个时间步骤上局部地学习空间关系。具体而言，我们将空间划分为N个局部区域，每个局部区域以场景中的一个参与者为中心。在每个局部区域内，包括轨迹段和中心参与者的局部环境，其中环境信息涉及邻近参与者的轨迹段和周围的局部车道段。j∈Ni,(4)uct. Compared with the standard scaled dot-product atten-tion [46], our variant uses a gating function to fuse the en-vironmental features mti with the central agent’s featureszti, enabling the block to have more control over the featureupdate. Like the original Transformer architecture, our at-tention block can also be extended to multiple heads. Theoutputs of the multi-head attention block are passed throughan MLP block to obtain the spatial embedding sti ∈ Rdh ofagent i at time step t. In addition, we apply Layer Normal-ization [3] before each block and residual connections [24]after each block. In practice, this module can be imple-mented using efﬁcient scatter and gather operations to paral-lelize the learning across all local regions and all time steps.Temporal Dependency.To further capture the tempo-ral information of each local region, we employ a temporalTransformer encoder on top of the agent-agent interactionmodule. For any central agent i, the input sequence of thismodule is composed of the embeddings {sti}Tt=1 returned bythe agent-agent interaction module at different time steps.Similar to BERT [14], we append an extra learnable tokensT +1 ∈ Rdh to the end of the input sequence. Then, we addlearnable positional embeddings to all tokens and stack the88260中心参与者。对于每个局部区域，我们通过按时间步骤顺序对每个时间步骤的参与者-参与者交互、每个参与者的时间依赖性和当前时间步骤的参与者-车道交互进行建模，将局部信息聚合成一个特征向量。聚合后，特征向量包含与中心参与者相关的丰富信息。另一方面，通过对空间和时间维度进行因式分解，计算复杂度从O((NT + L)2)降低到O(NT2 +TN2 +NL)，通过限制局部区域的半径，进一步降低到O(NT2 +TNk + Nℓ)，其中k < N且ℓ

下载后可阅读完整内容，剩余1页未读，立即下载