具有双向增强的类别不可知运动预测的空间-时间集成网络

163 浏览量更新于2023-10-25 收藏 12.62MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Yunlong Wang1,2*†, Hongyu Pan1†, Jun Zhu1, Yu-Huan Wu1,3*, Xin Zhan1, Kun Jiang2‡, Diange Yang2‡170930BE-STI：具有双向增强的类别不可知运动预测的空间-时间集成网络01阿里巴巴达摩学院，2清华大学，3南开大学0摘要0确定无穷类别的交通参与者的运动行为对于自动驾驶至关重要。近年来，从捕获的传感器数据（如LiDAR点云或点云和图像的组合）直接执行类别不可知运动预测引起了人们的关注。当前的运动预测框架倾向于执行联合语义分割和运动预测，并面临这两个任务之间的性能折衷。在本文中，我们提出了一种新颖的空间-时间集成网络与双向增强（BE-STI），通过空间语义特征来提高时间运动预测性能，这指出了一种有效的方式来结合语义分割和运动预测。具体而言，我们提出了通过临近帧之间的相似性增强每个单独点云的空间特征，并通过粗到精的方式增强非相邻帧之间的空间差异来增强全局时间特征。在nuScenes和Waymo开放数据集上进行了大量实验证明，我们提出的框架仅使用点云作为输入，优于所有最先进的基于LiDAR和基于RGB + LiDAR的方法。101. 引言0现代自动驾驶车辆预计在高度动态的移动物体的开放交通场景中运行，而不仅仅是在封闭场景中[1, 19,32]。无穷类别的交通参与者的运动对于自动驾驶系统的安全至关重要。传统方法倾向于将这个任务定义为轨迹预测[1-5, 11, 14, 42, 44,45]，这缺乏处理在训练集中没有见过的意外类别的能力，因为它依赖于一个单独的对象0* 本工作是在阿里巴巴达摩学院担任研究实习生期间完成的。† 同等贡献。‡通讯作者。1 代码将在https://github.com/be-sti/be-sti上发布。0运动0语义分割0语义分割0运动0GTP0TeSE SeTE0骨干0骨干运动解码器0解码器0语义解码器0以前0框架0BE-STI0图1.BE-STI与以前的运动预测框架的比较。上排：以前的框架，采用全局时间池化（GTP）来捕获运动线索。下排：我们提出的BE-STI框架。0检测器[27-29, 40, 41]。场景流[7, 8, 15, 18, 20, 33,36]通过直接从LiDAR点云中估计密集的运动场提供了一种有吸引力的解决方案，这对于实际的自动驾驶系统来说是计算上禁止的[17,35]。最近的研究试图基于BEV占用栅格执行联合语义分割和运动预测，这本质上解决了一个联合优化问题，因此面临着上述两个任务之间的性能折衷。本文的目标是探索一种更好的方法来结合语义和运动的两个任务，该方法利用双向增强网络通过更准确的空间语义特征来改善运动预测性能。0有人可能会问：语义信息是否有助于运动预测？我们首先通过一个玩具例子来回答这个问题。如表1所示，我们将MotionNet[35]（先前的最先进（SOTA）基于LiDAR的运动预测框架）与语义真值（GT）作为额外输入进行比较，结果表明它在性能上超过了先前的工作。具体而言，我们首先使用体素中点的分割GT来计算170940方法运动预测平均误差（米） ↓0静态速度 ≤ 5 m/s 速度 > 5 m/s0MotionNet [35] 0.0201 0.2292 0.9454 MotionNet+ GT seg0.0015 0.2139 0.79900表1. 在nuScenes上的运动预测任务性能。0将分割类别的分布作为分割向量，并将该向量与原始输入结合起来得到一个新的输入。因此，我们确认高质量的语义信息对于运动预测任务有积极的影响。为此，我们在我们的主干网络和运动解码器之间引入了一个语义解码器，以获得更准确的语义信息。考虑到单帧激光雷达信息的稀疏性以及相邻的激光雷达帧描述相似的场景，时间信息有助于提取更稳定和准确的空间语义信息。鉴于此，我们提出了一个时空增强的空间编码器（TeSE），以更好地对每个单独帧进行空间理解。TeSE用于捕捉相邻帧的共同特征，并将其合并到每个单独帧的特征图中。这样，通过相邻帧可以有效地弥补由于激光雷达点的稀疏性而导致的个体空间理解的困难。我们框架的另一个关注点是如何充分利用我们的语义解码器生成的语义信息。为了高效有效地利用语义特征，我们在语义解码器和运动解码器之间引入了一个时空增强的时间编码器（SeTE），用于通过发现时间上的空间变化来捕捉运动线索。需要注意的是，时间上非相邻的帧描述了不同的场景，我们引入SeTE来捕捉时间通道中非相邻帧的有区别的特征，并将其输入到运动解码器中。我们将我们提出的新型无类别运动预测网络命名为双向增强的时空集成网络（BE-STI）。我们在图1中对BE-STI和之前的框架进行了比较。可以看出，除了传统的主干网络和运动解码器外，我们引入了三个堆叠的模块：（1）TeSE，用于通过时间共同特征进行空间特征增强；（2）语义解码器，用于通过辅助语义信息渲染运动预测模块；（3）SeTE，用于通过空间有区别的特征增强时间运动特征。BE-STI的实现非常简单但高效。所有模块都由几个堆叠的2D和3D卷积层构建。在只使用激光雷达点云输入的情况下，BE-STI在nuScenes数据集上以超过22Hz的速度运行，超过了所有先前基于激光雷达和RGB+激光雷达的SOTA方法。0我们的贡献可以总结如下：•我们提出了一种新颖的无类别运动预测框架，名为BE-STI，广泛探索了语义信息对运动预测的益处。在我们的框架中，借助辅助语义信息，运动预测性能显著提高。•我们提出了TeSE和SeTE来进行空间和时间特征提取的双向增强，其中TeSE有助于对每个单独帧进行空间理解，而SeTE通过提取空间有区别的特征来捕捉高质量的运动线索。•在nuScenes和Waymo OpenDataset（WOD）上进行了大量实验证明，BE-STI框架在性能上显著优于先前的SOTA方法。02. 相关工作02.1. 轨迹预测0轨迹预测旨在根据历史观测来预测一些典型对象的未来位置[3, 5, 11, 42, 44]，通常涉及三个子模块：检测[12, 21, 22,27-29, 39-41, 47]，跟踪[10, 26, 30, 34, 37, 38, 43, 46,48]和预测[1, 2,4]。主流方法之一[5]是以级联方式预测对象轨迹，其中三个子模块分别接收前一个子模块的输出。考虑到这些子模块之间的有限信息共享，这种策略牺牲了联合优化的潜在优势。另一种方法[44]设计了一个端到端的神经网络来同时执行三个任务，并取得了很大的性能提升。然而，这种方法在优化网络时更加困难且耗时更长。与轨迹预测相比，我们提出的方法更加关注运动信息的捕捉，并且摆脱了对检测结果的依赖。当检测不准确或者训练集中没有见过的移动物体（例如球、小动物）时，我们的方法仍然能够提供准确的运动预测，从而提高了自动驾驶车辆系统的完整性。02.2. 流动估计0这个任务旨在估计从过去到当前时间的流动以描述运动。3D流动，也称为场景流动[7-9, 15, 18, 20, 33,36]，是最近的一个热门研究课题。该任务是从LiDAR点云中估计运动，并附加每个点一个3D向量来表示密集的3D运动场。当前的场景流动方法是在经过密集处理的数据KITTIScene Flow [7]或合成数据FlyingThings3D[18]上进行训练和测试的。然而，直接将这些方法应用于Conv2DConv2DResBlock1-1ResBlock1-2ResBlock2-1ResBlock2-2ResBlock3-1ResBlock3-2UpsamplingConvUpsamplingConvUpsamplingConvUpsamplingConvUpsamplingConvUpsamplingConv170950T � � � �0T � � � �0T �02 � �0T � 04 � �0T � 08 � �0T � � � �0T �02 � �0T � 04 � �0T � 08 � �0T � � � �0TeSE0语义解码器0�0�0�0运动解码器0SeTE0� � �0� 2 � �0� 4 � �0� 8 � �0� � �0�0�0�0主干网络0TeSE0TeSE0TeSE0SeTE0SeTE0SeTE0图2. 具有双向增强的空间-时间集成网络（BE-STI）的架构。左：主干网络。中间：空间语义解码器阶段。右：时间运动解码器阶段。0由LiDAR获取的真实点云，过去和当前点云中的点之间没有一对一的对应关系。由于自动驾驶系统很少关注周围车辆的垂直运动，越来越多的趋势是在BEV中估计运动并预测未来位置[6, 13, 17, 23, 35]。MotionNet[35]是这个方向上的先前工作，它提出在2DBEV地图上同时进行感知和运动预测。PillarMotion[17]提出了一种基于跨传感器的自监督方法，通过从RGB图像中获取额外的光流监督来训练MotionNet[35]，当将自监督模型与监督微调相结合时，显著提高了运动预测的准确性。尽管我们认为这两个任务之间存在相互促进的关系，但两个任务所需的信息是非常不同的。因此，我们认为使用相同的特征来解决像MotionNet[35]这样的两个任务是不合适的。我们提出的方法探索了一种更好的方式来结合这两个任务，首先提取更准确的语义特征，然后使用这个特征获取运动信息。通过TeSE和SeTE增强空间和时间的关系，网络具有提取更好的语义和运动信息的能力。03. 提出的方法03.1. 问题阐述0给定由移动自动驾驶车辆获取的LiDAR点云的时间序列，首先应用MotionNet[35]中描述的自车运动补偿模块将所有过去的帧同步到当前帧。0自车坐标系。我们将时间t的每个同步点云表示为Pt={Pti}Nti=1，其中Pti∈R3表示点的坐标，Nt是点的数量。然后将Pt离散化为密集的3D体素Vt∈{0,1}H×W×C，其中空体素用0表示，非空体素用1表示，H、W、C分别是沿X、Y和Z轴的体素数量。然后，我们将Vt表示为一个2D伪图像，其中垂直维度对应于图像通道，可以视为具有C个通道的BEV地图。因此，BEV运动场被定义为每个网格到其下一个时间戳对应位置的移动，可以表示为Mt∈RH×W×2。每个点Pti的运动简单地被认为是相应BEV网格的运动。03.2.双增强的时空网络0如第1节所述，玩具示例的预实验结果证明了语义信息对运动预测任务的改进。为此，我们在我们的框架中引入了一个语义解码器，以提高运动预测的性能。鉴于LiDAR点的稀疏性使得在进行高质量的空间理解时变得困难，而时间相邻帧捕捉到类似的场景，我们在我们的框架中引入了TeSE来对每个单独的帧进行更好的空间特征提取，以辅助全局时间特征。此外，我们还设计了一个SeTE模块，通过非相邻帧的空间区分特征高效地捕捉时间运动线索。整体结构如图2所示。⊕⊕⊕⊕⊕𝑻𝟏𝑻𝟓𝑻𝟑𝑻𝟐𝑻𝟒170960� � � "" � � � "" � � � "" � � � "" � � � ""0� � � � � � � � � �0⊕ ⊕ ⊕0⊕0图3. 时间增强的空间编码器（TeSE）0⊕0⊕ ⊕0图4. 空间增强的时间编码器（SeTE）03.2.1 时间增强的空间编码器0我们确认通过引入更好的语义特征可以进一步提高运动预测的性能。注意到点云的稀疏性使得空间理解变得困难，而相邻帧描述了相似的场景，时间共同特征可以有助于每个单独帧的空间特征编码。因此，我们在这里引入TeSE来提取相邻帧的共同特征，并将其反馈到每个单独帧的特征图中。TeSE包括两个阶段：全局时间特征提取和个体-全局特征融合，见图3。全局时间特征提取由多个堆叠的3D卷积层组成，卷积核大小为k×3×3，其中k对应于时间维度。在此阶段，时间维度逐渐减小到1，通道增加到T倍，分别对应于T帧的全局特征表示。实际上，我们应用一个卷积核大小为3×3的2D卷积层和一个卷积核大小为k×1×1的3D卷积层来替代k×3×3卷积，以减少模型复杂性。在个体-全局特征融合阶段，提取的全局时间特征沿通道被分成T部分，并与序列中每个单独伪图像的特征图堆叠。然后，对于每对个体-全局特征图，应用一个卷积核大小为2×3×3的3D卷积层，以增强空间特征编码。03.2.2 空间增强的时间编码器0注意，对象的运动线索在场景变化中是隐含的，主要由“0非相邻帧之间的区分特征。SeTE在这里引入，通过发现随时间变化的空间变化来捕捉非相邻帧的高质量运动信息。以往的工作通常采用全局时间池化（GTP）来捕捉时间特征，它对所有时间帧都给予相同的关注。我们注意到，两个具有不同时间间隔的帧之间的组合可以提供不同的运动线索。具体而言，根据时间序列中第一帧和最后一帧之间的比较，可以粗略确定每个对象的移动速度和运动状态。然后，可以将时间中间帧提供的轨迹线索应用于建模细微运动。为此，给定一系列编码每帧空间特征的特征图。这里以T =5帧为例。序列中帧之间的顺序如图4所示。在SeTE中，首先应用一个卷积层，卷积核大小为2×3×3，用于捕捉第一帧和最后一帧的特征，也用于捕捉第二帧和倒数第二帧的特征，依此类推。然后，将生成的两个特征图与中间帧一起输入到一个3×3×3卷积中，以捕捉全局运动特征。03.2.3 BE-STI框架的架构0我们提出在BE-STI框架中充分利用语义信息来提高运动预测性能。除了（1）在运动预测网络设计过程中如何引入语义特征提取之外，还存在另外两个问题需要解决：（2）如何对每个伪图像进行更好的空间特征提取，这对于更好的语义理解至关重要；（3）如何基于每个伪图像的空间语义特征表示聚合时间特征。为了解决上述问题，除了传统的骨干网络和运动解码器外，我们在BE-STI框架中引入了额外的三个模块：TeSE、语义解码器和SeTE。如图2所示，我们直观地将整个框架分为两个阶段，即空间语义阶段和时间运动解码器阶段。空间语义解码器阶段。给定一系列伪图像，我们应用四个堆叠的块作为骨干，提取每个单独图像的多尺度特征图。除了第一个块，它由两个步长为1的2D卷积组成，其他三个块由经典的2DResBlocks构建。每个块通过包含步长为2的卷积的第一层在空间维度上将特征图下采样一半。注意，每个伪图像都是单独操作的，没有下采样或任何其他操作。170970在时间维度上，对于每个空间尺度上的特征图序列，我们应用TeSE来增强每个单独伪图像的空间特征表示，然后应用自下而上的语义解码器来合并不同空间尺度上的图像特征图，该解码器由堆叠的上采样块组成。每个块由堆叠的上采样、连接和卷积层构建。语义解码器的输出是一系列与输入伪图像相同大小的特征图，其中每个特征图对应一个伪图像。在空间语义阶段，我们使用语义分割任务来监督特征学习。时间运动解码器阶段。时间运动解码器阶段的输入是由语义解码器的上采样块生成的每个单独伪图像的多尺度特征图。对于每个空间尺度上的特征图序列，我们应用SeTE来捕捉空间判别特征。然后，将多尺度上的空间判别特征传递给自下而上的运动解码器，该解码器的结构与语义解码器相同。运动解码器的输出然后被馈送到与MotionNet中描述的相同的头部：（1）运动预测头部，用于预测BEV伪图像中每个网格单元的未来位置；（2）状态估计头部，用于预测一个单元是静止还是移动；（3）单元分类头部，用于预测每个单元的语义。注意，单元分类结果仅用于对前景单元和背景单元进行分类，以抑制背景单元的抖动。运动预测头部不依赖于单元分类结果，并且能够预测训练集之外的未知对象的运动。03.2.4 损失函数0我们提出的BE-STI网络在四个头部关联的四个损失的辅助下进行训练，这些头部是（1）运动预测头部、状态估计头部和运动解码器之后的单元分类损失；（2）空间编码器之后所有伪图像的语义分割损失。运动预测损失。我们对运动预测头部应用加权平滑L1损失，其中每个类别被分配一个权重，以平衡不同类别中的网格单元数量：0Lmot = 10i =1 wi ∙SmoothL1(xmot，i，xgtmot，i) (1)0其中SmoothL1(∙)是平滑L1损失，N是当前伪图像中非空网格单元的数量，xmot，i是每个非空单元的预测位移，xgtmot，i是相应的真实值，wi是分配给不同类别的权重。0不同类别：0wi =0�0.005，第i个单元∈背景1.0，否则(2)0运动状态估计损失。我们采用交叉熵损失进行运动状态估计头部的训练：0Lstate =10i =1 wi ∙ CE(xstate，i，xgtstate，i)(3)0其中CE(∙)是交叉熵损失，N是当前伪图像中非空网格单元的数量，xstate，i是每个非空单元的预测运动状态，xgtstate，i是相应的真实值，wi是分配给在方程(2)中定义的单元类别的权重。单元分类损失。我们还为单元分类头部应用交叉熵损失：0Lcls = 10i =1 wi ∙ CE(xcls，i，xgtcls，i) (4)0其中xcls，i是每个非空单元的预测类别，xgtcls，i是相应的真实值。CE(∙)，N和wi在运动状态估计损失中已经定义。语义分割损失也采用交叉熵损失：0Lseg = 10T01Nt0i =1 wi ∙ CE(xtseg，i，xt,gtseg，i) (5)0其中CE(∙)是交叉熵损失，T表示伪图像的数量，Nt是第t个图像中非空网格单元的数量，xtseg，i是每个非空单元的预测类别，xt,gtseg，i是相应的真实值，wi在方程(2)中已经定义。因此，BE-STI的训练总损失定义如下：0L = λmot �Lmot + λstate �Lstate + λcls �Lcls + λseg �Lseg (6)0其中λmot，λstate，λcls和λseg是调整四个子任务重要性的平衡因子。04.实验0BE-STI的性能在nuScenes数据集的BEV运动预测基准上进行评估。我们首先在第4.1节介绍实验设置。在第4.2节中，我们报告主要结果，包括与SOTA方法的比较、运行时分析和定性结果。最后，在第4.3节中，我们进行了广泛的消融研究，分析了BE-STI网络，包括在WOD上的MotionNet和BE-STI的实现[31]。04.1.实验设置0数据集。所有实验都在一个大规模的自动驾驶数据集nuScenes上进行，该数据集提供了完整的170980图5.所提出的BE-STI框架的定性结果。顶部行：真实值。底部行：BE-STI预测。我们用箭头表示每个网格的运动。单元分类结果用不同的颜色表示。青色：背景；粉色：车辆；黑色：行人；黄色：自行车；红色：其他。0自动驾驶车辆传感器套件，包括1个激光雷达、6个摄像头、5个雷达、GPS和IMU，全方位覆盖周围环境。nuScenes总共由1000个场景组成，其中150个场景用作测试集，无法访问其注释。因此，我们总共有850个带有地面真实注释的场景，其中500个场景用于训练，100个场景用于验证，250个场景用于测试，遵循之前的工作的传统方法[17,35]。对于每个场景，我们只在网络的训练和测试过程中利用激光雷达点云。激光雷达点云的采集频率为20Hz，注释频率为2Hz。此外，每个场景的激光雷达点云序列持续约20秒。如[35]所述，可以从用于检测和跟踪任务的边界框注释中推导出地面真实运动。实现细节。为了公平比较，我们遵循之前的工作[17,35]采用相同的数据预处理设置，其中输入点云在[-32m，32m]×[-32m，32m]×[-3m，2m]范围内裁剪，体素大小分别设置为0.25m×0.25m×0.4m沿XYZ轴。激光雷达点云的序列长度设置为五，其中最后一个对应于当前时间，而前四个帧来自过去的时间。相邻帧之间的时间间隔为0.2秒。对于辅助语义分割和单元分类任务的训练，定义了五个类别：背景、车辆、行人、自行车和其他，其中“其他”表示训练数据之外具有不同外观和运动行为的未知对象。如图2所示，BE-STI网络的输入是一个大小为5×13×256×256的4D张量，其中5、13、256分别对应于时间、通道和空间尺寸。0首先，我们应用两层2D卷积将其通道大小提升到32。然后，我们应用堆叠的ResBlocks将空间大小逐渐减小到128、64、32，并将通道大小逐渐提升到64、128、256。所有张量的大小保持不变，而时间大小通过SeTE从5减少到1。我们的BE-STI框架使用Pytorch实现，并使用AdamW[16]优化器进行两个阶段的训练。对于nuScenes数据集，我们在8个Tesla V100GPU上以批量大小16进行70个epoch的训练。我们将初始学习率设置为0.002，并在第20、40、50和60个epoch时将其衰减0.5倍。在开始的30个epoch中，我们设置λmot =λstate = 1.0，λcls = λseg =2.0，并在最后40个epoch中设置λmot = λstate =1.0，λcls = 2.0，λseg =0.0。目的是首先提高BE-STI的空间特征提取能力，然后使模型专注于运动预测任务。在我们最佳模型的训练中，我们采用多梯度下降算法（MGDA）[25]，在进行消融研究时禁用它。评估指标。按照MotionNet[35]的方法，我们将非空单元格分为三组，根据它们的速度分为静态（≤0.2m/s）、慢速（≤5m/s）和快速（>5m/s）。然后，我们报告每组的平均预测误差和中位预测误差，即预测位移与真实位移之间的L2距离，预测时间为1秒。此外，我们还报告了辅助细胞分类任务的性能。在这里，我们报告所有非空单元格的平均准确率和所有五个类别的平均准确率，分别表示为整体准确率（OA）和平均类别准确率（MCA）。04.2. 主要结果0与SOTA方法的比较。我们在表2中广泛比较了我们提出的BE-STI框架与各种已发布的算法。根据modality of training data, all published methods can becategorized into LiDAR-only methods and RGB+LiDARmethods, where PillarMotion is the one trained with well-calibrated RGB images and LiDAR points. As can be seen,our method reports a novel SOTA result with reference tothe mean prediction error on slow and fast moving objectscompared with all previous works. Specifically, when com-pared to LiDAR-only methods, our BE-STI framework out-performs the previous SOTA method MotionNet [35] witha great margin of 0.1943m mean error and 0.0767m me-dian error for the fast speed group, 0.0177m mean errorand 0.0023m median error for the slow speed group. Evencompared to the previous best RGB+LiDAR method Pil-larMotion [17], BE-STI still outperforms it with a marginof 0.0273m mean error for the fast speed group, 0.0171 mmean error for the slow speed group. We also report theauxiliary cell classification results of our proposed methodin Tab. 3. As we can see, our method performs higher accu-racy on all of movable objects and MCA. The experimentalresults show our proposed method is a better way to com-bine the segmentation and motion tasks.Runtime analysis. For autonomous driving systems, theLiDAR point cloud processing time should be strictly nomore than 100ms. At the inference stage, our whole modelruns as 45ms on a single Tesla V100 GPU, where the pointcloud transformation and voxelization use 10ms and the for-ward procedure of our model takes 35ms. Therefore, ourBE-STI network has the potential of practical applicationon self-driving systems.Qualitative results. We show the qualitative results of170990方法模态静态速度≤5m/s 高速速度>5m/s0平均↓ 中位↓ 平均↓ 中位↓ 平均↓ 中位↓0FlowNet3D [15] L 0.0410 0 0.8183 0.1782 8.5261 8.0230 HPLFlowNet [8] L 0.0041 0.0002 0.44580.0960 4.3206 2.4881 PointRCNN [28] L 0.0204 0 0.5514 0.1627 3.9888 1.6252 LSTM-ED [24] L0.0358 0 0.3551 0.1044 1.5885 1.0003 MotionNet [35] L 0.0201 0 0.2292 0.0952 0.9454 0.6180PillarMotion [17] I&L 0.0245 0 0.2286 0.0930 0.7784 0.4685 BE-STI (我们的方法) L 0.0220 0 0.21150.0929 0.7511 0.54130表2.在nuScenes上与SOTA结果的比较。我们报告了三组的平均和中位误差，即静态网格、速度≤5m/s的移动网格和速度>5m/s的移动网格。L：基于LiDAR的方法。I&L：基于图像+LiDAR的方法。0方法分类准确率（%）↑0背景车辆行人自行车其他 MCA OA0PointRCNN [28] 98.4 78.7 44.1 11.9 44.0 55.4 96.0 LSTM-ED [24] 93.891.0 73.4 17.9 71.7 69.6 92.8 MotionNet [35] 97.0 90.7 77.7 19.7 66.370.3 95.8 BE-STI (我们的方法) 94.6 92.5 82.9 25.9 77.3 74.7 93.80表3. 在nuScenes上辅助细胞分类任务的性能。0我们在图5中展示了我们的BE-STI结构，其中底部一行列出了我们的预测结果，顶部一行列出了相应的真实值。预测的运动由附加在每个网格单元上的箭头表示，其长度和方向表示未来1秒的位移。正如我们所看到的，BE-STI在BEV网格单元上产生了高质量的运动预测结果。04.3. 消融研究0我们首先评估了BE-STI中每个单独组件的贡献，见表4。对于从(a)到(d)的每个实验，模型都是由列出的模块以及第3.2节中提到的骨干和运动解码器一起构建的。除了全局时间池化（GTP）是MotionNet[35]中提出的外，SeTE、TeSE和语义解码器是我们BE-STI框架中设计的单独组件。(a)基线方法，采用GTP；(b)SeTE；(c)SeTE和语义解码器；(d)我们的完整模型，采用TeSE、SeTE和语义解码器。比较(b)和(a)，我们可以看到引入SeTE可以显著降低所有三组单元的预测误差，并略微增加分割的MCA。实验证明，空间信息对于提取更好的时间特征非常有帮助。值得注意的是，我们只用SeTE替换了GTP，性能已经超过了MotionNet[35]。语义解码器。比较(c)和(b)，MCA显著提高，因为语义解码器结合了低级和高级特征，有助于获取更详细的空间特征。同时，所有三组单元的预测误差也有所降低，这证明高质量的语义特征有助于提取运动信息。TeSE。比较(d)和(c)，MCA进一步降低，因为TeSE利用时间信息增强了语义特征，缓解了单帧中稀疏信息的问题。毫不奇怪，移动物体的预测误差也进一步降低，(e)(f)0.041500.20930.09300.72450.5411(g)0.022000.21150.09290.75110.5413(h)0.022300.21030.09270.75100.5413set.et.171000方法 GTP TeSE Sem. Decoder SeTE 静态速度≤5m/s速度>5m/s MCA↑平均↓中位数↓平均↓中位数↓平均↓中位数↓0MotionNet [35] � 0.0256 0 0.2565 0.0962 1.0744 0.7332 70.3 (a) � 0.0250 0 0.3014 0.0971 1.6326 0.8889 69.8 (b) � 0.0249 0 0.24770.0959 1.0429 0.7203 70.6 (c) � � 0.0224 0 0.2391 0.0949 0.9376 0.6404 72.9 (d) � � � 0.0244 0 0.2375 0.0950 0.9078 0.6262 74.80表4. 我们的模型在nuScenes上使用不同组件组合的性能比较。这里列出的模型是没有使用MGDA [25]实现的，纯粹用于组件的评估。0补充静态速度≤5m/s速度>5m/s0平均↓中位数↓平均↓中位数↓平均↓中位数↓0表5. nuScenes上不同后处理方法的运动预测误差。0方法运动预测平均误差（m）↓0静态速度≤5m/s速度>5m/s0MotionNet [35] 0.0248 0.2950 1.3663 BE-STI（我们的）0.02440.2850 1.15940表6. Waymo开放数据集上的运动预测平均误差。0方法分类准确率（%）↑0背景车辆行人自行车其他MCA OA0MotionNet [35] 96.7 99.0 86.2 56.2 66.9 81.0 96.4BE-STI（我们的）95.3 99.4 90.0 76.7 79.0 88.1 95.10表7. Waymo开放数据集上的分类准确率。0这再次证明更准确的语义信息对于提取运动线索更有帮助。后处理方法。表5显示了不同后处理方法的效果。我们广泛评估了几种抑制方法，包括：(e)没有后处理；(f)如果预测的运动小于0.2m/s，则相应单元的最终运动决策为零；(g)如果预测的运动小于0.2m/s或单元被预测为静态或属于背景，则相应单元的最终运动决策为零；(h)如果单元被预测为静态或属于背景，则相应单元的最终运动决策为零。从表5中可以发现，我们提出的方法几乎不会根据(f)和(e)的比较为快速移动的物体预测一个非常小的流量。此外，将(g)与(f)进行比较，运动状态和分割有助于显著抑制抖动。为了公平比较，我们采用了(g)，即之前的工作[17,35]采用的方法，作为我们的最终结果。在Waymo开放数据集上的性能。为了进一步比较，我们在0WOD[31]。除了将训练轮数设置为25之外，实现细节与nuScenes相同。在预处理后，共生成了146534个样本，其中142919个样本用于训练，3615个样本用于测试。对于运动预测任务，如表6所示，BE-STI在静态、缓慢和快速组别上的平均误差分别比MotionNet高0.0004m、0.0100m和0.2069m。对于语义分割任务，我们的BE-STI仍然在所有可移动对象和MCA上具有更高的分类准确性。05. 结论0我们提出了BE-STI，一种从LiDAR点云进行类别无关运动预测的新框架。我们的框架涉及一个TeSE，它根据时间相邻帧之间的相似性为每个单独的点云执行空间特征增强，以及一个SeTE，它根据非相邻帧之间的空间差异执行全局时间特征增强。nuScenes数据集上的实验结果表明，与先前发表的方法相比，我们提出的BE-STI框架显著提高了运动预测性能，并报告了一种新的SOTA结果。此外，我们还探索了语义分割和运动预测之间的双向增强，为分割、预测等各种感知任务的组合提供了更高效的方式。我们希望这些发现能促进在开放交通场景中开发更完整的自动驾驶系统。致谢：本工作得到中国国家自然科学基金（U1864203）的支持。它还得到中国国家重点研发计划（Grant NO.2020AAA0108104）的部分支持，以及阿里巴巴创新研究（AIR）计划和阿里巴巴研究实习计划的支持。它还得到中国国家自然科学基金（61903220，52102464）的部分支持，以及共享货车研究项目（HT20082302）的部分支持。171010参考文献0[1] Mayank Bansal，Alex Krizhevsky和Abhijit Ogale。 Chauf-feurnet：通过模仿最好的和合成最差的来学习驾驶。arXiv预印本arXiv：1812.03079，2018年。 1, 20[2] Yuning Chai，Benjamin Sapp，MayankBansal和Dragomir Anguelov。Multipath：用于行为预测的多个概率锚轨迹假设。arXiv预印本arXiv：1910.05449，2019年。 1, 20[3] Ming-Fang Chang，John Lambert，PatsornSangkloy，Jag- jeet Singh，Slawomir Bak，AndrewHartnett，De Wang，Peter Carr，Simon Lucey，DevaRamanan等。Argoverse：具有丰富地图的3D跟踪和预测。在2019年IEEE /CVF计算机视觉和模式识别会议论文集上，第8748-8757页。 1, 20[4] Nemanja Djuric，Vladan Radosavljevic，HenggangCui，Thi Nguyen，Fang-Chieh Chou，Tsung-Han Lin，NitinSingh和JeffSchneider。面向自动驾驶的交通参与者短期运动预测的不确定性感知。在2020年IEEE /CVF冬季计算机视觉应用会议上，第2095-2104页。 1, 20[5] Liangji Fang，Qinhong Jiang，Jianping Shi和BoleiZhou。 Tpnet：用于运动预测的轨迹提议网络。在2020年IEEE /CVF计算机视觉和模式识别会议论文集上，第6797-6806页。 1, 20[6] Artem Filatov，Andrey Rykov和ViacheslavMurashkin。任何运动检测器：从一系列LiDAR点云中学习类别无关的场景动力学。在2020年IEEE国际机器人与自动化会议（ICRA）上，第9498-9504页。IEEE，2020年。 30[7] Andreas Geiger, Philip Lenz, and Raquel Urtasun.我们准备好自动驾驶了吗？kitti视觉基准套件。在2012年IEEE计算机视觉和模式识别会议上，第3354-3361

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

具有双向增强的类别不可知运动预测的空间-时间集成网络

基于卷积双向长短期记忆网络结合注意力机制(CNN-BILSTM-Attention)时间序列预测（Matlab完整源码和数据）

基于麻雀算法(SSA)优化卷积神经网络-双向长短期记忆网络(CNN-BILSTM)时间序列预测，SSA-CNN-BILSTM时间

form-generator 集成

pytorch基于卷积神经网络-双向长短期记忆网络(1DCNN-BILSTM-Attention)的多输入单输出回归预测。

使用卷积神经网络-长短期记忆网络(bi-lstm)-注意力机制对股票收盘价进行回归预测

基于鲸鱼算法(WOA)优化卷积神经网络-双向长短期记忆网络(CNN-BiLSTM)分类预测（Matlab完整源码和数据)

matlab实现bilstm双向长短期记忆神经网络时间序列预测

cnn-bilstm做时间序列预测

做时间序列单步预测，使用LSTM和使用双向LSTM有区别吗

序列模型（5）-----双向神经网络（BRNN）和深层循环神经网络（Deep RNN）

pytorch双向GRU负荷预测

双向长短期记忆网络注意力机制

双向lstm时间序列插值

tensorflow bi-lstm时间序列预测

时间序列数据的深度学习预测模型有哪些比较好？

双向lstm神经网络轨迹跟踪控制

a-range-picker 给默认时间 并且双向绑定数据

绘制下DA-RNN的网络模型结构

基于python的bi-lstm时间预测网络的实现

最新资源

a-range-picker 给默认时间并且双向绑定数据