自动驾驶联合感知和运动预测的鸟瞰图深度模型MotionNet

141 浏览量更新于2023-10-23 收藏 14.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

VehicleWheelchairVehicleWheelchairVehicleWheelchairVehicleWheelchair1113850MotionNet：基于鸟瞰图的自动驾驶联合感知和运动预测0Pengxiang Wu �0罗格斯大学0pw241@cs.rutgers.edu0Siheng Chen 三菱电机研究实验室0schen@merl.com0Dimitris Metaxas罗格斯大学0dnm@cs.rutgers.edu0摘要0可靠地感知环境状态，特别是对象的存在和运动行为，对于自动驾驶至关重要。在这项工作中，我们提出了一种高效的深度模型，称为MotionNet，可以从3D点云中联合进行感知和运动预测。MotionNet以一系列LiDAR扫描作为输入，并输出鸟瞰图（BEV）地图，其中每个网格单元格中编码了对象的类别和运动信息。MotionNet的主干是一种新颖的时空金字塔网络，以分层的方式提取深度的空间和时间特征。为了在空间和时间上保持预测的平滑性，MotionNet的训练还使用了新颖的空间和时间一致性损失进行正则化。广泛的实验证明，所提出的方法整体上优于最新的基于场景流和3D物体检测的方法。这表明了所提出方法作为边界框系统的备份，并为自动驾驶中的运动规划器提供补充信息的潜在价值。代码可在https://www.merl.com/research/license#MotionNet获得。01.引言确定环境状态对于部署自动驾驶车辆（AVs）至关重要[11]。准确的状态信息将有助于运动规划并提供流畅的用户体验。环境状态的估计通常包括两个任务：（1）感知，用于识别前景对象和背景；（2）运动预测，用于预测对象的未来轨迹。在过去的几年中，已经开发了各种方法来独立或联合处理这两个任务，借助深度学习取得了显著的进展[22,5]。在这项工作中，我们考虑从一系列LiDAR点云中联合感知和运动预测。传统的环境感知方法0� 本工作在MERL实习期间完成。03D物体检测MotionNet0（a）LiDAR数据（BEV）0（e）预测的运动（BEV）（f）GT运动（BEV）（d）前置摄像头图像0（b）预测的3D框（BEV）（c）GT 3D框（BEV）03D物体检测0MotionNet0运动规划02. 示例：轮椅上的残疾人01. 自动驾驶系统0跟踪和轨迹预测0带有运动和类别的鸟瞰图LiDAR点云03D边界框0图1.顶部：MotionNet是一种基于鸟瞰图的系统，可以在不使用边界框的情况下同时进行感知和运动预测。它可以作为标准边界框系统的备份，并为运动规划提供补充信息。底部：在测试过程中，给定一个在训练数据中从未出现过的对象（例如，轮椅上的残疾人，如图（d）所示），3D对象检测（例如，[46]）往往会失败；参见图（b）和（c）。相比之下，MotionNet仍然能够感知对象并预测其运动；参见图（e）和（f），其中颜色表示类别，箭头表示未来的位移。0主要依赖于边界框检测，该检测是通过基于相机数据的2D对象检测[41, 27, 20, 63]，基于LiDAR数据的3D对象检测[64,19, 46]或基于融合的检测[6, 24, 23]来实现的。113860检测到的边界框然后被输入到一个物体跟踪器中，随后是一个运动预测器；参见图1(1)。一些最近的工作将所有这些模块实现到一个端到端的框架中，直接产生边界框以及未来的轨迹[31, 4,59]。尽管被广泛采用，上述状态估计策略在真实交通的开放场景中往往会失败，这是由于对目标检测的依赖。特别是，目标检测器很难推广到训练集中从未出现过的类别，因此导致下游模块的灾难性故障，如图1(2)所示。另一种替代方向是使用占据栅格地图（OGM）来表示三维环境信息[14, 34,44]。OGM将三维点云离散化为相等的二维栅格单元，每个单元包含了相应空间至少被一个点占据的置信度。通过这种设计，OGM可以用来指定未来的可驾驶空间，并为运动规划提供支持。OGM的一个主要弱点是在时间上找到单元之间的对应关系很困难。这使得显式建模对象的动力学变得困难。此外，OGM通常会丢弃对象的类别信息，因此无法考虑交通参与者运动的类别特定约束以进行关系理解。为了解决这些弱点，我们基于鸟瞰图（BEV）地图来表示环境状态。类似于OGM，我们将环绕自车的点云离散化为独立的单元（即BEV地图）。BEV地图扩展了OGM，并提供了三重信息：占用、运动和类别信息；参见图2。我们通过将每个单元与位移向量相关联来编码运动信息，这些向量表示未来的位置，并且可以表征非线性动力学。通过这种方式，我们能够确定可驾驶空间并描述每个个体对象的运动行为。单元的类别是从它们所属的对象派生出来的，并用于促进对环境的理解。基于这样一系列BEV地图的时间序列，我们提出了一种新颖的深度模型，用于联合推理每个单元的类别和运动信息。我们将我们的模型命名为MotionNet，强调其能够预测运动，即使对于训练集中从未见过的对象也是如此。MotionNet不依赖边界框，能够利用运动线索进行物体识别。MotionNet的核心是一种新颖的时空金字塔网络（STPN）。为了提取时空特征，STPN以分层的方式执行一系列时空卷积（STC）。每个STC依赖于2D空间卷积，然后是一个轻量级的伪1D时间卷积，从而得到一个高效的系统。在实践中，MotionNet以53Hz的速度运行，适合在实时系统中部署。STPN的输出被传递到不同的头部进行单元分类、状态估计和运动预测；参见图2。在推理过程中，为了使预测在各个任务上保持一致，我们通过分类结果来规范预测的运动。为了进一步强化预测在空间和时间上的平滑性，我们使用几种新颖的空间和时间一致性损失来约束网络训练，促进更加真实的运动预测。我们在大规模nuScenes数据集[3]上评估了我们的方法，并与基于场景流和目标检测的不同先前方法进行了比较。实验结果证明了我们方法的有效性和优越性。我们的研究表明了MotionNet在自动驾驶的实际环境中的潜在价值：它可以与其他模块协同工作，并为运动规划提供补充的感知和运动信息。总结起来，我们工作的主要贡献有：•我们提出了一种基于BEV地图的联合感知和运动预测的新颖模型MotionNet。MotionNet不依赖边界框，可以为自动驾驶提供补充信息；•我们提出了一种新颖的时空金字塔网络，以分层的方式提取时空特征。这种结构轻量级且高效，适合实时部署；•我们开发了空间和时间一致性损失来约束网络训练，以在空间和时间上保持预测的平滑性；•大量实验证明了我们方法的有效性，并提供了深入的分析来说明我们设计的动机。0在推理过程中，为了使预测在各个任务上保持一致，我们通过分类结果来规范预测的运动。为了进一步强化预测在空间和时间上的平滑性，我们使用几种新颖的空间和时间一致性损失来约束网络训练，促进更加真实的运动预测。我们在大规模nuScenes数据集[3]上评估了我们的方法，并与基于场景流和目标检测的不同先前方法进行了比较。实验结果证明了我们方法的有效性和优越性。我们的研究表明了MotionNet在自动驾驶的实际环境中的潜在价值：它可以与其他模块协同工作，并为运动规划提供补充的感知和运动信息。总结起来，我们工作的主要贡献有：•我们提出了一种新颖的模型MotionNet，用于基于BEV地图的联合感知和运动预测。MotionNet不依赖边界框，可以为自动驾驶提供补充信息；•我们提出了一种新颖的时空金字塔网络，以分层的方式提取时空特征。这种结构轻量级且高效，适合实时部署；•我们开发了空间和时间一致性损失来约束网络训练，以在空间和时间上保持预测的平滑性；•大量实验证明了我们方法的有效性，并提供了深入的分析来说明我们设计的动机。02. 相关工作0感知。这个任务旨在识别周围环境中对象的位置和类别。这个任务的一个典型形式是边界框检测。根据输入模态，现有的工作可以分为三类：(1)在图像上进行2D对象检测[41, 7,27, 40, 26, 20, 63]；(2)在点云上进行3D对象检测[58, 18,57, 48, 64, 56, 19, 47, 55, 36, 46,35]；(3)基于融合的检测[6, 24,23]。然而，对象检测依赖于形状识别，很难检测训练集中从未出现过类别的对象。这在许多实际场景中会导致严重后果。与边界框不同，提出的基于BEV地图的表示扩展了占用地图，并且不依赖于形状识别。由此产生的系统能够感知显著的交通参与者，并为运动规划器提供补充信息。运动预测。这个任务旨在根据历史信息预测对象的未来位置。经典方法通常将这个任务形式化为轨迹预测。113870同步和离散化0时空金字塔网络0单元格分类0运动预测0状态估计0一系列LiDAR扫描BEV地图输出时间�的BEV地图0颜色：类别；箭头：运动0图2.MotionNet概述。给定一系列LiDAR扫描，我们首先将原始点云表示为BEV地图，这实质上是具有多个通道的2D图像。BEV地图中的每个像素（单元格）与沿高度维度的特征向量相关联。然后，我们将BEV地图输入到时空金字塔网络（STPN）中进行特征提取。STPN的输出最终传递给三个头部：(1)单元格分类，用于感知每个单元格的类别，如车辆、行人或背景；(2)运动预测，用于预测每个单元格的未来轨迹；(3)状态估计，用于估计每个单元格的当前运动状态，如静止或移动。最终的输出是一个包含感知和运动预测信息的BEV地图。0字典，然而，这依赖于准确的对象检测和跟踪以获取轨迹信息[1, 21, 32, 13, 8, 42, 62, 43, 60,33]。另一个方向是同时进行3D检测、跟踪和运动预测，并展示了显著的性能[31, 4,59]。然而，由于依赖于边界框检测，这种策略在存在意外对象时往往会失败。这个弱点可以通过占用栅格地图[10]来规避，特别是多步动态OGMs [14, 34,44]，它们用单元格的占用状态和相关速度分别表示对象的位置和动态。这种表示能够轻松地表示可驾驶空间和运动，而无需对象框。然而，由于OGMs在时间上缺乏单元格对应关系，很难对对象的非线性动态行为进行建模。这个特性以及OGM通常忽略对象类别的另一个特性，使得它无法明确捕捉对象的相互作用关系。相比之下，提出的基于BEV地图的表示包含了类别和运动信息。流估计。与运动预测不同，这个任务旨在估计从过去到当前时间的运动。根据输入数据，运动信息可以从2D光流[15, 30, 9, 16]或3D场景光流[12,28,29]中提取。在实践中，我们可以利用估计的光流通过假设线性动力学来预测未来轨迹，如第4节所示。03. 方法论0在本节中，我们介绍MotionNet；参见图2。流程包括三个部分：（1）从原始3D点云到BEV地图的数据表示；（2）作为骨干的时空金字塔网络；和（3）用于网格单元分类和运动预测的任务特定头部。03.1. 自我运动补偿0我们的输入是一系列3D点云，其中每个原始点云帧由其局部坐标描述。0同步所有过去帧到当前帧的坐标系，即通过坐标变换将所有点云表示为自车坐标系中的点云。这对于抵消自动驾驶车辆的自我运动并避免虚假运动估计至关重要。此外，它在为静态背景聚合更多点的同时提供了有关移动物体运动的线索。03.2. 基于BEV地图的表示0与2D图像不同，3D点云是稀疏且不规则分布的，因此不能直接进行标准卷积处理。为了解决这个问题，我们将点云转换为BEV地图，这样就可以使用经典的2D卷积进行处理。具体而言，我们首先将3D点量化为规则的体素。与[64,56]不同，后者通过PointNet[37]将每个体素内的点分布编码为高级特征，我们只是使用二进制状态作为体素的代理，指示体素是否被至少一个点占据。然后，我们将3D体素格表示为2D伪图像，其中高度维度对应于图像通道。这样的2D图像实际上是一个BEV地图，其中每个单元与沿垂直轴的二进制向量相关联。通过这种表示，我们可以对BEV地图应用2D卷积而不是3D卷积进行特征学习。与依赖3D体素[64, 56]或原始点云[38,52]的先前方法相比，我们的方法允许使用标准的2D卷积，在软件和硬件层面上都得到很好的支持，因此非常高效[53]。此外，BEV地图保留了高度信息和度量空间，允许网络利用对象的物理扩展的先验知识[58]。03.3. 时空金字塔网络0…………STC Block-1STC Block-2STC Block-3STC Block-4Temporal PoolingTemporal PoolingTemporal PoolingTemporal PoolingTemporal PoolingConcat2D ConvConcat2D ConvConcat2D ConvConcat2D ConvOutput: 1×��×��×��1×��×��×��1×2��× ��2 × ��2��2×4��× ��4 × ��4��3×8��× ��8 × ��81×16��× ��16 × ��16DeconvDeconvDeconvDeconv1×8��× ��8 × ��81×4��× ��4 × ��41×2��× ��2 × ��21×8��× ��8 × ��81×4��× ��4 × ��41×2��× ��2 × ��2��4×16��× ��16 × ��16convolutions) [39, 51, 54, 50, 25]. However, unlike classicalvideo classiﬁcation task which only predicts one categorylabel for the whole image sequence, we aim to classify eachBEV lattice cell at the current time and estimate its futureposition. In particular, there are two issues that need to beaddressed. First, when and how to aggregate the temporalfeatures. As is indicated in [51, 54], the timing of tempo-ral convolutions is critical for achieving good performance.Second, how to extract the multi-scale spatio-temporal fea-tures, which are known to be essential for capturing bothlocal and global contexts in dense prediction task [61].To address these issues, we develop a spatio-temporalpyramid network (STPN) to extract features along boththe spatial and temporal dimensions in a hierarchical fash-ion; see Fig. 3. The basic building block of STPN is thespatio-temporal convolution (STC) block. Each STC blockconsists of standard 2D convolutions, followed by a degen-erate 3D convolution, to capture the spatial and temporalfeatures, respectively. The kernel size of the 3D convolutionis k×1×1, where k corresponds to the temporal dimension.Such a 3D ﬁlter is essentially a pseudo-1D convolution andthus enables a reduction of model complexity.To promote multi-scale feature learning, STPN com-putes a feature hierarchy over the space and time with STCblocks. In particular, for the spatial dimension, we com-pute the feature maps at several scales with a scaling stepof 2. Similarly, for the temporal dimension, we graduallyreduce the temporal resolution after each temporal convo-lution, thereby extracting temporal semantics of differentscales. To fuse the spatio-temporal features across differ-ent levels, we perform global temporal pooling to capture113880输入：��×��×��×��0图3.时空金字塔网络。每个STC块由两个连续的2D卷积和一个伪1D卷积组成。时间池化应用于时间维度，并将其压缩为长度1。T1 ≥ T2 ≥T3 ≥ T4。0(a) 真实值 (b) 抑制前 (c) 抑制后0图4.细胞分类和状态估计头部的输出可以用于抑制不良的抖动（例如，背景可能具有非零运动）。灰色：背景；蓝色：车辆。箭头：运动。（放大以获得最佳视图。）0突出的时间特征，并通过侧向连接将它们传递给特征解码器的上采样层。这种设计鼓励局部和全局时空上下文的流动，这对于我们的密集预测任务是有益的。STPN的整体结构仅依赖于2D和伪1D卷积，因此非常高效。03.4. 输出头部0为了生成最终的输出，我们在STPN的末尾添加了三个头部：(1)细胞分类头部，它主要执行BEV地图分割并感知每个细胞的类别；(2)运动预测头部，它预测细胞未来的位置；(3)状态估计头部，它估计每个细胞的运动状态（静止或移动）并为运动预测提供辅助信息。我们使用两层2D卷积来实现这三个头部。对于细胞分类头部，输出的形状是H×W×C，其中C是细胞类别的数量。对于运动预测头部，它将预测的细胞位置表示为{X(τ)}t+Nτ=t，其中X(τ)∈RH×W×2表示时间τ的位置，t是当前时间，N是未来帧的数量；因此其输出形状是N×H×W×2。注意，运动被假设在地面上，这在自动驾驶中是合理的，因为交通参与者不会飞行。对于状态估计头部，输出的形状是H×W，其中每个元素表示静态的概率。运动预测头部可以使用回归损失（例如，平滑L1）进行训练。然而，简单地回归细胞未来的位置会导致静态细胞的不良抖动。例如，即使细胞被分类为背景，它们仍然可能有微小的移动；见图4。为了解决这个问题，我们使用其他两个头部的输出来规范预测的细胞轨迹。具体来说，我们对被预测为背景的细胞的运动进行阈值处理，即将它们对应的运动估计设为零。此外，为了处理静态前景物体，例如停放的车辆，我们使用状态估计头部的估计状态，并通过对静态细胞的运动进行阈值处理来抑制抖动效应。(i,j), i ,j )∈ok��X(τ)ok − X(τ+∆t)ok113890备注。与基于边界框的方法相比，上述设计有望更好地感知训练集之外的未知对象。其直觉是：(1)基于边界框的方法使用ROI的全局形状/纹理信息来捕捉对象，这在不同的对象类别之间是不同的，很难从已知对象推广到未知对象。相反，我们的方法有效地将ROI分解为网格单元，在每个单元中提取多个对象类别共享的局部信息；(2)基于边界框的方法涉及对象提议和非极大值抑制，可能会移除不确定的检测结果（尤其是对于未知对象）；而我们的方法对所有占用的细胞进行预测；(3)MotionNet利用的时间信息提供了关于对象存在及其运动的线索。03.5. 损失函数0我们训练网络同时最小化与三个头部相关的损失。对于分类和状态估计头部，我们采用交叉熵损失，其中每个类别项被分配不同的权重，以处理类别不平衡问题。对于运动预测头部，我们采用加权平滑L1损失，权重的确定遵循与分类头部相同的规范。然而，上述损失只能在全局上规范网络训练，而不能确保局部的空间和时间一致性。为了解决这个弱点，我们引入了以下附加损失。空间一致性损失。直观上，属于同一个刚体对象的细胞的预测运动应该非常接近，没有太大的分歧。受到这一观察的启发，我们使用以下空间一致性损失在局部上约束估计的运动：0Ls = �0k0�0��X(τ)i,j − X(τ)i′,j′��，(1)0其中∥∙∥是平滑L1损失，ok表示索引为k的对象，X(τ)i,j∈R2是位置(i,j)和时间τ的预测运动。请注意，穷举比较所有的X(τ)i,j和X(τ)i′,j′是计算上昂贵的。为了避免这种情况，我们只考虑一部分成对的位置，每个位置都与索引相邻。前景时间一致性损失。类似于空间一致性，我们也可以在局部时间窗口上施加时间约束。特别地，对于每个对象，我们可以合理地假设在两个连续帧之间不会有运动的剧烈变化。通过最小化以下损失来实现这个假设：0Lft = �0k0��，(2)0其中X(τ)ok∈R2表示对象k的整体运动，在我们的实现中由平均值表示0(i,j)∈okX(τ)i,j/M，其中M是属于ok的单元格数。背景时间一致性损失。请注意，Lft主要作用于前景对象，如车辆，并不考虑背景单元格。为了弥补这个缺点，我们引入另一个时间损失：0Lbt = �0(i,j)∈X(τ)∩T(�X(τ−∆t))0��X(τ)i,j − Ti,j� �X(τ−∆t)��，0(3)其中X(τ)和�X(τ)分别是当前时间为t和t+∆t的预测；T∈SE(3)是一个刚性变换，将�X(τ−∆t)与X(τ)对齐。在实践中，T可以从真实的自我运动中导出，也可以从点云配准算法（例如ICP[2]）中导出。请注意，由于�X(τ−∆t)是一个离散网格，所以变换结果在单元格上进行插值。应用此变换后，T(�X(τ−∆t))将部分与X(τ)在主要是背景的静态单元格上重叠。通过最小化此损失，我们鼓励网络在重叠区域上产生连贯的结果，从而实现时间上的平滑预测。总之，MotionNet的训练的整体损失函数定义如下：0L = Lcls + Lmotion + Lstate + αLs + βLft + γLbt，(4)0其中L cls和Lstate是单元格分类和状态估计头部的交叉熵损失，Lmotion是运动预测头部的平滑L1损失；α，β和γ是平衡因子。由于L涉及多个任务，可以在多目标优化框架内最小化L，从而实现任务之间的自适应权衡[45]。04.实验0在本节中，我们评估了所提出的网络在nuScenes[3]数据集上的性能。我们首先介绍了MotionNet的实现细节，然后将其与之前的最先进方法进行了比较。最后，我们提供了消融研究来分析我们的设计选择。数据集。nuScenes[3]是一个用于自动驾驶的大规模数据集，包含360°环境覆盖的不同类型的传感器数据。在这项工作中，我们只使用其LiDAR点云数据，该数据以20Hz的频率捕获，并从1000个场景中收集。每个场景由一系列持续20秒的LiDAR扫描组成。由于nuScenes的原始重点是目标检测，因此对于每次扫描，它仅提供带有边界框注释的目标框，而不提供运动信息。为了适应我们的任务，我们根据以下方法导出两次扫描之间的真实单元格运动：对于边界框内的每个单元格，其运动计算为Rx + c∆ -x，其中x是单元格位置，R是相对于框中心的偏航旋转，c∆是框的位移。113900方法静态速度 ≤ 5m/s 速度 > 5m/s 分类准确率（%）推理0平均值中位数平均值中位数平均值中位数 Bg 车辆行人自行车其他 MCA OA 速度0静态模型 0 0 0.6111 0.0971 8.6517 8.1412 - - - - - - - - FlowNet3D（预训练）[28] 2.0514 0 2.2058 0.3172 9.1923 8.4923 - - - - - - - 0.434sFlowNet3D [28] 0.0410 0 0.8183 0.1782 8.5261 8.0230 - - - - - - - 0.434s HPLFlowNet（预训练）[12] 2.2165 1.4925 1.5477 1.1269 5.9841 4.8553 - -- - - - - 0.352s HPLFlowNet [12] 0.0041 0.0002 0.4458 0.0960 4.3206 2.4881 - - - - - - - 0.352s PointRCNN [46] 0.0204 0 0.5514 0.1627 3.98881.6252 98.4 78.7 44.1 11.9 44.0 55.4 96.0 0.201s LSTM-Encoder-Decoder [44] 0.0358 0 0.3551 0.1044 1.5885 1.0003 93.8 91.0 73.4 17.9 71.7 69.692.8 0.042s0MotionNet 0.0256 0 0.2565 0.0962 1.0744 0.7332 97.3 91.1 76.2 20.6 66.1 70.3 96.1 0.019s MotionNet + Ls 0.0256 0 0.2488 0.0958 1.0110 0.700197.5 91.3 76.2 23.7 67.6 71.2 96.3 0.019s MotionNet + Lft 0.0252 0 0.2515 0.0962 1.0360 0.7136 97.6 90.6 75.3 21.9 65.2 70.1 96.3 0.019sMotionNet + Lbt 0.0240 0 0.2530 0.0960 1.0399 0.7131 97.5 91.1 74.6 25.2 68.0 71.3 96.3 0.019s MotionNet + Ls + Lft + Lbt 0.0239 0 0.24670.0961 1.0109 0.6994 97.6 90.7 77.2 25.8 65.1 71.3 96.3 0.019s MotionNet + MGDA 0.0222 0 0.2366 0.0953 0.9675 0.6639 97.1 90.5 78.4 22.1 67.471.1 95.7 0.019s MotionNet + {L} + MGDA 0.0201 0 0.2292 0.0952 0.9454 0.6180 97.0 90.7 77.7 19.7 66.3 70.3 95.8 0.019s0表1. 感知和运动预测的性能比较。MotionNet比所有基线方法都快得多，并且整体上达到了最佳性能。所提出的空间和时间一致性损失能够帮助提高MotionNet的准确性。0中心；对于那些在边界框之外的单元格，我们只需将它们的运动设置为零。在nuScenes中，边界框注释仅对训练和验证集可用，因此我们只将它们用作实验数据，并忽略官方测试数据。因此，我们总共有850个场景，在实验中我们使用其中的500个进行训练，100个进行验证，250个进行测试。我们将每个场景划分为短片段作为网络的输入。为了减少冗余，每个片段只包含与当前时间对应的关键帧，以及与关键帧同步的四个历史扫描。关键帧在训练时以2Hz的频率采样，而在验证/测试时以1Hz的频率采样，以减少片段之间的相似性。片段中每两个连续帧之间的时间间隔为0.2秒。对于训练数据，除了关键帧片段外，我们还提取了当前时间为(t+0.05)秒的额外片段，其中t表示相邻关键帧的时间。这些额外的片段与关键帧片段配对，用于计算时间一致性损失。总之，我们有17,065对片段用于训练，1,719个片段用于验证，4,309个片段用于测试。实现细节。点云被裁剪到由[-32, 32] × [-32, 32] × [-3,2]米定义的区域内，分别对应XYZ范围。每个分割体素的分辨率为(∆x, ∆y, ∆z) = (0.25, 0.25,0.4)米。对于时间信息，我们使用5帧同步的点云，其中4帧来自过去的时间戳，1帧对应当前时间。我们为感知定义了5个单元格类别：背景、车辆（包括汽车和公交车）、行人、自行车和其他。01 nuScenes数据集采用32线激光雷达。远处的物体具有太少的激光雷达点来进行检测。0类别涉及各种形状，其中一些与“车辆”类别的外观相似。对于MotionNet，其输入是一个大小为5×13×256×256的4D张量。在将此张量馈送到STPN之前，我们首先使用两层2D卷积将其通道大小提升到32。对于STPN，我们仅在STC块1和2中使用时空卷积，并通过取消填充特征图逐渐降低时间分辨率。这给出了T1 = 5，T2 = 3，T3 = T4 =1。因此，STC块3和4退化为常规的2D卷积。对于运动估计，我们预测每个单元格在时间戳{τ}t + 1τ = t +0.05处的位置，其中t是当前时间。然而，我们不直接回归运动，而是预测相邻时间戳之间的相对位移，即∆dτ = dτ+ 0.05 -dτ，其中dτ表示从当前时间t到未来时间τ的位移。因此，在推理过程中，时间戳τ处的绝对位移计算为dτ = Στ-0.05i =t∆di。最后，对于训练损失，我们将平衡因子设置为α =15，β = 2.5，γ =0.1。评估标准。对于运动预测，我们将单元格分为3组，其速度不同：静止、慢速（≤5m/s）和快速（>5m/s）。在每个组中，我们计算估计位移与真实位移之间的平均L2距离。除了这个平均值，我们还报告中位数值。对于分类，我们使用两个指标来衡量性能：（1）整体单元格分类准确率（OA），即所有单元格的平均准确率；（2）平均类别准确率（MCA），即所有五个类别的平均准确率。所有评估只涉及非空单元格。0tween two point clouds at time t−δ and t, we can predict theﬂow from current time t to the future time t + nδ as n∆d.The predicted ﬂow is then projected onto BEV map for per-formance evaluation. (3) PointRCNN [46], which predictsthe 3D object bounding boxes from the raw point cloud. Af-ter obtaining the bounding boxes for the sequence of pointclouds, we use Kalman ﬁlter [17] to track the objects andpredict their future trajectories. The trajectories are ﬁnallyconverted to BEV map. Note that, following [46], here wetrain 4 models to separately handle each object category,and the ﬁnal detection results are obtained by combiningthe outputs from each model. (4) LSTM-Encoder-Decoder[44], which estimates the multi-step OGMs. We adapt thismethod to our task by using the same output heads withMotionNet, while preserving its backbone structure.Results. We list the performance of different methods inTable 1, where motions are predicted 1s into the future. Ascan be seen, our method is signiﬁcantly faster than the base-lines, and outperforms them by a large margin for slow andfast cell speeds. For static case, the Static Model achievesthe best result, which is not surprising. However, the StaticModel is only used to demonstrate the theoretical limit andis not reasonable to deploy in reality. In Table 1 we alsoreport the performance of FlowNet3D and HPLFlowNetwhich are pretrained on FlyingThings3D [28, 12] and testedon nuScenes without ﬁne-tuning. As is shown, their per-formances are even inferior to that of Static Model. Al-though this situation can be improved by training them di-rectly on nuScenes LiDAR data, their overall performanceis still far from good: HPLFlowNet behaves similarly toStatic Model while FlowNet3D is worse. Finally, in Table 1we observe that the performance of PointRCNN is not satis-fying. This is mainly due to the unstable object detection inpoint cloud sequence, which leads to signiﬁcant failur

下载后可阅读完整内容，剩余1页未读，立即下载