无监督多变量占用时间序列用于LiDAR运动对象分割

180 浏览量更新于2023-10-15 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1644基于多变量占用时间序列的ThomasKreutz MaxMuühlhaüuser AlejandroSanchez几内亚达姆施塔特技术大学远程操作实验室{kreutz，max，sanchez} @ tk.tu-darmstadt.de摘要在这项工作中，我们解决了从固定传感器记录的4DLiDAR数据中的无监督运动对象分割（MOS）问题，其中不涉及地面实况注释。用于LiDAR MOS的基于深度学习的最先进方法强烈依赖于注释的地面实况数据，这是昂贵的获得和稀缺的存在。为了缩小这一差距的固定设置，我们提出了一种新的4D激光雷达表示的基础上，多变量时间序列放松的问题，无监督MOS的时间序列聚类问题。更具体地说，我们提出了一个多变量占用时间序列（MOTS），它捕捉体素水平上的时空占用变化及其周围的邻居的体素的占用率的变化建模为了执行无监督MOS，我们以自监督方式训练神经网络以将MOTS编码为体素级特征表示，其可以通过聚类算法划分从原始KITTI数据集上的station-ary场景的实验表明，我们的完全无监督的方法实现的性能是可比较的监督国家的最先进的方法。1. 介绍根据其移动或静态实体来理解城市环境是场景理解的关键方面（例如，[1])自动驾驶代理（例如，[2930]），一致映射（例如，[7]）、智能城市中的行人安全和智能交通系统（例如，[27，20]）。特别地，LiDAR移动对象分割（MOS）是将场景的点分类为动态或静态的任务。在过去的几年里，LiDAR对象检测、语义分割、实例分割和全景分割的端到端方法的研究已经成熟[19] ， SemanticKITTI [16 ， 3] 、 NuScenes [5 ， 35] 或Waymo [33]等大规模自动驾驶数据集也已经14] 已经成为发展最先进方法的基本要素。不幸的是，LiDAR MOS的注释数据很少[8]。最近，在[7]中提出了基于SemanticKITTI的注释MOS基准数据集，这促进了关于自动驾驶环境中MOS的端到端方法的有前途的研究（例如，[26，24，18]）。然而，缺乏注释的数据集限制了监督式端到端MOS深度学习模型在未使用相同传感器设置记录数据的场景中的实际应用[8]。所述问题的一个潜在解决方案是非监督方法，因为它们不依赖于注释数据，并且更好地推广到任意数据分布[4，37]。例如，自监督场景流方法可用于无监督MOS，但其性能劣于最先进的监督方法[24]。与以前的工作相比，我们提出了一种完全无监督的4D LiDAR MOS 方法，该方法概括了从任意固定LiDAR传感器记录的数据，并实现了与有监督的最先进方法相当的结果。先前的工作表明，在发生时间序列中，移动与占用变化模式一起出现[13]。在此基础上，可以假设多变量占用时间序列（MOTS）是识别点云视频的时空邻域中的运动的有效数据模态。在我们的论文中，我们提出了以下假设：多变量时间序列是一种有效的数据模态，在站- ary LiDAR点云视频无监督MOS。我们提出MOTS作为一种新的4D LiDAR表示，允许使用自监督表示学习来区分站- ary LiDAR场景中的移动和静态部分。更具体地，体素由MOTS表示，MOTS有效地对体素及其周围邻居的时空发生变化进行建模。随着多变量时间序列的自监督学习的最新进展（例如，[15，34]），我们首先用神经网络在短时间窗口中将MOTS编码为时空体素嵌入。之后，我们将每个体素的结果嵌入无监督1645MOS 因此，我们的方法放松MOS多变量的时间序列聚类问题。我们通过对来自原始KITTI数据集[16]的公开可用静态数据的定量评估和对我们用Velo- dyne VLP-16传感器记录的静态数据的我们的主要贡献是：• 一种新的4D点云表示，用于表示学习静止LiDAR点云视频局部邻域中的时空占用变化，我们称之为MOTS• 基于MOTS2. 相关工作大多数与运动对象分割（MOS）密切相关的工作可以被分类为动态ocu-cu网格映射（例如，[28 31]），场景流（例如，[22 2]），以及运动对象分割方法（例如，[7，24]）。2.1. 动态占位网格映射占用网格映射估计网格单元的占用概率。此外，动态占用网格映射（DOGMA）旨在学习每个网格单元的状态向量，该状态向量由占用概率和速度组成在[28]中已经提出了一种基于有限随机集的有效动态占用网格映射。使用 [28]中的结果作为基础，已经提出了学习DOGMA的各种基于深度例如，[13]中的工作使用[28]中的DOGMA作为神经网络的输入，该神经网络学习预测移动对象的边界框。 [30] 中的工作学习DOGMAs，以在固定设置中使用神经网络来估计场景中对象的运动。他们使用从 [28] 中的方法获得的DOGMA作为基础来训练他们的模型端到端，并且他们的工作在[31]中扩展到非平稳设置。尽管他们的成功，所描述的方法依赖于DOGMA找到移动的对象，并且他们限于2D鸟瞰图（BEV）地图。今天，在其他相关任务中，例如语义分割，基于投影的深度学习方法正在被直接在3D或4D领域中操作的方法所超越相比之下，我们的方法是为原始4D点云设计的，不依赖于占用网格映射方法。2.2. 场景流场景流方法学习帧t到帧t+1中任何点的位移向量。因此，场景流方法可以扩展到MOS方法。例如，将点位置与其对应的场景在[22]中已经使用流矢量来获得非监督运动分割。此外，[2]中的工作表明，基于自监督方法的场景流可以学习分割运动作为副产品。然而，场景流方法的缺点是（a）在噪声点云中跨帧的点之间没有明确的对应关系，以及（b）仅使用两个帧可能不包含场景中所有移动点的足够信息，特别是当处理缓慢移动的对象时，如[24]中所述。这些限制可以解释基于场景流的MOS在SemanticKITTI MOS基准测试中的较差结果 [7，24]。相比之下，我们的方法可以通过包括两个以上的帧来从更大的时间上下文中学习运动。此外，在我们的方法中，由于它是在体素级别上设计的，因此所有帧上的体素之间存在微不足道的对应关系。2.3. 运动/运动对象分割最近，在[7]中提出了一种基于MOS距离图像的基准和监督模型作者使用基于[8]中的地图清理方法的自动标记方法扩展了他们的工作[26]中的工作提出了一种基于BEV的方法，该方法比LMNet更快，但分割性能较差。最近在[24]中提出了一种用于4D MOS的方法，其中从点云视频的4D体积进行预测。此外，贝叶斯滤波器考虑到以前的预测，提出了过滤掉噪音。[24]中的模型利用稀疏卷积[10]，其性能优于将点云投影到二维范围图像表示。在[7]中，将语义预测与移动对象预测融合可以提高性能。在[18]中专门使用了MOS的语义特征在这种情况下，语义特征在每个帧上单独学习，并且运动对象分割掩模随后从结果语义特征和范围图像的序列中联合学习。所有上述方法都显示出有希望的性能，但它们依赖于注释来训练它们的方法。相比之下，我们是第一个提出了一个不受监督的方法MOS在固定设置，不依赖于占用网格映射，地图清洗或场景流方法。同时，我们的方法是基于多帧的。2.4. 时间序列自监督多变量时间序列表示学习的最新进展（例如，[15，23，34]）已经表明，系统的不同状态（由多变量时间序列测量）可以在自适应时间序列中的每个时间步学习1646⊆∈∈∉·∈×−→图1：拟议办法监督的方式。然后可以对每个时间步的学习表示进行聚类，以获得时间序列的无监督分割。据我们所知，我们的工作是第一个将这一想法应用于点云领域的工作。我们认为在每个时间点的体素作为离散的时间序列测量的占用状态，并利用之间的依赖性占用变化的时空邻域的体素的无监督MOS。3. 方法3.1. 问题设置给定从固定Li-DAR传感器记录的点云视频，我们的目标是产生场景的无监督分割成移动和静止点，而不必依赖于注释数据。更具体地说，目标是仅对原始的静止LiDAR点云视频执行无监督移动对象这个问题在智能城市中具有实际用途，其中LiDAR传感器可以安装在例如覆盖城市大面积的路灯上[27]，并且必须识别移动物体另一个重要的用例是识别静止的自动驾驶汽车周围的交通中的移动物体，该汽车等待驶入繁忙的道路。3.2. 概述我们提出了一种新的表示点云视频，以学习时空表示的单体素细胞。所提出的表示放松无监督MOS多变量时间序列聚类问题。图1总结了我们的方法。在帧t处，我们计算帧中所有体素单元的长度为w的占用时间序列（OTS）。给定一个空间半径r，我们构建多元占用时间序列（MOTS）从OTS的体素和所有OTS在其周围的邻居。MOTS的每个通道有效地捕获场景的局部时空邻域中我们假设，移动出现类似的MOTS从不同的体素和聚类MOTS分离移动体素从静止体素。因此，MOTS的MOS问题是放松到一个多变量的时间序列聚类问题。给定任意帧t处的MOTS点云视频表示，神经网络将帧t中的所有MOTS编码为可以区分移动体素状态和静止体素状态的特征表示。这种表示学习并编码时空占用变化，使得聚类算法可以执行无监督MOS。3.3. 多变量职业时间序列我们的方法是专为体素化点云视频.一体素网格是一设置的体素 VRw/m×h/m ×d/m，具有网格分辨率的m、高度h、宽度w和深度d。3D体素网格VS（V1，.，V N）可以被认为是视频，其中N是帧的数量。体素v V可以具有两种状态之一：被占领或自由。体素在时间t的状态由函数S建模：B，解释为0 =自由，1 =被占用。假设从静止LiDAR记录的数据，则存在从任何体素vV k到体素v′V l，k=l，使得v==v′。因此，在任意时间点t，对于任意体素vi，我们可以定义其占用率时间序列OTSi，t∈Bw为OTS i，t=[S（v i，t−（w −1）），.， S（v i，t−1），S（v i，t）]（1）其中w是时间序列长度，并且S（Vi，i）测量Vi在每个时间点的占用率。我们将MOTS定义为OTS的多变量集合，其中我们将在Vi周围的空间邻域中的voxelsvj的OTS视为附加通道。给定在任意欧几里德空间中具有m个单位的体素网格分辨率的vi周围的空间半径r，我们定义设R ={−r，−r + m，.，0，… r-m，r}，其中包括所有1647NNNNNN ××∈›→稀疏、F不稀疏稀疏∈F≈以0为中心的半径r内的可能离散距离然后，我们计算一个邻域距离矩阵r= RR RR与3倍笛卡尔积R考虑每个元素在r作为一行。r保持到半径r内的所有可到达体素的距离，将任意体素Vi视为中心。Nr中每行与vi的元素加法计算邻域N（vi，r）=Nr+vi（2）其中r+vi是vi相加的简写每排r（[17]）。给定v i的邻域（v i，r），定义了一个多元占有率时间序列MOTSi，t∈B|N（vi，r）|× wof vi asMOT Si，t={OT Sj，t|vj∈N（vi，r）}（3）其中MOTS i，t的信道由每个vj∈N（vi，r）的OTS组成。MOTS用于非静止LiDAR。虽然我们的工作重点是在平稳的情况下，MOTS也可以在非平稳的情况下计算。对于非静止Li-DAR，我们假设具有由以下给出的姿态信息，例如，一种SLAM方法[16]。给定姿势，我们将每个帧变换为第一帧的姿势，以再次获得从任意体素v∈Vk到v′∈Vl的双向映射，图2：1D CNN自动编码器3.5.基于MOTS的我们放松无监督MOS与MOTS的时间序列聚类问题。由于大量可用的训练数据和时间序列的高维性，我们利用深度学习来学习数据的底层结构，并使用自动编码器（AE）作为特征提取器。更具体地说，我们使用基于1D卷积的AE来学习 MOTS的特征表示。AE由编码器和解码器部分组成。编码器f：Rd›→Re映射d维输入数据k l，使得v==v′。后一个属性允许计算MOTS为每个体素在一个非固定的设置。3.4. 高效地将4D点云转换为MOTS4D点云的密集MOTS表示是低效的，因为所有帧中的大部分空间是空的。因此，在相关工作之后（例如，[10]）我们采用稀疏张量表示并且仅存储/计算被占用的体素的MOTS我们可以用下式表示每一帧Vt：0

下载后可阅读完整内容，剩余1页未读，立即下载