4D全景LiDAR分割与多目标跟踪

57 浏览量更新于2024-01-22 收藏 2.07MB PDF 举报

多目标跟踪

语义分类

身份认证购VIP最低享 7 折!

30元优惠券

55274D Panoptic LiDAR分割MehmetA ygun？ n1* AljosAljeaOsAljeep1*Mark Weeber1MaximMaximov1 Cyrill Stachniss2Jens Behley2Laura Leal-Taixe'11慕尼黑工业大学2波恩大学1{mehmet.ayguen，aljosa.osep，leal.taixe，mark-cs.weber，maxim.maximov}@ tum.de2{firstname.lastname}@ igg.uni-bonn.de多目标跟踪四维全景分割图1：基于LiDAR的场景理解类型。语义和全景分割分配语义类别并确定3D空间中的实例。多对象跟踪包括空间中的3D对象检测，然后是随时间的关联。4D全景LiDAR分割随着时间的推移共同解决了3D空间中的语义和实例分割摘要时间语义场景理解对于在动态环境中运行的自动驾驶汽车或机器人至关重要。在本文中，我们提出了4Dpanoptic LiDAR分割，以分配一个语义类和一个时间上一致的实例ID的3D点序列。为此，我们提出了一种方法和一个点为中心的评价指标。我们的方法确定了一个语义类的每一个点，同时建模对象实例的概率分布在4D时空域。我们并行处理多个点云，并解决点到实例的关联，有效地减轻了显式的时态数据关联的需要受多目标跟踪基准测试的最新进展的启发，我们提议采用一种新的评估指标，该指标将任务的语义和点到实例关联方面分开。通过这项工作，我们的目标是为未来的时间激光雷达全景感知的发展铺平道路。1. 介绍原始传感数据的时空解释对于自主车辆理解如何与环境交互以及感知移动代理的轨迹如何在3D空间和时间中演变非常重要* 作者贡献同样大。在过去，动态场景理解的不同方面，例如语义分割[22，18，48，72，85，69]，对象检测[23，62，40，65，64，66]，实例段-心理状态[28]和多对象跟踪[43，8，53，10，76，61，58]已独立处理。这些领域的发展在很大程度上受到基于深度学习的图像[37]和点集表示学习[59，60，72]的快速发展的推动，以及大规模数据集，基准和统一评估指标的贡献[44，22，25，19，17，74，26，5，18，13，68]。在追求基于图像的整体场景理解的过程中，最近的社区努力已经朝着任务的融合发展，例如多对象跟踪（MOT）和分割[74，83]，以及语义和实例分割，即，全景分割[35]。最近，全景分割扩展到视频域[34]。在这里，数据集、任务形式化和评估标准集中于在离线设置中以3D（2D图像+时间）解释简短且稀疏标记的然而，自动驾驶车辆需要连续地解释传感数据并在4D连续体中定位物体。解决序列级LiDAR全景分割是一个具有挑战性的问题，因为最先进的方法[72]通常需要对单扫描点云进行下采样因此，在（3D）多目标跟踪中的常见方法是检测-实例语义切分语义全景分割5528在单个扫描中扫描对象，然后进行时间关联[24，76，77]，通常由手工制作的运动模型指导。在本文中，我们采取了一种截然不同的方法，受到统一时空治疗哲学的启发。我们形成重叠的4D体积的扫描（见图1），并在并行，分配给4D点的语义解释，同时分组对象实例联合在4D时空。重要的是，这些4D体积可以在单个网络通道中处理，并且通过聚类隐式地解决时间关联。这样，我们保留了推理效率，同时解决了基于点重叠的重叠卷之间的长期关联，减轻了对显式数据关联的需求。为了进行评估，我们引入了一个以点为中心的高阶跟踪度量，其灵感来自于多对象跟踪[45]的最新度量和视频全景分割[75]的并发工作，这些度量与过度强调任务识别部分的可用度量[35，9我们的度量包括两个直观的条款，一个measuring- suring的语义方面和第二的时空关联的任务。与最近提出的SemanticKITTI[5，6]数据集一起，这为我们提供了一个测试平台来分析我们的方法，并将其与现有的LiDAR序列/实例分割[40，72，76，47]方法进行比较，适用于序列级域。总之，我们的贡献是：（ i ）我们提出了对 4DLiDAR全景分割任务的统一时空视角，并且将姿态检测/分割/跟踪联合作为点聚类，这可以有效地利用数据的顺序性质并处理几次LiDAR扫描，同时保持存储器效率;（ii）我们采用了以点为中心的评估协议，该协议公平地加权该任务的语义和关联方面，并用单个数字总结最终性能;（iii）我们为此任务建立了测试床，我们使用该测试床来彻底分析我们的模型我们的代码，实验数据1和基准测试2是公开的。2. 相关工作我们的工作涉及到场景感知的不同方面的任务，如语义分割，对象检测/分割和跟踪。在下文中，我们回顾相关的方法和任务。数据集和数据库。对自动驾驶车辆的日益增长的兴趣引发了对使用LiDAR传感器的场景感知的兴趣。在这里，点集深度学习的进步推动了这一进展[59，60，31，36，38，1https://github.com/mehmetaygun/4d-pls2http://bit.ly/4d-panoptic-benchmark79，80，70，72，47]和具有用于3D语义/实例分割[25，5]和3D对象检测和多对象跟踪[13，68]的标准化基准的数据集。这证实了推进移动机器人感知的空间和时间方面的重要性我们提出的任务制定和评估指标是第一个将这两个方面统一到我们所知的最好的。最近在基于图像的感知领域的社区努力已经朝着不同任务的融合发展。例如，Kirillovet al. [35]提出了统一语义和实例分割，他们称之为全景分割，以及评估指标，全景质量（PQ）。其他人建议联合处理视频中的多对象跟踪和实例分割（MOTS）[74，83]。此外，[34]最近将全景分割扩展到视频这反映在评估指标中，该指标基本上是基于3D IoU [83]评估的PQ，并在不同大小的时间窗口上进行平均，以补偿任务的难度取决于序列长度。此设置不适用于需要连续解释原始传感器数据的自动驾驶车辆。Hurtado等人[32]建议通过向PQ添加与ID切换相关的惩罚来结合MOTA [9]和PQ [35]的想法尽管如此，PQ和MOTA都受到了批评[57，45]，并且在此提出的评估-这是他们所有的众所周知的问题。在本文中，我们提出了一种不同的方法，并将最近在基准测试基于视觉的多对象跟踪[45]的背景下引入的想法引入到序列LiDAR语义和实例分割领域为了与度量，我们还提出了一种方法，直接操作的时空点云提供对象实例在空间和时间。点云分割。点云的语义分割或逐点分类是一个众所周知的研究课题[2]。传统上，它是使用特征提取器结合传统分类器[1]和条件随机场来解决的，以加强相邻点的标签一致性[73，50，81]。大规模数据集（如S3DIS[3]、Semantic3D [27]和最近的SemanticKITTI [5]）的可用性也使得研究端到端管道成为可能[39，48，72，30，85，63，60，59，47]。与RGB-D [33，20]和LiDAR分割[78]的最新趋势类似，我们的方法以数据驱动的方式执行自下而上的点分组。然而，与上述不同的是，我们在3D空间和时间中执行分组。我们使用[72]的主干，直接在点云上应用可变形点卷积在我们的情况下，与专门为点序列设计的主链相比，这在经验上表现得更好[15，63]。5529{−}多目标跟踪和分割。的大多数基于视觉的MOT方法遵循检测跟踪[52]。这里的想法是首先在每个视频帧中独立运行预先训练的对象检测器，然后将检测与时间相关联。在过去，人们非常关注开发强大的，最好是全局最优的数据关联方法[84，42，56，11，12]。最近的数据驱动趋势主要集中在学习关联检测[41，67]或回归目标[8]，通常与端到端学习[16，82，10]相结合。在机器人视觉领域，在3D空间和时间中定位物体轨迹是至关重要的早期的方法局限于3D中的单目检测，使用立体声[43，53，21]，或者通过首先基于空间接近度执行自下而上的分割，然后进行点段关联[71，29]，以类别不可知的方式执行跟踪。最近，由于可靠的3D物体探测器[65，40]和以LiDAR为中心的数据集[13，68]的出现，基于LiDAR的MOT变得流行起来。Weng等人[76]证明了当3D检测被可靠地定位时，基于线性分配和恒定速度运动模型的简单方法可以执行得令人惊讶地好我们的方法从空间域中的3D对象检测出发，然后在时间域中进行检测关联。相反，我们遵循图像[51，14]和视频实例分割[4]的最新进展。我们本地化可能的对象实例中心内的4D体积和关联点估计中心在自下而上的方式，而语义分支分配语义类的点。3. 方法在本文中，我们提出了一种用于4D Panoptic LiDAR分割任务的方法和度量，该任务在空间和时间域中联合处理LiDAR给定Li-DAR扫描的序列，该任务的目标是为每个3D点预测（i）用于物品和事物类两者的语义标签，以及（ii）应当在整个序列上持续的唯一的、保持身份的对象实例ID3.1. 4D Panoptic LiDAR分割：4D PLS在这项工作中，我们采取了与视频实例和视频全景分割的检测跟踪范式相比不同的路径[74，83，34，32]。我们提出4D panoptic分割为两个联合过程。第一个负责使用聚类在4D连续体中进行点分组，而第二个为每个点分配语义解释。我们在图2中提供了我们的方法的概述。简而言之，我们首先从几个连续的激光雷达扫描形成4D点云。并行地，在单个网络通道内，我们定位序列中最可能的对象中心（受[86，14图2：我们的方法的可视化。我们从过去的扫描中采样点以形成4D点云。我们的编码器-解码器网络估计点对象映射（O）、点方差映射（ε）和点嵌入（ε）。我们使用这些地图通过4D连续体中基于密度的聚类将点分配给各自的实例。我们从语义解码器（S）获得语义解释。（对象映射O），将语义类分配给点（语义映射S），并计算每点嵌入（嵌入映射ε）和方差（方差映射ε）。可以通过评估每个4D点属于某个“种子”点的概率来有效地执行聚类最后，为了关联4D子体积，我们检查重叠点体积之间的点相交。4D体积形成。在推理和训练过程中，我们在在线设置中形成重叠的4D点云体积。特别地，对于扫描t和时间窗口大小τ，我们将时间窗口max（0，t τ），.内的点云对齐在一起，t使用由SLAM方法提供的自我运动估计[7]。我们在SEC的实验4.1发现处理多个点云显著地改善了空间和时间点关联性能。然而，由于存储器需求的线性增长为了克服这个问题，我们建立在直觉上，即事物类对于稳定的时间关联是最关键的，因为这些类对应于潜在移动的对象。当我们在在线设置中操作时，过去的扫描已经被处理，我们可以从早期扫描中采样属于物体基于密度的聚类。我们通过高斯概率分布对对象实例进行建模。给定对象中心的估计，即，聚类“种子”点，我们可以通过在基于点的嵌入向量的高斯概率密度函数下评估每个点来将点作为它们各自的实例。估计的中心不需要对应于确切的对象中心，而仅仅用于启动聚类。因此，我们的方法在实践中对遮挡和跨时间视图变化相当鲁棒。我们注意到高斯假设仅对较短的时间窗有效。特别地，给定表示实例中心的点pi及其嵌入向量ei，以及查询点pj及其嵌入向量ej，我们可以评估点采样t-14D点云编码器-解码器网络4D语义+实例预测St-2t-轴OεΣ...5530⊤−∈IJ∈D1J我J点pj属于其中心“种子”点的概率哪里在高斯pdf下评估pij（等式第一章pi为：.其中点嵌入ei以及实例嵌入方差ej和σj。此外，我们还将-1 1p=exp−（e1— （e）— e）、（一）[45]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！（2 π）2|吉吉|2其中，是使用点pi的方差预测σi构造的对角矩阵。我们将坐标值（x，y，z，t）与学习的点嵌入向量连接，以将空间和时间坐标与学习的嵌入相结合。我们在方差图的训练过程中考虑了这些额外的维度。网络和培训。为了执行这样的聚类，我们需要识别最可能的实例中心，即，“种子”点，在4D点云中。我们还需要每个点的方差预测来评估聚类过程中的概率得分，以及所有语义类的后验概率。我们使用直接在4D点云P RN×4上操作的编码器-解码器架构来估计所有这些量。编码器网络基于KP-Conv [72]主干，该主干使用可变形点卷积。解码器使用连续点卷积预测逐点特征嵌入ε RN×D。之上在编码器中，我们在RN×1中添加了一个对象中心度解码器，在RN×D中的点方差解码器和在RN×C中的语义解码器。我们以端到端的方式和在线方式训练我们的网络为了训练语义解码器，我们使用交叉熵分类损失L类。由于语义类是高度不平衡的，我们对点进行采样以确保从某个类采样点的概率大致均匀。为了学习点中心性和点方差，我们使用三种不同的损失。首先，我们施加均方误差（MSE）损失来训练对象中心解码器。然而，与图像和视频域不同，实际对象中心附近通常没有点[51，4]。因此，我们预测的点到其实例中心的接近程度我们为每个点pi计算其对象性oi作为点与其实例中心之间的欧几里得距离，即，所有实例点的平均点，归一化为[0，1]。然后将此对象性oi与回归的对象性oi进行比较：中国执行方差解码器。总之，我们使用四种不同的...以端到端的方式训练我们的网络L= L class + L obj + L ins + L var。推理。我们分两个阶段解决点到实例的关联，首先是在处理的4D体积内，然后是跨体积。首先，基于点云中心度图，我们选择具有最高对象的点pi-ness评分然后，我们评估所有候选人的概率pij日期点，并在pij>0的情况下将它们分配给集群。五、然后从候选池中删除分配的点。我们重复这些步骤，直到下一个最高的对象分数低于某个阈值。为了在处理过的4D卷之间传输身份，我们基于重叠分数执行跨卷关联greatness，同时考虑所有扫描当重叠低于阈值时，我们分配一个新的id。3.2. 测量性能在提出一个新的任务和基准时，核心问题是如何评估和比较不同的方法。最好，我们希望用一个数字来总结性能，以便对方法进行排名，同时保留查看任务不同方面的能力。3.2.1现有的评价措施为了激励我们的评估方法，我们首先简要讨论了基于图像的全景分割（PQ [35]）和多目标跟踪和分割（MOTSA/MOTSP [9，74]）的既定指标。然后，我们讨论了两个最近提出的扩展PQ的时间域和argue为什么我们不促进他们的适应任务的4D激光雷达全景分割。以段为中心的评估。 PQ和MOTSA/MOTSP是以实例为中心的评估指标。两者都首先确定地面实况对象集与每个帧的模型预测之间的唯一匹配，以确定真阳性（TP）、假阳性（FP）和假阴性。Lobj=i=1（oi−2oi），oi∈[0，1]（2）病毒（FN）。这两个指标提供了分割和识别方面的任务的措施PQ和MOTSP的分割质量（SQ）项将IoU集成到由于我们希望实例的嵌入形成集群，在时空域中，我们引入了实例丢失。给定N个点和K个实例的4D点云，它被定义为：集合TP，并通过TP集合的大小对其进行归一化。PQ的识别质量（RQ）项表示为F1得分.类似地，MOTSA将检测错误（FN和FP）与ID切换（IDSW）惩罚组合在单个项中。ΣKΣNLins=i=1i=1（pij2— pij），pij=.1，如果pi∈Ij0，否则（三）IDSW发生在跟踪丢失时，跟踪器为跟踪对象分配新身份。这是唯一考虑到任务时间方面的术语。2我我5531对PQ的批评是，它过度强调了非常小的细分市场的重要性，并且很难匹配材料类[57]。与关联方面相比，MOTSA过分强调检测，并且它是不直观的，因为分数可以是负的并且是无界的，如在第12节中可以看到的四、此外，ID切换对最终得分的影响取决于帧速率，并且MOTSA第我们的关联分数以统一的方式测量点到实例的关联质量分类评分。对于分类得分，我们首先定义实例不可知的地面实况和预测集：gtagn（c）={（p，n）|gt（p，n）=（c，n）}，不奖励从错误关联中恢复的跟踪器行动。重要的是，这两个指标都对选择敏感，人民行动党（c）={（p，n）|pr（p，n）=（c，n）}，匹配阈值。因此，稍微错过该阈值的实例将导致FN和FP。这不是用于评估语义分割的像素或点为中心的度量的情况。标准平均IoU（mIoU）度量[22]计算TP，FP和FN像素（或点）基础的集合，有效地绕过了片段匹配。PQ扩展。最近的工作[34]提出了视频全景质量，一种用于顺序域的PQ变体。与PQ不同，基于顺序IoU匹配标准[83]建立gt到预测的映射。由于对象在整个剪辑中不存在，并且任务的难度这适用于[34]中定义的设置，其中任务是评估简短的，稀疏标记的视频片段。然而，这种方法不能扩展到任意长度的PQ的另一个扩展表示基本事实和预测的点，这些点属于C类，而不管它们被分配的ID如何。然后，在关于gt类c和预测类c′的语义分割评估中计算TP、FP、FN集合：TP c= |pr agn（c）|、FP c= |pr agn（c）− pr agn（c）<$gt agn（c）|、FN c= |gt agn（c）− pr agn（c）<$gt agn（c）|.然后，分类分数简单地归结为这些集合上的交集-并集（IoU），这是用于评估语义分割的标准方法（然而，这不同于以片段为中心的PQ，其中点仅在它们所属的片段匹配时才对TPc我们遵循标准程序并对班级进行平均：全景跟踪质量（PTQ）[32]通过向PQ测量添加ID惩罚来结合MOTA和PQ这个ap-1摄氏度Scls=|TPc|1摄氏度=IoU（c）。方法继承了PQ和MOTSA指标的问题。|c = 1|TPc|+的|FNc|+的|FPc|FP c|Cc=13.2.2LiDAR分割和跟踪质量在下文中，我们假设一系列3D点云关联得分。为了评估关联得分，我们为事物类引入以下类不可知预测和地面实况：长度为l，以离散时间步长采样：R3×N|n< l}。我们定义地面实况赋值gtid（id）={（p，n）|gt（p，n）=（c，id），c∈ things}，函数gt（p，n）→（c，id）和预测函数pr（p，n）→（c，id），其将由点p和时间戳n组成的每个4D元组映射到某个类c和身份id。在下文中，我们设计了一个评估度量，对于每个对（p，n），评估（i）它是否被分配（二）对于正确的类，是否prid（id）={（p，n）|pr（p，n）=（c，id），c∈ things}.我们定义了具有身份id的地面实况对象t和被分配身份id′的预测s之间的真正关联（TPA）集。这给了我们一组具有相互一致的恒等式id和id′的点：它被分配给了正确的对象实例。受最近推出的高阶跟踪精度的TPA（id，id′）=|PR id（id′）标记id（id）|.（四）（HOTA）[45]，在MOT的背景下提出，以及当前关于视频全景分割的工作，提出了分割和跟踪质量（STQ）[75]，我们的LSTQ（LiDAR分割和跟踪质量）由两个术语组成，分类得分Scls和关联评分为S。与其他指标相比，我们采用了根本不同的评价理念[45，35，34，32]。特别是，我们放弃了帧级“检测”的概念5532/类似地，我们定义了假阳性关联的集合FPA（id，id′）= |pr id（id′）− pr id（id′）gt id（id）|.（五）直观地，该集合包含具有标识id'的预测点分配，其被分配了不同的地面实况标识（=id），或者未被分配给有效对象实例。最后，一组假阴性赋值：FNA（id，id′）= |gt id（id）− pr id（id′）<$gt id（id）|（六）5533√×语义分割实例分割时间图3：2和4扫描版本的预测，MOTSA= 1。0/0。0，Sasd=0。96比0 93，Scls=0。86比0 七十五。虽然这两个模型都能正确地跟踪实例，但由于语义分割预测的细微差异，MOTSA得分差异很大。包含具有身份id的地面实况点，这些点是作为身份签名的、与id'不同的或被遗漏的。我们注意到，TPA，FPA和FNA的概念首先被引入到MOT评估的背景下，用于测量时间检测关联的质量。因此，为了建立这些集合，需要建立gt和pred之间的双射映射（如[9]的情况）。然而，在LSTQ中，这些集合是相对于每个4D点建立的，以统一的方式处理空间和时间上的关联一旦我们量化了这些集合，我们就可以评估预测的片段s与真实片段t的一致程度。因为地面实况片段t可以由多个不同的预测来解释，所以我们对具有非零重叠的所有对的贡献求和：4. 实验评价在本节中，我们首先评估用于形成4D点云体积的不同策略，评估处理多次扫描对最终性能的影响，并讨论用于点分组的嵌入的几种可能性。我们通过扩展现有方法将我们的方法与单扫描LiDAR全景分割[6]和4D全景Li-DAR分割的基线进行比较。我们使用SemanticKITTI [5] LiDAR数据集进行实验。它包含来自KITTI里程数据集[25]的22个序列，并提供逐点语义和时间一致的实例注释[6]。我们使用SemanticKITTI [5，6]划分的训练/验证/测试。Sassistance=1|不|Σt∈T |GT1id（t）|Σs∈STPA（s，t）IoU（s，t），（7）4.1. 消融研究我们通过LSTQ度量的透镜对验证集和预处理结果执行所有消融（第3.2.2）。st=0其中IoU项使用TPA、FNA和FPA集进行评估（等式2）。4、6、5）。在实践中，我们不需要执行任何点段关联，即使是具有单个公共点的预测也会对该项做出贡献我们通过管体积对这些贡献进行归一化，并通过TPA集的体积对每个贡献进行该加权项确保具有较大节奏跨度的实例对最终得分具有较高的贡献。最后，我们的度量计算为两项的几何平均值：LSTQ=Scls很好。相对于算术平均值的优点是，如果两项中的任何一项接近零，则最终得分将变为零。这反映了我们的直觉，即在任务的两个方面中的任何一个失败都会导致非常低的最终分数。LSTQ通过设计容忍时空片段内的不同语义预测（等式10中的IoU项）7以类不可知的方式进行评估遵循STQ [75]，我们将语义和关联错误解耦，否则，例如，一辆卡车被误认为是公共汽车，即使它被正确地跟踪，也会被关联项严厉地这种将关联和分类错误分开的行为不同于其中语义和时间关联纠缠在一起的MOTSA/PTQ/VPQ点传播。如第3、由于内存的限制，不能简单地临时叠加点云。我们建立在直觉的基础上，我们可以从过去的扫描中对一组对最终任务性能最有利的点进行由于我们是在在线环境中操作，并且已经处理了过去的扫描，因此我们可以利用过去的预测。在这个实验中，我们讨论了不同的时间点采样策略，时间窗口大小为τ=2，4，6。在事物传播策略中，我们只对只分配给一个事物类的点进行了排他性采样，因为它们只代表所有点中的一小部分。在重要性抽样策略中，我们以与对象成比例的概率抽样10%的通过这种方式，我们关注可能表示事物类的点，同时仍然允许传播属于事物类的点，这可以帮助任务的语义分割。类似地，时间衰减采样使用对象分数作为决定因素，但是我们基于与当前扫描的接近度来衰减采样点的数量。最后，步幅采样沿着时间维度以步幅2采样点正如在Tab中所看到的1，重要性抽样策略与仅双扫描预测四扫描预测5534×→方法PQPQ†平方RQMiou[40]第四十话：我的世界37.145.975.947.052.4[40]第四十二话：我的世界44.552.580.054.458.8[47]第四十七话38.047.076.548.250.9我们的方法（单次扫描）50.357.881.661.061.3表3：单次扫描全景分割（测试集）。表1：针对不同时间窗口大小构建4D点云体积的点采样策略的消融研究。混合#Sc.LSTQ萨什托SCLSIoUSt约氏xyz251.6543.7760.9564.9663.06Xyzt251.9544.3060.9364.8063.15EMB.248.5843.6354.1059.5450.41EMB.+xyz254.1556.6355.1161.1453.71EMB.公司简介259.8658.7960.9564.9663.06xyz454.2948.7760.4465.2961.32Xyzt454.4649.5559.8764.8061.15EMB.456.7760.6353.1758.0052.25EMB.+xyz458.4363.9054.6861.1252.67EMB.公司简介462.7465.1160.4665.3661.26表2：包埋设计消融。thingclasses类，内存开销略有增加。正如预期的那样，这种方法提高了关联质量，表4：4D全景（测试集）。MOT-通过检测进行跟踪接下来，我们研究了将学习的嵌入与3D空间和4D时空坐标相结合的坐标混合公式的性能可以看出，我们结合两者的变体产生了最好的结果，不仅是在S_（asp）方面，而且在S_（cls）方面。这表明设计良好的嵌入分支对学习主干特征有积极的影响。请注意，对于仅使用时空坐标的基线，我们仍然使用经过充分训练的网络。4.2. 基准测试结果语义，因为它也传播表示东西的点。有趣的是，即使是大小为2的时间窗口，与单个扫描基线相比，也可以显著提高性能，内存消耗可以忽略不计（1. ①的人。我们观察到最大的收益时，扫描是节奏-反弹接近：我们的4扫描多扫描基线提高每1000 51。92 62. 第74话LSTQ 与分割项相比，关联项从处理多次扫描中获益更多。这证实了我们的模型能够很好地利用时间线索。虽然时间衰减确实有助于语义或时间方面，但引入时间步长2会产生语义点分类的最高性能增益。然而，时间域中的更密集采样有益于关联。因此，我们关注τ= 4的重要性抽样策略。在补充中，我们突出时间窗口大小τ= 1、2、3、4、6、8的脉冲。可以看出，关联准确度增加到τ= 4，然后饱和，而分类准确度在τ= 2时饱和;然而，它仅略微降低。嵌入式设计。在这个实验中，我们研究了聚类的不同点嵌入，并在Tab中显示了我们的发现。二、我们研究了仅使用3D空间（xyz）和4D时空点坐标（xyzt）以及仅使用学习嵌入（Emb.）的基本性能。单扫描预测。首先，我们使用单扫描LiDAR全景分割来评估我们的方法[5，6]，以证明我们的网络仅在空间域中的有效性。我们使用单次扫描中的点，培训和测试。我们遵循标准评估方案，并与已发表和同行评审的方法进行比较如表1所示。3、我们的方法达到了状态-在语义和全景分割的所有度量上的最新结果[35，5，6]。前两个条目使用两个不同的网络进行对象检测和语义分割，然后融合结果。我们使用一个单一的网络，以获得语义和实例分割的点云在一个单一的网络通过。我们注意到，最近提出的Panoptic RangeNet [47]和RangeNet++ [48]与PointPillars [40]检测器相结合，对距离图像而不是点云进行操作，因此使用不同的主干。但是，带有PointPillars的KPConv使用与我们的方法相同的主干。4D全景分割。为了在4D全景分割任务的多扫描设置中进行评估，我们扩展了表1中报告的所有单扫描方法。[47]第三节：“除此之外，我们使用两种策略使它们适应序列域。AB3DMOT [76]使用恒定速度运动模型来获得与基于3D边界的对象检测相关联的战略#fr.LSTQ萨什托SCLSIoUSt约氏Mem.基地151.9245.1659.6964.6060.401x道具259.2058.7159.6964.0461.161.05x460.9463.9557.8463.9556.671.15倍658.8861.1356.7163.8653.971.25x重要性样本259.8658.7960.9564.9663.061.1x462.7465.1160.4665.3661.261.3x661.5264.2858.8865.3257.381.5x时间衰减259.8658.7960.9564.9663.061.1x462.1464.0560.3065.3360.911.3x661.0363.3458.8165.3857.111.5x时间步幅262.2963.5261.0865.1063.181.1x461.6362.8960.3965.4560.391.3x659.3359.9558.7265.3956.881.5x方法LSTQ萨什托SCLSIoUSt约氏RangeNet++[48] + PP + MOT35.5224.0652.4364.5235.82KPConv [72] + PP + MOT38.0125.8655.8666.9047.66RangeNet++[48] + PP + SFP34.9123.2552.4364.5235.82KPConv [72] + PP + SFP38.5326.5855.8666.9047.66我们的（单次扫描）+MOT40.1828.0757.5166.9551.50我们的（单扫描）+SFP43.8833.4857.5166.9551.50我们的（多扫描）56.8956.3657.4366.8651.645535方法LSTQ萨什托SCLSIoUSt约氏sPTQPTQsMOTSAMOTSARangeNet++[48]+ PP + MOT43.7636.2852.7860.4942.1734.5833.83-7.88-4.57KPConv [72]+ PP + MOT46.2737.5856.9764.2154.1339.1338.11-6.16-2.41RangeNet++[48]+ PP + SFP43.3835.6652.7860.4942.1735.8335.46-3.13-0.01KPConv [72]+ PP + SFP45.9537.0756.9764.2154.1341.4441.052.836.1MOPT [32]24.8011.7352.4162.3745.2741.8242.3912.8817.07我们的（单次扫描）+MOT51.9245.1659.6964.6060.4048.3647.846.6512.69我们的（单扫描）+SFP45.4534.6159.6964.6060.4048.2447.723.017.93我们的（2次扫描）59.8658.7960.9564.9663.0651.1450.6729.0433.2我们的（4次扫描）62.7465.1160.4665.3661.2651.5051.200.344.8表5：4D全景（确认集）。MOT-检测跟踪类别联系我们百分比扫描次数TPFPFNIDs精度召回MOTSA萨什托SCLS摩托车2550.012420923115174746243190.580.240.820.910.11-2.060.560.810.880.74其他车辆21380.06247781022362113113601116162990.680.470.360.480.12-0.100.170.380.560.55表6：SemanticKITTI验证集（2和4扫描版本）的每类评价框重叠。第二种策略，场景流传播（SFP）的灵感来自于标准基线，该基线执行点的opti- cal流扭曲，然后是基于掩码IoU的关联。这种方法通常用于基于视觉的视频对象分割[46]、视频实例分割[83]以及多对象跟踪和分割[54，55，74]。我们使用最先进的LiDAR场景流而不是光流[49]。我们概述了我们的结果，获得的测试集在表。四、可以看出，使用KPConv [72]来获得每像素分类的基线、PointPillars（PP）检测器[40]和用于点云传播的网络（SFP [49]）在关联准确性方面比标准3D MOT基线表现稍好。我们的方法将所有三个方面统一在一个网络中，其性能大大优于所有检测跟踪基线，包括我们的单扫描基线。这证实了以统一的方式处理所有三个方面任务的重要性。我们的论文的一个重要贡献是发现，即使用我们的网络处理较小的重叠子序列（并用简单的基于网络的方法解决窗口内关联），与使用更复杂的关联技术（例如，卡尔曼滤波器），如表中所示四、Metric Insights. 在本节中，我们将分析验证拆分（Tab.5）通过几个评估指标的镜头，并分析每个类的性能（表。6）。我们的方法在所有指标方面都优于所有基线。然而，虽然我们的4-扫描变体在LSTQ方面比2-扫描变体表现更好，但我们观察到MOTSA评分显著下降。我们的分析表明，这是由于某些类别的MOTSA分数为负，这是由于精度下降而ID开关较少（见表1）。我们在图3中可视化这种情况。可以看出，差异是由于点的语义解释，而不是由于实例级别的分割和跟踪质量这证实了MOTSA的非直观行为，而我们的指标提供了对语义解释和实例分割和跟踪的见解。有关更多详情，请参阅补充资料。5. 结论在本文中，我们将LiDAR全景分割扩展到时域，从而产生4D全景分割任务。提出了一种适合于分析该任务性能的评价指标，并提出了一种新的重要的是，我们已经证明，在空间和时间上联合处理语义分割和点到实例关联的单个我们希望，我们的统一观点和模式，加上公共基准，将为未来的发展铺平道路。致谢。该项目由洪堡基金会通过Sofja Kovalevskaja奖、欧盟地平线2020研究和创新计划（赠款协议编号101017008（和谐））和德国联邦教育和研究部（BMBF）（赠款编号01IS18036B）资助。本作品的作者对其内容承担全部责任。我们感谢[32]的作者为他们的方法提供了结果，感谢IsmailElezi和整个DVL小组进行了有益的讨论。5536引用[1] AnuraagAgrawal，AtsushiNakazawa和HaruoTakemura。三维距离数据的MM分类。载于ICRA，2009年。2[2] Dragomir Anguelov，Ben Taskar，Vassil Chatalbashev，Daphne Koller ， Dinkar Gupta ， Geremy Heitz ， andAndrew Ng.马尔可夫随机场的判别学习用于3D扫描数据的分割。在CVPR，2005年。2[3] 放大图片创作者：Iro Armeni，Ozan Sener，Amir R.Zamir，Helen Jiang，Ioan-nis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维在CVPR，2016年。2[4] 阿里·阿萨，萨巴里纳特·马哈德万，阿尔乔斯·奥萨普，劳拉·莱尔-塔克斯和巴斯蒂安·莱贝。Stem-se g：用于视频中的实例分割的时空嵌入在ECCV，2020年。第三、四节[5] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel，Sven Behnke，Cyrill Stachniss，and JuergenGall. Se- manticKITTI：一个用于LiDAR序列语义场景理解的数据集。在ICCV，2019年。一、二、六、七[6] Jens Behley ， Andres Milioto 和 Cyrill Stachniss 。基于KITTI的基于LiDAR的全景分割基准。在ICRA，2021年。二、六、七[7] Jens Behley和Cyrill Stachniss。在城市环境中使用3D激光测距数据的高效Surfel SLAM。在RSS，2018. 3[8] 菲利普·贝尔格曼，蒂姆·梅恩哈特，劳拉·里尔-塔克斯·埃。不用花里胡哨的追踪。在ICCV，2019年。第1、3条[9] 凯尼·贝尔纳丁和雷纳·斯蒂费尔登。评估多目标跟踪性能：明确的mot指标。JIVP，2008：1：1-1：10，2008.二、四、六[10] Guil l emBraso和LauraLeal-Taix e'。学习多目标跟踪的神经在CVPR，2020年6月。第1、3条[11] 作者： William Brendel ， Mohamed R.Amer

下载后可阅读完整内容，剩余1页未读，立即下载