全景分割中的快速聚类伪热图方法：Panoptic-PHNet

178 浏览量更新于2023-10-25 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11809Panoptic-PHNet：通过聚类伪热图金科李晓何杨文元高晓强程丹张唯思基金会研究发展{jinke.li，小河，杨文，高元，程小强，张丹}@ uisee.com摘要全景图像分割作为一个新兴的研究课题，在语义分割和实例分割两方面然而，在速度和准确性方面，该领域的前向LiDAR方法仍然有限。在本文中，我们提出了一个快速和高性能的基于LiDAR的框架，称为Panoptic-PHNet，具有三个吸引人的方面：1）我们引入了一个聚类伪热图作为一个新的范例，然后是一个中心分组模块，产生了一个实例中心，用于高效的聚类，而无需对象级的学习任务。2)提出了一个knn-Transformer模块来模拟前景点之间的相互作用，以实现精确的偏移回归。3)对于主干设计，我们融合了细粒度体素特征和具有不同感受野的 2D 鸟瞰在SemanticKITTI数据集和nuScenes数据集上进行的大量实验表明，我们的Panoptic-PHNet以实时速度超越了最先进的方法我们在SemanticKITTI公共排行榜上排名第一，在最近发布的nuScenes排行榜上排名领先1. 介绍近年来，自动驾驶技术发展迅速，场景理解作为其关键技术中的一项重要感知任务，受到了研究者的广泛关注。全景分割是最近在图像领域引入的任务[18]，旨在将语义分割和实例分割统一在单个框架中。随着 Li-DAR 点云基准测试的发布，例如，SemanticKITTI [1]和nuScenes [10]，3D领域的相关工作也得到了广泛的推广。LiDAR全景分割的目的不仅是预测所有点的类别标签，包括前地点（事物）和背景点（东西），图1. SemanticKITTI上的全景质量与单帧推理延迟[1]。绿色区域表示实时区，满足10帧/秒频率。基于2D CNN的方法[22，40]、基于3D CNN的方法[14]和组合方法[1]分别以蓝色、红色和灰色示出。我们提出的Panoptic-PHNet在PQ中的性能远远优于所有其他方法，并且仍然保持实时速度。还有事物点的实例ID。根据实例分割的实现方式，全景分割可以分为基于建议的方法和无建议的方法。基于建议的方法需要一个独立的网络或分支来预测建议[1，17]，其缺点是实例分割的能力严重依赖于对象检测的性能。相比之下，无提案[14，19，24]探索基于聚类的实例分割方法。由于这种方法不受基于级联设计的不一致性问题的困扰，因此它们在实现方面相对优雅然而，常用的聚类算法，如Mean Shift [7]和HDB-SCAN[4]，耗时且难以用GPU加速。虽然Panoptic-PolarNet[40]尝试使用Panoptic-DeepLab6460Panoptic-PHNet56DS-Net52Panoptic-PolarNet48KPConv +PointPillar4440Rangenet+++ PointPillarLPSAD36024681012每秒帧数全景质量[%]11810[5]为了预测中心热图和偏移，由热图分支预测的中心可能与来自偏移分支的聚类位置不匹配。这两个独立分支之间可能的不一致性限制了这种方法。一般来说，无命题方法学习每个事物点的偏移量，通过该偏移量，点可以移动到其实例中心附近。将所有移动的点投影到 BEV伪图像上，我们发现它与Panoptic-PolarNet [40]的学习中心热图共享类似的换句话说，投影图像可以是自然热图，以确定实例的存在。具体来说，给定移动的事物点，我们建议通过将这些点直接投影到BEV图像上来创建聚类伪热图，每个像素中的点的数量（我们称之为定量密度）表示相应的分数。因此，通过所提出的伪热图，可以通过基于窗口的最大池化轻松生成实例中心，并将其用于对所有事物点进行聚类，如[5]所示。通过这种方式，我们去除了单独的热图学习分支，因此消除了上述不一致问题。所见即所得，只要存在点簇，就会生成对象级中心。然而，也存在这样的情况，其中由于可能产生属于一个实例的多个中心，到不精确的点偏移回归。我们进一步提出了一个中心分组模块，它集成了这些冗余中心，以维护实例的完整性。此外，很明显，高质量的偏移回归会为我们的聚类伪热图带来更好的偏移点。因此，受自然语言处理和计算机视觉领域流行的Transformer [31]的启发，我们引入了knn-Transformer模块来有效地对事物点的交互进行我们的knn- Transformer着眼于局部点之间的空间距离关系，以较低的计算消耗促进偏移回归。关于主干的设计，我们更灵活地聚合不同尺度的特征，同时考虑精度和推理速度。我们首先提取细粒度的体素特征，然后通过类似Unet的网络（如PolarNet[37]）在具有不同感受野的2D BEV空间中进行编码，2D BEV特征被进一步映射回具有高度维度的每个体素。通过拼接，获得的体素特征不仅包含不同BEV尺度下的2D编码特征，而且包含细粒度的体素特征。我们在SemanticKITTI和nuScenes数据集上评估我们的Panoptic-PHNet大量的实验表明，我们的ap-proach优于所有国家的最先进的方法上的两个基准（第一位的SemanticKITTI的公共排行榜）与实时延迟。我们的贡献概述如下：• 我们提出了一种聚类伪热图，它直接从移动的事物点生成，而无需额外的学习任务，这使我们能够避免两个独立分支之间的不一致问题，并加快聚类过程。为了维护实例的完整性，还引入了中心分组模块。• 我们提出了一个knn-transformer模块来有效地模拟事物点之间的相互作用，以实现精确的偏移回归。• 本文提出了一种融合不同尺度下的体素特征和BEV特征的骨干网络，与单纯利用BEV特征的网络相比，该网络以较小的时间消耗为代价，显著提高了最终的准确率。• 实验表明，我们的方法在 SemanticKITTI 和nuScenes数据集上实时实现了最先进的性能，如图所示。1.一、2. 相关工作2.1. 点云由于有效的数据表示是基于学习的任务的基础，对于不规则和稀疏的点云，在以往的研究中，通常有两种方法来学习表示。一种是直接在点层次上学习特征，另一种是在特征提取之前首先对原始点云进行正则化。基于PointNet [26]和PointNet++ [27]，KPConv[30]和RandLA [16]直接处理不规则点云，然而，这需要耗时的预处理来构建点之间的图形。VoxelNet [39]首先将点云投影到常规体素，并利用3D CNN来学习特征。SEC- OND [35]引入稀疏卷积以提高体素特征的学习效率。为了进一步优化特征提取的延迟以及内存消耗，PointPillars [20]通过PointNet折叠高度维度，然后将输入视为BEV图像。Po-larNet [37]考虑了物理空间中点的不平衡分布，并将点云编码为极地BEV地图。距离图像[9，23，33，34]是有效特征编码的另一种常见投影空间，但3D拓扑关系也被削弱。方法[29，32，38]建议从不同角度融合信息。2.2. LiDAR全景分割全景分割是一个新兴的研究领域，它将语义分割和实例分割相结合。11811分割pvLiDAR点云全景体素编码器语义分支实例分支语义分割（x��）x16岁x东西面具中心广场Knn-Transformer��x��x��∗x16BronxBronx64x例如聚类BEV编码器2D骨干网络偏移伪热图图2.我们的Panoptic-PHNet的整体框架。主干由体素编码器、BEV编码器和用于特征提取的2D主干网络组成。所提取的BEV特征与细粒度体素特征连接，作为语义和实例分支的体素表示。在实例分支中，引入了knn-transformer模块来模拟物体体素之间的相互作用。从移位的物体体素生成聚类伪热图以产生实例中心，随后是中心分组模块。最后，两个分支的输出通过基于投票的方案相结合，以获得全景分割结果。位置。在处理身份信息的方法方面，两种框架，即，基于建议和无建议的设计。基于建议的全景分割。 PanopticTrack-Net [17] 利用Mask R-CNN [13]进行分割，并附加一个语义头来对填充点进行分类。SemanticKITTI [1]和nuScenes [10]发布了Li-DAR全景分割数据集，并通过结合现有的最先进的对象检测器和SEMANIC分割网络报告结果。对于基于建议的方法，虽然预测的边界框使分割实例变得容易，但最终性能在很大程度上取决于对象检测任务。无建议的全景分割。 Panoptic-PolarNet[40]采用Panoptic- DeepLab [5]的轻量级实例头来预测实例中心和点偏移，而无需边界框回归。但是，由于两个独立分支之间的不一致性问题以及实例中心预测的可能失败，也有研究[11，14，22]使用纯聚类进行实例分割。DS-Net [14]提出了一个动态移动模块，以迭代的方式将点向实例中心移动，并利用Mean Shift聚类来分割实例。应该注意的是，作为后处理，传统的聚类方法通常是耗时的。3. 方法3.1. 概述由于像素是Unet的基本元素，因此体素是我们网络中的基本单元。遵循Unet的设计，它融合了每个像素的低级和高级特征，我们的网络聚合了不同感受野下的2D语义特征和每个体素的细粒度3D特征。前者加快了任务的收敛，后者便于区分不同的体素彼此。我们的Panoptic-PHNet的框架如图2所示。输入的LiDAR点云首先通过体素编码器编码为3D体素表示，然后通过BEV编码器进一步转换为大小固定的2D表示一个Unet类的2D骨干网络被用来提取BEV的功能与不同的感受野。根据每个体素的坐标，收集每个体素的BEV特征。通过将所收集的BEV特征与低级细粒度体素特征连接来生成新特征，然后将其馈送到两个分支中以进行语义和实例分割重构。在实例分支中，引入了knn变换模型来模拟物体体素之间的相互作用，以增强特征表示。我们预测实例中心的偏移量来移动物体体素，然后实例聚类MLPMLPmaxpoolmaxpool11812大小基于优先级的中心点总线（未分段）实例中心大小优先级∈∈∈×∈∈×∈ID× ×ID∈IDIDID接着，根据移位体素的定量密度通过投影生成聚类伪热图通过中心分组模块对可能的冗余中心进行整合。最后，结合两个分支的输出，我们通过基于投票的方案获得最终的全景分割结果[40]。在下面的章节中，我们首先详细介绍Panoptic-PHNet实例分支中的两个组件，然后介绍主干设计。3.2. 聚类伪热图在中心偏移预测和体素移位之后，实例分支中的剩余工作可以被视为聚类任务。为了有效的实例聚类，我们基于[40]的假设在BEV空间中进行，即感兴趣的事物对象彼此分离并且在鸟瞰图下不重叠为了解决现有方法的当前问题，如第二节所分析的。1，我们提出了一个聚类伪热图，通过将移位的物体vox- els投影到BEV图上来产生实例中心，由于体素的数量被用作每个BEV网格的分数，因此局部区域中具有最多体素的位置对应于伪热图上的局部峰值，其可以自然地被视为实例中心。这种自下而上的设计确保了实例中心和移位体素之间的一致性更具体地说，我们将移位的物体体素V′RM×3映射到BEV伪图像I′RH×W×Cn，其中M是物体体素的数目，H和W是BEV图的大小，Cn是语义类别的数目。通过沿Cn的维度对体素数量求和，可以生成与类别无关的伪热图I。RH×W×1被创建。作为非最大值抑制，采用基于窗口的2D最大池化来有效地挑选出局部中心。与[40]中基于密集学习的热图相比，我们的聚类伪热图是稀疏的，因此不再需要用于中心过滤的top-k操作。最后，每个移位的物体体素可以根据它们在BEV空间上的空间距离被在所有实验中，我们使用网格大小0.2m 0.2m用于我们的聚类伪热图。中心分组。通过进一步分析偏移回归的结果，可以观察到聚类本身对于大对象（如公共汽车）的效果不如小对象（如汽车和人）。原因在于，通过LiDAR传感器，通常较少的身体部分可以被扫描以获得大对象，尤其是当它靠近LiDAR原点时。如图3（a）所示，总线的事物点被聚类为四个实例ID，而不是预期的一个。换句话说，可从伪热图产生最初属于同一实例的多个中心。为了处理这样的情况，我们引入了基于尺寸的中心车总线（多个实例ID）（一）实例中心大小优先级基于大小的中心（b）第（1）款总线（集成）（c）第（1）图3. (a)说明了接近LiDAR坐标原点的总线的不良偏移回归。不同颜色的移位的事物点表示不同的实例ID。(b)和(c)显示使用我们的中心分组模块，总线可以适当地集成。分组模块我们首先在伪图像I′RH×W×Cn上使用2D平均池来计算每个类别的滑动窗口内的物体体素的多数投票被应用于确定每个网格的类别。然后，我们根据其类别经验地给每个中心一个最小半径。图图3（b）示出了分组操作：给定某个基中心Cb ，b以及半径rb，其中b表示具有与Cb相同的实例ID的中心组。如果目标中心C tt与如果与Cb相同的语义标签出现在半径rb内，则集合t然后被重新分组为B. 我们用这种操作遍历所有中心，通过这种操作，多个冗余中心被集成在一起，如图3（c）所示。由于每个LiDAR帧的实例中心数量有限，因此时间成本几乎可以忽略。3.3. Knn变压器在实例分支的开始，我们使用语义分割生成的事物掩码来提取事物体素的特征向量FRM×C由于要处理的体素的数量显着减少，准确地建模这些元素之间的相互作用成为可能。类似于自然句子，无序和不固定数量的事物体素适合于Transformer [31]处理。受Swin-Transformer [21]的启发，其中引入了局部注意力机制，我们提出了一种knn- transformer来有效地对物体体素之间的交互进行我们基本上遵循[31]中的自我注意层设计，只是我们以空间距离为先验来构建局部事物体素之间的相似性矩阵。更具体地，给定如图4所示的具有形状M k C的物体体素的特征，我们基于其空间位置计算GPU上每个物体体素的k个最近邻的索引，通过该索引，输入向量被广泛地投射为具有形状M k C的特征矩阵。通过线性变换，分别生成查询矩阵Q、关键矩阵K和值矩阵V之后，一11813×∈∈∈.Σ···.Σ××Attention（Q，K，V）=softmax<$C′V×图4.我们的knn-transformer模块中的自我注意层。具有形状M k的注意力矩阵，描述每个物体体素与其k个最近邻居之间的相互作用，计算为[31]：.QKT恤（1）其中C′表示通道尺寸的大小。与普通的自注意层相比，我们的基于knn的设计将每层的计算复杂度从OM2C′降低到O（MkC′）. 我们保持了[31]中多头注意和前馈层的结构。由于位置信息本质上是编码在每个体素中的，所以在我们的模型中没有采用位置嵌入我们在实验中使用k=253.4. 主链设计空间分割。在我们的2D骨干网络中，我们基于两个原因利用极BEV坐标进行空间划分。首先，物体不仅在尺度上保持不变，而且在BEV空间中很少重叠[40]。其次，不同范围下的点的分布可以在极坐标中平衡[37]。为了便于从3D到2D空间的投影过程，采用圆柱空间划分[41]进行体素特征提取。体素编码器。在[41]之后，我们首先将原始LiDAR点云的帧分组为具有形状的体素表示N基于圆柱空间中每个点的位置的Np<$K，其中K是要素维度在LiDAR点中，N是非空体素的数量，并且Npx表示每个体素中的点的不同数量。使用具有BatchNorm和ReLU的共享三层MLP来提取点特征，然后使用最大池化层来为每个体素创建一致的表示。采用单层MLP进行特征约简，以生成具有形状N16的细粒度体素特征。BEV编码器和2D骨干网络。我们进一步在二维BEV空间中对具有不同感受野的特征进行编码。一方面，三维空间中的交互操作耗时，占用大量内存。对另一方面，对于LiDAR扫描的2.5D场景[15]，不需要完全在3D空间中提取特征。准确地说，我们首先映射细粒度体素特征VRN×16到极BEV图像Ip′R（H×W×Nv）×1 6，其中H和W是BEV图的大小，并且Nv是每个BEV网格中的体素的不同数量。共享MLP是用于特征提取。与体素编码器类似，我们在每个BEV网格处使用最大池化层来创建一致的表示IpRH×W×64。其次，采用Unet类2D骨干网络来编码BEV空间中具有不同感受野的特征，如[40]。我们在2D骨干网络中有四个解码器，其中前两个为语义和实例分支共享我们收集的BEV特征，相应的体素在两个分支分别根据其BEV位置。然后将所收集的BEV特征与细粒度体素特征连接作为最终体素表示。所有的预测结果和监督信号都是在体素级别。最后，根据每个点的坐标将体素结果映射到点层次。4. 实验我们在SemanticKITTI和nuScenes数据集上评估了我们提出的Panoptic-PHNet。由于页数限制，有关实验和定性结果的更多详细信息，请参阅补充材料。SemanticKITTI SemanticKITTI [1]是第一个对LiDAR全景分割提出挑战的数据集。它来自KITTI [12]里程数据集，包含22个数据序列，其中64个光束LiDAR传感器，其中10个用于训练，11个用于测试，1个用于验证。在20个类别中有注释的逐点标签用于分割任务，其中8个被定义为事物类别。NuScenes NuScenes [3]是一个大规模的驾驶数据集，包含各种各样的城市场景。它包含1000个20秒持续时间的场景。使用32光束LiDAR传感器每0.5秒创建一次注释。最近，官方将LiDAR全景分割任务的逐点注释扩展为16个语义类，其中10个是事物类。由于还没有人在nuScenes测试服务器上报告这项新任务的结果，我们主要将我们的结果与官方[10]在测试和验证集上报告的强基线进行比较。评估方法如 [18] 中所定义的，我们使用全景质量（PQ），分割质量（SQ）和识别质量（RQ）来评估全景分割。这些指标分别为PQTh、 SQTh 、RQTh和PQSt、SQSt、RQSt指示的事物和材料类计算。接下来[25]，我们还报告PQ†使用SQ作为填充类的PQ。我们使用平均IoU（mIoU）来评估语义分割的质量此外，我们采用平均EPE（终点误差）从视觉光流场作为QKVM× CMx kx CMx 1x kThingVoxel特征k-NN搜索线性线性线性MatMul量表SoftMaxMatMul11814§†§LLL方法PQPQ†RQ平方PQThRQThSQThPQStRQStSQ街MiouFPS[20]第20话：我的世界37.145.947.075.920.225.275.249.362.876.552.42.4LPSAD [22]38.047.048.276.525.631.876.847.160.176.250.911.8[20]第20届中国国际纺织品展览会44.552.554.480.032.738.781.553.165.979.058.81.9帕诺斯特[11]52.759.964.180.749.458.583.355.168.278.859.9-[40]第四十话54.160.765.081.453.360.687.254.868.177.259.511.6DS-Net [14]有效LPS [28]55.957.462.563.266.768.782.383.055.153.162.860.587.287.856.560.569.574.678.779.561.661.43.2†-Panoptic-PHNet61.567.972.184.863.870.490.759.973.380.566.011.0Panoptic-PHNet§64.670.274.985.766.973.391.563.076.181.568.4-表1.在SemanticKITTI的测试集上进行LiDAR全景分割。以[%]为单位，FPS以[Hz]为单位。（：我们使用作者在我们的硬件上发布的官方代码库来测量[14]的延迟以供参考;：我们使用双翻转和多模型集成的方法。方法PQPQ†RQ平方PQThRQThSQThPQStRQStSQ街Miou有效LPS [28]62.466.074.183.757.268.283.671.184.083.866.7[40]第四十话63.667.175.184.359.069.884.371.383.984.267.0[36]第二十九话：一个人72.276.081.288.571.779.489.773.284.286.476.9[36]第三十一话：一个人的世界76.579.485.089.676.884.091.176.086.687.277.3(AF)2-S3Net [6] + CenterPoint76.880.685.489.579.886.891.871.883.085.778.8Panoptic-PHNet80.182.887.691.182.188.193.076.686.687.980.2Panoptic-PHNet§81.584.088.491.983.588.793.978.287.888.681.5表2. LiDAR panoptic分割在nuScenes的测试集上产生。所有分数均以[%]为单位。（：我们的方法与双翻转和多模型集成。度量偏移回归比较我们的方法与其他基于聚类的方法。训练与推理我们使用与以前的作品相同的配置和训练时间表[40，41]。有关详细的超参数，请参见补充材料。在训练过程中，我们使用交叉熵损失（ce）和Lovasz softmax损失[2]（ls）来训练语义头。在实例头中，我们使用L1损失（l1）进行偏移回归。最终损失表示为：L=Lce+Lls+Lll（2）如[40]中所述，我们还发现SemanticKITTI中的动态实例数量有限，因此我们采用[35]中的复制-粘贴数据增强方案来缓解类别之间的分布不平衡。然而，在nuScenes上，我们没有使用这种数据增强方案，因为nuScenes 中的每帧平均有 34 个实例，这是 Se-manticKITTI的6倍在推理过程中，我们遵循[40]合并来自两个分支的推理延迟是在具有Intel Core i7 CPU和RTX 2080Ti GPU的平台上测量的。4.1. 主要结果SemanticKITTI上的结果我们首先将我们的方法与SemanticKITTI测试集上最先进的LiDAR全景分割方法进行比较。如Tab.所示。1，我们的方法优于所有现有的方法与可备注的利润，即，PQ提高4.1%（61.5%对57.4%），PQTh提高8.7%（63.8%对55.1%），实时速度与基于3D CNN的方法（如DS-Net [14]）相比，我们的方法实现了更高的准确性，并且速度快3倍以上（11 FPS vs. 3.2 FPS）。关于基于2D CNN的方法，例如，Panoptic- PolarNet [40]，我们的方法在PQTh中实现了超过10%的提升，由于细粒度体素特征和2DCNN特征的组合，具有相似的推理速度。此外，在[36]之后，我们还报告了我们的测试时间增强（TTA）版本，包括双翻转和多模型集合以供参考（表的最后一行）。1）显示我们框架的上界。在NuScenes上的结果。最近，nuScenes发布了用于LiDAR全景分割的测试服务器以及多个强基线的结果[10]。如Tab.所示。2.我们的方法比最佳基线方法高出3.3%PQ、2.3%PQTh和4.8%PQSt。由于官方的合并方法是通过从各种评估服务器下载单独的提交文件来获得的，这些评估服务器可能会使用集成的TTA，如Bidder3D ++[41]，因此我们也报告我们的TTA版本，就像我们在SemanticKITTI上所做的那样虽然组合方法是基于Tab中强大的CenterPoint。2执行相对更好的nuScenes，我们认为，这种自上而下的方法，在很大程度上取决于检测器，是有限的分析，在第二节。1.一、基于精心的架构设计，我们的端到端框架仍然取得领先的成绩。根据最近的官方评估协议[10]，我们进一步报告了nuScenes验证的结果，如表1所示3没有任何测试时间增强技术。我们的方法优于最好的基准 Panoptic-PolarNet[40] 11.3%PQ和14.8%PQTh.11815-100-200基线+中心线+ Knn-变压器QTHPQthPPQth68.169.363.761.261.759.3PQ基线+ Knn-变压器PQTh+中心广场PQTh方法PQPQ†RQ平方PQThRQThSQThPQStRQStSQ街Miou[17]第十七话51.456.263.380.245.855.981.460.475.578.358.0有效LPS [28]62.065.673.983.456.868.083.270.683.683.865.6[40]第四十话63.467.275.383.959.270.384.170.483.583.666.9Panoptic-PHNet74.777.784.288.274.082.589.075.986.986.879.7表3.LiDAR panoptic分割基于nuScenes验证。所有分数均以[%]为单位74 9069 8064 7059 6010070650605559.159.857.758.965.767.561.864.75450DBSCAN HDBSCAN均值漂移50我们的PQPQThPQ延迟[ms]Panoptic-PolarNetPanoptic-PolarNet（Sem.）+我们的(a) 网络元件(b) 聚类算法DS-Net（Sem.）+我们的(c) 实例分割图5. SemanticKITTI确认的消融研究。(a)该网络受益于拟议的两个组成部分。(b)我们基于聚类伪热图的方法更快，更准确。(c)分别获得相同的语义分割结果，我们的实例分割比两种最先进的LiDAR全景分割方法表现得更好。4.2. 消融研究网络组件消融。我们首先分析了我们的聚类伪热图的中心分组模块基线结果来自我们的Panoptic- PHNet模型，没有这两个模块。如图5（a）所示，两个模块都有助于最终性能。关于中心分组模块，它提供了显著的质量改进，例如分割（+4.4%PQTh）。如SEC中所述。3.2，我们的聚类伪热图确实实现了中心生成的高召回率：只要有一个点的聚类，就一定会出现一个高光峰。然而，它也带来了多个冗余中心的问题中心分组法有效地解决了这一问题，进一步保证了实例中心的高精度注意，该模块的可能限制在于引入的超参数，即，每个类别的先验大小，可以留在进一步的工作中。此外，通过增强物体体素的特征表示以实现更准确的偏移回归，我们的knn变换器进一步将性能提高了1.2%PQTh，稍后将进行进一步分析。聚类算法的消融。我们比较我们的聚类方案，即，基于中心分组的聚类伪热图，与广泛使用的启发式聚类算法：DBSCAN [8]，HDBSCAN [4]和Mean Shift [7]以插件方式作为[14]。图5（b）显示了我们的聚类方案在准确性和速度方面优于所有列出的聚类算法。与此相反Mean Shift显示了最好的准确度，在所有的递归算法中，我们的速度快了6倍以上（12.7ms vs. 81.4ms）。值得注意的是，在准确性方面，我们的方法仅比MeanShift高0.8%PQTh，这与DS-Net [14]的实验完全不同：他们的动态移位聚类算法超过Mean Shift3.2% PQTh。原因在于偏移回归的不同基础，我们的高质量偏移预测本身即使使用Mean Shift也会带来出色的性能，我们稍后将详细解释。实例分割上的消融。我们进一步计算出我们的实例分割的性能与两个基于聚类的方法相比，即，DS-Net基于动态移位模块，以迭代的方式将事物点移向实例中心，以及Panoptic-PolarNet [40]需要通过学习产生实例中心的热图。为了消除语义分割的影响，我们用语义分支的结果替换语义分支的结果。通过这种方式，我们的框架为它们的事物点生成实例ID如图5（c），我们的实例分割为两种最先进的方法带来了PQTh的1.8%和2.9%细粒度体素特征的消融。我们分别验证了细粒度体素特征对语义分支和实例分支的影响在语义分支的消融中，我们遵循Panoptic-PolarNet [40]，仅使用BEV特征来生成多个预测，这些预测被重新整形为体素。如Tab.所示。4，使用细粒度体素特征将mIoU提高了1.2%，并且改进的mIoU进一步将PQ提高了1.1%，将PQTh提高了1.7%。可以观察到，细粒度体素fea-68.569.365.160.061.461.757.158.3八十一点四51.426.812.7全景分割结果[%]1181669101PQThEPE510 25 50 100牛顿K最近邻EPE：64.3EPE：13.7平均预期成绩：44.9分支方法PQ PQThmIoU BEV功能60.667.6 64.569.616语义+体素特性61.7 69.3 65.769.4实例BEV功能61.6 69.0-+体素功能61.7 69.3-表4.细粒度体素特征上的消融。我们展示了语义分支和实例分支的实验结果。69.21469.01268.868.610方法PQ PQTh mIoU EPEDS-Net [14] 57.7 61.8 63.5 64.3[40]第一次世界大战后的美国我们的61.7 69.3 65.7 13.7表5.基于聚类的方法在Se- manticKITTI验证中的比较。EPE是由移动的事物点计算的对于每种方法。全景度量单位为[%]，EPE单位为[cm]。↓表示更低更好。DS-NetPanoptic-PolarNet我们的图6.定性结果对比。前三个图像通过不同方法的预测偏移显示了移动的物体点底部的图像显示了实例分割的结果。彩色点表示不同的实例ID。在这种情况下，只有使用我们的方法才能正确分割三个接近的实例。更好地查看颜色和放大的细节。tures对于语义分割任务是至关重要的。至于实例分支，细粒度体素特征也是总的来说，尽管计算量很小，但细粒度体素特征和具有不同感受野的BEV特征的组合在LiDAR全景分割的准确性和速度方面为我们带来了强大的骨干网络。4.3. 进一步分析偏移回归的影响。我们进一步分析了偏移回归的精度。这其实是一个关键因素--针对基于聚类的全景图像分割方法中偏置回归的不足，采用视觉光流场评价中的平均端点误差（end-point-error，EPE）来验证偏置回归的效果。我们仍然将我们的方法与DS-Net [14]和Panoptic-PolarNet [40]进行比较。由于后者仅具有2D偏移图7. knn变压器中k值选择的影响。左侧的主y轴用于PQTh，右侧的次y轴用于EPE。预测，所有EPE结果都在Tab中。5是在carpet 2D BEV空间中计算的，以进行公平比较。如表所示，我们的方法有一个明显较小的偏移误差，这意味着更大的空间距离的实例之间，以方便随后的聚类过程。虽然mIoU的指数也有助于PQ，但很明显，我们的网络受益于这种高精度的偏移预测。此外，高质量的偏移回归对拥挤的城市场景产生了更大的影响，如图所示6，其中只有我们的方法正确地分割了三个接近的实例这种拥挤的场景在nuScenes数据集中更常见，因此，我们的方法显示出更显着的改进。如表中所示。3和Tab。例如，与Panoptic-PolarNet相比，在两个数据集上，我们的方法分别提高了14.8%PQTh和3.6%PQThKnn变压器的效果。我们评估一组k值对我们的knn-变压器的影响。如图7所示，随着k的增加，PQTh首先提高，但当k大于25时几乎饱和。而偏移距回归的EPE却不断减小，证明了我们的knn变换模型的有效性考虑到内存占用，我们使用k=25作为最终选择。5. 结论在本文中，我们提出了一个实时和高精度的激光雷达panoptic分割框架Panoptic- PHNet。作为一种新的范例，我们提出了一个聚类伪热图，它是直接从移动的东西点生成的，没有额外的学习任务，以产生实例中心，然后是一个中心分组模块对多个冗余中心的问题。为了提高偏移回归的精度，引入了一种knn变换器来有效地模拟物体体素之间的相互作用，以增强特征。最后，基于一个强大的骨干设计，它融合了细粒度体素特征和具有不同感受野的2D BEV特征，我们的Panoptic- PHNet在SemanticKITTI和nuScenes数据集上实现了最先进的性能。全景质量[%]EPE [cm]↓11817引用[1] Jens Behley ， Andres Milioto 和 Cyrill Stachniss 。基于KITTI的LiDAR全景图像分割基准。arXiv预印本arXiv：2003.02371，2020。一、三、五[2] Maxim Berman，Amal Rannen Triki，and Matthew B. 布拉什河lova'sz-softmaxloss：神经网络中交叉-联合测量优化的易处理的surrogate在CVPR中，第4413-4421页，2018年。6[3] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。在CVPR中，第11618-11628页，2020年。5[4] 里卡多·J G. B. Campello，Dav oudMoula vi，andJo？ rgSander. 基于层次密度估计的基于密度的聚类。在PAKDD，第160-172页，2013年。1、7[5] 放大图片作者：David D.作者：Collins，Yukun Zhu，Ting Liu，Thomas S. Huang，Hartwig Adam，and Liang-Chieh Chen. Panoptic-deeplab：一个简单、强大、快速的自底向上全景分割基线。在 CVPR 中，第 12472-12482页，2020年。二、三[6] Ran Cheng，Ryan Razani，Ehsan Taghavi，Enxu Li，and Bingbing Liu.（AF）2-S3 Net：稀疏语义分割网络的自适应特征选择的注意特征融合。在CVPR中，第12547-12556页，2021年。6[7] Dorin Comaniciu和Peter Meer。Mean Shift：A RobustApproach Toward Feature Space Analysis. IEEE传输模式分析马赫内特尔第603-619页，2002年。1、7[8] MartinEster， Hans-PeterKrie gel ， J ？ r gSander， XiaoweiXu.一种基于密度的含噪声大型空间数据库聚类发现算法。在KDD，1996中。7[9] 范略，熊轩，王峰，王乃艳，张兆祥。RangeDet：为基于LiDAR的3D物体检测的范围视图辩护。arXiv预印本arXiv：2103.10039，2021。2[10] Whye Kit Fong，Rohit Mohan，Juana Valeria Hurtado，Lub-ing Zhou ， Holger Caesar ， Oscar Beijbom ， andAbhinav Val- ada.Panoptic nuscenes：激光雷达全景分割和跟踪的大规模基准。 arXiv 预印本 arXiv ：2109.03805，2021。一二三五六[11] Stefano Gasperini、Mohammad-Ali Nikouei

下载后可阅读完整内容，剩余1页未读，立即下载