大规模点云序列的在线语义分割模型TempNet的优势与计算效率

93 浏览量更新于2023-10-08 收藏 1.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7118TempNet：大规模点云序列的在线语义分割周云松1朱红子1 * 李春琴1崔天凯1常善2 * 郭敏仪11上海交通大学2东华大学{zhouyunsong，hongzi，supermelcq，cuitiankai，guo-my} @sjtu.edu.cnchangshan@dhu.edu.cn摘要基于时间序列的点云帧的在线语义分割是自动驾驶中的一项重要任务。现有的模型主要集中在单帧分割上，不能达到令人满意的分割精度，并且帧间的抖动不稳定。在本文中，我们提出了一个轻量级的语义分割框架的大规模点云系列，称为TempNet，它可以提高现有的语义分割模型的准确性和稳定性相结合的一种新的帧聚合方案。为了计算成本有效，特征提取和聚合仅通过使用注意力池机制的时间特征聚合（TFA）网络在关键帧的一小部分上进行，并且这种增强的特征被传播到中间非关键帧。为了避免来自非关键帧的信息丢失，部分特征更新（PFU）网络被设计为如果快速评估了两者之间的大差异，则用在非关键帧上提取的局部特征部分地更新传播特征。因此，可以为每个帧获得一致且信息丰富的特征。我们在五个最先进的（SOTA）点云分割模型上实现了TempNet结果表明，TempNet在很大程度上优于SOTA竞争对手，而几乎没有额外的计算成本。1. 介绍为了更好地感知驾驶环境，大多数自动驾驶车辆配备有LiDAR传感器以连续地获取点云数据。针对被称为点云序列的点云帧的时间序列的在线语义分割算法的性能对于自动车辆实时做出正确的决策是必不可少的。例如，具有128个通道的商用现成（COTS）LiDAR [7]每秒可以产生10帧，每帧包含大量约480，000个点。由于离散和*共同通讯作者第1帧第2帧第3帧图1.使用SequeezeSegV2（SOTA单帧分割方法）对三个连续点云帧的两个序列进行分割的示例。可以看出，将这样的方案应用于点云系列会导致不稳定和不准确的结果，例如，由圆圈表示的误差突然出现。由于点云数据的稀疏空间分布性质，与视频的语义分割相比，大规模点云序列的语义分割是一项更加困难的任务。考虑到自动驾驶车辆有限的计算能力，一种实用的点云序列语义分割方法应满足以下两个要求。首先，分割结果应该是准确的，使得自动车辆可以基于结果做出正确的驾驶决策。其次，该方法应该是实时的，这意味着序列中的任何帧点云应该在一定的时间内被正确分割。否则，返回的结果可能会变得无效或无用。在文献中，已经提出了许多点云语义分割方法[27，22，16]，这些方法主要集中在一个单一的静态点云帧上，并且在处理点云的连续帧时可能产生不一致的分割结果。例如，如图1所示，当使用SequeezeSegV2 [31]时，地面实况挤压SegV2地面实况挤压SegV27119在现有技术水平（SOTA）单帧点云分割方案中，分割错误（由图中的虚线圆示出）可能突然出现并在一系列连续帧之间闪烁。此外，这些计划是太昂贵的计算处理点云系列。因此，据我们所知，没有现有的成功的点云语义分割方案可以处理在线点云系列语义分割问题。在本文中，我们提出了一个轻量级的点云序列语义分割框架，称为TempNet，它可以提高准确率和效率现有的语义分割模型相结合的一种新的帧聚合方案。受视频分割任务中的工作[11，37]的启发，该任务选择性地进行特征融合以消除闪烁，首先有效地获得先前点云帧的特征和当前帧的特征，然后有效地聚合以实现可靠和准确的分割结果。设计TempNet有两个主要挑战。首先，获得用于聚集的每个点云帧的特征对于在线点云序列分割任务具有过高的计算成本。为了解决该挑战，仅对帧的一小部分（被称为关键帧）进行全特征提取和聚合，并且这样的增强特征被直接传播到中间非关键帧。此外，为了避免来自非关键帧的可能的信息丢失，部分特征更新（PFU）网络被设计为如果快速评估两者之间的大差异，则用在非关键帧上提取的特征部分地更新传播的特征。由于现实场景的复杂性，很难获得最优的关键帧选择策略。我们采取了自适应帧调度（AFS）的方法，动态地确定关键帧的数量，根据在最近的非关键帧的视差评估。第二，给定先前的点云帧及其特征，如何增强当前关键帧的特征以提高分割的稳定性，然而，是不平凡的。对于点云，当目标距离较远或被干扰目标包围时，单帧分割算法的鲁棒性难以保证。我们观察到，被称为点云的局部空间一致性，即对象的局部空间结构在点云中的图像在帧之间应该是一致的，尽管对象可能正在移动。利用点云的局部空间一致性，我们设计了一个时间特征聚合（TFA）网络的基础上，图atten- tion卷积有效地聚合连续帧的特征。具体地，TFA更喜欢搜索在前一帧中具有相似几何特征和语义特征的邻近关键点。此外，在TFA中采用了注意机制，使得空间一致的特征在聚合中更具影响力。我们在五个最先进的（SOTA）点云分割模型上实现了 TempNet ，即： PointNet++ [20] ， GACNet [29] ，SequeezeSegV2 [31] ， DarkNet53Seg [2] 和 RandLA-Net[5]。我们在SemanticKITTI数据集上进行了广泛的实验。结果表明，TempNet优于SOTA的竞争对手的大幅利润与little额外的计算成本。我们强调本文的主要贡献如下：1）提出了一种在线点云序列语义分割框架TempNet，该框架具有轻量级的特点，易于在现有的单帧分割方案上实现; 2）设计了一种时间特征聚合网络，利用运动的连续性和注意力池，有效地聚合运动中的两帧点云; 3）在真实世界SemanticKITTI数据集上进行了大量的实验，结果证明了TempNet的有效性。整个代码库套件将被释放。2. 相关工作2.1. 基于点云的由于点云数据的稀疏性和无序性，直接将现有的图像稠密计算方法应用于点云语义分割问题，计算复杂度为O（n3）。因此，尽管已经提出了一组方法来处理点云，但是在如何有效地利用点云数据上仍然存在分歧。现有的模型可以主要分为三类，基于体素的、基于投影的和类PointNet的。基于体素的方法。为了缓解在进行3D卷积时对巨大计算能力的迫切需求，一种直接的方法[13，30，23，10]是将点云空间划分为规则网格并对每个体素应用3D卷积。OctNet [23]和Kd-Net [10]跳过空体素的计算，并专注于信息丰富的体素的分辨率。PointGrid [13]提出了混合3D形状表示来解决点云稀疏和高空间消耗的问题。RandLA-Net[5]通过栅格化局部点云并减少不感兴趣的点的数量，大大减少了3D卷积的计算量。这些稀疏3D卷积可以加速卷积运算并与密集卷积共享知识库。然而，在分割过程中，不同体素之间的局部空间信息可能会丢失，并且计算开销随着体素的分辨率成立方地增长。基于投影的方法。基于投影的方法是从2D语义分割发展而来的。Dark-Net 53 Seg [2]和其他方法[25，12，8]执行投影以从多个视点将点云转换为2D平面，例如，前视图、顶视图或球视图。投影平面然后由IM处理。年龄语义分割网络基于投影的方法达到实时要求（SqueezeSegV27120−图2. TempNet架构概述。TempNet可以在现有的单帧点云分割模型（在本图中表示为骨干网络和分割网络此外，它由三个组件组成，专门处理大规模点云系列，即，自适应帧调度器（AFS）、时间特征聚合（TFA）网络和部分特征更新（PFU）网络。AFS动态地将帧划分为关键帧和非关键帧。对于关键帧，经由骨干网络提取特征，并且经由TFA网络将特征与先前特征聚合对于非关键帧，除了检测到大的点视差之外，特征主要继承自先前的特征，在这种情况下，PFU网络用于部分更新特征。PFU和TFA的目标都是在单独分割之前以成本效益的方式保持每帧的特征最新[31]达到13.5ms/每帧），而基于投影的方法的最终性能通常低于其他方法。类似PointNet的方法。PointNet类方法是PointNet的扩展[19]。首先，这些方法将原始点云数据的坐标和RGB特征直接输入网络。然后使用共享的MLP单独处理每个点，这使得这些方法在提取局部空间关系方面受到限制。为了克服这一缺陷，PointNet++ [20]通过采样和分组来集成邻域，并应用分层特征学习框架来学习不同级别的局部-全局特征。PointCNN [14]和GACNet [29]结合了卷积和邻域权重，以充分提取空间信息。KPConv [28]提出了一种基于内核点的新点云卷积，其在PointNet类方法中实现了最先进的性能。2.2. 时间特征提取当前，时间卷积网络仅可以应用于2D视频以捕获时间特征。Meng等人。 [17]提出QST-CNN用于视频检测。Sun等人[26]设计FstCN以识别视频中的人类行为。Zhu等人。[36]使用TORNADO进行目标检测，或计算视频中的人流[35，18]。Yao等人使用DMVST-Net预测交通状况[33]; Li等人。[15]和Yu [34]使用时间卷积网络来估计交通流量。TaoSong等人。 [24]提出了一种新的方法，该方法集成了躯体拓扑线定位和时间特征聚合，用于检测多尺度行人。Fei He等人。 [21]提出了一种时间上下文增强网络，以通过时间聚合来利用时间上下文信息进行视频对象检测，从而从帧到帧对齐空间特征。 [6] intro-通过提出一种新的时间聚合网络和一种新的动态时间演化模板匹配机制，将“检测跟踪”引入视频对象分割中，以实现显著提高的性能。[4]和[32]设计了一种用于视频对象检测的自适应特征聚合方法，以处理视频中的模糊、遮挡和失焦。总之，这些方法都是针对二维图像的目标检测，但由于点云序列的不连续性和无序性，它们不能直接应用于三维点云序列。简单地将卷积函数的维数从2D扩展到4D，计算复杂度高，不能满足在线任务的实时性要求。近年来，点云数据的四维时间特征提取得到了广泛的关注，可以用来处理点云数据。MinkowskiNet [3]将卷积函数的维数从2D扩展到4D。OpenPose [9]使用点云系列来实时跟踪人手的姿势。PointFlowNet [ 1 ]的思想类似于PointNet，它结合了帧t和t 1的两个特征来推断每个点的运动。然而，这种方案的可扩展性受到限制，因为每个帧中的点的数量和系列中的帧的数量增加。3. TempNet的设计3.1. 概述TempNet的核心思想是利用连续点云帧之间的时间相关性来巧妙地聚合特征，以便可以实现两个目标：1）聚合后增强了每帧的特征，使得分割更加准确; 2）帧之间的特征一致，消除闪烁。具体而言，完整的特征提取和聚合仅在Xt骨干网TFA分割网络自适应Xt +1帧调度器非关键帧骨干网PFU分割网络骨干网TFA点云帧Xt + n分割网络视差估计关键帧Xt +2Xt + nXt +1Xt关键帧..................7121NCNN--NN联系我们N--GGJagg我 JJ关键帧和这种增强特征小部分被直接传播到中间非关键帧。同时，如果经由轻量差异估计器的评估认为该非关键帧包含不可忽略的信息，则传播的特征将在非关键帧上部分地更新。为此，如图2所示，TempNet集成了以下四个技术组件：自适应帧调度器（AFS）。AFS用于确定关键帧和非关键帧的选择……(a) 关键帧(b) 非关键帧流引导特征变形关键帧特征部分更新的非关键帧特征遗传特征特征聚合很难获得适合所有现实世界场景的最佳关键帧选择策略。在TempNet中，根据在最近的非关键帧中观察到的视差程度动态调整关键帧的比率。静态分段模块。TempNet采用SOTA静态点云分割方案作为其底层分割核心。这种方案通常由用于特征提取的深度和缓慢的预训练骨干网络fea和用于语义分割的多输出分支的检测网络det组成。有限元分析是将一帧图像中的数十万个点采样并编码成少量的关键点及其对应的特征向量，这些特征向量包含丰富的空间信息，刻画了点云的骨架。令Xi=Xi，X2，…XN表示具有 N 个点的第 i 个帧，我们有 Pi ， Hi=fea（Xi），其中Pi=pi，p2，… pn和Hi=h1，h2，.，h，n分别是n个关键点的位置和对应的特征向量的集合。利用 det，可以获得分割结果，即， Yi=det（ Pi，Hi），其中Yi=yi，y2，… 是第i帧中的每个点的语义标签的集合。时间特征聚合（TFA）网络。TFA网络被设计成利用帧之间的时间相关性来聚合关键帧上的特征。首先测量两个连续帧的相邻位置和特征，然后用于计算邻居的注意力分数。这样的注意力分数被使用作为求和权重来聚集从两个特征采样的相邻关键点，使得那些局部空间一致的关键点对聚集贡献更多。图3. TempNet在处理点云序列分割中的示例，其中（a）对关键帧进行全特征提取和聚合，（b）对非关键帧进行部分特征捕获相邻要素聚合要素关注评分Hi中的K个邻居CM阳性注意函数g聚合的特征M近邻Hj中的1个关键点MFEA编码MLP解码MLP相邻特征关键点位置关键点特征矩阵连接点积图4.TFA模块的结构 TFA将帧j中的每个关键点及其在帧i中的对应的K个相邻关键点作为输入。利用点云数据的局部空间一致性来在聚合相邻关键点之前将注意力分数分配给相邻关键点。3.2. 时态特征聚合尽管物体运动，但它们的局部空间结构在帧之间应该是一致的，我们将其称为点云的局部空间一致性。例如，移动的汽车的点（及其对应的特征）在两个点云中，框架应该形成类似的形状。我们利用点云的局部空间一致性来增强关键帧上的点云特征，从而有效地提高最终的分割效果。具体地，对于两个连续的关键帧i和j，帧j的聚合特征可以计算为部分特征更新（PFU）网络。 PFU网-工作旨在有选择地更新继承的功能H¯ =α· G（H， H） +（1−α）·H，（1）如果需要，可以从具有在当前非关键帧上识别的重要局部关键点的前一帧中提取。设计了一个空间一致性估计器，以帮助以较低的计算成本做出快速更新决策。图3说明了TempNet处理大规模点云系列的主要思想。可以看出，TempNet在进行特征聚合时同时考虑了特征一致性和计算成本。其中α是人工指定的正则化权重;agg是时间特征聚合网络;H i和H j是帧i和帧j的特征向量的集合，分别用Nfea.在设计agg时，我们首先搜索前一帧中的相邻关键点，将当前帧中的关键点的位置作为原点。然后，我们将注意力分数分配给这些相邻的关键点，以便一致的关键点在聚合中获得更高的权重。7122G∈ǁPJKN·∈GPJPJGGPJ∈PJPJPJi→j我缺点我我 JKPJ.ΣK捕获上一帧中的相邻特征。如图4所示，两个连续帧i和帧j的关键点被馈送到时间特征聚集网络w或kagg 中。F或每个key点pjPj，我们将其与两帧之间的运动信息相关联的相邻特征编码到表示矩阵Mneibor（Pj）中。更具体地说，我们分别对正则化位置和特征向量进行编码。为了对正则化位置进行编码，使用KNN算法收集Pi中的Pj的相邻k个点，表示为NPi（Pj），并且记录它们的相对位置以构建矩阵：Mpos（pj）=mlp（Pnearpj），（2）Pnear={pl}，对于pl∈NPi（pi），其中符号代表矩阵拼接，并在需要时将矢量扩展为矩阵。类似地，我们对特征向量进行编码，并构造这些相邻关键点的特征向量的对应的矩阵，空间一致性估计CHi中的K个邻居MiHi中的1个关键点QiC j解码ConvFC编码矩阵CHj中的K个邻居MJ编码MLP关键点位置C矩阵级联图5.PFU模块中使用的空间一致性估计器的结构。它将先前帧i中的每个关键点以及帧i和当前帧j中的对应相邻关键点作为输入。估计器判断两个邻域的几何相似性以导出一致性估计Qi→j。m k求和对于k∈[1，K]，如下：记为MFEA （p，j）。最后，我们将两者结合起来-m~pj=Σpj·spjΣ.（五）三进制以构建表示矩阵，Mnei ghbo r（pj）=（Mpo s（pj）<$Mfea（pj））。（三）k=1pj的更新的特征向量可以通过下式获得：mlpm~pj使用权重共享的MLP。以这种方式，由先前相邻关键点的运动和语义特征引起的位置变化都被捕获在M_nei g_hbo_r（p_j）中，表征了p_j与其在先前帧中的相邻关键点之间的关系，即，NPi（pj）。聚合相邻特征。由于NPi（pj）中的一些关键点可能与p j在局部空间上不一致，因此简单地将一般最大值/均值池化应用于相邻点的硬积分将导致不准确的结果。相比之下，我们采用一种强大的注意力机制来区分哪些相邻点应该对当前关键点产生更大的影响。我们采用了一个类似的注意力汇集单位介绍的工作[5]。更具体地，y，giv矩阵Mneighbor（pj） =3.3. 部分特征更新对于点云序列，一方面，连续帧中的点共享冗余信息，这使得非关键帧重用前一帧的一些特征成为可能，从而可以大大减少计算开销。另一方面，还应考虑这些非关键帧上的运动引起的显著特征变化，以便不会丢失重要信息代替使用重fea来计算非关键帧j的Pj和Hj，我们使用轻量级随机采样算法来仅计算Pj。为了成本有效地量化从前一帧i传递的特征Hi是否是当前帧j的良好近似，我们引入了一个空间一致性估计器Qi→j，定义为、m1、m2、…mk，……，mK，其中K是Q（p）=G（p，P，P），（6）NPi（pj），我们使用共享函数g（）来学习唯一的每个相邻点的注意力得分。基本上，功能-哪里 pi∈Pi 和 Gcons 是空间相干性度量-tion由权重共享的mlp和softmax函数组成，定义为网。对于每个pi，cons检查其在帧i和帧j中的局部空间特征的相似性。如果Qi→j（pi）≥τ（τ是一致的cy阈值），它指示K =g.mk，WΣ，（4）其中W是共享mlp的学习权重，是k个点pj的第k个邻居的注意力得分。然后，学习的注意力分数被用作软掩模，其有效地增加了前一帧中的局部空间一致的关键点加权先前的特征H1应该从帧i到j是一致的，因此位置P1和特征H1可以在帧j中被重新使用;否则，H1被放弃。我们在图5中描述了cons的设计。cons采用两个连续帧的关键点位置，例如， P1和Pj，以及P1和P2作为输入。应注意，仅比较Pi和Pj中的Pi的相应邻域，从而导致低计算开销。更具体地说，MS.7123××N≥Σ我们首先在Pi中构造Pi的局部空间信息编码矩阵为[29] ， SequeezeSegV 2 [31] ， DarkNet 53 Seg [2] 和RandLA-Net [5]。我们使用SemanticKITTI [ 2 ]数据集来训练和测试TempNet和其他可以指定的方案，这些数据集其中NP是Mi（pi）=Pn′earpi，Pn′ear={p′l}，其中p′l∈NPi（pj），（pi）是pi（七）在Pi中由43552个密集注释的LIDAR扫描（帧）的多个序列组成。每次扫描是一个大规模的点云，其中大约105个点分布在3D空间中。160 160 20米。原始3D点包含3D坐标nates没有颜色信息。我们使用索引的用与（2）中描述的相同的KNN算法找到。因此，Mi（pi）对pi与帧i中的其相邻关键点之间的空间关系进行编码。类似地，我们构造局部空间信息编码矩阵Mj（pi），其分别针对帧j。给定矩阵Mi（pi）和Mj（pi），我们构造ConvFC层来预测一致性估计，Qi→j（pi）=ConvFC（Mi（pi）Mj（pi））。（8）此外，还采用了焦损法，使其更容易学习从00到07（16，338次扫描）、08（2，792次扫描）和09-10（19，130次扫描），分别用于训练、验证和测试。在训练期间，由于存储器限制，从每个小批次中随机选择两个相邻帧。第一帧被设置为关键帧，第二帧被设置为关键帧。被设置为非关键帧。在前向传递期间，特征网络Nfea作用于Pi以获得特征向量空间Hi。然后，特征一致性网络Gcons作用于P i和P j以得到特征一致性Qi→j。述部分的Q i-j。更新后的特征向量空间H¯i根据下式计算：（8）和时间的当前帧特征向量空间因为只有一小部分关键点可以得到可重复使用的功能，我们仍然依赖于根据（1）计算特征聚合。最后通过语义分析静态点云分割主干FEA到Ex.跟踪Pj中其余关键点的特征向量。从来没有-分段子网Ndet 处理. 在训练期间然而，由于这种关键点的数量显著减少，因此计算成本对于在线点云序列分割是可承受的。3.4. 自适应帧调度除了用于部分特征更新之外，最近非关键帧中的一致性估计还用于动态地确定关键帧的间隔。具体地，为了决定我们是否需要增加关键帧间隔（较少的帧被认为是关键帧）或减小关键帧间隔（较多的帧被认为是关键帧），更新的关键帧间隔的数量与更新的关键帧间隔的数量的比率可以是：点到关键点的总数rk-i，并且被计算为我们对Qi→j≤τ和Qi→jτ分别强制1/3和2/3的概率，以鼓励在特征传播和特征重新计算两种情况下的从无到有对于不使用部分特征更新的方法，不改变训练，并且在推断期间简单地忽略Qi-j4.2. 方法我们考虑以下候选点云序列分割方法进行比较：1）基线方法：实现并训练上述五种单帧分割方案; 2）密集特征聚集（DFA）方法：一种朴素聚合方案，其中首先提取所有帧的特征，然后应用加权求和来聚合这些特征，ri→j =p∈PiI（Qi→j（pi）≤τ），（9）ni应用于单帧分割方法。3）直接特征传播（DFP）方法：类似于Temp-Propagation方法。其中，帧i是前一帧，ni是编号Net，只是不进行帧i中的关键点。如果ri→j 很大，这意味着对于非关键帧。 4）*1：它表示TempNet在特定基线方法上的所有帧是一大部分关键点不再类似于增加最后一个关键帧和关键帧的数目;否则，应减少关键帧的数量以节省计算成本。补充资料中总结了TempNet的整体算法。4. 绩效评价4.1. 实现细节我们已经在五个SOTA单帧分割模型上实现了TempNet，即PointNet++ [20]、GAC-被视为非关键帧。5）*2：它表示TempNet在特定基线方法上的完全实现，其中关键帧和非关键帧由自适应帧调度器自动确定;我们将所有19个类别的平均交集对并集（mIoU）和准确性（定义为TP/（TP+FP））作为标准性能指标。4.3. 性能比较每种分段方法的运行时间和mIoU分数示于表1中。可以看出，*27124[c]方法运行时间mIoU（%）路人行道停车他地建筑车卡车自行车摩托车其他车辆植被后备箱地形人自行车摩托车手围栏极交通标志[c]PointNet++[c]PointNet++*232837520.526.972.080.941.853.918.720.45.615.462.368.462.373.40.95.31.92.70.26.50.22.146.559.513.819.33038.10.93.01.08.40.00.016.9295.05.88.918.5[c]GACNet[c]GACNet*250864328.832.885.488.854.355.226.932.14.512.357.460.259.462.13.313.216.0264.111.53.67.260.061.724.325.253.755.212.913.013.114.90.92.229.034.317.522.724.525.6[c]SqueezeSegV2[c]SqueezeSegV2*21236145739.744.488.690.467.668.945.85717.726.473.78271.781.913.418.618.526.217.926.514.015.671.867.635.848.460.260.620.121.825.133.63.94.041.152.320.22236.340.0[c]DarkNet53Seg[c]DarkNet53Seg*253460149.352.589.690.574.075.234.737.44.04.487.487.790.992.867.067.99.812.818.426.827.340.087.485.343.859.583.775.044.050.245.362.20.08.143.842.949.648.636.136.7[c]RandLA-Net[c]RandLA-Net*277282952.455.890.590.775.374.160.361.820.424.485.989.892.994.139.143.813.226.126.132.238.239.281.483.961.163.764.968.748.848.347.647.46.89.555.460.347.851.147.750.8表1. SemanticKITTI数据集上的IoU分数。TempNet通常可以在准确性和效率方面提高基础分割方法的性能。未知汽车自行车摩托车载重汽车其他车辆人自行车摩托车道路停车人行道他地建筑围栏植物树干地柱交通标志图6.使用SqueezeSegV2作为基础分割方法的定性示例结果。点云在投影后可视化。分割精度得到提高，特别是对于从属于同一移动对象的连续表面在大多数类别中，这些方法通常可以以较低的计算成本获得比相应的基线方法更高的分数。特别是，我们的方法可以显著提高具有更连续形状和扁平表面的类别的mIoU，例如汽车，卡车和建筑物。例如，与原始PointNet++相比，PointNet++*2在mIoU上实现了6个点的增益，计算开销增加了13%实验结果表明，Temp-Net可以提高点云序列分割的精度和效率。定性实例结果描述于图 6 中。可以看出，在将 TempNet 框架应用于SqueezeSegV2模型之后，总体准确度大大提高，特别是对于从属于相同移动对象的连续表面。此外，如图7所示的帧之间的闪烁被消除以用于有效特征聚合的袋。比较了不同的点云序列分割聚合方案在Se-Cloud中的应用效果。方法在线IoU平均值平均加速度时间（ms）基线-39.7386.81236DFA*2个√×√44.4344.4388.187.529961475DFP*1√38.7741.8986.386.9309270表2.应用于SequeezeSegV2的不同聚合方案的性能比较。queezeSegV2列于表2中。其他单帧方法的结果是类似的，并省略了由于页面的限制。可以看出，两种TempNet方案在准确性和计算效率方面都胜过其他方案。4.4. 消融研究由于页面限制，仅显示基于SequeezeSegV2的结果。提高效率和准确性。我们手动调整关键帧的比率，并将准确度绘制为图8中的关键帧比率。当所有帧都被视为关键帧时，我们获得记录A，并且当几乎所有帧都是非关键帧时，我们获得记录B，而单帧基线在图中的C处被记录。我们的性能曲线位于记录c的右上角，有很大的距离。从记录C到记录A，TempNet可以将准确度提高0.7，IoU度量提高4.7，与单帧模型相比，时间开销几乎相似。从记录C到记录B，它在保持原始性能的同时实现了超过五倍的计算加速。这说明了我们的聚合方案在计算效率和分割准确性方面的优越性。帧调度研究。我们进行联合实验的自适应帧调度算法的性能。如图8所示，随着聚集帧数量的增加，密集特征聚集算法所实现的性能也会增加，但挤压挤压地面SegV2*2SegV2真相7125N第1帧第2帧第3帧第1帧第2帧第3帧第1帧第2帧第3帧图7.使用SqueezeSegV2作为基础分割方法的连续帧的定性示例结果。连续帧之间的闪烁被有效地消除。图8.作为不同聚合方案的关键帧比率的函数的准确度图9.一致性阈值τ对TempNet准确性的影响速度上有明显的损失。最终，性能将达到瓶颈，难以继续提升。随着帧数的增加，DFP算法在速度上有了显著的提高，但这是以牺牲模型精度为代价的。TempNet偏向线图的右上方，从而在速度和准确性之间实现更好的权衡。特别地，与DFA算法相比，每条记录的准确度有非常小的下降，但已经实现了大的速度提高。部分更新阈值。我们研究了一致性阈值τ对TempNet性能的影响。在在这个实验中，我们改变了关键帧比率和τ，并在图9中绘制了TempNet的准确性。阈值τ确定在部分更新中可以直接继承多少关键点特征，并且丢弃的点需要使用fea重新捕获它们的特征。可以看出，当阈值τ高时，更少数量的点被直接继承，并且更多的点在下一帧中被直接丢弃。因此，它通常会导致更高的精度，但也很高的计算成本。当阈值τ较低时，更多的点被认为是相似的并且被直接继承，这更快，但损失了准确性。从记录C到记录D，可以看出，在0.7的阈值处实现了具有几乎相同精度的两倍加速度比。在我们的算法设计中，我们更倾向于获得更好的性能，因此我们通常将τ值设置为0.7。5. 结论我们提出了一个新的在线点云系列语义分割框架，称为TempNet。通过结合一种新的帧聚合方案，我们的方法提高了现有的语义分割模型的准确性和稳定性。连续帧之间的信息通过注意机制聚合以确保准确性。通过使用在非关键帧上提取的局部特征部分更新传播特征，我们的模型避免了信息丢失，同时具有计算效率。TempNet在SemanticKITTI数据集上的性能优于SOTA分割模型，而几乎没有额外的计算成本。确认这项研究得到了国家重点实验室的部分支持。国家自然科学基金项目（批准号：2018YFC1900700）和国家自然科学基金（批准号：61772340、61972081、61872240和61832006）。挤压SegV2*2挤压SegV2地面实况7126引用[1] Aseem Behl ， Despoina Paschalidou ， Simon Donne ，and An- dreas Geiger.点流量：从点云学习用于刚性运动估计的表示。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。3[2] Jens Behley 、 Martin Garbade 、 Andres Milioto 、 JanQuenzel 、 Sven Behnke 、 Cyrill Stachniss 和 JuergenGall。Se- manticKITTI：用于激光雷达序列语义场景理解的数据集在ICCV，2019年。二、六[3] Christopher Choy，JunYoung Gwak，Silvio Savarese. 4dspatio-temporalconvnets ： Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议（CVPR），2019年6月。3[4] Fei He ， Naiyu Gao ， Qiaozhe Li ， Senyao Du ， XinZhao，and Kaiqi Huang.用于视频对象检测的时间上下文增强特征聚集。在AAAI人工智能会议集，第34卷，第10941-10948页3[5] Qingyong Hu，Bo Yang，Linhai Xie，Stefano Rosa，Yulan Guo，Zhihua Wang，Niki Trigoni，and AndrewMarkham. Randla-net：大规模点云的高效语义分割。在IEEE/CVF计算机视觉和模式识别集，第11108二、五、六[6] Xuhua Huang ， Jiarui Xu ， Yu-Wing Tai ， and Chi-Keung Tang.基于时间聚合网络和动态模板匹配的快速视频对象分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8879-8889页3[7] VelodyneLiDARInc.AlphaPrimehttps://velodynelidar.com/products/alpha-prime/. 1[8] Chiyu Jiang ， Dana Lansigan ， Philip Marcus ， andMatthias Nießner. DDSL：用于学习几何信号的深度可微单纯形层在IEEE计算机视觉国际会议论文集，第87692[9] 姜浩和游全增。2019年4d点云中的实时多人手定位。3[10] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集，第863-872页2[11] Jan Koutnik 、 Klaus Greff 、 Faustino Gomez 和 JuergenSchmidhuber。发条式的无线电。arXiv预印本arXiv：1402.3511，2014。2[12] 崔乐江培叶端一种用于三维网格分割的多视图递归神经网络。Computers Graphics，66：103-112，2017。2[13] 特吕克·勒和叶端。Pointgrid：用于3D形状理解的深度网络。在IEEE计算机视觉和模式识别会议论文集（CVPR），2018年6月。2[14] Yangyan Li ， Rui Bu ， Mingchao Sun ， Wei Wu ，Xinhan Di，and Baoquan Chen.Pointcnn：x变换点上的卷积In S. Bengio ，H. Wallach，H.拉罗谢尔湾Grau-man，N.Cesa-Bianchi和R.Garnett，编者，《神经信息处理系统进展》，第31 卷。Curran Associates，Inc.2018. 3[15] Yauang Li，Rose Yu，Cyrus Shahabi，and Yan Liu.扩散卷积递归神经网络：数据驱动的交通预测。arXiv预印本arXiv：1707.01926，2017。3[16] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ，Scott Reed ，Cheng-Yang Fu ，andAlexander C.伯格。Ssd：单发多盒探测器。在BastianLeibe 、 Jiri Matas 、 Nicu Sebe 和 Max Welling 的编辑中，Computer Vision施普林格国际出版社. 1[17] Bo Meng，Xuejun Liu，Xiaolin Wang.基于四元数时空卷积神经网络和 lstm 的 rgb 视频人体动作识别。Multimedia Tools and Applications，77（20）：26901-26918，2018。3[18] 苗云琪、韩俊功、高永胜、张宝昌。St-cnn：时空卷积神经网络-用于视频中的人群计数Pattern RecognitionLetters，125：113-118，2019。3[19] Charles R Qi，Hao Su，Kaichun Mo ，and Leonidas JGuibas.PointNet ：用于3D分类和分割的点集深度学习。在CVPR，2017年。3[20] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. PointNet++：度量空间中点集的深度层次特征学习。NeurIPS，2017。二、三、六[21] Yijun Qian，Lijun Yu，Wenhe Liu，Guoliang Kang，and Alexander G Hauptmann.视频对象检测的自适应特征聚合在IEEE/CVF计算机视觉研讨会应用冬季会议论文集，第143-147页，2020年。3[22] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在2016年IEEE计算机视觉和模式识别会议，第779-788页1[23] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet：以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集，第3577-35

下载后可阅读完整内容，剩余1页未读，立即下载