没有合适的资源?快使用搜索试试~ 我知道了~
11840×基于时间匹配和空间图传播石汉宇1、魏嘉成1、李瑞博1、2、刘法尧3、林国胜1、2*1南洋理工大学,2南洋理工大学高级智能实验室3信息技术研究所,A*STAR,电邮地址: hanyu001@ntu。edu. sg,gslin@ ntu. edu. SG摘要现有的点云分割方法需要大量的标注数据,特别是对于室外点云场景。由于室外3D场景的复杂性,在室外点云场景上进行手动注释是耗时且昂贵的。在本文中,我们研究如何实现场景理解有限的注释数据。将100帧连续图像作为一个序列,将整个数据集分成一系列序列,在每个序列的第一帧中只标注0.1%的点,以减少标注要求。这导致总注释预算为0.001%。我们提出了一种新的时空框架,用于有效的弱监督学习,以从这些有限的注释数据中生成高质量的伪标签。具体而言,该框架包含两个模块:在时间维度上的匹配模块,用于跨不同的帧传播伪标签;以及在空间维度上的图形传播模块,用于将伪标签的信息传播到每个帧中的整个点云。在只有0.001%的注释用于训练的情况下,在Se- manticKITTI和SemanticPOSS上的实验结果表明,我们的弱监督两阶段框架与一些现有的完全监督 方 法 相 当 。 我 们 还 评 估 了 我 们 的 框 架 与SemanticKITTI上的0.005%的初始注释,并取得了接近完全监督骨干模型的结果1. 介绍近年来,室外三维语义分割技术受到了越来越多的关注,[1]和Semantic-POSS [19]。室外3D点云数据集将数据组织为多个点云序列,即4D点云。然后,点云序列中的多个扫描被* 通讯作者:G.是林书 (电子邮件:gslin@ntu。edu. sg)(a) 完整注释。(b) 无监督超体素分割。(c) 部分注释的超体素级别标签。图1. 一个超级体素分割的例子和我们的弱注释。超体素分割将整个点云扫描分割成几个小单元,每个单元包含同一类内的点。因此,我们将点级初始注释分配给同一超体素中的所有点。叠加在一起并划分为小块,以减少手动注释成本。然而,小图块上的注释成本仍然很高。在SemanticKITTI[1]中,在一个100m100m的公路场景瓦片上进行更复杂的场景平均需要4.5小时。在SmeanticKITTI上的整个注释任务需要超过1700小时。因此,加快数字签名进程的研究具有重要的意义.我们在这里采用弱监督学习来解决这个注释问题。对于室内3D点云场景,有几种弱监督方法[18,27,29,33]提出了用于ac。11841×加速注释过程。MPRM [29]基于2D信息生成室内3D场景的伪标签。其他方法[18,33]注释整个点云场景的子集,并用注释的点更新弱伪标签。对于室外3D点云场景,没有现有的弱监督分割方法可用。由于以下原因,直接将针对室内场景开发的技术首先,室外LiDAR点云没有颜色信息,而针对室内场景设计的方法依赖于颜色信息来生成和平滑伪标签。其次,典型的室外点云场景在150 m范围内包含约100,000个点150米的区域,这比室内点云场景稀疏得多。第三,由于单个室外4D点云包含若干对应的点云扫描,因此针对室内情况下的单个点云扫描提出的方法需要额外的负担来分别为每个点云扫描生成伪标签在这项工作中,我们提出了一种新的弱监督框架,以减少室外点云场景中的注释成本。我们利用点云序列之间的时间信息,在每100帧序列的4D点云中,只有0.1%的点在一帧中注释然而,在只有0.001%注释点的弱标记数据集上进行训练无法学习良好的特征以实现令人满意的性能。这个问题可以归结为冷启动问题。为了以最小的注释成本生成更多的超视,我们在数据集上应用有效的超体素分割[17],并将注释点的标签分配给它们所属的超体素。受ScanNet [7]和OTOC[18]的启发,超体素分割将点云分割为几个小组,并且每个小组中的点共享相同的语义标签。我们在图1中展示了一个注释示例。然后我们设计了两个模块,时间匹配(TM)和空间图传播(SGP),以将注释传播到整个数据集。TM通过时间传播在不同的帧中产生种子点。对于TM,我们设计了两种方法,贪婪匹配和最佳运输匹配。SGP进一步将搜索结果在空间维度上传播到整个点此外,我们提出了一个两阶段的训练策略,其中包括种子点传播阶段和密集场景传播阶段。首先,种子点传播阶段利用TM仅沿时间维度传播初始注释,以在冷启动场景下生成高质量的伪标签。我们通过在少量高质量伪标签上训练新的分割模型来提高特征质量。在第二阶段,我们使用上一阶段的新分割模型来生成特征,并基于新的特征,我们使用一个密集的场景传播策略,结合TM和SGP的标签信息传播到整个数据集。我们继续使用更多的伪标签来训练前一阶段的模型,以进一步提高性能。我们在两个室外分割数据集上评估了我们的方法,[19]第19话:我的世界实验结果表明,我们的方法实现了一些完全监督的方法相当的性能。我们将主要贡献总结如下:• 我们提出了一种新的两阶段弱监督分割框架,以利用跨帧的空间和时间信息。第一阶段(种子点传播)基于弱注释(0.001%注释点)在不同帧中生成种子点。第二阶段(密集场景传播)在时间和空间维度上传播高置信度点。• 我们提出了一个时间传播模块,使用时间匹配传播伪标签到不同的帧。匹配策略有两种,贪婪匹配和最优传输匹配,用于从不同帧中的标注对象中搜索点。• 我们开发了一个空间图传播模块,在密集场景传播阶段沿空间维度传播伪标签空间图传播生成密集的伪标签,以进一步改善模型。• 在SemanticKITTI和Se- manticPOSS上的实验结果表明,我们的弱监督两阶段框架与一些现有的完全监督方法的性能相当,而我们只使用0.001%的注释进行训练。此外,我们在SemanticKITTI上使用0.005%的初始注释评估了我们的弱监督方法,并且其性能接近我们的全监督骨干网络。2. 相关工作3D点云分割3D点云语义分割是机器人系统的基本场景理解任务。目前关于点云分割的研究主要分为基于投影的方法、基于点的方法和基于体积的方法。基于投影的方法[2,5,15,30-基于投影的方法推理速度达到了实时性要求。然而,这些基于投影的方法的性能受到投影步骤中对象的失真和投影像素的稀疏性的基于点的方法直接对点进行处理,11842超体素分割骨干网络骨干网骨干网骨干网第二阶段:密集场景传播阶段虚拟标签虚拟 +1训练新的分割模型我伊信息.典型的基于点的方法[12,21,22,35]捕获每个点的k个为了进一步提高简单MLP方法的能力,点卷积方法[14,16,25]设计了一种基于邻居相关位置的卷积式操作。此外,一些基于图的方法[28]在点云上构建k个最近邻图,并采用图卷积网络来聚合特征。在这一点上-点云计算 点云计算前向传播点云100点云100…的方法,直接处理的点,连续空间捕获原始几何信息,而基于点的方法需要大量计算资源。基于体积的方法[3,4,9,10,23,24]使用离散坐标索引点,并在索引点上应用卷积。利用该索引,基于体积的方法加速了稀疏点云上的卷积,并在大规模点云上表现出良好的性能,例如,室外点云弱监督点云分割弱监督点云分割旨在训练具有弱注释的可用分割模型。室内三维点云的弱语义分割已经取得了很大的进展。 最近,MPRM [29]设计多路径区域挖掘模块,用于生成场景级注释和子云级注释。Xun [33]和OTOC [18]注释了室内点云场景的一个小子集Xun [33]的微小子集包含不到10%的点,OTOC [18]的微小子集包含不到0.01%的点。然后,他们设计了一种自训练机制,将注释传播到整个点云场景,并接近全监督分割的性能。3. 方法3.1. 概述我们的框架结合了空间和时间信息,以减少室外LiDAR点云数据集的注释成本室外LiDAR数据集[1,19]包含几个3D点云序列。为了最大限度地利用空间和时间信息,我们将每个序列的三维点云分成几个子序列,每个子序列有100个点云帧。由于KITTI [8]中的LiDAR设备每秒收集10帧,因此我们生成的每个子序列覆盖10秒时间范围内的数据。然后,我们只注释每个子序列的第一帧。KITTI风格的LiDAR点云包含目标对象(例如,汽车、人)和环境对象(例如,道路、建筑)。我们为每个目标对象标注1个点注释点的平均比例约为整个数据集的0.001%。然而,只有0.001%的分数不足以训练出令人满意的模型。因此,我们在点云在每个传播步骤1+ 1第一阶段:种子点传播阶段+1伪标签图2. 我们提出的框架概述。最初,我们对大约0.001%的点进行采样和注释,并训练一个初始模型。在种子点传播阶段,我们只选择少量具有时间匹配的高质量伪标签来训练第一个模型。密集场景传播阶段生成更多数据用于训练最终模型。场景,并为包含注释点的每个超体素VT分配相同的标签,以生成更多的初始注释。Lin [17]实现了无监督超体素分割,这是一种简单但有效的方法。更新后的注释涵盖SemanticKITTI中0.0057%的点。对于初始注释,一个核心挑战是在室外场景中目标对象和环境对象之间的标注的目标对象点的比例低于初始标注的1%。因此,我们设计了一个两阶段的框架,以提高模型的性能。第一阶段,即,种子点传播使用具有贪婪匹配或最优传输的时间匹配[26]来搜索不同点云帧中的初始注释的对应点更新后的伪数据集包含少量高质量的伪标签。我们用第一阶段的伪标签训练一个新的具有更高特征质量的分割模型,用于下一阶段,如3.4节所述。然后,在稠密场景传播阶段,使用新的分割模型进行特征提取.利用新的特征,我们结合时间匹配和空间图传播来更新未标注点的预测分数。具有高置信度分数的更新点是第二阶段的伪标签Sdense第二阶段中的伪数据集包含大量质量低于第一阶段的伪标签的点后来,我们就--11843特点坐标 ,���′���′或成本矩阵最优运输匹配相似性贪婪匹配伊伊·f¨c−c¨fv,t+1f′i,j′i,j���′′i,ji′=���′n′i;i′=n′i;i′=n′ˆi,“t,i”“j”¨i′,j′i′,j′¨i′,j′i′(二)���−1策略、贪婪匹配和最优传输匹配。贪婪匹配产生匹配结果与一个精心设计的相似性得分。为了进一步提高业绩,1+ 1+1虚拟标签在时间匹配方面,我们设计了一个最佳传输匹配,通过最佳传输求解器产生一对一的匹配结果。受点云流方法[20]的启发,最优传输在两个相应的点云框架中建立点的连接。最优运输中的1对1匹配略微提高了模型的性能然而,最佳传输解算器图3. 种子点传播(SPP)阶段的结构。我们的时间匹配生成一对一的匹配结果的超体素从相同的对象的伪标签。也增加了计算成本。因此,匹配策略的选择取决于性能和推理速度的平衡我们在图4中展示了时间匹配的解释。时间匹配与贪婪匹配(Temp-GM)由于室外点云场景平均覆盖120,000个点,直接在原始点云上应用时间匹配需要大量的计算。因此,我们使用超体素分割的结果并更新超体素处的伪标签水平特征fv,t、坐标cv,t和概率yv,t1i′第i′个超体素vtn′伊伊是n′n′特点,+1 坐标 ,+11对1匹配结果cv,t1升/吨ˆifv,t1磅/吨ˆiyv,t1吨ˆi(一)图4. 使用贪婪匹配(Temp-GM)或最优传输(Temp-OT)的时间传播模块。其中,n′i表示属于超体素vt的第n个点,并且n′是一个超体素中的点的总数。t、ft和yt是坐标、特征和概率。吉吉拉吉不v,t继续训练前一阶段的模型。两阶段框架以较高的鲁棒性更新伪数据集,提高了性能.我们在图2中展示了我们提出的框架的结构。请注意,为了进一步使用有限的初始注释,我们将初始注释向前(从t0到t0+50)和向后(从t0到t0-50)方向。3.2. 阶段1:种子点传播(SPP)P点能力标签li′对于vt,i′是标签,最大概率得分。 然后,我们建立了跨-港口费用矩阵Ct,t+1求解最优运输问题。在我们的任务中,室外点云的信息包含来自预训练模型的坐标、偏差和特征因此,我们使用来自预训练网络的特征和坐标来提取Pt和Pt+1之间的匹配点。Initially,the feature similar- ity scores df,t,t+1 and coordinatesimilarity scores dc,t,t+1由于注释数据的数量是微薄的,而且是一个out-i′,j′vt,i′和vt+1,j′之间的关系公式为:i′,j′门点云场景只包含点的坐标,从预训练模型获得的特征不可靠f,t,t+1(fv,t)Tv,t+1j′c,t,t+1v,t v,t+12i'j'di′,j′=,di′,j′= exp(−2θ2)。为了解决冷启动问题,我们设计了一种时间匹配方法,可以有效地从对应点云中的标注超体素的相同对象中搜索超体素。我们在图3中示出了种子点传播阶段的结构。时间匹配比较两个对应的帧,并搜索伪标签的匹配结果。时间匹配减少了数据不平衡的影响,并且仅利用特征和请注意,θ是一个超参数,设置为0。5在我们的实施中我们使用余弦相似性来确定df,t,t+1,这比我们的ex-gasus核更好实验 然后,匹配成本矩阵Ct,t+1为Ct,t+1 = 2 − df,t,t+1 − dc,t,t+1。(三)为了减少噪声数据,如果cv,t和cv,t+1的L2距离大于10m,则将Ct,t+1设置为∞。匹配结果坐标在我们的实现中,有两个匹配i′ptj′是具有最低Ct,t+1的点pt+1。i'j'i′,j′时间传播要素伪标签提取生成时间传播要素伪标签提取生成���− 1���用于直接更新整个点云场景上的伪标签,如Xun [33]和OTOC [18]。因此中的点之间的特征和坐标的差异11844←←←←·←·←··v'j'j′i,j+i′U∈Rn×mΣΣ���− 11+ 1特征提取特征提取时间传播时间传播自信点一代置信点生成空间图形传播空间图传播���−1+1点云Pt和Pt+1。n和m是Pt和Pt+1中的点数。λ是一个超参数,用于增强每个点对的差异。然后,详细的解决方案在Alg中示出。1.一、利用最优传输,可以用Tt,t+1确定一对一匹配。算法1Sinkhorn算法输入: 运输成本矩阵Ct,t+1,hyperpa-虚拟标签图5. 稠密场景传播(DSP)阶段的流水线。t+1t+1时间传播空间图形传播自信点伪标签日本+1不最大迭代次数L0输出:运输计划Tt,t+11:程序2:Kt,t+1 exp(Ct,t+1/exp)3:a 1n−1,b 1m−14:对于l = 1,...,L0do5:b 1m−1/((Kt,t+1)Ta)6:a 1n−1/(Kt,t+1b)7:结束8:Tt,t+1诊断(a)Kt,t+1诊断(b)9:结束程序更新伪标签集S种子。 的匹配结果图6.稠密场景传播阶段的时间匹配和空间图传播。最优运输的时间匹配(Temp-OT)最优运输测量将集合X运输到另一集合Y的最小成本,并生成运输计划T。基于Kantorovicht是具有最低匹配成本或最高传输分数的VT+1我们将标注点的标签赋给匹配结果vt+1,匹配结果更新为伪标签。然后,我们依次应用时间匹配来将伪标签从前一帧传播到下一帧。然而,在传播期间的错误匹配此外,在第一帧中注释的大多数对象不会出现在距离帧中。因此一对一匹配不能产生准确的匹配-T=argminCi,jUi,j,+我 J(四)结果。 因此,错误随着整个过程,导致质量S.T. U1m=1n−1,UT1n=1m−1。这里C是运输成本矩阵。U是分配矩阵,每个元素Ui,j表示从X中的样本i到Y中的样本j的分配值。n和m是集合X和Y中元素的数量。在我们的设置中,X和Y是点云Pt和Pt+1。运输-生成的伪标签。为了减少错误累积,我们使用置信度分数来过滤匹配结果。当一个匹配结果的预测得分显示来自前一帧的注释点的标签的置信度得分较然后,我们将每个剩余的匹配结果记录为伪标签集S种子。的比例基于特征的差异建立了特征代价矩阵C伪标签S种子是整个点云的0.8%与以及Pt和Pt+1之间的坐标,并且我们直接使用等式(3)中的匹配成本矩阵Ct,t+1然后,的种子我们为下一阶段训练一个新的模型。Sinkhorn算法[6]能够求解最优运输的平滑版本,其公式为:3.3. 阶段2:密集场景传播(DSP)在前一阶段,时间匹配产生0.8%的n mTt,t+1= argminCt,t+1UU∈Rn×miji、j(五)高质量的伪标签。伪标签的比例仍然很低。因此,我们提出了第二阶段,以更新更多的伪标签与密集的场景传播,+Ui,j(logUi,j− 1),S.T. U1m=1n−1,UT1n=1m−1。注意,Tt,t+1是运输计划矩阵,并继续训练模型的性能。With the model from previousstage, we firstly propagate the initial annotations along thetime dimension with tem- poral matching to capture morepseudo labels.然后在11845KK伊K2Σ′′w←←←←←Σo,t+1'j'jkj′在空间维度上,我们使用空间图传播将匹配结果的标签传播到整个点云,并为这些帧生成伪标签。随后,我们迭代地将更新后的伪标签传播到下面的帧。我们在图5中显示了密集场景传播阶段的管道。给定两个对应的点云Pt和Pt+1,我们使用时间匹配(细节在第二节中给出)。3.2和图4)搜索超体素vt+1来自vt的相同伪标号。注意,vt+1是被选择为新的伪标签。然后,我们将匹配结果和新的伪标签合并为伪拉贝尔集S稠密,其平均覆盖每个点云中的20.0%的点。3.4. 训练管道与SPP阶段在第二。3.2,我们从不同帧中的相同注释对象中搜索伪标签,并为下一阶段训练新的分割模型。DSP阶段,3.3使用新的seg提取高质量的特征日伊克匹配结果的第k个超体素。匹配结果是当前点云Pt+1中的置信点。对于置信点vt+1,我们将源超体素vt的独热标签分配给目标超体素vt+1作为概率y0,t+1。空间图形传播(SGP)然后,我们在整个点云上建立一个有向图G(V,E). 在G(V,E)中,边E的方向是从置信点到t + 1中所有超体素的方向,其中包括自环边。然后,我们建立了图G(V,E)的过渡矩阵A的超体素的相似性vt+1和vt+1的相似性为:?cv,t+1−cv,t+1??fv,t+1−fv,t+1?K01心理模型基于新的分割模型的特征的相似性,时间匹配和空间图传播生成未注释的超体素的伪标签。最后,我们使用最终的伪标签训练最终的分割模型算法2中总结了训练流水线。在SPP阶段,我们迭代地更新伪标签S种子以获得更好的性能。然后,我们在DSP阶段仅更新伪标签一次。在我们的设置中,我们的更新机制取决于每100帧中的第一帧。由于假阳性伪标签难以检测和修正,导致在更新和训练阶段对这些假阳性伪标签的过拟合,特别是对于空间图传播 在我们的观察中,迭代更新Kwk,j′= exp(−λ0j′2θ2¨−λ1¨j′2θ2)的情况下,(六)伪标签S密集不会导致性能增加,最后的模型。其中,λ0、λ1、θ0和θ1是用于控制特征cv,t+1和fv,t+1的权重。因此我们算法2弱监督4D点云分段j′j ′build a transition matrixA是:心理状态A,每个元素wk,j′输入:点云Pak,j′=m′k′k,j、(7)1:程序2:V←超体素分割(P)其中m′是匹配结果的数量然后,我们将搜索结果的信息传播到未标注的如3.1节所述,室外点云场景存在极端的数据不平衡问题,在图形传播过程中,环境对象的信息消除了目标对象的信息为了减少数据不平衡的影响,我们在尾节点中的环境对象的超体素上应用dropout。在我们的实现中,我们只保留5%的环境对象的超体素用于传播。更新后的概率yv , t+1为:3:S样本和注释(P,V)4:初始分段模型序列(P,S)5:#种子点传播阶段6:对于i 0到2乘1,7:#使用时间匹配更新。8:用TM(P,S)产生S种子9:MidSegmentModel训练(P,S种子)10:结束11:#密集场景传播阶段12:#使用时间匹配和空间图形传播进行更新。j′m′yv,t+1=αyv,t+1+(1−α)a′(8)图13: 用SGP(P,S)生成S密集←14:FinalSegmentModel←train(P,Sdense)j′j ′k,jkk′15:结束程序其中α是超参数。最后,我们选择具有高重复性v,t+1的超v oxel作为伪标签。 此外,当t = 0时,我们直接使用标注点作为v0,k. 我们在图6中展示了对我们提出的模块的解释。更新伪标签集S密集。在密集场景传播阶段,具有高得分的预测结果v,t+14. 实验我们在SemanticKITTI [1]和SemanticPOSS [19]的多扫描分割任务上评估了我们的框架在SemanticKITTI中,训练集包含9个序列(19,130帧)。对于1个序列,验证集中的帧数为4,071,在测试集中为20,351211846第1阶段:SPPTemp-GMTemp-OT阶段2:DSPTemp-GMTemp-OTSGPMiou完全Sup。60.7OTOC [18]基线-A基线-B√43.140.942.6a型√√√√√√√√√47.7B型47.9型号c45.4D型49.2Model-E50.3监督MiouPointNet [21]百分百14.6[22]第二十二话百分百20.1[31]第三十一话百分百39.7美国[1]百分百47.4KPconv [25]百分百58.8MinkowskiUNet [4]百分百56.2基线-100 f(MinkowskiUNet)0.001%39.4我们的-100f0.001%44.8基线-20 f(MinkowskiUNet)0.005%46.4Ours-20f0.005%52.3表1. Se- manticKITTI验证集的消融研究。SPP:种子点传播;DSP:密集场景传播; Temp-GM :贪婪匹配的时间匹配Temp-OT:具有最佳传输匹配的时间匹配; SGP:空间图形传播。 表示完全监督(100%点注释)模型。9个序列。我们将9个序列均匀地分成198个子序列,每100帧。请注意,我们调整了注释帧的几个选择,以确保每个序列包含100帧。在训练集中,我们在198个子序列的第一帧中注释了0.1%的点,这导致总注释预算为0.001%。与SemanticKITTI类似,SemanticPOSS是室外场景的LiDAR点云数据集。SemanticPOSS中有6个场景,2988帧,其中2488帧用于训练集,500帧用于测试集。在我们将训练集均匀划分为26个子序列之后,对于26个子序列的前帧,SemanticPOSS中的初始注释点的数量约为3000个点。我们使用Minkowski引擎实现我们的框架[4]。SemanticKITTI上一个模型的整个训练时间是5天,使用Nvidia RTX 3090。我们将θ、θ0、θ1、α和β设为0。5,0。03,0。5,0。3,0。5和0。5所示。4.1. SemanticKITTI的评价对不同组件的消融研究为了研究每个模块的有效性,我们对SemanticKITTI的验证集在我们的实验中,所有模型的主干都是42层的Minkowski- UNet [4]如表1所示,表示完全监督的骨干网络。基线A仅使用0.001%的初始注释来训练分割模型。与“完全支持"相比,mIoU评分下降了19.8。作为比较,我们进一步实现了两种弱监督的三维点云分割方法,朴素伪标记生成(基线-B)和现有方法OTOC [18]。OTOC最初是一种弱监督的室内点云分割方法。Baseline-B的伪标签生成是直接更新具有高置信度分数的点作为用于模型训练的伪标签。 基线-B执行与OTOC [18]几乎相当,基线- A的改善不到102分。这证实了我们的说法,即迪-表2. 我们对SemanticKITTI的语义分割任务的测试结果。在这里,我们展示了两个具有不同初始注释的结果。对于Baseline-100 f和Ours-100 f,我们在每100帧的第一帧中采样0.1%的点(总共0.001%的点)。只有0.001%的初始注释,我们的模型实现了与一些完全监督的结果[31]可比较的结果对于Baseline-20 f和Ours-20 f,我们每20帧在第一帧中采样0.1%的点Ours-20 f的性能仅比我们完全监督的基线高出2.9%。监督Miou[22]第二十二话百分百20.1[第11话]百分百53.5KPConv [25]百分百55.2JS3C-Net [34]百分百60.2骨干百分百56.3骨干0.001%39.5骨干+SPP(我们的)0.001%49.4骨干+SPP+DSP(我们的)0.001%52.2表3. SemanticPOSS的数据部分3上的结果。su-pervision表示训练中注释的百分比。直接将针对室内场景开发的弱监督方法应用于室外点云分割不能很好地执行。与OTOC相比,带Temp-OT的Model-B实现了比基线提高7.4 mIoU的绝对值。A.我们的完整模型(Model-E)将mIoU分数提高了9.4,明显优于OTOC。我们还比较了我们的时间匹配模块与贪婪匹配(模型A)和最佳运输匹配(模型B)。我们可以看到模型B的性能略好于模型A。其原因是生成的伪标签的比例仅为0.8%,并且低比例限制了最优传输的优势。进一步比较模型E与模型D,我们可以看到,最佳传输匹配再次优于DSP阶段中使用的贪婪匹配,幅度为1.1。在DSP中,生成的伪标签的比例增加到20.0%左右。通过增加伪标签,Temp-OT在DSP阶段实现了1.1的大幅提升。接下来,我们验证我们的方法的两阶段设计。我们的完整模型(模型E)的性能比模型B提高了2.4,这验证了有效性。11847= 0= 10= 2550图7. 阶段1和阶段2。我们DSP阶段的效率将模型C(无SPP级)与模型E进行比较,我们可以看到添加SPP级导致mIoU提升4.9。这证明了我们的SPP阶段的有效性。SemanticKITTI 测 试 集 的 结 果 表 2 报 告 了SemanticKITTI测试集的结果。在全监督三维语义分割方面有几个代表性的工作。这些方法是我们的弱监督方法和骨干网络的上界。我们的基线网络是42层的MinkowskiUNet [4],与我们的骨干网络相同。 相比对于100%监督的MinkowskiUNet,具有0.001%初始注释的基线模型导致绝对mIoU下降16.8。虽然我们的框架以相当大的幅度超过了基线,但带来了5.4%的绝对mIoU提升。然后,我们评估具有0.005%初始注释的相同模型。 具有更多初始注释的基线模型的性能比完全监督的MinkowskiUNet低9.8%。我们的框架工作优于我们的基线模型5.9%,并达到相同的性能水平,完全监督MinkowskiUNet。伪标记的定性结果。我们随机选择序列不同位置的伪标签,如图7所示。在S种子和S稠密中,随着传播,t=50时的伪标签数量显著低于t=1时的数量,特别是对于S种子。远离第一帧的帧不与第一帧共享因此,在注释区域和距离框架之间建立远程连接仍然是一个很大的挑战。4.2. SemanticPOSS的评价我们还评估了SemanticPOSS的注释和训练方法。请注意,有几个目标对象没有任何实例级注释。我们采样10%的超体素量作为Seman- ticPOSS的初始注释因此,SemanticPOSS中的注释比SemanticKITTI中的注释更密集。初始注释的比例仍在0.001%左右。如表3所示,我们的框架在SemanticPOSS的区域3上实现了52.2%,而通过初始0.001%注释训练的模型仅实现了39.5%。5. 结论我们提出了一个两阶段的框架来训练一个可用的模型,非常稀疏的注释(0.001%注释点)的户外3D点云序列。实验结果表明,我们的方法显着优于基线,并取得了与一些完全监督的方法相当的结果。6. 确认本研究得到了RIE 2020产业联盟基金-产业合作项目(IAF-ICP)资助计划的支持,以及来自行业合作伙伴的现金和实物支持。这项研究也得到了新加坡国家研究基金会在其AI新加坡计划下的支持(AISG奖号:AISG-RP-2018-003)。这项研究也得到了新加坡教育部的学术研究基金Tier 2(MOE-T2 EP 20220 -0007)和Tier 1(RG 95/20)的支持。11848引用[1] Jens Behley , Martin Garbade , Andres Milioto , JanQuenzel , Sven Behnke , Cyrill Stachniss , and JurgenGall. Se-mantickitti:激光雷达序列语义场景理解数据集。在IEEE计算机视觉集,第9297一二三六七[2] AlexandreBoulch , BertrandLeSaux 和 NicolasAudebert。使用深度分割网络的非结构化点云语义标注。3DOR,2:7,2017。2[3] Ran Cheng,Ryan Razani,Ehsan Taghavi,Enxu Li,and Bingbing Liu. 2-s3 net:稀疏语义分割网络的自适应特征选择的注意特征融合。在IEEE/CVF计算机视觉和模式识别会议论文集,第12547-12556页3[4] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积:Minkowski卷积神经网络。在IEEE计算机视觉和模式识别会议论文集,第3075-3084页三、七、八[5] Tiago Cortinhal George Tzelepis 和 Eren Erdal Aksoy 。Salsanext:用于自动驾驶的激光雷达点云的快速,不确定性感知语义分割2[6] 马可·库图里Sinkhorn距离:最佳运输的光速计算。神经信息处理系统的进展,26:2292-2300,2013。5[7] 戴安琪,天使X. Chang,Manolis Savva,Maciej Hal-ber , Thomas Funkhouser , and Matthias Nießner.Scannet:室内场景的丰富注释3D重建。在proc 计算机视觉与模式识别(CVPR)IEEE,2017年。2[8] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准备好自动驾驶了吗?Kitti Vision基准套件。在2012年IEEE计 算 机 视 觉 和 模 式 识 别 上 , 第 3354-3361 页 。IEEE,2012。3[9] 本杰明·格雷厄姆。空间稀疏卷积神经网络。arXiv预印本arXiv:1409.6070,2014。3[10] 本杰明·格雷厄姆和劳伦斯·范德马滕。子流形稀疏卷积网络。arXiv预印本arXiv:1706.01307,2017。3[11] Qingyong Hu,Bo Yang,Linhai Xie,Stefano Rosa,Yulan Guo,Zhihua Wang,Niki Trigoni,and AndrewMarkham. Randla-net:大规模点云的高效语义分割。在IEEE/CVF计算机视觉和模式识别集,第111087[12] Mingyang Jiang,Yiran Wu,Tianqi Zhao,Zelin Zhao,and Cewu Lu.点筛:三维点云语义分割的sift类网络模型。arXiv预印本arXiv:1807.00652,2018。3[13] 列昂尼德·康托洛维奇。关于物质的转移。人类科学,5(1):1-4,1958. 5[14] Deyvid Kochanov 、 Fatemeh Karimi Nejadasl 和 OlafBooij。Kprnet:改进基于投影的激光雷达语义分割。arXiv预印本arXiv:2007.12668,2020。3[15] 费利克斯· 贾雷莫·L·a·win,马丁·丹内尔扬,帕特里克·T·奥斯特贝,古塔姆·巴特,法赫德·沙赫巴兹·汗和迈克尔·费尔斯伯格。深度投影三维语义分割。在图像和图 案 的 计 算 机 分 析 国 际 会 议 上 , 第 95-107 页 。Springer,2017. 2[16] Yangyan Li,Rui Bu,Mingchao Sun,Wei Wu,XinhanDi,and Baoquan Chen.Pointcnn:x变换点上的卷积神经信息处理系统进展,第820-830页,2018年。3[17] Yangbin Lin,Cheng Wang,Dawei Zhai,Wei Li,andJonathan Li.三维点云超体素边界保持分割方法研究。ISPRS Journal of Photogrammetry and Remote Sensing,143:39ISPRS摄影测量与遥感杂志主题是“点云处理”。二、三[18] Zhengzhe Liu,Xiaojuan Qi,and Chi-Wing Fu.一件事一个点击:一种自训练的弱监督三维语义分割方法。在IEEE/CVF计算机视觉和模式识别会议论文集,第1726-1736页,2021年。一二三四七[19] Yancheng Pan , Biao Gao , Jilin Mei , Sibo Geng ,Chengkun Li,and Huijing Zhao.语义位置:具有大量动态实例的点云数据集。2020年IEEE智能车辆研讨会(IV),第687-693页。IEEE,2020年。一、二、三、六[20] 吉尔·普伊亚历山大·布尔奇和雷诺·马莱。Flot:由最佳传输引导的点云上的场景流。在计算机视觉-ECCV2020中:第16届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第XXVIII部分16,第527-544页。Springer,2020年。4[21] Charles R Qi, Hao Su ,Kaichun Mo, and Leonidas JGuibas.Pointnet:对点集进行深度学习,用于3D分类和分割。arXiv预印本arXiv:1612.00593,2016。三、七[22] Charles R Qi,Li Yi,Hao Su,and Leonidas J Guibas.Point- net++:度量空间中点集上的深度层次特征学习。arXiv预印本arXiv:1706.02413,2017。三、七[23] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger 。Octnet:以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集,第3577-3586页3[24] Hang Su , Varun Jampani , Deqing Sun , SubhransuMaji,Evangelos Kalogerakis,Ming-Hsuan Yang,andJan Kautz. Splatnet:用于点云处理的稀疏网格网络。在IEEE计算机视觉和模式识别会议论文集,第2530-2539页3[25] Hugues Thomas , Charles R Qi , Jean-EmmanuelDeschaud , BeatrizMarcote gui , Franc oisGoulette ,andLeonidasJGuibas.Kpconv:点云的灵活和可变形卷积。arXiv预印本arXiv:1904.08889,2019。三、七[26] C维拉尼最佳的交通工具,新旧。2005年saint-flour暑期学校说明数学科学基本原理Springer,2008. 3[27] Haiyan Wang , Xuejian Rong , Liang Yang , JinglunFeng,Jizhong Xiao,and Yingli Tian.野外场景三维图结构 点 云 的 弱 监 督 语 义 分 割
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功