没有合适的资源?快使用搜索试试~ 我知道了~
14930HybridCR:基于混合对比正则化的李梦田1、谢元1、沈云航2、薄可2、乔瑞芝2、任波2、林少辉1、<$、马丽庄1、<$1华东师范大学计算机科学与技术学院2腾讯优图实验室mtli@stu.ecnu.edu.cn,{yxie,shlin,lzma} @ cs.ecnu.edu.cn{odysseyshen,boke,ruizhiqiao,timren} @ tencent.com摘要为了解决大规模点云语义分割中的巨大标注成本问题,提出了一种新的弱监督环境下的混合对比正则化(HybridCR)框架,该框架与完全监督框架相比具有竞争力.具体来说,HybridCR是第一个利用点一致性并以端到端方式使用伪标记的对比正则化的框架。有趣的是,HybridCR明确和有效地考虑了局部相邻点和3D类的全局特征之间的语义相似性。设计了一个动态点云增强器,用于生成多样化、鲁棒性强的样本视图,其转换参数与模型训练联合优化。通过广泛的实验,HybridCR在室内和室外数据集上都实现了相对于SOTA方法的显著性能改进,例如,S3DIS、ScanNet-V2、Se-mantic3D和SemanticKITTI。1. 介绍学习大规模点云的精确语义是智能机器理解复杂3D场景的基本感知任务。现有的基于深度学习的方法严重依赖于用于训练的标记点云数据的可用性和数量[5,21,22,29]。然而,3D逐点标记是耗时且劳动密集的。因此,我们的目标是探索弱监督学习,以最大限度地提高数据效率,减少注释3D点云的工作。近年来,出现了几种三维点云弱监督语义分割方法,†通讯作者。图1.局部和全局的混合对比正则化。左:锚点被鼓励与匹配的正点及其邻居(绿色圆圈中)相似,而与负点及其邻居(红色圆圈中)不同。右:鼓励锚点与匹配的正点和属于同一类的其他点相似(在绿框中),而与不同类的负点不相似(在红框中)。通常可以分为三组:(1)一致性正则化[33,38]在随机修改输入或模型函数后,采用预测分布的一致性(2)伪标记,又称自我训练[4,18,37]使用模型预测作为监督。(3)对比预训练[9,32]专注于预训练的模型,然后对下游任务进行更少标签的微调。现有的方法虽然取得了一定的效果,但仍存在一些局限性首先,它们没有充分考虑大规模场景中邻居的语义特性和3D类的全局特性,未能充分利用有限的价值,14931[33]第三十三话其次,许多管道[33,38]使用固定/手工数据增强来获得多视图表示,导致次优学习,因为增强的强度和类型强烈依赖于模型和数据集大小。此外,固定增广忽略了样本的形状复杂性。第三,现有的方法[9,37]通常涉及多个阶段的预训练和微调,与端到端的训练方案相比,这增加了训练和实际部署的难度。针对上述不足,本文分别在标签空间和特征空间中探索同时利用一致性和对比性的受最近的3D PSD [38]和2D FixMatch [27]的启发,我们将伪标签和一致性正则化策略结合到大规模点云的端到端训练方案中。为了更好地利用对比信息,我们重新设计了正锚点对和负锚点对一个关键的观察结果是,高级语义场景理解不仅需要局部几何特征,还需要全局几何特征,使点云 实 例 对 比 更 充 分 。 此 外 , 在 分 类 任 务 中 , 受PointAugment [15]的启发,我们进一步引入动态点云增强器,以提供一致性和对比正则化的转换,并进行联合优化。为了实现上述思想,我们提出了一种新的范式,称为混合对比正则化(Hy-bridCR),用于大规模点云上的弱监督语义分割,它包括局部和全局指导对比学习以及动态点云变换。如图1所示,局部引导对比正则化迫使不同视图的数据样本靠近它们的邻居而远离其他点。对于全局指导的对比正则化,每个样本都被强制接近其类的原型最重要的是,HybridCR明确有效地考虑了三维点云类的局部邻近点和全局特征之间的语义相似性。此外,本文提出的动态点云增强器利用多层感知器(MLP)和高斯噪声来丰富上下文位移中的数据多样性,增强器的参数可以与模型训练联合优化。大量的实验表明,HybridCR实现了SOTA性能的室内场景,即,S3 DIS [1]和ScanNet-V2 [6],以及室外场景,即,Semantic3D [8]和SemanticKITTI [2],证明了我们提出的框架的有效性。总而言之,我们的贡献有四个方面:• 我们提出了第一个框架HybridCR,以利用点的一致性和对比特性,以端到端的方式进行弱监督点云语义分割。• 我们引入了局部和全局指导对比正则化来促进高级3D语义场景理解任务。• 我们设计了一种新的动态点云增强器来转换多样和强大的样本视图,这是联合优化的整个训练过程。• HybridCR在最近的弱监督方法上取得了显着的性能,并且在室内和室外数据集中分别平均获得了2.4%和1.0%的AP改进。2. 相关工作2.1. 弱监督点云分割弱监督学习是降低高人工成本的有效方法一些弱标记方法已经进行了初步尝试,例如标记一小部分点[18,33,38]或语义类[31]。现有的方法采用各种手段来提高模型的表达能力。它们可以大致分为三类:一致性正则化在弱监督图像分类中实现了透视性能[28,36,40]。Xu等[33]介绍了一种点云特征的多分支监督方法,该方法采用了点云增强和一致性正则化两种方法。Zhang等人[38]通过扰动自蒸馏为隐式信息传播提供额外的监督。Shi等人[26]研究标签有效学习并引入基于超点的主动学习策略。尽管受益于不同网络分支的一致性,但他们没有考虑对比性支柱-在特征空间中进行插值。伪标记从训练模型的预测[14,24]中创建监督,由邻域图[11]或自训练[19,35]分配。在弱监管的环境下。Zhang等人[37]提出了一种基于迁移学习的方法,并引入稀疏伪标签来正则化网络学习。Hu等人[18]提出了一种利用伪标签提高网络性能的自训练策略。Cheng等人[4]利用动态标签传播方案来基于所构建的超点图生成伪标签。然而,他们只使用伪标签来获得更多的监督信号,而忽略了标签空间中的一致性属性。对比预训练首先由Xie等人提出。[32]并通过提出点云场景的对比学习框架来启动这些努力。然而,它主要集中在下游的任务与100%的标签。Hou等人 [9]利用场景的固有属性来扩展网络可传输性。 Li等[12]提出了引导点对比损失和杠杆年龄伪标签来学习区分特征。然而,在这方面,14932Σ∪×∪›→云数据集,定义为X1,Y1,(Xu,n)=..x l,y l,. - 是的- 是的,的。x l,y l,x u,. -是的- 是的 ,x u,其中N de-11MMM+1N图2.原始点云首先被馈送到动态增强器中以生成增强点。 然后,原始点和增强点通过Siamese网络生成模型对所有点的预测,以及高置信度的未标记点的伪标签。点级一致性损失Lcon和对比度损失Lcra用于所有点的预测,而softmax交叉熵损失Lseg用于标记点的监督。 同时,伪标签用于计算每个类的原型。最后,从局部和全局两个角度进行HybridCR,形成局部和全局指导对比损失(即,Llcl和Lgcl)以提供用于特征学习的正则化。通过这种方式,HybridCR服务于端到端训练方案它们只在特征空间中进行点级对比,而忽略了点云的固有属性,即,几何结构和类语义。HybridCR重新设计了大规模点云的局部和全局正负对,并充分探索了如何以端到端的方式利用并同时实施一致性和对比性属性。2.2. 点云增强现有网络中的数据增强[33,38]主要包括随机旋转,缩放和抖动,这些都是在整个训练过程中手工制作/固定的。Li等[15]通过利用对抗性学习策略提出一个自动增强框架。Chen等人[3]通过实例之间的插值来呈现这一点。Kim等人[13]利用局部加权变换来产生非刚性变形。然而,它们仅仅关注对象级点云。另外,在实际应用中实现起来比较复杂,给训练过程中参数的调整带来了困难,并且只关注对象级的点云。我们引入了一个动态点云增强器,在训练过程中为大规模点云生成各种3. 方法在这一部分中,我们首先描述了第二节中的符号和先决条件。第3.1条然后,我们提出了总体框架的HybridCR的局部和全局指导对比正则化。3.2.接下来,我们将在第二节中介绍动态点云增强器。三点三最后,我们提出了SEC培训的总体目标。三点四分。3.1. 预赛问题设置和符号。. .我们让D为点,注意点的总数,M是标记点的数量,Xl和Xu是标记点和未标记点的集合。对于Xu,标签是不存在的,其通常被动态生成的伪标签Yp替换。因此,Y=Y1,Yp是用于弱监督语义分割的整个标签集。注意,Yl是固定的,但Yp在训练期间被更新。形式上,给定一个大规模的点云,其中一小部分标签作为输入,弱监督语义分割旨在学习函数:X uY.具体地,对于1%设置,标记点的数量为M=1%N,并且随机选择所有标记点1pt表示每个类只有一个标记有地面真值的点,因此标记点的数量M等于类的数量C。请注意,所有标记的点都是随机选择的。点级一致性和对比度。点级一致性[33,38]已广泛用于弱监督点云语义分割,其将具有不同增强的对应点对强制为14933̸联系我们联系我们ΣjICΣN1exp(y·y/τ)≥τ],(3)=1[p|N(xi)|我ΣIC暹罗网络具有相同的特征表示。对于mally,点级一致性损失被公式化为:1NL=JS(yy),(1)正则化策略(HybridCR)与有效的动态点云增强器。原始点云首先被输入到动态点云增强器中以生成不同的变换。那么,原来在-con2Ni ii=1放置点和增强点通过Siamese网络,使用模型的预测生成伪标签其中yi=fθ(xi)和yi=fθ(xi)分别是通过原始分支和数据扩充分支的第i个点的预测概率。JS是詹森-香农分歧。自我监督学习[ 32 ]中的点级对比度由监督密集预测任务促进,例如。SEMANTIC分割,其执行密集的每点分类。点级对比旨在将锚点(点xi)拉到数据增强点,同时将其推离预测空间中的其他点。因此,点级对比损失被公式化为:未标记的点上的操作鼓励模型在训练过程中通过匹配具有不同变换的3D点对来同时,生成的伪标签用于计算每个类的原型。最后,HybridCR在局部和全局指导角度上进行,以学习未标记点和标记点之间的特征关系,这也利用了具有点级一致性和对比度损失的标记点的传统分割损失。3.2.1局部引导对比正则化·局部邻居信息对于特征学习是必不可少的。CRAL= −1logi=1经验值yi/τ)、 (二)J无论室内还是室外,物体都存在着孔洞其中1[j≠i]0,1是一个表示函数,当且仅当j=i,τ是一个温度超参数。请注意,方程式1和等式在所有点上计算2伪标签生成和选择。伪标记[14]使用模型它通过地面真值标签Yl和生成的伪标签Yp来估计所有点的概率。设pi是点xi的参数为θ的网络的概率输出,pic表示类c存在于X i.使用这些输出概率,生成xi的伪标签yp在生成之后,通过获得二进制向量gi来选择具有高置信度预测的伪标签。设gi=[g i1,. . .其中,[g,iC] 0,iC是所选择的伪标签,其被获得为:门的场景如果模型学习了局部结构信息(球体、角等),从其他完整对象中分离出来,可以增强模型在训练过程中对不完整对象的鲁棒性。而点云的局部特征主要来自于点及其邻域,这启发我们采用局部引导对比正则化方法对点云的局部信息进行为了实现这一点,我们首先查询锚点的相邻点,然后强制每个点的不同增强视图靠近其相邻点,远离其他点。给定一个三维查询点xi及其坐标xyz,我们通过逐点Eu-clidean距离搜索其最近的K个邻居点,并且将它们的编码特征向量聚集以生成平均向量κi,该平均向量κ i被计算通过1年。在此基础上,我们构建了低-j∈N(x)IC IC P[20]第20话我的世界其中GIC =1,如果yp被选择,并且gic =0否则。τp通过将yi拉近κi,同时将其从其他点的相邻向量:是标签的置信度阈值当概率分数足够高(pic≥τp)时选择标签。1Σexp(yi·κik /τ)高级语义场景理解任务需要不仅是本地信息,而且是全球信息,直接联系-Llcl=−Ni=1日志j=1 1[j] i]exp(yi·κjk.(四)/τ)仅在点水平上测试3D实例是不够的[17,32]。因此,这促使我们探索更有效的对比策略,以充分利用点云在几何结构和类语义方面的固有属性。3.2. 混合对比正则化如图2所示,我们提出了一个紧凑的弱监督语义分割框架的大规模点云,其中包含新的混合对比事实上,所提出的局部制导对比度损失更一般化为等式。二、请注意,方程式4退化为Eq。如果K设置为1,则为23.2.2全局制导对比正则化全局信息对于点云对象和场景识别至关重要,其中来自同一类的对象应该共享相似的语义特征,即使它们在外观上非常不同。相反,对象NNN在点云的对象上。 例如,occlu-j=1[ji]我G14934L.ΣL−LΣ∈DS ∈M∈MSD D·MSLj=1MSGCLsegCMCexp(y)属于不同类的对象在特征空间中应该是可区分的,无论它们看起来多么相似。例如,椅子和桌子在外观上是相似的,但对于不同的班级来说是不同的.因此,网络必须获取关键信息,以避免陷入这种陷阱.为此,我们利用所提出的全局指导对比正则化从类标签的语义信息。为了实现这一点,我们采用标记点的均值嵌入来为每个类生成其原型ρ,ρic是属于第c个类的第i个在此基础上,构造了全局制导对比度损失gcl通过将yi拉近ρi,同时将其推远其余类的原型:ML图3.动态点云扩充器的架构。在训练期间联合优化[33,38]中采用的传统增强器3.4.总体目标。如上所述,HybridCR可以作为弱正则化的有效对比正则化策略。Lgcl=− 1ΣMi=1日志Mexp(yi·ρic/τ)1[j=i]expyi·ρ、(五)′/τ有监督点云语义分割框架端到端培训计划。网络的总体目标如下:其中Ml= M + Mp ,并且Mp是所选择的伪标签的数量(在等式2中定义)。 3),c′是与类c不同的类. 因此,阴性样品来自除第c类以外的C1类的原型请注意,如果数据集有C类,这基本上相当于C−1的负大小。这一点实际上很重要,Ltotal=Lcon+Lseg+λ(Lcra+Llcl+Lgcl),(6)其中λ是平衡参数。seg是标记点上的基于交叉熵的分割损失,其被表示为:处理具有大量类的数据集。因 此 ,MCL可以保持L的特征学习性质由方程式2L=−1ΣΣyi=1c=1logexp(y=c)c=1、(7)3.3.动态点云增强器数据增强是所提出的HybridCR中的一个重要组成部分,它生成不同的锚点,正面和负面的例子,并通过在输入中添加特定的噪声来提取不变受[15]的启发,我们使用MLP和高斯噪声来实现可学习的动态点云增强器,这丰富了上下文位移中的数据多样性,并在同一场景中生成不同的变换。图3呈现了所提出的增强器架构。首先,我们使用渐进尺寸为[64,128,1024,512]的共享4层MLP来提取FRN×d。然后,两个单独的线性投影层计算H和G.我们使用两个独立的组件对特定于输入样本的增强函数进行回归:(1)全局回归以产生变换RN×N,以及(2)上下文回归以产生位移RN×3。特别地,我们引入了两个基于高斯分布的d维噪声向量,并将它们与H和G连接起来。然后,我们使用MLP来获得和。请注意,噪声向量使增强器能够在回归变换矩阵时探索更多样化的选择。使用和,我们生成增广样本′=+。所提出的动态点云增强器具有更大的灵活性其中yic表示点x1的基础真值标签。我们也使用Eq。7中的网络参数来学习网络参数θ。我们求解Eq。6亚当优化器此外,当扩展到全监督方式时,HybridCR可以作为有效的辅助特征学习损失。4. 实验4.1. 实验设置实 验 数 据 集 包 括 S3 DIS [1] , ScanNet-V2 [6] ,Semantic 3D [8]和SemanticKITTI [2]。 S3DIS是一种常用的室内三维点云数据集,用于空间分割。它有271个点云场景,分布在6个区域,13个类别。ScanNet-V2也是一个室内3D点云数据集,包含1,613个3D扫描,共20个类别。整个数据分为训练集(1201次扫描),验证 集 ( 312 次 扫 描 ) 和 测 试 集 ( 100 次 扫 描 ) 。Semantic3D是一个室外数据集,提供了一个大规模的标记3D点云,超过40亿个点。它覆盖了一系列不同的城市场景,原始3D点有8类,具有多种信息,如3D坐标,RGB信息和强度。SemanticKITTI是一个用于自动驾驶场景中3D语义分割的大型户外点云数据集,有19个类。该数据集包含22个序列,这些序列被分成训练集(10个序列JCCRAIC)主要是解决内存瓶颈问题。ΣIC14935×设置方法mIoU(%)细胞 地板壁束上校风门椅子表书沙发 板杂波PointNet [21]41.188.897.369.80.14.046.310.858.952.65.940.326.433.2KPConv [29]67.192.897.382.40.023.958.069.091.081.575.375.466.758.9充分[10]第10话RFCR [7]62.468.791.294.295.798.380.184.30.00.025.228.562.362.447.471.275.892.083.282.660.876.170.871.165.271.654.061.3私营部门司[38]65.192.397.180.70.032.455.568.178.986.871.170.659.053.0HybridCR65.893.698.182.30.024.459.566.979.687.967.173.066.855.7百分之十Xu等[33个]48.090.997.374.80.08.449.327.369.071.716.553.223.342.8Zhang等人[37]第三十七届61.891.596.980.60.018.258.147.275.885.765.368.965.050.2百分之一PSD[38个]63.592.397.780.70.027.856.262.578.784.163.170.458.953.2HybridCR65.392.593.982.60.024.264.463.278.381.769.074.468.256.5联系方式[25日]44.389.197.071.50.03.643.227.462.163.114.743.724.036.71例患者(0.2%)Mt[28日]44.488.996.870.10.13.044.328.863.663.715.543.723.035.8Xu等[33个]44.590.197.171.90.01.947.229.362.964.015.942.218.937.5[10]第十话40.783.790.761.20.011.940.815.252.051.714.950.525.331.81例患者(0.03%)私营部门司[38]48.287.996.062.10.020.649.340.955.161.943.950.727.331.1HybridCR51.585.491.965.90.018.051.434.263.878.352.459.629.939.0表1. S3DIS 5区的定量结果。“*”表示我们使用官方代码训练的方法的结果。请注意,我们的1pt仅表示整个房间中每个类的一个标记点,而不是小块(例如,11米)的Xuet al. [33 ]第33段。在我们的1pt设置中标记点的数量占总点数的0.03%,在Xu等人中约为0.2%。[33 ]第33段。图4. S3 DIS Area-5测试集的可视化结果。原始点云、语义标签、基线结果和我们的结果从左到右分别显示。具有1019k帧)、验证集(具有104k帧的1个序列)和测试集(具有1020k帧的11个序列实作详细数据。我们使用初始学习率为0.001、动量为0.9的Adam Optimizer在NVIDIA RTX Titan GPU上为所有数据集训练100个epoch。相邻点的数量K为16,批量大小为6,初始学习率为0.01,衰减率为0.98,每个历元的迭代步数设置为500。请注意,由于其有效性和效率,我们选择基于点的主干PSD [38]作为评价方案。我们在原始测试集的所有点上评估最终性能。为了进行定量比较,我们使用平均交集对并集(mIoU)作为标准度量。我们实验研究了两种类型的弱标签:1pt和1%设置。此外,我们将HybridCR扩展到完全监督的方式。14936图5. ScanNet-V2验证集的可视化结果。原始点云、语义标签、基线结果和我们的结果从左到右分别显示。4.2. 与SOTA方法的比较S3 DIS和ScanNet-V2上的定量结果。首先,我们在S3 DIS Area-5上比较了HybridCR与SOTA方法,其定量结果总结在表1中。1.一、显然,与Zhang等人相比,所提出的HybridCR在1pt和1%的设置下实现了最高的mIoU。[37],PSD[38],ESTA模型[25],MT [28],Xuet al. [33]和RandLA-Net [10] 。 例 如 , 我 们 的 方 法 在 1 pt(0.03%)的设置下分别比PSD和RandLA-Net高出3.3%和10.8%。此外,我们的方法也实现了7.0%的性能增益超过徐等人。[33],其利用约0.2%的更多标记点。 在具体类别方面,在1pt(0.03%)的设置下,我们的方法显著提高了性能,“椅子”,“桌子”和“沙发”分别比PSD提高了8.7%,16.4%和8.9%对于1%的设置,我们的方法在PSD基线上实现了1.8%的mIoU增益,甚至超过了Xuet14937集方法S3disScanNet-V2Sem3D塞姆凯蒂6倍valtest测试Val.测试图6. Semantic3D验证集上的可视化。原始点云、语义标签、基线结果和我们的结果从左到右分别显示。Zhang等人[37]第三十七届65.9-51.172.6--百分之一私营部门司[38]68.0-54.775.8--HybridCR69.256.956.876.851.952.3表2.S3 DIS 6倍、ScanNet-V2验证集、Semantic 3D(简化-8)和SemanticKITTI验证集上的定量结果(mIoU(%))特别地,在100%标记数据的实验中,我们的混合对比损失作为辅助特征学习损失。“*” de- notesal. [33]在10%的设定为了解释,我们的方法学习不同的几何结构,从大规模的点云数据,通过添加所提出的cross-d对比正则化。在此基础上,我们的方法只使用1%的点来超越完全监督的RandLA-Net和PSD。为了进行公平比较,我们还在6倍设置下扩展了与S3DIS上其他方法的比较,其结果见表1。二、对于ScanNet-V2,与基于场景/子云级注释的WyPR[23]和MPRM [31]相比,HybridCR在测试集上的1%设置下实现了56.8%的最高mIoU。同时,HybridCR比Zhang等人实现了5.7%的mIoU增益。在相同数量的标签注释。此外,在完全监督的情况下,我们的方法比RandLA-Net获得了2.1%的mIoU增益。S3 DIS和ScanNet-V2上的定性结果。我们分别在图4和图5中展示了S3 DIS和ScanNet-V2的定性结果。在S3DIS上,HybridCR实现了对PSD的“板”和“椅”组合的更好分割。此外,Hy- bridCR的分割结果与地面实况非常一致。在ScanNet-V2上,我们观察到HybridCR实现 了 良 好 和 真 实 的 分 割 结 果 。 在 ScanNet-V2 上 ,HybridCR与PSD相比,在“沙发”和“桌子”上实现了良好的性能这可能是因为HybridCR可以有效地利用动态点云增强器生成的各种变换来提高表示能力并提高分割性能。Semantic 3D和Se- manticKITTI的定量结果。我们进一 步评估 了室外 大规模 点云数据 集Semantic 3D(reduced-8)和SemanticKITTI上的HybridCR,并在Tab. 二、图7. Se- manticKITTI验证集上的可视化结果。语义标签、基线结果和我们的结果从左到右分别显示。分别对于Semantic3D,我们的方法也实现了更好的性能,与Zhang等人相比,在1%的设置下,mIoU提高了4.2%和1.0%。[37]关于PSD对于SemanticKITTI,我们的方法在设置为1%的验证和测试数据集上报告的结果为51.9%和52.3%可以看出,我们的方法优于其他点为基础的方法由一个大的利润有限的注释。Semantic3D和SemanticKITTI的定性结果。我们分别在图6和图7中给出了Semantic3D和SemanticKITTI的定性结果。在Semantic3D上,我们的方法在PSD上进行了改进,特别是实现了对“建筑物”的精确分割。在SemanticKITTI上,可以看出,我们的方法实现了与地面实况的一致性分割结果,特别是在“道路”和“汽车”中结果表明,我们的方法在室外数据集上的有效性。结果在完全监督的设置。我们进一步扩展了与当前SOTA方法在室内和室外数据集上的全监督设置的比较,其定量结果总结在表1中。二、可以观察到,HybridCR在它们之间具有竞争力。例如, HybridCR在S3 DIS和ScanNet-V2上分别以0.7%和2.1%的mIoU改进超过RandLA-Net,并在Se- manticKITTI上获得0.1%的 mIoU 改 进 。 此 外 , HybridCR 在 Semantic3D 上 的mIoU中比KPConv高出1.8%。充分PointCNN[16个]65.4-45.8---DGCNN [30]56.1-----ShellNet [39]66.8--69.4--[34]第三十四话68.766.463.0--46.8KPConv [29]70.669.268.474.6-58.8[10]第10话70.0-57.8*77.4-53.9RFCR [7]70.9*-70.277.8--私营部门司[38]70.3*-----HybridCR70.759.559.977.453.254.0附属WyPR[23日]-31.124.0---MPRM[三十一]-43.241.1---14938--图8.在1%设置下点嵌入的可视化。(a)是PSD的嵌入,(b)是HybridCR的嵌入。场景是从S3DIS的测试集中随机选择的。(c)是标记点的数量和性能之间的关系。4.3. 消融研究我们进一步评估了消融研究的基本组件的有效性,包括动态点云增强器和局部/全局引导对比正则化。所有实验均在S3 DIS Area-5上进行,结果见表1。3 .第三章。请注意,#1由PSD报告,#8由HybridCR报告,我们报告的结果为平均值和标准差。(5次运行)。动态数据扩充器的有效性。为了验证数据增强引起的改善,我们比较了基础。与Aug. .在1pt和1%设置下比较#1和#2,它比Base获得了2.5%和1.0%的增益,分别对于1pt和1%设置的#5和#8,它分别比HybridCR获得 0.4%和0.3%的增益结果表明,HybridCR从八月的不同转换中获得了很大的好处局部引导对比损失的有效性。从1pt和1%设置下的#1和#3之间的比较来看,它在mIoU方面优于Base 1.6%和0.4%。,分别。对于#7和#8,它分别比HybridCR 这些结果表明,当地。进一步提高了性能,因为它在增强特征学习的同时在模型训练期间利用了邻近信息。全局指导对比损失的有效性类似地,从#1和#4的比较来看,它优于Base。在1pt和1%凝固条件下,分别提高2.0%和0.5%。对于#6和#8,它分别比HybridCR实现了1.3%和0.6%的增益 结果表明,全球。 有效地提高了性能, 的弱监督语义分割任务与类原型。4.4. 分析点嵌入的可视化。 如图8(a)(b)与PSD相比,HybridCR的学习点嵌入更加紧凑和分离。它表明,分割网络产生更多的歧视性特征,并产生有希望的结果,享有的优势,局部和全局指导对比损失和有效的转换产生的动态点云增强器。标记点和性能。 我们进一步讨论-#5#6#7✓✓✓✓✓✓✓✓✓51.1± 0.250.8± 0.351.0± 0.165.0± 0.364.7± 0.465.1± 0.2#8✓✓✓✓51.5± 0.465.3± 0.3表3.S3DIS区域5上不同组件的消融在图8(c)中讨论了性能与标示率1pt、0.1%、1%、10%、50%、100%的关系。随着比值的增大,两种方法的性能都有所提高,增长趋势逐渐减缓。注意,性能随着比率小于1%而略微下降,这表明保持一定量的监控信号是必要的。此外,在比率为10%时的性能接近100%,这表明为了获得良好的分割结果,密集注释是不必要的。5. 结论在本文中,我们提出了一个混合对比正则化框架弱监督大规模点云语义分割。通过我们提出的局部和全局指导对比正则化,网络通过利用邻近点和伪标签来学习更多有区别的特征同时,我们提出了一个动态的点云增强器,以利于对比策略与更多的多样性转换,共同优化训练过程中。室内和室外数据集上的实验结果表明,与SOTA方法相比,HybridCR方法获得了显著的增益。此外,消融研究验证了所介绍的关键组件的有效性实验结果进一步证明了该方法致谢本 工 作 得 到 了 国 家 重 点 研 究 发 展 计 划( No.2019YFC1521104 ) 、 国 家 自 然 科 学 基 金( No.72192821 、 No.61972157 、 No.62102151 、No.2019YFC1521104)、上海市科技重大专项(编号:2021SHZDZX0102),上海市科学技术委员会(编号:22YF1420300,编号:21511101200,No.21511100700,No.21YF1411200),林绍辉获CAAI-Huawei MindSpore开放基金(编号:CAAIXSJLJJ-2021- 031 A)赞助。基地八月本地.Global.1pt百分之一#1✓48.2±(0.3)63.5±(0.1)#2#3#4✓✓✓✓✓✓50.7± 0.349.8± 0.550.2± 0.264.5± 0.363.9± 0.464.0± 0.214939引用[1] Iro Armeni,Ozan Sener,Amir R Zamir,Helen Jiang,Ioannis Brilakis,Martin Fischer,and Silvio Savarese.大规模室内空间的三维语义解析。在CVPR,第1534-1543页,2016年。二、五[2] Jens Behley , Martin Garbade , Andres Milioto , JanQuenzel , Sven Behnke , Cyrill Stachniss , and JurgenGall. Se- mantickitti:用于激光雷达序列语义场景理解的数据集。在ICCV,第9297-9307页,2019年。二、五[3] Yunlu Chen , Vincent Tao Hu , Efstratios Gavves ,Thomas Mensink,Pascal Mettes,Pengwan Yang,andCees GM Snoek. Pointmixup:点云的增强。见ECCV,第330-345页。Springer,2020年。3[4] 程明美,乐辉,谢金,杨健。Sspc-net:半监督语义3D点云分割网络。在AAAI,第35卷,第1140-1147页,2021中。一、二[5] Christopher Choy,JunYoung Gwak,Silvio Savarese.4D时空卷积神经网络:Minkowski 卷积神经网络。在CVPR中,第3075-3084页,2019年。1[6] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet:室内场景的丰富注释3D重建。在CVPR中,第5828-5839页,2017年。二、五[7] 龚靖宇、徐嘉辰、辛坦、宋海川、曲燕云、元燮、马丽庄。通过渐进感受野分量推理的全监督点云分割。在CVPR中,第11673-11682页,2021年。六、七[8] T Hackel , N Savinov , L Ladicky , JD Wegner , KSchindler和M Pollefeys。Semantic3d net:一个新的大规模 点 云 分 类 基 准 。 ISPRS Annals of the Pho-togrammetry , Remote Sensing and Spatial InformationSciences,4:91,2017. 二、五[9] Ji Hou , Benjamin Graham , Matthias Nießner , andSaining Xie.利用对比场景环境探索数据有效的3d场景理解。在CVPR中,第15587-15597页,2021年。一、二[10] Qingyong Hu,Bo Yang,Linhai Xie,Stefano Rosa,Yulan Guo,Zhihua Wang,Niki Trigoni,and AndrewMarkham. Randla-net:大规模点云的高效语义分割。在CVPR中,第11108-11117页,2020年。六、七[11] Ahmet Iscen 、Giorgos Tolias 、Yannis Avritis 和OndrejChum。深度半监督学习的标签传播在CVPR中,第5070-5079页,2019年。2[12] 李江,史少帅,田卓涛,赖新,刘舒,傅志荣,贾佳雅。用于半监督点云语义分割的引导点对比学习。在ICCV中,第6423-6432页,2021年。2[13] Sihyeon Kim,Sanghyeok Lee,Dasol Hwang,JaewonLee,Seong Jae Hwang,and Hyunwoo J Kim.带加权局部变换的点云增强。在ICCV,第548-557页,2021年。3[14] Dong-Hyun Lee et al.《伪标签:用于深度神经网络的简单有效的半监督学习方法》。在表征学习挑战研讨会上,ICML,第3卷,第896页,2013年。二、四[15] Ruihui Li,Xianzhi Li,Pheng-Ann Heng,and Chi-WingFu. Pointaugment:一个点的自动扩充框架云分类在CVPR中,第6378-6387页,2020年。二,三,5[16] Yangyan Li,Rui Bu,Mingchao Sun,Wei Wu,XinhanDi , and Baoquan Chen.Pointcnn : x 变 换 点 上 的 卷 积NeurIPS,31:820-830,2018。7[17] Yunze Liu,Li Yi,Shanghang Zhang,Qingnan Fan,Thomas Funkhouser,and Hao Dong.P4 contrast:用于rgb-d 场 景 理 解 的 点 像 素 对 的 arXiv 预 印 本 arXiv :2012.13089,2020。4[18] Zhengzhe Liu,Xiaojuan Qi,and Chi-Wing Fu. One thingone click:A self-training approach for weakly supervised3d semantic segmentation.在CVPR中,第1726-1736页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功