基于噪声标签的鲁棒点云分割方法的研究及实验

51 浏览量更新于2023-10-13 收藏 3.59MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6443基于噪声标签的鲁棒点云分割叶树泉1陈东东2韩松芳3廖静1*1香港城市大学2微软Cloud AI3加州大学圣地亚哥分校shuquanye2-c@my.cityu.edu.hk，cddlyf@gmail.com，s5han@eng.ucsd.edu，jingliao@cityu.edu.hk摘要点云分割是三维空间中的一项基本任务。尽管最近在利用深度网络的能力进行点云分割方面取得了进展，但是基于干净标签假设的当前深度学习方法可能会因噪声标签而失败。然而，对象类标签在现实世界的点云数据集中经常被错误标记。在这项工作中，我们率先解决这个问题，提出了一种新的点噪声自适应学习（PNAL）框架。与现有的图像任务的噪声鲁棒性方法相比，我们的PNAL是噪声率盲的，以应对特定于点云的空间变化的噪声率问题。具体来说，我们提出了一种新的逐点置信度选择，以获得可靠的标签的基础上，每个点的历史预测提出了一种新的聚类标签校正算法，该算法采用投票策略，在考虑相邻点相关性的情况下生成最佳标签。我们进行了大量的实验，以证明PNAL的有效性合成和现实世界的噪声数据集。特别是，即使有60%的对称噪声标签，我们提出的方法产生更好的结果比它的基线对应PNAL，是一个完全干净的数据集上训练的理想上限相媲美。此外，我们完全重新标记了一个流行的，但嘈杂的真实世界场景数据集ScanNetV2的验证集，使其干净，严格的实验和未来的研究。我们的代码和数据将被发布。1. 介绍近年来，深度神经网络（DNN）的发展在3D点云分割方面取得了巨大成功[11，36，32]。由于强大的学习能力，一旦给出高质量的注释，基于DNNs的点分割方法可以实现显着的性能。然而，这种高学习能力是一把双刃剑，如果存在不正确注释，则它还可能过度拟合标签噪声并导致性能下降。*廖静为通讯作者。事实上，与注释2D图像相比，干净的3D数据标签更难获得。主要原因是：1）要注释的点数通常是非常大的，例如，在ScanNetV 2中注释典型室内场景的百万规模[6]; 2）注释过程本质上更复杂并且需要注释者的更多专业知识，例如，不断改变视图、位置和比例，以了解底层3D结构。因此，即使是常用的3D场景数据集ScanNetV 2 [6]，它已经是从Scan-Net细化标签后的版本，也有很大一部分标签噪声，如图1所示基于上述考虑，迫切需要研究如何利用噪声标签进行学习以实现鲁棒的点云分割。然而，据我们所知，大多数关于噪声标签学习的研究工作集中在图像分类上，而以前的研究不存在点云分割。更重要的是，这种为图像识别而设计的作品不能直接应用于点云分割。例如，在最流行的方法中，样本选择方法[12，33，24，26，17]通常假设噪声率是一个已知的常数值。然而，噪声率通常是未知的和可变的。鲁棒损失函数方法[35，30]无法实现对大噪声率的一致噪声鲁棒性。而标签校正方法[23，26，1]被设计为校正图像级标签噪声，点云分割任务需要校正点级噪声。考虑到每个实例内的点标签是强相关的，直接将这些方法独立地应用于每个点而不考虑局部相关性是次优的。在本文中，我们提出了一个新的点噪声自适应学习（PNAL）框架，这是第一次尝试以赋予点云分割模型抵抗注释噪声的能力。具体来说，为了应对未知的，可能是沉重的，和不断变化的噪声率，我们设计了一个点级的信心选择机制，获得可靠的标签的基础上的历史预测的每个点，而不需要一个已知的噪声率。接下来，为了充分利用标签之间的局部相关性，我们提出了一个标签校正过程，6444输入场景真实世界噪声GT标签PNAL预测图1.点云分割中实例级标签噪声概念的说明从左到右是输入（噪声实例突出显示为红色框），由真实世界数据集ScanNetV2给出的手动注释，以及PNAL的预测（更符合真实类别）。值得注意的是，这个流行的数据集受到标签噪声的影响，例如将地板错误地标记为椅子，即使它已经是ScanNet的重新标记版本我们的PNAL框架是在这个嘈杂的数据集上训练的，但仍然实现了正确的预测。集群级这是通过所提出的投票策略来完成的，该投票策略试图合并来自相关点的可靠标签，以利用计算上高效的实现来为每个点集群提供最佳可能的标签为了证明我们的PNAL的有效性，我们将所提出的框架与基于不同网络骨干的各种可能的基线进行了比较，这些基线来自斯坦福大规模 3d 室内空间（S3DIS）[2]的合成噪声标签数据集，这表明PNAL在性能和效率上都具有很大的优势。在真实世界的噪声数据集ScannetV2 [6]上，我们注意到其训练集和验证集都受到噪声标签的影响。因此，我们不仅对原始训练集和验证集进行了实验。此外，对于更严格的评估，我们通过手动校正噪声标签来细化验证集，并在此干净集上评估PNAL这些结果表明PNAL对真实世界的噪声也是鲁棒的。为了进一步探索PNAL，还进行了完整的消融研究、训练过程分析和稳健性测试。总之，我们的贡献有四个方面。• 据我们所知，这是研究点云数据上的噪声标签的第一项工作，这对数据量急剧增长的3D应用程序具有广泛而迫切的需求。• 提出了一种新的噪声率盲PNAL框架该算法包括点级置信度选择、簇级标签校正和投票机制，可方便地应用于不同的网络结构。• 进行了大量的实验，以显示PNAL的明显改善，在合成和现实世界的噪声标签数据集。• 我们通过校正噪声来重新标记ScanNetV2的验证集，并将其公开以促进点云分割和噪声标签学习。2. 相关工作点云分割。给定一个点云，语义分割的任务是基于点的语义将其划分为子集。在相关的工作中，基于点的网络最近得到了越来越多的关注。这些方法直接作用于无序、不规则和非结构化的点云，使得直接应用标准CNN是不可行的。出于这个原因，开创性的工作PointNet [21]被提出来使用级联的多层感知器来学习每点特征。它使用固定的任意大小的立方体块来切割场景数据集中的房间到块处理数据集时。受PointNet的启发，最近提出了一系列基于点的网络一般来说，遵循PointNet的实践，这些方法使用八叉树[27]，kd树[15]或聚类[16]将房间场景分解为房间块。这些点云数据的处理方法今天被广泛使用[13]。学习噪音标签已经提出了不同的方法来在有噪声的标记数据下训练准确的模型，这些数据可以大致分为五类。具有噪声鲁棒层[28，10，4]的方法旨在对标签转移矩阵T进行建模。基于估计的T，他们将网络的输出调整为更自信的然而，这样的方法假设某些标签之间的强相关性，这限制了方法的使用。另一种方法是设计对噪声标签[9，19]、广义交叉熵（GCE）[35]、对称交叉熵（SCE）[30]鲁棒的损失，其是流行的和可接受的。床内阁椅式地板表书架表书桌书桌6445E∈R≤≤联系我们|联系我们易于适应现有的架构。他们最初提出的分类，但他们中的大多数是applicable分割，如果使用像素明智的。最近的工作[18]建议在实例分割中对前景实例子任务应用反向交叉熵[30]一个主要的限制是，他们不能处理沉重的噪音标签。损失调整方法[23，5，14，1，26，34，29]通过调整所有训练样本的损失来减少噪声标签的负面影响。通常，当这些方法充分探索训练数据时，它们冒着错误校正的风险。其中，[34，29]是试图解决二进制分割上的噪声标签问题为了避免错误校正，样本选择方法[12，33，24，26，17]从噪声数据中选择真实标记的样本。然而，它们冒着丢弃可用样本的风险，并且需要真实的噪声率或完全干净的验证集。我们的方法是样本选择和损失校正的混合与其他样本选择方法不同，不需要噪声率与损失校正不同，我们不是校正所有样本，而是根据考虑到其局部相似区域，3. 问题描述我们定义的任务，多类点云的语义分割与噪声标签。形式上，我们将点云数据表示为N个点的XN×C，可能具有C个坐标和RGB值特征，其语义标签为Y，M为类号。我们的目标是训练一个对训练集中的标签噪声具有鲁棒性的模型fθ（X）我们观察到，虽然实例可能是错误的，我们很少遇到不正确的实例分区。例如，一张桌子可能被标记为沙发，但我们很少看到一张桌子被部分标记为沙发。这意味着我们的方法应该在实例级别纠正噪声然而，地面实况实例信息-聚类粒度在一定范围内，对聚类方法不敏感我们将聚类Ci中的点云及其标签表示为（XCi，YCi），1我k，并且k是簇的数量。4. 方法4.1. 产品线概述我们提出的方法的总体框架在图1中示出。2.我们的训练过程分为两个阶段，第二节介绍的热身阶段。4.2和在Sec. 4.3与次级4.4.我们首先以默认方式在所有样本上训练网络E个预热时期，其中E个预热时期表示该阶段的时期数量。预热阶段促使网络学习简单数据，这些数据在很大程度上是一致标记的正确数据。然后，我们用我们提出的噪声清理阶段进一步训练网络。其主要思想是基于网络预测的行为来识别潜在的噪声标签，并将所选择的数据标签更新为更可靠的标签。从观察到的地面真值标签是在实例级别上损坏的，我们鼓励以分组方式纠正数据标签我们建议首先将点云聚类成小块，然后逐块更新一个面片中的点云被设置为相同的语义标签。此外，我们通过投票策略预测每个簇的新标签。4.2. 热身根据对记忆效应的研究[3]，深度神经网络倾向于首先学习干净、容易的样本，然后逐渐学习其他有噪声的样本，即使存在噪声标签。因此，在预热阶段，我们不采用任何策略，并使用共同的交叉熵损失来训练网络。损耗预热的详细公式为：可能不可用，并且预测对象实例本身B M是一项具有挑战性的任务。损失=−1Σ Σq（m |X）log p（m|X），或者，我们创建一个基于聚类的噪声校正方法，其中每个聚类由一个局部补丁组成。预热B我i=1m =0我（一）点主要的假设是集群中的点被认为属于同一实例。该聚类可以用现成的聚类算法生成在实验中，我们主要使用DBSCAN [7]。DBSCAN是一种基于密度的聚类算法，与k-均值不同，它不需要指定数据中的聚类数DBSCAN 可以发现任意形状的簇，这一特性使得DBSCAN非常适合LiDAR点云数据。在实验中我们还尝试了另一种聚类方法GMM。在训练期间，我们在集群级别上校正标签。基于在Sec.5.6，我们证明了我们的方法对其中B是小批次内的样本数量，p （ m|X1 ）表示每个类别 m ， … ， M ，并且 q（mXi）0，1NXM是独热编码标签。预热阶段用容易学习的数据样本为网络供电。然而，如果在热身阶段用大量的epoch进行训练，网络将倾向于适应嘈杂的标签。令Eclean表示噪声清除阶段的时期数。值得注意的是，在训练的噪声清除我们观察到，被替换的标签和正确固定的标签的精度都增加了6446联系我们·预热Xt1tq.Σ图2.系统管道。在预热阶段，网络照常用CE更新。在噪声清除阶段，我们将输出排队到预测历史，并逐点执行置信度选择以获得可靠的标签。有了这些结果，我们在集群级别进行投票，然后纠正原始的噪声GT或先前清洁的GT。最后，所获得的清洁GT引导网络更新。随着训练步骤的进行，标签替换逐渐扩展，并且标签替换最终扩展到几乎整个训练集，如5.7中所分析的。此外，通过我们在5.6中对E预热的分析，过多的预热会导致模型拟合更多的噪声数据，这会影响噪声率较大时的性能。同时，最佳的E 预热设置- ting是不敏感的噪声率。在不同的噪声率下，我们可以推导出最佳Ewarm-up和Eclean之间的以下关系：在不知道噪声率的情况下采样。受Bootstrapping [23]的启发，我们开发了一种置信点选择方法，用于动态选择可靠的样本和目标标签，而无需显式的噪声率。不是使用预测的类概率来生成回归目标，而是基于历史预测设计了受SELFIE[26]详细地，具有一致预测标记的样品被认为是可靠样品，并且其最频繁预测的标记是可靠标记，如下所定义：1E预热=5E清洁.（二）定义1.若点xn的预测置信度F（xn;q）满足F（xn;q）≥σ（0≤σ≤4.3. 点级置信度选择在这一部分中，我们的目标是从每个小批量中选择可靠的样本，并获得这些样本的机密标签①的人。预测置信度定义为F（x; q）=（1/λ）熵（P（m |x; q））（3）其中λ=−log（1）是正态的归一化项。可以以高概率纠正的问题。以前的样本选择研究[26，12]采用[0，1]M. 我们表示样本广泛使用的基于损失的分离，其试图构建在时间t的点x为mt=fθt（x）。然后，标签历史记录通过选择（1-τ）×100%的低损耗实例来清理集合C存储前一个的预测标签的样本xq≤E乘以H（q）=m，的。 . . ，m，其中|在这些工作中已经实现，这样的方法面临两个关键问题。第一，不宜假设噪声率在3D点云上是可用的并且是恒定的。第二，它会排除倾向于产生q是历史长度。接下来，如在Eq. 4、P（mx; q）是标签m1，. . .，M估计为采样点x的标签。Σm∈Hx（q）[m=m]高损失，使得难以清洁的人难以参与在网络更新中。针对上述缺点P（m |x;q）=|Hx（四）（问）|基于损失的样本选择方法，而不是选择干净的样本，我们建议直接选择可靠的，其中[ ]是Iverson括号表示法。然后，我们将可靠样本的集合表示为X可靠。最后，我们定义其中τ是噪声率。虽然显著改善6447|≤≤NΣ·Σii*我们可以通过occstop找到最高产状i*i*γi*i*顶部{|}{|联系我们可靠标号为m*n，其中m*n=argmaxP（mxn;q）.M具体来说，我们的方法在三个重要方面不同于SELFIE。首先，我们的方法是噪声率盲的，以处理点云中的空间变化的噪声率问题。其次，我们的信心选择机制是点级别的，我们的标签校正过程是在集群级别的帮助下，一种新的投票策略，以考虑点标签之间的局部关系。注意，选择阶段中的可靠标签可能不是为校正过程赢得的标签最后但并非最不重要的是，我们的详细实现必须在计算上更加高效，以允许点级别的选择和集群级别的校正。4.4. 聚类级标签校正标签校正过程是在局部相似区域中选择性地用最佳可能标签替换标签。理想地，局部相似性区域由地面实况实例定义然而，由于实例标签在实践中可能不可用，因此我们使用集群作为替代方案。从每个群集Ci（1i k），如等式（1）中给出的。5，包含可靠样本的那些将被选择用于后续步骤中的标签校正。{Ci|xn：x n∈ Xreliable∧ x n∈ XCi}（5），其中n∈ {1，. . . ，N}。接下来，对于这些集群中的每一个e.G. Ci*，我们将用本地最佳标签替换标签YCi*目标标签可以通过提议投票找到根据集群内的总体标签出现情况来确定策略。我们用occm表示出现次数这些被交叉熵损失替换的标签，并且其标签从未被替换的样本不参与梯度计算。5. 实验5.1. 数据集和噪波设置为了证明我们提出的方法的有效性，我们在两个数据集 Scan-NetV 2 [6] 和 S3 DIS [2] 上进行了实验。ScanNetV2是一个流行的带有标签噪声的3D真实世界数据集。S3DIS是一种常用的场景数据集，具有更干净的标签，可以被视为干净的数据。在那里，我们可以人为地从S3DIS中构建具有各种噪声设置的噪声数据集。ScanNetV2。 ScanNetV2 3D分割数据集包含1，513个带注释的房间，总共包含 21 个语义元素。根据ScanNetV2的扫描注释流水线[6，25]，首先利用基于法线的图形切割图像分割方法[8]来获得基本的预分割。这些为对象实例提供了可靠的引用，然而，类标签在实践中可能会被不小心此外，由于房间被分配给不同的注释器，即使对于同一场景中具有不同放置的相同对象，也可以发现不一致的标签。这些观察结果与我们关于点云分割中的噪声模式的假设相匹配，即错误标记发生在对象实例级别。我们注意到，即使在其验证集中也存在噪声标签问题。由于这个问题在其他研究中从未被提及，因此我们手动校正ScanNetV2验证集中所有场景的此类噪声标签，以获得更准确的评估。请注意，我们没有对基准i**测试分裂，由于其未知的噪声率和不可用的-mn=m的可靠样本。occm=[m=mxn∈XC]记法S3DIS。 S3DIS包含6个房间中272个房间三栋建筑的大型室内场景，共12个场景。i*nn=1N我（六）tic元素实例标签是从手动注释的[20]中借用的。与ScannetV2相比，=[m*n=m][xn∈XCi*]n=1，其中[]是Iverson括号。然后，每个类别的出现被形成为向量occs i*=occ1，...，occ M，S3DIS数据集具有更少量的场景、更低的场景复杂度和更少的类别，并且在类别标签中出现的错误明显小于前者。因此，我们将S3DIS数据集视为完全干净的噪声率为0。Max奥奇斯湾获胜者标签是随机选择的1≤m≤Mi*顶部在对象实例级别修改点标签，引导从moccmOCC si*以覆盖该簇的标签。注意，在γ = 1的特殊情况下，该集群中的获胜者标签将来自顶部可靠标签mocc m=occs. 根据我们的消融研究，γ=4实现最佳性能。请注意，原始标签不得贴错标签或与获胜者标签不同。并且标签可以在训练过程期间被重复覆写。最后，我们使用以下内容我们的噪音模式假设。根据之前对含噪数据的图像分类的研究，我们用两种噪声类型对含噪数据集进行建模：对称和不对称。对于对称噪声，点标签被修改为在实例级具有相等概率的其他标签。另外，我们发现，在真实世界的嘈杂ScanNetV2中，一些类对很容易被错误地标记为彼此，例如门和墙，而一些类对则不会混淆，例如墙=我们从S3DIS随机生成一个噪声数据集6448××联系我们和书桌。在此基础上，我们创建了非对称噪声S3DIS数据集，模仿现实世界中的方式。特别地，我们识别了容易被误分类的标签对，包括门-墙、板-窗、沙发-椅子，并以概率τpair随机翻转每个标签对中的标签。要注意的是，我们的设置是从图像噪声标签以前的工作不同在只有12个语义类的点云数据上，为所有的类定义一个易混淆的类是不合适的，也是不现实的。因此，对于没有对的类，我们遵循对称噪声设置，以实现总噪声率τ的指定值。我们将在补充文件中显示结果，然后在以前的作品中对图像进行非对称噪声设置。5.2. 实现细节在本研究中，如果没有特别说明，则使用DBSCAN算法进行点云分割，其中ε=0。018.对于真实世界噪声数据集ScanNetV2和人工创建的噪声数据集S3DIS，房间场景被划分为大小为1的房间块。0米和步幅0的情况。5米。我们为每个房间随机抽取4096个点在训练过程中。我们报告的结果总体准确度（OA）和平均交集超过并集（mIoU），其中 DGCNN [31] ， Pointnet 2 [22] 和 SparseC-onvNet[11]作为骨干。在没有特殊符号的情况下，所有实验都以DGCNN作为骨架进行。对于对称噪声，我们对噪声率τ进行了实验20%，40%，60%，80%。对于非对称噪声，我们在大噪声率τ=60%，τ对=40%上进行测试。S3DIS上的所有结果均在清洁的第6区域上进行测试。我们总共训练了30个epoch，包括热身阶段和干净噪音阶段。历史长度设置为4。5.3. 基线请注意，我们是第一个处理点云分割上的噪声标签。我们尽最大努力适应以前的作品，并创建以下基线：[35][36][37][38][39][3前三种方法可以自然地应用于点云分割作为点级指导。为了采用SELFIE，我们逐点应用图像级SELFIE的原始实现。我们通过实验发现最佳预热阈值为5. 其他设置与其论文中的设置相同。5.4. S3DIS的性能比较表.图1示出了在不同骨干、噪声速率和噪声类型下的基线和PNAL的性能。前五行示出了具有 DGCNN 骨干的结果。在DGCNN+CE的情况下，与干净训练数据的结果相比，其性能在20%噪声率下迅速下降11.86%，在60%对称噪声率下下降23%。这表明标签噪声严重损害了训练过程。我们观察到以前的噪声鲁棒方法SCE和GCE在0%和2 0%噪声率下的性能与CE相比无明显差异，在6 0%对称噪声率下的性能仅提高1.19%和5.77%。在对称噪声率为60%的情况下，噪声校正方法SELFIE使性能提高了13.35%。这些都是预期的，因为这些方法适用于小的或恒定的噪声率，而点云训练受到极端噪声率变化的影响而且它们没有考虑局部区域的标签相关性，因此很难达到最优的效果。与DGCNN+SELFIE框架相比，DGCNN+PNAL在所有噪声设置下显示出超过4.11%的进一步改进值得注意的是，SELFIE需要噪声率，平均每个epoch需要10多个小时，而DGCNN+PNAL只需要3小时51分钟。这要归功于噪声盲管道，以及考虑到局部区域标签相关性的投票设计。此外，我们的方法显著提高了10.63%，16.46%，18.46%，25.91%，23.34%分别在20%、40%、60%、80%对称噪声和非对称噪声下。相应地，我们的性能提高了13.77%、14.75%、22.17%、25.04%和25.54%PointNet2作为主干，如最后两行所示5.5. ScanNetV2上的性能表2显示了使用SparseConvNet [11]作为骨干网络的ScanNetV2验证集虽然我们的方法的结果没有显示出很大的优势，我们认为这是由于ScanNetV2的验证集中仍然存在错误标记因此，我们在图中示出了来自验证集的一些示例。4，其中我们得到更合理的结果比基线方法，甚至比GT。为了进行更严格的比较，我们进一步测试了前面提到的完全重新标记的清洁验证数据，并在表2中报告了结果。我们的方法实现了显着的性能增益，这表明我们的方法对现实世界的噪声数据集的有效性。相比之下，基线SparseConvNet的性能下降，表明其标签噪声的过拟合，这会影响完全干净数据的性能。5.6. 消融研究组件消融研究。表中的所有结果。3个在60%对称噪声上。第一列报告具有GT实例而不是用于标签校正的聚类的PNAL的结果，其表示我们的结果的上限。与之相比，最后一列中基于集群的结果只有很小的下降，这可以说明使用集群作为GT实例标签的替代品的可行性。在第二列中，我们省略了聚类级别的投票步骤，并逐点执行标签校正，而不考虑附近点之间的标签一致性。结果显示2。减少25%，恶魔-6449百分之二十百分之四十百分之六十百分之八十τ对= 40%，τ= 60%DGCNN[31]+CE0.86920.75060.67320.63900.50600.5634[31]第30话：我的世界0.77680.75240.72300.65090.57050.7084[35]第三十一话：0.70670.70030.69970.69670.68800.6614[26]第26话0.86730.81580.79140.77250.71630.7500DGCNN[31]+PNAL0.86860.85690.83780.82360.76510.7968[22]第二十二话0.88980.70080.67960.58500.52040.5648[22]第二十二话0.88520.83850.82710.80670.77080.8202表1.OA不同方法在人为制造的噪声S3DIS上的比较具有不同骨架的顶部以粗体示出楼板天花板墙梁柱窗门桌椅板书柜其他输入场景GT标签DGCNN+CE DGCNN+PNAL图3.从左到右：S3DIS测试集中的场景，干净的GT，DGCNN+CE和DGCNN+PNAL的预测方法真实世界噪声ScanNetV2我们重新标记的ScanNetV2SparseConvNet[11]SparseConvNet +PNAL0.7250 0.8928 0.71030.88072009年12月31日表2.真实世界噪声Scan-NetV 2验证集和我们的重新标记的ScanNetV 2验证集上的mIoU和OA比较度量GT例如无投票γ=1γ =2q =8DGCNN+PNALOA0.82870.80110.8110 0.8209 0.77040.8236表3. 60%对称噪声S3DIS数据集上的OA比较证明了我们提出的集群级标签校正的有效性在第三和第四列中，我们尝试不同的γ值，其中γ=1是最贪婪的情况，即，获胜者标签是最可靠的标签。我们没有观察到不同γ值的显著性能下降，这意味着我们的方法对γ的选择不敏感。我们在设置中使用γ=4。在第五列中，我们将历史长度q调整为8，注意由于q的约束，E预热也增加到8。我们可以观察到性能的显著下降更多的分析将在下一段中给出。E预热的稳健性。表4报告了我们表4.PNAL在不同E预热和噪声率下的OA。在不同噪声率（20%，40%，60%）的对称噪声下，在不同E 预热下的我们的性能是最佳的和强大的，与E 热身=5，因为我们建议，对所有的噪声率，表明E热身是不敏感的噪声率的变化。噪声率越大，如果E预热增加，则可以观察到的性能下降越大。我们可以得出结论，E预热越大，网络适合的噪声数据就越多，这可能会使噪声率较大的数据难以清除噪声将第二行中的结果与Tab中3，我们发现，虽然增加的历史长度带来的性能下降，这主要是来自增加的E预热的效果。对聚类方法和粒度的鲁棒性。在表5中，前三列报告了不同聚类粒度下的PNAL结果（ε为0. 015，0。018，0.021），最后两列报告天花表列天花地板椅子地板天花板柱其他地板桌子墙椅子书架壁柱地板天花板其他天花其他表板窗口天花板其他表地板门地板方法0%的百分比对称噪声（τ）非对称噪声噪声率τ百分之二十百分之四十百分之六十E预热= 8E预热= 110.84220.83430.82470.80090.78510.78126450输入场景GT标签[11]+PNAL画幕墙门床椅沙发桌内阁橱窗书架办公桌其他家具图4.从左至右：ScanNetV2验证集中的场景、ScanNetV2给出的GT标签、[11]的预测和[11]+PNAL的预测。我们的标签比GT标签更合理。图5.在60%对称噪声S3DIS上的时期5、15和29中的校正标签的比较。从左到右是具有RGB的输入点云、对应的噪声标签、时期5、15和29中的标签校正以及地面实况标签。聚类DBSCAN DBSCAN DBSCANGMM谱方法ε=0.015ε =0.018ε =0.0210.82060.82360.81590.8178 0.8162表5.我们的方法在不同的聚类和不同的聚类方法。我们的结果在其他类型的聚类（GMM，光谱）。结果表明，我们的方法在一定范围内的聚类粒度是鲁棒的，并且对所使用的聚类方法不敏感。5.7. 校正过程分析图5示出了在训练期间通过PNAL的标签校正过程的可视化。我们可以发现，随着训练的进行，训练集中的整体标记错误趋于减少，并逐渐接近干净的通常，标记具有大面积的错误（例如，地板、墙壁、天花板）首先被校正。随着训练的进行，PNAL逐渐探索整个数据集，并尝试纠正困难和小的对象。如图所示6，具有替换标签的点的百分比从0增加。936比0 992，而正确校正点的百分比接近0。8，然后逐渐增加到0。865 它还表明，随着训练的进行，PNAL校正过程扩展到整个训练集。请注意，我们考虑了更正为原始标签的情况。图6.具有替换标签的点的百分比（表示为校正）和正确校正的点的百分比（表示为真校正）。6. 结论在这项研究中，我们提出了PNAL，一个新的点云分割框架，以应付新的点云标记噪声问题。与现有的图像分类方法不同，PNAL是噪声率盲的，以应对点云中独特的噪声率变化问题。我们提出了逐点置信度选择，聚类标签校正和投票策略，以产生最好的标签，考虑到当地相似点的相关标签。此外，我们重新标记了一个流行的，但嘈杂的真实世界场景点云数据集的验证集，使其干净，严格的实验和未来的研究。实验结果表明，我们的方法的有效性和鲁棒性的真实世界的噪声数据和人为制造的噪声的公共数据。鸣谢：我们要感谢林嘉颖的慷慨帮助。本工作得到了国家自然科学基金U20B2047和深圳市基础研究总体项目JCYJ20190814112007258的资助。内阁其他书桌书桌书桌桌柜内阁壁围墙墙照片图片书架内阁床床床6451引用[1] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。无监督标签噪声建模和损失校正。在国际机器学习会议，2019年6月。[2] 放大图片创作者：Iro Armeni，Ozan Sener，Amir R.Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在2016年IEEE计算机视觉和模式识别[3] D ev anshArpit，Stanisła wJastrz ebski，NicolasBallas，Da vid Krueger，Emmanuel Bengio，Maxinder S Kanwal，Tegan Maharaj，Asja Fischer，Aaron Courville，YoshuaBengio，et al.深入研究深度网络中的记忆在机器学习国际会议上，第233- 239242. PMLR，2017年。[4] A. J. Bekker和J.戈德伯格基于不可靠标签训练深度神经网络。在2016年IEEE声学、语音和信号处理国际会议（ICASSP），第2682-2686页[5] Haw-Shiuan Chang ， Erik Learned-Miller ， and AndrewMc-Callum.有源偏置：通过强调高方差样本来训练更精确的神经网络。在重症盖永联合V. Luxburg，S. Bengio，H.瓦拉赫河Fergus，S.Vish-wanathan和R.Garnett，编者，《神经信息处理系统进展》，第30卷。Curran Associates，Inc. 2017年。[6] 戴安琪，天使X. Chang，Manolis Savva，Maciej Hal-ber ， Thomas Funkhouser ， and Matthias Nießner.Scannet：室内场景的丰富注释3D重建。在Proc.计算机视觉和模式识别（CVPR），IEEE，2017。[7] Martin Ester、Hans-Peter Kriegel、Jörg Sander和XiaoweiXu。基于密度的空间聚类的应用程序与噪声。在Int.Conf.Knowledge Discovery and Data Mining，第 240卷，第6页，1996中。[8] Pedro F Felzenszwalb和Daniel P Huttenlocher。高效的基于图的图像分割。国际计算机视觉杂志，59（2）：167[9] Aritra Ghosh，Himanshu Kumar和PS Sastry。标签噪声下深度神经网络的鲁棒损失函数在AAAI人工智能会议的论文集，第31卷，2017年。[10] Goldberger和E.本·鲁文使用噪声适应层训练深度神经网络。在ICLR，2017。[11] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。基于子流形稀疏卷积网络的三维语义分割。CVPR，2018年。[12] Bo Han，Quanming Yao，Xingrui Yu，Gang Niu，MiaoXu，Weihua Hu，Ivor W. Tsang和Masashi Sugiyama.合作教学：使用非常嘈杂的标签对深度神经网络进行鲁棒训练。在第32届神经信息处理系统国际会议论文集，NIPS'18 ，第8536-8546页，Red Hook， NY ，USA ，2018年。Curran Associates Inc.[13] 童禾、东宫、智天、神春华。学习和记忆3d点的典型原型云语义和实例分割。在Andrea Vedaldi，Horst Bischof，Thomas Brox和Jan-Michael Frahm，编辑，计算机视觉施普林格国际出版社.[14] Dan Hendrycks ， Mantas Mazeika ， Duncan Wilson 和Kevin Gimpel。使用可信数据在被严重噪声破坏的标签上训练深度网络。In S. Bengio，H. Wal-lach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编者，《神经信息处理系统进展》，第31卷。Curran Associates，Inc.2018年。[15] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集，第863-872页[16] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割在IEEE计算机视觉和模式识别会议上，第4558-4567页，2018年[17] Sheng Liu，Jonathan Niles-Weed，Narges Razavian，andCar- los Fernandez-Granda.早期学习正则化防止噪声标签的记忆。神经信息处理系统的进展，33，2020。[18] 杨龙荣、孟凡曼、李洪亮、吴清波、程启尚。使用噪声类标签学习实例分割。欧洲计算机视觉会议（ECCV），2020年。[19] Yueming Lyu和Ivor W.曾。课程损失：防标签损坏的防错学习和泛化。在第八届学习代表国际会议上，ICLR2020，埃塞俄比亚亚的斯亚贝巴，2020年4月26日至30日。OpenReview.net，2020年。[20] Quang-Hieu Pham 、 Duc Thanh Nguyen 、 Binh-SonHua、Gemma Roig和Sai-Kit Yeung。JSIS3D：3D点云与多任务逐点网络和多值条件随机场的联合语义实例分割。在IEEE计算机视觉和模式识别会议（CVPR）中，2019年。[21] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652[22] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.Point- net++：度量空间中点集上的深度层次特征学习。arXiv预印本arXiv：1706.02413，2017。[23] S. Reed，H. Lee，Dragomir Anguelov，Christian Szegedy，D. Erhan和Andrew Rabinovich。训练深神经带噪声标签的自举随机网络。ICLR，abs/1412.6596，2015.[24] Yanyao Shen和Sujay Sanghavi。通过迭代修剪损失最小化学习不良训练数据。在International Conference onMachine Learning，第5739-5748页中PMLR，2019年。[25] 智能场景smartscenes/sstk.[26] Hwanjun Song，Minseok Kim和Jae-Gil Lee。Selfie：重新整理不干净的样本，以实现强大的深度学习。国际机器学习会议，第5907- 5915页。PMLR，2019年。6452[27] Maxim Tatarchenko 、 Alexey Dosovitskiy 和 ThomasBrox。八叉树生成网络：用于高分辨率3d输出的高效卷积架构。在IEEE计算机视觉国际会议论文集，第2088-2096页[28] Tong Xiao ，Tian Xia ， Yi Yang ，Chang Huang， andXiaogang Wang.从大量带噪标记数据中学习图像分类。2015年IEEE计算机视觉和模式识别会议（CVPR），第2691-2699页[29] Guotai Wang ， Xinglong Liu ， Cha

下载后可阅读完整内容，剩余1页未读，立即下载