ReDAL：基于区域和多样性感知的点云语义分割

162 浏览量更新于2023-10-13 收藏 2.33MB PDF 举报

深度学习方法

主动学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15510ReDAL：基于区域和多样性感知的点云语义分割吴宗汉1刘岳成1†黄玉凯1†李欣颖1苏宏婷1黄炳嘉1黄文生。许1、21国立台湾大学2行动驱动科技摘要尽管深度学习在监督点云语义分割上取得了成功，但获得大规模逐点手动注释仍然是一项为了减少巨大的注释负担，我们提出了基于区域和多样性感知的主动学习（ReDAL），这是许多深度学习方法的通用框架，旨在自动选择仅用于标签获取的信息和多样的子场景区域。由于只有一小部分注释区域足以用于深度学习的3D场景理解，我们使用softmax熵，颜色不连续性和结构复杂度来测量子场景区域的信息一个多样性感知的选择算法也被开发，以避免冗余的注释选择informative的，但在一个查询批次相似的地区。大量的实验表明，我们的方法大大优于以前的主动学习策略，我们实现了90%的全监督学习的性能，而在S3 DIS和Se- manticKITTI数据集上分别需要不到15%和5%的注释。1. 介绍点云语义分割对于室内机器人和自动驾驶等各种新兴应用至关重要。许多监督方法[19，20，30，27，6，26]以及最近提供的几个大规模数据集[1，7，10，5]，并取得了巨大的进展。尽管最近的深度学习方法在大规模数据集的帮助下取得了巨大的成功，但获得大规模逐点标记的数据集仍然是昂贵且具有挑战性的。具体而言，统计数据显示，在房间大小的点云场景中会有超过100，000个点[1，5]。此外，3D逐点数据的注释过程比3D逐点数据的注释过程复杂得多。†共同第二作者贡献相等。图1. 人类标记不同学习策略的努力（彩色区域）。（a）在监督训练或传统的深度主动学习中，需要对单个点云中的所有点进行标记，这是劳动密集型的。（b）由于很少区域有助于模型改进，因此我们的基于区域的主动学习策略仅选择信息区域的一小部分用于标签获取。与情况（a）相比，我们的方法大大降低了墙壁和地板的语义标记的成本。(c)此外，考虑到在同一查询批次中重复视觉相似区域的冗余标记，我们开发了多样性感知选择算法以进一步减少冗余标记（例如，在（b）和（c）中用绿色着色的天花板）。2D数据。与简单地选择闭合多边形以在2D图像中形成语义注释不同[22]，在3D逐点标记中，注释者被要求在注释过程中从不同的视点执行多个2D注释因此，如此多的点和复杂的注释过程显著增加了手动逐点标记的时间和成本。为了减轻大规模点云数据集中手动逐点标记的巨大负担，一些先前的工作已经尝试减少标记的点云扫描的总数[14]或降低一个或多个点内的注释密度。15511图2. 并非所有注释区域都有助于模型的改进。该玩具实验比较了S3 DIS [1]数据集上完全标记（a）和部分（b，w/o floor）标记扫描的性能贡献。具体地，训练数据集在开始时仅包含4个完全标记的点云扫描然后在每次后续迭代中将另外4个完全或部分标记的扫描添加到数据集中如（c）所示，与使用所有标签（实线）相比，删除地板标签（虚线）导致所有类别（包括地板（蓝色），椅子（红色）和书架（绿色））的性能相似。此外，（d）证明通过简单地移除地板标签，节省了12%的点注释（在20次扫描时，21.7M因此，这表明并非所有注释区域都有助于模型的改进，并且我们可以通过选择关键区域进行注释来节省注释成本，单点云扫描[34]。然而，他们忽略了点云扫描中的区域可能对性能的贡献不相等。如从图2中可以观察到的，对于深度学习模型，仅需要4个标记的点云扫描就可以达到0以上。9IoU在大型统一物体上，例如地板。然而，需要20个标记扫描来实现0的情况。5小物品或具有复杂形状和颜色的物体上的IoU，如椅子和书柜。因此，我们认为，一个有效的点选择是必不可少的，以降低注释成本，同时保持模型的性能。在这项工作中，我们提出了一种新的基于区域和多样性感知的主动学习（ReDAL）框架，适用于许多深度学习网络架构。通过从巨大的未标记数据集中主动选择数据用于标记获取，仅需要标记信息丰富且多样的子场景区域的一小部分为了找出标签采集的信息量最大的区域，我们利用软最大熵、颜色不连续性和结构复杂性这三个术语的组合来计算每个区域的信息得分。软最大熵是一种广泛使用的测量模型不确定性的方法，并且点云中具有大色差或复杂结构的区域提供更多信息，因为语义标签在这些区域中通常不平滑。如图1（a，b）的比较所示，基于区域的主动选择策略显著减少了原始全场景标记的注释工作。此外，为了避免在查询批次中由多个单独信息但重复的数据导致的冗余注释，这是深度主动学习中的常见问题，我们开发了一种新的多样性感知选择算法，该算法同时考虑区域信息和多样性。在我们提出的方法中，我们首先提取所有区域从图1（b，c）的比较可以看出，我们的基于区域和多样性感知的选择策略可以避免查询相似区域的标签，并进一步减少手动标记的工作。实验结果表明，我们提出的方法显着优于现有的深度主动学习方法在室内和室外数据集与各种网络架构。在S3 DIS [1]和Se- manticKITTI [5]数据集上，我们提出的方法可以实现90%的全监督学习性能，而不到15%，需要5%的注释。我们的消融研究也验证了我们提出的方法中每个组件的有效性。总之，我们的贡献突出如下：• 我们为利用区域分割作为基本查询单元的3D深度主动学习铺平了新的道路。• 我们设计了一种新的多样性感知的主动选择方法，以有效地避免冗余的注释。• 实验结果表明，我们的方法可以极大地减少人类在不同的最先进的深度学习网络和数据集上的注释工作，并且优于现有的深度主动学习方法。2. 相关工作2.1. 少标注数据在过去的十年中，已经提出了许多有监督的点云语义分割方法[13，19，20，30，27，6，3，15，26]。然而，尽管监督学习算法的不断发展以及在大场景中收集3D点云数据的简单性，但获得手动逐点标记的成本仍然很高。因此，许多研究人员开始研究如何用更少的标记数据实现类似的性能。15512有些人试图将迁移学习应用于这项任务。Wu等[33]开发了一种无监督的域自适应方法，使模型在现实世界的情况下表现良好然而，他们的方法只能应用于单一的网络架构[32]而不是一般框架。其他一些应用弱监督学习来降低标记成本。[34]利用梯度近似以及空间和颜色平滑度约束，以利用少量标记的分散点进行训练。但是，这种操作并不能节省太多的成本，因为注释器在标记分散的点时仍然必须切换视点或放大和缩小整个场景。此外，[31]设计了一个多路径区域挖掘模块来帮助分类模型学习局部线索并在子云级别生成伪逐点标签，但与全监督结果相比，它们的性能还有一些人利用主动学习来减轻注释负担。[16]设计了一种主动学习的方法来减少基于CRF的语义标注的工作量。然而，由于两个原因，他们的方法不能应用于当前的大规模数据集。首先，该算法高度依赖于过分割预处理的结果，并且该算法不能在当前真实世界数据集的日益复杂的场景中完美地切割出具有高纯度的小块。其次，成对CRF的计算量非常高，因此不适合大规模数据集。除了上述实践之外，[14]还提出了分段熵来衡量深度主动学习管道中单点云扫描据我们所知，我们是第一个为许多深度学习模型设计基于区域的主动学习框架此外，我们的想法，减少冗余的注释，通过多样性意识的选择是到- tally不同于以前的工作。2.2. 深度主动学习充足的标记训练数据对于监督式深度学习模型至关重要，但手动标注的成本往往很高。主动学习[24]旨在通过选择最有价值的数据进行标签采集来降低标签成本。[28]提出了关于深度学习的第一个主动学习框架，其中在每个主动选择中查询一批项目，而不是传统主动学习中的单个样本，以用于加速。过去的几种深度主动学习实践都是基于模型的不确定性。[28]是第一个将最小置信度，最小边缘[21]和最大熵[25]应用于深度主动学习的工作。[29]在主动学习中引入半监督机制，为确定性最高的实例分配伪标签。[8，9]将baidu主动学习与深度学习相结合，通过MC-Dropout估计模型不确定性。除了模型不确定性之外，许多最近的深度主动学习工作还考虑了批处理数据的多样性[23，12，2]指出，忽略数据相关性将导致类似的项出现在同一查询批次中，这进一步导致低效的训练。[23]将批次选择转换为核心集构建问题，以确保标记数据的多样性;[12，2]试图同时考虑模型不确定性和数据多样性从经验上看，不确定性和多样性是主动学习的两个关键指标。[11]是一种混合方法，通过在每个主动选择步骤中动态地选择最佳查询策略来享受两者的益处。据我们所知，我们设计了第一个结合不确定性，多样性和点云领域知识的3D深度主动学习框架3. 方法在本节中，我们将详细描述我们的基于区域和多样性感知的主动学习管道最初，我们有一个3D点云数据集D，它可以分为两部分。一个是包含具有完整注释的随机选择的点云扫描的子集DL，另一个是没有任何注释的大的未标记集合DU在传统的深度主动学习中，网络最初在监督下在当前标记集DL然后，根据一定的策略从未标记集合DU中选择一批数据进行标记获取最后，将新标记的数据从DU移动到DL;然后，返回到步骤一以重新训练或微调网络并重复循环，直到注释的预算耗尽。3.1. 概述我们使用一个子场景区域作为基本的查询单元，在我们提出的ReDAL方法。在传统的深度主动学习中，标签查询的最小单位是样本，在我们的任务中是整个点云扫描。然而，根据图2所示的先前实验，我们知道一些标记区域可能对模型改进贡献不大因此，我们改变了标签查询的基本单位，从一个点云扫描到一个子场景区域的扫描。而不是使用模型的不确定性作为唯一的标准，以确定在2D主动学习的选择常见的，我们利用领域知识从3D计算机视觉，并包括两个信息线索，颜色不连续性和结构复杂性，在选择指标。此外，为了避免在一个查询批次中多个重复区域所造成的冗余标记，我们设计了一个简单而有效的多样性感知选择策略来缓解问题并提高性能。我们基于区域和多样性的主动学习可以分为4个步骤：（1）在当前标记的数据集上训练15513| |nk·|R n|我J 1图3.基于区域和多样性意识的主动学习管道。在所提出的框架中，点云语义分割模型首先在具有标记的数据集DL的监督下训练。然后，该模型从未标记的数据集DU中产生所有区域的softmax熵和特征。(a)Softmax熵以及从未标记区域计算的颜色不连续性和结构复杂性用作选择指示符（Sec. 3.2），以及（b）生成分数，然后通过惩罚属于由所提取的特征分组的相同聚类的区域来调整分数（第3.2节）。3.3）。（c）排名靠前的区域由注释器标记并添加到标记的数据集DL以用于下一阶段（第二节）。第3.4段）。以监督的方式。(2)使用三个指标计算每个区域的区域信息得分φ：软最大熵、结构复杂度和颜色不连续性，如图3（a）所示（第3.2）。(3)通过测量所有区域之间的相似性并使用贪婪算法惩罚出现在查询批次中的相似区域来执行多样性感知选择，如图3所示(b)（第二节）3.3）。（4）选择用于标记采集的前K个区域，并将它们从未标记的数据集DU移动到当前标记的数据集DL 中，如图3 （c ）所示（第2节）。第3.4段）。3.2.1Softmax熵Softmax熵是一种广泛用于测量主动学习中的不确定性的方法[28，29]。我们首先利用在先前主动学习阶段中训练的模型获得未标记集合DU中的所有点云扫描的softmax概率然后，给定点云扫描的softmax概率P，我们通过对属于区域Rn的点的熵进行平均来计算第n个区域Rn的区域熵Hn，如等式（1）所示。1.一、3.2. 区域信息估计1Hn=Σ−PilogPi（一）我们使用VCCS [17]算法将大规模点云扫描划分为一些子场景区域作为基本标签查询单元，VCCS [17]算法是一种将相似点分组到区域中的无监督过分割方法。该算法的初衷是将点云分割成多个分割纯度高的小区域，以减少概率统计模型的计算量。与原始的高纯度要求不同，我们的方法只是利用该算法将扫描划分为中值大小的子场景，以便更好地注释和学习。一个理想的子场景由几个但不复杂的语义，同时保持点云的几何结构。在每个主动选择步骤中，我们从三个方面计算区域的信息得分：（1）softmax熵，（2）颜色不连续性，以及（3）结构复杂性，其详细描述如下。|i∈Rn|i∈Rn3.2.2颜色不连续性在3D计算机视觉中，颜色差异也是重要的线索，因为具有大颜色差异的区域更可能指示语义不连续性。因此，它也被包括作为衡量区域信息的指标。对于具有颜色强度值I的给定点云中的所有点，我们计算点i与其k-最近邻居di（di=k）之间的1-范数色差。然后，我们通过对属于区域Rn的点的值求平均来产生第η个区域Rn的区域颜色不连续性分数Cn，如等式（1）所示。二、C=1Σ Σ||I− I||（二）i∈Rnj∈di15514×∈n···图4. 我们的方法不仅能够在同一点云（a）中找到视觉上相似的区域，而且能够在不同的点云（b）中找到视觉上相似的区域。红色区域是礼堂的天花板（a）和门旁边的墙壁（b）。这些区域如果出现在相同的查询批次中，则可能导致冗余的标记工作，因此它们被我们的多样性感知选择过滤（第二节）。3.3.1）。3.2.3结构复杂性我们还包括结构复杂性作为指标，因为复杂的表面区域，边界的地方，或点云中的角落更有可能表示语义不连续性。对于给定点云中的所有点，我们首先基于[4，18]计算表面变化σ。然后，我们通过对属于区域Rn的点的表面变化进行平均来计算第n个区域Rn的区域结构复杂度得分Sn，如等式（1）所示。3.第三章。3.3.1区域相似性度量我们在特征空间中测量区域之间的相似性，而不是直接在点云数据上，因为每个区域的规模，形状和颜色是完全不同的。给定具有Z点的点云扫描，我们在最终分类层之前将输出记录为具有形状Z C的点特征。然后，我们通过计算属于同一区域的点的点特征的平均值来产生区域特征。最后，我们收集所有的点云区域，并使用k-均值算法对这些区域特征进行聚类。上述过程可以在图3（b）的中间看到。在对区域进行聚类后，我们将属于同一聚类的区域视为相似区域。图4中示出了示例。3.3.2相似区域惩罚为了选择不同的区域，贪婪算法将信息得分的排序列表作为输入，并且通过惩罚属于包含具有较高得分的区域的相同聚类的具有较低得分的区域来对所有区域重新评分。图3（b）右侧的表格提供了一个示例，其中算法逐个循环所有区域。与当前区域属于同一聚类的区域的得分将乘以衰减1Sn= |Rn|Σσi（三）速率η。具体地说，表的左侧表示区域的聚类索引，i∈Rn表示分数φn区域Rn与nk次惩罚在计算每个区域的softmax熵、颜色不连续性和结构复杂度之后，我们将这些项线性组合以形成第n个区域Rn的区域信息得分φn，如等式（1）所示。4.第一章第φk下的黄色圆圈表示每次迭代中要比较的当前区域，圆角矩形标记属于与当前区域相同的聚类的区域。在第一次迭代中，ΦΝ被惩罚，因为RΝ和R°属于由蓝点表示的相同聚类RN替换为φ1以标记第一次衰减。在第三个itera-φn=αHn+βCn+γSn（4）作用，φ4N和φ5都被惩罚为R3，R4 和r5属于最后，我们根据降序排列所有区域到用绿点表示的同一个集群。他们的分数是用φ1和φ1代替。同样的逻辑也适用于在区域信息得分和产生一个排序在-4 5*形成列表φ =（φ1，φ2，…，φ N）。上述过程在图3（a）中示出。3.3. 多样性感知选择利用排序的区域信息列表Φ，一种简单的方式是直接选择排名最高的区域用于标签获取。然而，该策略导致多个视觉上相似的区域在同一批次中，如图4所示。这些区域虽然单独提供信息，但为模型提供的信息较少。为了避免视觉上相似的区域出现在查询批次中，我们设计了一个多样性感知的选择算法，分为两个部分：（1）区域相似性度量和（2）相似区域惩罚。其他迭代。然后我们得到调整后的分数φN用于标签采集。请注意，在我们的实现中，算法 1，我们惩罚对应的重要性权重W，其对于所有M个集群被初始化为1，而不是直接惩罚效率的分数。准确地说，在每次迭代中，我们通过乘以其集群的重要性权重来调整飞行员的得分。然后，将集群的重要性权重乘以衰减率η。3.4. 区域标签采集在通过考虑区域多样性得到最终得分φ*之后，我们根据φ*以递减顺序将区域选择到查询批次中用于标签获取，直到这一轮的bud- get耗尽。请注意，在每个标签ac-15515∈算法一：相似区域惩罚输入：原始分类信息得分φRN和对应的M-聚类区域标签L∈RN;聚类重要性权重W∈RM和衰变率η输出：最终区域信息得分初始化：W m←1 1≤m≤M;对于i←1到N，做φ*i←φi·WLi;WLi←WLi·η;端回线φ在获取步骤中，我们将预算设置为固定数量的总点数，而不是固定数量的区域，用于公平比较，因为每个区域包含不同数量的点数。对于实验，在选择查询批量数据之后，我们将地面实况区域注释视为从人类注释器获得的标记数据。然后，将这些区域从未标记的集合DU移动到标记的集合DL。注意，与100%完全标记的初始训练点云扫描不同，由于我们将区域视为基本标记单元，因此许多仅具有小部分标记区域的点云扫描被附加到标记数据集DL在每个主动选择步骤中，如图3（c）所示。完成包含区域的活动选择步骤在使用了形成估计、多样性感知选择和区域标记获取之后，我们重复主动学习循环以在更新的标记数据集D1上微调网络。4. 实验4.1. 实验设置为了验证我们提出的主动选择策略的有效性和普适性，我们在两个不同的大规模数据集和两种不同的网络架构上进行了实验。由于篇幅有限，在补充材料中解释了实施细节。数据集。我们使用S3DIS [1]和SemanticKITTI [5]分别作为室内和室外场景的代表。S3DIS是一种常用的室内场景分割数据集。该数据集可分为6个大区域，共有271个房间。每个房间都有一个对应的密集点云，其中包含颜色和位置信息。我们评估了所有标签采集策略在Area5验证集上的性能，并对其余数据集进行主动SemanticKITTI是一个大规模的自动驾驶数据集，包含来自22个序列的43552个点云扫描。每个点云扫描都由LiDAR传感器捕获，只有位置信息。我们评估-评估所有标签获取策略在官方验证分割（seq 08）上的性能，并对整个官方训练分割（seq 00 - 07和09 - 10）执行主动学习。网络架构。为了验证各种深度学习网络上的主动策略，我们使用基于稀疏卷积的MinkowskiNet [6]和基于点体素CNN的SPVCNN [26]，这要归功于在大规模点云数据集上具有高推理速度的出色性能。主动学习协议。对于所有实验，我们首先从整个训练数据中随机选择完全标记的点云扫描的一小部分（X init %）作为初始标记数据集D L，并将其余部分作为未标记集D U。然后，我们执行K轮以下操作：(1)以监督的方式在DL上训练深度学习模型。(2)根据不同的主动选择策略，从DU中选择一小部分（x主动(3)将新标记的数据添加到DL中并微调深度学习模型。对于S3 DIS数据集，我们选择xinit=3%，K=7，xactive=2%;对于SemanticKITTI数据集，我们选择xinit=1%，K=5，xactive=1%为了确保实验结果的可靠性，我们进行了三次实验，并记录每个设置的平均值4.2. 不同主动选择策略的比较。我们将我们提出的方法与其他7种主动选择策略进行比较，包括随机点云扫描选择（RAND），softmax置信度（CONF）[28]，softmax边缘（MAR）[28]，softmax熵（ENT）[28]，MC- dropout（MCDR）[8，9]，核心集方法（核心集）[23]和片段熵（SEGENT）[14]。实施细节在补充材料中解释。实验结果可见于图5中。在每个子图中，x轴表示标记点的百分比，y轴表示网络实现的mIoU我们提出的ReDAL显着超过任何组合下的其他此外，我们观察到随机选择（RAND）优于任何其他主动学习方法，除了我们的四个实验。对于基于不确定性的方法，例如ENT和MCDR，由于模型不确定性值由背景区域主导，因此性能不如预期。同样，对于纯多样性方法，例如CSET，由于全局特征由背景区域主导，因此简单地聚类全局特征不能产生多样性标签获取。实验结果进一步验证了我们提出的将基本查询单元由扫描改为区域的建议是一个更好的选择。在S3DIS [1]数据集上，我们提出的主动选择策略可以实现超过55%的mIoU和15%的la。15516图5. 不同主动学习策略在2个数据集和2个网络架构上的实验结果。我们比较我们的基于区域和多样性的主动选择策略与其他现有的基线。很明显，我们提出的方法优于任何现有的主动选择方法在任何组合。此外，我们的方法能够在S3DIS [1]和SemanticKITTI [5]数据集上分别仅用15%，5%的标记点达到90%的完全监督结果。方法道路人自行车自行车兰德2060.420.150.10充分2050.350.170.13ReDAL1681.200.250.21表1.Se-manticKITTI 上的 IoU 性能（ % ）结果[5]。在只有5%的注释点下，我们提出的ReDAL优于随机选择，并与完全监督（Full）相当。在相同的条件下，其他人不能达到50%mIoU。如此大的性能差距的主要原因是数据集中的这些房间大小的点云数据非常不同。与其他主动选择方法查询一批点云扫描相比，我们基于区域的标签获取使模型可以在更多样化的标记数据上训练对于SemanticKITTI [5]，我们发现仅用不到5%的标记数据，我们的主动学习策略就可以达到完全监督方法的90%的结果。在MinkowskiNet的网络架构下，我们的主动选择策略甚至可以达到95%的完全监督结果，只有4%的标记点。此外，在表1中，一些小的或复杂的类对象（如自行车和骑自行车的人）的性能甚至比完全监督的对象更好。表2显示了我们选择的算法更关注那些小的或复杂的对象的原因。换句话说，我们的ReDAL不浪费注释预算在简单的情况下，如统一的表面，这再次实现了在介绍中的观察和此外，我们的ReDAL选择策略使其更友好的现实世界的应用程序，如自动驾驶，因为它把更多的重点放在重要和有价值的语义。表2. 标记类分布比（‰）。在有限的注释预算下，我们的主动方法ReDAL在像人这样的小对象上查询更多的标签，而在像道路这样的大的均匀区域上查询较少。该选择策略可以减轻标签不平衡问题，并改善更复杂的对象场景上的性能，而不会对大面积造成太大伤害，如表1所示4.3. 消融研究我们在S3DIS数据集上验证了我们提出的主动选择策略中所有组件的有效性结果示于图8中。首先，如从紫线（ENT）、黄线（ENT+Region）和浅蓝线（RAND+Region）的比较所示，将标记单位从扫描改变为区域对改善贡献最大。通过应用基于区域的选择，mIoU性能在两个网络下提高超过10%。此外，我们的多样性意识选择也发挥了关键作用，在主动选择过程中所示的黄线（ENT+区域）和绿线（ENT+区域+Div）的比较。在没有该组件的帮助下，基于区域的熵的性能甚至低于SPVCNN网络架构下的随机区域选择，如从黄线（ENT+区域）和浅蓝线（RAND+区域）的比较所示至于添加颜色不连续性和结构复杂性的额外信息，它对SPVCNN贡献不大，但当标记点的百分比大于9%时，如绿线（w/o颜色和结构）和红线（w/颜色和结构）的比较所示，对MinkowskiNet有帮助。方法avg路人自行车自行车兰德54.790.252.09.547.7充分61.493.565.020.378.4ReDAL59.891.563.429.584.115517图6. 使用SPVCNN网络架构对S3DIS数据集的推理结果进行可视化。我们展示了S3DIS Area 5验证集上的一些推理示例。通过我们的主动学习策略，模型可以产生清晰的边界（显示在第一行的黄色边界框上），并识别小物体，如木板和椅子（显示在第二行的黄色边界框上），只有15%的标记点。图7. 使用MinkowskiNet网络架构对SemanticKITTI数据集的推理结果进行可视化。我们展示了SemanticKITTI序列08验证集上的一些推理示例。通过我们的主动学习策略，该模型可以正确识别小型车辆（显示在第一行的红色边界框上），并识别人行道上的人（显示在第二行的红色边界框上），只有5%的标记点。图8. 消融研究。最佳组合是将标记单元从扫描更改为区域（+区域），应用多样性感知选择（+Div）和附加区域信息（+颜色/结构）。最好用彩色观看。（第二节）4.3）请注意，“ENT+区域”（黄线）的性能原因是没有我们的多样性模块，所选的查询批次仍然充满了重复的区域。实验结果也验证了该算法的重要性.5. 结论我们提出了ReDAL，一个基于区域和多样性的主动学习框架，点云语义分割。主动选择策略考虑区域信息和多样性，将标记工作集中在最具信息性和独特性的区域而不是完整的场景上。这种方法可以应用于许多深度学习网络架构和数据集，大大降低了注释成本，并且大大优于现有的主动学习策略。确认这项工作得到了台湾科技部的部分支持，资助号为MOST 110- 2634-F-002-026 ，移动驱动技术（ FIHMobile Limited）和工业技术研究院（ITRI）。我们受益于NVIDIA DGX-1人工智能超级计算机，并感谢国家高性能计算中心。15518引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页[2] JordanTAsh，ChichengZhang，AkshayKrishnamurthy，John Langford，and Alekh Agarwal.通过不同的、不确定的梯度下限进行深度批量主动在ICLR，2020年。[3] Matan Atzmon，Haggai Maron，and Yaron Lipman.基于扩展算子的点卷积神经网络。ACM事务处理图表，37（4），2018年7月。[4] Dena Bazazian、Josep R Casas和Javier Ruiz-Hidalgo。散乱点云中快速、稳健的边缘提取。2015年数字图像计算国际会议：技术和应用（DICTA），第1-8页。IEEE，2015年。[5] Jens Behley ， Martin Garbade ， Andres Milioto ， JanQuenzel ， Sven Behnke ， Cyrill Stachniss ， and JurgenGall. Se-mantickitti：激光雷达序列语义场景理解数据集。在IEEE/CVF国际计算机视觉会议论文集，第9297-9307页，2019年。[6] Christopher Choy，JunYoung Gwak，Silvio Savarese. 4dspatio-temporalconvnets ： Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议论文集，第3075- 3084页[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页[8] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在机器学习国际会议上，第1050-1059页[9] Yarin Gal、Riashat Islam和Zoubin Ghahramani。基于图像数据的深度贝叶斯主动学习。在国际机器学习会议上，第1183-1192页[10] Timo Hackel、Nikolay Savinov、Lubor Ladicky、Jan DWegner、Konrad Schindler和Marc Pollefeys。Semantic3dnet：一个新的大规模点云分类基准。arXiv预印本arXiv：1704.03847，2017。[11] 徐伟宁和林轩天。在学习中主动学习第二十九届AAAI人工智能会议。Citeseer，2015.[12] Andreas Kirsch ，Joost van Amersfoort，and Yarin Gal.Batchbald：深度贝叶斯主动学习的高效多样的批量获取。神经信息处理系统，第7026-7037页，2019年[13] Feli xJ¨remoLa win，MartinDanelljan，PatrikTosteber g，Goutam Bhat ， Fahad Shahbaz Khan ， and MichaelFelsberg.深度投影三维语义分割。在图像和图案的计算机分析国际会议上，第95-107页。Springer，2017.[14] Y Lin，G Vosselman，Y Cao和MY Yang。通过主动学习有效训练语义点云分割 ISPRS Annals of thePhotogrammetry，Remote Sensing and Spatial InformationSciences，2：243[15] Liu Zhijian Liu，Haotian Tang，Yujun Lin ，and SongHan.点-体素cnn用于高效的3d深度学习。神经信息处理系统进展，第965-975页，2019年[16] Huan Luo，Cheng Wang，Chenglu Wen，Ziyi Chen，Dawei Zai，Yongtao Yu，and Jonathan Li.基于主动学习和高阶磁共振的移动激光雷达点云语义标注IEEETransactions on Geoscience and Remote Sensing ， 56（7）：3631[17] 杰瑞米·帕彭，阿列克谢·阿布拉莫夫，马库斯·舍勒，弗洛伦汀·沃格特.体素云连通性分割-点云的超体素。在Proceedings of the IEEE conference on computer visionand pattern recognition，pages 2027[18] 马克·保利理查德·凯泽马库斯·格罗斯点采样曲面的多尺度特征提取。计算机图形论坛，第22卷，第281-289页。Wiley Online Library，2003.[19] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652[20] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统的进展，30：5099[21] 尼古拉斯·罗伊和安德鲁·麦卡勒姆通过蒙特卡洛估计误差减少实现最佳主动学习。ICML，Williamstown，第441-448页[22] Bryan C Russell、Antonio Torralba、Kevin P Murphy和William T Freeman。Labelme：一个数据库和基于网络的图像注释工具。 International Journal of ComputerVision，77（1-3）：157[23] Ozan Sener和Silvio Savarese卷积神经网络的主动学习：核心集方法。在2018年国际学习代表会议上[24] 伯尔·塞特斯。主动学习文献调查。技术报告，威斯康星大学麦迪逊分校计算机科学系，2009年。[25] 克劳德·E·香农通信的数学理论。贝尔系统技术杂志，27（3）：379-423，1948。[26] Haotian Tang，Zhijian Liu，Shengyu Zhao，Yujun Lin，Ji Lin，Hanrui Wang，and Song Han.用稀疏点体素卷积搜索有效的3d结构。欧洲计算机视觉会议，第685-702页。Springer，2020年。[27] Hugues Thomas ， Charles R Qi ， Jean-EmmanuelDeschaud ， BeatrizMarcote gui ， Franc oisGoulette ，andLeonidasJGuibas.Kpconv：点云的灵活和可变形卷积。在IEEE计算机视觉国际会议论文集，第6411-6420页15519[28] D. Wang和Y.殇一种新的深度学习主动标记方法。2014年国际神经网络联合会议（IJCNN），第112-119页[29] Keze Wang，Dongyu Zhang，Ya Li，Ruimao Zhang，and Liang Lin.用于深度图像分类的具有成本效益的主动学习。 IEEE Transactions on Circuits and Systems forVideo Technology，27（12）：2591[30] Lei Wang ， Yuchun Huang ， Yaolin Hou ， ShenmanZhang和Jie Shan。点云语义分割的图形注意力卷积在IEEE计算机视觉和模式识别会议论文集，第10296[31] Jiacheng Wei ， Guosheng Lin ， Kim-Hui Yap ， Tzu-YiHung，and Lihua Xie.基于多路径区域挖掘的点云弱监督三维语义分割在IEEE/CVF计算机视觉和模式识别会议论文集，第4384-4393页，2020年[32] 吴碧晨， Alvin Wan ， Xiangyu Yue 和 Kurt Keutzer 。Squeezeseg：具有递归crf的卷积神经网络，用于从3d激光雷达点云进行实时道路对象分割在2018年IEEE机器人和自动化国际会议，第1887-1893页IEEE，2018年。[33] 吴碧晨、周宣宇、赵思成、岳翔宇和库尔特·库茨。挤压egv2：改进的模型结构和无监督域自适应，用于从激光雷达点云进行道路对象分割。在2019年国际机器人与自动化会议（ICRA）上，第4376IEEE，2019。[34] Xun Xu和Gim Hee Lee。弱监督语义点云分割：标签减少10倍。在IEEE/CVF计算机视觉和模式识别会议上，第13706-13715页，2020年

下载后可阅读完整内容，剩余1页未读，立即下载