基于MIL的弱监督点云分割模型及其性能分析

123 浏览量更新于2023-10-25 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

111830基于MIL的弱监督点云分割杨正坤1吴季佳2陈凯宣2庄永玉1林燕玉2、31国立台湾大学2国立阳明交通大学3中央研究院摘要我们解决弱监督点云分割提出了一个新的模型，MIL派生的Transformer，挖掘额外的监督信号。首先，Transformer模型是基于多实例学习（MIL）来探索成对的云级监督，其中两个相同类别的云产生一个正包，而两个不同类别的云产生一个负包。它不仅利用其次，自适应全局加权池（AdaGWP）被集成到我们的转换器模型，以取代最大池和平均池。它引入了可学习的权重来重新缩放类激活图中的logits它对噪声更鲁棒，同时在弱监督下发现更完整的前景点。第三，我们执行点二次采样，并强制原始点云和二次采样点云之间的特征等方差进行正则化。所提出的方法是端到端可训练的，并且是通用的，因为它可以与具有各种类型的弱监督信号（包括稀疏注释点和云级标签）的不同骨干一起工作。实验结果表明，它达到了最先进的性能在S3DIS和ScanNet基准测试。源代码可以在https：//github上找到。com/jimmy15923/wspss_mil_Transformer。1. 介绍点云捕获几何特征和表面上下文，因此作为许多3D视觉应用的基本表示，例如场景理解[6，22，28]，自动驾驶车辆[4，5]和机器人[9]。点云分割的目的是识别属于感兴趣的语义类别的点。它提供点级识别，因此是点云分析的固有组件。然而，学习分割模型依赖于具有点级注释的训练数据。高注释成本对这项任务构成了障碍。为了解决这个问题，现有的弱监督方法导出具有不同弱监督信号的分割模型，例如部分标记的点[26，42，46，47]，子云级注释[38]或场景级注释[31]。为了弥补完整注释的缺乏，弱监督点云分割方法[26，31，38，42，46，47]通过不同的技术（如图传播，排列一致性和对象建议）充分利用弱标记数据尽管有效，但这些方法仅使用云内信息：超分辨率信号独立地从点云中获取受图像共分割[13，45]和交叉图像模式挖掘[32]的启发，我们的目标是探索云间语义来监督分割模型训练。为此，我们将Transformer模型[34]推广到成对点云上，并将问题公式化为多实例学习（MIL）[27]任务。因此，我们的方法可以使用云内和云间的信息，以更好地完成弱监督分割。具体来说，我们开发了一个 MIL 派生的Transformer，其中MIL解决了弱标签的不确定性。如图1所示，我们将Transformer应用于同一类别的两个点云。一个云被视为一个锚点，它的每个点都是转换器中的一个查询。另一个云用作引用，其中每个点形成键值对。Transformer编码器和解码器应用于参考和锚点恢复。通过解码器的交叉关注机制，每个查询（来自锚）被表示为值（来自引用）的加权和所有点的结果特征矢量（即，查询）在MIL中产生用于两个云的共同类别的正包MIL通过这个积极的袋子鼓励模型关注锚点的前景点。相比之下，我们考虑另一个参考点云，其类别与锚点不同。这一次，锚的所有查询的特征向量生成负袋，因为每个查询的特征向量是目标类别不存在的该引用的值的加权和。通过这个负袋的模型被强制抑制不相关的点。利用所提出的MIL变换器，形成正袋或负袋的每对点云产生额外的信号来监督模型训练。此外，可以通过Transformer考虑远程依赖性。最大或平均池被广泛用于聚合-111831……Transformer编码器…键值查询…骨干骨干Transformer译码器参考一个积极的袋子锚点嵌入图1：给定同一类别（椅子）的两个点云（锚点和参考点），应用骨干网络计算点嵌入。分别对这两个云应用了Transformer编码器和解码器。自我关注捕捉到了长期依赖。在解码器的交叉注意模块中，来自锚点的点（标记）用作查询，而来自引用的点（标记）用作键值对。Transformer将每个查询映射为值的加权和。查询的输出为多实例学习产生了一个积极的包。一旦引用被更改为另一个云，而没有覆盖任何椅子，查询的输出就会为椅子类别产生一个负的袋子形成弱监督分割，因此是至关重要的性能。最大池只考虑峰值点，通常会导致不完整的对象段。此外，它对噪音很敏感。平均池的弱监督分割往往遭受性能下降所造成的不相关的点，如那些属于其他类或背景。此外，物品类别，例如.地板或墙壁，在点云分割带来的类不平衡的问题，这使得上述问题恶化。我们通过提出自适应全局加权池（AdaGWP）来解决这些问题，该方法引入了可学习的权重，每个类一个。这些类特定的权重被导出，使得模型可以关注相关类的点。事实证明，AdaGWP抑制不相关的点，而恢复对象点更完整。我们还考虑了点云的跨尺度一致性来正则化弱监督特征提取。随机点采样应用于对点云进行二次采样。在弱监督学习中，即使点的标签未知，子采样也不会改变点的标签因此，施加一致性损失以加强原始点云和二次采样点云的特征之间的相似性，充当用于网络训练的额外监督信号。这项工作的主要贡献是MIL派生的Transformer，它探索了用于弱监督分割的额外云间语义。此外，一个类特定的，可学习的池技术AdaGWP和多尺度特征等方差被用来增强模型训练。我们的方法可以灵活地使用不同的点云网络，以及各种类型的弱超声波信号，包括稀疏注释点[42]，次云级别[38]和场景级别[31]注释。它在S3DIS [1]和ScanNet [7]基准测试中的表现优于现有方法。2. 相关工作图像的弱监督语义分割。该任务旨在减少用于学习图像分割模型的像素级标签的昂贵注释成本。它适用于具有弱注释的训练数据，例如边界框[18]，涂鸦[25]，点[2]和图像级标签[20，21，32，37，39，40，44，49]。涂鸦[25]和点[2]形式的标签被称为不完全监督，其对应于点云上的部分标记点。这些方法在不完全监督下通常探索图像特定的属性，例如空间和颜色连续性[2，25]。图像级标注[17，20，21，23，32，37，39，40，44，49]被称为不精确监督，其对应于点云上的子云级或场景级标注。许多方法[20，32，37，39，40，44]使用类激活图（CAM）[48]和面向分类的模型进行对象定位。与同类方法相比，本文方法在点云分割方面有明显在不完全和不准确的监督下工作是灵活的。弱监督点云分割。该任务在弱监督下学习点云分割模型，例如稀疏标记的点[12，26，42，46，47]，子云级标签[38]和场景级标签[31]。给定稀疏标记的点，例如。对于场景中的每个类别一个标记点，现有的方法使用空间约束和不同的技术，例如图传播[26，42，47]、自训练[26，47]和预训练[12，46]，来导出分割模型。使用场景级或子云级注释进行学习更具挑战性，因为只有云或子云的类标签可用。与场景级注释，任等人。[31]通过跨任务一致性损失联合处理分割、建议生成和对象检测。使用子云级别的标签，Wei等人。[38]将整个场景子采样为子云，并使用多路径注意力进行自训练。……111832n=1m=1m=1密耳凸轮[地板、书柜、桌子、门、椅子]采样骨干MIL衍生Transformer变压器企业简介类感知层AdaGWP推理骨干MIL衍生埃斯科松Max企业简介共享权重��˜Transformer��˜��˜图2：我们的弱监督点云分割方法概述我们的方法集成了三个组件：MIL派生的Transformer，自适应全局加权池（AdaGWP），跨尺度特征一致性。整个网络通过三个损失函数进行优化，Lcls，Lmil，和Lcon.黑色箭头表示训练路径，蓝色箭头表示推理路径详情见正文与上述方法不同的是，本文的方法扩展了transformers，用于探索弱监督学习的云间语义。我们还提出了一种可学习的池技术，用于特定于类的信息聚合，并实现尺度间特征等方差，以达到最先进的性能。联合分割和跨图像模式挖掘。共同关注模块[13，32，43]旨在发现多个图像之间的共现区域。它已用于对象共分割[10，13，14，24，45]。例如，Hsuet al. [13]设计一个共同注意力生成器来考虑图像之间的特征差异，并产生共同注意力。3. 该方法本节介绍所提出的方法。我们首先给出了一个概述的方法，并详细说明拟议的军用衍生Transformer。然后，我们描述了自适应全局加权池和跨尺度特征等价性。最后给出了具体的实现细节。3.1. 概述我们给出了一个弱注释的N个点云的集合，这些点云具有云级别的标签或稀疏标记的点，即，D={Pn，yn}N，其中Pn表示第n个点云使用对比学习的分割图。Sun等人[32]通过计算一对图像的亲和矩阵，利用对比共同注意力来捕获跨图像语义在多幅图像的公共区域挖掘中，通常需要提出目标建议或显著图生成方法，但它们不适用于点云。我们的方法通过探索transformers中的交叉注意机制来解决对象建议和显着图的不可用性。我们推广了Transformer [3，34，35]及其编码器-解码器架构，以识别云间共现点，并通过多实例学习在弱监督下导出。全局和加权池。池化被广泛用于聚集全局信息和处理弱监督学习中的不确定性。一些高级的混合冰毒-yn是它的标签。不失一般性，我们假设每个云有M 个点，即， Pn={pnm}M ，其中每个点pnm∈R3用其三维坐标表示。如果给出云级别标签，则yn∈ {0，1}C是C维二元向量，指示哪些类别是存在于云Pn中，其中C是对象类别的数量。如果提供稀疏标记点，yn记录云Pn的标记点的类别。利用弱标记数据集D，我们的目标是导出一个分割模型，该模型将测试云的每个点分类到C类或背景中的一个。图2说明了我们的方法。在训练中，我们考虑点云P及其标签y。骨干网络，如3D U-Net [6]，用于提取每点嵌入。然后将嵌入馈送到MIL派生的Transformer的编码器中ODS集成了通道和空间信息[8]，或者特征X={xm}M其中，M是包括空间注意力[16]。Kolesnikov等人[20]前在池化之前定义每个类的衰减权重与这些池化方法相比，所提出的AdaGWP学习每个类的权重，其与CAM中的通道相关联以抑制不太相关的点。该方法将MIL提出的Transformer和AdaGWP相结合，同时实现了点识别和类抑制，这对于弱监督点分割是必不可少的。点采用了军用Transformer另一个云P′。如图1所示，点云P和P′分别用作参考和锚点对于锚点P′中存在的每个类别c，如果类别c也存在于P中，则Transformer输出正包，或者一个消极的袋子，否则。 MIL（多实例学习）损失Lmil作用于所产生的正包和负包，并且用于训练Transformer和前面的骨干网络。111833m=1m=1m=1m=1m=1点云P的特征X，由点云生成器生成apositiveb a gwithMinstance s，i. 例如，b+={z′m}M，的Transformer层[32]，即，用C滤波器构造1×1卷积层，得到类激活映射（CAM）S∈RM×C. 提出的自适应全局加权池（AdaGWP）进行分类预测。基于预测和标签y计算分类损失Lcls。C类，然后用于多实例学习。Transformer将每个查询（对应于P'中的一个点）映射到值的加权组合（对应于P的所有点）。在我们的实现中，通过关闭Transformer中的残差学习来实现此属性由于参考P和锚点P'都包含在如图2所示，我们应用随机点采样类c的至少一个点，处理b+={z′m}M作为一个正-点云P，并得到其二次采样点云P。特征提取的相同过程被用于P检验。一致性损失L可以强制特征等方差为-在P和P的公共点之间。总之，整个网络以弱监督的方式进行优化，MIL中的阳性包强制执行Transformer和之前的骨干网关注P和P′中的相似或匹配点。相比之下，如果参考P被改变为点云而不覆盖类c的任何点，则锚点P'的输出嵌入产生负包，跟随损失函数b−={z′m}M. 原因很清楚：每个实例z′m是L= Lcls+ Lmil+ Lcon，（1）从点导出的值的加权和不属于C类。因此，实例z′m必须是不可靠的-升到C级。T将b−={z′m}M设为ngativ ebag其中lossLcls是多标签分类损失[38，42]在不精确的监督下或在不完全监督下的每点分类损失[42]稍后将详细说明MIL 损失Lmil和一致性损失Lcon。推理。给定一个待分割的测试云P，利用随机抽样方法得到其下采样的方差P。P和P_i都被馈送到骨干网络中，然后由Transformer编码器提取它们的特征X和X_i。类是将这些特征X和X′层映射到类动作映射S和S′的层。为了融合多尺度信息，我们应用最近的上采样有助于丢弃锚点P′中与任何参考点P相似的点，即与类c无关的点。在实现过程中采用了小批量优化。对于批次中的每对点云，如果类c存在于其中至少一个点云中，则可以根据c是否存在于另一个云中为类c创建正或负袋由此可见，一组积极的袋子B+={b+} ，并为该批次收集了一组 n 个无菌袋B−={b−}。c类的MIL损耗Lmil定义为：Lmil（B+，B−，c）=方法[30，38]到S. 通过对S和S的上采样对应物应用逐元素最大运算来获得最终的分割结果。Σαb∈B+-logfc（b）+βΣb∈B−-log（1−fc（b）），（2）3.2. MIL导出Transformer我们描述了如何构建MIL衍生的变压器，它产生积极的和消极的袋下弱监督。如图2所示，我们应用了背面-将骨骼网络映射到M个点的点云P={pm}M。其中fc（b）= maxz∈bfc（z）是包b对于类c为正的概率，fc是一个MLP，后跟soft-max，它预测输入嵌入z是否属于类c。 α和β分别是控制阳性和阴性袋重要性的正常数。经由m=1假设类c同时存在于P和an中，MIL损失L密耳，每对训练点云产生其他点云P′={p′m}M. Transformer将用于优化整个网络的额外监控信号P和P′分别作为参考和锚，并将它们作为输入。如图1所示，将Transformer编码器应用于参考P。每个编码器层com-该方法包括自注意模块和前馈网络（FFN）。通过编码器，获得参考P的点的输出嵌入{xm}Transformer解码器由多个层组成，每个层具有自注意模块、交叉注意模块和FFN。解码器通过将P’的点视为令牌来将自注意模块应用于锚点P’交叉注意模块考虑引用P和锚点P'两者，其中锚点P'的每个点（标记）用作查询，而引用P的每个点形成键值对。锚点P′的输出嵌入构成1118343.3. 自适应全局加权池大多数点云网络[29，36]都是为了从无序数据结构中提取点特定的特征而开发的。对于弱监督点云分割，池化，例如全局平均池化（GAP）或全局最大池化（GMP），被广泛采用来聚合点级特征以进行云级预测，分类损失Lcls在等式（1）中。1能够监督网络训练。然而，GAP经常遭受性能-由占主导地位的不相关点引起的mance退化，例如属于类别地板或墙壁的点。GMP只强调具有峰值响应的几个点，因此对于发现更多的整个段不太有效。是111835m=1MMc=1m=1m=1ΣM也对噪声或异常值敏感。为了减少这些不利因素-且X<$={x<$m}M<$通过骨干网获得的P-能够的问题，我们提出了自适应全局加权池（AdaGWP），它引入了额外的可学习参数，每个类一个，并且可以抑制不相关的点，工作和Transformer跨尺度一致性-云P上的延迟损失定义为：ΣM˜发现更完整的片段。在图2中，具有M个点的点云P的类激活图（CAM）通过传递1Lcon（P）=1m=1<$xπ（m）−x<$m<$2，（4）类感知层。在这个阶段P的每个点被表示为C维矢量，即，P={sm∈其中，P中的第m个点从第π（m）个点采样点P。RC}M=1，其中C是类的数量CAMs en-一致性损失L可以强制执行特征等价性。对点-类关系进行编码：正的sm（c）意味着点m可能属于类c，而负的sm（c）意味着点m可能与类c无关。基于此属性，所提出的AdaGWP为每个类c引入一个可学习参数wc，其被分解为来确定不相关点的权重。 Specifi- cally, AdaGWPapplied to P is a re-weighted average pool- ing with itsoutput for class c computed as follows:ΣM两种不同比例下的点云之间的差异这损失提供了额外的监督信号，以规范分割模型的弱监督训练过程。方程中的一致性损失Lcon4可以直接推广以加强多尺度一致性。3.5. 实现细节该方法在PyTorch中实现。我们使用DGCNN [36]，KPConv [33]和3D U-Net [6]rc=AdaGWP（{sm（c）}M）=.m=1vmsm（c），m=1vm（三）作为特征提取器在不同的实验设置。头、编码器层、解码器层的数目和Transformer中的FFN的宽度被设置为2、2、2和其中vm=1，如果sm（c）>0，σ（wc），否则，256、分别该网络在具有8个V100 GPU的机器上进行了优化，具有512个epoch。批量大小，而σ（·）是sigmoid函数。由方程式3，wc是引入的可学习参数，其值在ing训练。每个点m与权重vm相关联。对于CAM中c类的阳性响应点，其权重设置为1，这意味着在合并期间将考虑所有这些点。对于具有负响应的点，它们可能与类别c无关，因此通过将它们的权重从1收缩到σ（wc）来抑制。经由用于重新加权CAM的AdaGWP，用于类别c的点云P的输出，即等式（1）中的r。3，是通过平均池化得到的。AdaGWP通过介绍，引入较少的可学习参数{wc}C，可显著提高弱监督点云分割实验。3.4. 跨尺度特征等方差额外监督信号的多尺度特征等方差约束[15，37]可以增强弱监督分割。在这项工作中，我们扩展了图像缩放方法的三维点云域的随机点采样。我们在跨尺度点要素之间强制实施要素等变性，其中云的尺度意味着其点数。For each point cloud P = {xm}M在训练集中，对P应用随机点采样以获得P的子集，即，好吧好吧P的大小用M表示。设M∈=γM，学习率和权重衰减分别设置为32、10−3和10−4。我们使用AdamW [19]作为优化器，就像以前的工作[3]一样。L mil的参数α和β设置为0。7和0。分别3。L_con的采样率γ被设置为0。8.4. 实验结果本节评估了所提出的方法。首先，我们介绍了数据集和评估指标。然后，我们介绍了竞争的方法，并提供与他们的比较最后，我们展示了我们的方法的各个组成部分的分析和消融研究4.1. 数据集和评价指标我们在两个基准点云数据集S3DIS和ScanNet上进行了实验。S3DIS [1]由六个室内区域组成，共272个房间。每个房间都用RGBD传感器扫描，并由具有XYZ坐标和RGB值的点云表示。根据之前的实践[29，30，36，42]，区域5被用作测试场景。ScanNet [7]有1，513个训练场景和100个测试场景，包含20个类。在[33]中采用的设置之后，有1，201个训练场景和312个验证场景。对于这两个数据集，我们使用平均交集（mIoU）作为评估指标。4.2. 竞争方法和比较在实现细节中给出了0<γ1。如图所示，我们将我们的方法与最先进的分段法进行比较，111836m=1在图2中，逐点特征X={xm}M的P不同监督设置的心理状态方法111837方法Pub.辅助核算测试[30]第三十话KPConv [33]MinkNet [6]NIPS全部全部53.570.665.4MPRM [38]WYPR [31]我们CVPR-场景场景场景10.322.312.9Xu等[第四十二届]CVPR'20百分之零点二44.5Xu等[第四十二届]CVPR'20百分之十48.0社会党[46]AAAI'21百分之零点零二45.8私营部门司[47]ICCV'21百分之零点零二48.2OTOC [26]CVPR'21百分之零点零二42.9OTOC [26]†CVPR'21百分之零点零二43.7我们-百分之零点零二51.4表1：ScanNet数据集上具有不同监督设置的几种点云分割方法“你好。”表示监督的类型“酒吧”给出版物提供了场所。†表示没有任何后处理的迭代自训练策略。首先，比较了用于点云分割的全监督方法[6，30，33]，它们提供了潜在的性能上限。其次，利用仅指示场景或子云数据中出现的类的3D弱标签的分割方法[31，38这种类型的监督是具有挑战性的大规模点云数据集，并显示出巨大的空间，以提高性能。第三，通过使用官方Scan-Net [7，26]基准提供的每个场景20个标记点来比较使用稀疏标记点的方法[12，26，46，47]。为了进行公平的比较，使用了与最先进的方法相同的骨干，数据预处理和训练策略。表1和表2报告了使用不同类型监督的计算方法的mIoU结果。对于ScanNet（表1），通过使用所有不同类型和数量的稀疏标签，我们的方法通常大大优于现有方法我们的方法没有额外的后处理或迭代重新训练，在相同的训练过程下优于最先进的方法OTOC [26]值得一提的是，OTOC引入了几种机制来实现更好的性能，如伪标签传播，迭代自训练和预测细化。为了进行公平的比较，我们将我们的方法与仅进行自我训练的此外，OTOC [26]依赖于至少很少的注释点来进行鲁棒的图形传播，并且它不能直接应用于子云级或场景级注释。此外，我们使用20个标记点的方法可以实现与使用1%标记点的PSD [47]相当的性能方法Pub.辅助核算Val.测试[30]第三十话KPConv [33]MinkNet [6]NIPS全部全部---33.968.473.6MPRM [38]WYPR [31]我们CVPR-场景场景场景21.929.626.2-24.0-MPRM [38]我们CVPR'20-子云子云43.247.441.145.8社会党[46]AAAI'21百分之一-51.1私营部门司[47]ICCV'21百分之一-54.7WYPR [31]CVPR'2120分51.5-CSC [12]CVPR'2120分53.853.1111838表2：S3DIS数据集上具有不同监督设置的几种点云分割方法的定量结果（mIoU）。“你好。”表示监督的类型。“酒吧”给出版物提供了场所。†表示没有任何后处理的迭代自训练。对于场景级或云下级注释，我们的方法在验证mIoU方面分别持续且显著优于MPRM [38] 4.3和4.2。虽然我们的方法不如具有场景级注释的WYPR [31]，但WYPR需要额外的3D对象建议，并且使用稀疏标记的注释显示较差的泛化结果。对于S3DIS（表2），我们的方法也经常优于其他方法。例如，使用0。02%的标记点，所提出的方法已经表现出良好的Xu等人。的方法[42]与10%的注释。图3和图4显示了使用不同类型监督的定性结果示例以及与竞争方法的比较。对于亚云级别的监督，大多数对象被我们的方法准确地分类，橱柜（蓝色）和椅子（金色）用我们的方法分类更正确，但有时会被MPRM错误分类，这表明了所提出的MIL Transformer的有效性。我们认为，制定积极和消极袋帮助网络学习更多的区分功能，使用弱监督。此外，提出的采样一致性损失和自适应池有利于对象轮廓的精确分割。我们的方法可以区分对象，即使他们是封闭的，而MPRM往往无法分离封闭的对象。对于稀疏标记的监督，我们有类似的观察，发现在亚云级监督。与OTOC方法[26]相比，我们使用MIL衍生的Transformer和AdaGWP的方法通常更准确地对对象进行分类，并生成更平滑的分割结果111839(a)（b）（c）（d）落地式壁柜床椅子沙发桌子门窗书架画柜台书桌窗帘冰箱浴缸淋浴时间短。厕所水槽其他人图3：在次云级别监督下ScanNet数据集上的分割结果示例。 (a)输入点云，(b)地面实况，（c）MPRM [38]，（d）我们的。我们的方法提供了更准确的分割比MPRM。(a)（b）（c）（d）落地式壁柜床椅子沙发桌子门窗书架画柜台书桌窗帘冰箱浴缸淋浴时间短。厕所水槽其他人图4：在稀疏标记点监督下ScanNet数据集上的分割结果示例。(a)输入点云，（b）地面实况，（c）OTOC方法[42]，（d）我们的。4.3. 消融研究和分析我们报告消融研究，以评估我们提出的组件的效果，并提出性能分析。组件我和艾达在一起。ScanNet S3DIS4.3.1组分贡献为了评估每个拟议组件的有效性，我们首先通过仅考虑从标准分类损失中导出的类激活图来构建基线[38，42]。然后，我们评估三个亲的贡献，提出的组件，包括MIL派生的Transformer（Lmil），跨尺度一致性（Lcon）和AdaGWP，通过将它们一个接一个地添加到基线。表3显示了与这些组分的不同组合的性能结果验证了每个组件具有其贡献。此外，它们还显示了在不同数据集上的通用性和有效性。最后，为了表明性能的提高不是来自变压器本身，我们通过增加Transformer的编码器层来增强基线。表3的最后一行（基础。+Transformer）报告增强基线的性能。结果表明，所提出的MIL公式也有助于性能。表3 ：所提出的组分（包括Lmil、Lcon 和AdaGWP（Ada.））的不同组合的以mIoU计的性能在稀疏标记的点监督下。图5给出了分割的例子，使用我们的方法与建议的组件的不同组合。当包含 MIL 导出的 Transformer（Lmil）时，我们的方法成功地识别了中间，这是误分类为椅子的基线方法。这是因为MIL派生的Transformer通过探索额外的类内和类间，类信息。跨尺度一致性损失（Lcon）和AdaGWP都有助于完成对象和解列更精细的对象边界。基地52.346.3✓55.449.1✓✓55.949.6✓✓✓57.851.4基地+Transformer55.047.9111840(a)(b)（c）第（1）款（d）（e）（f）第（1）款图5：S3DIS和ScanNet数据集上每个组件的消融研究。 (a)输入点云，（b）地面实况，(c)基线，（d）Lmil，（e）Lmil+Lcon，（f）Lmil+Lcon+ AdaGWP（我们的完整模型）。场景子云20点全mIoU 26.2 47.4 57.8 73.3标签成本1分钟3分钟2分钟22.3分钟<表4：ScanNet上每个场景的平均注释时间密耳α βScanNet S3DIS池化ScanNet S3DIS4.3.2性能分析不同类型注释的性能。标注三维点云是耗时且劳动密集型的。根据以前的工作[26，31，41]，点云分割的符号成本为22。3分钟表5：稀疏标记点监督下不同α和β表6：稀疏标记点监督下不同池化策略的性能。平均每一个场景。为了节省成本，几个监管不力的类型已经出现。如表4所示，注释时间从22.使用稀疏标记点[26]和次云水平标记[38]，3分钟到2分钟，使用场景级标签。我们的方法可以与不同的弱监督，结果报告在表4中。我们的方法与稀疏注释点执行显着优于场景级或subcloud级的注释。考虑到使用完全标注的训练数据的性能，我们的弱监督方法可以大大节省标注成本。不同参数下的性能。第 3.2节中提出的 MIL 衍生Transformer产生正负袋。引入超参数α和β来控制两种类型的袋子之间的相对重要性。表5显示了我们的方法在不同α和β值下的性能，表明阳性袋和阴性袋是互补的，但前者的贡献大于后者。在第3.4节中，跨尺度一致性损失L与超参数γ（采样率）一致。我们通过将γ设置为0来评估我们的方法。25，0。5，0。75，分别得到55.5、56.4和57.8的性能。不同池化策略的性能。在第 3.3 节中，开发了AdaGWP，以汇总相关点的信息。我们比较它与现有的池化策略，包括GMP，GAP，一个由Ilse等人提出的。[16]和参数化的ReLU [11]，然后是GAP。GMP52.446.21057.449.1间隙55.949.60.7 0.357.851.4Ilse等人[16个]56.549.90.3 0.757.151.2PReLU + GAP57.149.80156.948.9AdaGWP57.851.4111841为了比较，我们的方法适用于每种池化策略。在表6中，AdaGWP在两个数据集上都5. 结论提出了一种新的弱监督点云分割方法.作为关键组件，所提出的MIL衍生的Transformer探索了额外的跨云监督信号以促进弱监督学习，并且通过多实例学习来学习。此外，我们开发了跨尺度一致性和自适应加权池，以进一步提高性能。所有拟议的组件都集成到一个端到端的可培训网络中。实验表明，该方法的性能优于现有的弱监督方法，甚至优于一些完全监督方法.我们的方法的一个局限性是由骨干网络的性能限制。另一个限制是，我们没有充分利用附加说明的要点中所传达的信息尽管如此，除了提高点云的弱监督语义分割的性能外，我们相信所提出的技术可以使点云和图像的其他致谢。这项工作得到了部分支持科技部（MOST）补助金109-2221-E-009-113-MY 3、110-2628-E-A49-008、111-2634-F-007-002、110-2634-F-002-051和110-2634-F-006-022它也得到了高通和联发科的部分资助。111842引用[1] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的3D语义解析。在CVPR，2016年。二、五[2] Amy Bearman，Olga Russakovsky，Vittorio Ferrari和LiFei-Fei。重点是什么在ECCV，2016年。2[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。三、五[4] Siheng Chen，Baoan Liu，Chen Feng，Carlos Vallespi-Gonzalez，and Carl Wellington.自动驾驶的3D点云处理和学习：影响地图创建、定位和感知。IEEE信号处理杂志，2020年。1[5] Xiaozhi Chen，Huimin Ma，Ji Wan，Bo Li，and TianXia. 用于自动驾驶的多视图 3D 物体检测网络。在CVPR，2017年。1[6] Christopher Choy，JunYoung Gwak，Silvio Savarese.4D时空卷积：Minkowski卷积神经网络。在CVPR，2019年。一二三五六[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。ScanNet：室内场景的丰富注释3D重建。InICCV，2017.二、五、六[8] Thibaut Durand，Taylor Mordan，Nicolas Thome，andMatthieu Cord.Wildcat：用于图像分类、逐点定位和分割的深度卷积网络的弱监督学习在CVPR，2017年。3[9] 尼可拉斯·恩格尔哈德、费利克斯·恩德雷斯、于尔根·赫斯、于尔根·斯特姆和沃尔夫勒姆·伯加德。实时3D可视化SLAM，手持RGB-D相机在欧洲机器人论坛的RGB- D机器人3D感知研讨会上，2011年。1[10] 韩俊伟，全荣，张定文，聂飞平。基于背景先验的鲁棒目标联合分割TIP，2018年。3[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。8[12] Ji Hou ， Benjamin Graham ， Matthias Nießner ， andSaining Xie.利用对比场景环境探索数据有效的3d场景理解。在CVPR，2021年。二、六[13] 许光瑞、林燕玉、庄永玉。用于无监督对象共分割的共注意CNN。在IJCAI，2018。第1、3条[14] 许光瑞、林燕玉、庄永玉。DeepCO3：通过共峰搜索和共显著性检测进行深度实例共分割。在CVPR，2019年。3[15] 黄泽一，邹阳，Vijayakumar Bhagavatula，黄东。用于弱监督对象检测的综合注意力自蒸馏在NIPS，2020年。5[16] Maximilian Ilse，Jakub Tomczak，and Max Welling.基于注意力的深度多实例学习。在ICML，2018。三、八[17] Hoel Kervadec，Jose Dolz，Meng Tang，Eric Granger，Yuri Boykov，and Ismail Ben Ayed.弱监督分割的约束cnn损失。医学图像分析，2019年。2[18] Anna Khoreva 、 Rodrigo Benenson 、 Jan Hosang 、Matthias Hein和Bernt Schiele。简单做到：弱监督实例和语义分割。在CVPR，2017年。2[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。见ICLR，2014年。5[20] Alexander Kolesnikov和Christoph H Lampert。种子、展开和约束：弱监督图像分割的三个原则。在ECCV，2016年。二、三[21] Suha Kwak，Seunhoon Hong，and Bohyung Han.基于超像素池化网络的弱监督语义分割。InAAAI，2017. 2[22] Loic Landrieu和Martin Simonovsky。基于超点图的大规模点云语义分割。在CVPR，2018年。1[23] Seungho Lee ， Minhyun Lee ， Jongwuk Lee ， andHyunjung Shim.铁路不是火车：显着性作为弱监督语义分割的伪像素监督。在CVPR，2021年。2[24] Weihao Li，Omid Hosseini Jafari，and Carsten Rother. 深度对象共分割。在ACCV，2018年。3[25] Di Lin，Jifeng Dai，Jiaya Jia，Kaiming He，and JianSun. ScribbleSup：用于语义分割的Scribble-supervised卷积网络。在CVPR，2016年。2[26] Zhengzhe Liu，Xiaojuan Qi，and Chi-Wing Fu. One thingone click：A self-training approach for weakly supervised3d semantic segmentation.在CVPR，2021年。一、二、六、八[27] 奥德·马龙和托马的洛扎诺·佩雷斯。一个多实例学习的框架NIPS，1997年。1[28] Charles R Qi，Xinlei Chen，Or Litany，and Leonidas JGuibas. ImVoteNet：通过图像投票增强点云中的3D对象检测。在CVPR，2020年。1[29] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.PointNet：用于3D分类和分割的点集深度学习。在CVPR，2017年。四、五[30] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. PointNet++：度量空

下载后可阅读完整内容，剩余1页未读，立即下载