基于图形信息增益的弱监督点云语义分割

90 浏览量更新于2023-10-15 收藏 2.67MB PDF 举报

弱监督学习

信息增益

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

582GaIA：基于图形信息增益的弱监督点云语义分割Min Seok Lee*Seok Woo Yang*Sung Won Han< $高丽大学工业管理工程学院{karel，joshy，and swhan} @ korea.ac.kr摘要虽然点云语义分割是3D场景理解中的一项重要任务，但该任务需要一个耗时的完全标注标签的过程。为了解决这个问题，最近的研究采用了稀疏标注下的弱与现有研究不同的是，本研究旨在降低由熵度量的地震不确定性，以实现精确的地震分割。我们提出了基于图形信息增益的注意力网络称为GaIA，它基于可靠的信息来计算每个点的熵图信息增益利用目标点与邻域之间的相对熵来判别可靠点。我们进一步介绍了基于锚点的附加角余量损失，ArcPoint。ArcPoint算法在超球面空间中将含有高熵的未标记点优化到与标记点语义相似的类在S3 DIS和ScanNet-v2数据集上的实验结果表明，该框架优于以往的弱监督方法.1. 介绍点云语义分割是计算机视觉领域的一项基础性随着深度神经网络的成功，3D场景上的大规模点云语义分割引起了更多的关注，其广泛的应用（例如，增强/虚拟现实、自动驾驶和机器人技术）。然而，用于点云语义分割的完全监督方法需要标记良好的逐点注释，并且数据注释的整个过程是昂贵的[31，32，40，25，7，43、17、41、17、20、50、30、39]。为了解决这个问题，最近的研究采用了弱监督学习方法来训练具有点云部分注释的网络。既往研究[44，5，45，48，49，16，26，47，24]改善*同等贡献。†通讯作者。图1.业绩确认与信息不确定性的比较与网络B相比，网络A的预测在表中具有更高的不确定性语义分割性能接近于小规模数据集上的完全监督的语义分割性能（例如，ShapeNet[4]和PartNet[28]）以及大规模数据集（例如，S3 DIS[2]和ScanNet-v2 [8]）。与现有研究相比，本研究的重点是减轻认知不确定性，以获得高质量的特征表示稀疏注释。在图1中，如果两个网络显示出相似的性能或可视化结果，则很难确定哪个网络在语义上嵌入良好。为了观察两个网络的估计是否存在差异，[37] 用于认知不确定性量化[21，27]。在测量每个点的熵时，观察到即使获得相同的结果，网络预测的可靠性也可能不同从这个实验结果出发，提出了一个问题，即是否减轻认识的不确定性提高了分割性能以及满意的点云嵌入。为了解决认知不确定性减少，我们介绍两种方法：降低每个点的熵值，对熵值高的点进行有效的优化。减少认识的不确定性被认为是对每个样本的熵进行量化[15，14，38]。为了降低每个点的熵，我们将低熵点作为可信信息来更新高熵点的概率分布。由于可靠点并非都是重要的，因此通过测量相对熵来识别模糊决策边界附近的可靠点作为一种相对熵度量，本研究引入了图形信息增益，这是去-583由目标点的熵与其邻域的熵之间的相对熵来限定当一个点的熵小于其邻域的熵时，它更可靠。基于可信度，通过向不确定点传播可信信息，增强点的表示，更新包含高熵的点在稀疏标注的情况下，有效地优化未标注点对于实现满意的语义分割是重要的。现有的研究组织关系网络[45，49]或类原型矩阵[48]来优化未注释的点。对于损失计算，softmax函数被广泛用于表示类概率。然而，softmax在数据优化方面具有局限性，因为它既不能显式地增强类内特征的相似性，也不能区分类间特征[9]。此外，以前的研究同样集中在所有未标记的点在优化过程中。虽然包含低熵的点在优化过程中被很好地嵌入，但网络应该更多地关注优化具有高熵的未注释点以提高分割性能。因此，有必要克服softmax的缺点，并解决高度非线性的优化问题某些观点。提出了一种基于图形信息增益的注意力网络（GaIA）用于弱监督点云语义分割。GaIA的目的是减少认知的不确定性，使用图形信息增益和基于锚的附加角裕度损失称为ArcPoint。图形信息增益度量目标点的熵与其邻域的熵之间的相对熵，以区分可靠信息。基于相对熵，GaIA将高熵的未标记点的特征嵌入更新为语义相似的标记点的特征嵌入为了解决softmax的局限性，并专注于未标记点的优化，我们引入了ArcPoint损失。通过在损失计算中使用附加的角裕度惩罚具有高熵的未注释点，ArcPoint优化了嵌入在超球体中的不确定点，使其朝向标记点的语义相似嵌入。本研究的主要贡献如下：• 研究认知不确定性降低以提高弱监督点云语义分割性能。据我们所知，这是第一种专注于认知不确定性降低的方法，用于在弱监督点云语义分割中获得性能增益。• 对于认知不确定性的降低，我们提出了图形信息增益来度量目标点的熵与其邻域的熵之间的相对熵，以识别可靠信息。• 所提出的ArcPoint损失通过使网络能够将具有高熵的未标记点嵌入到可靠的标记点来减少认知不确定性• 与现有的弱监督学习方法相比，GaIA在两个基准数据集上将mIoU提高了2.2%p和4.4%p（例如，S3DIS和ScanNet-v2）在1和20 pts注释下。2. 相关工作2.1. 点云对3D点云语义分割的研究使用完全注释的监督学习提高了性能[31，32，40，25，7，43，17，41，17，20，50，30，39]。尽管取得了这一成就，注释所有点云仍然是一项耗时的任务。为了解决这个问题，最近的研究采用了弱监督学习方法。弱监督点云语义分割是对点云进行部分标注的分割。现有研究生成了语义转换类型的点云，例如2D分割图[42]、亚云级注释[44]和超点[5]。对于稀疏注释，以前的方法采用了预训练方法[16，48]，对比学习[16，26，24]和学习分布一致性[45，49，24，47]学习点云的空间信息为了学习点云的拓扑结构，利用图结构来表示点的特征[5，26，49]。与以前的方法不同，我们提出了一种新的弱监督框架，旨在减少网络的不确定性和有效地优化未标记点。2.2. 不确定度量化和降低不确定性量化对于各个领域[1]的精确决策非常重要，例如自动驾驶[11，6]或医学图像分析[23，36、35、29、34]。预测过程中的不确定性由三个组成部分引起：数据不确定性、认知不确定性和分布不确定性[33，12，21，27]。在这三种类型的不确定性中，本研究的重点是认知不确定性，它测量了给定数据预测网络参数的信息不确定性[12，27]。不确定性可以降低，使得不确定性越低，网络性能越高[15，14，27]。基于这一性质，我们引入了一个网络，侧重于减少认知不确定性，以提高点云语义分割性能。对于不确定性量化度量，采用代表信息不确定性的香农熵[37]，由此估计每个点的熵以识别584∈联系我们图2. 整体架构。可靠的信息。我们的方法通过传播可信的特征来更新网络的模糊决策边界附近的不确定2.3. 稀疏注释嵌入使用点云数据是比变换表示更有吸引力的方法（例如，体素或网格）。然而，由于原始点云的无序和非结构化特性，很难使用原始点云[31，10]。此外，它具有挑战性，从部分注释的点云的高质量特征表示。因此，现有研究集中在与未标记点云共享的标记点的特征表示[45，48，49，26，24，47]。为了获得特征嵌入，以前的研究最小化了地面实况和投影标签之间的差异[42，48]。除了上述研究，其他方法优化了两个概率分布之间的差异[45，49，26，24，47]。在训练过程中，上述研究采用了softmax函数。然而，softmax在对开放数据集进行分类时有一个限制，因为它不在训练数据中[9]。因此，类内数据的收敛性和类间数据的发散性应得到增强，以有效地嵌入不熟悉的数据。此外，以前的研究同样优化了所有未标记的数据。与这些研究相比，我们专注于高熵的未标记点的优化通过将标记点作为锚点，将不确定点与语义相似的标记点紧密地嵌入3. 方法3.1. GaIA概述体系结构：GaIA旨在缓解认知的不确定性。为了减少不确定点的高熵，我们组织熵块和ArcPoint损失。如图所示2、3D U-Net被实现为具有子流形稀疏卷积的骨干网络，如[13，20]中的稀疏卷积。输入X是一个点集的N个点。每个点X1R6由3D坐标和RGB颜色的级联表示，其中i1，…N. 然后，X被体素化为0.02m的大小。通过将X馈送到一对卷积和熵块来提取语义特征。每个卷积块包括一系列批量归一化-ReLU稀疏卷积运算（SPCv 3D）。其次，熵块计算目标点熵与其邻域熵之间的熵作为注意力权重，图形信息增益增强了可靠的点表示，并将信息传播到其邻域。在从编码器块提取语义特征之后，使用解码器重构X解码器处的熵块被排除，因为将熵块应用于每个解码器块导致计算效率低下。事实上，当组织具有熵块的解码器时，相对于性能增益，学习策略：为了嵌入未标记的点，我们采用了GaIA的Siamese网络分支[3，22]。暹罗分支保持了原始输入X的预测与仿射变换输入aff（X）的预测之间的一致性。这种学习策略通过对未标注的点施加约束来提高嵌入性能[45]。对于给定输入点X的仿射变换，我们应用随机噪声，与x和/或y轴翻转，并以随机角度旋转到x轴。随后，为了实现对稀疏注释更鲁棒的网络，我们通过采用弹性失真对X最初，GaIA被训练排除暹罗分支达100个时期，因为约束导致早期阶段的每个点的不稳定熵。在对原网络进行优化后，采用了暹罗分支来减小网络预测之间的差异。最佳化：现有研究[45，48，49，26，24，47]采用softmax交叉熵损失并处理点585˜˜y=1˜我n<$N其中x∈X.我我我∈˜J⊗Σ−·˜F·其中P（xi）=so ftmax（xi）且xi∈X<$.我J 我i、jJj=ii、jΣ˜∈∈J算法1熵块运算1：输入：点云表示X ∈ RN × d。2：初始化：X=F（X），其中X∈RN×Y，图G（N，E）←KNN（Xloc，K）.第三章：得到H：Hi=−YP（xi=y）·logP（xi=y），4：校准：H=k（D）−2·H/k（D）−2，图3.决策边界和图形信息的可视化编队增益红点表示高熵值和GI值。其中x j∈ neighbor（xi）。5：获取G I：GIi=|Hi−Hi|.第六章：邻居聚合：x n=（kj=0ix j<$GI j）/K。7：更新点嵌入：X=X+（XGI）+XN，8：输出：O=F（X），其中O∈RN×d.同样用于网络优化。与传统的优化方法不同，本文的研究重点是对包含高熵值的受ArcFace[9]的启发，它解决了传统softmax交叉熵损失的限制，被用作损失函数的基线形式。然而，ArcFace损失不能处理大量的未注释点，因为它需要在训练阶段的地面实况。因此，我们提出了一个基于锚点的附加角裕度损失称为弧点。弧点丢失的目的是通过使用标记点作为锚点，将未标记点嵌入到语义相似点。在图2中，ArcPoint首先优化类原型权重矩阵Wy和标准化超球面上的注释点xa Xa之间的距离θy（xa）之后，未注释的点包含高j∈图4. ArcPoint损失的嵌入过程。班级数量。此外，基于坐标Xloc，将k-最近邻算法应用于输入X以识别邻域。在第3行中，计算每个点xi的熵Hi。为了获得GI，我们聚合邻域Hj的熵，其与第4行中的目标点xi及其邻域xj之间的欧几里得距离（Di，j）逆Di，j对邻域熵施加更多权重，其在几何上接近目标xi。在第5行中，通过从原始熵H中减去校准熵H来获得被视为相对熵的GI。当目标点的熵值小于其邻域的熵值时，结果更可靠。如图2所3、公认的GI亮点确定entrop yxu Xu，X a之间的角度而xu是计算出来的。在这里，Xa用作将xu引向最近的类Wy。一个更-ArcPoint损失的尾部计算过程在第3.3节中演示。3.2. 图形信息增益图形信息增益（GI）测量目标点的熵与其相邻点的熵之间的相对熵，以识别可靠的信息。GI理论上基于信息不确定性[37]。熵H表示使用事件i的概率的信息不确定性，如下：H=iPi logPi。也就是说，如果类的概率分布是稀疏的，则网络可以为类预测做出可靠的决策。围绕这一特性，熵通过三个阶段来缓解认知的不确定性：i）测量每个点的熵，ii）计算图形信息增益，以及iii）用可靠的表示更新点嵌入。如算法1中所示，将点云X∈RN×d投影到X∈RN×Y使用SPCon v3D运算F（·），其中Y表示在模糊决策附近具有低熵的可靠点网络的边界。随后，我们加强在第6行和第7行中，使用xi GIi和邻域信息的可靠表示与归一化一起被聚集基于这两种增强的表示，点嵌入被更新以减少认知的不确定性。最后，熵块重构更新的表示XRN× C to ORN×d，使用稀疏卷积运算（）。在图形信息增益的补充分析中提供了对GI的3.3. 损失函数设计基于锚的附加角裕度损失：Arc- Point旨在通过解决传统softmax交叉熵和ArcFace损失的限制来有效地嵌入未注释的点。图4-（a）和图4-（b）示出了ArcFace的原始嵌入过程，其类似地嵌入类内锚点，同时区分类间点。在（a）和（b）之后，测量未标记点和锚点之间的角度，586我||||·||||∈˜∈L L LLy=1·JceN我我∈第j个点x，它是第j 个点X的实例。˜˜∈J10 - 12 - 201608：01：00Jy我siaes·cos（θy（xi）+m）+Σ日志一算法2基于锚的附加角裕度损失lo git=s·（X·W）。讨论了这种优化效果1：输入：标记锚xa∈Xa、未注释的点X W在第5.2节中，通过可视化Xa和xuRN×d，y类-原型权矩阵WyRd、重缩放器s和边缘参数m。2：获取角度并添加角度边距：Xu对应于每个类。损失配置：损失函数L包括基于ArcPoint的softmax交叉熵损失Lce和W·xa分配差异减少损失L，如下：yi||Wy||·||X a||我AFF. 在等式（1）中，A表示num.3：计算H：H=−YP（lu=y）·logP（lu=y），=ce+ce+sia注记点的数量，注记点的数量是最优的。其中P（luRd×Y）=softmax（s（Xu·W||·||W||W|| ），且W∈通过使用惩罚项m来表示。在等式（2）中，当将暹罗分支应用于GaIA，4：区分包含高熵的点：xu∈X<$u<$Xu，其中H>F（γ）· JJLaff用于仿射变换输入aff（X）和分布差异减少损失Lsia，它们基于L5：估计最近的锚：y=argmax（Xaxu||Xa||·||xu||）的方式ArcPoint是有组织的。最大限度地减少了L2的差异-所有原始概率预测之间的比较6：为未注释的点添加角边距：W·xu网络和那些暹罗分支。在这个过程中θ（xu）+m=arccos（y）j）+myJ||WY||·||xu||7：计算最终logit：当i∈{a，u}时，θy（xi）+m为零，则θy（xi）+m为零）），否则优化未注释的点。在这里，未标记的包含低熵的点不受角度裕度的影响，但涉及距离最小化。l=xa∈Xa且xu∈X<$uAu1Σes·cos(θy(xa)+m)包括不同的类。随后，在Fig. 4-（d），Lsia= ||P（X）− P（aff（X））||2、凡每个未注释点的最近锚点由最小角度确定。之后，未注释的点em-P（X）=1Nes·cos（θy（xa，u）+m）es·cos（θy（xa，u）+m）+θYes·cosθj将垫层朝向与最近的锚相同的类重新定位。算法2中给出了详细的嵌入过程。在第2行中，属于类y的第i个标记锚点xaRd通过计算xa和Wy之间的角度θy（xa）嵌入超球面上。给你，i=1i4. 实验4.1. 实验装置j=1，j=y）（二）i i数据集：S3DIS[2]包含六个区域的271个场景表示类原型权重矩阵W的第y列Rd×Y。具有加性角裕度m的角度被惩罚以增强类内强度和类间区分。为了优化未注释的点以及减少认知不确定性，我们专注于具有高熵的点在第3行和第4行中，使用重新缩放的logitlu来计算未注释点的熵，以区分包含高熵的目标点Xu。这里，函数F（γ）表示H的γ分位数，使得采用H的分布中γ的较高区域随后，为了估计被视为一个类的最近锚，我们测量整个锚Xa和目标之间的cosθ乌氏乌J在估计之后，将角度裕度m添加到由第6行中的估计类权重Wy和xu测量的角度θy（xu）对于最终的logit计算，除其他情况外，θy（Xa）和θy（Xu）适用于边缘。logit通过softmax函数传递交叉熵损失。在推断阶段，logit在没有附加角裕度的情况下计算如下：从三个不同的建筑物组成的三维RGB点云。每个点都用13个语义类别中的一个来注释。所有类都用于实例评估。在两种设置下评价了GaIA：i）区域5用于测试，所有其他区域用于训练，ii）在6重交叉验证中，每个区域被视为测试集一次。实验还在ScanNet-v2[8]上进行，该实验由1，613个场景组成，注释有20个类别。该数据集分为1，201个训练场景、312个验证场景和100个测试场景。为了使其与其他方法相媲美，基准测试结果报告的官方测试集。实施详情：对于稀疏注释集，为每个场景标记对应于每个类别的监督比率（1pt、20 pts和1%）的点。使用Adam优化器在RTX A6000 GPU上训练GaIA，初始学习率为0.01，权重衰减为0.0001。邻居的数量K最初被设置为到16，然后在编码器块之后减少4。角度J）+ms·cos（θy（xLce= −我Σ8：输出：最终logitl一i=1Yj=1，jy）es·cosθj（587裕度m根据经验确定为588表1.与现有方法在S3DIS数据集上的比较方法监督区域56倍PointNet[31]百分百41.147.6[32]第三十二话百分百–54.5[25]第二十五话百分百57.365.4KPConv[41]百分百67.170.6MinkowskiNet[7]百分百65.3–[17]第十七话百分百63.070.0[46]第四十六话百分百–68.7[50]第五十话百分百70.473.5Hou等人[16个]百分百72.2–[39]第三十九话百分百69.473.1[24]第二十四话百分百65.870.7Zhang等人[48个]百分之一61.865.9私营部门司[49]百分之一63.568.0[24]第二十四话百分之一65.369.2盖亚（我们的）百分之一66.570.8徐和李[45]1例患者（0.2%）44.5–私营部门司[49]1例患者（0.03%）48.2–[24]第二十四话1例患者（0.03%）51.5–OTOC[26]1例患者（0.02%）43.7–MIL Transformer[47]1例患者（0.02%）51.4–盖亚（我们的）1例患者（0.02%）53.7–图5. S3DIS上定性结果的比较0.1并且重新缩放因子s被设置为16。对于S3DIS，我们将批处理大小设置为150，ScanNet-v2使用的批处理大小为8。GaIA使用PyTorch框架实现。作为评价指标，采用了平均交连比（mIoU）。4.2. 实验结果S3DIS：将GaIA与现有的完全监督（100%）进行了比较[31，32，25，41，17，46，7，50，16，39]，弱监督（1pt和1%）[45，48，49，26，47，24]方法在S3DIS区域5和6倍，如表1所列1. 在区域5的1pt和1%注释下，GaIA分别使mIoU提高了2.2%p和1.2%p，与HybridCR一致[24]。在S3 DIS上的6倍结果比较中，GaIA实现了与完全监督的最先进方法[50]（-2.7%p）接近的性能，并超过了现有的弱监督方法[24]589×表2.与ScanNet-v2上现有方法的比较方法监督Miou[32]第三十二话百分百33.9[25]第二十五话百分百45.8KPConv[41]百分百68.4[17]第十七话百分百64.5[46]第四十六话百分百66.6MinkowskiNet[7]百分百73.6VMNet[19]百分百74.6BPNet[18]百分百74.9Mix3D[30]百分百78.1Zhang等人[48个]百分之一51.1私营部门司[49]百分之一54.7[24]第二十四话百分之一56.8盖亚（我们的）百分之一65.2Hou等人[16个]20分/场景55.5OTOC[26]20分/场景59.4MIL Transformer[47]20分/场景54.4盖亚（我们的）20分/场景63.8盖亚（我们的）平均7.8分/场景（1分）52.1（上升百分之一点六）。在图5中，我们可视化了S3DIS数据集上的定性结果。与不包括Siamese分支、熵块和ArcPoint损失的基线网络相比，GaIA精确地检测了类，特别是梁和门。补充资料中报告了其他目视比较ScanNet-v2：ScanNet-v2的基准测试结果列在选项卡中。二、与现有的弱监督方法HybridCR [24]相比，GaIA在1%注释设置下将mIoU提高了8.4%p。此外，在有限注释（LA）基准测试中，GaIA优于Hou等人。[16]（+8.3%p），OTOC[26]（+4.4%p），和MIL Trans-前者[47]（+9.4%p）。值得注意的是，尽管少了100多个注释（1pt，0.005%），但GaIA的性能超过了Zhang 等人的性能。（ +1.0%p ）和接近 PSD （ -2.6%p）。如图所示6、GaIA对认知不确定性的降低与基线一致。当两个网络表现出相似的分割结果（第1行到第3行）时，GaIA以更高的可靠性估计尽管两个网络的分割结果都不令人满意（图4和图5），但与基线相比，GaIA框架有效地减轻了epistemic不确定性。5. 消融研究5.1. 拟议组成部分进行了消融研究，以分析每个拟议组件对性能增益的贡献。如表1和2行所列。3、与基线相比，暹罗分支对绩效增益的贡献很大。这是因为暹罗分支直接是590·图6. ScanNet-v2验证集上定性结果的比较。H表示熵可视化。表3.与申报组件对应的ScanNet-v2验证集的定量结果比较（）表示官方测量的考试分数。基地西娅EB.AP. AF.1例患者（0.005%）百分之一✓33.2（43.6）42.7（53.9）✓✓37.449.5✓✓✓39.151.7✓✓✓40.852.4✓✓✓✓41.152.8✓✓✓✓41.9（52.1）54.9（65.2）涉及到未标记点的优化，这些未标记点在数据中所占的比例最大。在以前的一项研究中也观察到了这种趋势[45]。当将所提出的分量应用于具有暹罗分支的基线时，证实了与ArcPoint损失（AP）相比，性能增益主要源自熵块（EB），如第3行和第4行中所列。在1pt注释设置（0.005%）下，采用两种组件分别将基线和暹罗网络的性能提高了8.7%p和4.5%p我们对拟议的COM进行了更详细的分析，在补充的问题。5.2. ArcPoint损失我们进行了定量和定性实验，以验证ArcPoint损失的有效性。在选项卡中。3.将ArcPoint损失与常规的软最大交叉熵损失（第4行）和ArcFace（AF）损失（第6行）进行比较。为了公平比较，采用具有熵块的暹罗分支。ArcFace在1pt和1%注释上的性能优于传统的softmax交叉熵和L2损失，分别获得0.3%p和0.4%p增益。嵌入超球面（例如，ArcFace和ArcPoint）与传统的损失相比表现出更好的性能然而，与ArcPoint损失相比，ArcFace的增益不可避免地低，因为ArcFace不能用于未标记点的优化。相比之下，ArcPoint实现了改进（即，1.1%p和2.5%p）。为了验证ArcPoint的有效性，我们可视化了锚点和未注释点之间的余弦相似性从GaIA中排除熵块，净-591·↑↓↑图7. cosine相似度的比较从S3DIS数据集中随机抽取了50，000个锚点和具有高熵的未注释点。在每个热图中，行和列分别表示锚点和未注释的点。表4.对应于F（γ）的ScanNet-v2验证集的性能比较。F（γ）和（）分别表示H的γ分位数和正式测试得分辅助核算0↑0的情况。1 ↓0的情况。3 ↓0的情况。5 ↓0的情况。5 ↑0的情况。7 ↑F（0. 9）↑百分之一52.149.3（59.5）49.549.853.053.854.9（65.2）1pt39.237.1（47.4）37.738.140.641.141.9（52.1）工作进行了比较，包括暹罗分支的基线在图7中，深色垂直线表示与其他锚点相比，未标记的点具有低余弦相似性。也就是说，ArcPoint损失通过采用锚点和角边距惩罚来有效地5.3. 选择性循环为了验证针对优化效果的选择性惩罚（其集中在具有高熵的点上），在多个范围内试验F（γ）在选项卡中。4，观察到对包含高熵的点（F（0. 五比零。9）），则与将惩罚应用于具有低熵的点（F（0. 1比0。3））。特别是，虽然在惩罚（F（0））中对包含高熵的所有点进行了这是因为包含高熵的点这种趋势在1pt和1%的监督中始终观察到。换句话说，通过选择性惩罚来优化包括高熵的点是有效的。6. 讨论该研究旨在通过使用每个点的熵进行有效和精确的点云语义分割来减少认知的不确定性。该主张包括这样的前提，即网络的熵越低，语义分割结果越精确。然而，尽管网络包含低认知不确定性，它仍然可以估计错误。因此，检查每个类别的熵分布，并比较真预测和假预测的分布。在图8中，观察到图8. 熵分布与预测的比较。X和y轴分别表示熵和样本数量用红色突出显示的分布表示错误预测的分布。图9.训练步骤中错误预测的逐点熵变比较X轴表示熵。与包括暹罗分支的基线相比，GaIA减轻了具有低熵特别是，GaIA将地板和椅子类的错误预测分别减少了约6 M和0.6 M。此外，我们观察到错误预测的数量随着训练步骤后认知不确定性的减少而逐渐减少，如图所示。9.第九条。换句话说，GaIA，它消除了认知的不确定性，导致减少了高可靠性的错误预测。补充部分对高可靠性的虚假预报作了进一步的分析。7. 结论本研究旨在降低点云语义分割中的认知不确定性。提出了一种基于图形信息增益的注意力网络GaIA。图形信息增益和基于锚点的附加角裕度损失（称为ArcPoint）是我们的方法的主要贡献。具体地说，图形信息增益通过计算目标点的熵与其邻域的熵之间的相对熵来表示可靠信息。ArcPoint有效地优化了包含高熵的未标记点。在两个大规模数据集上的实验结果表明，与现有的弱监督点云语义分割方法相比，该方法具有更好的分割592引用[1] Dario Amodei ， Chris Olah ， Jacob Steinhardt ， PaulChris-tiano，JohnSchulman和DanMan e'。人工智能安全中的具体问题arXiv预印本arXiv：1606.06565，2016年。[2] Iro Armeni，Ozan Sener，Amir R Zamir，Helen Jiang，Ioannis Brilakis，Martin Fischer，and Silvio Savarese.大规模室内空间的三维语义解析。在IEEE计算机视觉和模式识别会议集，第1534-1543页[3] JaneBromley，JamesWBentz，Le´onBottou，IsabelleGuyon，YannLeCun，CliffMoore，EduardS¨ckinger，andRoopakShah.使用“连体”时间延迟神经网络的签名验证 International Journal of PatternRecognition and Artificial Intelligence，7（04）：669[4] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。[5] 程明美，乐辉，谢金，杨健。Sspc-net：半监督语义3D点云分割网络。在AAAI人工智能会议论文集，第35卷，第1140-1147页[6] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3：一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在IEEE/CVF计算机视觉国际会议论文集，第502-511页[7] Christopher Choy，JunYoung Gwak，Silvio Savarese. 4dspatio-temporalconvnets ： Minkowskiconvolutionalneural networks.在IEEE/CVF计算机视觉和模式识别会议论文集，第3075- 3084页[8] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE计算机视觉和模式识别会议论文集，第5828-5839页[9] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690[10] Francis Engelmann ， Theodora Kontogianni ， AlexanderHer- mans，and Bastian Leibe.探索空间情境以进行点云的三维语意分割。在IEEE计算机视觉工作室国际会议论文集，第716-724页[11] Di Feng，Lars Rosenbaum，and Klaus Dietmayer.实现安全自动驾驶：在激光雷达3d车辆检测的深度神经网络中捕获不确定性。2018年第21届智能交通系统国际会议（ITSC），第3266-3273页。IEEE，2018年。[12] Yarin Gal等人深度学习的不确定性2016年。[13] 本杰明·格雷厄姆、马丁·恩格尔克和劳伦斯·范德马滕。使用亚流形稀疏卷积网络的3D语义分割。InProceedingsof theIEEE计算机视觉和模式识别会议，第9224-9232页，2018年。[14] 乔治·弗朗西斯·哈普尔。无监督神经网络的低熵编码。博士论文，Citeseer，1997年。[15] George F Harpur和Richard W Prager。递归网络中低熵编码的发展。网络：神经系统中的计算，7（2）：277[16] Ji Hou ， Benjamin Graham ， Matthias Nießner ， andSaining Xie.利用对比场景环境探索数据有效的3d场景理解。在IEEE/CVF计算机视觉和模式识别会议论文集，第15587-15597页[17] Qingyong Hu，Bo Yang，Linhai Xie，Stefano Rosa，Yulan Guo，Zhihua Wang，Niki Trigoni，and AndrewMarkham. Randla-net：大规模点云的高效语义分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第11108[18] Wenbo Hu，Hengshuang Zhao，Li Jiang，Jiaya Jia，andTien-Tsin Wong.用于跨维场景理解的双向投影网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第14373-14382页[19] 胡泽宇，白旭阳，尚家祥，张润泽，董佳宇，王欣，孙光远，付洪波，戴秋兰. Vmnet：用于测地线感知3D语义分割的体素网格网络。IEEE/CVF计算机视觉国际会议论文集，第15488- 15498页，2021年[20] 李江，赵恒双，史少帅，刘舒，傅志荣，贾佳雅.Pointgroup：用于3D实例分割的双设置点分组。在IEEE/CVF计算机视觉和模式识别会议论文集，第4867-4876页[21] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？神经信息处理系统的进展，30，2017。[22] Gregory Koch，Richard Zemel，Ruslan Salakhutdinov，等.用于一次性图像识别的连体神经网络。ICML深度学习研讨会，第2卷。里尔，2015年。[23] 泰勒·拉邦特卡瑞安·马丁内斯和斯科特·罗伯茨我们知道我们不知道的地方：用于可信的几何不确定性的3D模型。arXiv预印本arXiv：1910.10793，2019。[24] 李梦恬、谢元、沈云航、柯波、乔瑞芝、任波、林绍辉、马丽庄。Hybridcr：通过混合对比正则化进行弱监督三维点云语义分割。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，第14930-14939页[25] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi ， and Baoquan Chen.Pointcnn ： x 变换点上的卷积NeurIPS，2018。[26] Zhengzhe Liu，Xiaojuan Qi，and Chi-Wing Fu.一件事一个点击：一种自训练的弱监督三维语义分割方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第1726-1736页593[27] 安德烈·马里宁和马克·盖尔斯。通过先验网络的预测不确定性估计。神经信息处理系统，31，2018。[28] Kaichun Mo ， Shilin Zhu ， Angel X Chang ， Li Yi ，Subarna Tripathi ， Leonidas J Guibas ， and Hao Su.Partnet：一个用于细粒度和层次化部件级3D对象理解的大规模基准测试。在IEEE/CVF计算机视觉和模式识别会议论文集，第909-918页[29] Tanya Nair，Doina Precup，Douglas L Arnold，and TalArbel.探索深度网络中用于多发性硬化病变检测和分割的不确定性度量。医学图像分析，59：101557，2020。[30] Alexey Nekrasov ， Jonas Schult ， Or Litany ， BastianLeibe，and Francis Engelmann. Mix3d：3D场景的上下文外数据增强。2021年国际3D视觉会议（3DV），第116-125页。IEEE，2021。[31] Charles R Qi， Hao Su ，Kaichun Mo ， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别集，第652[32] Charles R Qi，Li Yi，Hao Su，and Leonidas J Guibas.Point- net++：度量空间中点集上的深度层次特征学习。arXiv预印本arXiv：1706.02413，2017。[33] JoaquinQuinBagonero-Canadian ， MasashiSugiyama ，AntonSchwaighthorn，and Neil D Lawrence.机器学习中的数据集移位。Mit Press，2008.[34] Jacob C Reinhold，Yufan He，Shizhong Han，YunqiangChen，Dashan Gao，Junghoon Lee，Jerry L Prince，andAaron Carass.医学图像翻译中的不确定性验证。2020年IEEE第17届国际生物医学成像研讨会（ISBI），第95-98页。IEEE，2020年。[35] Abhijit Guha Roy ， Sailesh

下载后可阅读完整内容，剩余1页未读，立即下载