无监督域自适应下点云分类中的特征空间优化

83 浏览量更新于2023-10-16 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4166用于无监督3D域自适应的Adriano Cardace Riccardo Spezialetti Pierluigi Zama RamirezSamuele Salti Luigi Di Stefano意大利博洛尼亚大学计算机科学与工程系{adriano.cardace2，riccardo.spezialetti，pierluigi.zama}@ unibo.it摘要点云分类是三维视觉中的一项重要任务。然而，以前的作品，通常假设点云在测试时获得相同的程序或传感器在训练时。而无监督域自适应（UDA）则打破了这一假设，并试图在未标记的目标域上解决任务，仅在有监督的源域上进行搜索。对于点云分类，最近的UDA方法尝试对齐要素监督分类特征提取对齐特征空间通过诸如点云重构的辅助任务跨域，然而，这并不优化特征空间中目标域中的区分能力。相反，在这项工作中，我们专注于获得一个有区别的特征空间的目标域执行点云和它的增强版本之间的一致性。然后，我们提出了一种新的迭代自训练方法，该方法在UDA上下文中利用图神经网络来改进伪标签。我们进行了大量的实验，并设置了新的国家的最先进的标准UDA基准点云分类。最后，我们展示了如何我们的approach可以扩展到更复杂的任务，如部分分割。1. 介绍近年来，点云分类由于其与许多实际应用（例如场景理解、增强/混合现实、机器人技术和自动驾驶）的相关性而受到广泛关注[20，52]。深度学习为这个问题带来了数据驱动解决方案的希望，各种深度架构已经出现，以应对这一挑战[43，42，35，69，68，34，26，61，54]。这些方法的成功与包含标记形状的大型数据集的可用性密切相关[64，7]。然而，大多数现有的注释数据集关注干净和无遮挡的CAD形状，但在这些对象上训练的深度模型在面对具有不同特征的数据时会严重失败尤其是这种情况图1.建议的UDA方法。我们把一辆有监督的火车-使用自蒸馏方法对强增强的源数据进行聚类，该方法旨在不受监督地对目标形状进行聚类。这两种方法的组合导致跨域的特征空间中的对齐在合成CAD数据上训练模型，然后在用真实传感器获得的点云上进行测试，其中对象的部分可能由于遮挡而丢失，并且测量结果被噪声破坏。这里来帮助无监督域自适应（UDA），它追求解决一个超级，通过利用源域S中可用的标记数据，在目标域T中的定向学习任务，其中数据没有标签。在过去的几年里，越来越多的论文[4，43，1，2，73]已经解决了UDA，点云分类，使用流行的CAD模型合成数据集，如ModelNet40 [65]或ShapeNet [7]，以及真实数据集，如ScanNet [11]。研究的主线集中于通过辅助任务（如点云重建[1，46]、3D谜题排序[2]和旋转预测[73]）来学习目标域的有效特征空间。这些任务被称为辅助任务，因为它们不直接解决主要任务，但同时，它们对于学习目标领域的特征是有用的，而尽管这样的技术相对于基线（即，仅在源数据上训练），这样的任务的设计并不简单，并且通常导致次优解决方案。它需要确定一个可以驱动网络学习表示的方法S′′ ：St ronglyAugment edsourceDat a：TargetData：目标数据：：S′′S′′4167句子的区别性足以有效地在目标域中执行分类。尽管事实上它们迫使在来自两个域的对象上计算的特征之间进行某种程度的对齐，但这样的辅助任务并不明确地引导网络学习适合于目标域中的分类的例如，如果我们训练一个网络来重建形状，我们将得到类似3D形状的类似点云嵌入。然而，两个点云可以表示虽然形状相似但属于不同类别的对象，例如，橱柜和书架。因此，依赖于重构来执行域自适应可以对齐两个域之间的特征，其中相似的形状彼此靠近地嵌入，而不管它们的域如何，但是可从标记的源样本学习的决策边界可能不能有效地区分属于不同类别的目标样本。这也在[1]中显示，其中点云的简单去噪自动编码器仅略微提高了基线的性能。我们认为，类似的考虑适用于文献中提出的其他辅助任务，因为它们基于不能确保跨域类区分能力的学习目标来追求跨域特征对齐。我们支持这一主张，通过比较我们的建议与以前的工作在实验部分。相反，在本文中，我们从最近的自监督方法DINO[6]中获得灵感，通过将样本和自身的强增强版本约束为类似的分类来学习目标域的更多这通常是通过自蒸馏来实现的，自蒸馏是一种将神经网络的输出与从平均教师获得的输出进行比较的方法，即。网络本身权重的时间指数移动平均如[6]所示，这种训练方法允许聚类到同一类的样本。然而，与DINO不同的是，我们首次在3D UDA上下文中应用自蒸馏，其中样本是点云，主要目标是减少两个不同领域的表示之间的差距，而不仅仅是学习单个领域的聚类良好的特征空间。我们认为，自蒸馏是特别适合点云域适应由于特殊的3D数据增强，如平移，遮挡和逐点噪声，可以很容易地弥合源和目标域之间的差距。通过利用这种增强来强烈地增强源数据，并通过自蒸馏来增强目标域的类间可区分性，我们能够获得跨域的共享对齐特征空间。总体思路如图所示①的人。此外，DINO阻碍其广泛采用的一个主要限制是模式崩溃[6]，以前的作品通常采用多种技巧和超参数，如聚类约束[5]，预测，[21]和对比损失[66]，难以在其他上下文中应用和调整。在这项工作中，我们展示了如何将这种范式应用于UDA点云分类，其中模式崩溃是通过同时训练分类器标记的源数据，本质上分离的特征空间根据语义类别。在我们建议的第二步中，在最近发表的该领域的作品之后[4，73，46，17]，我们使用自训练，这是一种迭代方法，利用预训练模型（伪标签）的预测来提供对目标域的部分监督。然而，伪标签是嘈杂的，并且它们的天真使用通常会导致源域的主导类的过拟合，如[71，75]所示提出的战略[4] 为了完善它们，需要为此目的离线训练额外的网络，并基于k-NN查询定义手工制作的规则，限制了其一般适用性，而[73]采用了从2D世界借用的标准程序[74]。作为我们工作的进一步贡献，我们采取了不同的路径，并建议使用图神经网络（GNNs）[63]在自训练期间我们的主要直觉是，通过使用GNN，通过考虑数据集中所有目标样本之间的关系而不是孤立的单个样本来获得伪标签这允许在数据集级别进行推理，并能够纠正错误分类的样本，从而改进伪标签。此外，由于自蒸馏，目标特征空间被聚类，因此图的每个节点都可能连接到同一类别的样本因此，GNN可以通过在共享同一类的样本的邻域上进行推理来改进伪标签。这个过程可以在训练过程中在线完成，图结构随着时间的推移而演变，从而避免伪标签过拟合。项目页面https://cvlab-unibo.github。io/蒸馏/。简而言之，我们的贡献可以总结如下：1. 我们提出了UDA中的第一种点云分类方法，该方法利用自蒸馏来学习有效的表示来分类目标域中的点云;2. 我们展示了一种在UDA中使用GNNs进行点云分类的新策略。它能够在线细化伪标签，这降低了过拟合的风险，并且有利于有效的自我训练;3. 我们在标准基准上广泛地测试我们的框架[43]，并建立新的最先进的结果。此外，我们展示了如何我们的方法可以generalized部分分割的挑战性任务。41682. 相关工作无监督3D域自适应。无监督域自适应在过去几年中作为一种技术出现，该技术能够在源域上训练神经网络时减轻域偏移合成模拟）并在未标记的不同但相关的靶域（例如，真实数据）。UDA在2D世界中有丰富的文献，并且在图像分类[19，3，37，36，51，56]，语义分割方面[33，55，8，25]和对象检测[9，60，60]。PointDAN[43]是在UDA环境中解决点云分类的第一项工作;他们利用众所周知的最大分类器离散度（MCD）[45]来实现特征空间中的对齐。随后，[2，1，73]利用自我监督学习（SSL）在两个域上运行额外的任务。[4]还利用点云重建，但使用它来细化伪标签。尽管它的有效性，他们的管道是相当复杂的，并基于ad- hoc k-NN查询。这些作品的主要区别在于我们利用3D转换的方式：虽然它们使用诸如旋转或逐点抖动的变换来以自监督方式解决附加任务，但是我们使用输入空间中的这些增强来设计新颖的增强方法，该方法推动网络学习目标域的区分特征空间。自我训练。自训练[74]是域自适应中使用的一种常用技术，用于将噪声注释分配给目标样本，即伪标签[30]，因此部分超可以提供视觉来学习目标域的分布伪标签通常是相当不准确的，并且已经提出了许多方法来解决用于图像分类的UDA的这个问题[22，10，48]，语义分割。[40，33，27]，以及通过过滤或细化伪标签的对象检测[28，59]。在[4]中点云分类中也显示了自训练的潜力，其中通过辅助重建任务来细化伪标签。我们还利用这种强大的技术，并首次提出在UDA背景下使用图神经网络来细化伪标签。知识升华。使用软伪标签而不是硬标签的情况通常表示为知识蒸馏[24]。虽然最初引入蒸馏是为了提高小型神经网络，最近的作品重新审视了知识学习作为学习鲁棒特征的方式，以更好地初始化或图像检索[6]。特别是，DINO [6]提出了一种新的框架，能够利用给定域的相同图像的增强版本来学习鲁棒特征。和目标域。图神经网络（GNN）。最近的GNN模型[29，58，14]已经成为图形结构数据的强大架构，涵盖了广泛的应用：社会分析[31，44]、药物发现[16]和推荐系统[18，62]。关于2D半监督学习的丰富文献[29，58，12，32，47，44]已经提供了许多利用GNN在未标记节点上分配标签的作品。然而，所有这些工作，假设图中的每个类都有少量完美标记的节点，而这个假设在UDA场景中不成立据我们所知，[39]是唯一一篇使用GNN解决UDA图像分类的论文。他们专注于通过GNN提取互补特征，并将其与经典卷积神经网络（CNN）获得的特征相结合其他作品，如[13]和[15]，而是利用图结构（而不是GNN）与手工制作的标签传播算法来实现自适应。因此，我们建议使用GNN在自我训练时获得新的伪标签，以避免过度拟合，并允许迭代改进它们以收敛到更好的自适应性能。此外，我们是第一个显示其有效性的情况下，UDA的三维形状分类。3. 方法我们的框架分为两个主要步骤：自蒸馏（Sec. 3.2)和自我训练与伪标签细化（节。3.3与次级第3.4段）。总体管线在图1中描绘。2.我们开始介绍GNN的标记法并简要回顾有关GNN的基本概念。3.1. 预赛记法。在本文中，我们考虑UDA点云分类，即。给定一个具有N个元素x∈RN×3的点云，我们的目标是学习一个神经网络<$x→[0，1]K，该网络采用一个输入样本x并产生一个表示置信度的K维向量为K级的分数。这样的点云分类器由两个组件组成：=Φ 第一种是特征提取器网络， Φ ： R3→RD ，产生g∈RD，即.一个D维的全局特征描述符的形状，第二个是小MLP：RD→RK，其次是一个软最大算子，它映射g到一个向量的置信度得分p∈[0，1]K. 最后，通过argmax算子Λ：RK→ Y得到类预测。由于它在UDA设置中很特殊，我们可以使用一个源域，标签S={（xi∈ Xs，yi∈Ys）}ns，以及目标域i=1受DINO[6]的启发，我们建议将这种范式应用于T={x j∈Xt}nt ，其中点云未标记。tj=1解决3D对象的UDA场景。事实上，我们的目标是表明自蒸馏可以应用于开发3D增强，更重要的是，我们可以设计这样的学习协议，以减少源之间的差距我们的目标是获得一个分类器，能够使正确的预测T。GNN的背景图神经网络（GNNs）是设计用来处理图的模型，即. 套4169ΣEMAf′f′′图2.我们的框架的说明左：弱增广点云和强增广点云分别由两个域的两个变换函数f′和f′′生成。弱增强的形状被馈送到指数移动平均（EMA）编码r，老师Φn，而强增强的形状由学生Φ处理。在对应的嵌入之间应用一致性损失。右图：整个目标数据集在自我训练期间由GCNG在线处理，以迭代地改进和更新伪标签这些节点可选地通过表示关系的边彼此连接GNN是一种处理非结构化数据的强大工具，这要归功于其通过聚合信息来更新每个节点的表示的能力从相邻的节点。一个无向图G被表示为一个元组（V，E），其中V是N个顶点v i∈V的集合，E是边的集合.图的拓扑结构由邻接矩阵A ∈ RN×N确定，如果两个节点i和j连通，则Ai，j = 1. 中GNN的许多架构[63]，在这项工作中，我们采用了图卷积网络（GCN）[29]，它根据在自我培训过程中。实际上，在不强制特征空间中的紧凑性的情况下，由于域间隙，目标样本更可能分布在由分类器的决策边界定义的不同类别上。这是不期望的，因为这将导致伪标签中的过度噪声。为了实现我们的目标，我们使用两个数据增强函数f′，f′′：RN×3→RN×3，它们将点云x作为输入，并分别返回弱增强点云（x′）和强增强点云（x′′）然后，我们采用自我升华范例，我们训练一个学生编码器，Φ以匹配教师编码器Φ的输出。在部分-以下传播规则：ular，我们匹配两个全局形状描述符，Φ（x′）H（l+1）=σ.ΣD−1AD−1H （l）W（l）（一）和g= Φ（x′′），通过馈送弱增广的点云x′到教师和强增广2 2x”的学生。其中A=A+I表示具有自相关性的邻接y矩阵通过从[6]中获得灵感，我们设计了学生连接，I是身份矩阵，D是=jAij充当教师输出D上的概率分布维度，分别用q和q表示。这些问题-缩放因子，W（l）是层特定的可训练权重矩阵聚集规则之后是非线性ac-测试函数σ（·），例如ReLU。矩阵H（l）能力可以通过归一化两个编码器的输出来获得，即，g和g，使用softmax函数：处理网络的第l层，每行i表示求出该层中节点vi∈ V的特征向量我们q（g，τ）=D经验（g/τ）、exp（g（d）/τ）请读者参阅[63]以了解更详细的讨论。d=1exp（g/τ）（二）3.2. 自蒸馏q（g，τ）=Dd=1 exp（g（d）/τ）在本节中，我们将介绍在流水线的两个步骤中使用的自蒸馏模块。该组件的目的是在无监督的情况下为目标提取好的特征，直接有用的分类可以学习，即使没有直接监督是在T。我们的主要直觉是，学习一个聚类特征空间，使同一云的变化与目标之间的距离最小化，域，同时学习决策边界服从分类由于仔细增强的源域，是获得良好的伪标签的关键，其中，τ>0和τε>0是两个温度参数其分别控制学生和教师的输出分布的锐度。与[6]类似，我们通过观察ModelNet→ScanNet实验的源域上的模型性能，并将其设置为所有其他实验的相同值。为了强制增强点云的嵌入与原始点云的计算结果相匹配，我们最小化交叉熵：Lsd（g，g）=−q（g，τ）logq（g，τ）（3）4170不通过在学生网络Φ上运行反向传播，而教师的权重通过计算学生的权重的指数移动平均来更新。请注意，这两个网络共享相同的架构，但具有不同的权重。我们使用EMA作为教师网络，因为它是一种方便的方法，可以在整个训练过程中提供强大和稳定的功能，而无需训练另一个网络[53，23]。同时，我们向编码器馈送Φ批用变换函数f“强烈增强的源和目标点云，而Φ接收弱增强的版本，并最小化等式f”。（3）为目标域的数据学习期望的聚类特征空间在训练之后，通过将每个目标样本x1馈送到训练器中并选择具有最高置信度分数的类来计算伪标签的初始集合：t t数据扩充和转换功能。到在实现f′和f′′时，我们使用一组常见的点云数据增强技术，例如：抖动、弹性变形[72]、沿三个轴缩放。更具体地说，为了获得弱增广的点云x′，我们只使用抖动，而对于强增广的点云x′′，我们使用所有上述变换。此外，当执行合成到真实的自适应时，我们还包括随机点移除[50]。我们指的是柔软的-3.4. 自训练和伪标签细化在第二步中，我们利用和改进先前获得的伪标签。我们通过在迭代过程中交替进行自我训练和改进来做到这一点。自我训练。在这一步中，我们训练我们的分类器如果是第一次迭代，则从零开始使用伪标签。为了做到这一点，我们首先分裂焦油对-将样本和相关的伪标签（xi，yi）放入tw o不不为一些定性的例子收集材料。有趣的是，相同的3D转换可以用于模拟给定源数据的目标分布。事实上，虽然不可能准确预测两个域之间的偏移，但是可以通过积极的数据扩充来近似影响目标数据的干扰。例如，当在不同的合成域之间执行UDA时，形状可能具有相似的几何元素，但具有不同的风格[38，67]，这可以是不相交集，即分别与置信伪标签和非置信伪标签相关联，并且与初始化为空集的格式相关联。这些集合将有助于实现本节末尾概述的迭代过程然后，我们使用两个域的自蒸馏和监督来训练Φ和Φ，并对来自伪标签的目标进行监督：L=− Lce（x′′，ys）−λ Lce（x′，yt）− Lsd（x′′，x′）通过物体变形或伸长和缩放来模仿S.不1，y<$t∈Y<$tc（五）类似地，当从合成域移动到真实域时，第一，合理的假设是，在相同哪里λ=0的情况。二、于特.∈Y<$tn类将看起来类似于CAD模型，但是由于遮挡而将具有因此，如图图2（左），在训练时，我们重新利用变换函数f"来增加源数据，目标是最小化输入空间中两个域之间的间隙，并在特征空间中无缝地获得更好的对齐。将这种精心设计的增强应用于源数据，结合我们的蒸馏技术，对学生模型是有益的直观地说，通过蒸馏，我们的目标是聚类目标样本，而通过数据增强，我们迫使源集群，自然获得的分类损失，与目标对齐。3.3.伪标签初始化在我们的方法的第一步中，我们利用上一节中提出的自蒸馏模块来获得目标域的初始伪标签集。具体地说，如图1所示。2（左），我们训练分类器在学生特征提取器的顶部，并提供增强的源数据。我们使用交叉熵损失：Lce（x′′，ys）=−yslog（x′′）（4）请注意，与上一步一样，Lsd作用于两个域。我们在补充材料中对λ进行了灵敏度分析，表明我们的框架对这个超参数不敏感.精炼。如前一步所做的那样天真地使用伪标签通常会导致忽略在源域中代表不足的类，并且由于伪标签中的噪声而在目标域上获得次优性能[40，49]。因此，我们只运行几个epoch的自训练我们的直觉是，通过利用目标数据集的全局视图，与分类器提供的初始伪标签相比，GCN可以更好地例如，即使罕见类别的几个样本是紧密连接的（即，具有高度的节点），则它们的置信度可能很高，因为在它们的邻域中仅存在具有相同类别的节点。因此，全球网络的作用是双重的：它纠正伪标签;它决定哪些伪标签应该被认为是有信心的，从而从Ytn移动到Ytc。通过考虑目标域中的所有样本，我们可以获得图G，如图2所示。2（右），我们建立了邻接矩阵A基于余弦相似度S s4171全局形状嵌入g：.格，g1，ij>0训练也由于自蒸馏过程，伪标签变得越来越好，因为图结构改进了。因此，我们将前面的步骤插入到一个迭代Ai，j=∥gi∥∥gj∥0，否则（六）学习过程中，我们重复：其中k是经验上设置为0.95的相似性阈值，使得节点度（图的每个节点的邻居的平均数量）大致为10。我们在补充材料中提供了这个超参数的敏感性研究，表明我们的框架对w.r.t.到节点度。这对于内存约束是必要的，因为训练GCN所需的内存非常大，受到这个超参数的影响受[47]的启发，我们为G中的每个节点配备了嵌入g以及分类器G1提供的预测，即。矢量P_（？）这两条信息为GCN提供了有关几何结构和语义的对象的类。例如，可能的情况是两个点云具有相似的嵌入，但属于不同的类。当考虑真实领域时，这经常发生，其中具有缺失靠背的遮挡椅子可能容易被误分类为桌子，或者具有缺失腿的靠背本身可能被混淆为监视器。因此，向GCN提供关于K个类别之间的概率分布的附加信息可以帮助其获得针对具有类似嵌入的目标样本的更准确的伪标签。然后，我们计算GCN的输入为H（0）= Φ（Xt）+ Φ（Xt）WD（7）其中Xt是所有目标样本的集合，WD∈RK×D是一个可学习的投影矩阵，它将输出分布投影到D维空间中的K个类之后，在EQ。（1），我们堆叠三个图卷积层，其中最后一个作为节点分类器，返回大小为nt×K的矩阵。GCN使用在所有目标样本上计算的经典交叉熵损失进行优化，而不考虑约束。他们的伪标签。值得注意的是，预测值ψ（Xt），即GCN的输入的一部分，不一定匹配伪标签。然而，GCN可以学习输出相同的概率向量，tor_t（Xt），丢弃部分输入特征[47]，因此由于标签泄漏而无法在测试时进行泛化因此，我们随机屏蔽（即，设置为零）在训练时间输入的20%最后，经过训练，我们利用GCN提取置信样本，即。每个类别的前θ预测，用GCN的输出更新相应的伪标签，并将它们从Ytn移动到Ytc。迭代训练。我们认为，图高度影响GCN的输出作为恩-编码器改进了其嵌入多轮的自我，a) 自我训练与EQ。（5）e个时期的Φ和Φ，使用两个域的自蒸馏和监督，对来自伪标签的目标进行监督;b) 构建G并训练GCN以细化伪标签;c) 更新当前伪标签，将每个类别的GCN的前θ预测从Ytn移动到Ytc。为了逐渐增加Y的大小，θ从0开始并增长到1，以在训练期间包括越来越多的样本。在测试时，可以简单地丢弃GCN以及教师编码器ΦN，其中Φ N是执行推理所需的唯一网络虽然GCN可以在测试时使用以获得更好的性能，但我们丢弃它，因为这将引入额外的要求，例如将整个训练集保持在存储器中，以及计算每个测试样本的邻域。4. 实验为了证明方法的有效性，我们将点云分类的UDA最先进的方法（如[4，46，17]）进行比较，使用两种不同的骨干用于我们的特征提取器：PointNet [41]和DGCNN [61]。此外，我们比较了基线，即。一个简单的模型仅在源域上训练而没有任何适配，以及一个Oracle模型，其替代地假设具有所有可用的目标数据。前者构成了性能方面的下限，而后者被认为是上限，因为所有的目标数据可以被利用。最后，我们还进行了一个实验，对零件分割的查询任务，以显示我们的方法可以扩展到不同的任务比点云分类。在这种情况下，我们采用[2]中介绍的设置，这是对合成到真实场景的此类任务执行自适应的唯一方法。数据集。 UDA 用于点云分类的标准数据集是PointDA-10 [43]，它由三个子集组成，这些子集共享三个流行点云分类数据集的相同十个类：ShapeNet[7]，ModelNet40 [64]和ScanNet [11]。这就可以界定六种不同的情景，涉及合成到合成、合成到真实和真实到合成的适应。ModelNet-10由4，183个训练点云和856个测试点云组成，这些点云是从合成3D CAD模型中提取的。同样，ShapeNet-10仅支持合成数据。它是三个数据集中最大和最多样化的，它包括17，378个训练样本和2，492个测试样本。最后，ScanNet-10是唯一真正的数据集，4172部件分割：ShapeNetPart → ScanOBJ BG表1.使用PointNet对PointDA-10数据集的形状分类准确度（%）。对于每种方法，我们报告三次运行的平均结果。每列的最佳结果以粗体显示。方法ModelNet到ModelNet到ShapeNet到ShapeNet到ScanNet到ScanNet到ShapeNet ScanNetModelNetScanNetModelNetShapeNet平均值无适应83.343.875.542.563.864.262.2PointDAN [43]83.944.863.345.743.656.456.3DefRec+PCM [1]81.751.878.654.573.771.168.6[73]第二十三话84.859.880.856.781.174.973.0GLRV [17]85.460.478.857.777.876.272.7[46]第四十六话86.258.681.456.981.574.473.2（我们的）83.961.180.358.985.580.975.1Oracle93.978.496.278.496.293.980.5表2.使用DGCNN对PointDA-10数据集的形状分类准确度（%）。对于每种方法，我们报告三次运行的平均结果。每列的最佳结果以粗体显示。†表示DGCNN的更强大的变体，并且通过对测试集执行检查点选择来获得结果。训练点云6,110个，测试点云1,769个。它是从多个真实的RGB-D扫描中获得的由于这个原因，它表现出几种形式的噪声，如在注册过程中的错误和闭塞。从点分类开始，文献中没有建立零件分割的设置，我们参考[2]作为参考，因为它是唯一一个从ShapeNetPart[57]到ScanOBJ-BG [70]。该任务仅针对chair类解决，该类包含4个要分割的组件：座椅，靠背，底座，扶手。4.1. 结果分类. 我们在Tab中报告。1和Tab。2我们分别使用PointNet 和 DGCNN 的结果。对于 PointNet ，我们以73.1%的准确率建立了新的最先进水平。我们还注意到，我们的框架在6个设置中的5个设置中实现了最佳结果，在ModelNet→ScanNet和ShapeNet→ScanNet中存在很大差距（+5.1%和+4.4%），这是最具挑战性的场景，因为它们涉及合成到真实的UDA。特别是，我们强调了在ModelNet→ScanNet中获得的结果（61.6%），大约只比oracle少5%。我们还注意到，在处理相反的问题时，情况即真实到合成（最后两列）。这证明了我们的框架处理大型业务转移的能力至于合成UDA，我们在ModelNet→ShapeNet中观察到良好的性能，而在ShapeNet→ModelNet中我们是第二好的模型。我们将与 RefRec 的差距归因于 ShapeNet→ModelNet 的特殊性，其中源域是一个com-表3.从ShapeNetPart到ScanOBJ-BG的椅子分割的每个部分和平均mIoU（%）复杂的数据集，而目标是一个简单的，形状清晰可辨的类，即。具有相似形状的对象属于同一类。在这样的特定场景中，RefRec等基于重建的方法会大放异彩，因为重建点云的辅助任务自然倾向于在特征空间中形成适合分类的形状良好的聚类此外，我们使用DGCNN作为我们的主要骨干重复相同的实验。我们再次达到了最先进的结果（75.1%），显示了我们的方法对其他架构的通用性。总的来说，我们观察到类似的趋势w.r.t.选项卡. 1，在几乎所有配置w.r.t.以前的作品。部件分割。虽然我们的主要目标是提出一种方法，旨在解决UDA点云分类，我们的方法可以很容易地扩展到更具有挑战性的任务，如部分分割，其中包括分配给每个顶点的形状一个对象类别。与点云分类一样，我们进行了第一步的自蒸馏，以无监督地提取目标域的好特征。然后，我们简单地通过将输入形状的每个顶点视为图中的节点来调整自训练步骤。在这种情况下，节点表示由从主干提取的局部特征向量组成，这是一个PointNet，如[2]所示。整个图理论上由数据集中所有形状的所有点组成。然而，将所有顶点保存在内存中是不切实际的，我们执行第2节中解释的过程。3.2通过考虑整个数据集的20000个点进行每次精化迭代。结果报告于表中。3.第三章。评估度量是平均交集对并集（mIoU），其针对椅子类的所有样本的然后，报告各部分的平均值。首先，我们观察到我们的完整框架（最后一行）超过了前一种方法（第二行）的10%以上。此外，我们强调的有效性，自我升华的部分分割任务。事实上，当只执行我们的管道的第一步（选项卡的第三行。（3），我们已经克服了[2]的7.7%。自我升华与知识升华。在选项卡中。 4，我们消除了我们的自我蒸馏策略，并将其与一个明显的替代方案，即，应用等式（3）在输出空间。在这种情况下，Eq. (3)应用于分类器的输出而不是骨干的特征向量。正如在第二节中所解释的。2，该协议类似于知识蒸馏范式[24]，方法座椅回来基地臂Avg.源仅67.8545.6084.8914.8753.303D拼图[2]65.7049.1185.9121.4055.53Self-dist（我们的）71.179.365.237.063.2（我们的）74.782.767.937.765.7方法ModelNet到ModelNet到ShapeNet到ShapeNet到ScanNet到ScanNet到ShapeNet ScanNetModelNetScanNetModelNetShapeNet平均值无适应80.541.675.840.060.563.660.3PointDAN [43]80.245.371.246.959.866.261.6DefRec+PCM [1]81.150.354.352.854.069.060.33D拼图[2]81.649.773.641.965.968.163.5参考文献[4]81.456.585.453.373.073.170.5（我们的）83.461.677.357.778.679.873.1Oracle93.266.29566.295.093.24173步骤ceSDKDModelNet到ShapeNetModelNetScanNet到ShapeNet到ModelNetShapeNet到ScanNetScanNet到ModelNetScanNet到ShapeNetAvg✓80.541.675.840.060.563.660.3PL初始化✓✓82.157.277.655.071.072.169.2✓✓79.654.079.253.253.970.065.0表4.消融研究是我们框架的第一步。ce：源域上的交叉熵损失sd：自蒸馏损失0.620.60.580.560.54 00的情况。20的情况。40的情况。60的情况。811 .一、21 .一、41 .一、6当量(3)在用于训练伪标签模型的特征空间中; kd：步骤·104标准知识蒸馏损失[24]在输出空间。我们报告三次试验的平均结果.步骤StrefSDModelNet到ShapeNetModelNet到ScanNetShapeNet到ModelNetShapeNet到ScanNetScanNet到ModelNetScanNet到ShapeNetAvg✓82.759.374.956.477.177.871.4适应✓✓83.460.978.256.377.979.472.7✓✓✓83.461.677.357.778.679.873.1表5.我们算法的第二步。st：用Tab最后一行的伪标签进行自训练。4型号;标准偏差：- 在调整步骤中的自蒸馏损失; ref：使用GCN对伪标签进行细化。我们将三次运行的结果平均。使用软伪标签。虽然我们在这两种情况下都观察到了仅在源数据上训练的基线的改进（第一行），但当部署自蒸馏时，改进是两倍大，这表明了在特征空间中工作的重要性。此外，通过使用自蒸馏获得的绝对值的大幅改善（平均+8.9%）表明其在减少域间隙方面的有效性，验证了我们使用它来解决问题的直觉UDA有趣的是，我们观察到ShapeNet→ModelNet的不同行为。这也可能是由于设置的特殊性。由于源域比目标域大得多，也更丰富，输出空间中的伪标签是相当准确的，这是有道理的。在这种情况下更有效使用自蒸馏训练的模型5.最后，我们强调了自蒸馏获得的结果如何在所有sce- narios中明显优于基于自监督学习任务的竞争对手所获得的结果，例如。Tab的第2行（DefRec）和第3行（3D拼图）1，分别基于重建和3D拼图借口任务。这为我们关于自蒸馏在3D UDA辅助任务方面自我训练策略。在选项卡中。第五，我们做一个AB-我们的管道第二阶段的定位研究我们开始通过应用最简单的策略来执行自训练（第一行），即，使用目标域的所有伪标签以及来自源域的标签来训练单个分类器。这提供了具有竞争力的结果（ 71.4% ），已经优于先前的最先进的模型（70.5%），再次展示了自蒸馏获得UDA伪标签当还激活所提出的由于GCN（第二行）的全局推理而迭代地改进伪标签的在线细化时，我们欣赏与朴素自训练相比的另一个大的改进，这验证了所提出的迭代细化的重要性。图3.在ModelNet→ScanNet上训练期间测试目标域的准确性。我们的模型（蓝色）在训练过程中不断改进伪标签，这与伪标签固定的简单自训练策略（红色）不同。最后，在最后一行中，我们报告了在自适应步骤中通过激活自蒸馏获得的结果，这导致了最佳性能，并且是所有其他实验中使用的模型。作为对我们框架中设计决策重要性的进一步验证，我们绘制了火车-图中的合成到真实ModelNet→ScanNet的曲线。3.第三章。曲线表示焦油上的测试准确度在训练期间获得域。红色图显示了朴素自我训练的成功率，其对应于表1的第1行。5.另一方面，蓝线表示使用我们的完整模型获得的训练曲线，即。Tab的最后一行5.我们可以理解，经过一定数量的步骤，蓝线总是在红线之上。这是一个明确的证据，表明在我们的完整模型中，伪标签随着时间的推移而改进，而在朴素的情况下，模型开始过拟合，导致平台。我们还希望指出，这种行为是一个好的UDA方法的关键，因为在没有目标标签来执行验证的情况下，基本上不可能决定何时停止训练过程。5. 限制所提出的方法的主要限制是手工制作的数据增强功能，用于增强源和目标数据。为此，我们想研究学习能够自动模拟两个域之间的差距的转换的可能性。这将允许动态地处理以下情况：需要增强，例如ShapeNet→ModelNet。6. 结论在这项工作中，我们探索了一种新的策略来学习目标域上的特征，而不需要注释。我们首先提出引导网络学习目标域的聚类特征空间，并保持适合分类的可区分性。此外，我们还引入了一种新的细化策略，该策略能够通过GNN在目标域上进行全局推理，并在训练过程中纠正错误分类的样本。结合这两个贡献，允许建立国家的最先进的参考基准。最后，我们展示了如何将这些贡献用于更具挑战性的任务，如零件分割。精度4174引用[1] Idan Achituve，Haggai Maron，and Gal Chechik.点云上用于域适应的自监督学习。在IEEE/CVF计算机视觉应用冬季会议论文集，第123-133页[2] Antonio Alliegro，Davide Boscaini和Tatiana Tommasi。联合监督和自我监督学习的三维现实世界的挑战。2020年第25届国际模式识别会议（ICPR），第6718-6725页[3] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。第30届神经信息处理系统集，第343-351页，RedHook，纽约，美国，2016年Curran Associates Inc.[4] Adriano Cardace ， Riccardo Spezialetti ， Pierluigi ZamaRamirez，Samuele Salti，and Luigi Di Stefano. Refrec：通过形状重建的伪标签细化，用于未监督的3D域自适应。2021年IEEE，2021。[5] Mathilde Caron，Piotr Bojanowski，Armand Joulin，andMatthijs Douze.用于视觉特征的无监督学习的深度聚类。在欧洲计算机视觉会议论文集（ECCV）中，第132-149页[6] Mathil deCaron ， HugoTouvron， IshanMisra ， Herve'Je'gou，Julien Mairal，Piotr Bojanowski，and Armand Joulin.自我监督视觉转换器中的新兴特性在2021年国际计算机视觉会议（ICCV）的开幕式上[7] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis

下载后可阅读完整内容，剩余1页未读，立即下载