没有合适的资源?快使用搜索试试~ 我知道了~
点云领域自适应的自监督全局局部结构建模
Hehe Fan1Xiaojun Chang2Wanyue Zhang3,4∗Yi Cheng4Ying Sun4Mohan Kankanhalli1𝑥: 1.0𝑦: 1.5𝑧: 1.0𝑥𝑦𝑧63770可靠投票伪标签的点云领域自适应的自监督全局局部结构建模01 新加坡国立大学计算机学院 2 悉尼科技大学AAII实验室 3 德国马普计算机科学研究所 4新加坡科学、技术和研究局信息通信研究所0摘要0本文提出了一种用于深度点云表示学习的无监督领域自适应方法。为了对目标点云中的内部结构进行建模,我们首先提出通过放大或缩小点云并预测尺度来学习未标记数据的全局表示。其次,为了以自监督的方式捕捉局部结构,我们提出将3D局部区域投影到2D平面上,然后学习重构压缩区域。此外,为了有效地传递源领域的知识,我们提出根据共享特征空间中最近的源领域邻居的标签为目标样本投票伪标签。为了避免由于错误伪标签引起的噪声,我们只选择可靠的目标样本,其投票一致性足够高,以增强自适应性。投票方法能够在训练过程中自适应地选择越来越多的目标样本,从而增加标记的目标数据量,进而促进自适应。在PointDA(ModelNet-10、ShapeNet-10和ScanNet-10)和Sim-to-Real(ModelNet-11、ScanObjectNN-11、ShapeNet-9和ScanObjectNN-9)上的实验证明了我们方法的有效性。01. 引言0基于深度神经网络的大规模学习方法[7-10, 15, 25, 26, 35,36,39]构成了3D视觉的最新进展,并在机器人、无人机等智能平台的视觉感知中起着重要作用。0� 本工作的部分内容是在新加坡科学、技术和研究局实习期间完成的。0局部区域重构0全局尺度放大/缩小0压缩0将3D局部区域投影到2D平面上0深度神经网络0尺度预测0全局结构建模0局部结构建模0图1.点云领域自适应的自监督全局局部结构建模示意图。通过放大/缩小点云并预测尺度来建模全局结构。为了捕捉局部结构,将随机选择的3D局部区域压缩到2D平面上,并通过网络进行重构。0自动驾驶汽车等智能平台通常使用实时深度传感器(如LiDAR)来捕捉场景的准确几何信息,这些信息由3D点云表示。然而,深度神经网络通常需要大量标记的点云进行表示学习,这限制了其在真实世界中的可扩展性。为了缓解这个问题,无监督的点云领域自适应最近引起了社区的越来越多的关注[1, 27, 31,43]。领域自适应旨在将知识从一个有标签的源领域转移到一个相关但无标签的目标领域,其中源领域和目标领域共享相同的特征空间。然而,由于点的尺度、物体大小、密度、样式、传感器视角等不同,目标领域中的点云表示不可避免地偏离源领域中的相应表示,导致1211421163780类别1 类别2 类别3 类别40通过�个最近的源邻居投票(�=5)进行伪标签分配0未标记的目标领域 标记的源领域 投票03 � ? 3 30一致性阈值(�=0.8)下的可靠伪标签选择0伪0一致性:0.80伪0一致性:0.40伪标签:类别1 伪标签:未标记0图2.可靠投票伪标签生成的示意图。首先,目标点云的伪标签在特征空间中由几个最近的源邻居进行投票。然后,选择那些最近的源邻居标签足够一致的目标样本作为可靠的训练数据。0领域转移或分布转移问题中的一种解决方案是通过自监督学习直接从目标领域学习,即利用不同输入信号之间的关系或相关性。然而,大多数现有方法只关注未标记数据的全局或局部结构之一,例如预测全局垂直旋转[24],从随机重新排列的对象局部部分重建点云[29],通过Chamfer距离损失重建坍塌的局部区域[1]或定位曲率变化的局部区域[43]。另一种领域适应解决方案是通过对抗训练[27]和自我训练[43]将知识从源领域转移到目标领域。本文致力于利用自监督和迁移学习进行点云领域适应。首先,如图1所示,我们提出通过缩放一个维度的点坐标来学习点云表示,并根据其他两个不变的维度预测缩放比例。这样,网络能够以自监督的方式捕捉全局结构。为了建模局部结构,我们提出通过将3D局部区域投影到2D平面上,通过将随机选择的维度的点坐标设置为相同值,并通过均方误差损失恢复压缩区域。其次,如图2所示,为了增强从源领域的知识转移,我们提出了一种投票方法,为自我训练的目标样本分配可靠的伪标签。具体而言,伪标签是基于共享特征空间中几个最近的源邻居进行投票的。然后,只选择最近的源邻居标签足够一致的目标点云作为可靠的训练数据。随着网络变得更强大0在训练过程中,我们的可靠投票方法自适应地选择更多的目标数据,从而促进学习,因为标记的目标数据量增加了。为了评估我们的方法,我们在广泛使用的3D领域适应基准PointDA [27]上进行了实验,该基准由来自ModelNet40[37]、ShapeNet [2]和ScanNet[3]的10个共享类组成。此外,我们还在一个Sim-to-Real数据集[16]上进行了实验,该数据集分别由来自Mod-elNet40和ScanObjectNN[34]的11个共享类以及来自ShapeNet和ScanObjectNN的9个共享类组成。本文的贡献有三个方面:0•为了对未标记的目标点云的结构进行建模,我们提出了全局缩放预测和局部3D-2D-3D投影重建方法,用于点云领域适应。0•为了将知识从源领域转移,我们提出了一种投票方法,将可靠的伪标签分配给目标样本。该方法能够在训练过程中逐步选择更多的目标数据,从而促进学习。0•在两个数据集上进行的大量实验证明了所提方法在点云的无监督领域适应中有效提高了准确性。02. 相关工作0点云分类。点云分类是点云处理的基本任务之一。最近,已经提出了许多深度神经网络来解决这个问题[25,26,32,35,36]。这些工作中的大部分旨在直接处理点云,而不是将不规则点转换为规则的体素网格,以避免量化误差和高计算成本。由于点云本质上是一组无序点,并且对其点的排列不变,点云处理的关键是设计不依赖于点排序的有效点空间建模操作。我们的方法独立于这些工作,并使用它们来编码点云。自监督学习。为了从图像的内部结构中学习,自监督学习试图找到或利用不同输入信号之间的关系或相关性[5,6,13,21-23,38],例如修改输入并(1)预测发生了什么变化或(2)确保输出表示不变,例如从图像中学习补丁的空间上下文[5],学习计数对象[22],预测缺失的像素[23],恢复灰度图像的合理彩色版本[38]和解决拼图游戏[21]。自监督学习也可以应用于点云。Sauder和Sievers提出将输入点云分割成几个部分并重建点云[29]。Poursaeed等人提出将点云旋转为minΦ,Ω Lg,Lg = 1ntnt�i=1||Ω�Φ(si ⊙ P ti )�− si||22.(1)63790点云,然后预测旋转角度[24]。Shen等人提出使用点云中的几何感知隐式减少域偏差[31]。Achituve等人和Zou等人分别提出先混合两个点云,然后预测混合标签[1]和它们的角度[43]。此外,他们还分别提出了重建和定位变形的局部区域。在建模局部结构时,我们的方法受到这两种基于变形的方法的启发,但是实现了更好的准确性。无监督领域自适应。无监督领域自适应在图像上已经得到了很好的发展[11,19,28,30,33,40,41]。这些方法可以分为三类。1)对抗训练[19,28,33],旨在通过一个判别器直接学习无偏的表示,以判断学习到的特征是来自目标域还是源域,并通过一个特征生成器混淆判别器。2)风格转换[40],它使用生成对抗网络[14]将源图像转换为目标样式进行训练。3)带伪标签的自训练[4,11,20,42]。在源域上训练的网络具有一定的识别目标图像的能力。因此,可以为训练生成目标数据的伪标签,其中通常使用自适应学习[18]来减少噪声伪标签。基于图像的方法也可以用于基于点云的领域自适应。例如,Qin等人[27]采用对抗训练来学习无偏的点云表示。Zou等人[43]采用了自训练方法,配备了自适应学习,用于点云领域自适应。我们的工作也基于对抗训练和自训练,但我们提出了一种新颖的可靠投票方法来生成伪标签。与现有的利用最近源邻居的质心标签[42]或最近源邻居的预测概率[20]的方法不同,我们以投票的方式使用最近源邻居的标签。此外,我们将投票一致性集成到我们的方法中,以便在训练过程中排除不可靠的伪标签。此外,点云领域自适应[1,17]也在3D分割中进行了研究。本文侧重于通过对象或形状分类进行表示学习。03. 提出的方法0在本节中,我们首先在第 3.1节介绍和形式化点云域自适应问题。其次,在第 3.2节中介绍了用于自我监督全局结构建模的缩放上下方法。第三,在第 3.3节中描述了用于局部结构学习的三维-二维-三维投影重建方法。第四,在第 3.4节中,我们简要介绍了在本文中使用的对抗训练。第五,在第 3.5节中详细描述了可靠投票方法用于伪标签分配。最后,在第3.6 节中展示了我们方法的整体训练过程。03.1. 问题形式化0点云领域自适应的目标是将标记的源域 S = { ( P s i , y s i) } n s i =1 转移到无标签的目标域 T = { ( P t i ) } n t i =1,其中 P ∈ R m × 3 , y s i ∈ Y = { 1 , ∙ ∙ ∙ , c } ,m 是点的数量, c 是共享类别的数量。 n s 和 n t分别表示源点云和目标点云的数量。域适应的关键是学习一个映射函数或点云特征生成器 Φ,将不同域的点云投影到共享特征空间中。特征生成器 Φ可以通过现有的深度神经网络实现,例如 PointNet [ 25 ]和 DGCNN [ 35 ],它们将点云编码为向量,即 f = Φ( P)。在本文中,我们假设点特征,例如颜色、法线或其他信息,不可用。在这种情况下,域偏移可能由不同的点缩放、点密度、物体尺寸、传感器视角、物体样式等引起。其中一些偏移可以通过低级数据预处理和增强来减少。例如,点缩放和物体尺寸问题可以通过将对象坐标归一化到固定范围,例如 [ − 1 , 1]来解决。密度问题可以通过采样,例如最远点采样(FPS),将点云采样为相同数量的点来解决。透视偏移问题可以通过基于旋转的数据增强来缓解。然而,其他偏移,例如物体样式,必须通过高级表示来减少,这是无监督点云域自适应方法的目标。03.2.通过缩放上下预测进行自我监督全局(G)结构建模0为了使 Φ能够在没有人工标注的类别标签的情况下捕捉到目标数据的全局结构,我们提出通过缩放坐标并使用回归器 Ω基于点云特征 f 来预测缩放比例。具体而言,假设 s i = (s x i , s y i , s z i ) ∈ R +1 × 3 是第 i个目标点云的随机缩放向量。然后,点云的坐标 P t i 通过s i ⊙ P t i 进行缩放,其中 ⊙ 是逐元素乘法, s i用于广播乘法。最后,回归器 Ω 用于预测缩放比例 s i ,0需要注意的是,在预测缩放时,回归器 Ω实际上是基于三个维度的相对缩放,而不是绝对变化。例如,当我们将两个维度缩放2倍,并保持最后一个维度不变时,回归器 Ω会误解最后一个维度被缩小了0.5。为了避免这个问题,我们固定三个维度中的两个维度,只对一个维度进行缩放。⋯⋯&&minΦ,∆ Ll,Ll = 1ntnt�i=1vi ⊙ ||∆�Φ( ˆP ti )�− P ti ||2F ,(2)𝑥1𝑦1𝑧1𝑥2𝑦2𝑧2𝑥3𝑦3𝑧3𝑥4𝑦4𝑧4𝑥𝑚𝑦𝑚𝑧𝑚⋮⋮⋮01010𝑟 = 2ത𝑦 =1𝒗𝑖 1(𝑦2 + 𝑦4 + ⋯ ) 𝑥1𝑦1𝑧1𝑥2ത𝑦𝑧2𝑥3𝑦3𝑧3𝑥4ത𝑦𝑧4𝑥𝑚𝑦𝑚𝑧𝑚⋮⋮⋮𝒗𝑖 ∈ ℝ𝑚×1𝑷𝑖𝑡 ∈ ℝ𝑚×3𝑷𝑖𝑡 ∈ ℝ𝑚×3∆ Φ(𝑷𝑖𝑡)⋮3.4. Adversarial Training for Unbiased Represen-tation LearningLike most domain adaptation works, we also employ ad-versarial training [14] to reduce domain shifts and learn un-biased representations. In this paper, we employ Maximum63800共享特征空间0特征生成器 Φ0� 分类器 Ψ 10分类器 Ψ 20标记的源数据0伪标记的目标数据0回归 Ω0重构器 Δ0自监督学习0监督学习0对抗训练0可靠的0伪标签投票0不可靠的0可靠的0未标记的目标数据0尺度预测03D-2D-3D投影重建0图3.用于点云领域自适应的自监督全局-局部结构建模和可靠投票伪标签方法(GLRV)的示意图。该框架包括一个特征生成器Φ用于编码点云,一个回归器Ω用于预测自监督全局结构建模的缩放变化,一个重建器∆用于恢复自监督局部结构建模的压缩区域,以及两个分类器Ψ1和Ψ2用于监督学习和对抗训练。此外,还采用可靠投票方法来获得准确的目标伪标签,以增强领域自适应。0将点云的维度上升或下降一维。因此,si限制为{(s, 1,1),(1, s, 1),(1, 1,s)},其中s∈R+。此外,由于大幅缩放点云会改变它们的结构,s从一个小范围内进行采样,例如本文中的[0.5, 1.5]。03.3.自监督局部(L)结构建模通过3D-2D-3D投影重建0为了使Φ能够在没有点级人工注释的情况下学习局部结构,我们提出了一种3D-2D-3D投影重建方法。具体而言,类似于[1],我们首先将归一化的3D空间分割成多个区域。这样,一个点云被分成多个部分。然后,我们随机选择一个包含足够点数的部分进行投影重建。假设vi∈{0,1}m×1是一个掩码向量,用于指示第i个目标点云的选定点。回顾一下,m是点云中的点数。当vi[j]=1时,表示选择了第j个点。这样,选定的局部区域可以表示为Pt[i][vi]∈R||vi||1×3。第三,我们将选定的3D区域Pt[i][vi]投影到一个2D面板上。为此,我们随机选择一个维度r。然后,选定点的r维坐标被压缩到它们的均值。这样,我们得到局部投影点云ˆPt。最后,使用重建器∆来恢复投影区域,03D-2D投影02D-3D重建0图4.对第i个目标点云Pt的3D-2D-3D投影重建过程的示意图。选择的3D局部区域的点由掩码向量vi表示。然后,通过将r维坐标压缩到它们的均值,将局部区域投影到2D,得到局部投影点云ˆPt。最后,要求特征生成器Φ和重建器∆基于ˆPt重建压缩区域。0其中,vi被广播用于逐元素乘法。我们在图4中说明了3D-2D-3D投影重建过程。Classifier Discrepancy (MCD) [28] for adversarial training.MCD uses two classifiers Ψ1 and Ψ2, which map the fea-ture vector f to two probability vectors of length c, i.e.,Ψ1(f) ∈ Rc and Ψ2(f) ∈ Rc, respectively. Recall that cis the number of classes. For labeled data, MCD performssupervised-learning-based classification,minΦ,Ψ1,Ψ2 Ls,Ls = − 1nsns�i=1c�j=11[j=ysi ] · log�Ψ1(Φ(P si ))[j]�− 1nsns�i=1c�j=11[j=ysi ] · log�Ψ2(Φ(P si ))[j]�.(3)For unlabeled data, MCD first tries to maximize the predic-tion discrepancy of the two classifiers with fixed Φ,minΨ1,Ψ2 Ls − Ladv,Ladv = 1ntcnt�i=1||Ψ1(Φ(P ti )) − Ψ2(Φ(P ti ))||1.(4)Then, the generator Φ is trained to minimize the discrep-ancy with fixed classifiers,minΦ Ladv.(5)In this way, Φ is enforced to learn unbiased representations.Note that the adversarial training method is not our contri-bution.3.5. Reliable Voted (RV) Target Pseudo Label Gen-eration for Enhancing Domain AdaptationAlthough adversarial training provides a way to reducedomain shifts, its effectiveness is usually limited. In thispaper, we propose a self-training method to directly trans-fer the knowledge from source to target domain via targetpseudo labels. Specifically, our method employs a votingstrategy to assign pseudo labels to target samples.Thepseudo labels of target point clouds are voted based onthe labels of a few of their nearest source neighbors in theshared feature space. Suppose f ti and f sj are the features ofthe i-th target and the j-th source point clouds, respectively.Their similarity is calculated asetsij =f ti · f sj||f ti ||2 × ||f sj ||2 .(6)Then, the k-nearest source neighbors are selected as fol-lows,N(P ti , k) =�j | etsij ∈ top−k�{etsi1, · · · , etsins}��.(7)Third, the pseudo label of the i-th target point cloud is as-signed with a voting mechanism,˜yti = vote�{ysj | j ∈ N(P ti , k)}�,(8)where the vote function simply selects the majority as theoutput.Although we employ a k-NN based voting method, thepseudo labels can be still unreliable, which may add noiseinto training data and lead to accuracy drop. To address thisproblem, we propose to only exploit reliable target pointclouds, of which nearest source neighbor labels are con-sistent enough, to train the model with their voted pseudolabels,hi =0,�j∈N (P ti ,k) 1[ysj =˜yti ]k< λ,1,�j∈N (P ti ,k) 1[ysj =˜yti ]k≥ λ,(9)where λ ∈ (0, 1] is the consistency threshold and hi indi-cates where the i-th target point cloud is selected as a re-liable training sample. Finally, the selected reliable targetdata is used to train the feature generator in a supervisedmanner,minΦ,Ψ1,Ψ2 Lt,Lt = −1||h||1nt�i=1hic�j=11[j=˜yti] · log�Ψ1(Φ(P ti ))[j]�−1||h||1nt�i=1hic�j=11[j=˜yti] · log�Ψ2(Φ(P ti ))[j]�,(10)63810其中,h = ( h 1 , ∙ ∙ ∙ , h n t )是选择指示向量。注意,k和λ是我们可靠投票方法的两个超参数。此外,如下实验所示,我们可以通过将λ固定为1.0来进一步简化此方法。在这种情况下,k是该方法的唯一超参数,而较大的k表示更高的可靠性阈值。即使在固定k和λ的情况下,我们的可靠投票方法仍然能够在训练过程中自动和自适应地选择越来越多的目标数据。在训练的早期阶段,由于特征生成器Φ较弱且域偏移较大,只有少数与源样本相似且易于识别的目标点云达到一致性阈值,并被选为可靠的训练数据。当Φ变得更强大且域偏移减小时,目标表示变得更具有区分性,最近邻源样本的标签一致性增加。因此,更多的目标点云被添加到训练集中。相反,标记的目标数据的增加有助于训练。这样,特征生成器Φ逐渐改进。03.6. 整体训练0总之,我们的方法包括两种自监督学习方法,即上下缩放预测和3D-2D-3D投影重建,以及两种迁移学习方法for 1 to E doΦ,Ψ1,Ψ2Φ,∆minΦ,Ψ1,Ψ2 Lt with (P ti , ˜yti);minΨ1,Ψ2 Ls − Ladv with (P si , ysi ) and P ti ;✗✗✗✗✗64.2✓69.8✓67.9✓✓71.2✓66.7✓67.4✓✓73.8✓✓✓74.2✓✓✓✓✓76.2M10 → S1083.378.683.5M10 → S*1046.652.353.4S10 → M1079.875.075.7S10 → S*1049.951.448.7S*10 → M1070.769.368.2S*10 → S1064.463.667.963820算法1:GLRV训练过程0输入:标记的源数据集S = {(P s i , y s i )} n s i=1,未标记的目标数据集T = {(P t i )} n t i=1,用于投票的源邻居数k,可靠性或一致性阈值λ,特征生成器Φ,分类器Ψ 1 和Ψ 2,回归器Ω,重构器∆,每轮训练的epochs数E,每轮训练的轮次数R。输出:Φ,Ψ 1 ,Ψ 2,Ω和∆。初始化:随机初始化Φ,Ψ 1 ,Ψ 2,Ω和∆;随机初始化伪标签{˜ y t i } n t i=1;将选择指示器h初始化为0。for 1 to R do0for (P s i , y s i ) , (P t i , ˜ y t i ) in (S , T)do0min Φ , Ω L gwith P t i ;0if h i = 1 then0else0min Ψ 1 , Ψ 2 L advwith P t i ;0结束 结束结束0基于Φ,k和λ更新伪标签{˜ y t i } n t i=1和选择指示器h;结束0方法,即对抗训练和我们可靠的投票自训练方法。我们方法的框架如图3所示。整个训练过程如算法1所示。训练包含多个轮次。每轮之后,我们进行可靠的投票伪标签生成。每轮包含多个epochs。在每个epoch中,我们进行监督学习,上下缩放预测,3D-2D-3D投影重建和对抗训练。04. 实验04.1. 数据集0PointDA. PointDA [27]数据集是用于点云域自适应评估的广泛使用的基准数据集,从ModelNet40 [37]、ShapeNet [2]和ScanNet[3]中提取了10个共享类别的样本。因此,PointDA包含三个子集:ModelNet-10(M10),ShapeNet-10(S10)和ScanNet-10(S*10)。给定这三个子集,我们可以进行六种类型的自适应场景:M10 → S10,M10 → S*10,S10→ M10,S10 →0自我监督迁移0准确率 尺度 3D-2D-3D 对抗 伪标签 投票 可靠性0表1. 我们方法各组成部分的消融研究。在S*10 →S10场景下,我们在PointDA上进行实验。当没有使用任何组成部分时,模型直接在目标域上进行转移而没有自适应。0方法 M → S M → S* S → M S → S* S* → M S* → S0旋转 [ 24 ] 82.8 41.7 74.0 49.0 64.7 68.7 尺度 (我们的方法)84.0 46.0 76.4 48.3 66.2 69.80表2.垂直旋转和我们的上下缩放方法在PointDA上进行自我监督全局结构建模的比较。0自适应 Def-Rec [ 1 ] Def-Loc [ 43 ] 3D-2D-3D (我们的方法)0表3.垂直旋转和我们的上下缩放方法在PointDA上进行自我监督局部结构建模的比较。0S*10, S*10 → M10和S*10 → S10. Sim-to-Real.Sim-to-Real [ 16 ]数据集是一个相对较新的基准,由Mod-elNet40和ScanObjectNN [ 34]中的11个共享类别以及ShapeNet和ScanObjectNN中的9个共享类别组成。该数据集用于评估点云的元学习。在本文中,我们还使用该数据集来评估点云领域自适应。该数据集包含四个子集:ModelNet-11 (M11),ScanObjectNN-11(S*O11),ShapeNet-9 (S9)和ScanObjectNN-9(S*O9)。与PointDA不同,Sim-to-Real要求模型将知识从模拟的ModelNet或ShapeNet转移到真实世界的ScanObjectNN。因此,Sim-to-Real有两种自适应场景:M11 →S*O11和S9 → S*O9。DANN [12]74.8 ± 2.842.1 ± 0.657.5 ± 0.450.9 ± 1.043.7 ± 2.971.6 ± 1.0PointDAN [27]83.9 ± 0.344.8 ± 1.463.3 ± 1.145.7 ± 0.743.6 ± 2.056.4 ± 1.5RS [29]79.9 ± 0.846.7 ± 4.875.2 ± 2.051.4 ± 3.971.8 ± 2.371.2 ± 2.8DefRec + PCM [1]81.7 ± 0.651.8 ± 0.378.6 ± 0.754.5 ± 0.373.7 ± 1.671.1 ± 1.4GAST [43]84.8 ± 0.159.8 ± 0.280.8 ± 0.656.7 ± 0.281.1 ± 0.874.9 ± 0.5PointDAN [27]63.32 ± 0.8554.95 ± 0.87MetaSets [16]72.42 ± 0.2160.92 ± 0.7663830方法 M10 → S10 M10 → S*10 S10 → M10 S10 → S*10 S*10 → M10 S*10 → S100无自适应 83.3 ± 0.7 43.8 ± 2.3 75.5 ± 1.8 42.5 ± 1.4 63.8 ± 3.9 64.2 ± 0.80GLRV (我们的方法) 85.4 ± 0.4 60.4 ± 0.4 78.8 ± 0.6 57.7 ± 0.4 77.8 ± 1.1 76.2 ± 0.60表4. 在PointDA数据集上的准确率。我们的GLRV方法在六个自适应场景中取得了四个最佳准确率。0方法 M11 → S*O11 S9 → S*O90无自适应 61.68 ± 1.26 57.42 ± 1.010GLRV (我们的方法) 75.16 ± 0.34 62.46 ± 0.550表5.在Sim-to-Real数据集上的准确率。我们的GLRV方法在四个自适应场景上取得了最佳准确率。0不使用ScanObjectNN对象的背景。04.2. 实现0根据现有工作[ 1 , 16 , 43 ],我们使用DGCNN [ 35]作为特征生成器。对于PointDA,我们使用[ 1 , 43]的设置。对于Sim-to-Real,我们遵循[ 16]的设置。训练包含20轮,每轮50个时期。批量大小设置为32,学习率设置为0.001。默认情况下,可靠投票的k和λ分别设置为10和1.0。04.3. 与最先进方法的比较0对于PointDA,我们将我们的方法与最先进的基于点的域自适应方法进行比较,包括域对抗神经网络(DANN)[12],点域自适应网络(PointDAN)[27],重建空间网络(RS)[29],带有点云混合的变形重建网络(DefRec +PCM)[1]和几何感知自训练(GAST)[43]。我们在表4中报告了三个种子的平均准确率和标准误差。我们的GLRV方法在六个自适应场景中取得了四个最佳准确率。我们还将我们的缩放预测和3D-2D-3D方法与现有的全局(垂直旋转分类[24])和局部(变形重建[1]和变形定位[43])建模方法进行了比较。表2和表3的结果显示了我们方法的有效性。对于Sim-to-Real,我们将我们的方法与点云域自适应方法PointDAN [27]进行了比较,以及0元学习方法,即MetaSets[16]。我们对每个自适应场景进行了三次实验,并在表5中报告了结果的平均值和标准差。我们的方法优于域自适应和元学习方法。04.4. 消融研究0A)缩放预测、3D-2D-3D投影重建、对抗训练和可靠投票伪标签的影响。为了研究我们方法中每个组件的影响,我们在PointDA上进行了消融研究,使用S*10 →S10的场景。结果如表1所示。这四个组件都有效地提高了域自适应的性能。其中,可靠投票伪标签方法(Vote +Reliable)是最有效的,将基线(64.2%)提高了9.6%。需要注意的是,如果没有基于一致性的可靠目标样本选择,改进效果会显著下降。这是因为单一投票方法无法获得准确的伪标签,必然会给训练数据中添加噪声。B)逐渐选择更多的目标数据并逐步提高准确性。为了验证可靠投票方法在训练过程中能够迭代地和自适应地选择更多的目标数据的能力,我们展示了选择的可靠目标样本数量、它们伪标签的准确性以及测试数据集上的准确性,如图5a到图5f所示。在伪标签的准确性保持不变或略微变化的前提下,选择的目标训练数据越来越多,这意味着正确标记的目标点云数量增加。随着正确标记的目标数据增加,特征生成器在目标域上逐渐改进。C) k 和 λ对投票伪标签生成和自适应性能的影响。我们的可靠投票方法包含两个超参数,即 k 和 λ。为了研究这两个超参数的影响,我们在S*10 →S10的自适应中使用不同的 k 和 λ。结果如图5j到图5l所示。为了研究 k ,我们将 λ固定为1.0。当 k = 5 时,一个4816200.820.840.860.880.90(a) M10 → S104816200.530.550.570.600.620.650.680.700.72(b) M10 → S104816200.200.300.400.500.600.700.800.90(c) M10 → S*104816200.100.200.300.400.500.60(d) S10 → M104816200.400.500.600.700.800.90(e) S*10 → M104816200.500.600.700.800.904816200.100.200.300.400.500.600.700.804816200.800.830.850.880.900.930.950.984816200.600.630.650.680.700.730.750.784816200.500.550.600.650.700.750.800.854816200.780.800.820.840.860.880.900.924816200.600.630.650.680.700.730.750.7863840轮次0可靠数据准确性在测试数据集上的伪标签准确性比例0轮次0可靠数据准确性在测试数据集上的伪标签准确性比例0轮次0可靠数据准确性在测试数据集上的伪标签准确性比例0轮次0可靠数据准确性在测试数据集上的伪标签准确性比例0轮次0可靠数据准确性在测试数据集上的伪标签准确性比例0轮次0可靠数据比例 伪标签准确率测试数据集准确率0(f) S*10 → S100轮次0 k = 5, = 1.00 k = 10, = 1.00 k = 50, = 1.00 k = 100, = 1.00(g) k 对可靠数据比例的影响0轮次0 k = 5, = 1.00 k = 10, = 1.00 k = 50, = 1.00 k = 100, = 1.00(h) k 对伪标签准确率的影响0轮次0 k = 5, = 1.00 k = 10, = 1.00 k = 50, = 1.00 k = 100, = 1.00(i) k 对测试准确率的影响0轮次0= 0.6, k = 10= 0.8, k = 10= 1.0, k = 100(j) λ 对可靠数据比例的影响0轮次0= 0.6, k = 10= 0.8, k = 10= 1.0, k = 100(k) λ 对伪标签准确率的影响0轮次0= 0.6, k = 10= 0.8, k = 10= 1.0, k = 100(l) λ 对测试准确率的影响0图5. 可靠投票伪标签的影响。在PointDA上进行实验。(a) � (f):随着训练,提出的方法自适应地选择越来越多的目标数据,测试准确率逐渐提高。(g) � (l): k 和 λ 对投票伪标签生成和自适应性能(S*10 →S10)的影响。为了展示真实的趋势,测试准确率在没有源验证的情况下进行评估。0选择了大量带有噪声伪标签的目标样本。在这种情况下,该方法对自适应起到了负面作用。当 k增加时,可靠性增加,导致准确率提高。当 k太大时,虽然伪标签准确率增加,但选择的目标数据太少。因此,伪标签的优势减弱,相应的改进也减弱。为了研究 λ,将 k 固定为10。当 λ从1.0减小到0.6时,选择的目标数据变得不太可靠。由于添加了噪声,准确率下降。05. 结论0在本文中,我们提出了两种自监督学习方法,即上下缩放预测和3D-2D-3D投影重建,并提出了一种可靠的投票伪标签方法,用于点云领域自适应。0投影重建和一种可靠的投票伪标签方法用于点云领域自适应。在两个数据集上的实验证明了我们方法的有效性。然而,在选择目标数据时,我们的可靠投票方法没有考虑类别平衡问题。一个有希望的改进是将类别多样性整合到选择中,而不仅仅是可靠性。0致谢0这项研究得到了科学、技术和研究署(A*STAR)在其AME计划性资助方案(#A18A2b0046)下的支持。[5] Carl Doersch, Abhinav Gu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功