点云领域自适应方法基于几何感知隐式的非监督学习

121 浏览量更新于2023-10-25 收藏 2.51MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7223基于几何感知隐式的点云领域自适应沈悦凡1杨燕超2 <$王弥艳3 何旺3郑友义1 <$LeonidasGuibas21浙江大学22斯坦福大学3北京大学摘要作为一种流行的几何表示，点云在三维视觉中引起了广泛的关注，导致了自动驾驶和机器人技术的许多应用。点云学习的一个重要但尚未解决的问题是，如果使用不同的过程生成或使用不同的传感器捕获，则相同对象的点云可能具有显著的这些不一致性导致了域间隙，使得在一个域上训练的神经网络可能无法在其他域上泛化减少域间隙的典型技术是执行对抗训练，使得特征空间中的点云可以对齐。然而，对抗训练很容易陷入退化的局部极小，导致负的适应增益。在这里，我们提出了一种简单而有效的方法，通过采用学习几何感知隐式的自监督任务，在点云上进行非监督域自适应，这在一次拍摄中起着两个关键作用。首先，通过隐式表示保留点云中的几何信息以用于下游任务。更重要的是，特定领域的变化可以有效地学习了隐空间。我们还提出了一种自适应的策略来计算任意点云的无符号距离场，由于缺乏实际的形状模型。当与任务丢失相结合时，所提出的方法优于依赖于对抗域对齐和更复杂的自监督任务的最先进的无监督域自适应方法。我们的方法在 PointDA-10 和GraspNet数据集上进行了评估。代码和数据可从以下网址获得：https：//github.com/Jhonve/ImplicitPCDA.1. 介绍在不同设置下捕获的点云可能会表现出显著的变化，当神经网络在与训练域不同的域上进行测试时，这些变化会导致性能下降。这可能是麻烦的，如果网-作者来自浙江大学，隶属于CAD CG国家同等贡献，†相应的作者。PointDA-10GraspNetPC-10沙发香蕉监测剪刀灯可以植物菜图1.真实世界中的点云表现出由数据捕获管道中的差异引起的各种几何变化。考虑到这些变化，在一个点云集合上训练的网络因此，需要适应来缓解泛化问题，特别是对于注释稀缺的领域。由于时间限制或有限的计算预算，不能对工作进行微调。更常见的是，由于高注释成本，测试域上的微调所需的标签根本不可用，这是我们感兴趣的情况，并且总是被公式化为无监督自适应（UDA）问题。在UDA中，源域带有丰富的注释，而目标域根本没有注释。成功的结构域适应的关键在于两个方面。首先，这两个域必须在点云空间或特征空间中（统计上）对齐，使得到输出空间的共享映射现在可以跨域在相同的基础上操作。此外，域之间的比对必须在语义上有意义，例如，来源中的主席应与目标中的主席保持一致。否则，即使两个域对齐，共享映射仍然无法预测标签7224现有的点云UDA方法主要依赖于两种机制来对齐域。一种是执行域对抗训练，并强制来自两个域的点云的特征由于对抗性训练是不稳定的，很容易陷入退化的局部最小值，因此几乎不能保证对齐在语义上是有意义的。例如，对抗性训练可能会在对齐域时消除太多的变化，从而扭曲点云中的几何信息。在这种情况下，对准可能导致负的自适应增益。额外的困难在于，对齐过程可能对点云的判别器的架构高度敏感，如[32]所示，从而使对齐更加不可控。另一种机制是通过学习自监督任务来执行域对齐。潜在的动机是，一个精心设计的自我监督的任务可以促进学习领域不变的功能，因为任务本身是跨域共享提出了一组不同的精心设计的自监督任务，其重点是预测任务，其中自监督标签是通过增强或修改原始点云来生成的。例如，旋转角度分类[40]和变形回归[1]。与领域对抗训练相比，自监督学习通过调整自监督任务来实现对已学习的不变量的显式控制。因此，人们也可以通过这个旋钮来规范对准过程。我们采取后一种方法，但我们诉诸于自我监督的任务，其中监督来自点云本身，而不是手动设计的分类标签。具体来说，我们要求一个潜在的空间，通过隐式函数编码的点云的底层几何。由于几何图形被显式地建模和保留，因此这些隐式或隐式应该为主要任务保持足够的信息，并有助于防止由对齐期间的失真引起的语义不匹配。由于缺乏形状模型，我们提出了一个自适应的无符号距离场，使训练implanet任意点云，特别是对于那些稀疏和不规则采样。在第一轮适应之后，我们遵循文献，在目标领域应用我们在两个主要的点云数据集PointDA-10 [22]和GraspNet [9]上进行了实验，以报告所提出的方法的性能并评估每个组件的有效性。我们的贡献是：• 第一种方法利用隐式函数学习作为点云上无监督域自适应的自监督任务。• 有效的训练策略，使我们的方法对点云中显示的各种工件具有鲁棒性。• 在两个主要数据集PointDA-10 [22]和GraspNet [9]上的最新性能。此外，我们是第一个在GraspNet上报告结果的公司。2. 相关工作2.1. 点云为了处理点云的不规则性和置换不变性，已经提出了各种方法。PointNet [20]和PointNet++ [21]使用最大池作为置换不变的局部特征提取器，后者以分层方式收集局部特征。DGCNN [33]将点云视为图形，并动态更新图形以聚合特征。最近，Point Trans- former [37]采用Transformer进行点云处理，在多个基准测试中实现了最先进的性能。2.2. 无监督域自适应已经提出了大量的工作来对2D图像执行UDA，2D图像可以分为两类，即，基于域不变特征学习的方法和用于学习域映射的方法。前者[10，12，14，23，25，30]最小化特征空间中两个分布之间的差异，而后者[3，11，29]使用神经网络直接学习从源域到目标域的翻译，例如，CycleGAN [39]. [28]通过提出用于保留底层几何形状的差分对比学习策略，尽管它们的差异，领域对抗训练在这些方法中被广泛利用。还提出了几种有用的技术，例如，伪标记[24]和为域自适应定制的批量归一化[16]。虽然在二维图像或深度上已经做了很多努力，但三维点云的UDA仍处于早期阶段。如第1、UDA上的点云大致可以分为两类。第一类[22]直接将2D图像中使用的域对抗训练扩展到3D点云，以在局部和全局层面上对齐特征。然而，与以前的工作在2D域，对抗方法在3D点云不能很好地平衡局部几何对齐和全局语义对齐。UDA关于点云的最新作品属于第二类，即，专注于在点云上设计合适的自监督任务，以促进学习域不变特征，我们将在以下小节中详细讨论。除了物体点云上的UDA之外，还提出了几种方法来解决LiDAR点云上的特定域间隙，其中常见的因素是深度缺失和传感器之间的采样差异两个人[38]7225P∈我◦YPD {P}我我D {P Y}分类隐式表示GT标签分类器编码器距离预测采样点解码器监督...计算距离自监督目标域源域图2.概述了点云上无监督域自适应的拟议框架。我们框架中的两条路径（监督和自我监督）用不同的颜色标记监督路径将来自源域的点云作为输入，并使用地面实况标签计算交叉熵损失自监督路径从源和目标域获取点云，并使用采样点与输入点云之间的自适应无符号距离计算自监督损失请注意，在自定进度的自训练阶段，分类器也使用伪标签进行训练。和[26]使用CycleGAN [39]从合成数据生成更逼真的Li-DAR点云，即，Sim2Real用于最小化源域和目标域之间的特征距离。完整标签[36]利用从稀疏点云重建的完整表面上的ST3D [35]提出了一个具有课程数据增强的特定任务的自我训练管道。2.3. 点云以前的作品设计了各种自我监督的任务来对齐这两个域。DefRec [1]提出了变形重建，[15]将其扩展为可学习的变形任务，以进一步提高性能。[2，27] shuffleand restore the input point cloud改善歧视。[4，8，40]进一步结合自我学习策略和他们提出的自我监督任务。此外，[8，40]提出了自我监督任务，以在局部和全局层面上对齐特征。然而，这些方法存在两个主要问题。其中一些不能应用于更具挑战性的数据集，其中对象点云未对齐并且被严重遮挡，导致旋转预测[8，19，40]和恢复[2，27]任务中的模糊性并能通过对对准高级特征[1，15，27，40]，即，在语义空间中，它们可能丢失底层几何的有价值的信息，这限制了它们对更一般的几何处理任务的适用性。受这两个观察结果的启发，我们设计了一个任务，其中点云本身在两个域上生成自我监督，并且特征被对齐以保留几何图元。对齐的特征可以进一步用于高级语义提取，使我们的方法更通用于各种主要任务。3. 方法我们在点云上处理无监督域自适应（UDA）设RN×3是由三维空间中N个点因此，令s= s，s是来自源域的点云及其地面实况标签。类似地，t=t是标签缺失的目标域点云的集合。我们的目标是训练一个网络Θ，即，使用来自源域的标记的点云，使得它可以在目标点云上很好地工作而无需进一步标记。关键是对齐来自两个域的点云，并且同时确保对应关系在语义上是有意义的，即，相同类别的点云预期在适应之后被对准。人们可以应用领域对手来对齐领域，然而，对齐难以控制，并且可能由于对抗训练的困难而导致负适应增益。我们采取的策略是利用跨域共享的自我监督任务，以多任务的方式进行对齐。这使得能够通过选择适当的自我监督任务来明确控制对准的意义。在我们的框架中有两个途径，如图所示。二、主要任务由Φ和Φm执行，即，其中Φ是从点云中提取特征的编码器，并且Φ是主任务头（分类器）。同样，自我监督任务由Φ（与主任务路径共享）和可在两个域上训练的Φ和Φ执行。接下来，我们将详细介绍每个建议的组件及其培训。3.1. 自监督几何感知隐式隐式表示能够保留给定形状的复杂细节[6，18]。代替高质量的形状重建，我们利用隐式表示空间来对齐来自不同域的7226PΣ∥Σ.PPΣ||Q|(a)（b）（c）输入点云基础曲面采样点距离零距面最近邻近似例如，当查询点非常接近底层表面时，距离可能仍然很大，如图11所示。3（b）款。因此，学习的隐式空间可能无法忠实地表示点云的几何形状，并且可能导致跨域的性能下降。为了防止在近似中的几何形状的意外失真，我们提出了一种自适应夹紧技术的基础上的全局平均统计的本地几何形状，图3.自适应无符号距离字段。(a)计算从采样点（三角形）到输入点云中最近点的距离的示例。(b)：当采样点靠近表面时，由于以下原因，其最近邻距离仍然很大etry对于输入点云中的点p j，我们首先计算p j与P内的M个最近邻点之间的距离的平均值：稀疏性(c)：自适应无符号距离场和零表面，其中dM是自适应箝位值。d=1pjM mM-pj（2）通过执行以下自我监督任务。给定点云P，无论是完整的还是部分的，共享编码器Φ首先将其映射到特征向量c=Φ（P）其中p m来自M个最近邻，我们将点p j的局部亲和度命名为d j。然后，我们计算点云中所有点的局部亲和度的平均值，即，作为对未知的潜在的1−1形状，其中P被观察到。设Q ∈RK×3dM=N老Nj=0dj，其为自适应箝位阈值。是单位立方体中的K个随机采样点。通过定义，隐式值（例如，对于每个点q∈ Q，到表面的距离）可以被解码为：并在下文中用于计算自适应点云的无符号距离场的近似值：fP（q）=fs（q，c）（1）d（q）=如果> dMP0否则（三）其中fP是以输入点云P为条件的基础几何的隐函数。后其中，p（q）是查询q在文献[6，17]中，解码器将查询点的关联和编码的隐式表示作为输入sentation.由于点云可以是局部的，我们将隐式值设置为到底层表面的无符号距离。这些值的计算如下所述。3.1.1点云点云. 另外，注意dM取决于并且可以在点云之间变化以适应不同的稀疏度级别。自适应无符号距离场的一个例子可以在图中找到。3（c）款。如所观察到的，无符号距离场通过等式（1）近似。（3）捕捉点云的潜在几何形状，并且对sam更鲁棒有问题。利用自适应无符号距离场dP，用于学习隐式空间的自监督损失为：与重建不同的是，在重建中，已知的网格可以用于计算距离值的地面实况，我们只能访问点云。但随着=1f|q ∈QP|q∈QP（q）−dP（问）|（四）我们的目标是利用隐式表示来对齐域并减少性能下降，我们不需要隐式表示来完美地表示底层几何和重建点云。为此，我们可以计算无符号距离场的近似值来监督隐空间的训练。一种直观的方法是通过同一查询点与其离点云最近的相邻点之间的距离来近似从查询点到下垫面的无符号距离（图1）。3（a））。如果对点云进行密集且均匀的采样，则这可能有效然而，在实际应用中，由于传感器噪声和场景中复杂的几何形状，点云通常是稀疏和不规则采样的。这些特性可能会导致问题，这里，是采样查询点的基数。然后，讨论了在整个管道施工过程中遇到的几个问题和我们的解决办法。3.1.2点云增强抖动。点云主干通常在训练期间假设固定数量的点，例如，单个点云的1024个点。然而，在实践中，由于不规则的采样或不同的形状大小，单个点云中的点的数量可能不相同。例如，在无监督域自适应基准PointDA-10 [22]中，来自ModelNet和ScanNet的点云可能具有非常不同的点数。一个普遍我L7227PPSi、j我P我Y不Y◦S我我CLSNsi、jM我 J22{P Y}1ΣΣ不（a）（b）（c）（d）（e）图4。（a）：输入具有复制的点云顶行中的点云只有38个唯一点，但它总共包含1024个重复点，以说明主干的固定输入大小(b)：范围[0。03，0。06]（而不是复制点），这只是扩大每个点。顶行中的点随机着色，更好的辨别力（c）：从利用（b）中的随机抖动方案学习的隐式模型采样的点云我们可以观察域变化，我们选择屏蔽掉随机选择的点的局部邻域作为额外的数据增强。让在随机遮罩之前是点云，是通过丢弃半径为rm的邻域而获得的点云，即，遮罩点云。我们要求两个点云的隐式是相似的，因为它们是从相同的几何体中采样的。在训练过程中，我们添加一个输入点云的隐式表示与其掩蔽版本之间的损失项（λ·λ是L-2距离）：LM=Φ（P）−Φ（P）（5）3.2. 自我训练我们在这里处理的主要任务是点云分类。在自适应之前，我们只有源域中的标记数据，即，s，s，这允许我们训练具有交叉熵损失的主任务分支：NsJL=-1Ys log（log（Φ（Ps）（6）基于等式中的空间变化的局部亲和性度量dj，（二）、(e)来自使用（d）中的抖动方案学习的implanted的采样点云，其保留了稀疏和密集点云的几何形状。所使用的技术是通过抖动将点云填充到相同数量的点，如果抖动被适当地设计，这也可以改进训练。最简单的抖动方法是将重复点添加到原始点云（图1）。（见第4（a）段）。另一种方法是加入均匀随机扰动（图1）。第四条（b）款）。然而，这两种方法都将生成使得局部亲和度测量无信息的点，使得所提出的自适应无符号距离场可能不能有效地防止稀疏和不规则点云的几何失真。如图图4（c）中，来自具有随机扰动的学习到的隐式的重采样点云表现出显著的几何特征。其中Ys代表了一个热门标签，m（Φ（s））j是第j类的预测概率。进行初始调整后，源域和目标域应该在某种程度上对齐。在这种情况下，半监督学习中使用的技术现在处于其功能状态。例如，GAST [40]采用自定进度自我训练（SPST）[13，41]的策略，通过使用高度置信的预测在目标域中生成伪标签来进一步对齐两个域。我们遵循这一策略，从源标签中挤出更多的果汁。假设t是预测的伪标签，执行自训练的损失函数为：NtJL=−（一）Ytlo g（（Φ（Pt）+γ|Yt|）的方式稀疏点云的度量失真。为了避免这种情况的恶化，在填补CLSNi=1j=1i、jmijI1（七）过程中，我们建议执行点抖动的亲和力感知的方式。类似于计算自适应无符号距离场，对于原始点云中的每个点pj，我们首先使用等式1获得其局部亲和度dj。（二）、一同样，在Eq.（7）是交叉熵损失在目标伪标签和预测之间，以及第二项用于避免将所有的Δt指定为0的退化解。我们按照[40，41]应用一个两-阶段优化使用方程（7），其中伪标签在[-dj，dj]范围内的随机f集合然后被添加到pj生成抖动点。用这种抖动方案生成的点云与原始点云几乎没有偏差，如图所示。第4段（d）。此外，来自利用亲和度感知抖动学习的隐式模型的重采样点云保持稀疏点云和密集点云两者的底层几何结构，如图1B中所观察到的。第4段（e）。随机掩蔽。由于自遮挡，点云可能以部分形式出现。为了提高鲁棒性，然后，使用伪标签更新分支pummΦ迭代地执行这两个步骤，以逐步在源域和目标域之间进行适配。超参数γ控制所选择的目标样本的数量。3.3. 整体亏损我们的方法的总体训练损失是：有关的影响，并进一步减少L=LI+αLM+βLcls不CLS（八）+微升稀疏点云的几何失真要严重得多（顶部与底部）。(d)：使用建议的方案时，点云抖动i=1j=1首先使用非线性整数规划计算7228◦LCLS注意，可以在点云上预先训练自监督隐式表示学习，以鼓励在自适应期间更快的收敛，即，设β，μ=0。在对网络进行预训练后，Φs用于学习几何感知隐式，以及分类任务SCLS Lt可以添加回执行联合域适应4. 实验为了表明隐式重建有效地编码了点云的几何形状，并验证了所提出的自适应无符号距离场的重要性，我们研究了SEC中四点三。为了全面了解从无约束点云中学习的用于对齐域的implementation的有效性和局限性，我们使用两个主要数据集评估了点云UDA分类任务的整个管道我们报告我们的结果与和没有自定进度的自我培训。我们比较了一系列最新的无监督点云域自适应方法：[10]，[12]，[13]，[14]，[15]，[16]，[17]，[18]，[19]，此外，我们报告了从同一个网络中获得的结果，该网络在目标域上以监督的方式进行训练（“监督”，上限）。作为参考，还包括在源域中训练但在目标域上测试而没有任何适应的网络（4.1. 数据集PointDA-10[22]由三个广泛使用的数据集组成：ModelNet [34]，ShapeNet [5]和ScanNet [7]。所有三个数据集都共享相同的十个类别（床，桌子，沙发，椅子等）。ModelNet包含4183个训练样本和856个测试样本，而ShapeNet包含17378个训练样本和2492个测试样本。ModelNet和ShapeNet都是从3D CAD模型中采样的。与这些合成点云数据集不同，ScanNet由来自扫描和重建的真实场景的点云组成ScanNet中有6110个训练样本和2048个测试样本，其中的点云通常是不完整的，因为除了真实的传感器噪声之外，场景中周围物体的遮挡或自遮挡也是不完整的。我们遵循[1，22，40]中使用的数据准备程序。具体而言，所有数据集中的所有对象点云沿重力方向对齐，同时允许沿z此外，具有重复填充的输入点云是1024个点的列表，这些点是从原始点云中用重复填充采样的，并且被归一化为单位尺度。GraspNetPC-10为了测试模拟到真实和真实到真实的域自适应，并检查自适应如何处理不同类型的传感器噪声，我们介绍了GraspNetPC-10。它是由GraspNet[9]创建的。图5. GraspNetPC-10中的点云使用Grasp- Net创建[9]。(a-b)：分别由Kinect和Realsense设备捕获的RGBD和原始点云，以及（c）：合成RGBD和点云。提供了分割掩码，如第一行所示。相应的重新投影和裁剪的点云在底部以相同的颜色可视化。提出用于在原始深度扫描和各种对象的相应重建的3DCAD模型上训练机器人抓取。如图5、我们通过将原始深度扫描重新投影到3D空间并应用对象分割掩模来裁剪出相应的点云来创建GraspNetPC-10。同时，我们将相似的感觉与相同的物体合成，并渲染合成的深度扫描以重新投影合成点云。与PointDA-10中的点云不同，GraspNetPC-10中的点云不对齐。GraspNet [9]中的原始深度扫描由两个不同的深度相机Kinect2和Intel Realsense捕获，因此我们有两个真实世界点云域。遵循PointDA-10，我们收集合成和真实世界的点云10个对象类。在合成域中，有12，000个训练点云。在Kinect领域，有10,973个训练点云和2,560个测试点云。同样，在Realsense域中，有10，698个训练点云和2，560个测试点云。来自两个设备的真实世界点云总是被不同的噪声破坏，并且存在不同程度的几何失真和丢失部分，如图所示。1和图五、4.2. 实现细节我们的实验在配备四个GeForce RTX 3090 GPU的服务器上进行，网络在PyTorch框架内实现。对于训练，我们使用Adam优化器，初始学习率为0。001，重量衰减0。00005和逐时余弦退火学习速率调度器。我们在PointDA-10上训练了200个epoch，在GraspNetPC-10上训练了120个epoch，批量大小为32。在[41]之后，我们选择常用的点云处理网络DGCNN[33]作为编码器Φ的骨干。隐式解码器和类别分类器是多个（一）（b）第（1）款（c）第（1）款7229(a)输入（b）第（1）款（c）第（1）款（d）其他事项±→----↔↔↔P∈◦方法Adv.SSLSPST受监督基线（无调整）DANN [10]美国[22]瑞典[27]DefRec+PCM [1][40]第四十话✓ ✓我们的✓ ✓M→SM→S*S→MS→S*S*→MS*→S平均93.9± 0.2 78.4± 0.6 96.2± 0.1 78.4± 0.6 96.2± 0.1 93.9± 0.2 89.583.3± 0.7 43.8± 2.3 75.5± 1.8 42.5± 1.4 63.8± 3.9 64.2± 0.8 62.274.8± 2.8 42.1± 0.6 57.5± 0.4 50.9± 1.0 43.7± 2.9 71.6± 1.0 56.883.9± 0.3 44.8± 1.4 63.3± 1.1 45.7± 0.7 43.6± 2.0 56.4± 1.5 56.379.9± 0.8 46.7± 4.8 75.2± 2.0 51.4± 3.9 71.8± 2.3 71.2± 2.8 66.081.7± 0.6 51.8± 0.3 78.6± 0.7 54.5± 0.3 73.7± 1.6 71.1± 1.4 68.683.9± 0.2 56.7± 0.3 76.4± 0.2 55.0± 0.2 73.4±0.3 72.2± 0.2 69.584.8± 0.159.8± 0.2 80.8± 0.6 56.7± 0.2 81.1± 0.874.9± 0.5 73.085.8± 0.3 55.3± 0.3 77.2± 0.4 55.4± 0.5 73.8± 0.6 72.4± 1.0 70.086.2±0.2 58.6± 0.181.4± 0.456.9± 0.281.5± 0.5 74.4± 0.673.2表1. PointDA-10上3粒种子（M：ModelNet，S：ShapNet，S*：ScanNet;指示自适应方向。推荐：对抗性领域对齐，SSL：自我监督学习，SPST：自定进度的自我训练。用我们训练的网络d qs=φs（q s，Φ（P））计算原始点云上的距离。通过设置一个距离阈值，我们可以选择子集q_s，q_s，s. t。dq<表示可视化。如果距离场fP是基本几何的良好图6.从学习的implementary重采样点云的可视化左半部分显示来自PointDA-10数据集的测试样本，右半部分显示来自GraspNetPC的测试样本。10. (a)输入点云，（b-c）：在λ = 3e-2和λ = 6 e-2处没有自适应无符号距离场（AUD）的重采样点云。（d）：在λ = 3e-2处具有AUD的重采样点云。插入的数字是重采样点云和输入点云之间的倒角距离（a）。层感知器（MLP），具有完全连接的层。解码器MLP512、256、128、1是四层MLP 512、256、128、1，后面是ReLU激活函数（以使输出距离总是正的），并且分类器MLPm是考虑到10个语义类的三层MLP 512、256、10。超参数我们设置M=3用于搜索最近的当计算我们的自适应无符号分布时交易场（AUD）。随机掩蔽的半径rm从[0.1，0.3]范围内的均匀分布中采样损失项的权重设置为α=100，β=1。0，θ = 1。0，我们稍微调整它们，以更好地收敛不同的数据集。4.3. 隐式重构我们展示了从学习的隐式表示中重采样的点云，用于分析自适应的质量AUD重采样点云能较好地保留底层几何信息。然而，使用相同的插值，不使用AUD（“w/o AUD”）的重采样点云要差得多，这意味着学习的插值扭曲了几何信息。此外，我们报告了重采样点云和输入之间的倒角距离。图6（c）示出了在没有AUD（“w/o AUD”）的情况下学习的隐式的最佳重采样的一个。可以看出，比“AUD”所需的大两倍，但是重采样的点云仍然严重变形并且表现出大量缺失。这些结果表明，我们的自适应无符号距离场是关键和有效的建议隐式表示对齐模块。4.4. 无监督域自适应表. 1、桌子图2分别在PointDA-10和GraspNetPC-10上显示了我们的方法与其他最先进的方法之间的比较我们对所有方法执行超参数搜索对于PointDA-10，我们遵循[40]并报告了六种不同设置的性能，包括ModelNet（M）ShapeNet（S），M ScanNet（S*）和SS*。我们发现，利用自我监督任务的方法通常比基于adversar的方法表现更好有监督的几何感知实现。一旦隐式编码器-解码器（encoder-decoder，简称encoderΦ）被训练好，给定一个输入点云，我们随机采样200，000个点q sR200000×3 在单位立方体中，并计算它们的无符号语言训练，特别是在与其他基于自学习的方法相比，我们的方法（w/o SPST）在四个设置和平均性能上都有优势在加入自定进度的学习之后，我们的0.1500.0990.1190.2050.2180.386类似于当λ变化时的输入点云。图6，我们将重新采样的点云与输入点云和重采样点云0.0480.0570.0600.0550.0700.113implanetary学习，而不使用我们的自适应无符号disc，电场，即，直接使用最近的距离0.0400.0350.0420.0310.0660.065相邻但具有固定箝位值。如所观察到的，7230±方法Adv.SSLSPST受监督基线（无调整）DANN [10]美国[22]瑞典[27]DefRec+PCM [1][40]第四十话✓ ✓我们的✓ ✓同义词→亲属Syn.→RS.亲属→RS。RS.→Kin.Avg.97.2± 0.8 95.6± 0.4 95.6± 0.3 97.2± 0.461.3± 1.0 54.4± 0.9 53.4± 1.3 68.5± 0.5 59.478.6± 0.3 70.3± 0.5 46.1± 2.2 67.9± 0.3 65.777.0± 0.2 72.5± 0.3 65.9± 1.2 82.3± 0.5 74.467.3± 0.4 58.6± 0.8 55.7± 1.5 69.6± 0.4 62.880.7± 0.1 70.5± 0.4 65.1± 0.3 77.7± 1.2 73.569.8± 0.4 61.3± 0.3 58.7± 1.0 70.6± 0.3 65.181.3± 1.8 72.3± 0.8 61.3± 0.9 80.1± 0.5 73.881.2± 0.3 73.1± 0.2 66.4± 0.5 82.6± 0.4 75.894.6±0.480.5± 0.276.8± 0.485.9± 0.384.4表2. GraspNetPC-10上3个种子（SEM）的平均分类准确度（%）。Syn.：合成结构域，亲属：Kinect域，RS.：真识领域。我们的模型在所有设置下都能实现最佳性能。源域目标域图7. t-SNE [31]在Kinect域（源）和Realsense域（目标）上对我们的点云主干的输出进行可视化，这表明通过implementation进行的对齐是有效的，即，在自适应之后，从目标点云隐式地与源点云更好地对准（顶部与底部）。不同的类以不同的颜色显示。使用PointDA-10上最新的最先进方法GAST [40]。与使用基于重建的自监督任务的RS [27]和DefRec+PCM [1]相比，我们的方法再次实现了更好的性能。对于GraspNetPC-10，我们的方法在添加自定进度学习之前和之后都以显著的优势优于其他方法。在GraspNetPC-10上可以观察到GAST [40]的大幅下降。原因是点云在GraspNetPC-10中没有规范化，这将涉及使用旋转分类时的模糊性，并且关闭旋转项将失去适应的全局对齐。在Point-DAN [22]中提出的局部对齐方法现在比PointDA-10数据集表现更好。DefRec+PCM[1]排名类似。我们的方法在所有设置中获得了最高分，无论是否有SPST。值得注意的是，SPST是有效的，在所有数据集上都是有效的，GAST [40]和我们的方法都是用SPST改进的。然而，我们还使用t-SNE [31]在隐式空间中可视化1024维潜在代码参见图7、在没有域自适应的情况下，目标域中不同类的特征被混淆（例如，类别1和5，类别2和3），并且总体分布不同于源域中的分布。自适应后，目标域中的特征分布变得与源域相似，并显示出清晰的聚类。关于域距离的更多分析可以在我们的补充材料中找到。5. 讨论在没有目标标签的情况下，在保持语义方面的正确对应的同时对齐点云是具有挑战性的。然而，我们表明，通过所提出的隐式空间训练的简单对齐对于当前点云上的无监督域自适应基准非常有效。我们的方法在两个基准测试中实现了最先进的性能，涵盖了影响数据收集管道内点云几何形状的各种因素。我们希望我们的方法可以作为一个基础，其中低级别的几何失真或变化被学习了，所以人们可以专注于高级别的形状变化，也是域间隙的生成因素这将需要一个精心设计的数据集，具有可控的几何变化的解开元素，这超出了我们目前的工作范围。谢谢。本课题得到国家重点研究&发展计划项目（批准号：2018 YFE 0100900）的一部分，Vannevar布什教师奖学金，ARL授予W 911 NF 2120104，NSF授予IIS- 1763268，以及Autodesk公司的礼物。带Adapt不带适配器7231引用[1] Idan Achituve，Haggai Maron，and Gal Chechik.点云上用于域适应的自监督学习。在IEEE/CVF计算机视觉应用集，第123二三六七八[2] Antonio Alliegro，Davide Boscaini和Tatiana Tommasi。联合监督和自我监督学习的三维现实世界的挑战。2020年第25届国际模式识别会议（ICPR），第6718IEEE，2021。3[3] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第3722- 3731页2[4] Adriano Cardace ， Riccardo Spezialetti ， Pierluigi ZamaRamirez，Samuele Salti，and Luigi Di Stefano. Refrec：通过形状重建的伪标签细化，用于未监督的3D域自适应。在2021年3D视觉国际会议（3DV）上，第331-341页。IEEE，2021。3[5] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。6[6] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集，第5939-5948页三、四[7] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet：室内场景的丰富注释3D重建。在IEEE/CVF计算机视觉和模式识别会议论文集，第5828-5839页，2017年。6[8] 范呵呵，常晓军，张婉月，程毅，孙颖。具有可靠投票伪标签的点云域自IEEE/CVF计算机视觉和模式识别会议论文集，2022年。3[9] 方浩树，王晨曦，郭明浩，陆策武。Graspnet-10亿：一般物体抓取的大规模基准。在IEEE/CVF计算机视觉和模式识别集，第11444二、六[10] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志，17（1）：2096-2030，2016。二、六、七、八[11] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。苏铁：周期一致的对抗域适应。在机器学习国际会议上，1989- 1998页。PMLR，2018。2[12] 康国梁，姜璐，杨毅，和亚历山大·G·豪普特曼.用于无监督域自适应的对比自适应网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4893-4902页，2019年。2[13] Dong-Hyun Lee等人伪标签：简单有效的深度神经网络半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，第896页，2013年。5[14] Mingsheng Long ， Yue Cao ， Zhangjie Cao ， JianminWang，and Michael I Jordan.使用深度适应网络的可转移表示学习。IEEE Transactions on Pattern Analysis andMachine Intelligence，41（12）：30712[15] Xiaoyuan Luo ， Shaolei Liu ， Kexue Fu ， ManningWang，and Zhijian Song.一个可学习的自监督任务，用于点云上的非监督域自适应。arXiv预印本arXiv：2104.05164，2021。3[16] Fabio Maria Carlucci，Lorenzo Porzi，Barbara Caputo，Elisa Ricci，and Samuel Rota Bulo.自动拨号：自动域对齐图层。在IEEE/CVF国际计算机视觉会议集，第50672[17] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：Learning 3d reconstruction in function space.在IEEE/CVF计算机视觉和模式识别会议论文集，第4460-4470页4[18] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第165-174页，2019年。3[19] Omid Poursaeed ， Tianxing Jiang ， Han Qiao

下载后可阅读完整内容，剩余1页未读，立即下载