3D自监督预训练中的不变性和对比学习提升效果

189 浏览量更新于2024-06-19 收藏 926KB PDF 举报

本文主要探讨了三维自监督预训练在提高下游任务性能中的关键作用，尤其是在3D视觉领域的研究。近年来，由于3D数据标注的成本高昂，自监督学习作为一种无监督或弱监督的学习方法，已经成为3D视觉研究的热点。文章的核心关注点在于3D特征的不变性，如透视不变性（视角变化时物体的形状保持不变）、模态不变性（不同数据格式间的转换，如点云与深度图），以及格式不变性（编码器能够处理不同数据结构）。作者李兰晓和迈克尔·海兹曼来自卡尔斯鲁厄理工学院工业信息技术研究所，他们在文中构建了一个统一的框架，以便系统性和公平地比较不同的预训练方法。这个框架使得研究者能够深入理解不同不变性策略对预训练效果的影响，从而优化模型性能。特别提到，他们提出了一个使用对比学习的预训练方法，旨在联合训练3D编码器和深度图编码器。这种方法展示了显著的效果，比如在SUNRGB-D和ScanNet等对象检测基准测试中，经过这种预训练的VoteNet模型表现出优于现有技术的性能。对比学习在这个过程中扮演了关键角色，它通过让模型区分和理解不同视角或模态的3D数据，增强了模型的泛化能力和对不变因素的理解。论文的关键点总结如下： 1. 3D视觉自监督预训练的兴起，强调了在无需大量标注数据的情况下提升模型性能的重要性。 2. 预训练中不变性的重要性，包括透视、模态和格式的不变性，它们是模型学习通用表示的基础。 3. 建立统一框架进行对比研究，有助于评估不同预训练策略的有效性。 4. 对比学习作为核心预训练策略，通过模拟视图不变性促进模型表示学习。 5. 提出的新预训练方法通过对比学习显著提升了 VoteNet 在对象检测任务上的性能。通过深入研究和实证结果，本文为3D视觉领域的自监督预训练提供了新的见解和实用工具，对于推动该领域的技术进步具有重要意义。

+v：mala2255获取更多论

文

4升。Li和M. Heizmann

定义点云上的点卷积。基于体素的方法将不规则的点云转换为规则的

3D网格，并应用3D卷积[34，64]或深度滑动窗口[49]。此外，一些作

品[10，16]引入稀疏CNN以降低计算成本和内存占用。其他一些作品

使用2D CNN从深度图[26，57，58]，LiDAR范围图像[4，24，28]或伪

图像[23]中提取特征此外，许多作品使用多种3D数据格式[12，23，

28，33，47]。他们和我们的工作有着相同的动机来结合不同数据格

式的优点。然而，我们的方法通过对比学习在借口任务中学习赞赏的

属性。在对下游任务进行微调时，只使用一种格式。

计算机视觉中的自我监督预训练

许多自监督学习的借口任务已经被提出。

一些生成方法在某些腐败下重新覆盖图像，

例如

，自动编码器用于着色

[60，61]和去噪[50]。一些判别方法生成伪标签，

例如

，旋转预测[15]，拼图解决[36]和对象跟踪[52]。最近，对比学习在

自我监督学习中取得了令人印象深刻的表现[3，7，8，19，35，37]。除

了实例级区分，一些工作还利用局部对应来更好地转移需要的任务密

集的特征，

例如

，对象检测和语义分割[5，39，53]。

数据的自我监督

预训练

一些作品[1，18，45，46]在合成数据上执行

自监督学习，

例如

，

ShapeNet [55].然而，这些方法PointContrast [56]首先使用真实世界的点云

数据进行自我监督训练。它通过预测两个部分重叠的点云之间的逐点对

应来学习透视不变性。Liu等[29]通过使用预训练的2D编码器作为老师来

预训练3D编码器。另一方面，Liu

et al

. [32]提出了一个蒸馏管道，通过

使用来自3D编码器的几何指导来改进2D编码器。DepthContrast [62]将成

功的MoCo [8，19]管道扩展到3D域，并利用点云和体素之间的交叉格式

对比。Hou

et al

. [22]提出了空间划分来提高对比学习，并研究了预训

练模型的数据效率和标签效率

多模态特征融合。

从两个互补的概念中学习

这与数据融合类似。在3D计算机视觉中，常见的做法是以融合颜色和

几何信息。很多融合方法已经提出，

例如

，用于对象检测[21，40，

42，59]和显著对象检测[14，25，57，63]。其他一些作品使用自监督预

训练来改进特征融合[30，31]。融合和对比多模态特征之间的区别在

于，融合通过组合来自不同模态的互补信息来丰富特征，而对比学习则

最大限度地提高了模态之间的共享信息。

方法

在这项工作中，我们打算研究3D自监督学习中的不变性为了公平比

较，

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

3D自监督预训练中的不变性和对比学习提升效果

自编码预训练 csdn

swin transformer预训练权重

基于弱监督的三维点云目标检测详解

当SAE训练完成, 其高层的特征就可以用做传统的监督算法的输入。最后使用带标签的数据来进一步对网络进行微调，即用样本对堆栈式自编码器网络进行有监督训练。

介绍传统三维重建和基于深度学习的三维重建，并给出对比

三维缝合的工艺参数对复合材料性能有什么影响

facenet官方预训练模型

无监督学习pytorch

最新资源