没有合适的资源?快使用搜索试试~ 我知道了~
3293mAPH(%)基于几何感知的对比度和聚类协调的自监督3D目标检测梁寒雪1*,蒋晨涵2*,冯大鹏3,陈鑫4,杭旭2,梁晓丹3†,张伟2,李振国2,Luc Van Gool 11苏黎世联邦理工学院2华为诺亚摘要6260当前的3D对象检测范例高度依赖于58大量注释工作,这使得它们不是prac-56在许多现实世界的工业应用。 灵感54由此驾驶员可以不断积累经验52从没有导师我们首先要探索一个简单而有效的自我-48为基于LiDAR的应用量身定制的监督学习框架463D物体检测。 虽然自我监督的管道数据高效的3D对象检测525048464442403836343230在2D领域取得了巨大的成功,其特点是-0 0.2 0.4 0.6 0.8 10 0.2 0.4 0.6 0.8 1TIC挑战(例如,复杂的几何结构和各种3D对象视图)阻碍了直接采用现有技术,这些现有技术通常对比2D增强数据或群集单视图特征。在这里,我们提出了一种新的自监督的3D对象检测框架,无缝集成几何感知的对比和聚类协调,以提升无监督的3D表示学习,命名为GCC-3D。首先,GCC- 3D引入了一个几何感知对比目标来学习空间敏感的局部结构表示。该目标强制空间上接近的体素具有高特征相似性。其次,伪实例聚类协调机制,提出了鼓励不同的观点的伪实例应该有一致的相似性聚类原型中心。这个模块赋予我们的模型语义的歧视能力。广泛的实验表明,我们的 GCC-3D 实 现 了 数 据 高 效 的 3D 对 象 检 测 基 准(nuScenes和Waymo)的显着性能改进此外,我们的GCC-3D框架可以在所有流行的3D对象检测基准上实现最先进的性能。1. 介绍基于LiDAR的3D对象检测已经是自主视觉感知系统中的长期任务。*两位作者对这项工作的贡献相等。†通讯作者:xdliang328@gmail.com在微调任务上标记分数图1.我们从头开始微调CenterPoint-pp检测器,使用GCC-3D预训练或点击监督预训练,并报告Waymo和nuScenes数据集的性能。我们的GCC-3D模型与scratch模型相比表现出一致的显著改进,并且比点击监督预训练学习由于其具有高3D局部化精度和对2D感知的补充的巨大优势,最近吸引了越来越多的工业和研究关注[43,2,29,47,33]。与2D检测问题不同,3D对象检测器将稀疏和无组织的点云转换为结构化的3D包围盒表示,包括形状,方向和语义类。几乎所有最近的3D对象检测器都是建立在完全监督的框架上的,而在各种自动驾驶场景中为许多实例获得这种大规模和精确的注释是劳动密集型和耗时的,例如。,仅注释一小时的驾驶场景数据就需要数百小时[31]。这阻碍了在不断变化的自动驾驶环境中进行基于LiDAR的3D对象检测的模型改进和部署。因此,非常需要但很少探索可以毫不费力地纯粹使用原始数据来提升3d表示学习的期望的自/无监督3d对象检测框架。尽管如此,在2D图像识别[30,20,14]和自然语言理解[12]领域,当标记数据稀缺时,对未标记数据的自监督预训练在下游任务中产生了显着的性能提升因此,有趣的是问一个WaymoGCC-3D预训练点击监督的预训练从头开始训练nuScene场景GCC-3D预训练点击监督预训练从头开始训练mAP(%)443294问:是否也存在一种有效的自监督预训练算法,可以通过充分利用丰富的未标记点云数据来显着减轻3D对象检测中沉重的注释负担?现有的工作主要集中在低层次的任务[50,10,16](例如:,registration)和单个 对象 [17 , 9 ,1 , 21]( 如重 建 , 分类 和 部 分分割)。最近,Point- Contrast [44]证明了无监督预训练可 以 提 高 室 内 场 景 理 解 任 务 的 性 能 。 然 而 ,PointContrast的几个限制阻碍了其直接采用基于LiDAR的3D检测:1)静态局部视图:多个部分视图[53]设置被认为是[ 44 ]的关键组成部分,要求对象/场景是静态的。这在自动驾驶场景的室外场景中通常是不可用的。2)造影剂不一致:它为匹配和不匹配对分配硬标签,这与随机采样的不匹配对可以具有非常相似的结构的事实相矛盾;(3)缺少语义信息:语义表示对于3D对象检测等高级场景理解任务非常重要。这种表示在预训练期间不被建模。为了将基于LiDAR的3D物体检测的研究推进到无监督/自监督时代,并解决设计适当的自监督方案中的上述问题,我们提出了一种新的自监督3D检测框架,该框架无缝集成了几何敏感和语义一致的表示,称为GCC-3D。我们的框架是第一个专注于没有静态部分视图设置的自动驾驶场景的框架[53]。首先,为了缓解不一致的对比度问题,GCC-3D利用了3D数据的一个重要特性:3D空间中的两个空间上接近的体素很可能具有相似的局部几何结构或属于同一对象。我们注入这之前,我们的学习目标,并使用体素之间的几何距离这种几何感知的对比目标可以帮助正确地学习点云的局部结构特征。将具有几何信息的体素级特征聚集为伪实例的嵌入,伪实例从数据集中的序列信息获得。其次,我们通过定义聚类协调阶段赋予模型语义属性。在训练过程中,我们通过使用K均值聚类[41]为每个实例嵌入指定标签。然而,常用的硬标记策略[41]违背了一些原型可以相似或表示相同的语义类,并且忽略了伪实例嵌入之间的异构相似性,并且容易出现为 了 缓 解 这 个 问 题 , 我 们 引 入 了 一 个 新 的Harmonization术语,鼓励不同的伪实例视图与聚类原型具有一致的相似性。类型中心这个术语很容易被注入到当前的自聚类框架中。通过整合几何感知对比度和伪实例聚类协调,我们的GCC-3D可以捕获局部结构和上下文语义信息,这可以提高我们的模型为了更好地验证当前模型在基于激光雷达的3D对象检测中的自监督能力,我们在流行的3D对象检测基准测试(Waymo [39],nuScenes [5])中进行了大量实验,其中包含有限的监督数据,称为数据效率基准测试。该方法需要首先仅在未标记的数据上进行预训练,然后使用有限的标记数据对其进行微调,以减少注释工作。我们的无监督框架GCC-3D可以在数据有效的基准点上实现与随机初始化模型的一致值得注意的是,我们预先训练的CenterPoint-voxel模型在Waymo上实现了67.29%的mAP(具有20%的标记数据),在nuScenes上实现了57.3%的mAP,与之前的最先进方法相比,分别有4.1%和1.95%的相对改进[49]。在将我们在Waymo上的预训练模型转移到KITTI [18]之后,我们看到比KITTI最先进的方法[36]相对提高了2.1%。使用5%的标记数据,我们的自监督模型与Waymo和nuScenes上的PointContrast [44]相比,mAP的相对改善超过6.3%和5.6%我们的贡献可归纳如下:• 我们首次尝试提出一种简单而有效的基于自监督LiDAR的3D对象检测框架,以减轻对大量人类注释的需求,从而实现更灵活和可扩展的自动驾驶系统。• 我们提出了一种新的GCC-3D,这是第一个自监督学习机制,集成了几何感知结构对比和协调的语义伪实例聚类。该方法成功地从几何和语义两个角度对3D实例级表示进行了自探索和增强。• 我们的GCC-3D框架可以在所有流行的3D对象检测基准上实现最先进的性能,即,Waymo上的67.29% mAP(20%标记数据)和nuScenes上的57.3% mAP。2. 相关工作基于LiDAR的3D物体检测。该任务的目标是从稀疏和无组织的点云中检测感兴趣的对象并定位其非模态3D边界框。一些代表性作品[8,26,46]将点云投影到鸟瞰其他一些作品[51,38]应用3D3295几何感知对比度协调群集伪标签113423K2变换运动伪实例特征嵌入相似性统一312432K1相似度0伪标签112原型���~1���~2���~3���~4.................................1234...图2.我们的GCC-3D自监督学习框架概述第一个关键组件是几何感知对比度模块,其中来自同一场景的不同视图的体素通过编码器,并且我们使用它们之间的几何距离通过几何感知对比度目标来指导体素特征学习。在第二个协调实例聚类模块中,我们利用序列信息来生成场景中的伪实例。 位于每个实例中的预先训练的体素特征将 被聚合为实例嵌入,并通过骨干Φ进行语义聚类。引入了一个协调术语,以鼓励伪实例的不同视图应具有一致的相似性聚类原型中心。这两个模块赋予我们的模型的几何结构和上下文语义表示。CNN在点云体素上生成长方体。然而,这些最先进的方法依赖于足够的训练标签和精确的3D注释,这需要大量的劳动力。在这项工作中,我们建议预训练范例有助于现实生活中基于LiDAR的3D对象检测,并通过所提出的自监督框架进一步减少标记的压力自我监督学习。基于自监督的视觉表征学习以其出色的数据效率和泛化能力在二维视觉任务中引起了广泛的关注。基于图像的自监督方法设计了许多借口任务,这些任务利用了它们的空间结构[13],颜色信息[11],照明[15]和旋转[19]。与2D视觉相比,大数据的极限还远未在3D中被探索最近的工作尝试使2D借口任务适应3D,但主要集中在低级任务[50,10,16]或单个对象分类任务[17,9,1,21,22,28,34,35]。最近基于对比学习的方法PointContrast [44]在一组室内场景级理解任务上展示了有希望的结果。然而,[44]的良好性能取决于部分视图设置,这通常在户外自动驾驶场景中不可用。[44]中简单的点级预训练目标设计不当,可以将具有相似局部结构的点分配为负对,从而为良好的对比表示学习带来障碍。它也忽略了语义信息,这是重要的高层次的三维场景理解任务。因此,在这项工作中,我们提出了一个适当设计的自监督学习框架,捕获空间的歧视性信息和语义表示。输入&议案View1转型View2体素化体素化3D编码器3D编码器2D编码器投影投影L(等式1)第三章���2D编码器投影L(等式1)第七章)���投影图3.GCC-3D预训练流程图我们首先用几何感知对比目标(等式3)预训练3D编码器然后,我们加载权重以在协调实例聚类模块(等式7)中进一步预训练2D编码器Φ3. 方法在本节中,我们阐述了我们对新颖的自监督3D检测框架GCC-3D的提议,该框架无缝地集成了几何感知对比度和聚类协调,如图2所示。二、我们将首先介绍增强空间敏感局部结构表示的几何感知对比度模块,然后详细说明伪实例聚类协调机制,该机制鼓励伪实例的不同视图保持一致。与基于LiDAR的3D对象检测任务的典型流水线一样,3D编码器将场景的点云作为输入,并估计对象的3D边界框表示,包括关于形状、方向和语义类的信息。量化表示编码器编码器..................视图2编码器视图1编码器3296Σ不∈∈T−Σ我然后重新整形并馈送到2D主干φ以产生匹配置信度ρ=e-di,i对于正对特征图F. 一个特定任务的头ψ取F且可以(我(vj,v~j)∈Me−dj,j可以是基于2D锚的检测器或无锚的检测器。3.1. 几何感知对比度目标学习有意义的局部结构特征vi,v~i)。因此,最终损失为L体素=(vi,·)∈Mρ i L(v i).(三)点云。然而以前的工作所采用的方法[44]在对比学习中,关注硬标记策略,这可能是无效的。这是因为,在硬标记策略中,正对和负对都可以由从相同类型的对象提取的两个体素形成,这可能是令人困惑的并且阻碍网络学习良好的表示。然而,基于3D世界中空间上接近的体素更可能具有相似的局部几何结构(或属于相同对象)的观察,我们可以使用体素之间的几何距离作为它们的特征相似性的代理。我们在图中说明了我们的学习过程。二、给定原始点云场景S,我们对随机几何变换进 行 采 样 以将其变换为增强视图S~。我们主要考虑相似变换,包括旋转、平移和缩放。然后,我们将这两个场景体素化为常规体素,并将它们馈送到共享的3D编码器中以获得体素特征。然后从原始场景中采样K个体素,并且我们通过贪婪搜索其最近的体素中心距离来获得其对应体素中的对应体素。这给出了两个视图(vi,v~i)M之间的对应映射M,其中体素vi和体素v~i是跨两个视图的一对匹配体素。然后,将逐体素特征投影到潜在空间,用于通过ResMLP [24] h进行几何感知对比学习,并且体素Vi的最终特征表示为ui=h((Vi))RD1。然后,我们计算两个视图中的体素的中心之间的欧几里得距离,表示为di,j=(vi)v~j. 对于每个vox elvi,我们softmax该dis-所选体素v,i与所有采样体素之间的距离v~j以得到权重wi,j(vi,v~j):e−di,j(1)通过最小化L体素,我们的3D编码器可以学习局部结构的逐体素几何感知表示,其具有对不同变换的等方差。3.2. 协调伪实例聚类对于复杂的3D场景理解任务,如3D对象检测,简单地学习体素级几何特征u可能不能保证良好的性能。学习上下文语义信息对于模型以更好的鲁棒性进行检测也很重要。然而,学习这样的信息需要具有对象的精确补丁和不同对象的真实语义标签的边界框,这两者在无监督学习设置中都是不可用的为了解决这个问题,我们引入了一个运动伪实例生成组件到我们的管道。它利用数据集中的序列信息来提出伪实例。这些实例的分类标签是通过在实例级特征上使用K均值聚类获得的,我们使用这些标签来进一步预训练我们的模型[41]。然而,[41]中的硬标记策略将所有未分配的聚类中心(原型)视为同样的负。如先前所讨论的,它违反了一些原型可以是相似的或表示相同的语义类的事实,特别是考虑到我们的原型的数量C比场景中的实际语义类大得多。因此,它忽略了伪实例嵌入之间的异质相似性因此,我们提出了一个聚类协调机制,鼓励不同的观点的伪实例应该有一致的特征相似性聚类原型中心。如图所示。2,我们继续使用多视图设置来学习伪实例表示,这相当于对变换具有变异性,对噪声具有鲁棒性。wi,j(vi,v~j)=Σ(·,v~k)∈M e−di,k.运动伪实例生成。在自我-然后,权重wi,j用于通过最小化软InfoNCE损失来计算体素之间的相似性[32]:uiu~/τ驾驶环境中,自我车辆的传感器状态在每帧(50fps)可用。我们设计背后的直觉是使用序列信息来定位具有移动对象的补丁。 注意,移动对象可以是从静止物体中识别出来L( vi)=−(·,v~Σj)∈Mwi,j(vi,v~j)1oge(·,v~Σj)∈MJeuu~j/τ。(二)连续帧之间的重叠区域。因此,我们可以分析BEV视图中的占用体素点信息,以识别可能的移动体素,然后找出由于全局变换在原始体素和它们的增强对应物之间带来不同的偏移,而不是将所有匹配对视为相等的正,我们使用所有正对之间的距离来计算相邻移动体素之间的连接域,以获得伪移动块。具体地,给定两个连续的LiDAR帧p和q,它们的坐标之间的刚性变换可以是3297∈×个∈ΣΣΣ姓名首字母缩写。模型0.050.10.20.51AP/L2 APH/L2AP/L2 APH/L2AP/L2 APH/L2AP/L2 APH/L2AP/L2 APH/L2随机初始化49.30 44.3555.66 51.1459.14 55.2561.00 56.9462.79 58.91[44]第四十四话中华人民共和国共产党[49]50.10 44.9756.82 52.3560.04 56.3161.83 57.1663.10 58.97公司简介52.92 +3。七十二四十七点八五+3。5058.68 +3。0253.89+2。7561.58 +2。四十四五十七点三九+2。1463.66 +2。6659.73+2。79六十四点一七+1三十八六十点四六+1。55随机初始化cppvoxel[49]43.13 40.2750.51 47.7358.90 56.2863.60 61.0966.29 63.80公司简介44.70 +1。5741.75+14854.09 +3。5051.34+3。61六十点八六+1。九四五十八点一九+1。9165.45 +3。六十一六十二点八五+1。7667.00 +3。六十一六十四点五四+0。76表1. Waymo val set上3D检测的主要结果。“cppp”和“cpvoxel”指示具有Pointpilors和VoxelNet的Centerpoint。我们为cppp训练了36个epoch,为cpvoxel训练了12个epoch。写为:T=T(lidarp←egop)T(egop←egoq)T(egoq←lidarq),其中我们通过p′=T(q)将框架q对齐到p的坐标系中。我们将LiDAR点p和p’量化为规则的体素,并计算每个体素中的点p和p’之间的平均协调距离大于预定义阈值的体素最后,我们把这些声音-ELS作为伪实例的八邻居hooding [4]。聚类协调。在将点云场景S通过3D编码器和2D主干之后φ,我们得到它的特征图F。给定在实例生成模块中获得的场景S中的伪实例位置P的集合,我们通过裁剪对应于每个伪实例的特征来获得实例级嵌入x表2.nuScenes val set上的数据高效3D检测我们显示了所有类别的NDS,mAP我 们 进 一 步 引 入 协 调 项 , 其 通 过 对 称 Kullback-Leibler散度来确保分配概率J和H在特征图F上。这些嵌入被映射并通过MLPg投影到潜在嵌入空间以获得L哈莫1(x)=DKL2(J1H)+2D KL(H J)。(六)对于伪实例m,实例级特征x=g(RoIAlign(F,Pm))RD2。这些实例级要素基于几何临界点聚类为C个不同的组在每个epoch的末尾。然后得到D2C原型矩阵Z和每个实例的聚类分配y.这些分配y将被用作用于训练伪实例聚类网络的伪标签。利用多视图设置,我们通过使用经变换的实例位置P ~将增强场景S~传递通过我们的网络来获得实例级特征X ~的增强视图,然后裁剪对应特征图F~上的特征。为了捕获伪实例嵌入之间的相似性,我们提出了一个协调术语,鼓励年龄不同的观点的伪实例是一致的,他们的聚类原型中心。具体地,给定伪实例m和原型矩阵Z RD2×C,我们计算实例特征x与原型z i(i ∈ {1,… C})为:exzi该术语不仅鼓励网络学习与一组变换具有等方差的特征,而且还考虑了不同原型中心之间的相似性它非常适合当前的自聚类框架,我们的最终损失是聚类损失项和一致性正则化项的加权平均值L_inst=l(x,y)+l(x~,y)+αL_hram_o(x),(7)m∈P其中L是交叉熵损失,y是实例特征X的聚类分配。与几何感知对比目标的组合。图3呈现了预训练过程的流程。在伪实例聚类预训练之前,我们首先加载3D编码器的权重,该3D编码器在几何感知对比度模块上进行预训练,并提供有区别的体素级结构特征。然后,我们使用harmonized伪实例聚类目标,以进一步预J(i)=Ck=1 exzk 、(四)训练3D编码器和2D主干Φ。权重将用作微调阶段的初始化。其中J(i)是嵌入x被分配给聚类中心i的概率。类似地,将实例特征的增强视图分配给该集群的概率为:ex~zi4. 实验培 训 前 详 细 信 息 。 在 几 何 感 知 对 比 模块 中,K=1024且D1=64。我们对模型进行了20个epoch的预训练,并使用Adam优化器和初始化算法。H( i)=Ck=1 ex~zk .(五)最终学习率为0.001。 批量为6,τ为1。在姓名首字母缩写。模型0.050.10.51mAP NDSmAP NDSmAP NDSmAP NDS随机初始化25.79 34.35 37.12 49.14 46.29 57.25 49.61 60.20[44]第四十四话 中华人民共和国共产党[49]30.79 41.57 38.25 50.10 47.94 58.24 50.09 60.33公司简介32.75 44.20 39.14 50.48 48.48 58.87 50.84 60.76随机初始化38.01 44.34 46.85 55.51 54.78 62.92 56.19 64.48[44]第四十四话cppvoxel39.75 45.05 47.74 55.98 54.97 63.53 56.25 64.403298--模型地图车AP/APH行人AP/APH骑车人AP/APH第二[45]第2部分[37]55.0860.3959.57/59.0464.33/63.8253.00/43.5654.24/47.1152.67/51.3762.61/61.35PV-RCNN [36]59.8464.99/64.3853.80/45.1460.72/59.18中心点体素[49]63.4661.81/61.3063.62/57.7964.96/63.77中心点-体素2阶段[49]64.6364.70/64.1163.26/58.4665.93/64.85GCC-3D(PV-RCNN)61.30 +1。4665.65/65.1055.54/48.0262.72/61.43GCC-3D(中心点-体素)65.29 +1。8363.97/63.4764.23/58.4767.68/66.44GCC-3D(中心点-体素2阶段)67.29 +2。66.45/65.9366.82/61.4768.61/67.46模型所有mAP NDS[25]第二十五话35.041.93DSSD [48]42.656.4热门搜索[7]50.659.8CBGS [52]50.662.3centerpoint-pp [49]49.660.2中心点体素[49]56.264.5GCC-3D(中心点-pp)五十点八+1。2六十点八+0。6GCC-3D(中心点-体素)57.3 +1。165.0表3.与20%Waymo(左)和100% nuScenes(右)上的3D检测比较所有方法在PCDet之后训练30个时期,”pp” indicatesPointpillar and ”voxel” means VoxelNet using as encoder协调伪实例聚类模块,我们使用Adam优化器预训练20个epoch。初始学习率为0.0048,具有余弦衰减。原型数 C 为 100 , D2 为 128 , α 为 0.1. 所 有 实 验 均 在 8 个NVIDIA V100 GPU 上 运 行 。 我 们 使 用 VoxelNet 和PointPil-在CenterPoint网络[49]中作为骨干的lars,分别表示为CenterPoint-pp和CenterPoint-voxel。我们在两个最流行的 自 动 驾 驶 数 据 集 上 进 行 了 实 验 : Waymo OpenDataset [39]和nuScenes Dataset [5]。4.1. 数据高效的3D对象检测基准为了正式探索自动驾驶中的数据高效场景理解,我们提出了一个具有有限边界框注释的3D对象检测基准。具体地,对于每个数据集,仅有限部分的场景将被标记,并且我们考虑包括0.05、0.1、0.2、0.5(1表示整个训练集)的配置我们预先训练我们的模型作为初始化,以进行微调并与从头开始的训练基线进行比较。微调阶段的培训计划和设置如下[49]。在测试期间,将对验证集中的所有场景执行评估表1和表2总结了我们的结果。在Waymo验证集上,我们的模型比使用Point- Pillars和VoxelNet编码器的基线模型带来了一致的改进。具体来说,使用50%的标签,使用我们的方法预训练的PointPillars模型达到了63.66%的mAP,优于使用100%标签的基线。当有更多的框注释可用时,性能差距不会减小。在nuScenes数据集上可以观察到类似的行为,并且在有和没有我们的预训练之间的差异更加明显。如表2所示,当数据稀缺时(例如,当数据不充分时),从头训练检测器几乎不能产生任何有意义的结果。、5%或10%)。然而,使用我们预先训练的权重进行微调,PointPillars可以表现得更好(例如,用5%标记数据将mAP提高6.96%4.2. 与SOTA的我们将我们的方法与表3中基于LiDAR的3D对象检测的其他最先进的模型进行比较。为表4.将预先训练的权重从数据集A(列)转移到整个集合B(行)。我们对nuScenes和Waymo使用CenterPoint-voxel,对KITTI使用PV-RCNN我们展示了KIITI的中等难度mAP,nuScenes的NDS和Waymo的L2难度情况下的mAPH的结果Waymo , 我 们 遵 循 PCDet1 中 的 培 训 时 间 表 。 在CenterPoint2中实现了nuScene上的实验。在Waymo上进行GCC-3D预训练后,几个最先进的3D对象检测器表现出比从头开始训练更好的性能(在一 阶 段CenterPoint 上 +1.83%mAP , 在 两 阶 段 Center-terPoint 上 +2.66%mAP , 在 PV-RCNN 上 +1.46%mAP[36]),显示了我们的预训练方法的强大泛化能力。基于CenterPoint的从头开始训练基线的性能已经高于SECOND [45],PART?2 [37]和PV-RCNN。在使用GCC-3D预训练进行初始化用我们的方法预训练的两阶段CenterPoint模块达到67.29%mAP和64.95%mAPH。在nuScenes上显示了类似的现象。CenterPoint [49]在nuScenes 3D对象检测基准测试中排名第一,使用我们的GCC- 3D预训练初始化,实现了57.3% mAP的更高性能4.3. 传输数据集和模型我们在不同的数据集上评估我们的表示,以评估在源域上学习的特征是否是通用的,从而适用于整个目标域。我们在3D编码器和2D主干的预训练和加载权重期间使用CenterPoint-voxel [49]作为微调的在KITTI [18]上进行微调时,我们使用1https://github.com/open-mmlab/OpenPCDet2https://github.com/tianweiy/CenterPoint预训练/英尺KITTI(模式mAP) nuScenes(NDS) Waymo(mAPH/L2)随机初始化69.7745.5563.80nuScens七十点七五+0。98四十五点六九+0。14六十四点三二+0。52关于Waymo七十一点二六+1。49四十五点六五+0。10六十四点五四+0。643299≥(a) 超参数α(b)对运动建议回忆/距离曲线的影响5150.55049.50.010.050.10.51十个(*)表5. 不同模块的消融研究和比较图4. (a)我们的GCC- 3D方法的超参数α(*)表示默认值。(b)生成的实例和groundturth之间的召回率和中心距离曲线。PV-RCNN [36]特定任务头,并遵循PCDet [40]中的培训设置。在nuScenes上进行微调时,每个场景仅使用点云场景的一次扫描。更多实验设置见附录。表4显示了我们的GCC-3D在不同数据集上比随机初始化实现了一致的改进我们观察到1)在大规模数据集上利用预先训练的权重,然后在小数据集上进行微调可以带来更显著的性能改进:当在nuScenes和Waymo上进行预训练,然后在KITTI上进行微调时,我们看到分别为+0.98%mAP和+1.49%mAP改善2)在nuScenes上预训练并对其本身进行微调的模型比在Waymo 上 预 训 练 的 模 型 显 示 出 更 大 的 改 进(+0.14%vs.+0.10%)。我们推测这种预训练效果的稀释是由于不同点云之间的域差距(Waymo的点云比nuScenes的点云密度大得多)。4.4. 消融研究在本节中,我们进行了消融研究实验,以分析GCC-3D不同模块和超参数的有效性几何感知对比度和协调伪实例聚类的效果我们分别使用几何感知对比度模块和协调伪实例聚类模块进行预训练,遵循与GCC-3D中相同的预训练设置。然后,我们对Waymo和nuScenes数据集上的模型进行微调,并使用有限的注释(5%)进行评估。 结果在表5中。虽然Harmonized Pseudo-instance Clustering模块实现了合理的预训练性能,但几何感知对比度模块更显着地提升了微调结果,分别比nuScenes和Waymo上的基线增加了+6.77% mAP和+2.59% mAP。同时,结合这两个模块,nuScenes的性能提高到32.75% mAP,Waymo的性能提高到52.92% mAP。它表明,我们的方法,整合的几何结构和语义上下文表示,有助于高层次的三维物体检测任务。与其他自监督学习方法在5%的nuScenes和Waymo注释上进行比较。所有结果均基于Centerpoint-pp。超参数的有效性。我们研究了GCC-3D中引入的超参数的效果:协调项系数α。图4,我们显示了α对nuScenes的影响,具有100%注释。它与CenterPoint-pp模型进行了20个时期的微调最佳系数为0.1。我们看到,通过使用协调项,客观准确度可以从50.48%mAP提高到50.84%mAP。将α增加到0.5或更高可能会损害性能。我们推测,这是因为当α0.5时,模型被协调项过度正则化,并且失去了类别之间的一些区分。4.5. 点击监督预训练方法为了减轻3D对象检测中的注释负担,一些努力点击对象中心来为该任务提供位置监督[42,27,31]。受这些工作的启发,我们提出了一个简单的监督预训练基线,用完整数据集的3D对象中心进行预训练,并在有限规模的完全注释数据上进行微调。我们比较了我们的GCC-3D与基于CenterPoint-pp的3D检测任务的点击监督预训练的性能。结果如图1D所示。1.一、虽然点击监督的方法实现了良好的性能与一个非常有限的部分的数据,我们的GCC-3D方法表现出更好的性能,当我们增加微调的数据部分。我们认为这是因为我们的方法可以学习比点击注释预训练更强大的功能。后者迫使网络专注于定位回归任务,但我们的方法可以学习更鲁棒的嵌入,适合于3D对象检测任务,这需要定位,分类和旋转表示。4.6. 与其他SSL方法的GCC-3D是第一个为基于LiDAR的3D对象检测量身定制的自监督预训练框架。然而,我们重新实现并采用了先前发布的自监督学习模型,包括对比方法( PointContrast[44] ) 和 基 于 聚 类 的 方 法(Deepclusterv2 [41]和SwAV [6])。这些方法实际上是密切相关的nuScene上的mAP(%)方法WaymomAP mAPHnuScene场景mAP NDS随机初始化49.30 44.3525.79 34.35[44]第四十四话DeepCluster [41]SwAV [6]50.10 44.9749.26 44.31- -30.79 41.5727.84 38.1927.41 35.60几何感知50.32 +1。02 45.21 +0.8632.56 +6。七七四十三点八一+9。46协调术语51.89 +2。59 46.82+2。4730.32 +5。7742.07+7。72公司简介52.92 +3。62 47.8532.75 +6。9644.23300所有范围[0,30]范围[30,50]范围[50,+inf)行人图5.行人类在20% Waymo值集上的精度和召回曲线我们的框架。PointContrast方法可以通过修改我们的几何感知对比度模块中的体素级对比学习来实现。在预训练期间,它按照与GCC-3D中相同的设置进行优化。对于Deepcluster v2和SwAV,我们不是在图像上应用这些基于集群的学习策略,而是在我们提出的伪实例上使用它们。在Harmon- nized伪实例聚类模块中,去掉协调项并选择α为0,简化为Deep-clusterv 2。SwAV是具有在线聚类的Deepclusterv2的适配在预训练期间,它们的超参数和优化设置遵循与GCC-3D中相同的设置。我们比较了Waymo和nuScenes数据集上的这些自监督预训练方法,其中基于表5中的CenterPoint-pp对有限注释(5%)进行微调。我们的预训练方法优于所有这些预训练策略,在nuScenes上实现了32.75%的mAP,在Waymo上实现了52.92%的mAP,只有5%的注释。值得注意的是,几何感知对比度相对于PointContrast的持续改善(nuScenes上为32.56% mAPvs30.79% mAP,Waymo上为51.89% mAPvs50.10% mAP)证明了我们的几何感知设计的有效性-Harmonization- tion聚类产生比Deepclus-terv 2和SwAV更好的性能,这证明了我们提出的协调项的重要性。4.7. 预训练如何影响3D对象检测以更好的性能加速融合。为了研究当我们延长微调阶段时预训练的优势是否会消退,我们将从头开始的训练基线与图1中使用点击监督预训练初始化的微调模型进行比较。六、实验在微调期间具有2.5%和5%标记数据的nuScenes数据集上进行,并且在预训练期间具有20倍大规模数据集。我们训练直到两个模型一致,并发现预训练的模型始终优于基线。这一观察结果与[23]不此外,观察到预训练与基线相比将收敛速度提高了四倍(20个时期对80个时期)。这些观察激励使用预训练来点击监督预训练(CSP)与从头开始训练(TFS)百分之四十百分之三十五百分之三十百分之二十五百分之二十百分之十五百分之十百分之五0%的百分比电话:020 - 406080100微调/训练时期图6.在2.5%和5% nuScenes数据集上进行微调。减少实际应用的资源消耗。通过无监督预训练实现大规模微调的一致改进。在一些预训练方法中观察到,随着微调的数据规模增长,预训练的益处将减少。我们在点击监督的预训练上看到类似的然而,在我们的3D检测基线中,我们可以观察到预训练模型在基线上的一致我们假设我们的无监督预训练目标可以学习更强大的功能,并且不太可能过度适应特定任务。减少假阳性。为了比较不同初始化的性能,包括从头开始训练(tfs),监督预训练和GCC-3D预训练,我们考虑了Waymo数据集上的精确度-召回(PR)曲线图5显示,在相同的召回水平下,预训练模型的表现优于tfs,特别是在远距离检测方面。Tfs在调用> 0时失败。而GCC-3D可以帮助模型做出更精确的预测。5. 结论在这项工作中,我们专注于数据高效的激光雷达为基础的三维物体检测,通过一种新的自我监督的框架工作,集成了几何感知的对比度和有害的伪实例聚类。它可以捕获空间敏感的表示和高级上下文信息。我们展示了预训练的有效性,并希望这些发现可以在未来推动更多关于无监督3D表示学习和3D场景理解的研究。典型培训时间表5% w CSP5% TFS2.5% w CSP2.5% TFS3D地图3301引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas Guibas.三维点云的学习表示与生成模型。国际机器学习会议,第40-49页。PMLR,2018。一、二[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯 单级seman- 从图像标签进行tic分割。 在IEEE/CVF计算机视觉和模式识别会议论文集,第4253-4262页,2020年。一个[3] Sanjeev Arora 、 Hrishikesh Khandeparkar 、 MikhailKhodak、Orestis Plevrakis和Nikunj Saunshi。对比无监督表示学习的理论arXiv预印本arXiv:1902.09229,2019。1、3.2、3.2[4] 格雷戈里·A·贝克斯数字图像处理:原则和应用。JohnWiley Sons,Inc. 1994. 第3.2节[5] Holger Caesar,Varun Bankiti,Alex H Lang,SourabhVora,Venice Erin
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功