没有合适的资源?快使用搜索试试~ 我知道了~
15446SPG:通过语义点生成的1†Yin Zhou2Weiyue Wang2Charles R.齐2德拉戈米尔·安盖洛夫21南加州大学2Waymo,LLC{qiangenx} @ usc.edu{ yinzhou,weiyuewang,rqi,dragomir} @ waymo.com图1:我们的语义点生成(SPG)通过生成语义点(红色)来恢复前景区域。与原始云相结合,这些语义点可以直接由现代基于LiDAR的检测器使用,并有助于改善检测结果(绿色框)。摘要在自动驾驶中,基于LiDAR的物体检测器应该在不同的地理位置和各种天气条件下虽然最近的3D检测的研究集中在提高性能在一个单一的域,我们的研究表明,现代检测器的性能可以大幅下降跨域。在本文中,我们研究了基于LiDAR的3D目标检测的无监督域自适应(UDA)。在Waymo Domain Adaptation [49]数据集上,我们将点云质量恶化确定为每次下降的根本原因。为了解决这个问题,我们提出了语义点生成(SPG),一种通用的方法,以提高可靠性的激光雷达探测器对域的变化。具体地,SPG在预测的前景区域处生成语义点通过将语义点与原始点合并,得到一个可直接包含†在Waymo LLC实习期间完成的工作由现代激光雷达探测器提供。为了验证SPG的广泛适用性,我们用两个代表性检测器PointPillars [22]和PV-RCNN [45]进行了实验。在UDA任务中,SPG显著改善了所有感兴趣的对象类别和所有难度级别的SPG还可以有益于原始域中的对象检测在Waymo Open Dataset[49]和KITTI [17]上,SPG改进了这两种方法在所有类别 中 的 3D 检 测 结 果 。 结 合 PV-RCNN [45] , SPG 在KITTI上实现了最先进的3D检测结果。1. 介绍强大的自动驾驶系统需要其基于LiDAR的检测器来可靠地处理不同的环境条件,例如:地理位置和天气条件。虽然近年来3D检测已经受到越来越多的关注,但是大多数现有的作品[69,6,9,10,15,16,17,18,19,121、22、23、24、26、27、33、37、38、45、46、47、48、57、58、59、61,62,56,68]已经集中在单个域中的性能,其中训练和测试数据在类似的条件下被捕获。如何将3D检测器推广到不同的领域仍然是一个悬而未决的问题,其中环境15447数据集雨帧Avg. number每帧Avg. number每辆车3D L1APOD值0.5%23.0K306.256.54柯克·德里0.0%25.1K303.655.98柯克瓦尔百分之一百42.8K222.334.74表1:OD和Kirk的统计每帧最多包含163.8K点。KirkDry是由Kirk训练组中干燥天气的框架形成的。(a) OD RGB图像(b)Kirk RGB图像(c)OD范围图像(d)Kirk范围图像图2:OD验证集和Kirk验证集中的RGB和范围图像(强度通道)示例。距离图像中的暗区域指示丢失的LiDAR回波。“缺失点”的区域Kirk验证集中每帧缺失LiDAR点的数量是OD或KirkDry中的两倍(见表1)。因此,Kirk中的车辆接收到的Li-DAR点观测值比OD中的车辆少约27%(参见补充中的统计数据和更多详细信息在图2中,我们可视化了分别来自OD和Kirk的两个距离图像。我们可以观察到,在多雨天气中,大量的点缺失,并且与干燥天气相比,缺失点的分布更不规则。综上所述,OD和Kirk之间的主要领域差距是由多雨天气条件引起的点云质量恶化在目标域中,我们将这种现象称为1.2.解决域缺口多项研究提出跨域对齐特征。他们中的大多数专注于2D任务[34,16,51,13]或对象级3D任务[67,41]。应用特征对齐[8,19,32]需要重新设计模型或丢失检测器。我们的目标是寻求一种通用解决方案,以使最近报道的基于LiDAR的探测器受益[22,45,69,46,18]。另一个方向是对来自一个域的数据应用变换以匹配来自另一个域的数据一种简单的方法是对点云进行随机下采样差别很大在本文中,我们解决了域的差距所造成的点云质量恶化,并旨在提高3D对象检测的无监督域自适应 ( UDA ) 的 设 置 。 我 们 使 用 Waymo Do- mainAdaptation数据集[49]来分析域间隙并引入语义点生成(SPG),这是一种增强LiDAR检测器对域偏移的可靠性的一般方法。SPG能够提高目标域和源域的检测质量,并且可以自然地与现代基于LiDAR的检测器相结合。1.1.了解领域差距Waymo Open Dataset(OD)主要收集在加州和亚利桑那州,Waymo Kirkland Dataset(Kirk)[49]这是在柯克兰收集的我们考虑OD作为源域和Kirk作为目标域。为了理解可能的领域差距,我们采用在OD训练集上训练的PointPillars [22]模型,并比较其在OD验证集和Kirk验证集上的3D车辆检测性能。我们观察到21的急剧性能下降。3D平均精度(AP)为8分(见表1)。我们首先确认在以下方面没有显著差异:两个域之间的对象大小。然后通过调查数据集中的Meta数据,我们发现只有0。OD中的5%的Li-DAR帧是在多雨天气下收集的,但是Kirk中的几乎所有帧共享多雨天气属性。为了排除其他因素,我们提取Kirk训练集中的所有干燥天气帧并形成因为雨滴改变了物体的表面性质但是这不仅不能令人满意地模拟缺失点的图案(图2d),而且损害了源域上的另一种方法是对目标域中的点云[65,63,25]进行上采样,这可以增加观察区域周围的点密度。然而,这些方法在恢复非常部分观察到的物体的3D形状方面具有有限的能力。此外,对整个点云进行上采样将导致显著更高的延迟。 第三种方法是利用风格转换技术:[70,36,11,19,44,20,43]将点云渲染为2D伪图像,并强制来自不同域的渲染在风格上相似。然而,这些方法在光栅化期间引入了信息瓶颈[69],并且它们不适用于现代基于点的3D检测器[45]。1.3.用于闭合结构域间隙的The为了解决这个问题,我们提出了语义点生成(SPG)。我们的方法旨在学习点云的语义信息,并执行前景区域预测,以识别前景对象内部的基于预测的由于这些点是在前景对象处有区别地生成的,因此我们用语义点来表示它们。这些语义点与原始点合并为增强点云,15448∈∈联系我们然后馈送到3D检测器。本文的贡献是双重的:1. 我们对不同地理位置和天气条件下的LiDAR 3D探测器的无监督域自适应(UDA)进行了深入分析。我们的研究表明,阴雨天气会严重恶化激光雷达点云的质量,并导致现代探测器的性能急剧下降。2. 我们提出了语义点生成(SPG)。据我们所知,它是第一个针对UDA进行点云3D检测的基于学习的模型。具体而言,SPG具有以下优点:• SPG可以生成语义点,忠实地恢复前景区域遭受的SPG可以显着提高目标域中质量差的点云的性能,同时也有利于源域,用于代表性的3D检测器,包括PointPillars [22]和PV-RCNN [45]。• SPG还提高了一般3D对象检测任务的性能。我们在KITTI [17]上验证了上述3D探测器的有效性。• SPG是一种通用的方法,可以很容易地与现代现成的基于LiDAR的探测器相结合。• 我们的方法是轻量级和高效的。引入不到6%的额外点,SPG仅向3D检测器添加边际复杂性。2. 相关工作2.1. 无监督域自适应无监督域自适应(UDA)的目的是通过仅使用来自源域的标签信息将模型生成到新的(目标)域这两个领域总体上是相关的,但存在着一个分布的转移(领域差距).大多数方法专注于跨域学习对齐的特征表示。为了达到这个目标,[2]提出了最大平均离散度(MMD),[35]提出了转移成分分析(TCA)。[30]设计了一个联合分布自适应来关闭分布移位,而[29,31]利用共享的希尔伯特空间。在不使用显式距离度量的情况下,深度学习模型[16,51,13,40,42]使用对抗训练来获得域之间的不可区分特征。用于2D检测的无监督域自适应对象检测任务对局部几何特征敏感[8,19]分层对齐域之间的功能。这些工作中的大多数集中在用于2D检测的UDA上随着当前未配对风格转移方法的进步[36,70],研究如[44,20]将图像从源域转换到目标域,反之亦然。3D任务的无监督域自适应大多数UDA方法都集中在2D任务上,只有少数研究探索3D中的UDA。[67,41]调整对象级任务的全局和局部特征。为了减少稀疏性,[53]将点云投影到2D视图,而[43]将点云投影到鸟瞰视图(BEV)。[14]创建汽车模型集并使其特征适应检测对象特征。然而,本研究针对单个点云域上的一般汽车3D检测。[52]是第一个针对UDA进行3D LiDAR检测的已发表研究。他们将车辆大小确定为KITTI[17]和其他数据集之间的域间隙。所以他们在数据中调整车辆的相比之下,我们将点云质量确定为Waymo两个数据集之间的主要领域差距我们使用基于学习的方法来缩小域差距。2.2. 点云变换提高点云质量的一种方式是适当地变换点云。点云上采样的研究[65,63,25]可以将低密度点云转换为高密度点云。然而,他们在训练期间需要高密度点云地面实况。这些网络可以使观察区域中的点云致密化。 但在我们的情况下,我们还需要恢复由“缺失点”引起的没有点观测的区域点云完成网络[66,5,60,55]旨在完成点云。专门在对象级的complement,这些模型假设一个单一的对象已手动定位和输入只包括这个对象上的点。因此,这些模型不适合我们的目标检测的目的。点云样式传递模型[4,3]可以传递点云的颜色主题和对象级几何样式。然而,这些模型并不专注于以高保真度保留局部细节因此,它们的变换不能直接帮助3D检测。3. 语义点生成在输入点云中,PCraw=p1,p2,…pNR3+F,每个点具有xyz和F特性的三个通道(例如,强度、伸长率)。图3示出了SPG辅助的3D检测流水线。SPG将原始点云PC_raw作为输入,并在预测的前景区域中生成一组语义然后,将这些语义点与原始点云组合成增强点云PCaug,将其馈送到点云检测器中以获得对象检测结果。如图4所示,SPG将PCraw体素化为均匀间隔的3D体素网格,并学习这些体素的点云语义。 对于每个体素,网络预-dict的概率置信度P~f的它是一个fore地面体素(包含在前景对象边界框中)。在对于每个前景体素,网络生成具有点特征的语义点Sp=[X,f]。χ˜R3是s ~ p的xyz坐标,f~ RF是点属性。为了忠实地恢复ob-tech的前景区域15449--我∈∈∈∈⊂--∈隐藏Aug1212我~f原始点云增强点云检测结果前景一代概率阈值化3D检测器图3:SPG辅助的3D检测流水线的图示。SPG对整个点云进行体素化,并为生成区域内的每个体素(占用的和空的)在应用概率阈值化之后,我们采用具有最高前景概率的顶部体素,并在这些体素中的每一个中的预测位置处添加语义点(红色)。这些点与原始点云合并并馈送到所选3D点云检测器中。服务对象,我们定义一个生成区域。仅在生成区域内考虑被观察点占据或邻近的体素。我们还过滤出P_f小于P_thr_es_h的语义点,点s~p1,s~p2,…,s~pK具有最高的P~f和平均值他们与原来的点云PCraw得到PCaug. 在在实践中,我们使用P thresh= 0。五、为了使SPG能够直接用于现代LiDAR-的检测器,我们编码的增强点云将被占用柱(深绿色)中的语义信息填充到相邻空柱(浅绿色)中,这使得SPG能够恢复空空间中的前景区域3. 点生成模块将柱特征映射到对应的体素。对于生成区域中的每个体素vi,模块创建语义点s~pi,其中编码[χ~i,f~i,P~f],其中χ~i是点位置,f~i是点属性,P~f是接地概率y。P C作为{p,p,.,p ,s~p,s~p,…,s~p}∈R3+F +1.在这里,我们向每个点添加另一个属性通道,指示用于地面预测的置信度:P〜f用于语义点,并且1.0用于原始原始点。3.1. 培训对象为了训练SPG,我们需要创建两个监督:1)yf,如果 avo x el ( 被 占 用 或 为 空 ) 是 a的类标签,用 于 egroundvo x el,其监督P~f;2)ψR3+F,语义点特征ψ~的回归目标。如图4所示,如果一个点在一个对象边界框内,我们将其标记为前点。包含在前景边界框中的Vox元素被标记为对于e接地v〇 x elVf。或vox elvi,我们指定yf=1,如果3.3. 前景区域恢复上述流水线监督SPG以在被占用的体素中生成然而,恢复由“缺失点”问题引起的空体素为了在空白区域中生成语义点,SPG采用两种策略:• “Hide and Predict”, which produces the “missing points”on the source domain during training and guides SPG torecover the foreground object shape in the empty• “Semantic Area Expansion”, which leverages the fore-ground/background voxel labels derived from the在每个边界框中填充前景区域。否则v i Vf和 yi=0。如果v i是一个被占用的前向voxel,我们设ψi=[χ¯i,f¯i]作为回归目标,其中χ¯iR3是v i中所有e个地面点的质心(xyz),而ffiRF是它们的点属性的平均值(e.g.强度、伸长率)。3.2.模型结构图4的下半部分说明了网络架构。SPG使用轻量级编码器-解码器网络[69,22],其由三个模块组成:1) 体素特征编码模块[69]通过使用多个MLP来聚合每个体素内的点。类似于[22,45],这些体素特征稍后堆叠成柱并投影到鸟瞰图特征空间上;2) 信息传播模块将2D卷积应用于支柱特征。如图4所示,3.3.1隐藏和预测SPG体素化PC 原始图像R3+F转换成体素集合V=v1,v2,… v M. 在将V传递到网络之前,我们随机选择γ%的被占用体素V隐藏 V并隐藏它们的所有点。在训练期间,要求SPG预测图1中的所有矢量的背景/背景标签V,即使它只观察|V − V隐藏|. 的V中的预测点特征应该匹配由这些隐藏点计算的相应的地面实况该策略带来两个好处:1.逐区域隐藏点模拟目标域中的缺失点模式; 2.该策略自然地在空白空间中创建语义点的训练目标。第4.4节显示了该策略的有效性这里我们设γ=25。NK15450OOee培养目标构建123分类损失原始点云回归损失语义指向原始点点一代前景点语义指向信息传播前景体素VFE图4:训练目标构建和SPG模型架构。创建语义点训练目标的三个步骤:1.体素化;前景点搜索3.标签分配和地面实况点特征计算。SPG包括:体素特征编码模块(VFE),信息传播模块和点生成模块。背景点前景点占用体素生成区域监督生成区域加权正监督(一)无伸缩(b)第(1)款(a) 无伸缩(b) 带膨胀消极监督图6:使用和不使用“语义区域扩展”生成的语义点(红色)之间的比较积极监督边界框(c)随着扩张(d)α,其中α1。4. 我们只在被占领的位置施加点特征监督ψ前景体素Vf.图5:“语义区域扩展”的可视化。(a)和(c)分别示出了被占据的体素和生成区域。(b)以及(d)示出了监督策略。3.3.2语义域扩展在第1.1节中,我们发现点云质量差导致每个对象上的点不足,并大大降低了检测性能。为了解决这个问题,我们允许SPG将生成区域扩展到空的空间.图5a和图5c分别示出了具有和不具有扩展的生成区域的示例。在没有扩展的情况下,我们可以使用前景点的地面实况知识来仅在被占用的体素上监督SPG(图5b)。然而,随着扩展,在这些空体素内没有前景点因此,如图5d所示,我们设计了一个监管方案如下:1. 对于被占用的和空的背景体素Vb和V_b,我们施加n_g_at_v_e监督并设置标签y_f=0。为了研究扩展的有效性,我们在OD训练集上训练模型,并在Kirk验证集上对其进行评估。扩展导致前景对象上的语义点增加510%图6示出了具有和不具有扩展的生成结果。监督方案鼓励SPG学习车辆部件的扩展形状我们还进行了消融研究(第4.4节),以显示所提出的策略的有效性。3.4. 目标我们使用两个损失函数,即,前景区域分类损失Lcls和特征回归损失Lreg。为了用标签y f监督P〜f,我们使用F局部损失[28]来减轻背景-前景类的不平衡。 L cls可以被分解为四种类别的体素上的焦点损失:被占用的体素Vo、空背景体素Vo。2. 或者对于e个地面v〇 xelsVf的占用,我们设置yf=l。elsVb,空前景体素Vf和隐藏o e e3. 对于边界框Vf内的空体素,我们设置体素V hide。这些类别的标记策略是它们的基础标签yf=1,并分配第3.3.2节中描述的加权因子。15451ΣFΣCLS|V ∪V b|V ∪Vb|F隐藏 |F隐藏Σ−L=1ΣL如图4所示,我们的体素特征编码[69]模块包括一个单层逐点MLP和一个体素。oeα+F|V e|OfL焦点ee+β|V全部藏|V全部藏L焦点(一)明智的最大池化[39,69]。信息传播模块包括两级CNN层。第一级包括具有步幅1的三个CNN层。第二级我们使用Smooth-L1loss[19]进行点特征提取,并监督占用的前景体素V f和隐藏的前景体素V f中 的 语义 点 。包括具有步幅2的一个CNN层和具有步幅1的四个后续CNN层,然后上采样回到原始分辨率。每层的输出维度为128。LregO=1|V o|fL平滑L1O(ψ~,ψ)隐藏根据BEV特征图,点生成模块使用一个FC层来产生P~f,并且使用另一个FC层来生成每个pilla r中的v〇x el的特征SPG+βΣL(ψ~,ψ)(2)并且分别训练每个检测器。我们按照[22]实现PointPillars并使用请注意,我们只对生成区域内体素的Lcls和Lreg感兴趣 我们发现α = 0。5,β=2。0达到最佳效果。4. 实验在本节中,我们首先基于Waymo域自适应数据集[49]评估SPG作为3D检测的通用UDA方法的有效性此外,我们还表明SPG还可以改善源域上性能最佳的3D探测器的结果[49,17]。 为了证明SPG的广泛适用性,我们选择了两个代表性的检测器:1)PointPillars[22],在工业级自动驾驶系统中流行; 2)PV-RCNN[45],一种基于LiDAR的高性能3D检测器[17,49]。我们在无监督域自适应(UDA)和一般3D对象检测的设置下执行两组模型比较:组1,PointPillars与SPG +点-支柱;第2组,PV-RCNN与SPG + PV-RCNN。SPG还可以通过将射线投射应用于生成的点来与基于距离图像的检测器[33,68,1]组合。但是,我们将其作为未来的工作。Waymo Domain Adaptation数据集1.0[49]由两个子数据集组成,Waymo Open Dataset(OD)和Waymo Kirkland Dataset(Kirk)。OD提供了798个训练段(158,361帧)和202个验证段(40,077帧)。在加利福尼亚州和亚利桑那州捕获,99。40%的框架有干燥的天气。Kirk是一个较小的数据集,包括80个15,797帧的训练段和20个3,933帧的验证段。97年在柯克兰被捕。99%的LiDAR框架都有雨天。为了检查探测器在进入新环境时的可靠性,我们在训练期间不使用Kirk中的数据进行UDA实验。KITTI[17]包含7481个训练样本和7518个测试样本。在[7]之后,我们将训练数据分为一个训练分裂和一个包含3721和3769的val分裂LiDAR帧。实施和训练细节我们在所有实验中使用单个轻量级网络架构。作为由[45]提供的PV-RCNN代码(OD 1.0上的训练设置通过与作者直接通信获得)。在Waymo域自适应数据集[49]上,我们将点柱的体素尺寸设置为(0.32m,0.32m,0.4m),将PV-RCNN的体素尺寸设置为在KITTI上,我们将PointPillars和PV-RCNN的体素尺寸分 别 设 置 为 ( 0.16m , 0.16m , 0.2m ) 和 ( 0.2m ,0.2m,0.3m)。默认情况下,生成区域包括任何占用体素的6步内的体素。在概率阈值化之后,我们为Waymo Domain Adaptation Dataset保留了多达8000个语义点,为KITTI保留了6000个语义点4.1. Waymo开放数据集我们通过在OD训练集上训练它们并在OD验证集和Kirk验证集上评估它们来评估指标Kirk 1.0验证集仅提供车辆和行人类别的评估标签我们使用[49]发布的官方评估工具车辆和行人的IoU阈值分别为0.7和0.5.在表2中,我们报告了两个难度级别的3D和BEVAP。距离细分的更多结果见补充材料。目标域柯克,我们观察到,SPG带来了显着的改进,在所有对象类型的两个检测器。平均超过两个难度级别,SPG提高了6柯克车辆3D AP上的PointPillars。7%和BEV AP 8. 百分之八对于PV-RCNN,SPG将Kirk行人3D AP提高了5。6%,BEV AP为5。百分之七。源域与仅优化目标域上的性能的大多数UDA方法[8,20,44]不同,SPG还一致地改进了源域上的结果在两个难度级别上平均,SPG将PointPillars的OD车辆3DAP提高了5。4%,并将PV-RCNN的OD行人3D AP提高了1。百分之六。与替代策略的比较我们将SPG与也针对确定点云质量的替代策略进行比较。我们采用PointPillars作为基线,选择LEVEL 1车辆3D AP作为主要VVVV焦smooth−L115452目标域-Kirk源域-OD困难方法车辆3D AP BEV AP行人3D AP BEV AP车辆3D AP BEV AP行人3D AP BEV AP1级点柱SPG + PointPillars34.6541.5651.8860.4420.6523.7222.3324.8357.2762.4472.2677.6355.2056.0663.8264.66改进+6.91+8.56+3.07+2.50+5.17+5.37+0.86+0.842级点柱SPG + PointPillars31.6738.1547.9356.9417.6619.5718.4020.6752.9658.5469.0974.9051.3352.3360.1360.93改进+6.48+9.01+1.91+2.27+5.58+5.81+1+0.801级PV-RCNNSPG + PV-RCNN55.1658.3170.3872.5624.4730.8225.3931.9274.0175.2785.1387.3865.3466.9370.3570.37改进+3.15+2.18+6.35+6.53+1.26+2.25+1.59+0.022级PV-RCNNSPG + PV-RCNN45.8148.7060.1362.0317.1622.0517.8822.6564.6965.9876.8478.0556.0357.6860.8160.88改进+2.89+1.90+4.89+4.77+1.29+1.21+1.65+0.07表2:Waymo开放数据集1.0和Kirkland数据集的结果。 PointPillars的结果基于我们的 自己的实现[22]。我们使用PV-RCNN源代码,并通过与作者的直接沟通获得Waymo开放数据集[49]的训练设置。在UDA期间,Kirk验证集上的度量实施了三项战略:1.RndDrop,我们在训练过程中随机删除源域中17%的点。该丢弃比是针对源域和目标域中要匹配的点的数量来选择的(参见表1)。2. K帧,其中我们在源域和目标域中使用K个连续的历史帧第一个K−1帧中的点按照以下方式变换到最后一帧中:到地面真相自我运动,所以最后一帧有K乘以点数。3.对抗域适应(ADA),其中我们遵循[16]并在PointPillars的支柱特征上添加域如表3所示,尽管改善到只有0。3D AP中80%为了补救“遗漏点”问题,“3帧”包含来自3帧的真实点,并且“5帧”包含来自5帧的每个场景约800K点证明单帧基线。然而,聚合多个帧不可避免地增加了内存使用和处理时间。ADA将3D AP提高到36。34,但我们观察到AP下降1。第52章在源域值得注意的是,SPG可以通过仅添加8000个语义点来胜过方法基线RndDrop3帧5帧ADA SPG3D AP34.6535.4538.0038.5136.34 41.56表3:针对恶化的点云质量的不同策略的比较模型在OD上进行训练,并在Kirk上进行评估该度量为1级车辆3D AP。我们使用PointPillars[22]作为基线。表4:KITTI测试集上的汽车检测结果。参见补充资料中的完整比较列表。4.2. KITTI数据集在本节中,我们除了显示UDA中的有用性之外(Sec. 4.1),所提出的SPG还可以提高另一种流行的3D检测基准(即KITTI [17])。我们遵循[22,45]中的培训和评估方案如表4所示,SPG显著改善了PV-RCNN对汽车3D检测的影响。截至2021年3月3日,我们的方法在KITTI汽车3D检测中排名第一(在所有提交的方法中排名第四)。此外,SPG在检测硬对象(截断高达50%)方面表现出很强的鲁棒性。特别是,SPG超过了所有提交的方法在硬猫- egory的一个大的保证金,并实现了最高的整体3D AP的83。84%(Easy、Mod.硬)。KITTI验证集我们在表中总结了结果5. 我们使用基线检测器的推荐设置训练每组模型[22,45]。SPG在所有对象类型和难度级别上都显着改进了PointPillars 和 PV-RCNN 。 具 体 而 言 , 对 于PointPillars,SPG将汽车检测的3D AP提高了2. 02%、2.97%,3. 67%在容易,中等,和困难的水平,分别。对于PV-RCNN,SPG改进了3D AP方法参考容易车-Mod.3D AP硬Avg.SA-SSD[18]CVPR 2020 88.75 79.79 74.16 80.903D-CVF[64]ECCV 2020年版89.20 80.05 73.11 80.79CIA-SSD[54]AAAI 2021 89.59 80.28 72.87 80.91Asso-3Ddet[4]CVPR 2020 85.99 77.40 70.53 77.97Voxel R-CNN[12]AAAI 2021 90.90 81.62 77.06 83.19PV-RCNN[45]CVPR 2020 90.25 81.43 76.82 82.83SPG+PV-RCNN-90.50 82.13 78.90 83.8415453方法汽车- 3D AP简易模块硬汽车- BEV AP简易模块硬行人- 3D AP简易模块硬行人- BEV AP简易模块硬点柱SPG + PointPillars87.7589.7778.3981.3675.1878.8592.0394.3888.0589.9286.6687.9757.3059.6551.4153.5546.8749.2461.5965.3856.0159.4852.0455.32改进+2.02+2.97+3.67+2.35+1.87+1.31+2.35+2.14+2.47+3.79+3.47+3.28PV-RCNNSPG + PV-RCNN92.1092.5384.3685.3182.4882.8293.0294.9990.3391.1188.5388.8664.2669.6656.6761.8051.9156.3967.9771.7960.5264.5055.8059.51改进+0.43+0.95+0.34+1.97+0.78+0.33+5.40+5.13+4.48+3.82+3.98+3.71表5:KITTI验证集的比较平均精确度(AP)是在40个召回位置上计算的基线结果[45,50]是基于公开发布的模型获得的。查看补充中的更多结果(包括Cyclist)。行人检测5。40%,5. 13%,4. 48%的人在容易,中等和困难的水平,分别。4.3. 模型效率我们评估了SPG对KITTI值分裂的效率(表6)。SPG包含0。3900万个参数,同时为检测器增加不到17毫秒的延迟。这表明SPG在严格的计算预算下对于工业级部署是高效的。表6:潜伏期和模型参数。“M”代表百万。最后一列显示了独立SPG的结果。该评估基于批大小为1的1080TiGPU延迟是KITTI值分割的平均值。4.4. 消融研究模型膨胀隐藏&预测前景信心3DAP提高基线SPGSPGSPGSPG(我们的)−−✓ (α−=0.0)✓(α=1.0)✓(α=0.5)✓(α=0.5)✓(α=0.5)−−百分之二十五百分之二十五百分之二十五−百分之二十五百分之二十五✓−✓✓✓✓✓−34.6535.8938.0938.9638.4239.2237.9641.56+1-0.24+3.44+4.31+3.77+4.57+3.31+6.91表7:SPG的消融研究模型在OD上进行训练,并在Kirk上 进 行 评 估 该 度 量 为 1 级 车 辆 3D AP 。 我 们 使 用PointPillars[22]作为基线。我们对“语义区域扩展”、“隐藏和预测”以及是否添加前景置信度(P〜f)作为点属性进行消融研究,并显示所有这些都可以有益于检测质量(参见表7)。 我们还改变空前景体素V f上的加权因子α。较大的α鼓励在空的前景空间中生成更多的点。然而,在现实中,对象通常不会占据边界内的整个空间P脱粒0的情况。30的情况。40的情况。50的情况。60的情况。7检测器点柱PV-RCNN-用SPG没有是的没有是的是的延迟(ms)23.5636.67139.96156.8516.82参数4.83M 5.22M13.12M 13.51M0.39M15454表 8 : 概 率 阈 值 P_th_resh 的 消 融 研 究 ( 仅 在P_th_f>P_th_resh时保 留语 义点)。我们最好的SPG模型使用P thresh=0。五、该指标是Kirk验证集上的1级车辆3D AP盒子因此,过度积极地生成点无助于提高性能(参见α= 1。0)。在表8中,我们展示了在概率阈值化过程中选择不同阈值的效果。虽然较高的P阈值仅保持具有高前景概率的语义点,但较低的P阈值允许更多的点,但可能将点引入背景。我们发现阈值为0。5、达到最佳效果。5. 结论在本文中,我们研究了基于LiDAR的3D探测器在不同地理位置和天气条件下的无监督域自适应。根据Waymo Domain Adaptation数据集,我们观察到下雨天气会严重恶化点云所提出的SPG方法解决了这个问题,作为一种新的无监督域自适应(UDA)任务,而不使用任何训练数据从新的域。这种设置允许我们针对自动驾驶车辆可能由于各种条件(例如,不同程度的雾/雨/雪(超出人们可以有效训练的范围)。利用“隐藏和预测”和“语义区域生成”两种策略我们用两个探测器测试SPG:PointPillars和PV-RCNN。对于无监督域自适应,SPG在具有挑战性的目标域上实现了显著的性能增益。在Waymo Open数据集和KITTI上,SPG也始终有利于源域的检测质量。15455引用[1] Alex Bewley 、 Pei Sun 、 Thomas Mensink 、 DragoAnguelov和Cristian Sminchisescu。用于尺度不变3d目标检测的范围调节扩张卷积。在机器人学习会议上,2020年。6[2] KarstenM Borgwardt,Arthur Gretton,Malte J Rasch,Hans-PeterKri e gel , BernhardScho¨ l k opf , andAl exJSmola. 利用核最大平均差异对结构化生物数据进行整合。Bioinformatics,22(14):e49-e57,2006. 3[3] Xu Cao,Weimin Wang,and Katashi Nagao.点云的神经风格转换。arXiv预印本arXiv:1903.05807,2019。3[4] 曹旭,王为民,长尾胜,中村良介.Psnet:一个用于几何和颜色点云样式化的样式传递网络。在IEEE冬季计算机视觉应用上,第33373[5] Xuelin Chen,Baoquan Chen,and Niloy J Mitra.使用对抗训练在真实扫描上完成不成对点云在ICLR,2020年。3[6] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。在IEEE计算机视觉和模式识别会议论文集,第1907-1915页,2017年。1[7] Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,and TianXia.用于自动驾驶的多视角三维物体检测网络。2017IEEE计算机视觉和模式识别会议,第6526-6534页,2017年。6[8] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在IEEE计算机视觉和模式识别会议论文集,第3339-3348页二、三、六[9] Yilun Chen,Shu Liu,Xiaoyong Shen,and Jiaya Jia.快点r-cnn.在IEEE计算机视觉国际会议论文集,第9775-9784页,2019年。1[10] Yilun Chen ,Shu Liu , Xiaoyong Shen ,and Jiaya Jia.Dsgn :用于 3D对象检测的深度立体几何网络。在IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议 论 文 集 , 第12536-12545页,2020年。1[11] Jaehoon Choi,Taekyung Kim和Changick Kim。基于gan的数据增强的自集成用于语义分割中的领域适应。在IEEE计算机视觉国际会议论文集,第6830-6840页,2019年。2[12] Jiajun Deng , Shaoshuai Shi , Peiwei Li , WengangZhou,Yanyong Zhang,and Houqiang Li.体素r-cnn:面向 高 性 能 的 基 于 体 素 的 3d 目 标 检 测 。 arXiv :2012.15712,2020。7[13] 董家华、杨聪、孙乾、侯东东。语义可转移的弱监督内窥镜病变分割。在IEEE计算机视觉集,第10712二、三[14] Liang Du , Xiaoqing Ye , Xiao Tan , Jianfeng Feng ,Zhenbo Xu,Errui Ding,and Shilei Wen. 助理-3ddet:三维点云目标检测的感知-概念关联。在IEEE/CVF计算机视觉和模式识别会议论文集,第13329三、七[15] Xinxin Du , Marcelo H Ang , Sertac Karaman , andDaniela Rus. 车辆三维检测通用流水线2018年IEEE机器人与自动化国际会议(ICRA),第3194-3200页IEEE,2018年。1[16] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议,第1180-1189页。PMLR,2015. 二、三、七[17] Andreas Geiger , Philip Lenz , Christoph Stiller , andRaquel Urta
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功