没有合适的资源?快使用搜索试试~ 我知道了~
远场3D检测:传感器融合方法及基准测试
692Far3Det:走向远场3D检测Shubham Gupta1Jeet Kanjani1*Mengtian Li1 Francesco Ferroni2James Hays2,3 Deva Ramanan1,2<$Shu Kong4<$1CMU2 Argo AI3 Gatech4 Texas A M University摘要我们专注于距离观察者超过一定距离的物体的远场3D检测(Far3Det)的任务,例如,>50 米 。 Far3Det 对 于 以 高 速 行 驶 的 自 动 驾 驶 汽 车(AV)尤其重要,因为它需要检测远场障碍物以确保足够的制动距离。然而,诸如nuScenes的当代AV基准没有充分强调这个问题,因为它们仅评估特定距离(50 m)的性能。其中一个原因是,获得远场3D注释是困难的,特别是对于激光雷达传感器,产生非常少的点返回到遥远的物体。事实上,我们发现近50%的远场物体(超过50米)包含零激光雷达点。其次,用于3D检测的当前度量采用这两个因素导致Far3Det任务的分析不完整。例如,虽然传统观点告诉我们,高分辨率RGB传感器对于遥远物体的3D检测至关重要,但在当前基准排行榜上,基于激光雷达的方法仍然比RGB方法排名更高。作为Far3Det基准测试的第一步,我们开发了一种方法来从nuScenes数据集中找到注释良好的场景,并导出注释良好的远场验证集。我们还提出了一个Far3Det评估协议,并探讨了Far3Det的各种3D检测方法我们的结果令人信服地证明了长期以来的传统智慧,即高分辨率RGB提高了远场的3D检测我们进一步提出了一种简单而有效的方法,该方法基于非最大值抑制融合RGB和激光雷达检测器的检测,该方法在远场的性能明显优于最先进的3D检测器。1. 介绍自动驾驶车辆(AV)必须提前检测物体,以便及时采取行动,以确保驾驶安全[27,14]。因为一辆时速60英里的汽车需要60米的停车距离,*共同第一作者。†共同最后作者。根据[9],AV必须检测远场障碍物以避免潜在的碰撞。此外,检测远场物体也与不稳定机动期间以适度速度在城市环境中导航相关,例如无保护的左转,其中对面的交通可能以35 mph移动,导致相对速度为70 mph[13]。这些真实世界的场景促使我们研究远场3D目标检测(Far3Det)问题图1预览了这项工作。现状。3D检测在AV研究中取得了很大的进步,这主要是由于使用激光雷达收集数据的当代行业级基准(例如,nuScenes[2]、 Waymo[26]和KITTI[7]),这有助于在3D世界中进行精确的注释/定位。这些基准评估仅达到一定距离的检测(即,在距离EGO车辆50米以内)[7,2,26],因为难以注释具有很少或零激光雷达返回的远场对象这限制了Far3Det方法的探索,甚至使RGB处理应该改善远场检测的传统观点不合理[36,18,17,37]。我们证明了这种差异的原因包括缺乏高质量的远场注释和缺乏范围感知指标。为什么Far3Det很难?在3D世界中精确定位远场物体甚至对人类来说都是困难的[34,24]。在感知上,人类驾驶员能够检测远场物体,但可能无法报告其精确的3D位置。我们认为,Far3Det的评估需要新的基于范围的指标,以服务于自动驾驶。此外,就3D传感器技术而言,虽然激光雷达已被证明对近距离到中距离非常有效,但它对远距离感知产生了众所周知的稀疏输出[2];实际上,它甚至可能无法返回远距离物体的点。事实上,我们发现,在传统基准中,近50%的远场物体(超过50米)包含零激光雷达点。正如过去的工作所示,不同的传感器(如RGB相机)可以产生更高分辨率的数据,这对远场感知更有效,这表明多模态处理[36,22]对Far3Det至关重要。注释和评价。Far3Det探索有限的一个原因是注释远场对象的困难(因为激光雷达在远场对象上具有特别稀疏的返回)。因此,现有的基准缺乏693(b)良好的近场探测(a)基于激光雷达的地面实况探测(d)远距离(f)改进评价程序和方法基于激光雷达(CenterPoint)基于图像(FCOS3D)融合(我们的)1009080706050403020100附近远附近远附近远(c)差的远场检测(e)杂波的注释缺失标准评价改进评价该方法图1:我们研究了距离观察者一定距离以外的物体的远场3D检测(Far3Det)问题。Far3Det对自动驾驶安全至关重要,因为自动驾驶汽车(AV)必须检测远场物体以避免潜在的碰撞。3D检测领域已经被现代基准大大推进,其中基于激光雷达的检测器被证明优于基于图像的然而,这些基准评估检测到一定的距离(50米),掩盖了基于激光雷达的探测器(bc)的差的远场物体检测性能。更糟糕的是,现有的基准没有充分注释远场对象(de),部分原因是激光雷达返回较少。为了研究Far3Det,我们获得了一个可靠的验证集,并建立了基准测试协议。我们分析了成熟的方法(f),并证明了传统的智慧(第一次,定量),使用高分辨率RGB提升Far3Det。我们通过融合RGB和基于激光雷达的检测来探索多模式检测器。我们提出了一个相当简单的融合方法的基础上的非最大值抑制自适应距离,实现了显着的改善,比最先进的激光雷达为基础的检测器。足够的远场对象注释[2]。为了获得用于公平Far3Det基准测试的高质量注释验证集,我们分析了完善的nuScenes数据集[2],并开发了一种方法来导出在远场中具有高质量注释的子集(图2)。(3)第三章。 我们称之为“Far nuScenes”,并将其公开。我们还分析了一组遥远的物体与零激光雷达点,通常被忽略。我们首先指出它们占了相当大的一部分(占所有注释的15.6%!),并且引入用于识别和重新包括在至少一个模态中可见的它们的子集的自动过程。最后,我们注意到,典型的基准度量(诸如3D mAP)使用固定的距离阈值(例如,0.5,1,2和4m)[2],这对于远场来说太苛刻,而对于近场来说可能太宽松。因此,我们引入了新的指标的基础上自适应阈值w.r.t距离自我车辆。基本原理是对近场对象使用小阈值,而对远场对象使用宽松阈值最后,一个自然的问题是是否存在其他数据集(除了nuScenes),方便Far3Det的探索。我们承认最近的数据集,如Argoverse 2.0[35]和WaymoOpen数据集[26]确实包括超过50米的对象的注释。我们选择在nuScenes上探索 Far3D,因为该数据集(1)已经成为3D检测的标准基准,(2)包含用于不同模态3D检测的现成模型的更大资源,以及(3)已经仔细注释了超出有效激光雷达范围或包含的对象。此外,我们认为RGB传感器将继续比激光雷达传感器具有更高的分辨率(由于制造过程),因此认为多模态处理将继续对推动感知范围的极限具有价值,甚至对于未来的传感器配置也是如此。多模式检测。 我们相信,利用多模信号可以改善3D检测[36,18,17,37,21]。例如,传统观点认为,高分辨率RGB可以更好地捕获远场中的对象,而激光雷达返回的点相当稀疏。虽然多模态检测已经在许多基准上得到了很好的研究[33,15],但排行榜通常只显示多模态检测器相对于其基于单模态激光雷达的对应物的边际改进。我们通过实验验证了,通过适当的基于距离的定位方法和高质量的远场注释,人们可以定量地证明(据我们所知,这是第一次)多模态检测对远场检测至关重要的传统观点。为了证明这一点,我们引入了一种简单但有效的NMS方法,用于将仅RGB检测与最先进的仅激光雷达检测融合,同时考虑提高远场精度。我们还将我们的融合方法与[40]的最新工作相结合,证明了远场3D物体检测的显着改进捐款. 我们为远场3D检测(Far3Det)的研究做出了三大贡献。首先,我们提出了一种方法来在完善的nuScenes数据集中找到注释良好的场景,并导出一个新的验证集,用于公平的Far3Det基准测试,以及我们新的基于范围的其次,我们广泛研究了各种探测器,包括最近最先进的RGB激光雷达融合网络,证明了使用RGB增强Far3Det的传统观点。第三,我们提出了一种基于非最大值抑制(NMS)的RGB激光雷达融合方法,该方法将检测结果与距离进行融合。我们的方法明显优于最先进的激光雷达探测器,并作为Far3Det未来研究的基线。预测地面实况050m100mmAP(汽车)694图2:一些成熟的3D检测数据集的地面实况可视化。显然,它们(前三列)在远场对象上具有显著量的缺失注释(定量分析见图3)。 为了获得一个可靠的验证集,我们描述了一个有效的验证过程(在第3.1节),用于识别始终如一地产生高质量远场注释的注释器。这有助于我们识别高质量的远场注释,并导出支持远场检测分析的Far nuScenes(最右侧)2. 相关工作3D检测基准。在自动驾驶的背景下,存在许多用于3D检测的优秀多模态基准,例如KITTI [7],WaymoOpen Dataset [26]和nuScenes [2]。KITTI[7]是先驱多模态数据集,提供来自激光雷达传感器的密集点云以及正 面 立体 图 像 。最 近 , Waymo Open 数 据 集[26]和nuScenes[2]发布,提供了比KITTI[7]更多的注释,以进一步推进AV社区的研究。所有这些基准都只关注近场对象而忽略远场对象。主要原因是远场对象难以注释。因此,它们的基准是检测距离观察者一定距离的物体(例如,50m)。在此距离内,物体具有足够的激光雷达回波,并且基于激光雷达的d,它们在3D检测任务中优于基于图像的检测器。出于对AV研究中安全问题的关注,我们通过评估检测性能来观察足够远的远场物体(≥ 50 m)。3D物体检测旨在预测3D边界框(长方体)。在AV领域,3D探测器的输入可以是激光雷达点云或RGB图像。在单个2D图像上,检测对象并估计其3D特性是一个令人兴奋的话题[32,31,21]。这被称为单目3D物体检测[31]或基于图像的3D检测[32]。我们在本文中使用后者来对比基于激光雷达的3D探测器。在AV研究中,基于激光雷达的3D探测器在3D理解方面证明是巨大的成功。 有许多基于激光雷达输入的3D探测器[16,42,30,11,38,39]。 它们在现有基准中大大优于基于图像的3D检测器[2,26,7],大概是因为激光雷达点是近场物体精确3D定位的强信号。Waymo[26]和Argoverse 2.0[35]的数据流对远场物体进行评估,但它们没有明确地将基于RGB的模型与基于激光雷达的模型进行比较。因此,使用RGB来改进Far3Det的研究更像是没有理由的传统智慧。我们的工作令人信服,定量地得出结论,使用高分辨率RGB增强了Far3Det。多模态3D检测。 融合多-用于3D对象检测的模态数据是一个活跃的领域。有许多方法:一些方法分别对激光雷达和摄像机信息进行编码,然后在对象建议阶段进行融合[3,15,21];一些方法尝试使用RGB特征[25]或通过处理RGB输入获得语义信息[29]来增强激光雷达点;一些方法在激光雷达测量[41]的指导下反向增强具有密集深度的RGB图像;一些方法以分阶段的方式工作,首先通过图像数据检测盒子,然后用激光雷达在3D中定位[22];其他人则专注于多模态输入检测的后期融合[36]。由[4]提出的概率融合是另一种简单的基于非学习的方法,用于从给定条件独立假设的第一原理导出的对象检测器的后期融合[10]。CLOC是一种最新的基于学习的多模检测器,用于融合从激光雷达和图像模态计算的检测[20]。最近,引入了多视图虚拟点[40],并在nuScene[2]基准上实现了SOTA多模态检测方法的多样性表明,这仍然是一个活跃的研究领域,目前还没有一种方法明显优于其他方法。此外,许多多模态3D探测器在排行榜中表现不如最先进的(单模态)基于激光雷达的探测器[26,2]。随着融合方法的复杂性增加,我们相信这会导致对AV中3D检测方法的融合方法关注较少。我们对Far3Det的探索表明,RGB非常有用,利用RGB和激光雷达可以大大提高检测性能,特别是在远场。3. 远场3D检测我们现在详细描述远场检测问题。我们探讨了这个问题的各种公开可用的数据集。我们为Far3Det建立了评估协议,其中我们引入了新的,合理的指标。3.1. 数据集如前所述,Far3Det(直到现在)未被探索的主要原因是数据注释的困难,即,如果远场物体的激光雷达回波很少或没有,则很难标记远场物体的3D长方体。尽管有这些困难,695×--图3:(a)我们从每个数据集中随机抽取50帧,并手动检查> 5000万个对象的缺失注释,以分析现有3D检测数据集的注释质量。该分析表明,与现有基准KITTI [7],Waymo [26]和nuScenes [2]相比,衍生子集Far nuScenes具有更高的注释质量。(b)我们比较了远nuScene(黄色)与标准nuScene(蓝色)之间给定距离处每帧的平均注释数量,表明前者(我们的)具有更高的注释密度。Far3Det的研究需要可靠的验证集我们的贡献之一是提出了一种策略来构造一个来自现有数据集的注释良好的val-set今天的3D检测数据集(例如, nuScenes[2],KITTI[7]和Waymo[26])强调激光雷达,因为它可以忠实地测量3D世界的几何尺寸由于激光雷达点密度随距离而减小,因此它们对远场中的对象的注释较差,如图所示2,使得Far3Det的研究几乎不可能。为了促进这一领域的研究,我们将精力集中在清理nuScenes上,它可以说报告了比其他更高的远场注释公开可用的数据集(见附录)。寻找注释良好的远场数据。手动检查单个注释的成本高得令人望而却步。基于过去的视频注释界面[28,6],我们认为单个注释器倾向于被分配到特定场景,或以0.5秒间隔(每2帧)注释的40帧的顺序扫描。来自众包文献的一个见解是,虽然不同的注释者可能不一致,但单个注释者通常是自洽的[19]。我们证明了这一假设在nuScenes中是成立的;与其它场景相比,某些场景倾向于一致地用远场对象注释。因此,我们设计了一个用于验证注释器/场景的管道,如下所示。对于每个场景,我们随机采样20帧,并标记任何丢失的远场注释。我们手动删除任何帧中发现2个以上缺失远场注释的场景然后,我们收集所有剩余的好场景,并确保几乎所有的远场对象都被注释。我们最终得到一个包含38个场景的Far nuScenes我们的基于场景的验证粗略地减少了40的数据清理手动工作(与检查每个激光雷达帧相比)。图3显示了FarnuScenes与其他数据集相比的统计数据。此外,为了确保Far nuScenes足够大以进行基准测试,我们努力采样不同的帧以覆盖白天和夜晚、城市场景和高速公路等场景。图4:标准评估协议使用小距离阈值(即,0.5、1、2、4米)。基于图像的探测器(FCOS3D)具有如下典型的“故障”模式。检测在投影图像空间(顶行)中相当好,但在BEV(底行)中可能具有显著误差该评估协议对此类错误的惩罚太重。3.2. 零激光雷达点目标我们发现15。nuScenes中6%的注释对象具有零激光雷达点。进一步的分析表明,当(1)对象在当前帧被遮挡但基于先前或下一帧被注释,以及(2)对象太远,没有激光雷达返回(附录中有更多详细信息)。有人可能会问这些物体是如何被注释的。根据nuScenes文档及其作者,这些对象是通过跨帧(对于被遮挡的帧)[1]插值注释并使用RGB图像作为视觉证据来注释的。默认情况下,nuScenes将过滤评估中的所有零激光雷达对象。在这项工作中,我们重新包括这些零激光雷达对象进行评估,因为检测它们对于AV安全至关重要。为了识别这些未被遮挡的对象,我们定义了以下策略。如果(1)一个长方体前面有另一个长方体,或(2)长方体前面有原始激光雷达点(由于未注释的对象),则该长方体被标记为被遮挡。我们首先将所有激光雷达点和注释框投影到所有相机的图像视图中。在我们的设置中,我们认为一个盒子是被遮挡的,如果它有(1)超过0.5 IOU与前面5米或更远的盒子,或(2)激光雷达点在前面10米或更远我们通过在图像视图中可视化投影来调整这些在执行此分析时,我们发现未被遮挡的零激光雷达点对象占总零激光雷达点对象的三分之一,占总nuScenes数据集的5.44%我们丢弃了被遮挡的盒子,并将其余的零激光雷达对象包括在我们的分析中(结果见第二节)。4.4)如表1所示。3.3. 评价方案标准3D检测系统任何典型的3D检测指标都可以评估 Far3Det 的 性 能 , 例 如 所 有 类 别 的 平 均 精 度(mAP)。在每个696线性二次型4m{个文件夹CC.D←基于激光雷达的探测. 通过分析Ti,j={IoU,s ,s ,dij,dj}表1:nuScenes Train和Val数据集中0- 80 m的零激光雷达点注释比例。通过考虑当前激光雷达扫描以及最后10次激光雷达扫描提供该度量。为了计算后者,注释在其先前位置和当前位置之间插入。零激光雷达点注释 零激光雷达点注释根据nuScenes提供的最低阈值,分别在10米和20米距离处进行标准评估。thresh(d)= 0。25+ 0。0125d +0。00125(d2)(2)椭圆度量:到目前为止,我们所讨论的指标在本质上可以被认为是“循环的”,因为它们匹配数据/0- 80 m总注释在当前帧处跨十个帧内基于循环匹配的地面实况预测成套列车944881 147702(15.6%)94990(10.0%)Val-set187528 29275(15.4%)19007(10.1%)10图5:标准度量使用固定阈值对阳性检测进行8岁(例如,4m)。我们的指标使用自适应阈值6,相对于t线性或二次增长深入这就放宽了门槛4对于远场物体,因为人类不能检查标准(IoU、中心距等)。然而,在现实世界的情况下,识别在同一车道中的对象可以被认为是更重要的,因此,我们还设计了一个椭圆阈值方案,该方案允许较大的纵向阈值(沿着自我车辆的长轴y)和较小的横向阈值(x)。这种椭圆的边界由下式给出:′2′2感知远定位太[34,24]三百一十二5(x-x)+78。125(y-y)=1(3)20010 20 30 40 50 60 70 80自我距离(m)以及用于近场观测的严格阈值。基于该图,我们在等式中设置参数。1-3x′2+y′2其中,(x,y)和(x′,y′)表示预测框和地面实况框距自我车辆的距离,单位为米。类,它的AP平均了由阈值变化的精度列表。在3D检测中,基于中心距离的阈值用于确定检测是否匹配地面实 况 对 象 。 nuScenes[2] 中 使 用 的 标 准 距 离 阈 值 为0.5m、1m、2m和4m。具 有 自 适 应 距 离 保 持 的 AP 。 我 们 证 明 , 对 于Far3Det,使用小距离阈值惩罚远场定位误差似乎是苛刻的(例如,0.5米)。事实上,我们人类发现定位远场移动物体非常困难(如果不是不可能的话)[34,24]。如图4、知道迎面而来的汽车的方向比在3D世界中精确定位它更重要,只要它离我们很远。出于这个原因,Waymo基准测试为仅基于RGB的检测引入了一个可容忍的3D平均精度[12]。在本文中,对于一般的远3D检测,我们提出了一种自适应阈值方案,其中阈值匹配检测与地面实况注释,原则上,任何3D检测器都可以被训练用于检测远场3D对象。但核心问题是它们的性能如何,它们的局限性是什么,以及如何提高它们的性能。这项工作的首要目标是通过在拟议的评估设置下探索Far3Det的各种现有基线来阐明这些问题。3.4. 多模态融合三维检测多模态检测是一个活跃的研究领域,在文献中提出了许多方法。现有的多模态检测器在如何融合多模态信息方面有所不同,在原始数据上,在特征上,或融合单模态检测。我们扩展了CLOC基线用于3D融合。本文还提出了两种后期融合算法,即距离融合和AdaNMS融合.CLOCs3D。我们扩展了CLOC[20]以执行3D检测的融合。我们修改功能,以包括3D IoU(IoU3D),候选人距离越远,影响越大。我们设计了两个度量,线性和二次。的i、j(dij),与电动车的距离(dj)和预测基于距离的二次阈值可以从立体三角测量的标准误差分析中导出重要的是要知道,距离自适应阈值不仅对远场对象施加合理/宽松的阈值,而且在近场中施加更严格的阈值。在数学上,对于线性,我们在50米的距离处使用4米阈值,在0米处使用0米阈值,并推导出关系。我们根据nuScenes提供的最高中心距离阈值为0- 50米的汽车,卡车和公共汽车进行标准评估,为50米选择4米。得分S1和Sj 。 特征张量的每个元素都可以计算为3D3D3D。基于距离的融合{i,j}II表演在不同距离范围的物体上的单模态和多模态检测器的比较中,我们发现基于激光雷达的检测器在近场物体上具有主导性能另一方面,基于图像的检测器对于具有稀疏激光雷达点的远距离物体的检测性能更好具体地,考虑到操作距离范围d,我们有c类的最终检测:thresh(d)= d/12。第五条(1)Dc=D(d tc)中心距离阈值(m)697(d>tc)d>tc)(四)对于二次型,我们在50米处使用4米阈值,在10米处使用0.5米阈值,在20米处使用1米阈值同样,我们选择0.5m和1m哪里(d tc)CDc←基于聚变的探测(五)698}{表2:原始nuScene [2]基准中使用的类别特定检测范围。级车 卡车 总线 行人 摩托车 交通锥范围(m)505050404030自适应NMS(AdaNMS)。我们注意到,远场单模态检测是有噪声的,并且经常对同一地面实况对象产生重叠检测为了抑制在远场的这种重叠检测,我们建议使用较小的IoU阈值。为此,我们引入了一种用于NMS的距离自适应IoU阈值AdaNMS表3:基于激光雷达[39]和基于图像[31]的探测器在nuScenes上的评估协议(3D mAP)比较。我们分别使用0.5m、1m、2m和4m的默认阈值、提出的自适应线性阈值和二次阈值来计算AP度量。我们发现在50- 80米范围内使用默认度量的基于图像的方法的数字较低,这与图中所示的可视化4(见补充中的更多视觉效果我们认为这是由于太严格的距离公差(例如,0.5m)。0- 50米50- 80米类方法默认线性二次函数默认线性二次函数简称。 为了计算任意的自适应阈值,trary距离,我们定性地选择两个IoU阈值车基于图像[31] 44.3 69.4其在近距离和远场观测中工作得足够好。对于给定的近距离d1处的对象,我们选取重叠阈值c1,并选取距离d2处的远场对象的阈值c2。然后,我们在任意距离d处的自适应IoU阈值由下式给出:IoU=(d − d)。c2 − c1+ c(6)11基于图像[31] 22.5 31.7 17.9 3.213.6基于激光雷达的[39]88.1 88.5 87.713.4 14.0 14.0基于图像[31] 32.7 38.0 21.5 2.6 9.8 12.0他们在距离。根据第1节中的讨论,我们认为这样的最大距离对于中速或高速驾驶的应用是不够的所以我们threshd2−d1将所有级别的探测范围增加到80米,评估和培训。我们用这个训练模型我们选取的距离范围d1= 10m和d2= 70m,定性选择阈值c1= 0.2和c2= 0.05。4. 实验我们提出的结果评估共同的检测器下的标准和建议的协议。接下来,我们评估了一套不同的3D探测器,包括单模态和多模态方法,根据我们最终的评估协议。我们评估的模型,包括无遮挡零激光雷达点对象,我们还报告的椭圆阈值度量的数字。4.1. 设置我们在nuScenes [2]和Far nuScenes(在第3.1节中介绍)上进行实验。 nuScenes是一个多模式3D检测数据集,包含RGB、激光雷达和雷达序列的同步捕获。该数据集包含1000个场景,总共拍摄了大约6个小时。激光雷达扫描以20 Hz采集,密集的3D边界框注释以2 Hz提供。在自动驾驶环境中,如此多样化的组织良好的数据使其成为3D对象检测器最成熟的基准之一。远nuScenes是具有高质量注释的nuScenes的子集,特别是对于遥远的对象。由于3D检测的文献主要集中在激光雷达和RGB两种请注意,原始的nuScenes基准定义了(短)每类范围,用于评估不同类的对象(如表2所示),可能是因为不同类具有不同的先验对象形状/大小,例如pedes-trians很小,因此激光雷达可能不会返回点更新的设置,除非另有说明,我们使用使用此设置训练的模型进行评估。我们采用两种流行的3D探测器,CenterPoint[39]和FCOS3D[31],分别作为代表性的基于激光雷达和图像的探测器。FCOS3D在多个排行榜上实现了最先进的基于图像的3D检测性能。因此,我们在工作中使用FCOS3D来研究Far3Det。基于激光雷达的3D检测器将激光雷达扫描的聚合作为输入并输出检测(长方体坐标和类标签)。这种类型的探测器在各种3D探测基准中大大优于基于图像的探测器[7,2]。我们证明这是不正确的Far3Det。在众多基于激光雷达的3D检测器中,我们选择了CenterPoint [39],因为它在各种基准点上实现了最先进的3D检测性能[26,2]。我们稍后将引入其他基线,以进行更全面的评估。除 非 另 有 说 明 , 我 们 采 用 流 行 的 基 于 代 码 的MMDection3D工具箱[5]作为基线方法。我们采用默认的超参数,除了(a)学习率,因为我们使用4个GPU进行训练,在此设置下应使用标准设置的一半和较小的学习率[8],(b)一个盒子内激光雷达点的最少数目为1个(从默认值5)以允许稀疏检测,以及(c)点云范围[-80,-80,-5,80,80,3]以包括远距离对象检测。具体地,CenterPoint的值得注意的超参数是具有循环学习速率调度器的AdamW优化器,体素大小为[0.075,0.075,0.2]; FCOS 3D的SGD优化器,0.9动量,12个历元和图像分辨率1600x900。我们使用圆NMS,双翻转,以实现更高的精度为中心点。 我们按照标准程序训练行人基于激光雷达的[39]86.0 94.994.146.510.422.04.638.022.343.3[39]第三十九话56.7 64.159.35.19.79.9699车表4:表3的远nuScenes版本。我们观察到与表3相似的趋势,但数值更高,我们认为这真实地反映了远场的3D检测性能。0- 50米50- 80米类方法默认线性二次型默认基于激光雷达的线性二次型[39]91.2 94.994.1 19.2 28.5基于图像[31] 57.3 72.1 49.5 11.9 45.9基于激光雷达的[39]62.8 66.3 59.2 6.5 12.9 13.4基于图像[31] 28.6 28.2 14.9 3.2 13.4基于激光雷达的[39]93.0 92.9 91.9 16.9 17.4 17.5基于图像[31] 43.1 42.7 25.6 4.4初始深度权重设置为0.2的FCOS3D模型,然后使用深度权重1.0微调模型。由于MVP[40]使用虚拟点在密集点云上训练CenterPoint,因此我们使用相同的设置来训练它。4.2. 拟定评价方案用于Far3Det评估的工具。我们在0- 50 m和50- 80 m距离范围内评估了激光雷达(CenterPoint[39])和基于图像(FCOS 3D[31])模型我们使用CP作为中心点的缩写.表3显示了nuScenes验证集(附录中的其他类别)上0- 50 m和50- 80 m范围的mAP值。我们观察到,当我们使用默认的nuScenes阈值方案时,与基于激光雷达的方法相比,基于图像的方法(列d)的Far3DetmAP较低,然而,当我们使用我们提出的线性和二次阈值方案(d e)时,我们观察到,对于汽车和卡车,基于图像的方法优于基于激光雷达的方法。在下一节中,我们将对Far nuScenes进行类似的分析。对Far nuScenes的评价。基于我们对nuScenes中缺失注释的观察(图3),我们再次对Far nuScene执行与表3相同的评估,以获得更可靠的数字。表4显示,对于50- 80 m范围,远nuScenes组件上的相应3D mAP值高于nuScenes。在随机样本的视觉检查中,我们观察到模型能够生成远场的预测,但由于nuScene中缺少它们的地面实况,因此与Far nuScene相比,我们得到更低的mAP值。我们还观察到,基于激光雷达的方法的mAP并没有增加相同的比例,基于图像的方法的距离阈值的增加。这可以归因于以下事实:基于激光雷达的方法如果获得足够的激光雷达点则预测准确的盒子,但是由于激光雷达在距离处遭受稀疏问题,所以检测的数量相当小。基于图像的方法受此问题的影响相对较小,因此,其精度下降相对小于其激光雷达对应物。我们选择我们的线性和二次适应的参数使用预定义的阈值在一定的距离。我们认为,通过使用基于摄像机的某些几何学,表5:在我们提出的基于线性自适应距离阈值的度量下对远nuScene的定量评估(3D mAP)。首先,我们注意到所有基于激光雷达的探测器在近场表现良好,但在远场表现很差。VoxelNet骨干CP(CenterPoint)的性能明显优于其他检测器。基于图像的探测器FOCS3D在远场的性能明显优于CP。所有的融合方法都能够采取“两全其美”,从而大大提高远场(50- 80米)的精度。虽然简单得多,但我们提出的方法NMS和AdaNMS融合显著改善了除行人之外的所有类别的更复 杂 基 线 *CP-VoxelNet 与 本 文 其 他 地 方 的 CP 相 同 。**CLOCs3D是CLOCs的扩展[20]。AdaNMS有两个版本,一个是用MVP训练的。形态汽车卡车行人模型激光雷达凸轮0- 50米50- 80米0- 50米50- 80米0- 50米50- 80米[39]第三十九话[39]第三十九话✓✓94.992.728.514.466.356.312.93.192.985.217.46.7[23]第二十三话✓89.77.848.00.783.31.9[23]第二十三话✓88.25.954.81.483.41.2[43]第四十三话✓89.88.352.71.275.71.1[31]第三十一话✓72.145.928.213.442.716.6贝叶斯融合[4]✓✓94.354.862.321.993.124.0CLOCs3D动画✓✓94.354.862.321.993.124.0NMS融合✓✓94.955.166.324.292.925.6AdaNMS(CP,FCOS3D)✓✓94.957.266.325.292.921.3最有价值球员[40] ✓✓95.970.670.046.796.158.9AdaNMS(MVP,FCOS3D)✓✓95.972.870.049.396.157.6表6:使用二次增长阈值计算的AP(如表5所示)。总体而言,结果和趋势在质量上类似于线性增长阈值。形态汽车卡车行人模型激光雷达凸轮0- 50米50- 80米0- 50米50- 80米0- 50米50- 80米CP-VoxelNet [39]第94.1页29.159.213.491.9十 七 点五[39]第39话十四点八分53.13.283.7PointPillars-FPN[23]88.3 8.1 41.1 0.7 82.6 2.0PointPillars-SECFPN[23]86.5 6.3 51.2 1.4 77.9 1.2SSN-SECFPN[43]88.3 8.6 46.9 1.2 74.7 1.1FCOS3D[31]49.551.714.918.125.7二十点五贝叶斯融合[4]✓93.557.856.424.592.2二 十 五 点四CLOCs3D动画✓93.557.856.424.592.2二 十 五 点四NMSFusion(Ours)✓94.158.159.227.491.927.1AdaNMSFusion(Ours)✓94.160.559.228.191.9二 十 二 点六最有价值球员[40]✓95.17 72.10 94.44 48.25 94.44 59.55AdaNMS(MVP,FCOS3D) ✓✓95.17 72.89 94.44 49.3194.4457.57内在函数除非另有说明,否则我们使用Far nuScenes和linear作为我们的默认评估协议。4.3. 结果单一模态基线。由于基于激光雷达的方法在排行榜上的表现明显优于基于图像的方法,因此我们训练了五个基于激光雷达的模型,以证明没有一个模型比基于图像的方法更好地检测远处的物体。我们使用当前最 先 进 的 CenterPoint ( 基 于 Pointpillar 和 Voxelnet )[39],Pointpillar FPN,基于Pointpillar的RegNetX [23]和Shape Signature Networks(SSN)[43]。对于基于图像的方法,我们使用FCOS3D[31]。特鲁克行人700表7:我们使用第4.4节中描述的策略包括具有零激光雷达点的未遮挡物体,并计算50- 80 m距离范围的mAP。显然,我们的AdaNMS(MVP+FCOS3D)在所有类别上都优于其他人,除了行人类别。我们看到这个类的性能略有下降,因为距离自适应IOU在混乱的场景中伤害了回忆。50- 80米方法汽车卡车行人CP[39] 20.5 8.6表8:使用第12节中提出的椭圆阈值方案的汽车类的3D mAP值3.3. 我们注意到椭圆度量和线性度量产生了相同的方法排序。基于图像(FCOS3D)的方法在计算误差时的性能下降远大于基于激光雷达(中心点)的方法。这可能是由于与圆形阈值方案相比,椭圆阈值方案中排除了附近FCOS3D[31] 35.2 9.7 11.7AdaNMS(CP,FCOS3D)45.2 18.5 14.4最有价值球员[40]55.2 35.544.20- 50米50- 80米方法圆椭圆圆椭圆AdaNMS(MVP,FCOS3D)60.3 36.042.6表5总结了汽车、卡车和行人的3D mAP值我们在nuScenes数据集中存在的所有类上训练我们的模型,但我们只显示这三个类(请参见其他类别的结果见附录)。我们观察到,对于0- 50米,所有基于激光雷达的方法都明显优于基于图像的方法(FCOS 3D)。对于远场(50- 80米),所有基于激光雷达的方法在所有类别中的精度都会急剧下降。我们观察到,基于图像的方法优于所有基于激光雷达的方法,在这个范围内的汽车和卡车类,并具有相当的行人类的性能。多模式融合基线。我们使用各种方法将中心点[39]VoxelNet ) 与 FCOS 3D[31] 融 合 - NMS 融 合 ,AdaNMS 融 合 和 基 于 学 习 的 融 合 CLOCs 3D 。 由 于MVP[40]也可以被视为以激光雷达为中心的融合(它使用2D图像分割加密的虚拟点训练CenterPoint),我们还将其与FCOS3D模型融合。对于所有基于融合的方法,我们使用来自两个单模态检测器的未处理的检测来将它们融合在一起。多模态融合结果。表5提供了各种融合基线的详细比较。我们观察到所有的融合方法在远场检测上都优于单一模态方法。注意,MVP与所有其他方法相比具有 更 高 的 性 能 , 并 且 我 们 的 AdaNMS ( MVP ,FCOS3D)融合对于Far nuScenes上的远处物体的检测效果最好。因此,我们可以得出结论,我们的后期融合策略能够结合两种模型的预测,并为远场对象生成更准确的预测。具体地说,我们观察到汽车的mAP增加了11.3,卡车增加了10.8比FCOS3D的AdNMS融合。4.4. 零激光雷达点目标正如在第二节中所解释的。3.2,我们在评估中包括零激光雷达点注释以比较方法。表7总结了该数据集上各种方法的结果。我们的AdaNMS在这个数据集上实现了大多数类(汽车,卡车,其他)的SOTA。还应注意,与表5中的相应值相比,所有方法的mAP均下降。这是预期的,因为检测到这些由于低可见度,即使对于基于图像的方法,零激光雷达对象也是困
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功