没有合适的资源?快使用搜索试试~ 我知道了~
nuScenes:全视野自动驾驶数据集
11621nuScenes:用于自动驾驶的多模式数据集放大图片作者:Holger Caesar,Varun Bankiti,Alex H. Lang,Sourabh Vora,VeniceErin Liong,Qiang Xu,Anush Krishnan,Yu Pan,Giancarlo Baldan,OscarBeijbom nuTonomy:APTIV公司nuscenes@nutonomy.com摘要对象的鲁棒检测和跟踪对于自动驾驶汽车技术的部署至关重要。基于图像的基准数据集推动了计算机视觉任务的发展,例如环境中的物体检测、跟踪和然而,大多数自动驾驶汽车都携带摄像头和激光雷达等测距传感器的组合。随着用于检测和跟踪的基于机器学习的方法变得更加流行,需要在包含距离传感器数据以及图像的数据集上训练和评估这样的方法。在这项工作中,我们展示了nuTonomy scenes(nuScenes),这是第一个携带完整自动驾驶车辆传感器套件的数据集:6个摄像头,5个 雷 达 和1 个 激 光 雷达 , 全 部 具 有 360 度 全 视 野。nuScenes包含1000个场景,每个场景长20秒,并使用23个类和8个属性的3D边界框进行了充分注释。它拥有7倍于KITTI数据集的注释和100倍于KITTI数据集的图像。我们定义新的3D检测和跟踪指标。我们还提供了仔细的数据集分析,以及激光雷达和基于图像的检测和跟踪基线。数据,开发工具包和更多信息可在线1.1. 介绍自动驾驶有可能从根本上改变城市景观,拯救许多人的生命[78]。安全导航的一个关键部分是检测和跟踪车辆周围环境中的代理。为了实现这一点,现代自动驾驶车辆部署了几个传感器以及复杂的检测和跟踪算法。这些算法越来越依赖于机器学习,这推动了对基准数据集的需求。虽然有大量的图像数据集用于此目的(表1),但缺乏表现出与构建自动驾驶感知系统相关的全套挑战的多模态数据集。我们发布了nuScenes数据集来解决这个差距2。1nuScenes.org2nuScenes teaser set 9月发布2018年,2019年3月全面发布图1. nuScenes数据集的一个例子。我们看到6个不同的相机视图,激光雷达和雷达数据,以及人类注释的语义地图。在底部,我们显示了人类写的场景描述。多模态数据集特别重要,因为没有单一类型的传感器是足够的,并且传感器类型是互补的。相机允许边缘、颜色和照明的精确测量,从而实现图像平面上的分类和局部化。然而,图像的3D定位具有挑战性[13,12,57,80,69,66,73]。另一方面,激光雷达点云包含较少的语义信息,但在3D中具有高度准确的定位[51]。此外,激光雷达的反射率是一个重要的特征[40,51]。然而,激光雷达数据是稀疏的,并且范围通常限于50-150米。雷达传感器的探测范围为200- 300米,并通过多普勒效应测量物体的速度。然而,回报甚至比激光雷达更稀疏,在定位方面也不太精确。虽然雷达已经使用了几十年[1,3],但我们还不知道有任何自动驾驶数据集提供雷达数据。由于三种传感器类型在困难条件下具有不同的故障模式,传感器数据的联合处理对于代理检测和跟踪是必不可少的。文献[46]甚至表明,多模态传感器配置不仅是互补的,而且在面对破坏、故障和不利条件时11622图2.前摄像头图像采集自晴天(第1栏)、夜间(第2栏)、雨天(第3栏)和施工区域(第4栏)。和盲点虽然有几个作品提出了基于摄像机和激光的融合方 法 ,dar [48 , 14 , 64 , 52 , 81 , 75 , 29] ,PointPillars [51]显示与现有的基于融合的方法同等地执行的仅激光雷达方法。这表明需要更多的工作来以原则性的方式组合多模态测量。为了训练深度学习方法,需要高质量的数据注释。大多数数据集提供2D语义注释作为框或掩码(类或实例)[8,19,33,85,55]。在最初的nuScenes发布时,只有少数数据集使用3D框注释对象[32,41,61],并且它们没有提供完整的传感器套件。 在nuScenes发布后,现在有几套包含完整传感器套件(表1)。尽管如此,据我们所知,没有其他3D数据集提供属性注释,如行人姿势或车辆状态。现有的AV数据集和车辆集中在特定的操作设计领域。需要更多的研究来推广到因此,需要研究检测方法如何推广到不同的国家,照明(白天与白天)。夜间)、驾驶方向、道路标记、植被、降水和以前看不见的对象类型。使用语义映射的上下文知识也是场景理解的重要先决条件[82,2,35]。例如,人们会期望在道路上找到汽车,但不是在人行道上或建筑物内。除了[45,10]的显著例外,大多数AV数据集不提供语义图。1.1. 贡献从多模态3D检测挑战的复杂性,以及当前AV数据集的局限性,一个大规模的多模态数据集,覆盖从不同情况下收集的所有视觉和距离传感器与地图信息一起使用将进一步推动AV场景理解研究。nuScenes正是做到了这一点,这也是这项工作的主要贡献。数据集,以提供整个传感器套件的360°传感器覆盖范围。它也是第一个包含雷达数据的AV数据集,并使用批准用于公共道路的AV捕获。是此外,第一多模态数据集包含来自夜间和雨天条件的数据,并且除了对象类别和位置之外还具有对象属性和场景描述。与[84]类似,nuScenes是一个完整的场景,用于AV的基准测试。它可以在一系列条件下进行多任务的研究,例如目标检测,跟踪和行为建模。我们的第二个贡献是针对AV应用的新的检测和跟踪指标。我们训练3D物体检测器和跟踪器作为基线,包括使用多个激光雷达扫描来增强物体检测的新方法。我们还介绍和分析了nuScenes对象检测和跟踪挑战的结果。第三,我们发布了devkit、评估代码、分类法、注释器说明和数据库模式,以实现行业范围的标准化。最近,Lyft L5 [45]数据集采用了这种格式,以实现不同数据集之间的兼容性。nuScenes数据是在CC BY-NC-SA4.0许可下发布的,这意味着任何人都可以将该数据集用于非商业研究目的。所有数据、代码和信息都可在线获取3.自发布以来,nuScenes收到了AV社区的强烈兴趣[90,70,50,91,9,5,68,28,49,86,89]。一些作品扩展了我们的数据集,为自然语言对象引用[22]和高级场景理解[74]引入了新的注释。检测挑战启用基于激光雷达和基于摄像头的检测工作原理,如[90,70]所述,与初始释放时的最新技术水平相比[51,69]提高了40% 和81%(表4)。nuScenes已用于3D物体检测[83,60],多智能体预测[9,68],行人定位[5],天气增强[37]和移动点云预测[27]。作为提供雷达数据的唯一带注释的AV数据集,nuScenes鼓励研究人员探索雷达和传感器融合用于物体检测[27,42,72]。nuScenes代表了一个巨大的飞跃,数据量和复杂性(表1),是第一个3github.com/nutonomy/nuscenes-devkit11623数据集年Sce-NES大小(小时)RGBIMGsPCs激光雷达††PCs雷达Ann.帧3D盒夜/雨地图层类-ses位置CamVid [8]200840.418k007000否/否032剑桥城市景观[19]2016n/a-25k0025k0否/否03050个城市维斯塔[33]2017n/a-25k0025k0是/是0152全球BDD 100K [85]2017100k1k100M00100k0是/是010纽约州,旧金山阿波罗景观[41]2018-100144k个0∗∗0144k个70k是/否08-354x中国D2-城市[11]20191k†-700k†00700k†0否/是0125x中国KITTI [32]2012221.515k15k015k200k否/否08卡尔斯鲁厄AS激光雷达[54]2018-2020k020k475k-/-06中国[第17话]2018--8.9k8.9k08.9k0是/否03首尔H3D [61]20191600.7783k27k027k1.1M否/否08SFnuScene场景20191k5.51.4M400k1.3M40k1.4M是/是1123Boston,SG阿尔戈斯[10]2019113†0.6†490k†44k022k†993k†是/是215迈阿密,PT[45]第四十五话20193662.5323K46k046k1.3M否/否79帕洛阿尔托[76]第七十六话20191k5.51M200k0200k12百万是/是043个美国[62]第六十二话2019n/a5539k39k039k230k是/是07SGA2D2 [34]2019n/a---012k--/-0143x德国表1. AV数据集比较。 表的顶部表示没有范围数据的数据集。 中下部表示在此数据集初始发布之前和之后发布的具有范围数据的数据集(非出版物)我们使用粗体突出显示来指示具有范围数据的数据集中每列中的最佳条目只有至少为汽车、行人和自行车提供注释的数据集才包括在此比较中。(†)我们只报告用长方体标注的场景的数字。目前的Waymo Open数据集大小与nuScenes相当,但注释频率高出5倍。(††)从每个激光雷达收集的激光雷达点云计数。(**)[41]提供静态深度图。(-)表示未提供信息SG:新加坡,NY:纽约,SF:旧金山,PT:匹兹堡,AS:阿波罗景观。1.2. 相关数据集在过去的十年里,已经发布了几个驱动数据集,这些数据集在自动驾驶汽车的场景理解研究中发挥了巨大的作用。大多数数据集都集中在RGB相机图像的2D注释( 框,蒙 版)上 。CamVid [8]、 Cityscapes [19] 、Mapillary Vistas [33]、D2-City [11]、BDD 100 k [85]和Apol- loscape [41]发布了不断增长的带有分段掩码的数据集。Vistas、D2-City和BDD 100 k还包含在不同天气和照明设置下拍摄的图像。其他数据集专门关注图像上的行人注释[20,25,79,24,88,23,58]。捕获和注释RGB图像的方便性使得这些大型仅图像数据集的发布成为可能。另一方面,通常由图像、距离传感器数据(激光雷达、雷达)和GPS/IMU数据组成的多模态数据集由于集成、同步和校准多个传感器的困难而收集和注释起来是昂贵的。KITTI [32]是开创性的多模态数据集,提供来自激光雷达传感器的密集点云以及前置立体图像和GPS/IMU数据。它提供了超过22个场景的20万个3D盒子,有助于推进3D对象检测的最新技术。 最近的H3D数据集[61]包括160个拥挤的在27k帧上标注了总共110万个3D框的场景。 这些对象在完整的360度全景视图中进行了注释,与KITTI相反,KITTI中只有在以下情况下才注释对象:它出现在前视图中。KAIST多光谱数据集[17]是一个多模式数据集,由RGB和热成像相机,RGB立体,3D激光雷达和GPS/IMU组成。 它提供夜间数据,但数据集的大小是有限的-注释和注释是2D的。其他值得注意的多模态数据集包括[15]提供驾驶行为标签,[43]提供地点分类标签和[6,55]提供没有语义标签的原始数据。在最初的nuScenes发布后,[76,10,62,34,45]随后发布了他们自己的大规模AV数据集(表1)。在这些数据集中,只有Waymo Open数据集[76]提供了更多的注释,主要是由于更高的注释频率(10Hz vs.2 Hz)。A*3D采用正交方法,其中从55小时的数据中选择并注释类似数量的帧(39k)。Lyft L5数据集[45]与nuScenes最相似。它是使用nuScenes数据库模式发布的,因此可以使用nuScenes devkit进行解析。2. nuScenes数据集在这里,我们描述了我们如何规划驾驶,设置我们的车辆,选择有趣的场景,注释数据集和保护第三方的隐私。开车计划。我们在波士顿(海港和南波士顿)和新加坡(One North,荷兰村和皇后镇)开车,这两个城市以其密集的交通和极具挑战性的驾驶环境而闻名。我们强调不同地点在植被、建筑物、车辆、道路标记和左右交通方面的多样性。从大量的训练数据中,我们手动选择了84个日志,其中包含15小时的驾驶数据(以av-100行驶242公里)。4在初步分析中,我们发现2Hz的注释对于更精细的时间分辨率(如10Hz或20Hz)的插值具有鲁棒性H3D [61]得出了类似的结论,其中注释从2Hz插值到10Hz。11624表2. nuScenes中的传感器数据16公里/小时)。驾驶路线经过精心选择,以捕捉不同的位置(城市,住宅,自然和工业),时间(白天和黑夜)和天气条件(太阳,雨和云)。汽车安装。我们使用两辆雷诺Zoe超迷你电动汽车,传感器布局相同,在波士顿和新加坡行驶。 传感器位置见图4和表2了解传感器详情。前置和侧面摄像头的FOV为70°,偏移55°。后置摄像头的FOV为110◦。传感器同步。实现良好的跨模态激光雷达和相机之间的数据对齐,当顶部激光雷达扫过相机FOV的中心时,图像的时间戳是曝光触发时间;并且激光雷达扫描的时间戳是实现当前激光雷达帧的完全旋转的时间。鉴于相机我们使用下面描述的定位算法来执行运动补偿。本地化。大多数现有数据集基于GPS和IMU提供车辆位置 [32,41,19,61]。如KITTI数据集所示,这种本地化系统容易受到GPS中断的影响[32,7]。当我们在密集的城市地区工作时,这个问题就更加突出了。为了准确定位我们的车辆,我们在离线步骤中创建了激光雷达点的详细高清地图。在收集数据时,我们使用来自激光雷达和测距信息的蒙特卡罗定位方案[18]。该方法非常稳健,我们实现了≤10cm的定位误差。为了鼓励机器人研究,我们还提供了原始的CAN总线数据(例如,速度、加速度、扭矩、转向角、车轮速度)类似于[65]。地图我们提供了相关区域的高度精确的人工标注的地震图。原始栅格化地图仅包括分辨率为10px/m的道路和人行道。矢量化地图扩展提供了关于11个语义类的信息,如图3所示,使其比自原始版本以来发布的其他数据集的语义地图更丰富[10,45]。我们鼓励使用本地化和语义地图作为所有任务的强先验。5相机以12Hz运行,而激光雷达以20Hz运行12个相机曝光尽可能均匀地分布在20个激光雷达扫描中,因此并非所有激光雷达扫描都有相应的相机帧。图3.nuScene的语义图,具有11个语义层,不同的颜色。为了显示自我车辆的路径,我们用黑色球体绘制场景-0121的每个关键帧自我姿势最后,我们提供了基线路线-假设没有障碍物,AV应该采取的理想化路径。此路线可辅助轨迹预测[68],因为其通过减少可行路线的搜索空间来简化问题场景选择。在收集原始传感器数据后,我们手动选择1000个有趣的场景,每个场景持续20秒。这样的场景包括高业务密度(例如,路段、建筑工地)、稀有类别(例如,救护车、动物)、潜在危险的交通情况(例如乱穿马路者,不正确的行为),机动(例如,变道、转弯、停车)以及对于AV可能困难的情况。我们还选择了一些场景,以鼓励在空间覆盖,不同的场景类型,以及不同的天气和照明条件方面的多样性。专业注释员为每 个 场 景 编 写 文 字 描 述 或 标 题 ( 例 如 : “Wait atintersection, peds on sidewalk, bicycle cross- ing, jaywalker,turn right, parked cars,数据注释。选择场景后,我们以2Hz采样关键帧(图像、激光雷达、雷达)。我们用语义分类、属性(可见性、活动性和姿态)和长方体(建模为x、y、z、宽度、长度、高度和偏航角)注释每个关键帧中的23个对象类中的每一个。 如果对象被至少一个激光雷达或雷达点覆盖,则在每个场景中连续注释对象。使用专家注释器和多个验证步骤,我们实现了高度准确的注释。我们还发布了中间传感器帧,这对于跟踪,预测和目标检测非常重要,如第4.2节所示。在相机、雷达和激光雷达的12Hz、13Hz和20Hz捕获频率下,这使得我们的数据集独一无二。只有Waymo Open数据集提供了类似的10Hz高捕获频率。图4.为我们的数据收集平台设置传感器传感器详情6倍摄像头RGB,12 Hz捕捉频率,1/1。81x激光雷达旋转,32束,20 Hz捕获频率,360°水平FOV,−30°至10°垂直FOV,≤70m范围,±2 cm精度,最高1. 每秒4M点5x雷达≤250m 范 围 , 77 GHz , FMCW , 13Hz 捕 获 频率,±0. 1km/h vel. 精度GPS IMU GPS,IMU,航向参考系统。0的情况。2个航向,0的情况。1次滚转/俯仰,20mm RTK定位,1000Hz更新速率11625图5.两个nuScenes位置的空间数据覆盖范围。颜色表示所有场景中100米半径内具有自我车辆姿势的关键帧数量。注释统计。我们的数据集有23个类别,包括不同的车辆、行人类型、移动设备和其他对象(图8-SM)。我们提供了不同类别的几何形状和频率的统计数据(图9-SM)。每个关键帧有7个行人和20辆车地平面上的2D中心距离d,而不是交并(IOU)。这样做是为了将检测与对象大小和方向解耦,而且还因为具有小足迹的对象,如行人和自行车,如果检测到具有小的平移误差,则给出0IOU(图7)。这使得很难比较仅视觉方法的性能,这些方法往往具有较大的定位误差[69]。然后,我们计算AP作为召回率和准确率超过10%的精确召回率曲线下的归一化面积。删除了召回率或准确率小于10%的操作点,以最大限度地减少在低准确率和召回率区域中常见的噪声影响。如果在该区域中没有达到操作点,则将该类的AP设置为零。然后,我们对D ={ 0}的匹配阈值进行平均。5,1,2,4}米和C类的集合:平均来说此外,40k关键帧是从四个不同的场景位置(波士顿:55%,SG-OneNorth:21.5% , SG- 皇 后 镇 : 13.5% , SG-HollandVillage :10%)与各种天气和光照条件(雨:19.4%,1mAP = |C||D|ΣΣc∈C d∈DAPc,d(1)夜间:11.6%。由于nuScenes中的细粒度类,数据集显示出严重的类不平衡,最少和最常见的类注释的比例为1:10k(KITTI中为1:36)。这鼓励社区更深入地探索这个长尾问题。图5示出了跨所有场景的空间覆盖。我们看到大多数数据来自交叉点。图10-SM示出了在不同的距离处看到汽车注释,并且距离自我车辆80 m。盒子的方向也是变化的,由于停放的汽车和汽车在同一车道上,所以汽车的垂直和水平角度的图14-SM显示了每个框注释内的激光雷达和雷达点统计数据。带注释的对象包含多达100个激光雷达点,即使径向距离为80米,最多也包含12k个激光雷达点,径向距离为3米。同时,它们在10米处包含多达40个雷达回波,在50米处包含10个雷达回波。雷达的探测范围远远超过激光雷达,可达200米。3. 任务nuScene的多模态性质支持多种任务,包括检测、跟踪、预测本地化。在这里,我们提出了检测和跟踪任务和指标。我们将检测任务定义为仅对[ t-0]之间的传感器数据进行操作。5,t]秒,而跟踪任务对[0,t]之间的数据进行操作。真阳性指标。除了AP之外,我们还为每个与地面实况框匹配的预测测量一组真阳性指标(TP指标)。所有TP度量在匹配期间使用d=2m中心距离计算,并且它们都被设计为正标量。在所提出的度量中,TP度量全部采用本机单位(见下文),这使得结果易于解释和比较。每个类的匹配和评分都是独立进行的,每个指标都是在每个达到的召回水平超过10%时的累积平均值的平均值。如果某个特定类别未达到10%的召回率,则该类别的所有TP错误均设置为1。定义了以下TP错误平均平移误差(ATE)是2D中的欧几里德中心距离(单位为米)。平均比例误差(ASE)是对齐方向和平移(1−IOU)后的3D交集与并集平均定向误差(AOE)是预测值和地面实况(弧度)之间的最小偏航角差所有角度都是在360度周期内测量的,但障碍物除外,它们是以180μ m的周期测量的。 平均速度误差(AVE)是绝对速度误差,作为二维速度差(m/s)。平均属性误差(AAE)定义为1减去属性分类准确度(1−acc)。对于每个TP度量,我们计算所有类别的平均TP度量(mTP):3.1. 检测nuScenes检测任务需要检测10个对象1mTP= |C|ΣTPcc∈C(二)具有3D边界框、属性(例如,坐着与(1)速度和速度。这10个类别是nuScenes中注释的所有23个类别的子集(表5-SM)。平均精度度量。我们使用平均精度(AP)度量[32,26],但通过阈值来定义匹配我们省略了那些没有很好定义的类的度量:AVE用于锥体和屏障,因为它们是固定的;视锥的AOE,因为它们没有明确的方向;和AAE,因为这些类上没有定义属性。11626nuScenes检测分数。具有IOU阈值的mAP 也许是最流行的度量对象检测[32,19,21]。 然而,该度量不能捕获nuScenes检测任务的所有方面,如速度和属性估计。此外,它还结合了位置、大小和方向估计。ApolloScape[41] 3D汽车实例挑战通过定义每个错误类型的阈值和召回阈值来解开这些问题。这导致10×3阈值,使这种方法复杂、任意且不直观。我们建议将不同的错误类型合并为标量分数:nuScenes检测分数(NDS)。传统指标。我们还使用传统的跟踪指标,如MOTA和MOTP [4]、每帧的误报、大多数跟踪轨迹、大多数丢失轨迹、误报、误报、身份切换和跟踪碎片。与[77]类似 , 我 们 尝 试 所 有 召 回 阈 值, 然 后 使 用 达 到 最 高sMOTAr的阈值。TID和LGD度量。此外,我们设计了两个新的度量:轨道 初 始 化 持 续 时 间 ( TID ) 和 最 长 间 隙 持 续 时 间(LGD)。一些跟踪器需要过去传感器读数的固定窗口,或者在没有良好初始化的情况下表现不佳。TID从开始测量持续时间1NDS=[5mAP+10ΣmTP∈TP(1 −min(1,mTP))](3)直到第一次检测到物体。LGD计算轨道中任何检测间隙的最长持续时间。如果一个对象没有被跟踪,我们分配整个轨迹这里,mAP是平均平均精度(1),TP是五个平均真阳性度量的集合(2)。 NDS的一半 因此,基于检测性能,而另一半则根据盒子位置、大小、方向、属性和速度来量化检测的质量。以来mAVE、mAOE和mATE可以大于1,我们在(3)中将每个度量限制在0和13.2. 跟踪在本节中,我们将介绍跟踪任务设置和指标。跟踪任务的重点是跟踪场景中的所有检测对象。使用第3.1节中定义的所有检测类,静态类除外:障碍物、建筑物和交通锥。AMOTA和AMOTP指标。Weng和Kitani [77]在KITTI [32]上提出了类似的3D MOT基准。他们指出,传统的度量标准没有考虑到预测的置信度。因此,他们开发了平均多目标跟踪准确度(AMOTA)和平均多目标跟踪精确度 ( AMOTP ) , 在 所 有 回 忆 阈 值 上 平 均 MOTA 和MOTP。通过比较KITTI和nuScenes的检测和跟踪排行榜,我们发现nuScenes明显更难。由于nuScene的困难,传统的MOTA度量通常为零。因此,在更新的公式sMOTAr [77]6中,MOTA增加了一个项,以调整相应的召回:持续时间为TID和LGD。对于这两个指标,我们计算所有曲目的平均值。这些度量与AV相关,因为许多短期轨道碎片可能比丢失对象几秒钟更可接受。4. 实验在本节中,我们介绍了nuScenes数据集上的目标检测和跟踪实验,分析了它们的特点,并为未来的研究提出了建议。4.1. 基线我们提出了一些基线与不同的modali- ties的检测和跟踪。激光雷达探测基线。 为了证明nuScenes上领先算法的性能,我们训练了一个仅限激光雷达的3D对象检测器PointPillars [51]。我们利用nuScenes中可用的时间数据,通过累积激光雷达扫描获得更丰富的点云作为输入。一个单一的网络被训练用于所有类。该网络进行了修改,以学习速度作为每个3D框的额外回归目标。我们将box属性设置为训练数据中每个类的最常见属性。图像检测基线。为了检查仅图像的3D对象检测,我们重新实现了正交特征变换(OFT)[69]方法。一个单一的OFT网络用于所有类别。我们修改了原来的OFT,sMOTAr= max�0,1−IDSr+FPr+FNr−(1−r)PRP使用SSD探测头,并确认这与KITTI上发表的结果相网络接收一个这是为了保证sMOTAr值跨越整个[0,1]范围。我们在召回范围[0. 1,1](召回值表示为R)。结果sAMOTA度量是跟踪任务的主要度量:使用非最大值抑制将来自所有6个摄像机的完整360°预测组合在一起的图像。离子(NMS)。我们将盒子速度设置为零,并将属性设置为训练数据中每个类的最常见属性。sAMOTA=1|R|ΣsMOTArr∈R检测挑战结果。我们比较了nuScenes检测挑战赛2019的最佳提交。在所有提交的作品中,Megvii [90]给出了最好的表现。这是一个基于激光雷达的类平衡多头6本书的预印本将sMOTA称为MOTAR。稀疏3D卷积网络。在仅图像11627MonodIS [70]是最好的,显著优于我们的图像基线,甚至是一些基于激光雷达的方法。它使用一种新颖的解开2D和3D检测损失。请注意,排名靠前的方法都执行了重要性抽样,这表明了解决类不平衡问题的重要性。跟踪基线。我们提出了几个基线跟踪相机和激光雷达数据。 从检测挑战中,我们选择了性能最佳的激光雷达方 法 ( Megvii [90] ) 、 推 理 时 间 最 快 的 报 告 方 法( PointPillars [51] ) 以 及 性 能 最 佳 的 相 机 方 法(MonodIS [70])。使用每种方法的检测,我们使用跟踪方法设置基线,������������������������������������图 6. 训 练 数 据 量 与 nuScene 的 val 集 合 上 的 平 均 精 度(mAP)。黑色虚线对应于KITTI中的训练数据量[32]。在[77]中。我们为每种方法在train、val和test分割上提供检测和跟踪结果以促进更系统的研究。有关2019年nuScenes跟踪挑战的结果,请参阅补充材料。4.2. 分析在这里,我们分析的方法的属性��������������������������������������������在4.1节中,以及数据集和匹配函数。大型基准数据集的情况。nuScenes的贡献之一是数据集大小,特别是与KITTI相比的增加(表1)。在这里,我们检查胺的好处,更大的数据集大小。我们使用不同数量的训练数据训练Point- Pillars [51],OFT [69]和额外的图像基线SSD+3D。SSD+3D具有与MonoDIS相同的3D参数化[70],但使用单级设计[53]。对于该消融研究,我们使用6倍更少的时期和一个周期优化器时间表[71]来训练PointPillars,以减少训练时间。我们的主要发现是,方法排序随着数据量的变化而变化(图6)。特别是,PointPillars在与KITTI相当的数据量上与SSD+3D表现相似,但随着使用更多数据,很明显PointPillars更强大。这表明,复杂算法的全部潜力只能通过更大、更多样化的训练集来验证。[ 56,59 ]得出了类似的结论,[59]表明KITTI排行榜反映了数据aug。方法,而不是实际的算法。匹配功能的重要性。当使用我们提出的2m中心距离匹配与KITTI中使用的IOU匹配时,我们比较了已发表方法(表4)的性能。正如预期的那样,当使用IOU匹配时,像行人和自行车这样的小对象无法达到0 AP以上,从而无法进行排序(图7)。相比之下,中心距离匹配宣布Monodis是一个明显的赢家。汽车类的影响较小,但在这种情况下,很难解决Monodis和OFT之间的差异。图7.平均精度与匹配函数CD:中心距离。IOU:Intersectionover union。 我们使用IOU = 0。汽车为7,IOU = 0。[32]第32话,我的朋友我们在3.1节中使用CD= 2m作为TP度量。匹配功能还改变了激光雷达和基于图像的方法之间的平衡。事实上,当使用中心距离匹配时,顺序会发生切换,以支持MonodIS而不是自行车类上的两种基于激光雷达的方法(图7)。这是有道理的,因为自行车的薄结构使它们难以在激光雷达中检测到。我们的结论是,中心距离匹配是更合适的排名图像为基础的方法,激光雷达为基础的方法。多LiDAR扫提高性能根据我们的评价方案(第3.1节),仅允许使用0。5s的先前数据来做出检测决定。由于激光雷达以20Hz采样,因此这相当于之前的10次激光雷达扫描。我们设计了一种简单的方法,将多个点云合并到PointPillars基线中,并调查性能影响。累积是通过将所有点云移动到关键帧的坐标系并将标量时间戳附加到每个点来实现的,该标量时间戳指示从关键帧开始的以秒为单位的时间增量。编码器包括时间增量作为激光雷达点的额外装饰。 除了更丰富的点云的优势外,这还提供了时间信息,这有助于网络定位并实现速度预测。我们使用1、5和10次激光雷达扫描进行实验。The results show that both detection and ve- locity estimatesimprove with an increasing number of lidar sweeps but withdiminishing rate of return (Table 3).����������������������������������������������������������11628激光雷达扫描预训练NDS(%)最大平均接入点(%)mAVE(m/s)1KITTI31.821.91.215KITTI42.927.70.3410KITTI44.828.80.3010ImageNet44.928.90.3110没有一44.227.60.33表3.PointPillars [51]在val集合上的检测性能我们可以看到,更 多 的 激 光 雷 达 扫 描 导 致 了 显 着 的 性 能 提 高 , 并 且ImageNet的预训练与KITTI相当哪个传感器最重要? 一个重要AV的问题是需要哪些传感器来实现最佳检测性能。在这里,我们比较了领先的激光雷达和图像探测器的性能。 我们专注于这些模式,因为在文献中没有有竞争力的雷达方法,我们的初步研究与PointPillars雷达数据没有取得可喜的成果。我们比较了PointPillars,这是一种快速轻便的激光雷达探测器,与Monodis,一种顶级图像探测器(表4)。两种方 法 实 现 了 相 似 的 mAP ( 30.5% vs. 30.4% ) , 但PointPillars的NDS更高(45.3% vs. 38.4%)。接近的mAP本身是值得注意的,并且说明了从单眼视觉进行3D估计的最近优势。然而,如上所述,使用基于IOU的匹配函数,差异将更大。类特定性能见表7-SM。点柱对于两个最常见的职业来说更强:汽车(68. 4%对47。8%的AP)和行人(59.7%对37. 0%AP)。另一方面,Monodis对于较小级别的自行车来说更强大(24。5% vs. 1. 1%AP)和视锥细胞(48. 7%对30. 8%AP)。这是预期的,因为1)自行车是薄的物体,通常具有很少的激光雷达返回,并且2)交通锥易于在图像中检测,但是在激光雷达点云中很小并且容易被忽略。3)Monodis在训练过程中应用重要性抽样来提高稀有类。在检测性能相似的情况下,为什么Monodis的NDS较低?主要原因是平均平移误差(52厘米对74厘米)和速度误差(1。55m/s vs. 0. 32m/s),两者都符合预期。MonoDIS也有较大的尺度误差,平均IOU为74% vs.71%,但差异很小,表明仅图像方法从外观推断尺寸的能力很强。预培训的重要性。使用激光雷达基线,我们研究了在nuScenes上训练探测器时预训练的重要性。没有预训练意 味 着 权 重 使 用 [38] 中 的 均 匀 分 布 随 机 初 始 化 。ImageNet [21]预训练[47]使用了一个主干,它首先被训练来准确地对图像进行分类。KITTI [32]预训练使用在激光雷达点云上训练的主干来预测3D盒子。有趣的是,虽然KITTI预训练的网络确实收敛得更快,但网络的最终性能在不同的预训练之间仅略有不同(表3)。一种解释可能是,虽然KITTI在域中接近,但大小不够大。表4. nuScenes测试集上的对象检测结果。PointPillars、OFT和SSD+3D是本文提供的基准,其他方法是nuScenes检测挑战排行榜的首选提交方法(†)仅使用单目相机图像作为输入。所有其他方法都使用激光雷达。PP:PointPillars [51],MDIS:MonodIS [70]。更好的检测提供更好的跟踪。 翁和基-tani [77]提出了一个简单的基线,使用KITTI上的强大检测实现了最先进的3D跟踪结果。在这里,我们使用第4.1节中介绍的图像和激光雷达基线,分析更好的检测是否也意味着nuScenes上更好的跟踪性能。Megvii 、PointPillars和Monodis 的 sAMOTA 为 17 。 9% , 3. 5% 和 4 。 5% ,AMOTP为1。50米,1. 69米和1。79米,在valset上。与表4中的mAP和NDS检测结果相比,排名相似。虽然大多数指标的性能都是相关的,但我们注意到Monodis的LGD最短,轨道碎片。这可以指示尽管性能较低,但是基于图像的方法不太可能在延长的时间段内错过对象。5. 结论在本文中,我们介绍了nuScenes数据集,检测和跟踪任务,指标,基线和结果。这是从批准用于测试的AV收集的第一个数据集,公共道路,并包含完整的360毫米传感器套件(激光雷达,图像和雷达)。 nuScenes拥有最大的收藏任何先前发布的数据集的3D框注释。To spur research on3D object detection for AVs, we in- troduce a new detectionmetric that balances all aspects of detection performance.我们展示了nuScenes上领先的激光雷达和图像对象探测器和跟踪器的新适应。未来的工作将添加图像级和点级语义标签以及轨迹预测的基准[63]。鸣 谢 。nuScenes 数 据 集 由Scale.ai 注 释 , 我 们 感 谢Alexandr Wang 和 Dave Morse 的 支 持 。 我 们 感 谢nuTonomy的Sun Li、Serene Chen和Karen Ngo进行数据检查和质量控制,感谢Bassam Helou和Thomas Roddick提供OFT基线结果,感谢Sergi Widjaja和Kiwoo Shin提供教程,感谢EvalAI的Deshraj Yadav和Rishabh Jain [30]设置nuScenes挑战。方法NDS地图 mATE mASE mAOE mAVE mAAE(%)(%)(m)(1-iou)(rad)(m/s)(1-acc)OFT [69]†21.212.60.820.360.851.730.48SSD+3D†26.816.40.900.330.621.310.29MDIS [70]†38.430.40.740.260.551.550.13[51]第五十一话45.330.50.520.290.500.320.3711629引用[1] Giancarlo Alessandretti , Alberto Broggi , and PietroCerri.使用雷达和视觉数据融合的车辆和护栏检
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功