自动驾驶感知的可扩展性：Waymo开放数据集

147 浏览量更新于2023-10-25 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自动驾驶感知的可扩展性：Waymo开放数据集PeiSun1，HenrikKretzschmar1，Xerx esDotiw alla1，Aure' lienChouard1，VijaysaiPatnaik1，PaulTsui1，James Guo1，Yin Zhou1，Yuning Chai1，Benjamin Caine2，Vijay Vasudevan2，WeiHan2，Jiquan Ngiam2，Hang Zhao1，Aleksei Krifeev1，Scott Ettinger1，Maxim Krivokon1，AmyGao1，Aditya Joshi1，YuZhang 1，Jonathe Shlens2，Zhifeng Chen2，and Dragomir Anguelov11Waymo LLC2 Google LLC摘要研究界对自动驾驶研究的兴趣越来越大，尽管获得代表性真实世界数据的资源强度很大。现有的自动驾驶数据集在它们捕获的环境的规模和变化方面受到限制，尽管操作区域内和操作区域之间的泛化对于该技术的整体可行性至关重要为了帮助研究界的贡献与现实世界的自动驾驶问题保持一致，我们引入了一个新的大规模，高质量，多样化的数据集。我们的新数据集由1150个场景组成，每个场景的跨度为20秒，包括在一系列城市和郊区地理位置捕获的同步和校准的高质量LiDAR和相机数据。根据我们提出的地理覆盖度量，它比最大的摄像机+激光雷达数据集多样化15倍。我们使用2D（相机图像）和3D（LiDAR）边界框对这些数据进行了详尽的注释，并在各帧中使用一致的标识符最后，我们为2D以及3D检测和跟踪任务提供强大的基线。我们进一步研究了数据集的大小和泛化跨地理3D检测方法的影响。在www.example.com上查找数据、代码和更多最新信息http://www.waymo.com/open。1. 介绍自动驾驶技术有望实现广泛的应用，有可能挽救许多人的生命，从机器人出租车到自动驾驶卡车。公共大规模数据集和基准的可用性大大加速了机器感知任务的进展，包括图像分类，对象检测，对象跟踪，语义分割以及在Waymo LLC工作期间完成的工作实例分割[7，17，23，10]。为了进一步加速自动驾驶技术的发展，我们提供了迄今为止最大和最多样化的多模式自动驾驶数据集，包括多个高分辨率摄像头记录的图像和安装在自动驾驶车辆上的多个高质量LiDAR扫描仪的传感器读数我们的数据集捕获的地理区域远大于任何其他可比的自动驾驶数据集覆盖的区域数据记录在多个城市的一系列条件下，即旧金山，凤凰城和山景城，每个城市都有很大的地理覆盖范围我们证明，这些地理位置的差异导致了明显的域差距，使令人兴奋的研究机会，在领域适应。我们提出的数据集包含大量高质量的、手动注释的LiDAR数据的3D地面实况边界框和相机图像的2D紧密拟合边界框。所有地面实况框都包含跟踪标识符以支持对象跟踪。此外，研究人员可以使用我们提供的滚动快门感知投影库从3D LiDAR盒中提取2D Amodal相机盒。多模态地面实况有助于利用LiDAR和相机注释的传感器融合我们的数据集包含大约1200万个LiDAR框注释和大约1200万个相机框注释，产生大约113k个LiDAR对象轨迹和大约250k个相机图像轨迹。所有注释均由经过培训的标签人员使用生产级标签工具创建并随后进行审查我们使用由多个高分辨率相机和多个高质量LiDAR传感器组成的工业强度传感器套件记录了数据集的所有传感器数据。此外，我们提供相机和激光雷达读数之间的同步，这提供了有趣的机会，24462447公里跨领域学习和迁移的机构。我们以距离图像的形式发布LiDAR传感器读数。除了传感器特征（如伸长）外，我们还为每个距离图像像素提供准确的车辆姿态。这是第一个具有这种低级别同步信息的数据集，使其更容易对LiDAR输入表示进行研究，而不是流行的3D点集格式。我们的数据集目前包括1000个用于训练和验证的场景，以及150个用于测试的场景，其中每个场景KITTI NuScenes Argo Ours场景22 1000 113 1150 Ann. Lidar Fr.15K 40K 22K230K小时1.5 5.5 1 6.43D Boxes 80K 1.4M 993k 12M2D盒子80 K激光雷达1 1 2 5摄像机4 6 9 5平均点数/帧120 K 34 K 107 K177 K LiDAR功能1 1 1 2跨度20 s。从地理环境中选择测试集场景地图否是是否2holdout area允许我们评估在我们的数据集上训练的模型在多大程度上泛化到以前看不到的区域。我们目前的基准结果的几个国家的最先进的2D和3D物体检测和跟踪方法上的数据集。2. 相关工作高质量、大规模的数据集对于自动驾驶研究至关重要。近年来，向社区发布数据集的努力越来越多。大多数自动驾驶系统融合来自多个传感器的传感器读数，包括摄像头、激光雷达、雷达、GPS、车轮里程计和IMU。最近发布的自动驾驶数据集包括传感器读数访问面积（公里）表1.比较一些流行的数据集。Argo数据集仅指其跟踪数据集，而不是运动预测数据集。投影到2D的3D标签不计入2D框中Avg Points/Frame是根据已发布数据计算的所有LiDAR返回数据中的点数访问区域通过将轨迹半径稀释75米并合并所有稀释区域来测量主要观察结果：1.我们的数据集具有15.2倍的有效地理覆盖范围，由第3.5节中的多样性区域度量定义。二、我们的数据集比其他相机+LiDAR数据集大不同的指标。（第2节）由多个传感器获得Geiger等人介绍了多传感器KITTI数据集[9，8]于2012年推出，它为22个序列提供同步立体相机以及LiDAR传感器数据，实现了3D对象检测和跟踪、视觉里程计和场景流估计等任务SemanticKITTI数据集[2]提供注释，将每个LiDAR点与KITTI数据集所有22个序列中的28个语义类之一相2017年发布的ApolloScape数据集[12]为在各种交通条件下捕获的140k相机图像提供了每像素的语义注释数据集还提供关于静态背景点云的姿态信息。KAIST多光谱数据集[6]将多个传感器（包括热成像相机）记录的场景按时间段（如白天、夜间、黄昏和黎明）分组。Honda Research Institute 3D Dataset（H3D）是一个3D物体检测和跟踪数据集，提供了在160个拥挤的城市场景中记录的3D LiDAR传感器读数。最近发布的一些数据集还包括有关环境的地图例如，除了摄像头、激光雷达和雷达等多个传感器之外，nuScenes数据集[4]还提供了相关区域的栅格化自上而下的语义地图，这些地图对1k个场景的可驾驶区域和人行道的该数据集具有有限的LiDAR传感器质量，每帧34K点，表2.前（F）、右（R）、左侧面（SL）、右侧面（SR）和顶部（TOP）传感器的LiDAR数据规格垂直视场（VFOV）根据倾斜度指定（第3.2节）。有限的地理多样性，覆盖有效区域，52（表1）。除了栅格化地图，Argoverse数据集[5]提供详细的几何和语义地图的环境，包括有关地面高度的信息，以及道路车道及其连接的矢量表示他们进一步研究了所提供的地图上下文对自动驾驶任务的影响Argoverse发布的原始传感器数据非常有限。不同数据集的比较见表13. Waymo开放数据集3.1. 传感器规格使用五个LiDAR传感器和五个高分辨率针孔相机进行数据收集我们限制了激光雷达数据的范围，并为每个激光脉冲的前两次返回提供数据。表2包含我们的LiDAR数据的详细规格。相机图像是通过滚动快门扫描捕获的，其中精确的扫描-顶部F、SL、SR、RVFOV【-17.6度，+2.4度】[-9010，30分]2448F FL，FR SL，SR尺寸1920x12801920x12801920x1040HFOV±25. 20±25。20±25。2◦表3.前置（F）、左前置（FL）、右前置（FR）、左侧面（SL）、右侧面（SR）摄像头的规格图像大小反映了对原始传感器数据进行裁剪和下采样的结果。相机水平视场（HFOV）提供为相机传感器框架的x-y平面中x轴上的角度范围（图1）。图2. LiDAR标签示例。黄色=汽车红色= pedes-trian。蓝色=标志。粉红色=骑自行车。轴取决于激光雷达。激光：后部车辆激光：顶部左侧左前方摄像头前右前方激光：SIDE_LEFT激光：正面激光：SIDE_RIGHTx轴y轴z轴为正向上相机传感器框架放置在镜头的中心。x轴指向镜头外的镜筒。z轴向上。y/z平面平行于图像平面。图像帧是为每个相机图像定义的2D坐标系，其中+x沿着图像宽度（即从左侧开始的列索引），+y沿着图像高度（即从左侧开始的列索引）。从顶部开始的行索引）。原点在左上角。LiDAR球面坐标系基于LiDAR传感器框架中的笛卡尔坐标系侧面_右侧图1.传感器布局和坐标系统。拍摄模式可以随场景而变化所有相机图像都是从原始图像中下采样和裁剪的;表3提供了相机图像的规格。有关数据集的传感器布局，请参见图13.2. 坐标系本节介绍数据集中使用的坐标系。所有坐标系都遵循右手定则，数据集包含在运行段内的任何两个帧之间转换数据所需的所有信息全局帧在车辆运动之前设置。它是一个东-北-上坐标系：上（z）与重力矢量对齐，正向上;东（x）指向纬度线的正东方;北（y）指向北极。车架随车辆移动。其x轴是正向前，y轴是正向左，z轴向上是正的。车辆姿态被定义为从车辆坐标系到全局坐标系的4x4变换矩阵全局坐标系可以作为不同车辆坐标系之间转换的代理在该数据集中，近帧之间的变换非常准确。为每个传感器定义传感器帧。它被表示为将数据从传感器帧映射到车辆帧的4x4变换矩阵。这也被称为LiDAR传感器框架的z向上。的x-yLiDAR笛卡尔坐标系中的点（x，y，z）可以通过以下等式唯一地变换为LiDAR球面坐标系中的（距离，方位角，倾斜度）元组√range=x2+y2+z2（1）方位角=atan2（y，x）（2）√倾角= atan2（z，x2+ y2）。（三）3.3. 地面实况标签我们为LiDAR传感器读数和相机图像提供高质量的地面实况注释。LiDAR和相机数据中的单独注释为传感器融合开辟了令人兴奋的研究途径。对于任何标签，我们定义长度，宽度，高度分别为沿x轴，y轴和z轴的尺寸。我们在LiDAR传感器读数中详尽地注释了车辆、行人、标志和骑自行车的人我们将每个对象标记为具有唯一跟踪ID的7-DOF 3D直立边界框（cx，cy，cz，l，w，h，θ），其中cx，cy，cz表示中心坐标，l，w，h是长度，宽度，高度，α表示边界框的弧度方向角。图2示出了作为示例的带注释的场景。除了LiDAR标签之外，我们还在所有摄像头图像中分别对车辆、行人和骑自行车的人进行了我们用一个紧密拟合的4-DOF图像轴对齐的2D边界框注释每个对象，该边界框是3D框及其非模态2D投影的补充。标签被编码为具有唯一跟踪ID的（cx，cy，l，w），其中cx和cy表示框的中心像素，l2449表示框沿图像帧中的水平（x）轴的长度，并且w表示框沿图像帧中的垂直（y）轴的宽度。我们使用这个约定来使长度和宽度与3D框保持一致。可以使用数据集探索的一个有趣的可能性是仅使用相机预测3D框我们使用两个难度等级，类似于KITTI，其中Level 2的度量是累积的，因此包括Level 1。一个例子的标准是一个特定的难度水平可以取决于人类标签和对象统计。我们强调，所有LiDAR和所有相机地面实况标签都是由经验丰富的人类注释员使用工业强度的标签工具手动创建的我们已经执行了多个阶段的标签验证，以确保高质量的标签。3.4. 传感器数据LiDAR数据在此数据集中编码为距离图像，每个LiDAR返回一个;提供了前两次返回的数据。距离图像格式类似于卷帘快门相机图像，因为它从左到右逐列填充每个距离图像像素对应于LiDAR返回。高度和宽度由LiDAR传感器框架中的倾角和方位角的分辨率确定。提供每个范围图像行的每个倾斜。行0（图像的顶行）对应于最大倾斜度。列0（图像的最左列）对应于负x轴（即，向后的方向）。图像的中心对应于正x轴（即，前进的方向）。需要方位角校正以确保距离图像的中心对应于正x轴。范围图像中的每个像素包括以下属性。图4展示了一个示例范围图像。• 范围：LiDAR传感器框架中LiDAR点与原点之间的距离• 强度：表示返回强度的测量值图3.相机激光雷达同步精度以毫秒计。x轴上的数字以毫秒为单位。y轴表示数据帧的百分比。图4.范围图像示例。它被裁剪成只显示前面90英寸。前三行是距离、强度和从第一个LiDAR最后三个是距离、强度和从第二次LiDAR返回的伸长率。• 相机投影：我们提供精确的激光雷达点到相机图像投影，具有滚动快门效果补偿。图5表明，LiDAR点可以通过投影精确映射到图像像素。我们的相机和LiDAR数据同步良好。同步精度计算如下：camera center time − frame start time−激光脉冲产生的激光雷达点，部分基于激光击中的物体的反射率FSEt/360摄像机中心*0。1s（四）脉搏了• 伸长率：激光脉冲超出其标称宽度的伸长率。结合强度的延伸率对于分类虚假对象是有用的，例如比如灰尘雾雨我们的实验表明，一个高度拉长的低强度返回是一个虚假的对象的一个强有力的指标，而低强度本身是不够的信号。• 无标签区域：该字段指示LiDAR点是否落入无标签区域，即，的区域忽略标签。• 车辆姿势：捕获LiDAR点时的姿势。相机中心时间是图像中心像素的曝光时间。帧开始时间是此数据帧的开始时间。摄像机中心偏移是+每个相机传感器框架的x轴w.r.t.车辆的向后方向左侧面摄像机的摄像机中心偏移为90度，左前方摄像机的摄像机中心偏移为90度+45度等。请参见图3，了解所有摄像头同步误差在99.7%置信度下在[-6ms，7 ms]内，在99.9995%置信度下在相机图像是JPEG压缩图像。滚动快门定时信息与每个图像一起提供。卷帘快门投影。对于任意给定的点p，2450车辆行人骑车人签署3D对象6.1M2.8M67k3.2M3D TrackID60k23k62023k2D对象9.0M2.7M81k–2D TrackID194k58k1.7k–图5.与LiDAR点投影叠加的示例图像PHXMTVSF天晚上黎明火车2861034096467973验证9321881602319表4.凤凰城（PHX）、山景城（MTV）和旧金山（SF）的场景计数以及训练和验证集的一天中的不同时间。在全局帧中，滚动快门相机在未知时间t捕获该点。假设速度v和角速度ω恒定，我们可以估计t时的飞行器姿态。使用在t处的姿态，我们可以将p投影到图像上并得到图像点q，其唯一地定义像素捕获时间t。 Weminimize the difference between t and t˜by solving a singlevariable (t) convex quadratic optimization. 该算法是有效的，可以在实时使用，因为它通常在2或3次迭代收敛。有关投影算法的示例输出，请参见图53.5. 数据集分析该数据集具有从郊区和表5.不同对象的标记对象和跟踪ID计数类型3D标签是LiDAR标签。2D标签是相机图像标签。训练（798个场景）、验证（202个场景）和测试集分割（150个场景）。有关每个标记类别中的对象数量，请参见表5。LiDAR标注可捕捉半径75米范围内的所有物体。相机图像注释捕获相机图像中可见的所有对象，与LiDAR数据无关。4.1. 对象检测4.1.13D检测对于给定帧，3D检测任务涉及预测车辆、行人、标志和骑自行车者的3D直立框。检测方法可以使用来自Li-DAR和相机传感器中的任何一个的数据;它们还可以选择利用来自先前帧的传感器输入。准确的航向预测对于自动驾驶至关重要，包括跟踪和行为预测任务。平均精度（AP），通常用于对象检测，没有航向的概念。我们提出的度量，APH，结合到一个熟悉的对象检测度量的变化最小的标题信息∫1城市地区，从不同的时间一天。分布情况见表4除了城市/郊区和一天中的时间多样性之外，数据集中的场景选自许多AP=1000∫1APH=100′′max {p（r）|R′′>=r}dr，（五）城市中的不同部分。我们将地理覆盖度量定义为所有150米直径的并集的面积max{h（r）|R0>=r}dr，（6）在数据集中显示自我姿态根据这个定义，我们的数据集其中p（r）是P/R曲线。此外，h（r）被计算为sim。2占地40公里2在凤凰城，36公里组合类似于p（r），但每个真阳性都按航向加权在旧金山和山景城图6显示了所有场景中所有自我姿态所触及的所有第13级S2细胞[1]。该数据集具有约12M标记的3D LiDAR对象、约113k唯一LiDAR跟踪ID、约12M标记的2D图像对象和约254k唯一图像跟踪ID。各类别计数见表54. 任务我们为数据集定义了2D和3D对象检测和跟踪我们预计在未来增加其他任务，如分割，域适应，行为预测和模仿规划。为了一致地报告结果，我们提供预定义的2019 - 05 - 22 00：00：0000：00|θ˜−θ|，2π−|θ˜−θ|）/π，其中θθ和θ是[−π，π]内以弧度表示的预测航向和地面实况航向。度量实现采用一组预测，其得分标准化为[0，1]，并对固定数量的得分阈值进行统一采样在这段时间里。对于采样的每个分数阈值，它在分数高于阈值的预测和地面事实之间进行匈牙利匹配，以最大化匹配对之间的总体IoU。它根据匹配结果计算查准率和查全率。如果PR曲线上两个连续操作点的召回值之间的差距大于预设阈值（设置为0.05），则以保守精度在其间显式插入更多p/r点例如：p（r）：p（0）= 1。0，p（1）= 0。0，δ=0。05. 我们添加p（0. 95）= 0. 0，p（0. 90）= 0. 0，… p（0.05）= 0. 0的情况。的2451不不图6.在旧金山、山景城和凤凰城，所有自我姿势所触及的所有13级S2细胞的图像图AP =0。05在这一波上涨之后这避免了产生具有非常稀疏的p/r曲线采样的高估AP这种实现可以很容易地并行化，有助于直接比较方法质量：Σt（mt+fpt+ mmet）它在评估大型数据集时更有效。IoU用于确定车辆、行人和MOTA=100−100波拉德岛Σtgt（七）骑自行车的。盒中心距离用于确定正负号的真MOTP= 100毫微i，ttct不.（八）4.1.2摄像机图像与3D检测任务相比，2D相机图像检测任务将输入数据限制为相机图像，不包括LiDAR数据。任务是基于单个相机图像在相机图像中产生2D轴对齐的边界框对于这项任务，我们考虑AP度量的车辆，行人和骑自行车的对象类。我们使用与第节中所述相同的AP度量实现4.1.1除了2D IoU用于匹配。4.2. 对象跟踪多对象跟踪涉及准确跟踪身份、位置和可选的属性（例如，形状或框尺寸）。我们的数据集被组织成序列，每20秒长，多个传感器以10 Hz的频率产生数据此外，数据集中的每个对象都使用在每个序列中一致的唯一标识符我们支持在2D图像视图和3D车辆中心坐标中评估跟踪结果为了评估跟踪性能，我们使用多目标跟踪（MOT）度量[3]。该指标旨在将跟踪系统的几个不同特征令mt、fpt和mmet表示未命中的数量，假阳性和不匹配。让gt成为基本事实算如果地面实况目标与航迹匹配，并且最后已知的分配不是航迹，则不匹配被计数。在MOTP中，令di表示检测与其对应的地面真实匹配之间的距离，并且ct是找到的匹配的数量用于计算di的距离函数是1−IoU（对于一对匹配的盒子）。看到[3]全过程。与4.1中描述的检测指标实现类似，我们直接对分数进行采样，并计算每个分数截止值的MOTA我们在所有分数截止值中选择最高的MOTA作为最终指标。5. 实验我们根据最近的车辆和行人检测和跟踪相同的方法可以应用于数据集中的其他对象在计算所有任务的指标时，我们对车辆使用0.7 IoU，对行人使用0.5 IoU。5.1. 目标检测基线3D LiDAR检测为了建立3D对象检测基线，我们重新实现了PointPillars [16]，这是一种简单高效的基于LiDAR的3D检测器，首先使用单层PointNet [20]将点云体素化为鸟瞰图，然后使用CNN区域建议网络[24]。我们在包含所有LiDAR的单帧传感器数据上训练了模型。对于车辆和行人，我们将体素大小设置为0.33 m，网格范围沿X设置为[-85m，85 m]，24529不Y轴，[−3m，3 m]沿Z轴。这给了我们512×512像素鸟瞰图（BEV）伪图像。我们使用相同的卷积骨干架构，原始论文[16]，除了我们的车辆模型与我们的行人模型相匹配，第一个卷积块的步幅为1。这个决定意味着输入和输出的空间分辨率模型是512×512像素，这提高了精度，代价是更昂贵的模型。我们定义锚大小（l，w，h）为（4. 73米，2. 08米，1. 77米）的车辆和（0。9 m，0. 86米，1. 71米）。车辆和行人都有指向0和π/2弧度的锚点。为了实现良好的航向预测，我们使用了不同的旋转损失公式，使用航向的平滑L1损失残差，将结果包裹在[−π，π]与huber deltaδ=1之间。参考第3.3节中的LEVEL定义，我们将单帧3D对象检测任务的难度定义如下。我们首先忽略所有3D标签，激光雷达点。接下来，我们将Level 2分配给贴标机注释为硬或示例具有≤5个LiDAR点的示例最后，其余的示例被分配到级别1。我们在150个场景隐藏测试集上对7自由度3D盒和5自由度BEV盒的拟议3D检测指标进行了模型对于我们的3D任务，我们对车辆使用0.7 IoU，对行人使用0.5IoU。表6显示了详细的结果;相机图像中的2D对象检测我们使用更快的R-CNN对象检测架构[21]，使用ResNet-101 [11]作为特征提取器。我们在COCO数据集[17]上预训练模型，然后在我们的数据集上微调模型。然后，我们在所有5个相机图像上运行检测器，并汇总结果进行评估。由此产生的模型实现了一级和二级车辆的AP分别为63.7和53.3，以及一级和二级行人的AP分别为55.8和52.7。5.2. 多目标跟踪的基线3D跟踪我们提供了一个在线3D多目标跟踪基线，遵循常见的检测跟踪范例，严重依赖于上述PointPillars [16]模型。我们的方法在精神上与[22]相似。在这个范例中，在每个时间步t处的跟踪包括运行一个检测器以生成检测dn={d1，d2，...，dn}，从追踪器返回）。对于我们的基线，我们使用已经训练好的PointPillars[16]上面的模型，1-IOU作为我们的成本函数，匈牙利方法[15]作为我们的分配函数，卡尔曼滤波器[13]作为我们的状态更新函数。我们忽略检测具有低于0.2类分数，并设置最小阈值为0.5 IoU的轨道和检测被认为是匹配。我们的跟踪状态由10参数状态tm={cx，cy，cz，w，l，h，α，vx，vy，vz}组成，具有恒定速度模型。对于我们的出生和死亡过程，我们如果看到，则简单地用相关联的检测分数来递增轨道的分数，如果轨道不匹配，则递减固定成本（0.3），并且提供分数的下限和上限[0，3]。车辆和行人的结果都可以在表7中看到。对于车辆和行人来说，不匹配的百分比都很低，这表明使用匈牙利算法的IoU [15]是一种合理的分配方法。MOTA的大部分丢失似乎是由于遗漏，这些遗漏可能是由于定位、召回或框形预测问题。2D跟踪我们使用基于更快的R-CNN对象检测器的视觉多对象跟踪方法Tracktor [14]，我们在COCO数据集[17]上进行了预训练，然后在我们的数据集上进行了微调我们在我们的数据集上优化了Tracktor方法的参数，并设置σactive=0。4，λactive=0. 6，且λnew=0。3 .第三章。由此产生的Tracktor模型在跟踪车辆时，在Level 1和Level2分别实现了34.8和 28.3的MOTA5.3. 领域差距我们数据集中的大部分场景都记录在三个不同的城市（表4），即旧金山，凤凰城，山景城。在本实验中，我们将凤凰城和山景城视为一个名为郊区（Suburban）的域。SF和ESTA具有相似的场景数量（表4）和不同数量的对象（表8）。由于这两个领域以迷人的方式彼此不同，因此我们数据集中的领域差距为领域适应领域开辟了令人兴奋的研究途径我们通过评估对象检测器的性能来研究这种域差距的影响，对象检测器在训练集的一个域中记录的数据上进行训练，并在验证集的另一个域中进行评估。我们使用了5.1节中描述的物体探测器。我们过滤训练和验证数据集，仅包含t t t t t tn是检测的总数，将这些检测到我们的轨迹tm={t1，t2，...， tm}，其中m是来自称为SF的特定地理子集的帧(San Francisco）、MTV（MTV + Phoenix）或ALL（所有数据），t t t t t t当前磁道数，并更新这些磁道的状态在给定来自检测器dn的新信息的情况下跟踪tm。广告重新训练和评估模型，分裂。表9总结了我们的结果。对于3D LiDAR-t t因此，我们需要提供一个出生和死亡过程，确定给定的轨道何时是死的（不与匹配），待定（还不够自信）和活的（被基于车辆对象检测器，我们观察到APH减少SF训练、SCL评估与SCL训练、SCL评估相比，2453公里度量整体BEV（1级/2级）0 - 30米30 - 50米50米-Inf整体3D（Level 1/Level 2）0 - 30米30 - 50米50米-Inf车辆APH79.1/71.090.2/87.777.3/71.162.8/49.962.8/55.181.9/80.858.5/52.334.9/26.7车辆AP80.1/71.990.8/88.378.4/72.264.8/51.663.3/55.682.3/81.259.2/52.935.7/27.2行人APH56.1/51.163.2/61.154.6/50.543.9/36.050.2/45.159.0/56.748.3/44.335.8/28.8行人AP70.0/63.876.9/74.568.5/63.458.1/47.962.1/55.971.3/68.660.1/55.247.0/37.9表6.车辆和行人的基线APH和AP度量总体（1级/2级）MOTA MOTP Miss Mismatch FPMOTA（Level 1/Level 2）0 - 30米30 - 50米50米-Inf小车3D42.5/40.118.6/18.640.0/43.40.14/0.1317.3/16.470.6/69.939.7/37.512.5/11.2行人3D38.9/37.734.0/34.048.6/50.20.49/0.4712.0/11.652.5/51.437.6/36.522.3/21.3表7.车辆和行人的基线多目标跟踪指标以SF为评估指标的训练组比以SF为评估指标的训练组减少7.6。对于行人的3D对象检测，结果是有趣的。当评估时，在SF或ESTA上的训练产生类似的APH，而在所有数据上的训练产生7+ APH的改进。当在SF上进行评价时，该结果不成立。在评估SF产量时仅进行SF培训与在更大的组合数据集上训练相比，APH提高了2.4，而在仅训练时和在SF上评估时，APH损失了19.8。行人的这种有趣的行为可能是由于有限的行人数量在凤凰城（MTV +凤凰城）。总体而言，这些结果表明旧金山和凤凰城在3D对象检测方面存在明显的领域差距，这为利用半监督或无监督领域自适应算法缩小差距提供了令人兴奋的研究机会。SF（Tra）（Tra）SF（确认）中文（简体）车辆2.9M1.9M六九一千555K行人2.0M210K435K103K表8.训练（Tra）和验证（Val）集中每个域的3D LiDAR对象计数无需数据扩充即可获得更好的结果：我们训练了来自Section [ 16 ]的相同PointPillars模型5.1的训练序列的子集上，并在测试集上评估为了得到有意义的结果，这些子集是累积的，这意味着较大的序列子集包含较小的子集。这些实验的结果见表10。数据集%-年龄百分之十百分之三十百分之五十百分百车辆29.7/28.941.4/41.046.3/45.849.8/49.4行人39.5/27.745.7/35.750.3/40.453.0/43.0表10.随着数据集大小的增长，车辆和行人验证集上的AP/APH难度为2级。每列使用训练集的累积随机切片，其大小由第一行中的百分比确定。6. 结论我们提出了一个大规模的多模式相机激光雷达数据集，它比任何现有的类似数据集都要大得多，质量更高，地理上更多样化。它涵盖762时，考虑到稀释的自我构成，ALL/CN/SF→ ALL/SF/CN →SF车辆45.3/44.0/36.7 50.3/49.2/42.5行人25.7/20.6/19.9 46.0/47.6/29.7表9. 验证集上3D车辆和行人的域偏移的3D对象检测基线Level 2 APH结果。IoU阈值：车辆0.7，行人0.5。5.4. 数据集大小更大的数据集可以研究数据密集型算法，如Lasernet[18]。对于在PointPillars [16]等小型数据集上运行良好的方法，可以使用更多数据能见度150米。我们证明了域多样性在凤凰城，山景城和旧金山的数据在这个数据集中，这打开了令人兴奋的研究领域的适应机会我们评估了2D和3D对象检测器和跟踪器在数据集上的性能数据集和相应的代码是公开的;我们会设立一个公开排行榜，以记录有关工作的进展。未来，我们计划增加地图信息，更多的标记和未标记数据，更多样化地关注不同的驾驶行为和不同的天气条件，以便对其他自动驾驶相关任务进行令人兴奋的研究，例如行为预测，规划和更多样化的领域适应。2454引用[1] S2几何。http://s2geometry.io/网站。 5[2] Jens Behley 、 Martin Garbade 、 Andres Milioto 、 JanQuenzel、Sven Behnke、Cyrill Stachniss和Juergen Gall。Se-mantickitti：激光雷达序列语义场景理解数据集。在proc IEEE/CVF国际计算机视觉会议（ICCV），2019年。2[3] 肯尼·贝尔纳丁和雷纳·施蒂费尔哈根。评估多对象跟踪性能：明确的mot指标。2008. 6[4] 放大图片作者：Holger Caesar，Varun Bankiti，Alex H.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Gi- ancarlo Baldan，and OscarBeijbom.nuscenes ：用于自动驾驶的多模式数据集CoRR，abs/1903.11027，2019。2[5] Ming-Fang Chang ， John Lambert ， Patsorn Sangkloy ，Jagjeet Singh ， Slawomir Bak ， Andrew Hartnett ， DeWang，Peter Carr，Simon Lucey，Deva Ramanan，andJames Hays.Argoverse：3d跟踪和预测与丰富的地图。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[6] Yukyung Choi，Namil Kim，Soonmin Hwang，KibaekPark，Jae Shin Yoon，Kongghwan An，and In So Kweon.用于自动驾驶和辅助驾驶的Kaist多光谱昼夜数据集IEEE Transactions on Intelligent Transportation Systems，19（3）. 2[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉与模式识别会议。1[8] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。InternationalJournalofRoboticsResearch（IJRR），2013。2[9] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？Kitti Vision基准套件。在计算机视觉和模式识别会议中，2012年。2[10] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。Lvis：用于大词汇实例分割的IEEE计算机视觉与模式识别会议论文集。1[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉与模式识别会议论文集。7[12] Xinyu Huang， Xinjing Cheng ， Qichuan Geng ， BinbinCao ， Dingfu Zhou ， Peng Wang ， Yuanqing Lin ， andRuigang Yang.自动驾驶的apolloscape数据集IEEE计算机视觉与模式识别研讨会论文集。2[13] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的新方法。Transactions of the ASME–Journal of Basic Engineering7[14] Chanho Kim，Fuxin Li，and James M Rehg.基于双线性lstm的神经门控多目标跟踪。在ECCV，2018。7[15] 哈罗德·W Kuhn和Bryn Yaw。指派问题的匈牙利方法。海军后勤部夸脱，1955年。7[16] Alex H Lang ， Sourabh Vora ， Holger Caesar ， LubingZhou，Jiong Yang，and Oscar Beijbom.点柱：用于从点云中检测物体的快速编码器。CVPR，2019年。六七八[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议。1、7[18] Gregory P Meyer 、 Ankit Laddha 、 Eric Kee 、 CarlosVallespi-Gonzalez和Carl K Wellington。Lasernet：一个用于自动驾驶的高效概率3D物体检测器。IEEE计算机视觉与模式识别会议论文集。8[19] Abhishek Patil，Srikanth Malla，Haiming Gang，and Yi-Ting Chen.用于拥挤城市场景中全环绕3d多目标检测和跟踪IEEE机器人与自动化会议（ICRA）2[20] Charles Ruizhongtai Qi ， Hao Su ， Kaichun Mo ， andLeonidas J. Guibas.Pointnet：用于3D分类和分割的点集深度学习 2017 IEEE 计算机视觉和模式识别会议（CVPR），2017。6[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统进展。7[22] Xinshuo Weng和Kris Kitani。三维多目标跟踪的基线arXiv：1907.03961，2019。7[23] Bolei Zhou，Hang Zhao，Xavi

下载后可阅读完整内容，剩余1页未读，立即下载