Argoverse：丰富地图的3D跟踪和预测数据集

42 浏览量更新于2023-10-20 收藏 16.6MB PDF 举报

预测数据

自动驾驶

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

187480Argoverse：具有丰富地图的3D跟踪和预测0Ming-Fang Chang � 1,2，John Lambert � 1,3，Patsorn Sangkloy � 1,3，Jagjeet Singh � 1，Sławomir B ˛ak 1，Andrew Hartnett 1，De Wang1，Peter Carr 1，Simon Lucey 1,2，Deva Ramanan 1,2，和James Hays 1,301 Argo AI，2 卡内基梅隆大学，3 乔治亚理工学院0图1：我们引入了一个用于自动驾驶的具有丰富地图的3D跟踪和预测数据集。我们的数据集包含LiDAR测量序列、360°RGB视频、前向立体图像（中右）和6自由度定位。所有序列都与包含车道中心线（品红色）、可行驶区域（橙色）和地面高度的地图对齐。序列带有3D立方体轨迹的注释（绿色）。右下方显示了更宽的地图视图。0摘要：我们提出了Argoverse，这是一个旨在支持自动驾驶车辆感知任务的数据集，包括3D跟踪和运动预测。Argoverse包括在匹兹堡和迈阿密收集的自动驾驶车辆的传感器数据，以及3D跟踪注释、30万个有趣的车辆轨迹和丰富的语义地图。传感器数据包括7个具有重叠视野的摄像头的360°图像，前向立体图像，长距离LiDAR的3D点云和6自由度姿态。我们的290公里映射车道包含丰富的几何和语义元数据，这在任何公开数据集中都不可用。所有数据都在Argoverse.org网站上以创作共用许可证发布。在基准实验中，我们使用地图信息，如车道方向、可行驶区域和地面高度，来提高3D物体跟踪的准确性。我们使用3D物体跟踪来“挖掘”超过30万个有趣的车辆轨迹，创建一个轨迹预测基准。从经典方法（k-NN）到LSTMs的复杂程度不等的运动预测实验表明，使用详细的“向量地图”和车道级信息可以大幅减少预测误差。0*相等贡献0我们的跟踪和预测实验仅仅是对机器人感知中丰富地图潜力的表面探索。我们希望Argoverse能够使研究界能够更深入地探索这些问题。01. 引言0过去几年来，自动驾驶中感知任务的各种数据集和基准对计算机视觉社区产生了巨大影响。我们特别受到KITTI[10]在开辟新的研究方向方面的影响所启发。然而，公开可用的自动驾驶数据集很少包含地图数据，尽管详细的地图对于开发真实世界的自动驾驶系统至关重要。公开可用的地图，例如OpenStreetMap，可能有用，但细节和准确性有限。直观地说，如果地图直接告诉我们哪些3D点属于道路，哪些属于静态建筑物，跟踪对象在哪条车道上，该车道的限速是多少，距离下一个交叉口有多远等等，那么3D场景理解将更容易。但由于公开可用的数据集不包含这些丰富的映射属性，这是一个开放的研究问题。ApolloCar3D dataset [34] is oriented toward 3D semanticobject keypoint detection instead of tracking. KITTI [10]and H3D [31] offers 3D bounding box and track annotationsbut does not provide a map and the camera ﬁeld of view isfrontal, rather than 360◦. nuScenes [5] currently provides360◦ data and a benchmark for 3D object detection, withtracking annotation also available. The Argoverse-Trackingdataset contains 360◦ track annotations in 3D space alignedwith detailed map information. See Table 1 for a compari-son between 3D autonomous vehicle datasets.Autonomous Driving Datasets with Mined TrajectoryData. TrafﬁcPredict [26] also uses sensor-equipped vehi-cles to observe driving trajectories in the wild and build aforecasting benchmark. The TrafﬁcPredict dataset consistsof 155 minutes of observations compared to 320 hours ofobservations in Argoverse.Using Maps for Self-driving Tasks. While high deﬁnition(HD) maps are widely used by motion planning systems,few works explore the use of this strong prior in percep-tion systems [38] despite the fact that the three winningentries of the 2007 DARPA Urban Challenge relied on aDARPA-supplied map – the Route Network Deﬁnition File(RNDF) [29, 35, 3]. Hecker et al. [13] show that end-to-end route planning can be improved by processing raster-ized maps from OpenStreetMap and TomTom. Liang etal. [22] demonstrate that using road centerlines and inter-section polygons from OpenStreetMap can help infer cross-walk location and direction. Yang et al. [38] show thatincorporating ground height and road segment into LiDARpoints can improve 3D object detection. Suraj et al. [25] usedashboard-mounted monocular cameras on a ﬂeet of vehi-cles to build a 3D map via city-scale structure-from-motionfor localization of ego-vehicles and trajectory extraction.3D Object Tracking. In traditional approaches for pointcloud tracking, segments of points can be accumulated us-ing clustering algorithms such as DBSCAN [9, 20] or con-nected components of an occupancy grid [21, 17], andthen associated based on some distance function usingthe Hungarian algorithm. Held et al. utilize probabilis-tic approaches to point cloud segmentation and tracking[14, 16, 15]. Recent work demonstrates how 3D instancesegmentation and 3D motion (in the form of 3D scene ﬂow,or per-point velocity vectors) can be estimated directly onpoint cloud input with deep networks [37, 23]. Our datasetenables 3D tracking with sensor fusion in a 360◦ frame.Trajectory Forecasting: Spatial context and social inter-actions can inﬂuence the future path of pedestrians and cars.Social-LSTM[1] proposes a novel pooling layer to capturesocial interaction of pedestrians. Social-GAN [11] attemptsto model the multimodal nature of the predictions. How-ever, both have only been tested on pedestrian trajectories,with no use of static context (e.g. a map). Deo et al. [8]propose a convolutional social pooling approach wherein287490如何表示和利用这些特征是一个开放的研究问题。Argoverse是第一个具有如此详细地图的大型自动驾驶数据集。我们在两个任务-3D跟踪和运动预测中检查了这些新地图特征的潜在效用，并提供了大量的真实世界注释数据，以便为这些问题创建新的基准。本文的贡献包括：•我们发布了一个大规模数据集，其中包含在两个城市和不同条件下采样的LiDAR、360°和立体摄像头的同步数据。•我们提供了关于3D对象的真实跟踪注释，跟踪数量比KITTI[10]跟踪基准多十倍。•我们创建了一个大规模的轨迹预测基准，捕捉了诸如交叉口转弯、附近有许多车辆行驶和变道等场景。•我们发布了地图数据和一个API，可用于开发基于地图的感知算法。据我们所知，目前没有公开可用的与我们的道路基础设施和交通规则的语义向量地图相当的数据集。•我们研究了地图上下文在3D跟踪和轨迹预测中的影响。•我们发布了第一个适用于训练和基准测试自动地图创建（通常称为地图自动化）的大规模数据集。•我们发布了第一个完全全景、高帧率的大规模数据集，该数据集在车辆户外收集，为基于光度的直接方法在城市规模重建方面开辟了新的可能性。02. 相关工作自动驾驶数据集与地图信息。直到最近，很少能找到提供与注释数据相关的详细地图信息的数据集。例如TorontoCity [36]和ApolloScape[18]等工作专注于地图构建任务，但没有针对动态物体的3D注释。nuScenes数据集[5]以二进制、栅格化、自顶向下的感兴趣区域指示器的形式包含地图信息（感兴趣区域是可行驶区域和人行道的并集）。该地图信息提供了新加坡和波士顿1000个带注释车辆日志片段（或“场景”）的地图。与nuScenes类似，Argoverse包括可行驶区域的地图，但我们还包括地面高度和车道中心线及其连接性的“矢量地图”。带有3D跟踪注释的自动驾驶数据集。许多现有的物体跟踪数据集侧重于从图像/视频序列中跟踪行人[32, 28,2]。一些数据集提供了来自自动驾驶汽车传感器的原始数据，但没有任何物体注释[27, 30,33]。ApolloCar3D数据集[34]侧重于3D语义物体关键点检测而不是跟踪。KITTI [10]和H3D[31]提供了3D边界框和跟踪注释，但没有提供地图，相机的视野是正面的，而不是360度。nuScenes[5]目前提供360度数据和用于3D物体检测的基准，同时也提供跟踪注释。Argoverse-Tracking数据集包含与详细地图信息对齐的360度空间中的跟踪注释。请参见表1，了解3D自动驾驶车辆数据集之间的比较。具有挖掘轨迹数据的自动驾驶数据集。Traf�cPredict[26]还使用传感器装备的车辆观察野外驾驶轨迹并构建预测基准。Traf�cPredict数据集包含155分钟的观测数据，而Argoverse则包含320小时的观测数据。使用地图进行自动驾驶任务。虽然高清（HD）地图被运动规划系统广泛使用，但很少有研究探索在感知系统中使用这种强先验知识[38]，尽管2007年DARPA城市挑战的三个获奖作品都依赖于DARPA提供的地图 - 路线网络定义文件（RNDF）[29, 35,3]。Hecker等人[13]表明，通过处理来自OpenStreetMap和TomTom的栅格化地图，可以改进端到端的路径规划。Liang等人[22]证明，使用来自OpenStreetMap的道路中心线和交叉口多边形可以帮助推断人行横道的位置和方向。Yang等人[38]表明，将地面高度和道路段纳入LiDAR点可以改善3D物体检测。Suraj等人[25]使用车队上的仪表盘安装的单目摄像头构建城市规模的结构运动的3D地图，用于本车定位和轨迹提取。3D物体跟踪。在传统的点云跟踪方法中，可以使用聚类算法（如DBSCAN [9,20]）或占用栅格的连通组件[21,17]累积点云段，然后使用匈牙利算法根据某个距离函数进行关联。Held等人利用概率方法进行点云分割和跟踪[14, 16,15]。最近的工作展示了如何使用深度网络直接在点云输入上估计3D实例分割和3D运动（以3D场景流或每点速度向量的形式）[37,23]。我们的数据集在360度视野中实现了传感器融合的3D跟踪。轨迹预测：空间上下文和社交互动可以影响行人和车辆的未来路径。Social-LSTM [1]提出了一种新颖的汇集层来捕捉行人的社交互动。Social-GAN[11]试图对预测的多模态性进行建模。然而，这两种方法只在行人轨迹上进行了测试，没有使用静态上下文（例如地图）。Deo等人[8]提出了一种卷积社交汇集方法，其中DAR sensors produce a point cloud at each sweep with threetimes the density of the LiDAR sweeps in the nuScenes [5]dataset (ours ∼ 107, 000 points vs. nuScenes’ ∼ 35, 000points). The vehicles have 7 high-resolution ring cameras(1920 × 1200) recording at 30 Hz with overlapped ﬁeld ofview providing 360◦ coverage. In addition there are 2 front-facing stereo cameras (2056×2464) sampled at 5 Hz. Facesand license plates are procedurally blurred in camera datato maintain privacy. Finally, 6-DOF localization for eachtimestamp comes from a combination of GPS-based andsensor-based localization. Vehicle localization and mapsuse a city-speciﬁc coordinate system described in more de-tail in the Supplemental Material. Sensor measurements forparticular driving sessions are stored in “logs”, and we pro-vide intrinsic and extrinsic calibration data for the LiDARsensors and all 9 cameras for each log. Figure 2 visualizesour sensor data in 3D. Similar to [33], we place the originof the vehicle coordinate system at the center of the rearaxle. All sensors are roof-mounted, with a LiDAR sensorsurrounded by 7 “ring” cameras (clockwise: facing frontcenter, front right, side right, rear right, rear left, side left,and front left) and 2 stereo cameras. Figure 3 visualizes thegeometric arrangement of our sensors.387500数据集名称可行驶区域摄像头 360 ◦ 包括 # 跟踪类型注释区域帧摄像头立体物体车道覆盖率0KITTI [10] 无 0 公里 0 平方米 10 Hz 否 � 917 Oxford RobotCar [27] 无 0 公里 0 平方米 11/16Hz 否否 0 H3D [31] 无 0公里 0 平方米 30 Hz 否否 13,763 nuScenes v1.0 [5] 栅格 0 公里 1,115,844 平方米 12 Hz � 否 64,3860Argoverse-Tracking-Beta 矢量 204 公里（MIA） 1,074,614 平方米 30 Hz � � 10,572（人工注释）+栅格+86 公里（PIT）0Argoverse-Forecasting 矢量 204 公里（MIA） 1,074,614 平方米 - 否否 16.4M（挖掘的轨迹）+栅格+86 公里（PIT）0表1：公共自动驾驶数据集。我们将最近公开可用的具有3D对象注释的自动驾驶数据集与之进行比较。nuScenes的覆盖区域基于其道路和人行道栅格地图。Argoverse的覆盖区域基于我们的可行驶区域栅格地图。0他们首先预测机动性，然后在该机动性的基础上预测轨迹。在自动驾驶领域，利用空间上下文是非常重要的，可以从地图中高效利用。Chen等人[7]使用特征驱动的方法来进行社交和空间上下文，将输入图像映射到道路/交通状态的少数特征。然而，他们将实验限制在模拟环境中。IntentNet[6]扩展了Luo等人[24]的联合检测和预测方法，通过离散化预测空间，并尝试预测八种常见的驾驶机动之一。DESIRE[19]展示了一种捕捉社交互动和空间上下文的预测模型。作者指出，在KITTI数据集上，这两个附加组件的效益很小，将其归因于数据中车辆间最小的相互作用。03. Argoverse数据集0我们的传感器数据、地图和注释是本研究的主要贡献。我们还开发了一个API，帮助将地图数据与传感器信息连接起来，例如地面点去除、最近中心线查询和车道图连接性；更多详细信息请参见补充材料。我们的数据、注释和API在Argoverse.org网站上以CreativeCommons许可证提供。我们从美国宾夕法尼亚州匹兹堡和佛罗里达州迈阿密的一支自动驾驶车队中收集原始数据。这些城市具有不同的气候、建筑、基础设施和行为模式。捕获的数据跨越不同的季节、天气条件和时间段。我们数据集中使用的数据遍布近300公里的已映射道路车道，并来自我们车队运营区域的一个子集。传感器。我们的车辆配备了两个顶置的VLP-32LiDAR传感器，垂直视场重叠40 ◦，范围为200m，大约是nuScenes和KITTI使用的传感器的两倍。平均而言，我们的LiDAR传感器每次扫描产生的点云密度是nuScenes[5]数据集中LiDAR扫描的三倍（我们的约107,000个点对比nuScenes的约35,000个点）。车辆配备了7个高分辨率环形摄像头（1920 × 1200），以30Hz的频率录制，视野重叠，提供360 ◦覆盖。此外，还有2个前置立体摄像头（2056 × 2464），以5Hz的频率采样。为了保护隐私，摄像头数据中的人脸和车牌进行了程序模糊处理。最后，每个时间戳的6自由度定位来自基于GPS和传感器的定位的组合。车辆定位和地图使用了一种城市特定的坐标系，更多细节请参见补充材料。特定驾驶会话的传感器测量数据存储在“日志”中，我们为每个日志提供了LiDAR传感器和所有9个摄像头的内部和外部校准数据。图2以3D形式可视化了我们的传感器数据。与[33]类似，我们将车辆坐标系的原点放置在后轴的中心。所有传感器都安装在车顶，其中一个LiDAR传感器被7个“环形”摄像头包围（顺时针：正前方、右前方、右侧、右后方、左后方、左侧和左前方），还有2个立体摄像头。图3可视化了我们传感器的几何排列。0图2：Argoverse场景的3D可视化。左：我们累积LiDAR点并将其投影到虚拟图像平面上。右：使用我们的地图，超出可行驶区域的LiDAR点被变暗，接近地面的点被突出显示为青色。粉色和黄色显示了长方体对象注释和道路中心线。487510图3：汽车传感器示意图。显示了三个参考坐标系：（1）车辆坐标系，Xv表示前进方向，Yv表示左侧，Zv表示上方；（2）相机坐标系，Xc表示图像平面上的横向，Yc表示图像平面上的纵向，Zc表示光轴方向；（3）LiDAR坐标系，XL表示前进方向，YL表示左侧，ZL表示上方。正旋转RX、RY、RZ分别定义为绕各自轴的旋转，遵循右手定则。03.1. 地图 Argoverse包含三个不同的地图 -（1）车道中心线及其属性的矢量地图，（2）地面高度的光栅化地图，以及（3）可行驶区域和感兴趣区域（ROI）的光栅化地图。车道几何的矢量地图。我们的矢量地图由语义道路数据组成，表示为本地化图形，而不是离散样本的光栅化。我们发布的矢量地图是在车队运营中使用的地图的简化版本。在我们的矢量地图中，我们提供车道中心线，分为车道段。我们观察到车辆轨迹通常沿着车道的中心行驶，因此这是一种有用的先验信息用于跟踪和预测。车道段是车辆单向单行驶的道路段。多个车道段可以占用同一物理空间（例如在交叉口）。允许交通双向流动的转弯车道将由占用同一物理空间的两个不同车道表示。对于每个车道中心线，我们提供一些语义属性。这些车道属性描述了车道是否位于交叉口内或具有相关的交通控制措施（布尔值，不相互排斥）。其他语义属性包括车道的转弯方向（左、右或无）以及车道的前驱（之前的车道段）和后继（之后的车道段）的唯一标识符，可以有多个（用于合并和分割）。中心线以“折线”形式提供，即一系列直线段。每个直线段由2个顶点定义：（x，y，z）起点和（x，y，z）终点。因此，曲线车道用一组直线近似。我们观察到，在迈阿密，可用于路径规划的车道段平均宽度为3.84米±0.89。0图4：基于地图的地面去除示例。一些Argoverse场景包含不均匀的地面，使用简单的启发式方法（例如假设地面是平面）很难去除。上图中，投影的LiDAR点按照表面法线进行着色。地面表面法线的颜色在鸟瞰图投影中是非均匀的（左图）。斜坡上的绿色（中间列）与地面其他部分（右列）不同。下方行使用我们的地图工具去除地面点和超出可行驶区域的点。0在匹兹堡，平均宽度为3.97米±1.04。迈阿密的其他类型的车道段，例如自行车道，宽度可能仅为0.97米，匹兹堡则可能仅为1.06米。光栅化的可行驶区域地图。我们的地图以1米网格分辨率包含二进制可行驶区域标签。可行驶区域是车辆可以行驶的区域（尽管不一定合法）。可行驶区域可以包括道路的路肩，以及由车道段表示的正常可行驶区域。我们的轨迹注释（第3.2节）延伸到可行驶区域之外的5米。我们称这个更大的区域为我们的感兴趣区域（ROI）。光栅化的地面高度地图。最后，我们的地图包括以1米分辨率的实值地面高度。了解地面高度可以用于去除静态地面上的LiDAR返回点，从而使得对动态物体的三维检测更容易。图4演示了使用我们的地面高度地图去除道路上的LiDAR点。03.2. 3D轨迹注释 Argoverse-Tracking-Beta1包含100个车辆日志段，其中包含人工注释的3D轨迹数据。这100个段的长度从15到60秒不等，总共包含10,572个被跟踪对象。我们在表1中将其与其他数据集进行了比较。对于每个日志段，我们使用边界立方体对所有感兴趣的对象（包括动态和静态对象）进行注释，这些边界立方体随着每个对象随时间的推移与3DLiDAR返回相关联。我们只对距离可行驶区域5米以内的对象进行注释，可行驶区域由我们的地图定义。对于在整个段时间内不可见的对象，我们在激光雷达点云中首次看到对象时实例化轨迹，并在对象不可见时终止轨迹。当对象在序列内变得不可见时，我们将其标记为“遮挡”。每个对象都标有17个类别之一，包括OTHER_STATIC和OTHER_MOVER，用于不适合其他预定义类别的静态和动态对象。超过70%的被跟踪对象是车辆，但我们还观察到行人、自行车、摩托车等。图5显示了注释对象类别的分布。所有轨迹标签都经过手动质量保证审核。图1和图2显示了我们人工注释标签的定性示例。我们将注释的跟踪数据分为60个训练01我们将我们的跟踪数据称为beta，预计在最终发布之前会进行一些细微的改进或扩展。>3500 3000 2500 20001500 1000 <500 >3500 3000 2500 20001500 1000 <500 587520图5：对象类别的分布。此图以对数刻度显示了Argoverse-Tracking-Beta中每个类别的对象数量。0当对象不可见时，我们将其标记为“遮挡”。我们将对象分为17个类别之一，包括OTHER_STATIC和OTHER_MOVER，用于不适合其他预定义类别的静态和动态对象。超过70%的被跟踪对象是车辆，但我们还观察到行人、自行车、摩托车等。图5显示了注释对象类别的分布。所有轨迹标签都经过手动质量保证审核。图1和图2显示了我们人工注释标签的定性示例。我们将注释的跟踪数据分为60个训练序列、20个验证序列和20个测试序列。03.3. 运动预测的挖掘轨迹我们还对运动预测这一任务感兴趣，即预测未来某个时间点上被跟踪对象的位置。运动预测对于安全的自动驾驶车辆运动规划至关重要。虽然我们人工注释的3D轨迹适合用于运动预测的训练和测试数据，但大多数车辆的运动相对无趣-在给定的帧中，大多数汽车要么停放，要么以几乎恒定的速度行驶。这样的轨迹几乎不能代表真实的预测挑战。我们希望有一个更多样化的场景基准，例如管理交叉口，减速以融入其他车辆，转弯后加速，为道路上的行人停车等等。为了采样足够多的这些有趣场景，我们在迈阿密和匹兹堡的1006个驾驶小时内跟踪对象，并在其中320个小时内找到具有有趣行为的车辆。具体而言，我们寻找的车辆要么处于交叉口，要么进行左转或右转，要么换到相邻车道，要么在拥挤的交通中。总共，我们收集了333,441个五秒钟的序列，并将它们用于预测基准。每个序列包含每个被跟踪对象的2D鸟瞰图中心点，采样频率为10hz。图6显示了在迈阿密和匹兹堡地图上挖掘到的轨迹分布。0图6：挖掘轨迹的分布。颜色表示迈阿密（左）和匹兹堡（右）地图上挖掘到的轨迹数量。寻找有趣的车辆行为的启发式方法导致交叉口和繁忙道路（如Liberty和PennAve）的轨迹更集中（右下角插图中的东南道路）。0这些序列的图形分布。在第5节中，我们不评估行人和静止车辆的运动预测，但仍保留它们的轨迹以提供“社交”预测模型的上下文。这333,441个序列被分为211,691个训练序列，41,146个验证序列和80,604个测试序列。每个序列都有一个具有挑战性的轨迹，是我们预测基准的重点。训练、验证和测试序列来自我们城市的不相交部分，即大约每个城市的八分之一和四分之一被设置为验证和测试数据。这个数据集远远大于可以从公开可用的自动驾驶数据集中挖掘出来的数据，并且我们使用地图使得跟踪对象更容易。尽管这样规模的数据非常吸引人，因为它可以让我们看到罕见的行为并训练复杂的模型，但它太大了，无法详尽地验证挖掘轨迹的准确性，因此数据中存在一些噪声和误差。04. 3D物体跟踪0在本节中，我们将研究各种基线跟踪方法在Argoverse3D跟踪基准上的表现。我们的基线方法是以LiDAR为中心，直接在3D中操作。除了衡量基准基准的难度外，我们还衡量了一些简单的基于地图的启发式方法对跟踪准确性的影响。对于这些基线，我们的跟踪和评估仅限于车辆。给定一系列F帧，每帧包含来自LiDAR的一组3D点{ P i | i = 1 , ..., N}，其中 P i ∈ R 3是x、y、z坐标，我们希望确定一组跟踪假设{ T j | j = 1 , ...,n }，其中 n 是整个序列中唯一对象的数量，而 T j 包含帧 f中对象的中心位置集合，其中 f = { f start , ..., f end }是对象可见的帧范围。我们通常将动态观察者作为我们的687530车辆往往是在运动中的。我们周围的跟踪车辆可以是静止的或移动的。我们的基线跟踪流程将LiDAR返回聚类以检测潜在的对象，使用Mask R-CNN[12]修剪非车辆的LiDAR返回，使用匈牙利算法将聚类关联起来，使用ICP估计聚类之间的变换，并使用卡尔曼滤波器估计车辆姿态。更多细节请参见补充材料。跟踪器使用以下地图属性：可行驶区域。由于我们的基线专注于车辆跟踪，我们将跟踪器限制在地图指定的可行驶区域内。这包括任何可能供车辆行驶的区域（参见第3.1节）。这减少了误报的机会。地面去除。我们使用地图信息进行地面去除。与局部地面平面估计方法不同，基于地图的方法在倾斜和不平坦的环境中效果更好。车道方向。仅通过LiDAR确定车辆方向是一项具有挑战性的任务，即使对于人类来说也是如此，因为LiDAR稀疏和部分视图。我们观察到，车辆方向很少违反车道方向，尤其是在交叉口之外。幸运的是，我们的数据集中提供了这样的信息，因此我们根据车道方向调整车辆方向，只要车辆不在交叉口并且包含的LiDAR点太少。04.1. 评估我们使用常用于多目标跟踪器（MOT）[28,4]的标准评估指标。MOT指标依赖于地面真实和预测对象之间的距离/相似性函数来确定最佳分配。我们使用欧几里得距离（在美国，错过轨道的阈值为2.25米，即平均家庭汽车长度的一半），而不是在跟踪文献中更常用的IoU（交并比）。我们遵循CLEARMOT[4]中的原始定义来计算MOTP（数值越低越好）。跟踪指标的详细解释请参见补充材料。在实验中，我们在Argoverse-Tracking-Beta测试集的20个日志上运行我们的跟踪器。我们还对跟踪性能和距离之间的关系感兴趣。我们将距离车辆和我们的自车之间的距离应用于阈值（30,50,100米），并仅在该范围内评估注释和跟踪器输出。表2中的结果显示，我们的跟踪器在采样密度较高的短距离范围内表现良好，但在50米以外的物体上表现不佳。我们将基线跟踪器与三个消除项进行比较，这三个消除项分别是：1）作为LiDAR的预过滤的Mask R-CNN2）地图中的车道方向信息和3）基于地图的地面去除。表2中的结果显示，Mask-RCNN显著提高了我们的检测性能。0(a) 不带车道信息0(b) 带有车道信息0图7：使用车道方向信息进行跟踪。使用车道方向信息有助于确定检测和跟踪的车辆方向。绿色表示真实边界框。0通过减少误报，基于地图的地面去除比平面拟合方法在较远距离上具有稍好的检测性能（更高的MOTA）。另一方面，地图中的车道方向不会影响我们的度量指标（基于质心距离），但它有助于初始化车辆方向，如图7所示。我们使用相对简单的基线方法来跟踪3D对象。我们相信我们的数据为基于地图和多模态跟踪研究开辟了可能性。05.预测0在本节中，我们描述了轨迹预测基线的流程。1.预处理：如第3.3节所述，我们首先挖掘“有趣”的序列，然后从中过滤出静止的车辆。每个序列包含在5秒内跟踪对象的质心。预测坐标系和归一化。我们用于轨迹预测的坐标系是俯视图（BEV）的顶视图。对于预测感兴趣的三个参考坐标系：（1）原始轨迹数据存储和评估在城市坐标系中（参见补充材料的第1.1节）。（2）对于使用车道中心线作为参考路径的模型，我们定义一个2D曲线坐标系，其轴是切向和垂直于车道中心线的。（3）对于没有参考路径（没有地图）的模型，我们将所有内容对齐，使得观察到的轨迹部分从原点开始，结束在正x轴的某个位置。如果（xti，yti）表示时间步长t处的轨迹Vi的坐标，则确保yTobsi =0，其中Tobs是轨迹的最后一个观察时间步长（第5.1节）。我们发现这种归一化比将轨迹保留在绝对地图坐标或绝对方向中效果更好。2.特征工程：我们定义了额外的特征来捕捉社交和/或空间上下文。对于社交上下文，我们使用与前方对象的最小距离、后方对象的最小距离和邻居数量。这些启发式方法旨在捕捉车辆之间的社交互动。对于空间上下文的地图信息，我们使用车道中心线的特征。YYmap37.980.520.460.100.51105.402455.3032.5522.35100 mNYmap16.420.540.460.160.411339.951972.9543.3029.65YNmap37.950.520.460.100.51105.302454.8532.3522.45YYplane-ﬁtting37.360.530.460.100.53105.202484.0031.1021.25YYmap52.740.520.580.220.2999.701308.2531.6021.6550 mNYmap21.530.540.550.380.181197.30897.9037.8524.60YNmap52.700.520.580.220.2999.501307.7531.4021.75YYplane-ﬁtting52.050.530.580.200.3198.101335.6530.1520.45YYmap73.020.530.730.660.0892.80350.5019.7512.8030 mNYmap23.280.560.630.780.04837.45238.8019.1011.25YNmap72.990.530.730.660.0992.80349.9019.6512.95YYplane-ﬁtting72.820.530.740.660.0992.00363.3519.7512.85787540范围使用使用地面 MOTA MOTP IDF1 MT(%) ML(%) # FP #FN ID SW # FRAG 阈值 M ASK -RCNN 地图车道去除0表2：不同范围内的跟踪准确性。从上到下，100m、50m和30m内的对象的准确性。0在这个背景下，我们在车道段坐标系中计算所有内容。我们计算与每个轨迹对应的车道中心线，然后将（xti，yti）坐标映射到沿中心线的距离（ati）和偏离中心线的偏移量（oti）。在接下来的章节中，我们分别用sti和mti表示轨迹Vi在时间步长t的社交特征和地图特征。3.预测算法：我们使用不同的特征组合实现加权最近邻和LSTM编码器-解码器模型。结果在第5.3节中进行分析。5.1.问题描述预测任务的框架如下：给定车辆轨迹Vi的过去输入坐标Xi=（xti，yti）的时间步长t ={1，...，Tobs}，预测未来坐标Yi =（xti，yti）的时

下载后可阅读完整内容，剩余1页未读，立即下载