DAIR-V2X：真实场景的车辆基础设施协同3D目标检测数据集

20 浏览量更新于2023-10-25 收藏 15.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

213610DAIR-V2X：用于车辆基础设施协同3D目标检测的大规模数据集0于海宝1，罗一臻1,3，舒茂2，霍一一1,4，杨泽邦1,3，石一峰2，郭正龙20李涵宇2，胡星2，袁继锐1，聂再清1*1清华大学人工智能产业研究院（AIR），2百度公司，3清华大学计算机科学与技术系，4中国科学院大学0{yuhaibao@air.,luoyz18@mails.,yzb19@mails.,yuanjirui@air.,zaiqing@air.}tsinghua.edu.cn0{shumao,shiyifeng,guozhenglong,lihanyu02,huxing}@baidu.com,huoyiyi18@mails.ucas.ac.cn0摘要0自动驾驶面临着巨大的安全挑战，因为缺乏全球视角和长距离感知能力的限制。广泛认为，为了实现5级自动驾驶，需要车辆基础设施协同合作。然而，目前仍然没有来自真实场景的数据集供计算机视觉研究人员研究车辆基础设施协同合作相关问题。为了加速计算机视觉研究和创新，我们发布了DAIR-V2X数据集，这是第一个来自真实场景的大规模、多模态、多视角的VICAD数据集。DAIR-V2X包括71254个LiDAR帧和71254个相机帧，所有帧都是从带有3D注释的真实场景中捕获的。引入了车辆基础设施协同3D目标检测问题（VIC3D），该问题通过使用来自车辆和基础设施的传感器输入协同定位和识别3D对象。除了解决传统的3D目标检测问题外，VIC3D的解决方案还需要考虑车辆和基础设施传感器之间的时间异步问题和它们之间的数据传输成本。此外，我们提出了时间补偿后融合（TCLF），这是一个基于DAIR-V2X的VIC3D任务的后融合框架。在https://thudair.baai.ac.cn/index 和https://github.com/AIR-THU/DAIR-V2X上找到数据、代码和更多最新信息。01. 引言0自动驾驶（AD）可以说是当前引起公众关注和想象力的最热门话题之一0*通讯作者。3,4工作时在AIR完成。0深度神经网络的成功为解决自动驾驶从点云[15,20,28]、图像[7,18]或多模态数据[21,24]感知周围环境的核心要求带来了希望。尽管如此0图1.自动驾驶中可用于3D目标检测的数据集。DAIR-V2X是第一个用于VICAD的真实世界V2X数据集。0最近取得了很大的进展，但自动驾驶仍然面临着巨大的安全挑战，因为缺乏全球视角和长距离感知能力的限制。广泛认为，为了实现5级自动驾驶，需要车辆基础设施协同合作。利用车辆和基础设施传感器带来了许多重要优势，包括提供远超当前视野和覆盖盲区的全球视角。通信技术的进步，如V2X（车辆到一切）使得利用基础设施传感器的数据成为可能。然而，目前仍然没有来自真实场景的数据集供研究人员研究车辆基础设施协同合作相关问题。为了加速计算机视觉研究和创新DatasetYearReal/SimulatedViewImagePointcloud3D boxesClassesKITTI [10]2012realsingle vehicle15k15k200k8nuScenes [2]2019realsingle vehicle1.4M400k1.4M23Waymo Open [23]2019realsingle vehicle1M200k12M4ApolloScape [12]2018realsingle vehicle144k070k8-35BBD100K [30]2020realsingle vehicle100M0010ONCE [17]2021realsingle vehicle7M1M417k5SYNTHIA [19]2016simulatedsingle vehicle213k0-13V2X-Sim [16]2021simulatedmulti-vehicle010k26.6k2highD [13]2018realinfrastructure (UAV)1.53M001DAIR-V2X (Our)2021realvehicle-infrastructure cooperative71k71k1.2M10- DAIR-V2X-C2021realvehicle-infrastructure cooperative39k39k464k10- DAIR-V2X-V2021realsingle vehicle22k22k239k10- DAIR-V2X-I2021realinfrastructure10k10k493k10of driving regions with diverse weather and lighting varia-tions. More details could be found in Tab. 1.In this paper, the Vehicle-Infrastructure Cooperative 3DObject Detection (VIC3D) task is introduced, formulatingthe problem of cooperatively locating and identifying 3Dobjects using sensory inputs from both vehicle and infras-tructure. In addition to solving traditional 3D object detec-tion problems, the solution of VIC3D needs to consider thetemporal asynchrony problem and data transmission costbetween vehicle and infrastructure sensors.To resolve the VIC3D object detection task and facilitatefuture research, we also introduce our VIC3D object detec-tion benchmark in this paper. For data with less temporalasynchrony problems, we implement both early fusion andlate fusion approaches. Results show that the average preci-sion of fusion methods is 10 to 20 points higher than detec-tors that only use information from a single view. Resultsalso show that early fusion can achieve better performancethan late fusion but requires more data transmission. Withthe DAIR-V2X dataset, we expect more future research toachieve a performance-bandwidth trade-off. For data withsevere temporal asynchrony, we propose a Time Compensa-tion Late Fusion framework, which can effectively alleviatethe temporal asynchrony problem.213620表1.自动驾驶相关数据集的详细比较。-表示没有提供具体信息。特别地，DAIR-V2X由DAIR-V2X-C、DAIR-V2X-V和DAIR-V2X-I组成，其中DAIR-V2X-C由车辆和基础设施传感器捕获，DAIR-V2X-V由车辆传感器捕获，DAIR-V2X-I由基础设施传感器捕获。0为了实现车辆基础设施合作自动驾驶（VICAD），我们发布了DAIR-V2X数据集，这是第一个大规模、多模态、多视角的VI-CAD数据集。它包含了在交叉口场景中捕获的71254帧LiDAR和71254帧相机图像，其中40%的帧来自基础设施传感器，60%的帧来自车辆传感器。所有数据都由专家标注员进行了精确标注。该数据集覆盖了10公里的城市道路、10公里的高速公路、28个交叉口和38平方公里的行驶区域，具有多样的天气和光照变化。更多细节可以在表1中找到。本文介绍了车辆基础设施合作3D物体检测（VIC3D）任务，将协同定位和识别3D物体的问题使用来自车辆和基础设施的传感器输入进行了定义。除了解决传统的3D物体检测问题外，VIC3D的解决方案还需要考虑车辆和基础设施传感器之间的时间异步问题和数据传输成本。为了解决VIC3D物体检测任务并促进未来的研究，我们还在本文中介绍了我们的VIC3D物体检测基准。对于具有较少时间异步问题的数据，我们实现了早期融合和晚期融合两种方法。结果显示，融合方法的平均精度比仅使用单一视角信息的检测器高出10到20个百分点。结果还显示，早期融合可以实现更好的性能，但需要更多的数据传输。通过DAIR-V2X数据集，我们期望未来的研究能够实现性能带宽的权衡。对于具有严重时间异步问题的数据，我们提出了一种时间补偿晚期融合框架，可以有效缓解时间异步问题。0我们工作的主要贡献如下：0•我们发布了DAIR-V2X数据集，这是第一个用于车辆基础设施合作自动驾驶的大规模数据集。所有帧都是从真实场0•我们将从车辆和基础设施获取的传感器输入协同定位和识别3D物体的问题称为VIC3D。0•我们为VIC3D物体检测和单视角3D物体检测任务引入了基准。结果显示了车辆基础设施合作在VIC3D物体检测中的有效性。特别是，我们提出了时间补偿晚期融合框架来缓解时间异步问题。02. 相关工作02.1. 自动驾驶数据集0近年来，越来越多的自动驾驶数据集被发布并极大地推动了自动驾驶研究的发展。像SYNTHIA [19]和Cityscapes[5]这样的数据集主要关注图像的2D标注。KITTI[10]和nuScenes[2]是多模态数据集，提供相机图像和LiDAR点云。然而，上述所有数据集都只提供了来自单一车辆视角的数据。V2X-SIM[16]是生成多车辆视角数据集的一次尝试，但该数据集是通过模拟器生成的，而不是从真实场景中捕获的。与这些数据集相比，我们的DAIR-V2X数据集是第一个大规模、多模态、多视角的VICAD真实场景数据集，包含了从车辆基础设施合作视角捕获的数据。表1显示了我们的数据集与其他数据集的比较。在我们的DAIR-213630图2. a) 基础设施传感器的采集系统。b) 车辆传感器的采集系统。c)基础设施视图图像和带有3D注释的点云。配对的车辆视图和基础设施视图信息在视角上互补。d) 车辆视图图像和带有3D注释的点云。0对于对Mono3D目标检测和领域自适应感兴趣的人，我们还提供了一个由多源基础设施图像和3D注释组成的Repo3D[29]数据集。02.2. 3D检测03D目标检测是自动驾驶成功的先决条件。已经引入了许多技术，可以大致分为三类。a)基于图像的3D检测是指直接从2D图像中检测3D对象的方法。ImVoxelNet[7]是一个从图像中进行预测的很好的例子。b)基于点云的3D检测是指仅从点云中进行3D目标检测的方法。PointPillars [15]、SECOND [27]和3DSSD[28]是从点云中实现令人信服的检测结果的方法。c)基于多模态的3D检测使用图像和点云来进行预测。Pointpainting [24]和MVXNet[21]是将图像和LiDAR特征融合以预测3D边界框的实践。尽管3D目标检测最近取得了很大的进展，但仍然存在一些难以解决的问题，如盲区和弱远距离感知。为了探索如何利用基础设施信息来解决上述问题，我们基于本文提出的数据集进行VIC3D目标检测。02.3. 多传感器融合0多传感器融合[26]是将不同传感器收集的异构信息集成起来，以减轻依赖单一传感器的系统的不确定性和脆弱性。根据融合阶段，多传感器融合可以分为早期融合、中间融合和后期融合。a)在早期融合中，来自不同传感器的原始数据直接传输和融合[9]。b)在中间融合中，从模型中提取的特征等中间表示进行融合[4,21]。c)在后期融合中，预测输出的3D信息等进行融合[11]。VIC3D可以被视为多传感器问题的一种变体，因此可以考虑使用先前的融合方法来整合基础设施信息。然而，除了多传感器融合的挑战之外，VIC3D还面临由时间不同步问题和数据传输约束引起的困难。0预测输出的对象的3D信息等进行融合[11]。VIC3D可以被视为多传感器问题的一种变体，因此可以考虑使用先前的融合方法来整合基础设施信息。然而，除了多传感器融合的挑战之外，VIC3D还面临由时间不同步问题和数据传输约束引起的困难。02.4. V2X合作感知0V2X旨在在复杂的交通环境中建立车辆和其他设备之间的通信系统。当前的V2X研究主要集中在V2V（车辆对车辆）和V2I（车辆对基础设施）领域。V2VNet[25]是V2V领域的开创性工作，它广播压缩的中间特征并传播从附近车辆接收到的消息以生成运动预测。V2I的工作[6,31]利用基础设施LiDAR数据生成并广播检测结果。然而，这些方法都没有在从真实场景中捕获的数据集上进行验证。这可能导致理论与实践之间存在巨大差距。因此，我们发布了DAIR-V2X数据集，以推动该领域的进一步研究。03. DAIR-V2X数据集0为了促进VICAD的研究，我们发布了DAIR-V2X，这是一个大规模、多模态、多视角的数据集，来自真实场景，具有车辆基础设施协作的3D注释。在这里，我们描述了如何设置基础设施和车辆传感器，选择有趣的场景，注释数据集并保护第三方的隐私。03.1. 设置0设备。数据采集设备由基础设施传感器和车辆传感器组成。a)基础设施传感器。从北京高级自动驾驶示范中选择的28个路口中的每个路口都配备了一对基础设施传感器。213640表2. DAIR-V2X中的关键传感器规格。Veh.代表车辆视图，Inf.代表基础设施视图。0传感器详情0基础设施激光雷达 300束，10Hz采样频率，100度0水平视场，-30度至10度垂直视场，≤280米范围，±3厘米精度基础设施摄像头RGB，25Hz采样频率，1920x1080分辨率，JPEG压缩0车辆激光雷达 40束，10Hz采样频率，360度0水平视场，-30度至10度垂直视场，≤200米范围，±0.33度垂直分辨率车辆摄像头RGB，20Hz采样频率，1920x1080分辨率，JPEG压缩车辆GPS和IMU 1000HZ更新率0区域部署了四对300束激光雷达和高分辨率摄像头。DAIR-V2X数据集只选择其中一对。b)车辆传感器。一台40束激光雷达和一台高质量的前置摄像头安装在自动驾驶车辆上。具体布局请参见图2，并在表2中显示详细信息。0坐标。DAIR-V2X上有5种坐标系，即激光雷达坐标系、摄像头坐标系、图像坐标系、世界坐标系和定位坐标系。激光雷达坐标系的原点位于激光雷达传感器的中心，x轴正向为前方，y轴正向为左侧，z轴正向为上方。基础设施激光雷达坐标系是从其原始坐标系转换而来，该原始坐标系与地面有一个倾斜角度。配备车辆的实时相对姿态是通过GPS/IMU与SLAM和本地地图相结合获得的。还有手动二次标定确认以确保校准精度。激光雷达到摄像头的转换是通过将激光雷达到世界和世界到摄像头的转换相乘获得的。03.2. 数据采集0采集。我们在采集区域驾驶一辆装备齐全的车辆，并分别保存相应的车辆帧和基础设施帧。在采集原始数据之后，我们手动选择了100个代表性的持续20秒的场景。这些场景包括车辆数据和基础设施数据，其中车辆驶过配备设备的路口。我们从两侧以10Hz的频率采样关键帧，形成DAIR-V2X-C。在DAIR-V2X-C中，需要注意的是，由于车辆传感器和基础设施传感器之间的异步触发，车辆帧与其最近的基础设施帧之间的时间戳差异可能会稍有不同。我们从额外的约350个仅车辆片段中采样了22K帧，以形成DAIR-V2X-V，并采样了0从DAIR-V2X-I中额外提取了大约150个基础设施-仅片段的10K帧数据，以扩大数据集。与DAIR-V2X-C中的单视图数据相比，DAIR-V2X-V和DAIR-V2X-I包含更多不同的场景，对于仅改善单视图性能将更具挑战性。标注。通过多个验证步骤和精细化过程，专家标注员分别为基础设施帧和车辆帧进行高质量的标注。具体而言，标注员详尽地标记每个图像和点云帧中的10个对象类别，包括其类别属性、遮挡状态、截断状态和一个由x、y、z、宽度、长度、高度和偏航角构成的7维长方体模型。10个类别包括不同的车辆、行人和不同的骑行者。此外，专家还用由x、y、宽度和长度构成的矩形边界框在相机图像中细致地标注对象。值得一提的是，我们还对车辆和基础设施帧对之间的合作标注进行了半自动标注。我们首先从DAIR-V2X-C中选择车辆和基础设施帧对。所选对的两个帧之间的时间戳差异小于10毫秒（我们称之为同步情况，定义在第4.1节中）。为了获得更多的合作标注，我们将阈值从10毫秒扩展到30毫秒。接下来，我们将基础设施的3D框转换为车辆的LiDAR坐标系，并融合车辆标注和基础设施标注。对于基础设施标注中的每个3D框，如果在车辆标注中找不到具有相同位置和类别的任何3D框，我们将基础设施的3D框添加到车辆标注中；通过这种方式，我们获得了车辆-基础设施的合作标注。我们手动监督和调整合作标注，生成更准确的标注。在这里，我们使用9331个基础设施帧和车辆帧以及合作标注来形成我们的VIC-Sync数据集，用于我们的VIC3D目标检测基准测试。保护。在公开发布之前，整个数据集都经过了去敏处理。根据当地法律法规的要求，我们删除了所有的定位信息，包括道路名称、地图数据和定位信息，以确保我们的数据集符合要求。此外，我们利用专业的标注工具对所有涉嫌侵犯隐私的信息进行了模糊处理，包括道路标志、车牌和人脸，以保护隐私并避免侵犯个人权利。04. 任务和度量标准0自动驾驶面临着缺乏全局视角和长距离感知能力的安全挑战。由于3D物体检测是自动驾驶中的关键感知任务之一，本文重点研究车辆基础设施协作（VIC）3D物体检测任务，即车辆接收并整合来自基础设施的信息以定位和识别周围物体。与传统的多传感器3D物体检测任务相比，VIC3D物体检测具有以下特点：• Temporal Asynchrony. Timestamps of data from thevehicle sensors and the infrastructure sensors are dif-ferent due to the asynchronous triggering and timedelay caused by transmission cost, to generate thetemporal-spatial error. Therefore, temporal synchro-nization should be considered in solving VIC3D.̸̸213650•时间异步性。由于异步触发和传输成本引起的时间延迟，车辆传感器和基础设施传感器的数据时间戳不同，从而产生时间空间误差。因此，在解决VIC3D时应考虑时间同步。0•传输成本。受物理通信条件限制，基础设施向车辆传输的数据应尽量减少带宽消耗，减轻时间延迟，并满足实时要求。因此，VIC3D目标检测的解决方案需要在性能和传输成本之间取得平衡。0为了更好地定义VIC3D目标检测任务，我们将在本节中详细定义VIC3D目标检测，并提供两个度量标准来衡量检测性能和传输成本。04.1. VIC3D目标检测0VIC3D目标检测可以被定义为有效地集成基础设施和车辆信息以定位和识别3D物体的优化问题，考虑到传输成本。在这里，我们讨论VIC3D的输入和输出应该是什么。0输入。VIC3D的输入由来自车辆和基础设施的数据组成。0• 车辆帧 I v ( t v )：在时间 t v捕获的车辆帧以及其相对姿态 M v ( t v )，其中 I v ( ∙ )0• 基础设施帧 I i ( t i )：在时间 t i捕获的基础设施帧以及其相对姿态 M v ( t i )，其中 I i ( ∙) 表示基础设施传感器的捕获函数。0注意，t i 应该早于 tv，因为基础设施到车辆的数据传输会导致时间延迟。考虑到在微小的时间间隔内物体的移动非常微小，空间偏移可以忽略不计，我们将 | t v - t i | ≤ 10 ms的情况视为同步情况（即 t v ≈ t i）。同样地，我们将 | t v- t i | > 10 ms的情况视为异步情况。此外，我们允许在解决VIC3D时使用更多之前的基础设施帧 I i ( t i)，以充分利用基础设施的计算资源。0真实地面实况。VIC3D目标检测的输出包含物体的位置、类别和方向等3D信息。VIC3D的相应真实地面实况是基础设施和车辆真实地面实况的融合结果，可以表示为：0模拟为：0GT = GT v ∪ GT i，(1)0其中，GT v 是车辆传感器感知的真实地面实况，GT i是基础设施传感器感知的真实地面实况。VIC3D主要用于提高自动驾驶车辆的感知性能。我们更关注自我中心周围环境的一定范围和时间 t v 的物体的3D信息，而不是时间 t i的物体的3D信息。因此，GT v 和 GT i 都应该基于时间 tv。然而，从基础设施和车辆捕获的输入帧的时间戳可能不同，即 t v ≠ ti。这不仅给模型预测中融合基础设施信息带来挑战，而且对生成真实地面实况也带来了巨大问题。这是因为在时间 t i用基础设施帧标注的物体可能在时间 t v移动到不同的位置，我们无法直接获取时间 t v的基础设施帧进行标注。针对这些困难，我们讨论了如何基于DAIR-V2X生成VIC3D的真实地面实况。0• 同步情况（即 t v ≈ t i）。在这种情况下，出现在车辆帧 I v ( t v )中的物体应该与出现在基础设施帧 I i ( t i )中的物体具有相同的空间位置。因此，我们可以直接使用半自动标注获得的车辆-基础设施合作3D注释作为地面真值。0• 异步情况（即 t v � = t i）。如果我们能找到这样的基础设施帧 I i ( t ′ i ) ，满足 |t v − t ′ i | ≤ 10 ms ，我们可以使用 I i ( t ′ i )生成地面真值。如果找不到，我们必须估计 t v时刻物体的3D状态来生成地面真值。这项工作可以在我们在未来的工作中提供跟踪ID后基于跟踪ID和运动方程进行。04.2. 评估指标。0VIC3D目标检测有两个主要目标：更好的检测性能和较低的传输成本。我们在下面描述了这两个目标的度量标准。0平均精度。AP（平均精度）是衡量目标检测器性能的常用指标[8]。我们也使用AP来评估以合作注释作为地面真值的3D检测性能。由于我们更关注自我中心的环境，我们移除了设计区域之外的物体。在这里，我们将设计区域设置为矩形区域[0，-39.12，100，39.12]。传输成本。我们使用AB（平均字节）来衡量传输成本。这里字节是由8位组成的数字信息单位。为了简化问题，我们忽略了传输过程中数据编码器和解码器的时间消耗。这意味着传输成本越低，时间延迟越小。从基础设施传输的数据可以是以下形式之一或组合。PointcloudPointcloudLate FusionPointPillars [15]VIC-Async-140.2134.1729.4015.5046.4138.0534.1019.20341.08Late FusionPointPillars [15]VIC-Async-235.2932.1628.0713.4440.6535.6232.3515.88306.79Early FusionPointPillars [15]VIC-Async-147.4748.8858.8630.8951.6752.7063.0934.721362216.0PointcloudTCLFPointPillars [15]VIC-Async-140.7934.6729.6915.7646.8038.2434.2719.40539.60TCLFPointPillars [15]VIC-Async-236.7233.9129.4114.5241.6736.7833.3617.18506.70213660表3. DAIR-V2X-C上的VIC3D目标检测基准。0模态融合模型数据集AP 3 D（IoU = 0.5）AP BEV（IoU = 0.5）AB0Overall 0-30m 30-50m 50-100m Overall 0-30m 30-50m 50-100m ( 字节 )0图像仅车辆 ImvoxelNet [ 7 ] VIC-Sync 12.03 16.25 7.25 2.28 13.62 17.66 8.58 2.82 0 仅基础设施 ImvoxelNet [ 7 ] VIC-Sync 19.93 27.34 17.61 14.43 25.31 32.0223.28 20.38 102.32 晚期融合 ImvoxelNet [ 7 ] VIC-Sync 26.56 34.20 17.20 9.81 31.40 37.75 21.21 12.99 102.320仅车辆 PointPillars [ 15 ] VIC-Sync 31.33 27.48 25.58 12.63 35.06 30.55 28.65 14.16 0 仅基础设施 PointPillars [ 15 ] VIC-Sync 17.62 16.54 10.98 9.1724.40 21.47 16.00 13.07 336.16 晚期融合 PointPillars [ 15 ] VIC-Sync 41.90 37.65 32.72 18.84 47.96 42.40 37.65 22.08 336.16 早期融合 PointPillars [ 15 ]VIC-Sync 50.03 53.07 60.38 33.05 53.73 55.80 64.08 36.17 1382275.750•图像或点云等原始数据包含完整的信息，但传输成本较高。0•中间表示需要较低的传输成本，同时保留有价值的信息，这可能实现更好的性能-传输折衷。当然，这需要更复杂的设计来提取合适的中间表示。0•直接提供3D物体信息的对象级输出。虽然传输效率高，但可能丢失有价值的信息。0• 其他辅助信息，如场景流，有助于缓解时间异步问题。05. 基准0在本节中，我们提供了DAIR-V2X数据集上的VIC3D目标检测基准和单视图（SV）3D目标检测基准，分析了它们的特点，并提出了未来研究的方向。05.1. VIC3D目标检测基准0我们在从DAIR-V2X-C提取的VIC-Sync数据集上提供了VIC3D目标检测基准，该数据集在第3.2节中有所介绍。该数据集由9311对基础设施帧和车辆帧以及它们的合作注释作为基准的真值组成。此外，我们考虑了基础设施帧和车辆帧之间的时间不同步问题，这主要是由采样率和传输延迟的差异引起的。为了模拟时间不同步现象，我们将VIC-Sync数据集中的每个基础设施帧替换为原始基础设施帧之前的第k帧基础设施帧，以构建VIC-Async-k基准数据集。在我们的实验中，我们设置k =1，2。我们将VIC-Sync和VIC-Async-k数据集按5:2:3的比例划分为训练/验证/测试部分。我们使用合作注释来评估车辆自我中心视图下的检测结果。实验结果见表3。05.1.1 基准0在这里，我们提供了几种不同模态和融合方法的VIC3D目标检测基准。0基于后期融合的LiDAR检测基准。为了展示利用基础设施数据和车辆数据提高性能，我们实现了一个后期融合框架，其中包括基础设施检测器和车辆检测器。首先，我们选择PointPillars[15]作为3D检测器，并分别使用VIC-Sync中的基础设施视图数据和车辆视图数据训练两个检测器。然后，我们将基础设施预测结果转换为车辆LiDAR坐标系，并使用基于欧氏距离测量和匈牙利方法[14]的匹配器将预测结果合并生成融合结果。为了说明时间不同步问题，我们还在VIC-Async-k数据集上实现了基于LiDAR检测的后期融合基准。此外，基于跟踪和状态估计，我们提出了时间补偿融合（TCLF）框架。TCLF主要由以下三个部分组成：1）估计相邻基础设施帧上物体的速度。2）估计t_v时刻的基础设施物体状态。3）按照LiDAR后期融合基准的方式融合估计的基础设施预测和车辆预测。TCLF框架的详细信息可参见图3。请注意，我们还报告了仅使用基础设施数据和仅使用车辆数据的评估结果，分别命名为Veh.-Only和Inf.-Only。评估结果见表3。0基于图像的后期融合的检测基准。为了检测仅使用图像的VIC3D目标，我们还实现了仅使用基础设施图像和车辆图像的后期融合框架。我们选择ImvoxelNet[7]作为3D检测器，并分别使用VIC-Sync训练数据的相应部分训练基础设施检测器和车辆检测器。我们按照LiDAR检测后期融合的方式实现了图像检测后期融合。213670图3.时间补偿融合（TCLF）框架。∆t表示基础设施传感器的采样间隔。我们预测并匹配两个基础设施帧之间的车辆框。对于匹配的车辆，我们直接计算它们的速度。对于未匹配的车辆，我们将当前场景的位置和运动信息输入到多层感知器（MLP）中预测它们的速度。最后，我们可以通过线性插值来近似得到t_v时刻的车辆位置，并融合车辆帧的结果。0早期融合的LiDAR检测基准。为了探索原始数据级别的融合效果，我们使用PointPillars[15]作为3D检测器在VIC-Sync数据集上实现了早期融合。我们首先将VIC-Sync数据集中的基础设施点云转换为车辆LiDAR坐标系，然后融合基础设施点云和车辆点云。我们直接使用融合后的点云进行训练和评估检测器。为了说明时间异步问题，我们还在VIC-Async-k数据集上实现了使用PointPillars [15]的早期融合。0图4.车辆框架（橙色）和基础设施框架（蓝色）的预测结果。我们观察到基础设施数据（粗蓝色框）补充了盲区并扩展了车辆的感知领域。0图5.带有时间补偿和不带时间补偿的预测结果。TCLF的结果（蓝色）与地面真值（黑色）的重叠比没有时间补偿的结果（橙色）更大。05.1.2 分析0在第5.1.1节中，我们分析了VIC3D目标检测基准的方法属性。0合作视图 vs.单视图。我们比较了使用基础设施数据和车辆数据的方法的性能。在表3中，晚期融合的检测性能要比仅使用车辆数据或仅使用基础设施数据的性能好得多，无论是基于图像还是基于LiDAR，无论是基于VIC-Sync数据集还是VIC-Async-k数据集。例如，在VIC-Sync数据集上，晚期融合的LiDAR检测在3D检测上总体达到41.90AP点，在BEV检测上总体达到47.96AP点。然而，仅使用车辆数据的LiDAR检测仅在3D检测上总体达到31.33% AP，在BEV检测上总体达到35.06%AP，而仅使用基础设施数据的LiDAR检测仅在3D检测上总体达到17.62% AP，在BEV检测上总体达到24.40%AP。实验结果表明，融合基础设施信息可以有效提高车辆的感知性能。这主要是因为基础设施数据提供了补充信息，弥补了车辆的感知领域。图4展示了一个可视化示例。0时间异步 vs时间补偿。时间异步给融合基础设施数据带来了挑战。与VIC-Sync数据集上的结果相比，基于融合的LiDAR检测在VIC-Async-k上的性能显著下降（VIC-Async-1下降2个点，VIC-Async-2下降6个点）。这主要是由于移动物体的状态变化导致匹配困难和融合错误。然而，我们的TCLF可以有效地提高晚期融合的性能，VIC-Async-1上提高了0.5%AP，VIC-Async-2上提高了1.5%AP，这表明时间补偿可以有效缓解时间异步问题。213680表4. DAIR-V2X-V上的SV3D检测基准0模态模型车辆3D（IoU=0.5）行人3D（IoU=0.25）骑车者3D（IoU=0.25）0简单中等困难简单中等困难简单中等困难0图像 ImvoxelNet [7] 38.37 24.28 21.54 4.54 4.54 4.54 10.38 9.09 9.09 点云 PointPillars [15] 61.76 49.02 43.45 33.4024.68 22.39 38.24 33.80 32.35 点云 SECOND [27] 69.44 59.63 57.63 43.45 39.06 38.78 44.21 39.49 37.74 图像+点云MVXNet [21] 69.86 60.74 59.31 47.73 43.37 42.49 45.68 41.84 40.550表5. DAIR-V2X-I上的SV3D检测基准0模态模型车辆3D（IoU=0.5）行人3D（IoU=0.25）骑车者3D（IoU=0.25）0简单中等困难简单中等困难简单中等困难0图像 ImvoxelNet [7] 44.78 37.58 37.55 6.81 6.746 6.73 21.06 13.57 13.17 点云 PointPillars [15] 63.07 54.00 54.01 38.5337.20 37.28 38.46 22.60 22.49 点云 SECOND [27] 71.47 53.99 54.00 55.16 52.49 52.52 54.68 31.05 31.19 图像+点云MVXNet [21] 71.04 53.71 53.76 55.83 54.45 54.40 54.05 30.79 31.060特别是当时间延迟较大时。图5提供了一个可视化示例。0早期融合与晚期融合。与晚期融合相比，早期融合在BEV和3D基准下的AP高出8％，无论是基于VIC-Sync数据集还是VIC-Async-1数据集。然而，早期融合需要传输整个点云，并且传输成本极高，约为晚期融合的4000倍。对于更实际的应用，我们鼓励未来的研究在消耗更少的传输带宽的同时实现更好的性能。我们还将在未来发布基准的特征融合。05.2. SV3D检测基准0我们为那些对基于DAIR-V2X-V和DAIR-V2X-I数据集的单视图（SV）3D检测任务感兴趣的人提供了一个广泛的3D检测基准。与DAIR-V2X-C中的单侧数据相比，这两个数据集更加多样化，对于实现3D目标检测可能更具挑战性。因此，我们鼓励那些只关注改进车辆3D目标检测或基础设施3D目标检测性能的研究人员在DAIR-V2X-V和DAIR-V2X-I上进行研究。我们将DAIR-V2X-V和DAIR-V2X-I数据集分为5:2:3的训练/验证/测试部分。我们分别在这两个数据集上使用基于不同模态的方法提供了一些基线：ImvoxelNet[7]，PointPillars [15]，SECOND [27]和MVXNet[21]。我们使用PASCAL标准（如KITTI[10]）评估3D目标检测性能，即根据图像平面上的边界框高度过滤掉远处的对象。评估使用了Easy、Moderate和Hard三种模式。我们使用MMDetection3D Framework[1]实现了这些基线。评估结果为0如表4和表5所示。06. 结论0在本文中，我们介绍了DAIR-V2X，这是第一个大规模、多模态、多视角的车辆基础设施协同自动驾驶数据集，所有帧都是从具有3D注释的真实场景中捕获的。我们还定义了VIC3D目标检测，以协同定位和识别来自车

下载后可阅读完整内容，剩余1页未读，立即下载