ONCE-3DLanes：真实世界中的3D车道检测数据集

40 浏览量更新于2023-10-25 收藏 12.75MB PDF 举报

数据集

自动驾驶

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

171430ONCE-3DLanes：构建单目3D车道检测0Fan Yan 1* Ming Nie 1 � Xinyue Cai 2 Jianhua Han 2 Hang Xu 2 Zhen Yang 20Chaoqiang Ye 2 Yanwei Fu 1 Michael Bi Mi 2 Li Zhang 1†01复旦大学数据科学学院 2华为诺亚方舟实验室0https://once-3dlanes.github.io0摘要0我们提出了ONCE-3DLanes，这是一个在3D空间中带有车道布局注释的真实世界自动驾驶数据集。由于道路不平坦，从单目图像进行传统的2D车道检测在自动驾驶中的规划和控制任务中表现不佳。因此，预测3D车道布局是必要的，可以实现有效和安全的驾驶。然而，现有的3D车道检测数据集要么未发布，要么是从模拟环境中合成的，严重阻碍了该领域的发展。在本文中，我们采取措施解决这些问题。通过利用点云和图像像素之间的显式关系，设计了一个数据集注释流程，可以从211K个道路场景中的2D车道注释自动生成高质量的3D车道位置。此外，我们提出了一种无外部参数、无锚点的方法，称为SALAD，可以在图像视图中回归车道的3D坐标，而无需将特征图转换为鸟瞰图。为了促进未来对3D车道检测的研究，我们对数据集进行了基准测试，并提供了一种新颖的评估指标，对现有方法和我们提出的方法进行了广泛的实验。我们的工作旨在在真实世界的场景中重新激发对3D车道检测的兴趣。我们相信我们的工作可以在学术界和工业界带来预期和意想不到的创新。01. 引言0车道结构的感知是自动驾驶系统中最基本和最关键的任务之一。它的目的是预防事故、减少排放和提高交通效率[4]。它在许多应用中起着关键作用，如车道保持、高清地图建模、轨迹规划等。0* 前两位作者对本文贡献相同。† Li Zhang(lizhangfd@fudan.edu.cn)是复旦大学数据科学学院和上海智能信息处理重点实验室的通讯作者。0图1.ONCE-3DLanes数据集的图像和3D车道示例。ONCE-3DLanes涵盖了各种位置、照明条件、天气条件和许多坡度场景。0例如车道保持、高清地图建模、轨迹规划等。鉴于其重要性，近年来对单目3D车道检测的兴趣急剧增加[6, 7, 10, 15,32]。然而，现有的3D车道检测数据集要么未发布，要么是在模拟环境中合成的，这是由于数据获取的困难和注释的高劳动成本。只有合成数据，模型在真实场景中的泛化能力不可避免地缺乏。尽管从域自适应方法的发展中受益[8]，但它仍然无法完全消除领域差异。大多数现有的基于图像的车道检测方法都专注于将车道检测问题形式化为2D任务[29, 34,35]，其中典型的流程是首先基于语义分割或坐标回归在图像平面上检测车道，然后通过假设地面是平坦的将检测到的车道投影到顶视图[28,33]。通过校准良好的相机外参，逆透视映射(IPM)能够获得对于平坦地面上3D车道的可接受近似。然而，在真实世界的驾驶环境中，道路并不总是平坦的[7]，而且由于速度变化或颠簸的道路，相机外参对车辆运动非常敏感，这将171440会导致对3D道路结构的错误感知，从而可能导致自动驾驶车辆发生意外行为。为了克服与平地假设相关的上述缺点，3D-LaneNet[7]直接以端到端的方式预测3D车道坐标，其中相机外参以监督方式预测，以便从图像视图投影到俯视图。此外，提出了一种基于锚点的车道预测头，用于从虚拟俯视图生成最终的3D车道坐标。尽管这种方法展示了这一任务的可行性，但虚拟IPM投影很难在没有难以获得的外参的情况下学习，并且该模型在假设相机对地平面的滚动角度为零的情况下进行训练。一旦假设受到挑战或者对外参参数的需求无法满足，这种方法几乎无法工作。在这项工作中，我们采取措施解决上述问题。我们首次提出了一个真实世界的3D车道检测数据集ONCE-3DLanes，包含211K张带有标记的3D车道点的图像。与先前的3D车道数据集相比，我们的数据集是迄今为止发布的最大的真实世界车道检测数据集，包含更复杂的道路场景，各种天气条件，不同的光照条件以及各种地理位置。设计了一个自动数据注释流水线，以最小化手动标注的工作量。与使用多传感器和昂贵的高清地图的方法[7]相比，我们的方法更简单，更容易实现。此外，我们引入了一种空间感知的车道检测方法，称为SALAD，以无外参和端到端的方式。给定单目输入图像，SALAD直接预测2D车道分割结果和空间上下文信息，以重构3D车道，而无需明确或隐式的IPM投影。本文的贡献总结如下：（i）我们首次提出了一个最大的3D车道检测数据集ONCE-3DLanes，以及一个更通用的评估指标，以在真实世界场景中重新激发对这一任务的兴趣；（ii）我们提出了一种方法SALAD，可以直接从单目图像中产生3D车道布局，而无需明确或隐式的IPM投影。02.相关工作02.1. 2D车道检测0有各种方法[1, 14, 22, 29, 31,35]被提出来解决2D车道检测问题。基于分割的方法[18, 24,28,29]预测像素级分割标签，然后将属于同一标签的像素聚类在一起以预测车道实例。基于提议的方法[34,35]首先从消失点[33]或图像边缘[21]生成车道提议。0然后通过回归车道偏移来优化车道形状。还有一些其他方法[12, 28, 33,37]试图将图像投影到俯视图，并利用车道几乎平行且可以通过俯视图中的低阶多项式拟合的特性来拟合车道。然而，大多数方法在图像视图中受限，缺乏图像到世界的步骤，或者受到不可行的平地假设的影响。因此，将车道检测形式化为2D任务可能会在自动驾驶车辆在遇到多山或坡道时导致不适当的行为。02.2. 3D车道检测0基于LiDAR的车道检测。已经提出了几种使用LiDAR检测3D车道的方法[16, 17,36]，[11]利用不同材料的强度值不同的特点，通过一定的强度阈值过滤出车道的点云，然后对它们进行聚类以获取3D车道。然而，由于不同国家或地区使用的材料不同，强度值在不同的天气条件下（如雨天或雪天）变化很大，因此很难确定具体的强度阈值。0多传感器车道检测。其他方法[2,39]尝试从相机和LiDAR传感器中聚合信息来解决车道检测任务。具体而言，[26]通过LiDAR点预测地面高度，将图像投影到密集地面上。它将图像信息与LiDAR信息相结合，产生车道边界检测结果。然而，在真实场景中很难保证图像和点云成对出现，例如，CULane数据集只包含图像。0单目车道检测。最近有一些方法[6, 7, 10, 15,32]尝试通过直接从单目图像中预测来解决这个问题。开创性的工作3D LaneNet[7]通过监督方式预测相机外参，学习逆透视映射（IPM）投影，通过将图像视图特征与顶视图特征相结合。Gen-LaneNet[10]在虚拟顶视图中提出了一种新的几何引导车道锚点。通过解耦图像分割和3D车道预测的学习，它实现了更高的性能，并且对未观察到的场景更具普适性。3D-LaneNet+[32]提出了一种无锚点的半局部表示方法来表示车道。虽然能够检测更多的车道拓扑结构显示了无锚点方法的优势。然而，所有上述方法都需要以监督方式学习投影矩阵，将图像视图特征与顶视图特征对齐，这可能导致高度信息的丢失。而我们提出的方法直接在图像视图中回归3D坐标，而不考虑相机外参。Table 1. Comparison of different 3D lane detection datasets. ”-”means not mentioned. Ours is the ﬁrst published real-world datasetcovering different weather conditions and geographical locations.10.1715.2520.3425.4230.5035.5940.676.0913.1819.2725.360.006.1212.2418.3624.4831.6037.720.003.126.248.3611.4814.60171450数据集图像真实发布天气变化地理位置0synthetic-3D-lanes 306K 否是否 -0Apollo-Sim-3D 10.5K 否是否高速公路，城市住宅区0Real-3D-lanes 85K 是否 - 高速公路，乡村0Ours 211K 是是是高速公路，桥梁，隧道，郊区，市中心02.3. 车道数据集0现有的3D车道检测数据集要么未发布，要么是在模拟环境中合成的。Gen-Lanenet[10]使用Unity游戏引擎构建3D世界，并发布了一个合成的3D车道数据集Apollo-Sim-3D，包含10.5K张图像。3D-LaneNet[7]采用图形引擎使用高斯混合分布对地形进行建模。在顶视图中，通过一个4阶多项式来放置车道，生成合成的3D车道数据集synthetic-3D-lanes，包含306K张分辨率为360×480的图像。还使用多个传感器包括相机、LiDAR扫描仪和IMU以及昂贵的高清地图创建了一个包含85K张图像的真实3D车道数据集Real-3D-lanes[7]。在本文中，我们发布了第一个真实世界的3D车道数据集ONCE-3DLanes，包含211K张图像，涵盖了各种天气条件、不同的光照条件以及各种地理位置的丰富场景。表1展示了3D车道检测数据集的综合比较。03. ONCE-3DLanes03.1. 数据集介绍0原始数据。我们基于最新的大规模自动驾驶数据集ONCE（一百万场景）[25]构建了我们的ONCE-3DLanes数据集，考虑到其优越的数据质量和多样性。ONCE包含1百万个场景和7百万个相应的图像，3D场景记录了144个驾驶小时，涵盖了不同的时间段，包括早晨、中午、下午和夜晚，各种天气条件，包括晴天、多云和雨天，以及各种地区，包括市中心、郊区、高速公路、桥梁和隧道。由于相机数据以每秒两帧的速度捕获，并且大多数相邻帧非常相似，我们每五帧取一帧来构建我们的数据集，以减少数据冗余。此外，我们还去除了畸变，以提高图像质量并改善从LiDAR到相机的投影精度。0(b) 车道点的高度统计 (a) 斜率统计0(c) 车道数量 (d) 时间段统计 0.000百分比（%）百分比（%）0图2.斜坡场景统计概览如(a)所示。车道点的高度分布如(b)所示。每个图像平均车道数量的直方图和时间段统计如(c)和(d)所示。0因此，通过将ONCE降采样五倍，我们的数据集包含了由前置摄像头拍摄的211k张图像。车道表示。3D空间中的车道L k 由一系列点 � ( x k i , y k i , z k i ) � n i =1表示，这些点在以米为单位的3D相机坐标系中记录。相机坐标系位于相机的光学中心，X轴正向为右，Y轴向下，Z轴向前。数据集分析。从前视图到俯视图的投影误差主要发生在斜坡地面的情况下，因此我们重点分析ONCE-3DLanes上的斜坡统计信息。每个场景中车道的平均斜率被用来表示该场景的斜率。计算特定车道在前进方向上的斜率（被认为是最重要的）如下：0斜率 = ( y 2 − y 1 ) / ( z 2 − z 1 ) (1)0其中 ( x 1 , y 1 , z 1 ) 和 ( x 2 , y 2 , z 2 )分别是车道的起点和终点。斜坡条件的分布和每个图像中车道数量的直方图如图2所示。它显示了我们的数据集充满了复杂性，并包含了足够多的具有不同照明条件的各种斜坡场景。数据集划分。按照ONCE数据集的方式，我们的基准测试包含相同的3K个验证场景和8K个测试场景。为了充分利用原始数据，训练数据集不仅包含原始的5K个场景，还包含未标注的200K个场景。03.2. 标注流程0车道是一系列位于地面上的点，很难在点云中识别。因此，高质量的171460点云投影0人工标注/自动标注0地面分割0点云恢复0LiDAR路径相机路径0自适应车道混合0图3.数据集标注流程：以配对的图像和LiDAR点云为输入，首先标注并扩展图像上的2D车道以获取车道区域；然后通过地面分割过滤出点云中的地面点；接下来将过滤后的地面点投影到图像上，并收集包含在车道区域内的点；最后对这些点进行聚类，得到真实的车道点。0获取3D车道标注是昂贵的，而在2D图像中标注车道要便宜得多。我们彻底研究了配对的LiDAR点云和图像像素，并用它们构建了我们的3D车道数据集。数据集构建流程概述如图3所示。该流程包括五个步骤：地面分割、点云投影、人工标注/自动标注、自适应车道混合和点云恢复。下面详细描述了这些步骤。地面分割。车道是绘制在地面上的，这是定位3D空间中精确坐标的强先验。为了充分利用人类先验并避免车道和其他物体之间的点云混叠反射，使用地面分割算法首先获取地面LiDAR点云。地面分割采用粗到细的方式进行。在粗略方式中，由于地面反射的LiDAR点的高度总是在一定间隔内，根据整个数据集中LiDAR点的高度统计信息，采用预定义的阈值粗略地过滤出那些位于地面上的点，如图2(b)所示。在细致方式中，随机采样车辆前方的几个点作为种子，然后应用经典的区域生长方法来获取细致的分割结果。点云投影。在这一步中，之前提取的地面LiDAR点云通过校准的LiDAR到相机外参和相机内参，基于经典的齐次变换，投影到图像平面上，揭示了3D地面LiDAR点和图像中2D地面像素之间的明确对应关系。0人工标注/自动标注。为了在图像中获得2D车道标签并减轻标注者的负担，首先使用在百万级场景中训练的稳健的2D车道检测器自动预注释伪车道标签。同时，需要专业的标注者验证和修正伪标签，以确保注释的准确性和质量。自适应车道融合。在获得准确的2D车道标签和地面点之后，为了判断地面点是否属于车道标记，我们使用适当的自适应宽度扩展2D车道标签以获取车道区域。由于透视原理，车道根据与相机的距离以不同的宽度扩展。在点云投影过程中，我们将包含在车道区域内的地面点视为车道点云。点云恢复。最后，我们将这些车道点云选出来。对于特定的车道，将同一束中的车道点云进行聚类，以获取代表该车道的车道中心点。为了确保注释的准确性，在数据收集阶段不进行中心点之间的插值。而在训练阶段，我们使用三次样条插值生成密集的监督标签。我们还将我们的注释与手动标注结果在一小部分数据上进行了比较，结果显示了我们注释的高质量。插值代码将与我们的数据集一起公开。04. SALAD0在本节中，我们介绍了SALAD，一种空间感知的单目车道检测方法，可以直接在单目图像上进行3D车道检测。与以前的3D车道检测算法[7, 10,32]相比，这些算法将图像投影到俯视图，并采用一组预定义的锚点回归3D坐标，我们的方法不需要人工设计锚点和外部参数的监督。受SMOKE[23]的启发，SALAD由两个分支组成：语义感知分支和空间上下文分支。我们模型的整体结构如图4所示。此外，我们还采用了修订的联合3D车道增强策略来提高泛化能力。我们的网络架构和增强方法的详细信息将在下面的部分中讨论。04.1. 主干网络0我们选择Segformer[38]作为我们的主干网络，以提取全局上下文特征并学习车道的细长结构。具体而言，给定图像I ∈ RH × W × 3，分层变换器主干将图像I编码为输入分辨率的{1/4, 1/8, 1/16,1/32}处的多级特征。然后，所有多级特征通过MLP解码器和卷积特征融合层进行上采样，得到H04并通过MLP解码器和卷积特征融合层进行聚合z = αr + βrδz.(3)171470空间上下文分支0语义感知分支空间重建0主干网络0相机内参矩阵0分割掩码0空间信息0上采样0矩阵乘法0图4.SALAD的架构。主干网络将输入图像编码为深度特征，语义感知分支和空间上下文分支解码特征以获取车道的空间信息和分割掩码。然后通过整合这些信息进行3D重建，最终在真实场景中获得3D车道位置。04 ×C。具体而言，我们采用Segformer-B2作为特征提取器。04.2. 语义感知分支0传统的3D车道检测方法[7, 10,32]直接将特征图从前视图投影到俯视图，这种方法对预测的性能不合理且有害，因为特征图可能不按照透视原理进行组织。为了直接回归3D车道坐标，我们首先设计了一个语义感知分支，充分利用2D语义信息，提供2D车道点建议来聚合3D信息。从图像中提取车道标记的2D特征是一个相对简单的任务，因为图像中包含丰富的语义信息。此外，当前在语义分割任务上的成熟经验也可以用来增强我们的语义感知分支。我们遵循[28]的方法，将2D车道坐标�(u_k_i,v_k_i)�n_i=1编码为地面真值分割图S_gt∈RH×W×1。在训练时，利用图像I∈RH×W×3和地面真值S_gt∈RH×W×1对语义感知分支进行训练。在推理过程中，给定图像I∈RH×W×3，我们能够在二进制掩码S∈RH×W×1上定位前景车道点。根据[5]，从2D图像到3D空间的逆投影是一个欠定问题。基于由语义感知分支生成的分割图，还需要每个像素的空间信息将该分割图从2D图像平面转移到3D空间中。04.3. 空间上下文分支0为了从语义感知分支生成的2D车道点中恢复3D车道，我们提出了空间上下文分支来预测重要的3D偏移量。总之，我们的0空间上下文分支预测了一个回归结果 O = [ δ u , δ v , δ z ]T ∈ R 3 × H × W 。δ u 和 δ v表示在分割分支中预测的车道点的像素位置偏移 ( u s , v s )，并生成准确的2D车道位置。δ z表示深度的像素级预测。由于下采样和缺乏全局信息，预测的车道点的位置不够准确。我们的空间上下文分支接受特征F 并输出一个像素级的偏移图，预测图像平面上车道点沿着u 和 v 轴的空间位置偏移 δ u 和 δ v。通过像素位置偏移 δu 和 δ v的预测，车道点位置的粗略估计通过全局空间上下文进行修正：0uv0δ = u s + δ u v s+ δ v0. (2)0为了恢复3D车道信息，空间上下文分支还生成了一个密集的深度图，用于对车道标记的每个像素的深度偏移 δ z进行回归。考虑到图像平面上的地面深度沿着行递增，我们为深度图的每一行分配了预定义的偏移量 α r 和缩放因子 βr，并以残差的方式进行回归。标准深度值 z 的恢复如下：0通过将3D车道点 ( x k i , y k i , z k i )投影到图像平面上以获取像素坐标 ( u k i , v k i , z k i )，从而生成地面真实深度图。然后，在每个像素点 ( u k i , vk i ) 处，将其对应的深度值分配给 z k i。根据 [ 20]，我们对稀疏深度图进行深度补全，得到密集的深度图 Dgt，为我们的空间上下文分支提供充分的训练信号。z⎡uv1⎤= K3×3⎡xyz⎤=⎛fxscx0fycy001⎞ ⎡xyz⎤,(4)fxfy1714804.4. 空间重建0我们模型的空间上下文分支预测的空间信息在3D车道重建中起到了虚拟的作用。为了将2D车道坐标映射回相机坐标系中的3D空间位置，深度信息是不可或缺的元素。具体而言，给定相机的内参矩阵 K 3 × 3 ，相机坐标系中的3D点 ( x, y, z) 可以投影到2D图像像素 ( u, v ) 上，如下所示：0其中 f x 和 f y 表示相机的焦距，( c x , c y ) 是主点，s是轴的倾斜。因此，给定图像中的2D车道点，其像素坐标为( u, v ) ，以及其深度信息d，注意深度表示到相机平面的距离，因此深度 d与相机坐标系中的 z 相同。因此，相机坐标系中的3D车道点( x, y, z ) 可以恢复如下：� � � � � �0利用相机内参的固定参数，我们可以将2D车道提案点投影回3D位置，重建我们的3D车道。04.5. 损失函数0给定一张图像及其对应的地面真实3D车道，预测车道与地面真实车道之间的损失函数定义为：0L = Lseg + λLreg. (6)0Lseg是用于二进制分割分支的损失函数，采用像素级的交叉熵损失函数在分割图上进行计算。对于分割图中的特定像素，yi是标签，pi是前景像素的概率：0Lseg = -10i =1 [ yi log(pi) + (1 - yi) log(1 - pi)]. (7)0Lreg是用于空间上下文分支的损失函数，预测空间偏移O =[δu, δv,δz]T。我们选择平滑L1损失函数来回归这些空间上下文信息O：0Lreg = 10i =1 [smooth L1(ˆOi - Oi)]. (8)0λ表示回归损失的惩罚项，在我们的实验中设置为1。04.6. 数据增强0随机水平翻转和图像缩放是改善2D车道检测模型泛化能力的常见数据增强方法。然而，值得注意的是，图像平移和缩放增强方法会导致3D信息与数据增强不一致[23]。我们通过提出联合缩放策略来修正这一问题，增强步骤如下：给定高度H和宽度W的图像，图像中心为(cu, cv) = (W02)。在固定的相机内参矩阵下，主点中心为(cx,cy)，如前所述。为了保证3D点在缩放时与像素对齐，证明了缩放中心(sx, sy)为：sx = cx + s∙(cu - cx)，0sy = cy + s∙(cv - cy). (9)0为了确保我们可以从缩放后的图像中恢复出原始图像的相同大小，我们首先裁剪图像的顶部，大小为c。然后，我们根据缩放中心按比例s缩放裁剪后的图像。特定像素在缩放前后的3D信息关系为：(x, y, z)经过缩放后变为(ˆx, ˆy, ˆz)。0(ˆx, ˆy, ˆz) = (x, y, z∙s). (10)0以小于1的缩放因子s为例。如果图像按照因子s进行缩放，在相机坐标系中，就好像相机在Z方向上向前移动。对于特定的点，x和y保持不变，而z变小，新的z等于z∙s。05. 实验0在本节中，我们的实验如下所示。首先，我们介绍了我们的实验设置，包括评估指标和实现细节。然后，我们在我们的ONCE-3DLanes数据集上评估了我们的基线方法，并研究了不同超参数设置的评估性能。接下来，我们将我们提出的方法与之前的最先进方法进行比较，以证明我们提出的方法的优越性。最后，我们进行了几个消融研究，以展示我们网络中各个模块的重要性。05.1. 评估指标0评估指标设置为衡量预测车道和地面真实车道之间的相似性。先前的评估指标[10]通过将预定义的y位置设置为回归车道点的x和z坐标来衡量，但不够复杂。由于固定锚点设计，当车道是水平的时，这个指标的性能表现很差。为了解决这个问题，我们提出了一个两阶段的评估指标，将3D车道评估问题视为与顶视图相结合的点云匹配问题。j��τCD(m) F1(%) Precision(%) Recall(%) CD error(m)0.1548.3558.5241.190.0620.3064.0775.9055.420.0980.5068.9281.6559.620.118171490约束。直观上，当两个3D车道对在z-x平面（顶视图）上差异很小且高度分布接近时，它们匹配良好。在顶视图中进行匹配可以约束预测车道的正确前进方向，而在3D空间中的接近点云距离可以确保预测车道的空间高度的准确性。我们提出的指标首先计算两个车道在z-x平面上的匹配程度。具体而言，车道表示为Lk = {(xki, yki,zki)}ni=1。为了判断预测车道Lp是否与地面真实车道Lg匹配，首先在z-x平面上进行匹配，即顶视图，我们使用传统的IoU方法[29]来判断Lp是否与Lg匹配。如果IoU大于IoU阈值，进一步使用单向Chamfer距离（CD）来计算相机坐标系中曲线匹配误差。Lp和Lg之间的曲线匹配误差CDp,g计算如下：� � � � �0其中 P p j = ( x p j , y p j , z p j ) 和 P g i = ( x g i , y gi , z g i ) 是 L p 和 L g 的点， ˆ P p j 是到特定点 P g i最近的点。 m表示与地面真值车道等距离处的点的数量。如果单侧chamfer距离小于chamfer距离阈值，记为 τ CD 。我们认为 L p与 L g 匹配，并接受 L p作为真正的正样本。计算chamfer距离误差的图例如图 5所示。0图 5. 单侧chamfer距离给定地面真值车道上的一个点，找到预测车道上最近的点来计算chamfer距离。0这个评估指标直观严格，更重要的是，它适用于更多的车道拓扑结构，如垂直车道，因此更具有普适性。最后，由于我们知道如何判断预测的车道是否为真正的正样本，我们使用精确度、召回率和F分数作为评估指标。05.2. 实现细节0我们的实验是在我们提出的 ONCE-3DLanes基准上进行的。我们使用Segformer [ 38]作为我们的主干网络，具有两个分支。Segformer编码器使用Imagenet [ 19 ]进行预训练。输入分辨率设置为320 ×800，并在训练期间使用我们的数据增强策略。测试期间关闭数据增强。采用Adamw优化器进行20个epoch的训练，使用0图 6.特定阈值下的定性结果和失败案例分析。地面真值车道以红色着色，我们预测的真正正样本以蓝色表示，假正样本以青色表示。 τCD 为0.5对于区分来说有些宽松。0初始学习率为3e-3，并默认使用多项式调度器。对于评估，我们将IoU阈值设置为0.3，chamfer距离阈值 τ CD设置为0.3m。我们还使用Mindspore [ 27]测试了我们的模型。05.3. 基准性能05.3.1 主要结果0我们使用200k张图像的整个训练集训练我们的模型，并在ONCE-3DLanes数据集的测试集上报告检测性能。为了验证我们评估指标中超参数设置的合理性，我们在不同的ChamferDistance阈值 τ CD 下评估我们的模型，并在表 2中报告测试结果。0表 2. SALAD 在不同 τ CD 阈值下在我们的测试集上的性能。0我们报告了在不同的 τ CD设置下的性能，以便全面研究收紧或放松标准对模型性能的影响。图 6 中还提出了采用不同 τ CD的标准的说明。可以看到，在阈值为0.5的情况下，一些预测的车道与地面真值相对较远，被判断为真正的正样本。而在τ CD 为0.15的情况下，标准似乎过于严格。 τ CD为0.3更合理，我们的 SALAD 在此阈值下达到了 64.07%的 F1分数。此外，由于距离是基于真实场景计算的，因此对真实世界的数据集具有很高的适应性。在剩余部分中，实验结果报告在阈值为0.3的情况下。05.3.2 3D车道检测方法的结果0为了进一步验证我们数据集的真实性和我们的方法的优越性，即无外部干扰，我们3D LaneNet [7]44.7361.4635.160.127GenLaneNet [10]45.5963.9535.420.121SALAD64.0775.9055.420.098PointLaneNet (R101) [3] 54.9964.5047.930.115UltraFast (R101) [30]54.1863.6847.140.128RESA (R101) [40]55.5365.0848.430.112LaneAF (DLA34) [1]56.3966.0749.180.109LaneATT (R122) [35]56.5766.7549.070.101SALAD64.0775.9055.420.098171500方法无外部干扰 F1(%) 精确度(%) 召回率(%) CD误差(m)0表3. ONCE-3DLanes上的3D车道检测性能。0我们还对我们的数据集上的其他3D车道检测算法进行了一些实验。值得注意的是，所有现有的3D车道检测算法都需要提供相机姿态作为监督信息，并且对相机相对于地面平面的零度滚动有严格的假设[ 7]。然而，我们的方法不需要外部参数信息。为了进行比较，我们使用ONCE [ 25]提供的相机姿态参数为对应的方法提供监督信号，并最终在我们的测试集上对它们进行评估。3D车道检测算法的性能如表3所示。比较结果显示我们的方法在ONCE-3DLanes数据集上优于其他3D车道检测方法。比较结果表明，在实际的3D场景中，基于外部参数的方法在假设固定相机姿态和零度相机滚动的情况下可能会受到影响。05.3.3 扩展的2D车道检测方法的结果0ONCE-3DLanes数据集是一个新发布的3D车道检测数据集，之前没有任何工作解决无外部参数的3D车道检测问题。为了验证我们的数据集的有效性和我们的方法的效率，我们扩展了现有的2D车道检测模型，并在我们的数据集上评估了它们的性能。与3D车道检测方法不同，2D车道检测算法只能检测到图像平面上车道的像素坐标，而不能恢复车道的空间信息。为了获得3D车道检测结果，我们使用预训练的深度估计模型MonoDepth2 [ 9]（微调到我们数据集的深度尺度）来估计图像的像素级深度。值得一提的是，深度模型在完整的ONCE数据集上进行了微调，以避免由车道点提供的稀疏监督引起的欠拟合，这也表明这个流程难以在其他3D车道基准上进行扩展。结合扩展的2D车道检测模型的检测结果，重建3D车道的空间位置，并使用我们的评估指标进行性能评估。结果显示在表4中。实验结果表明，扩展的2D模型在我们的ONCE-3DLanes数据集上执行3D车道检测任务是有效的。还可以发现，我们提出的方法可以达到64.07%的F1分数，优于其他方法中最好的56.57%的方法，提高了7.5%，显示了我们方法的优越性。0方法 F1(%) 精确率(%) 召回率(%) CD误差(m)0表4. 扩展的2D车道检测方法在ONCE-3DLanes测试集上的性能。05.4. 割除研究0为了验证修订后的数据增强方法的有效性，我们通过逐步关闭数据增强策略进行了割除实验。如表5所示，随着我们数据增强策略的逐步引入，我们方法的性能不断提高。翻转方法使我们的模型改进了1.06%，3D尺度进一步提供了1.83%的改进，证明了我们增强策略的有效性。0方法 F1(%) 精确率(%) 召回率(%) CD误差(m)0SALAD (无增强) 61.18 72.43 52.95 0.1030+ 翻转 62.24 +1.06 73.67 +1.24 53.88 +0.93 0.102 -0.0010+ joint scale 64.07 +2.89 75.90 +3.47 55.42 +2.47 0.098 -0.0050表5. 数据增强策略的消融研究.06. 结论和局限性.0在本文中,我们提出了一个最大的真实世界三维车道检测基准ONCE-3DLanes. 为了恢复对三维车道检测的兴趣,我们使用一种新颖的评估指标对数据集进行了基准测试,并提出了一种无外部参考和无锚点的方法, 名为SALAD,可以直接从单张图像中端到端地预测三维车道.我们相信我们的工作可以在学术界和工业界中引发预期和意想不到的创新.由于我们的数据集构建需要激光雷达提供三维信息,遮挡会导致短暂的中断, 我们使用插值来修复它.由于激光雷达的低分辨率, 距离上的缺失点问题仍然存在.未来的工作将集中在地面点云的补全,以生成完整的三维车道信息.0致谢本工作得到了中国国家自然科学基金（编号：6210020439）、临港实验室（编号：LG-QS-202202-07）、上海市自然科学基金（编号：22ZR1407500）、上海市科技重大项目（编号：2018SHZDZX01和2021SHZDZX0103）、科技创新2030 -脑科学与脑启发智能项目（编号：2021ZD0200204）、MindSpore和CAAI-Huawei MindSpore开放基金的部分支持.171510参考文献0[1] Hala Abualsaud, Sean Liu, David Lu, Kenny Situ, AkshayRangesh, and Mohan M Trivedi. Laneaf:带有关联场的稳健多车道检测. arXiv预印本, 2021年. 2, 80[2] Luca Caltagirone, Mauro Bellone, Lennart Svensson, andMattias Wahde.利用全卷积神经网络进行激光雷达-摄像头融合的道路检测.《机器人与自主系统》, 2019年. 20[3] Zhenpeng Chen, Qianfei Liu, and Chenfan Lian. Point-lanenet:高效的端到端卷积神经网络用于准确的实时车道检测. 在IV会议上,2019年. 80[4] Travis J. Crayton and Benjamin Mason Meier.自动驾驶汽车: 发展公共卫生研究议程以构建未来交通政策.《交通健康杂志》, 2017年. 10[5] Paul E Debevec, Camillo J Taylor, and Jitendra Malik.从照片中建模和渲染建筑物: 一种混合几何和基于图像的方法.在SIGGRAPH会议上, 1996年. 50[6] Netalee Efrat, Max Bluvstein, Noa Garnett, Dan Levi, ShaulOron, and Bat El Shlomo. 半局部三维车道检测和不确定性估计.arXiv预印本, 2020年. 1, 20[7] N. Garnett, R Cohen, T. Pe’Er, R Lahav, and L. Dan.3d-lanenet: 端到端的三维多车道检测. 在ICCV会议上, 2019年. 1,2, 3, 4, 5, 80[8] Noa Garnett, Roy Uziel, Netalee Efrat, and Dan Levi.用于车道检测的合成到真实领域适应. 在ACCV会议上, 2020年. 10[9] Cl´ement Godard, Oisin Mac Aodha, Michael Firman, andGabriel J Brostow. 深入研究自监督单目深度估计. 在ICCV会议上,2019年. 80[10] Y. Guo, G. Chen, P. Zhao, W. Zhang, J. Miao, J. Wang, andT. E. Choe. Gen-LaneNet: 一种通用且可扩展的三维车道检测方法.2020年. 1, 2, 3, 4, 5, 6, 80[11] Alberto Hata and Denis Wolf.利用激光雷达反射强度数据进行道路标记检测及其在车辆定位中的应用. 2014年. 20[12] Bei He, Rui Ai, Yang Yan, and Xianpeng Lang.基于双视角卷积神经网络的准确稳健车道检测. 在IV会议上, 2016年.20[13] Namdar Homayounfar, Wei-Chiu Ma, Shrinidhi KowshikaLakshmikanth, and Raquel Urtasun.用于结构化在线地图的分层循环注意力网络. 2020年. 10[14] Yuenan Hou, Zheng Ma, Chunxiao Liu和Chen ChangeLoy.通过自我注意力蒸馏学习轻量级车道检测CNN.《ICCV》,2019年.20[15] Yujie Jin, Xiangxuan Ren, Fengxiang Chen和WeidongZhang.具有双注意力的鲁棒单目3D车道检测.《ICIP》,2021年.1,20[16] Jiyoung Jung和Sung-HoBae.基于激光雷达数据的城市道路车道实时检测.《电子学》,2018年.20[17] Soren Kammel和BenjaminPitzer.基于激光雷达的车道标记检测和映射.《IVS》,2008年.20[18] Yeongmin Ko, Younkwan Lee, Shoaib Azam, Farzeen Munir, MoonguJeon和WitoldPedrycz.关键点估计和点实例分割方法用于车道检

下载后可阅读完整内容，剩余1页未读，立即下载