基于关键点的全局关联网络用于车道检测

143 浏览量更新于2023-10-25 收藏 15.86MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13920基于关键点的车道检测的全局关联网络0Jinsheng Wang 1,3* Yinchao Ma 2,3* Shaofei Huang 3* Tianrui Hui 4,50Fei Wang 2 Chen Qian 3 Tianzhu Zhang 2†01 北京大学 2 中国科学技术大学 3 商汤研究 4 中国科学院信息工程研究所 5中国科学院大学网络空间安全学院0摘要0车道检测是一项具有挑战性的任务，需要预测车道线的复杂拓扑形状并同时区分不同类型的车道。早期的工作采用自上而下的方法将预定义的锚点回归到各种车道线的形状，由于锚点形状固定，缺乏足够的灵活性来适应复杂的车道形状。最近，一些工作提出将车道检测问题形式化为关键点估计问题，以更灵活地描述车道线的形状，并逐点逐点地逐渐将属于同一车道线的相邻关键点分组，但这在后处理过程中效率低下且耗时。在本文中，我们提出了一种全局关联网络（GANet）来从新的角度来制定车道检测问题，其中每个关键点直接回归到车道线的起始点，而不是逐点扩展。具体而言，关键点与其所属车道线的关联是通过预测它们与车道的起始点之间的偏移量来进行的，而不依赖于彼此，可以并行进行以大大提高效率。此外，我们进一步提出了一种车道感知特征聚合器（LFA），它自适应地捕捉相邻关键点之间的局部相关性，以补充全局关联的局部信息。在两个常用的车道检测基准测试上进行的大量实验表明，我们的方法在CULane数据集上的F1得分为79.63％，在Tusimple数据集上为97.71％，具有高帧率，优于先前的方法。01. 引言0自动驾驶[10]引起了学术界和工业界研究人员的极大关注。为了确保驾驶过程中车辆的安全性，自动驾驶系统需要保持车辆行驶的安全。0* 同等贡献 †通讯作者（tzzhang@ustc.edu.cn）0(a)0(b)0(c)0(d)0图1. (a) 基于锚点的方法，将预定义的锚点回归到车道的形状。 (b)基于关键点的方法，预测关键点与其邻域之间的偏移量，逐个分组。 (c)我们的GANet示意图，直接将每个关键点回归到其所属车道的起始点，通过预测每个关键点与其对应车道线的起始点之间的偏移量。(d)我们的LFA模块示意图，将每个关键点与其相邻点相关联以补充局部信息。0自动驾驶系统需要使汽车沿着道路上的车道线行驶，需要准确感知车道线。因此，车道检测在自动驾驶系统中起着重要作用，尤其是在高级驾驶辅助系统（ADAS）中。给定车辆上安装的摄像头拍摄的前视图像，车道检测旨在产生道路上每条车道线的准确形状。由于车道线的细长形状和实例级别的区分需求，适当地制定车道检测任务至关重要。受基于锚点的目标检测方法的启发[22]，一些工作[10，25]采用了如图1a所示的自上而下的设计。与目标检测类似，一组具有不同方向的直线被定义为锚点。通过预测锚点和车道线之间的偏移量，将锚点上的点回归到车道线上。13930然后，应用非极大值抑制（NMS）来选择具有最高置信度的车道线。虽然这种方法在车道区分上很高效，但由于预定义的锚点形状，它是不灵活的。强大的形状先验限制了描述各种车道形状的能力，导致这些方法的性能次优。为了灵活地描述车道线的复杂形状，Qu等人提出将车道检测形式化为关键点估计和关联问题，采用自下而上的设计，如图1b所示。具体而言，车道用一组均匀采样的有序关键点表示，这些关键点以稀疏方式进行采样。通过估计它们之间的空间偏移量，每个关键点与其邻居关联。这样，属于同一车道的关键点被迭代地整合成连续的曲线。虽然基于关键点的方法对车道线的形状更加灵活，但每一步只关联一个关键点到其所属的车道线是低效且耗时的。此外，关键点的逐点扩展容易导致由于缺乏全局视图而引起的误差累积。一旦一个特定的关键点错误关联，其余部分车道线的估计将失败。为了克服上述限制，我们从新的基于关键点的视角来形式化车道检测问题，其中每个关键点直接回归到其所属的车道，基于此提出了一种名为Global Association Network(GANet)的新型流程。如图1c所示，每条车道线用其起始点唯一表示，这易于无歧义地确定。为了正确关联一个关键点，我们估计从关键点到其对应起始点的偏移量。其近似起始点落入相同邻域区域的关键点将被分配给同一车道线实例，从而将关键点分成不同的组。与之前的基于关键点的方法不同，我们将关键点分配给其所属车道的方式是相互独立的，使得并行实现成为可能，从而极大地提高了后处理的效率。此外，关键点的关联对于累积的单点误差更加鲁棒，因为每个关键点都拥有全局视图。尽管属于同一车道线的关键点在后处理过程中被整合，但为了获得连续的曲线，确保相邻点之间的相关性是很重要的。为此，我们开发了一个名为Lane-aware Feature Aggregator(LFA)的本地信息聚合模块，以增强相邻关键点之间的相关性。为了适应车道的细长形状，我们通过预测与相邻点之间的偏移量来修改标准2D可变形卷积[3]的采样位置，以在车道上的每个位置进行局部区域采样。通过这种方式，每个关键点的特征被聚合起来。0与其他相邻点一起，从而获得更具代表性的特征。我们进一步添加了一个辅助损失，以便于估计在每个关键点上预测的偏移量。我们的LFA模块补充了全局关联过程，实现了本地和全局视图的结合，这对于像车道检测这样的密集标注任务至关重要。我们的贡献总结如下：0• 我们提出了一种新颖的Global Association Network(GANet)来从新的基于关键点的视角来形式化车道检测，直接将每个关键点回归到其所属的车道。据我们所知，我们是第一个以全局方式回归关键点的方法，这比局部回归更高效。0• 我们开发了一个名为Lane-aware Feature Aggregator(LFA)的本地信息聚合模块，以增强相邻关键点之间的相关性，补充本地信息。0•我们提出的GANet在两个流行的车道检测基准上实现了最先进的性能，速度更快，展现出卓越的性能效率平衡和巨大的潜力。02. 相关工作02.1. 车道检测方法0车道检测旨在获取车道线的准确形状以及区分它们。根据车道建模的方式，当前基于深度学习的方法可以大致分为几个类别。我们将在本节中分别详细介绍这些方法。基于分割的方法。基于分割的方法将车道线检测建模为像素级别的分类问题，每个像素被分类为车道区域或背景[6, 8, 16,18]。为了区分不同的车道线，SCNN[18]将不同的车道线视为不同的类别，从而将车道检测转化为多类别分割任务。还提出了一种逐层卷积神经网络结构，以实现行和列之间的信息传递。为了满足实际中的实时要求，ENet-SAD[6]应用了一种自我注意力蒸馏机制进行上下文聚合，以便使用轻量级骨干网络。LaneNet[16]采用了一种不同的车道表示方式，将车道检测视为实例分割问题。它包括一个二进制分割分支和一个嵌入分支，将分割结果分解为车道实例。与LaneNet不同，我们的方法使用偏移量而不是嵌入特征来聚类每条车道线，这更高效和节省时间。li = {p1i , p2i , ..., pKi }Ni=1,(1)where pji = (xji, yji ) denotes the coordinate of the j-thkeypoint on the i-th lane. To estimate all the keypoints,we develop a keypoint head to produce a confidence mapˆY ∈ RHr × Wr , where r is the output stride. The confidencemap represents the probability of each location being a key-point on the lane. As shown in Figure 2(a), the brighterlocation indicates a higher probability.During the training phase, we sample K keypoints oneach lane line as ground truth keypoints and then splatthem all onto a confidence map YRHr × Wr using a non-13940基于检测的方法。这种方法通常采用自上而下的方式预测车道线。其中，基于锚点的方法[10, 25,28]设计类似线条的锚点，并回归采样点与预定义锚点之间的偏移量。然后应用非极大值抑制（NMS）选择具有最高置信度的车道线。LineCNN[10]使用从图像边界发射的具有特定方向的直线作为一组锚点。Curve-NAS[28]将锚点定义为垂直线，并进一步采用神经架构搜索（NAS）寻找更好的骨干网络。LaneATT[25]提出了一种基于锚点的池化方法和注意力机制，以聚合更多的全局信息。另一种方法[14,20]将车道检测建模为逐行分类问题。对于每一行，模型预测可能包含车道线的位置。基于关键点的方法。受人体姿态估计的启发，一些工作将车道检测视为关键点估计和关联问题。PINet[9]使用堆叠的沙漏网络[17]预测关键点位置和特征嵌入。不同的车道实例基于特征嵌入之间的相似性进行聚类。FOLOLane[21]产生与输入具有相同分辨率的像素级热图以获取车道上的点。还开发了一种局部几何构建方法来关联属于同一车道实例的关键点。我们的GANet采用了一种更高效的后处理方法，不需要特征嵌入或局部关联来聚类或重构整个车道。每个关键点通过将其坐标与车道线起始点的偏移量相加以并行方式找到其对应的车道。02.2. 可变形建模0传统的卷积神经网络由于卷积操作的固定网格采样范围，固有地限制了对不规则结构的建模能力。为了克服这个限制，Dai等人提出了可变形卷积来自适应地聚合局部区域的信息。与标准卷积相比，通过额外的卷积获得的2D偏移量在采样过程中添加到每个空间位置，以实现采样网格的自由形变。通过学习到的偏移量，卷积的感受野和采样位置根据对象的随机尺度和形状进行自适应调整。可变形建模的精神已经应用于许多任务，如目标检测[30,34]，目标跟踪[33]和视频理解[2, 29, 31]。RepPoints[30]将对象建模为一组点，并使用可变形卷积预测这些点相对于对象中心的偏移量。这种可变形对象表示为目标检测提供了准确的几何定位以及自适应的语义特征提取。Ying等人提出了可变形3D卷积来探索时空信息。0并实现视频超分辨率的自适应运动理解。与这些方法不同，我们的LFA模块适应了车道线的长结构，并将特征聚合的范围限制在每条车道上相邻点上，使用车道感知的可变形卷积。03. 方法0我们提出的全局关联网络（GANet）的整体架构如图2所示。给定一个前视图图像作为输入，我们采用CNN主干和FPN[12]颈部来提取输入图像的多层次视觉表示。为了更好地进行特征学习，在主干和颈部之间进一步插入了一个自注意力层[27]，以获取丰富的上下文信息。在解码器中，我们利用关键点头和偏移头来生成置信度图和偏移图。两个头都由全卷积层组成。我们还在关键点头之前设计了一个车道感知特征聚合器模块，以增强相邻关键点之间的局部相关性，从而有助于生成连续的车道线。对于每个车道实例，我们首先通过选择偏移图上值小于 1的点来获取其起始点作为聚类中心。然后，利用置信度图和偏移图将属于同一车道的关键点聚类在采样的起始点周围，以构建完整的车道线。03.1. 全局关键点关联03.1.1 关键点估计0给定输入图像 I ∈ R H × W × 3，我们的GANet的目标是预测一组车道线 L = { l 1 , l 2 , ...,l N } ，其中 N 是车道的总数，每条车道线用 K个采样的关键点表示为：02 σ 2 ) ，其中 ˜ x 和 ˜ y 表示每个关键点的坐标，标准差 σ取决于输入的尺度。如果两个高斯图之间有重叠，我们取它们之间的元素最大值。LFA+(a)(b)Lquant =1H′ × W ′�yx��ˆδyx − δyx��,(3)(∆xji, ∆yji ) = (sxi, syi) − (xji, yji ),(4)(a)(b)(c)y Loffset =1H′ × W ′�yx�ˆOyx − Oyx�,(5)13950输入图像0车道线构建0偏移图：H'× W'× 20置信度图：H'× W'0主干 FPN SA0关键点头0偏移头0SA 自注意力层卷积层0图2.GANet的整体架构。给定一个前视图图像作为输入，我们使用CNN主干后跟一个自注意力层（SA）和FPN颈部来提取多尺度视觉特征。在解码器中，我们使用关键点头和偏移头分别生成置信度图和偏移图，然后将它们组合起来将关键点聚类成几个组，每个组表示一个车道线实例。我们的LFA模块应用在关键点头之前，以更好地捕捉车道线上的局部上下文，用于关键点估计。0我们采用减少惩罚的focal loss [13]来处理关键点区域和非关键点区域之间的不平衡，具体如下：0L 点 = -10H'× W'0� (1 - ˆ Y yx ) α log ( ˆ Y yx )) Y yx = 1 (1 - Y yx ) β ˆ Y αyx log (1 - ˆ Y yx )) 否则，0(2) 其中 α 和 β 是focal loss的超参数，H'×W' 表示 H0r . 下标 yx 表示获取坐标 ( x, y ) 处的值。由于输出步长 r，输入点 ( x j i , y j i )0将图像映射到位置 ( � x j i r � , � y j i r � )，这可能会导致性能下降。为了解决这种量化误差，我们额外预测一个补偿图 ˆ δ yx ，并仅对关键点位置应用 L1损失：0其中 δ yx = ( x j i r − � x j i r � , y j i r − � y j i r � )表示量化补偿图的地面真值。为了简化，此部分未在图2中显示。03.1.2 起始点回归0为了区分不同的车道线，我们提出使用起始点唯一地表示每个车道实例，因为起始点具有稳定性和彼此之间的最大间隔。我们不直接回归起始点的绝对坐标 ( sx i , sy i )，而是回归从每个关键点到起始点的偏移量，可以定义为：0因此，我们可以生成形状为 H 的地面真值偏移图 O yx0r × C . 其中下标0图3. 车道线构建示意图。 (a) 从置信度图中选择有效的关键点。以 (x, y ) 为例。 (b) 先采样起始点 ( sx, sy )(蓝点)。其余关键点通过预测的偏移量 ( δx, δy )指向起始点，并估计起始点的坐标为 ( sx ′ , sy ′ ) = ( x, y ) + ( δx,δy ) (空心点)。 (c) 指向起始点 ( sx, sy )附近的关键点被分组为一个完整的车道线。0yx 代表位置 ( x j i , y j i ) 上的值，该值等于 (∆ x j i , ∆ y j i) ，而其他位置的值为零。 C = 2 包含 x 方向和 y方向的偏移量。为了估计偏移图 ˆ O yx，我们引入一个偏移头，如图2所示。同样，使用 L1损失来约束偏移图，如下所示：0监督仅适用于关键点位置，其余位置被忽略。03.1.3 车道线构建0车道线构建的流程如图3所示，包括获取所有可能车道线的位置l = {(sx, sy), (x2, y2), (x3, y3), ..., (xK, yK)},(6)(sx′, sy′) = (x, y) + (δx, δy),(7)ˆF(pi) =where wm, m = 1, ..., M is the weight of the convolutionand (·) means multiplication.To enhance the ability of LFA for learning the localshapes of lane lines, we further introduce an auxiliary lossto supervise the offsets ∆Pi. We denote the ground truth ofoffsets between the i-th keypoint and the keypoints on thecorresponding lane line as ∆Gi = {∆gki |k = 1, ..., K},which is calculated with ∆gki = gki − pi, where gki is theground-truth coordinate of the k-th keypoint on the samelane line with the i-th keypoint.As is shown in Figure 5, a matching need to be estab-lished between ∆pi and ∆gi. We search for an assignmentσ with the lowest matching cost:M13960车道点，然后将它们分组为不同的车道实例。我们首先在关键点置信度图 ˆ Y 上应用一个 1 × 3的最大池化层，以选择水平局部区域内的最大响应点作为有效关键点，如图3(a)所示。然后，我们将它们分组，将每个车道描述为关键点的有序列表，如下所示：0其中 ( sx, sy ) 表示车道的起始点，( x j , y j ) ，j ∈ [2 , K]是后续关键点。为了获取每条车道的起始点，我们选择偏移图上值小于 1的关键点作为候选起始点。由于在同一局部区域内可能有多个满足上述条件的关键点，选择该区域的几何中心点以确保唯一性。通过这种方式，所有车道的实例都可以通过其起始点初步确定。然后，根据关键点与对应起始点之间的估计偏移量，将其余关键点与所属车道关联起来，如图3(b)所示。每个关键点估计车道线起始点的坐标如下：0其中 ( x, y ) 是观测关键点的坐标，( δx, δy ) = O yx表示在第3.1.2节中获得的相应偏移量。仅当 ( sx ′ , sy ′ ) 与( sx, sy ) 之间的距离小于预定义的阈值 θ dis 时，关键点 (x, y ) 才与第 i 条车道关联。如图3(c)所示，指向同一起始点附近的关键点被分组为一个完整的车道。上述过程通过矩阵运算完成，以确保并行关键点的关联。03.2. 车道感知特征聚合器0传统的2D卷积在固定的网格区域内采样特征，不适合处理车道线的细长形状。受Dai等人的启发[3]，我们提出了一个车道感知特征聚合器（LFA）模块，以自适应地从车道上相邻点收集信息，从而增强每个关键点的局部特征表示。我们的LFA模块的示意图如图4所示。以一个特定的关键点为例，我们首先使用卷积层来预测它与同一车道上其周围M个关键点之间的偏移量，计算公式如下：0∆ P i = ϕ ( F ( p i ))，（8）0其中pi表示第i个关键点的坐标，F(pi)表示第i个关键点的特征表示，∆Pi = {∆pmi | m = 1, ..., M} ∈R2M表示预测的偏移量。然后，将相邻点的特征与可变形卷积结合起来，聚合第i个关键点的上下文信息，计算公式如下：0局部偏移图0偏移量0图4.LFA模块的示意图。红点表示观察到的关键点。我们首先预测红点与其相邻关键点（蓝色）之间的偏移量，然后收集这些关键点的特征以增强红点的上下文信息。0M ×0m = 1 w m ∙ F ( p i + ∆ p m i)，（9）0ˆ σ = arg min σ0m L match (∆ p m i , ∆ g i σ ( m ))，（10）0其中Lmatch = L2(∆pmi, ∆giσ(m))。根据之前的工作[1,23]，采用匈牙利算法高效计算最优分配。然后，应用SmoothL1损失来监督相邻关键点的预测：0L aux = 10KN×0m = 1 SmoothL1(∆pmi,0（11）其中K表示每条车道线上的关键点数，N表示车道线的数量，M表示采样的相邻关键点数。总损失函数是不同损失函数的组合。13970图5.预测点与其真值之间的匹配关系示意图。红点是观察到的关键点。蓝点是相邻关键点的预测位置。绿点是车道线上相邻关键点的真实位置。0具有相应系数的损失函数：0Ltotal = λpointLpoint + λquantLquant +λoffsetLoffset + λauxLaux。（12）04. 实验0在本节中，我们首先介绍了我们方法的实验设置。下一小节讨论了每个数据集的结果。最后一小节介绍了每个模块的消融实验。04.1. 实验设置04.1.1 数据集和评估指标0我们在两个流行的车道检测基准数据集上进行实验，包括CULane [18]和TuSimple[26]。CULane：CULane数据集包含88,880个训练图像和34,680个测试图像，包括城市和高速公路场景。测试图像被分类为9个不同的场景。F1度量是唯一的评估指标，基于IoU计算。如果预测的车道的IoU大于0.5，则判断为真正阳性（TP），否则为假正性（FP）或假阴性（FN）。F1度量定义为精确率和召回率的调和平均值。TuSimple：TuSimple是一个真实的高速公路数据集，包括3,626个训练图像和2,782个测试图像。TuSimple数据集的主要评估指标是准确性，计算公式如下：0准确率 =0剪辑 C剪0剪辑 S 剪辑0其中Cclip是模型正确预测的点的数量，Sclip是剪辑（或图像）中的总点数。只有当预测点与真实点之间的距离在20像素以内时，才认为预测点是正确的。准确率大于85%的预测车道被认为是真正的阳性。我们还报告了以下实验中的F1分数。0模型版本背骨 FPN层数输出缩放0GANet-S resnet-18 3 8 GANet-M resnet-34 3 8GANet-L resnet-101 4 40表1. GANet不同版本的详细信息。04.1.2 实现细节0我们选择ResNet-18、ResNet-34和ResNet-101[5]作为GANet的背骨，形成GANet的三个不同版本，分别称为GANet-S、GANet-M和GANet-L。每个版本的详细信息如表1所示。我们在训练和测试阶段将输入图像的大小调整为800×320。LFA中采样点的数量设置为M=9。损失权重设置为λpoint=1.0，λquant=1.0，λoffset=0.5，λaux=1.0。方程2中的超参数α和β分别设置为2和4。优化方面，我们使用Adam优化器和多项式学习率衰减，初始学习率为0.001。我们分别对Tusimple和CULane进行了300和40个epoch的训练，每个GPU的批量大小为32。训练阶段应用了数据增强，包括随机缩放、裁剪、水平翻转、随机旋转和颜色抖动。在测试阶段，我们将关键点的阈值设置为0.4，关键点关联的θdis设置为4。训练和测试都在Tesla-V100GPU上进行。04.2. 定量结果04.2.1 CULane上的结果0CULane测试集上的结果如表2所示。我们的GANet-L在CULane数据集上取得了最先进的结果，F1分数为79.63%，FPS为63，超过了类似大小的模型（如LaneATT-ResNet122）在性能和速度上的巨大优势。与另一种基于关键点的方法FOLOLane-ERF[21]相比，我们的GANet-S在性能上达到了可比较的78.79%的F1分数，但运行速度快了3.8倍，显示出性能和效率之间的卓越平衡，并展示了我们全局关联形式的速度优势。此外，我们的方法在六种场景中实现了最高的F1分数，特别是在曲线场景中。我们的GANet-L在这个场景中达到了77.37%，超过了之前的最先进方法ERF-E2E[32]超过5%，表明了我们的方法在描述复杂车道线形状方面的优越性。04.2.2 TuSimple上的结果0TuSimple测试集上的比较结果如表4所示。我们的GANet-S优于所有其他方法，并以高FPS实现了97.71%的最高F1分数。值得注意的是，GANet-S超过了UFast-ResNet34和13980方法总体正常拥挤炫目阴影无线箭头曲线十字夜间 FPS0基于分割的SCNN [18] 71.60 90.60 69.70 58.50 66.90 43.40 84.10 64.40 1990 66.10 7.5 ENet-SAD [7] 70.80 90.10 68.80 60.2065.90 41.60 84.00 65.70 1998 66.00 750基于检测的FastDraw [19] - 85.90 63.60 57.00 69.90 40.60 79.40 65.20 7013 57.80 90.3 UFAST-ResNet18 [20] 68.40 87.70 66.0058.40 62.80 40.20 81.00 57.90 1743 62.10 322.5 UFAST-ResNet34 [20] 72.30 90.07 70.20 59.50 69.30 44.40 85.70 69.50 203766.70 175 ERF-E2E [32] 74.00 91.00 73.10 64.50 74.10 46.60 85.80 71.90 2022 67.90 - CurveLanes-NAS-L [28] 74.80 90.7072.30 67.70 70.10 49.40 85.80 68.40 1746 68.90 - LaneATT-ResNet18 [25] 75.13 91.17 72.71 65.82 68.03 49.13 87.82 63.751020 68.58 250 LaneATT-ResNet34 [25] 76.68 92.14 75.03 66.47 78.15 49.39 88.38 67.72 1330 70.72 171 LaneATT-ResNet122[25] 77.02 91.74 76.16 69.47 76.31 50.46 86.29 64.05 1264 70.81 260基于关键点的FOLOLane-ERF [21] 78.80 92.70 77.80 75.20 79.30 52.10 89.00 69.40 1569 74.50 400GANet-S 78.79 93.24 77.16 71.24 77.88 53.59 89.62 75.92 1240 72.75 1530GANet-M 79.39 93.73 77.92 71.64 79.49 52.63 90.37 76.32 1368 73.67 1270GANet-L 79.63 93.67 78.66 71.82 78.32 53.38 89.86 77.37 1352 73.85 630表2. 在CULane测试集上与最先进方法的比较。评估指标为F1分数，IoU阈值为0.5。对于跨场景，只显示FP。0图像置信度图无LFA 预测无LFA 置信度图有LFA 预测有LFA 真值0图6.GANet有无LFA的可视化结果。第一列是输入图像。第二列和第三列是没有LFA的预测点置信度图和车道线。第四列和第五列是有LFA的预测点置信度图和车道线。最后一列是真值车道线。0基准 LFA 辅助损失 F10� 77.84 � � 78.30 � � � 78.790表3. LFA模块的消融研究0LaneATT-ResNet34和速度相似且具有较大差距，显示了我们的全局关联公式的巨大潜力。与LaneATT[25]类似，扩大模型的规模不一定带来性能的提升。可能是因为Tusimple数据集的数量少且场景单一。结果已经饱和，更大的模型可能会导致过拟合问题。0容量并不一定带来性能的提升。这可能是因为Tusimple数据集的数量少且场景单一。结果已经饱和，更大的模型可能会导致过拟合问题。04.2.3 消融研究0为了探索我们提出的LFA模块的特性，我们在CULane数据集上进行了消融研究。所有的13990方法 F1 准确率 FP FN FPS0基于分割的SCNN [18] 95.97 96.53 6.17 1.80 7.5 EL-GAN [4]96.26 94.90 4.12 3.36 10 ENet-SAD [7] 95.92 96.64 6.02 2.05 750基于检测的FastDraw [19] 93.92 95.20 7.60 4.50 90.3UFAST-ResNet18 [20] 87.87 95.82 19.05 3.92 312.5UFAST-ResNet34 [20] 88.02 95.86 18.91 3.75 169.5 ERF-E2E [32]96.25 96.02 3.21 4.28 - LineCNN [11] 96.79 96.87 4.42 1.97 30LaneATT-ResNet18 [25] 96.71 95.57 3.56 3.01 250LaneATT-ResNet34 [25] 96.77 95.63 3.53 2.92 171LaneATT-ResNet122 [25] 96.06 96.10 5.64 2.17 260其他方法 PolyLaneNet [24] 90.62 93.36 9.42 9.33 115 LSTR [15]96.86 96.18 2.91 3.38 4200基于关键点的FOLOLane-ERF [21] - 96.92 4.47 2.28 400GANet-S 97.71 95.95 1.97 2.62 1530GANet-M 97.68 95.87 1.99 2.64 1270GANet-L 97.45 96.44 2.63 2.47 630表4. 在TuSimple测试集上与最先进方法的比较。0图7.LFA有无辅助损失的可视化结果。红点是观测点。绿点是预测的聚合点。浅蓝点是车道线上的真值点。0以下实验基于GANet的小版本进行。结果如表3所示。第一行是没有我们的LFA模块的基准方法。第二行是将LFA模块集成到GANet中但没有辅助损失。最后一行是我们整个GANet的结果。从前两行可以观察到，没有辅助损失的LFA模块对车道线检测是有效的，这是由于上下文的灵活集成。从最后两行可以发现，辅助损失对LFA模块至关重要，可以引导LFA模块的关注点。0对车道线的关键信息进行可视化分析，详见第4.3节。04.3. 定性结果0我们在图6中可视化了有无LFA的定性结果。第2列和第4列分别是没有和有LFA的置信度图的可视化。从第一行的结果可以看出，即使有车辆遮挡，LFA模块也能正确预测，因为预测的车道点会相互增强。从第二行和第三行的结果可以得出结论，LFA模块能够抑制由全局注意引入的背景噪声。为了直观地研究LFA模块的特性，我们在图7中可视化了预测的特征聚合点。第一行展示了一个普通的直行车道情况。通过辅助损失的添加，LFA模块可以预测车道线周围的聚合点。与此同时，如果没有辅助损失，预测的聚合点是不规则的。最后两行展示了曲线车道情况下的聚合点。结果表明，LFA模块对车道线的局部结构有很好的理解能力。这个特性有助于增强车道线特征并抑制背景噪声。05. 结论和讨论0在本文中，我们提出了一种全局关联网络（GANet），以新的视角来表述车道检测问题，其中每个关键点直接回归到车道线的起始点，而不是逐点延伸。通过预测关键点到其所属车道起始点的偏移量来进行关键点与其所属车道线的关联，从而大大提高了效果。我们进一步提出了一种车道感知特征聚合器（LFA），以自适应地捕捉相邻关键点之间的局部相关性，以补充局部信息。实验结果表明，我们的GANet在更高的速度下优于先前的方法。局限性。我们的方法的局限性在于，当输出步幅设置为1时，由于偏移量的绝对值较大，到起始点的偏移量可能变得难以回归。将来，我们希望通过多个级别回归偏移量来缓解回归困难。06. 致谢0该研究部分得到中国国家自然科学基金（62022078，62121002），国防基础科学研究计划（JCKY2020903B002）和商汤集团有限公司的支持。[15] Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane shape prediction with transformers. In WACV,2021. 8[16] Davy Neven, Bert De Brabandere, Stamatios Georgoulis,Marc Proesmans, and Luc Van Gool. Towards End-to-EndLane Detection: An Instance Segmentation Approach. IEEEIntelligent Vehicles Symposium, Proceedings, 2018. 2[18] Xingang Pan, Jianping Shi, Ping Luo, Xiaogang Wang, andXiaoou Tang. Spatial as deep: Spatial cnn for traffic sceneunderstanding. In AAAI, 2018. 2, 6, 7, 8[19] Jonah Philion. Fastdraw: Addressing the long tail of lanedetection by adapting a sequential prediction network. InCVPR, 2019. 7, 8[20] Zequn Qin, Huanyu Wang, and Xi Li. Ultra fast structure-aware deep lane detection. In ECCV, 2020. 3, 7, 8[21] Zhan Qu, Huan Jin, Yang Zhou, Zhen Yang, and Wei Zhang.Focus on local: Detecting lane marker from bottom up viakey point. In CVPR, 2021. 2, 3, 6, 7, 8[22] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.Faster r-cnn: Towards real-time object detection with regionproposal networks. Advances in neural information process-ing systems, 2015. 1[23] Russell Stewart, Mykhaylo Andriluka, and Andrew Y Ng.End-to-end people detection in crowded scenes. In CVPR,2016. 5[24] Lucas Tabelini, Rodrigo Berriel, Thiago M Paixao, ClaudineBadue, Alberto F De Souza, and Thiago Oliveira-Santos.Polylanenet: Lane estimation via deep polynomial regres-sion. In ICPR, 2020. 8[25] Lucas Tabelini, Rodrigo Berriel, Thiago M. Paixao, ClaudineBadue, Alberto F. De Souza, and Thiago Oliveira-Santos.Keep your eyes on the l

下载后可阅读完整内容，剩余1页未读，立即下载