车道线检测模型性能研究及其对下游任务的影响

37 浏览量更新于2023-10-25 收藏 1006KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17153≤面向驾驶的车道线检测模型度量研究加州大学欧文分校takamis@uci.eduQi Alfred Chen加州大学欧文分校alfchen@uci.edu摘要在2017年TuSimple车道检测挑战赛之后，SCNN UltraFast PolyLaneNet车道ATT基于准确率和F1分数的数据集和评价已经成为衡量车道线检测方法性能的事实标准。虽然他们玩了一个准确度：100%准确度：100%准确度：84%准确度：100%该评价方法对提高车道线检测方法的性能具有重要作用，但其在下游任务中的有效性尚未得到充分研究。在这项研究中，我们设计了两个新的面向驾驶的车道检测指标：端到端横向偏差指标（E2 E-LD）准确度：79%准确度：27%准确度：76%准确度：63%准确度：45%准确度：51%准确度：34%准确度：31%基于自动驾驶的要求直接制定，车道检测的核心下游任务;每帧模拟横向偏差度量（PSLD）是E2 E-LD的轻量级替代度量。为了评估指标的有效性，我们在TuSimple数据集和我们新构建的数据集Comma 2k 19-LD上对4种主要类型的车道检测方法进行了大规模的实证研究。我们的研究结果表明，传统的度量有很强的负相关性（-0.55），这意味着纯粹针对常规度量的一些最近的改进可能没有导致自主驾驶中的有意义的改进，而是实际上可能通过过度拟合到常规度量而使其变得更糟。由于自动驾驶是一个安全/安全关键系统，鲁棒性的低估阻碍了实用车道检测模型的合理发展我们希望我们的研究将有助于社区实现更多的下游任务感知的车道检测评估。1. 介绍车道线检测是实现自动驾驶的关键技术之一。对于车道检测，相机是最常用的传感器，因为它是一个自然的选择，因为车道线是视觉模式[26]。与大多数其他计算机视觉领域一样，车道检测已经从深度神经网络（DNN）的最新进展中受益在2017年TuSimple车道检测挑战赛[8]中，基于DNN的车道检测显示出了相当好的性能，因为所有前3名团队都选择了基于DNN的车道检测。经过这次比赛，它的数据集和评估图1.TuSimple Chal- lenge数据集上的良性和对抗性攻击场景中的车道检测结果和准确性度量的示例[8]。如图所示，如果用于自主驾驶（核心下游任务），则常规准确度度量不一定指示驾驶性能。例如，SCNN总是比PolyLaneNet具有更高的准确性，但其检测结果使得实现车道居中变得更加困难（详见第4.2节）。基于准确度和F1值的车道线检测方法成为车道线检测评价的事实这些指标由后续数据集继承[13，37]。然而，这种评估方法在实际环境中的有效性，即，这是否代表实际下游应用中的实用性还没有得到充分的研究。具体而言，车道检测的主要现实应用是用于自动驾驶（AD），例如，在线检测自动车道居中（用于较低级别的AD，如Telsa AutoPilot [6]），以及离线检测高清地图创建（用于低级别 [5] 和高级别 AD[50]）。由于车道线检测的应用领域非常广泛，因此其鲁棒性非常关键，因为它的错误可能是致命的。不幸的是，我们发现传统的评估方法（即，准确度和F1分数）在正确反映这种主要下游应用领域中的车道检测模型的性能方面具有局限性，尤其是在更有挑战性的情况下（例如，在对抗性攻击下）。图1显示了一些这样的例子，激发了这项研究。在对抗性攻击设置中，SCNN [37]检测到的车道线在很大程度上被破坏，但通过传统的准确性度量测量的性能是向左进攻向右进攻良性17154≤≤≤≥总是高于PolyLaneNet [48]的一个，它通常与实际车道线对齐（并且当与驾驶模型一起使用时，实际上会导致比SCNN更少的车道中心偏差，如稍后在§4.2中量化的）。在良性设置中，PolyLaneNet具有最低的准确性，并且被低估，尽管它对人类的检测似乎是完美的。由于车道检测主要是使用相对干净和均匀的驾驶员视图图像进行评估的，因此不容易在度量级识别如此大的差异。考虑到鲁棒车道检测对正确和安全的AD的关键性，解决这种度量级别的限制是重要的，因为（1）当今AD的现实世界部署和商业化的基石恰恰是处理那些更具挑战性的驾驶场景[21，30，53];以及（2）随着越来越多地发现AD上下文中对车道检测的物理世界对抗性攻击[31，44]，当判断模型鲁棒性（及其增强）时，期望具有更下游的任务感知性能度量。受这些关键需求的激励，我们设计了两个新的面向驾驶的指标，端到端横向偏差指标（E2 E-LD）和每帧模拟横向偏差指标（PSLD），以测量AD中车道检测模型的性能，特别是自动车道居中（ALC），这是一种2级驾驶自动化，可自动驾驶车辆，使其保持在交通车道的中心[7]。E2 E-LD是直接根据自动驾驶控制对驾驶自动化的要求而设计的。PSLD是E2 E-LD的轻量级替代指标，可从单个帧估计车道检测结果对驾驶的影响。这种逐帧轻量级设计允许度量在上游车道检测模型训练期间可用。为了评估指标的有效性，我们对TuSimple数据集和我们新构建的包含车道线标注和驾驶信息的数据集Comma 2k 19-LD上的4种主要类型的车道检测方法进行了大规模的实证研究。为了模拟图1中的角落情况但物理上可实现的场景，我们利用并扩展了对ALC的物理世界对抗攻击[44]。我们制定了攻击目标函数，以公平地生成对抗攻击的4种主要类型的车道检测方法。通过这项研究，我们发现，在良性情况下，传统度量与E2 E-LD具有强烈的负相关性（r=0.55），这意味着纯粹针对传统度量的一些最近的改进可能没有导致AD的有意义的改进，而是实际上可能通过过度拟合到传统度量而使其变得更糟。在攻击场景中，虽然我们观察到轻微的正相关性（r0.08），但在统计学上并不显著。因此，我们发现，传统的指标往往高估了不太强大的模型。相反，我们新设计的PSLD度量总是强与E2 E-LD呈正相关（r0.38），所有相关性均具有统计学显著性（p0.001）。虽然TuSimple Challenge数据集及其评估指标在开发并行通道检测方法中发挥了重要作用因此，我们希望告知社区传统评估的这种局限性，并促进研究，以进行更多的下游任务感知的车道检测评估，因为上游评估指标和下游应用性能之间的差距可能会阻碍真实世界应用场景的车道检测方法的良好发展概括而言，我们的贡献如下：• 我们设计了两个新的面向驾驶的指标，E2 E-LD和PSLD，可以更有效地衡量车道检测模型的性能时，用于AD，他们的核心下游任务。• 我们设计了一种方法来公平地产生物理世界对抗攻击的4种主要类型的车道检测模型。• 我们构建了一个新的数据集Comma 2k 19-LD，其中包含车道注释和驾驶信息。• 我们首次进行了大规模的实证研究，以衡量4种主要类型的车道检测模型在支持AD方面的能力• 我们强调并讨论了传统评估的关键局限性，并证明了我们新的下游任务感知指标的有效性。代码和数据发布。我们所有的代码和数据集都可以在我们的项目网站上找到。2. 相关工作2.1. 基于DNN的车道检测我们将最先进的基于DNN的车道检测方法分类为4种方法。类似的分类法也被采用在以前的作品[35，47]。细分方法。分割方法将车道线检测作为一个分割任务来处理，该任务对每个像素是否在车道线上进行分类。以来这种方法在2017年TuSimple车道检测挑战赛[8]中实现了最先进的性能（所有前3名获奖者都采用了分割方法[29，36，37]），它已应用于许多最近的车道检测方法[28，54，55]。这种细分方法也在行业中使用逆向工程研究表明，特斯拉Model S采用了这种基于分割的方法[31]。这种方法的主要缺点是其较高的计算和内存成本比其他方法。由于分割方法的性质，它需要预测每个像素的分类结果，大多数1https://sites.google.com/view/cav-sec/ld-metrichttps://github.com/ASGuard-UCI/ld-metric17155≥这只是背景。此外，该方法需要后处理步骤以从逐像素分类结果中提取车道线曲线。行式分类方法。这种方法[27，35，39，52]利用了特定领域的知识，即车道线应定位驾驶车辆的纵向方向，并且不应弯曲到超过与最高精度的地面实况线相关联。在其他数据集[13，37]中，也使用IoU（Intersection over Union）代替精度。然而，地面实况区域仅被定义为基于车道点的30像素宽的线，并且该度量几乎等同于精度。F1分数是衡量二元分类任务性能的常用指标。这是一个调和平均值，在输入图像的每一行中有2个交点基于精确度和召回率：回忆-12+精度−1. 在TuSimple假设该方法将车道检测任务公式化为多行分类任务，即，每行只有一个像素应该具有车道线。虽然它仍然需要输出类似于分割方法的每个像素的分类结果，这种分而治之的策略能够减少模型的大小和计算，同时保持高精度。例如，UltraFast [39]报告说，他们的方法可以在超过300 FPS的速度下工作，在TuSimpleChallenge数据集上的准确率为95.87%[8]。另一方面，SAD [28]是一种分割方法，每秒75帧，准确率为96.64%。这种方法也需要一个后处理步骤来提取类似于分割方法的车道线。曲线拟合方法。曲线拟合方法[38，48]将车道线拟合成参数曲线（例如，多项式和样条）。这种方法是ap-在一个开源的生产驱动程序辅助系统-tem，OpenPilot [4].这种方法的主要优点是轻量级计算，允许OpenPilot在没有GPU的智能手机设备上运行。为了达到高效率，精度一般不像其他方法那样高。此外，先前的工作提到，这种方法偏向于直线，因为训练数据中的大多数车道线是直的[48]。基于锚点的方法。基于锚点的方法[34，40，47]受到基于区域的对象检测器的启发，例如Faster R-CNN[42]。在这种方法中，每条车道线表示为直线建议线（锚点）和从建议线的横向偏移。与行分类方法类似，该方法利用了车道线通常是直的领域特定知识。这种设计能够实现最先进的延迟和性能。LaneATT [47]报告称，在 TuSimple 数据集上，它的 F1 得分（96.77%）高于分割方法（95.97%）[28，37]。2.2. 车道线检测我们在第2.1节中讨论的所有车道检测方法都评估了它们在2017年TuSimple挑战赛中使用的准确性和F1得分指标的性能[8]。精度挑战，在车道线级别计算精度和召回率：精度是检测到的车道线的真阳性比率如果一对地面真值线和检测线的精度为β，则定义为真阳性。在TuSimple挑战中，β设置为0.85。虽然准确度和F1分数可以在一定程度上衡量车道检测的能力，但这些指标并不能完全代表主要现实下游应用AD[5，6，50]的性能，具体如第4.2节所示。具体而言，为了反映其在AD或驾驶性能中使用时的性能，准确度和F1评分指标有2个主要限制：（1）α=20像素和β= 0没有合理性。85个准确度阈值。例如，只要检测到的车道线与实际车道线平行，即使检测误差大于20个像素，ALC系统也可以保持在车道中心此外，检测到的车道线点的重要性不应该相等，即，为了控制车辆，离车辆较近的点应该比距离较远的点更重要（2）当前度量同等对待驾驶员视野中的所有车道线，例如，自我车道的左线的检测误差与左车道的左线的检测误差被相同地处理。然而，前者比后者对ALC系统更重要，因为前者可以直接影响下游车道中心的计算。例如，如果一个模型不能检测到左车道然而，如果它不能检测到后者但可以检测到前者，则准确度度量保持相同，但ALC中的下游模块可能将左车道的左线视为2.3. 自动车道定心自动车道对中（ALC）是一种2级驾驶自动化技术，可自动驾驶车辆，使其保持在车道的中心[7]。最近，ALC被广泛应用于各种车型，如特斯拉[6]，因此是车道检测最流行的下游应用之一。典型的自动高度控制系统[4，10，33]计算方法：其中H是一组采样的y轴i∈H |H|3个模块：车道检测、横向控制和车辆交流点在驾驶员的视图图像和TP i是1，预测车道线点和y=i处的地面实况点的存在在α像素内;否则为0。在TuSimple Challenge中，α设置为20检测到的车道线为-tuation。有关自动收费的详情，请参阅补充资料-材料（附录G）。虽然有一系列研究为ALC或更高级别的驾驶自动化设计端到端DNN [12，14，16]，但当前的行业标准解决方案17156≥|−|⃝⃝⃝检测到车道的行驶X%左线①检测车道②使用地面实况车道左线X1X2x0的LtX$E2E-LDx0的x轴(Lane（中）x- 轴线（车道中心线）t=1 t=2 t=3 t=4(a) E-到-E-和L-侧位距离度量（E2 E-LD）t=1 t=2 t=3 t=4(b) 后帧模拟左偏度量图2.我们面向驾驶的车道检测模型指标概述：E2 E-LD和PSLD。Xt是来自驾驶员视野的摄像机帧（车道检测模型输入）。E2 E-LD需要多个（连续的）相机帧，而PSLD仅使用当前帧X0。采用这种模块化设计，以确保问责性和安全性。在横向控制中，ALC计划使用比例-积分-微分（PID）[20]或模型预测控制（MPC）[43]跟随车道中心作为航路点。对ALC的对抗性攻击。在研究人员发现DNN模型通常容易受到对抗性攻击[24，46]之后，以下工作进一步探索了物理世界中的此类攻击[15，23]。最近的一项研究表明，ALC系统也容易受到物理世界对抗性攻击[44]。他们的攻击被称为Dirty Road Patch（DRP）攻击，目标是基于DNN的行业级ALC系统，并且被设计为对早期帧中攻击引起的车辆位置和航向变化具有鲁棒性。在我们的评估中，我们使用DRP攻击来模拟具有挑战性但可实现的场景。3. 方法在本节中，我们将设计两个新的下游任务感知指标来衡量ALC中车道检测模型的性能。为了评估指标的有效性，即使在具有挑战性的情况下，我们制定了攻击目标函数，以公平地生成对抗4种主要类型的车道检测方法的攻击。3.1. 端到端横向偏差度量正如ALC的名称所表明的那样，ALC的性能应该通过它在车道中心行驶的准确性来评估，即，与车道中心的横向（左或右）偏差特别是，在连续闭环感知和控制中，车道中心的最大横向偏差是车道检测的最终下游任务性能指标。这种偏离直接是安全关键的，因为大的横向偏离可能导致与其他行驶车辆或路边物体的致命我们称之为端到端横向偏差度量（ E2 E-LD），如图所示。第2段（a）分段。如下获得t= 0时的E2 E-LDmax（Lt Ct）（1）t≤TE其中，Lt是车辆在t处的横向（y轴）坐标。Ct是对应于t处车辆位置的车道中心横向（y轴）坐标。我们使用t= 0时的车辆坐标系。TE是超参数来决定持续时间。如果TE=1秒，则E2 E-LD是一秒内的最大偏差。为了获得Lt，需要闭环机制来模拟ALC的驱动，例如AD模拟器[3，22]。从t= 0开始，根据t= 0（X0）时的摄像机帧计算t= 1时的车辆位置和航向：车道检测模型从帧中检测车道线，横向控制通过转向角对其进行解释，车辆致动操作方向盘。重复该过程直到t=Te。因此，多个（连续的）相机帧X0，.，X TE是必需的，并且它们基于较早帧中的车道检测结果而动态地改变。然而，这样的AD模拟对于大规模评估来说在计算上过于昂贵。因此，我们通过遵循先前的工作[44]来模拟车辆轨迹，该工作结合了车辆运动模型[41]和透视变换[25，49]，以根据驾驶轨迹从现有帧动态合成相机帧。3.2. 每帧模拟横向偏差度量E2 E-LD度量被定义为基于下游任务ALC的要求的期望度量。然而，在上游车道检测模型的训练期间，它仍然太计算密集而不能被监测。该开销主要是由于摄像机帧的相互依赖性，即摄像机帧基于较早帧中的车道检测结果而动态地改变。为了解决这一限制，我们设计了逐帧模拟横向偏差度量（PSLD），其仅用当前帧（X0）处的单个相机输入和车道中心的几何形状来模拟E2 E-LDPSLD的概述如图2（b）所示。该计算包括两个阶段：1用t= 0（X0）时的当前摄像机帧及其车道检测结果更新车辆位置;2使用地面实况车道中心作为从t= 1到t=Tp的航路点进行闭环仿真。请注意，我们不需要相机帧，2，因为车辆只是试图跟随具有横向控制的地面实况航路点，即，假设我们知道t1中的地面实况，我们绕过车道检测。然后，我们将与车道中心的最大横向偏差作为E2 E-LD的度量。为了方便起见，我们通过Tp对最大横向偏差进行归一化，以使其成为每帧度量。PSLD的定义如下：L“tPSLD17157˜|−|1˜PΣΣ1···H∈一（aj+δj）·πIJ1max（Lt Ct）（2）Tp≤Tp表1. 目标车道检测方法。 Acc. 是参考文献中TuSimpleChallenge数据集[8]的准确性。方法选择方法Acc.，其中，Lt是模拟的横向（y轴）坐标，汽车在T。例如，对于Tp= 1，其仅是具有当前车道检测结果的单步模拟。较长的Tp可以模拟当前帧在后续帧中的拖尾效应，但可能会产生延迟误差。在§4.3中，我们探索了哪种Tp在PSLD和E2 E-LD之间达到最佳相关性更多细节见补充材料（附录A）。3.3. 攻击生成在这项研究中，我们利用并扩展了物理世界的广告对抗攻击，以评估车道检测系统对具有挑战性但可实现的场景的鲁棒性。为了公平地为所有4种主要类型的车道检测方法生成对抗性攻击我们将其命名为预期道路中心，它平均所有检测到的车道线加权其概率。直觉上，所有车道线的平均值预计将代表道路中心。如果期望中心位于输入图像的中心，则其值在归一化图像宽度中为0.5。我们最大化期望的道路中心，以攻击右侧，最小化它，以攻击左侧。每种方法的预期道路中心的详细计算如下。分段逐行分类方法：LW H分割SCNN [37] 96.53%行分类UltraFast（ResNet18）[39] 95.87%曲线拟合PolyLaneNet（b0）[48] 88.62%基于锚点的LaneATT（ResNet34）[47] 95.63%对多个帧有效。4. 实验我们进行了一项大规模的实证研究，通过将传统指标和我们的PLSD与最终的下游任务绩效指标E2 E-LD进行比较来评估其有效性。我们评估了4种主要类型的车道检测方法。我们为每种方法选择一个代表性模型，如表1所示。所有模型的预训练权重都是从作者的或公开可用的网站2获得的所有预训练的权重都在TuSimple Challenge训练数据集上训练[8]。4.1. TuSimple数据集的常规评估评估设置。我们首先在TuSimple数据集[8]上使用传统的准确度和F1得分指标评估车道检测模型，该数据集有2，782个一秒长的视频片段作为测试数据。每个剪辑由20帧组成我们从测试数据中随机选择30个片段。对于每个片段，我们考虑两种攻击场景：1 ΣΣΣi·Pll=1i =1j=1（三）向左，向右。因此，我们总共评估了60种不同的攻击场景。在每种情况下，我们放置3.6 m x 36 m其中H和W是概率图的高度和宽度，L是概率图（通道）的数量，并且l是像素中的车道线存在概率。如图1所示，距离车辆7 m的贴片。到知道世界坐标，我们根据车道宽度和车道标记的大小手动校准摄像机矩阵为了处理 §2.2 中讨论的限制（2），我们删除（i，j）概率图的元素。曲线拟合方法：L[jd，jd−1，，j，1]plL·|H|l =1 j∈H（四）车道线而不是自我左车道线和自我右车道线，以更正确地评估对ALC系统的适用性。有关每种攻击实施和参数的更多详细信息，请参见补充材料（附录B）。结果表2显示了符合的准确度和F1评分。，其中L是检测到的车道线的数量，d是检测到的车道线的距离。多项式的grees（在PolyLaneNet [48]中使用d= 3是采样的y轴值的集合，并且p/Rd+1是检测到的车道线l的系数。基于锚点的方法：在良性和攻击场景中的 RICS 。在良性病变中，LaneATT 的准确性最高（ 94% ）， F1 评分最高（88%）。SCNN和UltraFast在攻击场景中也表现出较高的准确性和 F1 得分，而 UltraFast 的 F1 得分最低（8%）。PolyLaneNet的准确性较低，1000万美元l∈Aj∈LllF1评分在良性和发作期均高于其他两组（五）iOS.这些结果通常与表1中报告的性能一致。然而，当我们从视觉上看其中，是锚点建议的集合，是锚点建议l的y轴值的索引集合，πl是锚点建议l的概率，并且αl和δl是x轴值，并且进入检测到的车道线受到攻击，我们发现相当多的如果在AD中作为下游任务使用，则会得出截然不同的结论。例如，如图1所示，J J其分别在y轴索引j处锚提案L的偏移我们将这种预期的道路中心函数纳入DRP攻击[44]过程以生成对抗性攻击2LaneATThttps://github.com/lucastabelini/LaneATTSCNNhttps://github.com/harryhan618/SCNNhttps://github.com/cfzd/Ultra-Fast-Lane-DetectionPolyLaneNethttps://github.com/lucastabelini/PolyLaneNetL·HIJ|∆l|17158≈SCNN UltraFast PolyLaneNet LaneATT图3. Comma 2k 19-LD数据集上的良性和向右攻击场景示例。红色、蓝色和绿色线分别是检测到的左线和右线以及地面实况线。表2.TuSimple Challenge数据集上发作和良性病例的准确性和F1评分仅使用自我左通道和右通道计算度量粗体和下划线字母分别表示4种车道检测方法中的最高和最低分数分数越高，表现越好。准确性F1得分良性攻击良性攻击.LaneATT [47]94%51%88% 29%即使SCNN在所有三种情况下都具有最高的准确度相比之下，PolyLaneNet的检测看起来是4个模型中最鲁棒的，因为检测到的车道线通常与实际车道线平行然而，它的准确率（63%）小于SCNN（51%）在正确的情况下的攻击。在良性的情况下，PolyLaneNet的准确度比其他人低（16%的保证金），但很难找到人类有意义的差异，因为检测到的线与实际车道线对齐良好。我们在补充材料（附录G）中提供了更多示例因此，传统的精度和基于F1分数的评估可能不太适合于判断车道检测模型在诸如AD的代表性下游任务中的性能。4.2. Tu Simple与E2 E-LD的一致性为了更系统地评估传统的准确性和F1分数与AD作为下游任务的表现的一致性，我们对我们新构建的数据集进行了大规模的实证研究。新数据集：Comma 2k 19-LD。为了在同一数据集上评估传统指标和下游以任务为中心的指标E2 E-LD和PSLD，我们需要车道线注释和驾驶信息（例如，位置、转向角和速度）。不幸的是，据我们所知，没有现有的数据集可以满足这些要求。因此，我们创建了一个新的数据集，称为Comma 2k 19-LD，其中我们手动注释了2，000帧的左车道线和右车道线（100个20Hz的1秒剪辑所选场景是从原始Comma 2k 19数据集中超过30 mph（48 km/h）的场景中随机选择的[45]。图3示出Comma 2k 19-LD数据集的示例帧。这些帧是场景的第一帧。下面的20帧也被注释，并且相同的补丁用于每个攻击。更多详情见补充材料（附录C）。Comma 2k19-LD数据集发布在我们的网站上[11]。评估设置。我们在Comma 2k 19-LD数据集上进行评估。对于攻击生成，我们在随机选择的50个场景中将-tack向左，在其他50个场景中将- tack向右。对于lat-为了实现ALC控制，我们在OpenPilot v0.6.6中使用MPC [43]的实现，这是一个开源的生产ALC系统。对于纵向控制，我们使用原始驱动轨迹中的速度。对于运动模型，我们采用运动自行车模型[32]，这是车辆最广泛使用的运动模型[2，32，51]。车辆参数来自Toyota RAV4 2017（例如，wheel-base），其用于收集comma 2k 19数据集的轨迹为了使在TuSimple数据集上训练的模型在Comma 2k 19-LD数据集上工作，我们手动调整输入图像大小和视场，使其与TuSimple数据集一致我们在第一帧距离车辆7米处放置一个3.6米x 36米的补丁。对于E2 E-LD度量，我们使用TE= 20帧（1秒）。因此，DRP攻击的平均攻击成功时间接近1秒[44]。更多设置细节请参见补充材料（附录B、D和G）。结果表3显示了常规准确性和F1评分以及E2 E-LD的评价结果。计算了Pearson相关系数r及其p值。如图所示，在下游任务性能（来自重量级E2 E-LD度量）和常规度量之间存在实质上的不一致。在良性病变中，SCNN在原始参数（α = 20，β = 0 . 05）下具有最高的准确率（0. 59）和F1评分（0. 84）。85）。然而，SCNN是具有最低E2 E-LD（0.21）的方法之一，而UltraFast具有最高E2 E-LD（0.18）。在攻击场景中，不一致性更加明显：PolyLaneNet具有最高的E2 E-LD（0.38），但PolyLaneNet在原始参数下实现了第二低的准确性（0.59）和最高的F1得分（0.13）。因此，E2 E-LD得出了完全不同的结论攻击良性[37]第三十七话89%58%百分之七十五百分之二十八超快速[39]87%36%百分之七十七百分之八17159≤≤表3. E2 E-LD和传统指标的评估结果，在良性和攻击场景中的准确性和F1。对于每个指标，对应的Pearson相关系数与底部行中的E2 E-LD。原始参数是TuSimple挑战中使用的参数。最好的参数是那些E2 E-LD与F1评分之间具有最高相关性的参数。粗体和下划线字母分别表示最高和最低性能或相关性。良性攻击原始参数（α = 20，β = 0.（85）最佳参数（α = 5，β = 0.九、原始参数（α = 20，β = 0.（85）最佳参数（α = 50，β =0。65）E2E-LD [m] 精度F1精度F1 E2 E-LD [m] 精度F1精度F1 SCNN [37]0.210.93 0.84 0.590.03 0.480.680.31 0.830.76超快[39]0.180.92 0.81 0.550.100.58 0.60 0.21 0.820.77电话：+86-21-8888888传真：+86-21-88888888粤ICP备05016777号[37]--0.65日元-0.60千克-0.33-0.13ns--0.13ns-0.06毫微秒-0.14ns-0.06毫微秒[39 ]第39话-0.59-0.38-0.24纳秒--0.24纳秒-0.14ns-0.20纳秒-0.13nsPolyLaneNet [48]--0.60纳秒-0.55千克-0.460.10ns--0.27纳秒-0.28纳秒-0.06ns0.01nsLaneATT[47]--0.57纳秒-0.58-0.34-0.14ns-0.08ns-0.09 毫微秒0.11ns0.12nsns不显著（p> 0. 05），则αp ≤ 0. 05，则αp ≤ 0。01，则最大值p ≤0。001从传统的度量。如果我们采用传统的度量标准，SCNN应该是首选的最佳性能模型。这与表1和§4.1中的结果一致，因为SCNN、UltraFast和LaneATT在传统指标中显示出接近的性能（SCNN在Comma 2k 19-LD中可能略有优势另一方面如果1.00.80.60.40.20.0良性我们采用E2 E-LD，PolyLaneNet应该是首选，因为在良性场景中，4种车道检测方法之间只有轻微的差异，而PolyLaneNet在攻击场景中明显优于其他方法。147101316 19Tp[帧]图4. 当Tp在1 ~ 20范围内变化时，E2 E-LD与PSLD在良性和攻击性两种情况下的Pearson相关系数r均为0.红色的垂直线是具有最大平均r的Tp。E2 E-LD和传统度量之间的不一致性可以使用Pearson相关系数r更系统地量化。通常，E2 E-LD和传统指标具有强负相关性（r-0.55），具有高统计学显著性（p0.001），这意味着传统指标的一些近期改善可能不会导致AD的改善0.20.10.0良性14710 13 16 19Tp[帧]攻击4321147 10 13 16 19Tp[帧]而是可能由于过度拟合到度量而使其变得更糟分割方法SCNN是唯一一种不使用领域知识的方法，例如，车道线是平滑线（§2.1）。模型中的这种高自由度可能导致人类注释与噪声的过拟合。最后，我们评估传统度量中的参数：α表示准确性，β表示F1得分。对于α，我们每5个像素探索一次，从5个像素到50个像素。对于β，我们从0.5到0.9每0.05探索一次。在良性场景中，（α= 20，β= 0。E_2E-LD与F_1成绩的相关性最好。在袭击现场-ios，（α = 50，β = 0. E2 E-LD与F1成绩的相关性最好然而，结果仍然与使用原始参数的结果相似：SCNN显示出最高的准确性; UltraFast的F1得分高于其他参数，但相关性仍然为负。因此，这种幼稚的参数调整不能解决传统度量的局限性。4.3. E2 E-LD与PSLD在本节中，我们评估PSLD作为一种E2 E-LD的每帧图5.当Tp在良性和攻击场景中从1到20帧变化时，4个主要通道检测模型的PSLD。评估设置。我们遵循与§ 4.2中相同的设置。我们使用相同的参数在Comma 2k 19-LD数据集中生成了100种场景的DRP攻击。对于PSLD，我们通过以下程序获得地面实况航路点我们生成的轨迹与自行车模型和OpenPilot的MPC通过使用人类驾驶轨迹作为路点。然后，我们使用生成的trajec- tory作为地面实况道路中心。虽然我们可以直接使用人类驾驶轨迹作为地面实况，但人类驾驶有时并不平滑，并且这种方法可以消除与真实车辆动力学不同的运动模型的效果。对于良性情况，我们计算原始人类驾驶中每帧的PSLD。对于攻击场景，我们使用通过3.1中描述的方法合成的帧而不是原始帧，因为被攻击的轨迹及其相机帧与原始人类驾驶有很大不同。例如，为了获得帧 t=N 处的PSLD，我们模拟轨迹直到t=N−1，然后我们计算1.0攻击0.80.60.40.20.0 147101316 19Tp[帧]车道ATTPolyLaneNetSCNN超快Avg .LaneATTPolyLaneNSCNN超快et度量Corr.RPSLD [m]RPSLD [m]17160度量≥≤LL表4.E2 E-LD和PSLD在良性和攻击场景下的评估结果格式与表3相同。良性攻击E2 E-LD [m] PSLD[m]E2 E-LD [m] PSLD [m][37]0.21 0.04 0.48 0.58超快[39]0.18 0.030.58 0.62[48] 0.200.03 0.38 0.42粤ICP备16037777号-1SCNN [37]-0.93奈米-0.96奈米UltraFast [39]-0.54千兆网卡-0.93 千兆网卡 PolyLaneNet [48]-0.49千兆网卡-0.97 千兆网卡 LaneATT [47]-0.38 千兆网卡-0.95千兆网卡ns不显著（p> 0. 05），则αp ≤ 0. 05，则αp ≤ 0。01，则最大值p≤ 0。001在t=N处用合成帧延迟PSLD。结果图4示出了当Tp从1到20帧变化时E2 E-LD和PSLD之间的Pearson相关系数r如图所示，E2 E-LD、PSLD在良性和攻击场景中都具有强正相关性特别地，在攻击场景中存在显著的相关性（>0.8）这是因为横向偏离的方向通常与攻击方向一致。相比之下，在良性的情况下，车辆行驶在道路中心与过冲，因此横向偏离的方向很大程度上取决于初始状态。PSLD与E_2E-LD之间始终存在高度的正相关（>0.2）。特别地，SCNN 在所有 Tp 中与 E2 E-LD 具有强的相似性（>0.8）。我们认为高相关性可能是由于分割方法，这是4种方法中唯一不使用特定领域知识的方法，车道线通常是平滑的（§2.1）。在相同位置处的SCNN的检测倾向于在不同帧之间是一致的，即，SCNN对全局信息的依赖性较小。最后，我们探索了PSLD代理E2 E-LD的最佳Tp。如图4.在良性场景下，4种方法的相关系数平均值分别在Tp= 10和Tp= 5时达到最大值我们在表4中列出了Tp= 10的E2 E-LD和PLSD以及相应的r。如图所示，有很强的统计学显著性（p0. 001）正相关（0. 38）在两种情况下E2 E-LD和PSLD之间。结果有力地支持了PSLD可以测量仅基于单个摄像机帧和地面实况道路中心几何的ALC中的车道检测的性能的事实我们注意到PSLD对Tp的选择并不敏感。如图5所示，对于所有Tp，4种方法的量值关系通常是一致的。5. 讨论替代公制设计。为了改进现有的指标，我们探索了其他可能的设计选择。最直观的方法之一是鸟瞰图中的1或2我们对设计进行了评估，并确认这些指标仍然会导致对下游AD性能的错误判断，这与传统的指标.详情见补充材料（附录F）。我们注意到，我们的指标是特定于AD的，AD是车道检测的主要下游任务。对于其他下游任务，其他度量设计可能更合适。域转移。在这项工作中，我们使用在TuSimple数据集上预训练的车道检测模型，并在Comma 2k 19-LD上对其进行评估。为了评估域转移的影响，我们进行了进一步的评估，并确认我们的观察结果基本一致。详细结果和讨论见补充材料（附录E）。闭环仿真。为了获得面向驾驶的指标，在闭环仿真中有多个参数和设计选择在这项研究中，我们遵循Comma2k19数据集中的参数，并选择简单和流行的设计，例如，自行车模型和MPC。同时，我们认为这种设计差异只会对我们的观察结果产生轻微影响，因为ALC（Level-2驾驶自动化）只是沿着车道中心线行驶，而车道中心线的设计目的是在正常道路上保持平稳。对其他数据集的评价我们的指标适用于包含位置数据（例如GPS）及其相机帧的任何数据集，但理想情况下，速度和地面实况车道中心应该可用。这样的信息在相对较新的数据集中是可用的，例如[9，17]。然而，车道注释在数据集中并不直接可用，并且需要相当大的努力才能从地图数据和相机帧中获得据我们所知，我们的Comma 2k 19-LD是迄今为止唯一一个同时具有车道线标注和驾驶信息的数据集。我们希望我们的工作将促进进一步的研究，以建立包括他们的数据集。6. 结论本文设计了两种新的车道线检测指标E2 E-LD和PSLD，能够更真实地反映AD中车道线检测模型的性能。在TuSimple数据集和我们的新数据集Comma 2k19-LD上对4种主要类型的车道检测方法进行的大规模实证研究中，我们强调了传统指标的关键局限性近年来，各种预训练模型已用于许多下游应用领域，如AD[1]，自然语言处理[19]和医疗[18]。可靠的性能测量对于促进负责任地使用机器学习至关重要。我们希望我们的研究将有助于社区在建立更下游的任务感知车道检测评估方面取得进一步进展致谢这项研究得到了 NSF CNS- 1850533 、 CNS-1932464 、 CNS-1929771 、 CNS-2145493 和 USDOTUTC Grant 69 A3552047138的部分支持。Corr.17161引用[1] 百度阿波罗。https://github.com/ApolloAuto/阿波罗. 8[2] 介绍自动驾驶汽车。https://www.coursera.org/learn/intro-self-driving-cars天啊6[3] LGSVL 模拟器

下载后可阅读完整内容，剩余1页未读，立即下载