基于参数曲线的车道检测方法的优化与应用

61 浏览量更新于2023-10-25 收藏 971KB PDF 举报

性能评估

自动驾驶系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17062基于曲线建模的车道检测方法的再思考上海交通大学2华东师范大学3香港城市大学4商汤科技5上海交通大学MoE人工智能重点实验室www.example.com; www.example.com;zyfeng97@sjtu.edu.cnguoshaohua@sjtu.edu.cn;tanxin2017@sjtu.edu.cn; kkangwing@gmail.com;网址：wangmin@sensetime.com;ma-lz@cs.sjtu.edu.cn摘要提出了一种基于参数曲线的RGB图像车道线检测方法。与通常需要启发法来解码预测或制定大量锚点的现有技术的基于分割和基于点检测的方法不同，基于曲线的方法可以自然地学习整体车道表示。为了解决现有多项式曲线方法的优化困难，我们提出利用参数Bézier曲线，由于其易于计算，稳定性和高自由度的转换。此外，我们提出了基于可变形卷积的特征翻转融合，利用车道在驾驶场景中的对称性所提出的方法实现了一个新的国家的最先进的性能流行的LLAMAS基准。它还在TuSimple和CULane数据集上实现了良好的准确性，同时保持了低延迟（>150 FPS）和小模型大小（10M）。我们的方法可以作为一个新的基线，照亮参数曲线建模的车道检测。我们的模型和PytorchAutoDrive的代码：自动驾驶感知的统一框架，可在https://github.com/voldeDriveX/pytorch-auto-drive上获得。1. 介绍车道线检测是自动驾驶系统中的一项基础性工作，为车道线保持、居中、变更等决策提供支持。先前的车道检测方法[2，10]通常依赖于昂贵的传感器，例如LIDAR。随着深度学习技术的快速发展，提出了许多工作[14，16，17，24，31]来从商用前置摄像头捕获的RGB输入中检测车道线*同等贡献。†通讯作者。马立庄博士是本课题的主要负责人，上海交通大学清源研究院院士。图1.车道检测策略。基于分割和基于点检测的表示是局部和间接的。多项式曲线中的抽象系数（a，b，c，d）难以优化。三次贝塞尔曲线由4个实际存在的控制点定义，这些控制点大致拟合线形并将车道线包裹在其凸包中（红色虚线）。最好用彩色观看。深车道检测方法可以分为三类，即，基于分割、基于点检测和基于曲线的方法（图1）。其中，依靠经典分割[5]和物体检测[20] 网络中，基于分段和基于点检测的方法通常实现现有技术的车道检测性能。基于分割的方法[16，17，31]利用前景纹理线索来分割车道像素，并通过纹理分析将这些像素解码为线实例基于点检测的方法[12，24，29]通常采用R-CNN框架[8，20]，并且通过检测密集的一系列点（例如，在垂直轴上每10个像素）。两种方法都通过间接代理（即，分割图和点）。为了处理整体车道线的学习，在遮挡或不利天气/照明条件的情况下，他们必须依赖于低效率的设计，例如经常性特征聚合（对于该实时任务来说太重）[17，31]，或大量启发式锚点（>1000，其可能偏向于数据集统计）[24]。另一方面，只有几种方法[14，23]提出将车道线建模为整体曲线（典型地为多项式曲线，例如， x=ay3+by2+cy+d）。17063虽然我们期望整体曲线是一种简洁和elegant的方式来建模车道线的几何属性，抽象的多项式系数是难以学习的。先前的研究表明，它们的性能落后于设计良好的基于分割和基于点检测的方法，差距很大（与CULANE [17]数据集上的最先进方法的差距高达8% 在本文中，我们的目标是回答的问题，是否有可能建立一个国家的最先进的曲线为基础的车道检测器。结果表明，经典的三次Bézier曲线具有足够的自由度来参数化驾驶场景中的车道线变形，计算复杂度低，稳定性高.这启发我们提出用贝塞尔曲线来模拟车道线细长的几何形状特征。从图像上的贝塞尔控制点进行优化的容易性使得网络能够在二分匹配损失的情况下端到端学习[28]，使用来自简单列式池化的车道建议的稀疏集合（例如，在CU- Lane数据集[17]上的50个建议），没有任何后处理步骤，如非最大抑制（NMS），或手工制作的算法，如锚，因此导致高速和小模型尺寸。此外，我们观察到，车道线出现对称从前置摄像头（例如，在自我车道线之间，或者直接的左车道和右车道之间）。为了对驾驶场景的这种全局结构进行建模，我们进一步提出了特征翻转融合，以将特征图与其水平翻转的版本聚合，以加强这种共存。我们将特征翻转融合的设计基于可变形卷积[32]，用于对齐由以下原因引起的不完美对称性，例如，旋转摄像机，改变车道，非成对线。我们进行了大量的实验来分析我们的方法的属性，并表明它对国家的最先进的车道检测器三个流行的基准数据集表现有利我们的主要贡献总结如下：• 提出了一种基于非线性Bézier曲线的深度车道线检测器，该检测器能够有效地模拟车道线的几何形状，并且对恶劣的驾驶条件具有很强的鲁棒性.• 我们提出了一种新的基于可变形卷积的特征翻转融合模块，以利用从正视摄像机观察到的车道的对称性。• 我们表明，我们的方法是快速，轻量级，准确的，通过广泛的实验三个流行的车道检测数据集。具体来说，我们的方法在LLAMAS基准上优于所有现有方法[3]，具有轻量级ResNet-34骨干。2. 相关工作基于分割的车道检测。这些方法将通道表示为每像素分割。SCNN [17]公式将车道检测扩展为多类语义分割，并且是TuSimple挑战中的第一位解决方案的基础[1]。它因此，它具有高延迟，并且仅在Zheng等人的优化之后才努力实时。[31 ]第30段。其他人探索知识蒸馏[11]或生成建模[7]，但它们的性能仅优于开创性的SCNN。此外，这些方法通常假定固定的数目（例如，4)的线条。LaneNet [16]利用实例分段管道来处理可变数量的行，但它需要后推理聚类来生成行实例。一些方法利用逐行分类[19，30]，这是对每像素分割的自定义下采样，因此它们仍然需要后处理。Qin等人[19]建议用性能换取低延迟，但他们使用全连接层导致模型尺寸很大。简而言之，基于分割的方法都需要大量的后处理，由于表示的不对准它们还遭受分割任务的局部性，使得它们往往在遮挡或极端光照条件下表现更差基于点检测的车道线检测。对象检测方法的成功促使研究人员将车道检测公式化为将车道检测为一系列点（例如，在垂直轴上每10个像素Line-CNN [12]采用经典的Faster R-CNN [20]作为一级车道线检测器，但它的推理速度较低（30FPS）。后来，LaneATT [24]采用了更通用的一级检测方法，实现了卓越的性能。然而，这些方法必须设计启发式车道锚，其高度依赖于数据集统计，并且需要非最大值抑制（NMS）作为后处理。相反，我们将车道线表示为具有完全端到端管线（无锚点、无NMS）的曲线。基于曲线的车道检测。开创性的工作[27]提出了一种可微最小二乘拟合模块来拟合多项式曲线（例如，x=ay3+by2+cy+d）到由深度神经网络预测的点然后，PolyLaneNet [23]直接学习使用简单的全连接层预测多项式系数。最近，LSTR [14]使用Transformer块来基于DETR [4]预测端到端融合中的多项式。曲线是车道线的整体表示，它自然地消除了遮挡，不需要后处理，并且可以预测可变数量的线。然而，它们在大型和具有挑战性的数据集上的性能（例如，CU- Lane [17]和LLAMAS [3]）仍然落后于其他类别的方法。它们还遭受缓慢收敛（在TuSimple上超过2000个训练时期）、高延迟架构（例如，LSTR [14]使用Transformer块，17064i=0时××ΣP−n1616nBézier多项式第20的情况。6530的情况。945第30的情况。4710的情况。558月40的情况。3150的情况。330表1. n阶Bézier曲线与多项式的比较（x = n aiyi）在TuSimple [1]测试集上（越低越好）。以来官方度量太过丢失，无法显示任何有意义的差异，我们使用细粒度的LPD度量[23]。难以优化以获得低等待时间）。我们将其失败归因于难以优化和抽象的多项式系数。我们建议使用由图像坐标系1上的实际控制点定义的参数Bézier曲线来解决这些问题。贝齐尔在《深深的谎言》中演唱。据我们所知，Bézier 曲线在深度学习中唯一已知的成功应用是ABCNet[15]，它使用三次Bézier曲线进行文本定位。但是，他们的方法不能直接用于我们的任务。首先，此方法仍然使用NMS，因此无法实现端到端。我们在我们的工作中表明，NMS是不必要的，所以我们的方法可以是一个目的-端到端解决方案。第二，直接在稀疏Bézier控制点上计算L1损失，给优化带来困难。我们在工作图2.渠道. 来自典型编码器特征（例如，ResNet）通过特征翻转融合来增强，然后池化到1D并且应用两个1D卷积层。最后通过一个分类分支和一个回归分支预测Bézier建议的架构。整体模型架构如图2所示。具体来说，我们使用ResNets [9]的第3层特征作为RESA [31]之后的主干，但是我们用两个具有膨胀率的膨胀块代替主干网络内部的膨胀[4，8][6]。这对我们的方法来说是一个更好的速度-准确性权衡，它留下了一个具有更大感受野的16降采样特征图。然后，我们添加特征翻转融合模块（第3.2节）以聚合相对车道特征。然后将丰富的特征图（C×H×W（C×W）平均汇集，产生W个提案（50通过利用细粒度采样损失。此外，我们1616提出了特征翻转融合模块，该模块是专门针对车道线检测任务而设计的。3. Be' zierLaneNet3.1. 概述关于Bézier 曲线的排除。贝塞尔曲线的公式如公式（1）所示，它是由n + 1个nB（t）= bi，n（t）Pi，0≤t≤1，（1）i=0时其中i是第i个控制点，bi ，n是n次伯恩斯坦基多项式：b i，n= C it i（1 − t）n−i，i = 0，.，n.（二）我们使用经典的三次贝塞尔曲线（n=3），这是经验发现足够的建模车道线。它显示出比三阶多项式更好的地面真实拟合能力（表1），三阶多项式是先前基于曲线的方法的基函数[14，23]。高阶曲线不会带来实质性的增益，而高自由度导致不稳定。这里讨论的点的所有坐标都是相对于图像大小的（即，大多数在范围[0，1]内）。1实际上，贝塞尔曲线的控制点可以在图像之外，但从统计学上讲，在自动驾驶场景中很少发生这种情况。170651616 ×CULane [17]）。两个1使用3个1D卷积转换池化的功能，同时也方便地对邻近车道建议之间的相互作用进行建模，引导网络学习非最大抑制（NMS）函数的替代。最后，通过分类分支和回归分支（每个分支都是独立的）来仅为一个1×11D卷积）。输出为W×84个控制点的回归和W1车道线对象的存在。3.2. 特征翻转融合通过将车道线建模为整体曲线，我们专注于单个车道线的几何属性（例如，薄的、长的和连续的）。现在，我们从驾驶场景中的前置摄像机视图考虑车道的全局结构。道路具有等间距的车道线，这些车道线看起来是对称的，此特性值得建模。例如，左侧自我车道线的存在很可能指示其右侧对应车道线，直接左侧车道线的结构可以帮助描述直接右侧车道线等。为了利用这个属性，我们将特征图与其水平翻转的版本融合在一起（图3）。具体来说，两个单独的卷积和归一化层转换每个特征图，然后在ReLU激活之前将它们添加在一起。通过这个模块，我们希望模型能够基于两个特征图进行预测。为了解决照相机捕获的图像的轻微未对准（例如，旋转、转动、非成对），我们应用17066×i=10我我 i=1Bézier曲线之间的平均距离，特别是在小曲率或中等曲率上（车道线通常是这种情况）。Σˆ图3.功能翻转融合。对齐是通过计算可变形卷积偏移来实现的最好用彩色观看。可变形卷积[32]，内核大小为3 3，用于翻转的特征图，同时学习以原始特征图为条件的偏移，以进行特征对齐。我们在ResNet主干中添加了一个辅助的二进制分割分支（分割有趣的是，我们发现这个辅助分支只有当它与特征融合时才能提高性能。这是因为分割任务的定位可以提供空间上更准确的特征图，这进而支持翻转特征之间的准确融合。可视化如图4所示，从中我们可以看到，翻转功能确实纠正了由汽车引入的不对称性引起的错误（图4（a））。3.3. 贝塞尔曲线的端到端拟合（一）（b）第（1）款图4.ResNet主干最后一层的Grad-CAM [22]可视化（a）我们的模型可以从清晰的标记和对面车道周围的车辆推断出存在标记不良的请注意，汽车是偏离左侧，这一场景没有捕捉到完美的对称性。(b)当整条道路缺乏清晰的标记时，两侧都用于更好的预测。最好用彩色观看。基于方法，例如，端点损耗[14]和线路长度损耗[24]的损耗加权（见图5（b，c））。贝齐埃·G·鲁特一代。然后介绍了Bézier曲线地面真实值的生成. 由于车道数据集目前由在线关键点注释，因此我们需要以上采样损失的贝塞尔控制点。Giv在一条车道线上的注释点{（kx，ky）}m，其中Bézier曲线之间的距离。 keytolearning（kxi，kyi）表示第i个点的2D坐标。我们Bézier曲线是定义一个好的距离度量，目标是获得控制点{Pi（xi，yi）}n-是的类似地为了确定地面真实曲线和pre-to [15]之间的距离，我们使用标准最小二乘拟合：措辞简单地说，可以直接计算平均值L1Be' zier曲线控制点之间的距离，如ABC中所示P0kx0 ky0阿夫林b0，n（t0）···b在叱（t）东帝汶过渡当局Net [15].然而，如图5（a）所示，P1ky1b0，n（t1）···bn，n（t1）. -是PnKxM 启彦Mb0，n（tm）···bn，n（tm）（四）在曲率控制点中可以展示非常小的vi-好吧好吧. 你好...由于Be′ zier曲线由t∈[0，1]参数化，因此，我们{t i}m从0到1均匀采样。不同于提出了更为合理的Bézier曲线采样损失（图5（b）），通过在均匀间隔的集合t值（T），这意味着相邻采样点之间的曲线长度相等。t值可以进一步转换。由重新参数化函数f（t）形成。具体而言，g ivenBeziercurvesB（t），Be zier（t），采样损失Lreg为：1L=|| B（f（t））− B（f（t））||、（3）.i=0时...17067Σi，π（i）1我Gi[15] ，我们不限制地面实况具有相同的端点作为原始注释，这导致更好的质量标签。标签和预测匹配。在获得地面真相后，在训练中，我们使用最佳二分匹配在G个标签和N个预测（G N）之间执行一对一分配，以实现完全的端到端管道。继Wanget al.[28]我想，我找到了一个G。置换的N个预测π∈ <$N，制定了regnt∈T1G最佳二分匹配：G其中n是采样点的总数并且被设置为100。我们根据经验发现f（t）=t工作得很好。这简单而有效的损失公式使我们的模型更容易π=argmaxQπ∈ΠNi，π（i）、（五）收敛和不太敏感的超参数类型-在其他基于曲线或点的检测中涉及Q=.p1−α·。1−L。b，中国（6）π（i）π（i）17068∈LL(a)(b)（c）第（1）款图5.车道损失函数。(a)控制点的L1距离与曲线间的实际距离相关性不高。(b)提出的抽样损失是一个统一的距离度量，通过t-抽样. (c)多项式回归的典型损失[14]，至少需要3个单独的损失：y-采样损失，y起点损失，y终点损失。其中，Qi，π（i）[0，1]表示基于L1距离的数据集训练Val测试决议行数TuSimple [1]3268 358 2782 720×1280 ≤5电话：+86-8880 - 9675- 34680590× 1640≤4LLAMAS [3]582692084420929717× 1276≤4∗表2.数据集的详细信息* LLAMAS数据集中的行数超过4条，但官方指标仅评估4条。天气条件CULANE数据集包含更复杂的城市驾驶场景，包括阴影、极端照明和道路拥堵。LLAMAS是一个新形成的大规模数据集，它是唯一没有公共测试集标签的车道检测基准。这些数据集的详细信息可以在表2中找到。4.2.评价指标对于CULANE [17]和LLAMAS [3]，官方指标是来自[17]的F1得分：F1=2·精度·召回率，（9）精确度+召回率在曲线vesbi，π（i）（抽样损失）和班级分数其中精度=TP，召回率=TP。线p<$π（i）. α被设置为0。八是要抓。上述方程可以是被假定为TP+FPTP+FN由著名的匈牙利算法有效地解决。Wang等人[28]还使用空间先验，将匹配的预测限制在标签的空间邻域（对象中心距离，FCOS中的中心先验[26]）。然而，由于许多车道是具有大斜率的长线，因此该中心度先验是无用的。见附录-tary第5节更多的调查匹配先验。总损失。除了贝塞尔曲线采样损失之外，还有车道对象分类（存在）分支的分类损失c由于在车道检测中正样本和负样本之间的不平衡不像在对象检测中那样严重，因此我们使用简单的加权二进制交叉熵损失来代替焦点损失[13Lcls=−（ylog（p）+w（1−y）log（1−p）），（7）其中w是负样本的权重，其被设置为0。4在所有实验中。二进制分段分支的丢失分段（第3.2节）采用相同的格式。总损失是所有三种损失的加权和：L=λ1Lreg+λ2Lcls+ λ3Lseg，（8）其中λ1、λ2、λ3被设置为1、0。1，0。75，分别。4. 实验4.1. 数据集为了评估所提出的方法，我们在三个著名的数据集上进行了实验： TuSimple [1] ， CU- Lane [17] 和LLAMAS [3]。TuSimple数据集是在高速公路上收集的，具有高质量的图像，17069××××Ngt30像素宽，预测和地面实况线，像素IoU超过0。5被视为匹配。对于TuSimple [1]数据集，官方指标包括准确性、假阳性率（FPR）和假阴性率（FNR）。精度计算为Npred，其中N pred是正确预测的在线点的数量，N gt是地面实况在线点的数量。4.3. 实现细节公平比较。为了公平地比较不同的最先进的方法，我们在统一的PyTorch框架中重新实现了代表性的方法[14，17，31]。我们还提供了最初在[17]中提出的语义分割基线[5]我们所有的实现都没有在训练中使用valset，并且只在valset上调整超参数。一些具有可靠开源代码的方法从其自己的代码中报告[19，23，24]。对于平台敏感度Metric每秒帧数（FPS），我们在相同的RTX 2080 Ti平台上重新评估了所有报告的方法。有关实现和FPS测试的更多详细信息，请参见补充章节1至3。训练我们分别为TuSimple、CU-Lane和LLAMAS训练了400、36、20个epoch（训练我们的模型在单个RTX 2080 Ti上仅需要12个GPU小时），并且按照惯例，CULane的输入分辨率为288 800[17]，其他的为360 640 除了这些，所有超参数都在CULANE [17]val集合上进行了调整，并且对于我们的方法在数据集上保持不变。我们使用Adam优化器，学习率为610−4，重量衰减1 10−4，批量大小20，余弦退火学习率时间表[24]数据扩充包括随机仿射变换、随机水平翻转和颜色抖动。17070× − − − − − − − − − −−× − − −−××××∼∼[17]第一届中国国际航空航天博览会-九十五240的情况。0690 的情况。0571271.488.368666247968.082563.2660 2817- -✓100九十五570的情况。036−LSTR（ResNet-18，1）[14]*2000九十五060的情况。0490的情况。042LSTR（ResNet-18，2）[14]*15068岁7286. 7867. 34五十九92四十10五十九8278. 66五十六63五十六64 1166-Be' zierLaneNet（ResNet-18）36七十三。679 0.2271556个8. 70四点五30七十9184. 0962. 49五十八98 996 400九十五410的情况。0530的情况。046Be' zierLaneNet（ResNet-34）3675. 5791. 597 3. 206 9. 90四点八05七十六。7487. 1669岁。2062. 45 888400九十五650的情况。0510的情况。039表3. CULANE [17]和TuSimple [1]测试集的结果。* 在我们的代码框架中再现了结果，三次随机运行的最佳性能。** 来自作者可靠的开源代码。试验. 曲线方法不需要后处理。标准高斯模糊和行选择后处理应用于分割方法。NMS用于LaneATT [24]，而我们在CULANE [17]中删除了其后推理B样条插值，以与我们的框架保持一致。4.4. 比较概况. 实验结果示于表3和4中。TuSimple [1]是一个小型数据集，具有晴朗天气的高速公路场景，并且具有相对简单的度量，大多数方法在此数据集中蓬勃发展。因此，我们主要关注其他两个大规模数据集[3，17]，其中方法之间仍然存在相当明显的差异。对于高性能方法（在CULANE上> 70%F1 [17]），我们还在表5中示出了效率度量（FPS，参数计数）。与基于曲线的方法的比较。如表3和表4所示，在所有数据集中，B e'zierLaneNet以明显的优势超过了以前的基于曲线的方法[14，23]，将基于曲线的方法的最新技术水平提高了6。85%的CULane [17]和6。77%的人使用LLAMAS [3]。由于我们完全卷积和完全端到端的管道， Be' zierLaneNet 运行在2比LSTR更快[14]。LSTR有一个速度瓶颈来自Transformer架构，1和2模型有FPS 98和97，分别为2。虽然曲线很难学习，但我们的方法比LSTR快4-5这是第一次，一个优雅的基于曲线的方法可以挑战这些数据集上设计良好的分割方法或点检测方法2来自LSTR论文[14]的原始420 FPS报告是批量大小为16的吞吐量，详细讨论见补充资料。同时显示出有利的折衷，具有可接受的收敛时间。与基于分割的方法的比较。这些方法由于经常性的特征聚合[17，31]以及使用高分辨率特征图[5，17，31]而往往速度较慢。Be'zierLaneNet在速度和准确性方面都优于它们我们的小模型甚至与具有大ResNet- 101骨架的RESA [31]和SCNN [17]进行了有利的比较，在CULANE [17]中以明显的优势（12%）超过了它们在LLAMAS [3]中，数据集限制在4条中心线上进行测试，分割方法显示出强大的性能（表4）。尽管如此，我们的ResNet-34模型仍然优于SCNN0。百分之九十二UFLD [19]将分割重新定义为下采样特征图上的逐行与我们相比， UFLD （ ResNet-34 ）为 0 。 9% 低CULANE正常，而7. 4%，3。0%，3. 暗影，人群，黑夜，复活时降低2%。总的来说，我们的方法具有相同的主干，比UFLD高出35%，而在ResNet-34上更快。此外，UFLD使用大型全连接层来优化延迟，这导致模型大小巨大（表5中最大）。所有分割方法的缺点是在Dazzle Light上的性能较弱。每像素（或UFLD的每像素网格[19]）分割方法可能依赖于来自局部纹理的信息，这些信息会因极端曝光而被破坏。而我们的方法预测车道线作为整体曲线，因此鲁棒性的局部纹理的变化。与基于点检测的方法的比较。Xu等[29]发现了一系列基于点检测的模型，−方法EP.总正常人群晚上没有线阴影箭头眩目的光曲线交叉↓火车+价值EP.Acc.FPR↓FNR↓基于分割基线（ResNet-18）*12六十五30八十五4562. 6361岁04三十三岁。8851岁7278岁15五十三05五十九7019155094 250的情况。0880的情况。089基线（ResNet-34）*1269岁。9289岁。4666岁。66六十五38四十4362. 1783岁18五十八5163岁00171350九十五310的情况。0640的情况。062基线（ResNet-101）*12七十一37九十1167岁8967岁01四十三10七十56八十五0961岁77六十五47188350九十五190的情况。0620的情况。062SCNN（ResNet-18）[17]*12七十二19九十98七十1766岁。54四十三1266岁。31八十五6262. 20六十五5818085094 770的情况。0750的情况。074SCNN（ResNet-34）[17]*12七十二7091. 06七十4167岁7544. 6468岁9886岁。5061岁57六十五75201750九十五250的情况。0630的情况。063SCNN（ResNet-101）*12七十三。5891. 10七十一4368岁53四十六岁。39七十二6186岁。8761岁9567岁01172050九十五690的情况。0520的情况。050UFLD（ResNet-18）[19]** UFLD（ResNet-34）[19]** RESA（ResNet-18）[31]*RESA（ResNet-34）505012121268岁4七十二3七十二90七十三。6674岁0487岁7九十791. 2391. 3191. 4566岁。0七十2七十57七十一80七十一5162. 166岁。767岁1667岁5469岁。01四十244. 4四十五24四十六岁。57四十六岁。5462. 869岁。368岁01七十二7475. 8381. 0八十五786岁。5686岁。9487岁75五十八4五十九5六十四32六十四4663岁90五十七969岁。566岁。1967岁3168岁2417432037167917011522- -505050−−九十五15九十五56−−0的情况。0690的情况。058−−0的情况。0590的情况。05117071×∼××LLAMAS [3]方法Ep.F1精密度基于回忆分割基线（ResNet-34）* 4392.6194. 27[17]第94话：我的世界25941194. 39基于点LaneATT（ResNet-18）[24]**15九十三46九十六。92九十24LaneATT（ResNet-34）**15九十三74九十六。79九十88方法FPS↑参数（M）↓基于分割（忽略后处理时间）43.第43章. 56[17 ]第12话最后一个女人63[17]22 .第21话74[17]第四十四章：一个女人15[19]第十九话：一个人的世界58[31]第68话第68话61[31]第十一届全国人大常委会委员长会议99[31]第三十一章：一个人的世界46表4.来自LLAMAS [3]测试服务器的结果神经架构搜索技术称为CurveLanes-NAS。尽管其复杂的管道和广泛的架构搜索的最佳准确性FLOPs权衡，我们的简单的ResNet-34骨干模型（29。3 GFLOPs）仍然超过其大型模型（ 86 。 5GFLOPs ）。 8% 的CULANE。CurveLanes-NAS在遮挡情况下也表现较差，这与没有经常性特征融合的分割方法类似[5，19]。如表3所示，与我们的ResNet-34模型相比，CurveLanes-NAS-M（35. 7 GFLOPs）为1。在普通场景中差4%，但在阴影和人群中的差距是7。4%和2. 百分之七。最近，LaneATT [24]通过点检测网络实现了更高的性能。然而，他们的设计是表5.FPS（图像/秒）和模型大小。所有FPS结果在同一平台上用360 640个随机输入进行这里仅显示CULane [17] F1评分>70%的模特方法要么放弃端到端管道（LaneATT [24]），要么完全不满足实时要求（SCNN [17]，RESA[31]）。而我们的 Be' zierLaneNet 是完全端到端的，快速（ >150FPS），轻量级（1000万参数），并在数据集上保持一致的高精度4.5. 分析虽然我们通过调整val集来开发我们的方法，但我们使用ResNet-34主干重新运行消融研究（包括我们的完整方法），并报告Culane测试集的性能，以进行明确的比较。不完全端到端（需要非最大抑制（NMS）），其基于直接从数据集的统计计算的启发式锚（>1000），因此可能系统地尽管如此，使用ResNet-34，我们的方法在LLA-MAS [3]测试服务器上的性能优于LaneATT（1。43%），具有显著更高的回忆率（3。58%）。我们还在TuSimple [1]上实现了与LaneATT相当的性能，仅使用列车集，在CULANE上仅差1%。我们的方法在Dazzle Light（3. 3%更好），《夜》（0。4%）。它在十字路口场景（十字路口）上也具有较低的假阳性（FP）率，即使LaneATT显示出极低的FP特征（表4中的大精度-召回差距）。依赖于启发式锚[24]或启发式解码过程[17，19，29，31]的方法往往在此场景中具有更多的错误预测。此外，NMS是顺序过程，其在现实世界应用中可能具有不稳定的运行时间。即使NMS没有在实际输入上进行评估，我们的模型也比实际输入快29%，28%，比实际输入快 2 。九二与 ResNet-18 和 ResNet-34 主干上的LaneATT相比，分别少3总之，先前基于曲线的方法（Poly LaneNet [23]，LSTR [14]）的性能明显较差。快速方法可以用精度（UFLD [19]）或模型大小（UFLD [19]，LaneATT[24]）来换取速度。准确曲线表示F168.第68章我是你的89第三次多项式基线1. 4975.第七十五章41第三多项式从B e'zierLaneNet5. 01表6.曲线表示。基线直接预测曲线系数而无需特征翻转融合。参数Bézier曲线的重要性我们首先用一个三阶多项式来代替贝塞尔曲线的预测，为起点和终点增加辅助损失。如表6所示，多项式在我们的全卷积网络中灾难性地无法收敛，即使在用150个epoch训练时也是如此（详见补充部分2）。然后我们考虑修改LSTR[14]来预测三次Bézier曲线，性能类似于预测多项式。我们得出结论，重MLP可能是学习多项式所必需的[14，23]，而从位置感知CNN预测Bézier控制基于变换的LSTR解码器破坏了精细的空间信息，抑制了曲线函数的推进特征翻转融合设计。如表7所示，特征翻转融合带来4.07%的改善。我们还发现辅助分割损失可以正则化和增加LaneATT（ResNet-122）**15九十三54九十六。82九十47基于点检测（忽略真实图像中的NMS时间基于曲线LaneATT（ResNet-18）[24]LaneATT（ResNet-34）[24]16511712个。02二十二岁13[23]第7588岁4088岁8787岁93LaneATT（ResNet-122）[24]268. 5517072−∼-×CP SP翻转变形段F1✓63岁74✓68岁8965. honor 8270. honor 2872. honor 9673. honor 9775. honor 41表7.消融术。CP：控制点损失[15]。SP：提议的Flip：功能Flip融合模块。变形：在特征翻转融合中采用可变形卷积。分段：辅助分段丢失。性能进一步提高，2。百分之四十五值得注意的是，辅助损失仅适用于特征融合，当直接应用于基线时，它可能导致退化的结果（ 3 .第三章。07%）。标准的3-3卷积比可变形卷积差2倍。68%，1。44%，添加辅助分割前后分别为损失。我们把这归因于特征对齐的影响。贝氏曲线拟合损失。如表7所示，用控制点上的直接损失代替采样损失导致劣性能（5. 基线设置中为15%）。受IoU丢失在对象检测中的成功启发。我们还实现了一个IoU损失（公式在补充部分4）的Connve x外壳的贝塞尔控制点。然而，接近直线的车道线的凸包太小，IoU损失在数值上不稳定，从而不能促进采样损失。型号Aug F1LSTR（ResNet-18，2×）[14] 72LSTR（ResNet-18，2×）[14]39. 77（-28。95）75.第74章：你是谁？4155.第55章大结局11（-20。第30页）表8.增强消融术。8月：数据增长强劲强大的数据增强的重要性。强数据增强由一系列仿射变换和颜色失真定义，对于不同的方法，确切的策略可能略有不同。例如，我们使用随机仿射变换，随机水平翻转和颜色抖动。LSTR [14]也使用随机照明。默认增强仅包括小旋转（3度）。如表8所示，强增强对于避免基于曲线的方法的过度拟合是必不可少的。对于基于分割的方法[5，17，31]，我们在较小的TuSimple [1]数据集上快速全部显示出12%的降解。这表明，由于每像素预测和启发式后处理，它们可能是鲁棒的。但他们高度依赖于学习-分析局部特征的分布，如纹理，这可能会因强增强而变得混乱。4.6. 限制和讨论曲线实际上是车道线的自然表示。然而，他们在造型上的优雅不可避免地带来了一个缺点。当数据分布是高度偏置的（在CULANE中几乎所有车道线都是直线）时，曲率系数难以概括。我们的贝塞尔曲线方法已经在一定程度上缓解了这个问题，并取得了可接受的性能（62。45）在CULANE曲线中。在TuSimple和LLA-MAS [1，3]等数据集上，曲率分布对于学习来说足够公平，我们的方法实现了更好的性能。处理更广泛的角落情况，例如，急转弯，堵塞和恶劣天气，数据集，如[21，25，29]可能是有用的。特征翻转融合是专门为前置摄像头设计的，这是深车道检测器的典型用例然而，假设场景对称仍然存在很强的归纳偏差。在未来的工作中，找到该模块的替代品将是有趣的，以实现更好的泛化并去除可变形的卷积运算，这对有效集成到边缘设备（如Jetson）造成了困难。更多讨论见第7节。5. 结论本文提出了一种基于参数化贝塞尔曲线的完全端到端车道检测器--贝塞尔车道网。图像上的Bezier曲线易于优化，并自然地模拟车道线的连续特性，而无需重复特征聚合或启发式锚点等繁重的设计。此外，还提出了一种特征翻转融合模块。它有效地模拟了驾驶场景的对称性，同时也是鲁棒的轻微的不对称性通过使用变形卷积。该模型在三个数据集上取得了良好的性能，击败了流行的LLAMAS基准测试的所有现有方法。它也是快速（>150FPS）和轻量（1000万个参数）。鸣谢。这工作是支持国家重点研发计划（ 2019YFC1521104 ），国家自然科学基金项目（ 72192821 ， 61972157 ），上海市科技重大专项（ 2021SHZDZX0102 ），上海市科学技术委员会（21511101200，22YF1420300），国家社会科学基金（I8ZD22），商汤科技合作研究基金。我们感谢秦嘉平在道路设计和几何方面的指导，感谢龚宇晨和潘晨在CAM可视化方面的帮助，感谢龚志军、徐嘉晨和龚静瑜在数学方面的深刻讨论，感谢刘凤奇提供GPU，感谢Lucas Tabelini在评估[23，24]方面的合作，感谢CVPR评审员的建设性意见。17073引用[1] TuSimple 基准。https ： //GitHub.com/TuSimple/tusimple-benchmark ， 2017. 二、三、五、六、七、八[2] 克劳丁 · 巴杜，Ra RavernikGuidolini ，RaphaelVivacquaQuartiiro ， Pedro Azevedo ， Vinicius BCardoso ， Avelino Forechi ， Luan Jesus ， RodrigoBerriel ， Thiago M Paixao ， Fil- i

下载后可阅读完整内容，剩余1页未读，立即下载