车载摄像头的道路图像结构化研究及应用

118 浏览量更新于2023-10-14 收藏 1.34MB PDF 举报

动态物体检测

场景理解

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15661车载图像结构化鸟瞰Yigit Baran Can1 Alexander Liniger1 Danda Pani Paudel1 Luc Van Gool1，21苏黎世联邦理工学院计算机视觉实验室2VISICS，ESAT/PSI，KU Leuven{yigit.can，alex.liniger，paudel，vangool}@ vision.ee.ethz.ch摘要自主导航需要道路网络的结构化表示和其他交通代理的由于交通场景是在地平面上定义的然而，自动驾驶汽车的车载摄像头通常是水平安装的，在这项工作中，我们研究的问题，提取有向图表示当地的道路网络在BEV坐标，从一个单一的车载摄像头图像。此外，我们表明，该方法可以扩展到检测动态物体的BEV平面上。检测到的对象的语义、位置和取向与道路图一起促进对场景的全面理解。这样的理解对于下游任务（诸如路径规划和导航）是基本的。我们验证了我们的方法对强大的基线，并表明我们的网络实现了卓越的性能。我们还通过消融研究证明了各种设计选择的效果。代码：https://github.com/ybarancan/STSU1. 介绍道路场景理解对于自动驾驶至关重要，因为它形成了感知和规划之间的接口。其基本任务是了解道路网络结构和周围的其他交通媒介。目前，解决方案是离线生成的HD地图与模块化感知堆栈相结合[22，41，30，36，8]。为了使现有解决方案起作用，不仅需要在HD地图中精确定位，而且需要理解场景的动态部分[30，44]。为了实现这些要求，大多数解决方案使用多个传感器，包括相机和激光雷达。然而，使用昂贵的传感器和离线高清地图限制了自动驾驶的可扩展性，因为它们增加了操作成本并限制自动驾驶汽车在地理限制区域中操作。图1.我们的方法提取一个有向图，代表当地的道路网络从一个单一的正面图像。首先，在有向图旁边估计中心线，其中顶点是中心线，并且边缘示出连通性。然后估计边的存在性和方向绿点表示起点，红点表示中心线的终点。交通由绿灯变为红灯。由于所提出的方法的方向性，可以实现这种表示。在这项工作中，我们提出了一个端到端的视觉方法，进行车道图提取和对象检测给定的只有一个前置摄像头图像。我们的方法直接估计的图形结构的道路网络和样条曲线表示中心线的个别车道，如图所示。1.一、除了估计道路图之外，我们的模型还可以直接在BEV平面上检测诸如汽车、行人等对象，如图所示。二、我们的方法的输出格式是理想的下游计划-宁[2，9]和预测[12，45，20，37]任务，需要车道图和位置和对象的类。事实上，这样的要求也可以简单地通过观察现有数据集的所提供的标签来理解，例如[4]，其以结构化形式提供标签。通常，现有方法将结构化标签映射成其他形式，诸如语义掩码，以执行场景理解[14]。然而，下游任务需要这些理解的结构化形式[26，34，25，19]。理解HD映射是一个具有挑战性的问题，主要是由于复杂的拓扑变化。从单个图像中连贯地恢复这样的拓扑结构仍然是一个未探索的问题。这项工作首次解决了这个具有挑战性的问题，同时还直接在BEV坐标中检测场景中的对象估计单个中心线GT图像中心线合并连接连接估计连接形式有向图15662{|}现有的工作集中在（i）从密集的3D点提取HD地图[19]或（ii）从单个图像检测道路车道[21]。其他变体，例如BEV语义理解，也存在[40，29，32]。注意，[19]的HD地图重建比[21]的车道检测问题在拓扑上更具我们的工作旨在使用[21]的图像输入设置实现与[19]类似的结果此外，我们的目标是使用与结构化HD地图预测相同的模型来检测对象。我们将HD地图表示为BEV坐标中的有向图，其边缘是路段并且方向表示交通流。我们使用Bezier曲线对每个路段进行建模，并具有起点和终点。使用分配矩阵对预测的段之间的连接进行建模。对于预测，我们使用的Transformer网络，这是监督使用匈牙利算法在输出端。预测的段连同它们的连接性一起定义了完整的车道图HD地图。我们的Transformer网络进一步预测2D BEV对象的参数。对象预测分支被监督，类似于道路段。我们的方法的用于车道图HD地图和对象估计的两个示例输出在图1中示出。二、为此，我们的主要贡献可归纳如下。• 我们提出了一个统一的方法，结构化的BEV道路网络图估计和对象检测从一个单一的车载单目摄像头图像。• 所提出的方法得到的结果是显着优于比较基线。2. 相关作品路网提取：道路网络提取的早期工作使用航空图像[13，39]。基于相同的设置，最近的作品[3，42，43]更有效地执行网络提取。然而，基于航空这样的预测对于路由可能是有用的，然而，它们对于动作规划不够准确。高清标测图：在文献中，通常使用聚合的2D和3D视觉信息离线重建HD标测图[25，18，26]。虽然这些工作是我们工作背后的主要动机，但它们需要3D点云进行精确的HD地图重建。更重要的是，离线方法在一些规范帧中恢复HD图。因此，在许多情况下，使用恢复的地图需要精确的本地化在这方面，我们的工作类似于[17]，其中车道边界以折线的形式在高速公路上检测这项工作的扩展[17]使用递归神经网络在3D点云中生成初始边界点然后将初始点用作预测车道边界的Polygon-RNN [1我们的方法不同于[17]在两个主要方面：（i）点车卡车总线行人摩托车自行车我们的GT图2.我们的方法可以处理非常复杂的十字路口场景，以及多个对象实例。行人用圆圈标记云与单个图像输入，（ii）高速公路车道边界与无限制设置中的车道中心线。BEV语义理解：由于其实际用途，使用图像的BEV中的场景理解最近引起了极大的关注[40，35，5]。一些方法还将图像与LIDAR数据相结合[33，16]。在这方面，[40，31]中开发的方法使用单个图像来理解BEVHD图语义。类似地，[5]中提出的方法使用视频数据用于相同的任务。这类方法不提供适合许多下游任务的结构化输出这些方法可用于一般场景理解。然而，它们用于运动规划和导航任务的用途并不是普通的。此外，据我们所知，没有现有的方法使用单个图像输入提供对BEV的实例级预测请注意，本文提出的方法同时预测HD地图和道路对象，使用一个输入图像和一个神经网络。3. 该方法我们的模型的核心任务是产生表示BEV坐标系中的道路网络的有向图，仅给出来自安装在车辆上对于完整的交通场景，我们的模型还以BEV边界框的形式输出对象这两项任务都需要重新考虑3D空间，并将所有信息投影到车辆正在移动的BEV地平面上。在本节中，我们首先介绍我们的可训练车道图结构并描述对象表示。鉴于这些构建块，我们介绍了我们的基于Transformer的模型，并解释了神经网络是如何训练的。3.1. 车道图表示为了具有局部道路网络的结构化表示，我们构建车道中心线段的有向图，通常称为车道图。设这个有向图为G=（V，E），其中V是图的顶点（中心线）和边E（x，y）（x，y）V2表示这些中心线之间的连通性。连通性可以由关联矩阵I来概括15663∈∈联系我们k=0K. Σ−∈J我Σ。 Σ −骨干Transformer5-参数类估算GT线OBJ花键存在中心线估计值Assoc合并图3.我们的神经网络的核心架构是一个Transformer [7]，它将学习到的中心线和对象查询一起处理。经处理的线查询用于输出检测概率、控制点和中心线关联特征。对象查询用于计算类概率和有向盒参数。图G=（V，E）。因此，让我们定义两条中心线x和y何时连接;当且仅当中心线y的起点与中心线x的终点相同时，中心线x连接到另一中心线y，即（x，y）E。给定该定义，如果中心线x和y连接，则关联矩阵I[x，y]的条目请注意，我们没有应用硬要求来生成非循环图，但由于我们专注于具有有限视场（FOV）的单个图像，因此因此，关联矩阵通常具有非循环图的结构，其中主对角线为零，并且对称项的和至多为1。最后，所得的关联矩阵还包含关于交通流方向的关键信息，这是理解车道网络的基础。在建立了图之后，我们需要对每个中心线（图的顶点）进行数学建模。在这项工作中，我们认为每个中心线作为一个贝塞尔曲线。贝塞尔曲线将标量参数t[0，1]映射到R∆中的点。我们对车道图的2D曲线感兴趣，因此∆ =2。该曲线可以被写为控制点P=P0，P1，…其中P是R2。给定控制点，由t参数化的曲线B被定义为nn（1t）n− ktkPk。更多Com-基于紧凑矩阵的公式简单地为B（t）= Γ（t，n）P，其中Γij（t，n）=n（1-ti）n-jtj表示权重矩阵，并且P =[P0，P1，...，是所有控制点的向量。利用该表示，在给定一些观察点Y =[Y0，Y1，…，Y2，…，Y3，…，Y4，…，Y5，…，Y6，…，Y7，…，Y8，…，Y9，…，Y10，…，Y11，…，Y12，…，Y13，…，Y14，Y13，…，Y14，Y15，…，Y15，Y16， YT]相当于解决最小二乘问题，即，P*=arg minPΓ（t）PY。贝塞尔曲线是一个很好的适合中心线，因为它允许我们建模的曲线任意具有固定数量的2D点的长度。因此，给定我们的图和中心线表示，整个车道图具有固定大小的可学习表示，其中网络可以根据贝塞尔控制点学习中心线以及图的连接性。3.2. 对象表示我们的方法还产生对象实例检测，以补充车道图，并给出一个完整的交通场景认识不同于语义分割，实例输出定位和识别单个对象。我们将每个实例表示为归一化BEV坐标中的2D框为了完全指定这样的框，需要五个参数：中心点的位置、短边和长边长度以及航向角。从这些参数，它是到四个角点位置的简单转换，反之亦然。除了本地化和定向的实例，我们还产生他们的语义/对象类使用一个热表示。给定该表示，实例被完全标识。3.3. 架构我们已经将每个中心线和对象实例建模为固定大小的向量。因此，我们可以在提案生成和分类的框架内工作。这已被广泛用于实例分割和对象检测领域[38，15，7]。我们的公式的一个关键性质是不同中心线之间的强关系，因为它们形成车道图。但是，中心线和对象之间也存在很强的关系，因为在交通场景中，对象遵循中心线。为了充分利用这种依赖性，我们调整了[7]中提出的基于变换器的模型，这允许我们训练一个用于车道图和对象理解的联合模型。[7]中提出的基于变换器的对象检测器使用图像主干特征和可学习的查询向量来生成对象建议。我们遵循类似的方法，但是我们使用两组学习的查询向量QRC：一组用于中心线，一组用于对象。这些向量的数量大于任何场景中可能出现的最大中心线/对象这些查询向量由Transformer联合处理，转换器为每个查询输出建议向量。这些矢量编码所需的所有信息，以充分识别中心线或对象。这些建议向量中的每一个被进一步处理以生成输出。该处理在单独的车道和对象分支中完成总体架构如图所示。3 .第三章。图像查询原始ESTGT合并EST15664×个∈∈×个Σ×××个--×× ×3.3.1Lane branch处理Transformer的输出向量的两个分支中的第一个是通道分支，其具有四个部分：检测头：Transformer输出由具有输出softmax层的多层感知器（MLP）处理。该输出给出了由对应的查询向量编码的中心线存在的概率控制头：具有2个R输出神经元的MLP + S形层，对R贝塞尔曲线控制点进行编码。协会负责人：输出δ维的MLP针对中心线向量中的每一个，计算关联特征向量，其中δ C<。分类器使用这些关联特征来建立估计的中心线的连接性。关联分类器：MLP + sigmoid层，其将对应于两条中心线的两个δ维关联特征向量作为输入。该层输出输入中心线对相关联的概率作为估计图的第一步，我们提取单独的中心线。这是通过检测和控制来完成的构造标准部件.这些线形成图G=（V，E）的顶点V。给定N条中心线被选择，对应中心线的特征向量由关联头处理以产生低维关联特征向量F RNX δ。然后，我们得到关联输入 ARN× N ×2δ ，其中 Aij=concat（[Fi，Fj]）.该输入对图的方向性质进行MLP处理矩阵A以产生关联矩阵概率。注意，MLP具有2δ的输入维度，并且N N是批大小。因此，对建议的中心线数量在训练过程中，我们首先输出中心线控制点和检测概率，并在估计和地面实况（GT）中心线之间应用匈牙利对匹配的估计执行关联步骤。在推理过程中，我们阈值的检测概率的中心线，并进行关联步骤上的活动线。3.3.2对象分支处理Transformer建议向量的第二个分支是对象分支。该分支由两个模块和一个可选的后处理网络组成。检测头：Transformer输出由具有softmax输出层的MLP处理，以产生类别概率分布，包括5参数头：一个MLP + sigmoid层，用于生成定向对象框的规范化参数。细化网：虽然实例输出适用于许多任务，但产生场景的语义分割图也是有益的。这对于像行人和自行车这样的小物体尤其如此，其中来自单个车载摄像机的BEV中的局部化是困难的。ficult因此，我们提出了一个可选的后处理网络，使用我们的细化网络将实例估计转换为语义分割。细化网络的结构类似于[6]的BEV解码器，其中较低分辨率的输入被放大以提供细粒度的分割图。该网络的运行方式如下：存在包括背景的C+ 1个类，并且感兴趣的区域是H-W维的。我们首先将5-params输出转换为一个框，并将此框与类概率相乘。这导致维度为的矩阵M其中，对于落在边界框中的所有网格位置（h，w），iMh，w，i=1，否则为0。然后我们对所有这些矩阵求和并将它们裁剪为（0，1）。结果也是尺寸H W（C+ 1）。为了通知细化网络关于图像中的视觉线索，我们还包括主干特征。由于边界框位置在BEV坐标中，因此我们将主干特征扭曲到BEV并且在上采样中使用扭曲的跳过连接。3.3.3BEV位置嵌入由于变换器没有位置的概念，因此使用位置嵌入（PE）来添加空间感知。我们使用两种不同的位置嵌入的变压器。第一个编码图像域空间信息，其中类似于[7]，我们在归一化累积位置上使用正弦函数。第二组位置嵌入对给定像素的对应BEV位置进行为此目的，我们假设平坦表面，其中每个真实世界点具有高度Ch，其中Ch是相机高度。所得到的网格在对应于接近相机的真实世界点的图像坐标中非常密集，而对于更远的位置则稀疏。为了向网络提供更均匀的位置线索为了生成位置编码，我们取累积和，归一化，并将其转换为正弦曲线。我们设计了两个位置嵌入（图像和BEV），使得它们是输入特征图的通道大小的一半。因此，我们可以将图像位置嵌入添加到一半通道，而将BEV位置嵌入添加到另一半通道。这种设计选择的主要原因是BEV坐标对于图像的上半部分是未定义的，但是它们仍然保持关于该区域中的对象的网络的重要线索简单地添加这两个位置嵌入将导致图像的下半部分中的重复和不一致的我们将这种双重位置嵌入的使用称为分裂位置编码。3.3.4培训由于车道和对象分支都产生类似检测的输出，因此我们在训练期间对估计和地面实况使用匈牙利匹配匹配损耗15665|- -||−|∈HP、HR、LDHP、LR、HD LP、HR、LDa）、b）、c）、d）e）TP连接FN连接TP FP连接图4.查准率-查全率检测（a，b，c）和连接性度量（d，e，f）的一些示例。蓝线是真实的中心线，橙色是估计值。绿/红点分别表示起点和终点。黄色点表示连接，仅在从绿色到红色的方向上有效。H/L是指高/低，而P=精度，R=召回率，D=检测。a）4行中有2行丢失，但匹配的行是准确的。b）匹配的真线比产生假阴性的估计长。c）所有估计都与一条真实的线相匹配（注意最左边估计上的端点颜色），在产生假阳性的同时没有为假阴性留下空间。d）和e）分别显示真阳性和假阴性连接性。f）一个连接是真阳性，但最上面的连接是假阳性。用于车道和对象的方法类似。两者都具有Lm=LCE+λL1的形式，其中LCE是检测/分类概率上的交叉熵损失，并且L1分别是线和对象的贝塞尔控制点位置/盒参数上的1范数损失对于中心线和对象分支，训练检测损失是交叉熵。控制点和对象5参数输出使用L1损失进行训练，对象的角度除外由于180◦物体翻转很难区分，我们只预测α[0，π]范围内的角度，并使用Langle=cos（2α） cos（2）+ sin（2α）sin（2）形式的平滑sin/cosL1损失来训练它，其中是GT角度。我们使用交叉熵损失独立地训练细化网络，而不是通过网络的其余部分反向传播。4. 度量由于我们的问题设置是新的，因此缺乏合适的性能评估指标。我们希望忠实地测量在再现真实有向图方面的性能为此，我们使用三个指标，旨在突出不同方面的有向图。4.1. pr曲线在[24，17]之后，我们计算了不同距离阈值下匹配中心线的精确度-召回率。我们首先将每个估计与Bezier系数上的最小L1因此，类似于[24]，多个估计可以与同一目标匹配，而每个估计只能与一个目标匹配。然后对估计的系数进行插值得到稠密中心线。注意，在匹配期间使用控制点与使用内插点根本不同，因为基于控制点的匹配考虑了方向。因此，如果内插点匹配，则只有控制点顺序颠倒（起点和终点交换）的两条中心线然而，在我们的控制点匹配方法中，它们相距甚远。在基于控制点匹配然后插值之后，真阳性是在到匹配GT线的阈值距离内的估计插值点，否则是假阳性。假阴性是GT线上不在任何匹配的估计线的阈值距离内的点注意，该度量不对遗漏的中心线进行归一化，即，与任何估计值不匹配的真实中心线。这是有意的，因为该度量的焦点是测量估计值与匹配的GT中心线的拟合程度以及捕获的子图被表示的准确程度。4.2. 检出率为了测量在精确度-召回度量中存在的遗漏中心线的上述问题，我们计算检测率。这仅仅是在GT中心线的总数上至少一条估计线匹配的唯一GT中心线的数量高的精确-召回分数和低的检测分数意味着估计的中心线接近匹配的真实中心线，但GT中心线的相当大的一部分未被检测到。逆意味着估计的中心线覆盖真实的道路网络，但不忠实地表示结构。这两个度量总结了全图G的顶点上的性能。然而，我们仍然缺乏一个度量来评估图的边缘上的性能，即，连接性。4.3. 连接为了衡量如何以及估计的中心线相关联，我们提出了一个基于精度召回的度量，称为连接度量。设估计的二元关联矩阵为E，GT关联矩阵为I.令M（i）是第i个估计所匹配的目标的索引，并且S（n）是与目标n匹配的估计的索引的集合。正项Eij是真正项，如果（M（i）==M（j））|（I（M（i），M（j））== 1），以及f）15666×个假阳性否则。另一方面，假否定是关联矩阵Im，n的正条目，其中（i，j）：（（i∈S（m））（j∈S（n））（Ei，j== 1））.该度量捕获估计图的连接模式与GT图的接近程度。利用该度量，将真实中心线分割成多个估计不是问题，只要它们相关联。一些图表-图像初始GT初始估计合并GT三种度量的图解如图所示。4.第一章5. 实验5.1. 数据集我们使用NuScenes [4]数据集，该数据集由在波士顿和新加坡记录的1000个序列组成。序列以2 Hz注释，并且数据集以中心线的形式提供HD-Map。该数据集还提供了23个对象类的3D边界框。对于我们的实验，我们选择最频繁的类：汽车、卡车、公共汽车、脚踏车、自行车和摩托车。我们只在训练和评估时使用前置摄像头。给定特定中心线的一组真实世界坐标，我们首先将这些坐标转换为当前参考帧的相机坐标系。我们用目标BEV图分辨率重新采样这些点，并丢弃感兴趣区域（ROI）之外的任何点。然后，在给定ROI的边界的情况下，将点转换为归一化坐标。这导致[0，1]之间的一组点，从中我们提取贝塞尔曲线的控制点地面实况标签和估计值在归一化的控制点坐标中。5.2. 执行我们使用尺寸为448 x800的图像，并且目标BEV区域在X方向上从-25至25 m延伸，并且在z方向上从1至50 m延伸。BEV分辨率设置为25cm。给定道路的常见结构，表示中心线段的曲线的可能复杂性是有限的。因此，我们使用三个Bezier控制点。我们对中心线和对象使用两组100个查询向量：一个用于右侧（波士顿），一个用于左侧交通（新加坡）。骨干网络是在Cityscapes数据集[11]上预训练的Deeplab v3+ [10]。实现在Pytorch中。该方法以11FPS运行，而不进行批处理，并且包括所有关联和细化步骤。5.3. 基线由于不存在任何处理来自单目图像的结构化BEV道路网络估计的方法，因此我们生成了两个基线。第一个基线基于[17]，其中作者从点云生成车道我们调整他们的方法来处理图像和输出中心线，而不是车道边界。图5.基于Polyline-RNN的方法首先提取初始点估计。Polygon-RNN使用主干特征和初始点估计来形成中心线曲线。为了实现这一点，我们利用GT投影矩阵将图像的Deeplabv3+[10]骨干我们将x-y网格位置与该主干特征图连接，类似于[28]。一个子网与一个完全连接的层在其核心需要这个输入和输出的49 - 50点的网格。我们测试了一个类似于原始工作的卷积RNN，但由于FOV受限，在我们的设置中没有取得令人满意的结果。请注意，从聚合LIDAR扫描中找到高速公路上的车道边界的原始任务与在城市交通场景中找到初始中心线点有很大不同。此外，RNN需要过多的迭代，特别是考虑到一个帧包含超过40条中心线。因此，我们使用了由几个残差块支持的全连接层，参见图1B。五、给定初始位置和主干特征，Polygon-RNN [1]生成中心线的下一个控制点。我们将Polygon-RNN的迭代次数固定为用于编码中心线的样条系数的数量。我们使用焦点损失[27]进行初始点估计，并使用L1损失来监督Polygon-RNN的控制点估计。在训练中，Polygon-RNN使用类似于[17]的GT初始点。为了进行测试，我们对网络的初始点估计进行阈值化，并将其馈送到Polygon-RNN。为了指示交通的方向，我们向初始点估计器馈送二进制指示变量。关联估计是使用Polygon-RNN的最终特征图完成的，使用与我们的网络相同的方法。作为参考，我们还报告了使用GT初始点的Polygon-RNN的结果。对于我们的第二个基线，我们使用[23]的SOTA方法提取车道边界使用GT变换将提取的车道边界投影到BEV网格上。给定这些车道边界，我们形成最接近的对，并使用样条计算中心线。由于这种方法没有给我们一个方向，我们使用预测和翻转的中心线版本在评估过程中，这意味着PINET匹配是无方向的。在某种意义上，PINET估计是手动分配正确的方向。为了评估我们的方法我们使用在[40]中提出的相同的train/val分割来处理两者骨干ResBlock（x3）下采SkipPolygon-RNNResBlock（x3）密集关联合并Est15667图像PINETPoly（Est）聚乙烯（GT）我们的GT图6.样本中心线估计值。PINET边界估计显示在图像上。我们的方法产生最好的车道图表示。各样品的统计结果见补充材料。图7.精确度/召回率与阈值。阈值在[0.01，0.1]（归一化坐标）中以0.01增量均匀采样。在我们的分辨率中，0.01对应于50cm。车道图和对象检测。我们还遵循[40]的对象标签生成过程。为了比较结果，我们使用mIOU度量。尽管如此，为了将来的参考，我们也提出了精确召回的结果。6. 结果由于我们的方法产生一个道路网络图以及动态对象实例估计，我们将结果分为两个部分，分别研究它们6.1. 车道图获得的结果见表1。图1和图7，其中我们的方法在所有满足条件的情况下实现了最佳结果。rics与基线相比。性能的PINET较低，正如预期的那样，因为中心线是通过处理通道边界获得的。从Poly（Est）与Poly（GT）的结果可以看出，初始点的定位是非常困难的。我们的方法比Poly（Est）产生更好的精确度-召回率，并且检测和连接分数的差异是显着的。Poly（Est）在连接性度量，特别是连接性回忆方面受到影响并不奇怪。该度量与检测分数密切相关，并且错过中心线会受到惩罚。我们的方法精确地估计图。Poly（GT）在查准率-查全率和检测指标上的优越性是可以预期的。由于大多数中心线相对较短，并且与初始点的偏离然而，其性能验证了所选基线的强度。方法M-Pre M-Rec 检测C-前 C-Rec C-IOUPinet54.145.619.2---聚（酯） 54.751.240.558.416.314.6我们60.754.760.660.552.238.9聚乙烯（GT）70.072.376.453.852.036.0表1.泳道图结果。M-Prec和M-Recall表示精确度-阈值和召回-阈值曲线的采样点的平均值，见图。7.第一次会议。C-Prec和C-Rec指的是连通性查准率和查全率，而C-IOU是连通性TP/（TP + FP + FN）。泳道图的视觉结果见图1B。六、目视检查表明，我们的方法通常会产生更好的结果。在最后一幅图像中，我们的方法漏掉了一些中心线.总的来说，我们的方法产生更忠实的代表。另一方面，Poly（GT）产生在欧几里得意义上稍微接近匹配GT线的然而，总体图估计比我们的差。这显示了我们的方法超过 Poly（GT）的连接性度量的能力。6.2. 对象在选项卡中。3、将网络的精化净输出与SOTA方法进行了比较。其他方法通常会产生稍微多一点的类的估计值。然而，考虑到我们生成结构化实例输出以及通道图，我们选择了最常见但最全面的类集。我们的方法超过PON在一半的类和平均措施。特别是，在“汽车”类别中的差异对象估计的视觉结果在图中给出8.竞争的方法倾向于斑点分割和15668图像VPNPON我们的原料我们的精制GT图8.对象检测的视觉结果，我们提出了原始和精细的估计。我们还显示了道路网络估计。方法M-preM-rec德泰克Con-IOU车卡车总线PED电机自行车目标均值大57.253.958.841.020.011.713.91.92.21.48.5大号+分体59.956.852.840.820.010.116.81.92.80.88.7大+拆分日志60.754.760.638.921.811.014.52.13.82.19.2小58.254.261.241.922.010.715.12.02.91.79.1小型+分体57.554.260.941.320.610.114.02.04.12.38.9小型+拆分日志58.953.661.537.822.610.917.62.43.22.99.9表2.烧蚀进行测试的模型尺寸和位置嵌入的性能贡献的六个模型对象结果不带精化网，以mIOU的形式表示。方法车卡车总线PED电机自行车是说VED8.80.20.00.00.00.01.5VPN25.517.320.07.15.64.413.3PON24.716.820.88.27.09.414.5我们32.515.721.26.27.46.414.9表3.对象导致不同方法的mIOU图9.对象检测的精确度/召回率与IOU阈值。我们应用匈牙利匹配IOU获得相应的估计GT对。如果IOU高于阈值，则为真阳性。其他GT对象被计为假阴性，而其他估计被计为假阳性。使得更难分离实例。与我们的原始估计相比，我们的细化净输出也遭受相同的现象。尽管如此，我们改进的估计在mIOU最大化和实例分离之间取得了很好的平衡。6.3. 消融我们试验了两种Transformer尺寸。小模型具有两个编码器层和树解码器层，而大模型具有四个编码器层和四个解码器层。我们尝试使用vanilla位置嵌入和我们的分裂嵌入，有和没有采取对数。结果在Tab中给出。2，其中对象结果以mIOU为单位，没有细化网络。我们观察到，我们的分裂嵌入与日志有助于对象，精度和检测分数，而它会导致连接IOU下降。总的来说，差异相当小.由于其在对象和车道结果中的良好的总体性能，我们选择“大+分裂日志”模型作为最终模型。将所选模型的目标结果与加细网前后的结果进行比较Refinement- ment net将性能提升5.7点（mIOU）。7. 结论我们提出了一种新的可学习的表示lo-基于有向图和Bezier曲线中心线的道路网络。该表示用于训练基于变换器的神经网络架构，该神经网络架构从单个板载图像预测完整的车道图结构。我们还提出了一组指标，适合于评估所提出的基于图表示的结构化场景理解的性能。此外，随着车道图，我们的模型还提供了BEV对象实例，从而提供了一个全面的了解当地的交通场景。我们广泛的实验比较parisons与强大的基线证明了所提出的方法的优越性能，在车道图和对象检测任务。鸣谢：作者感谢丰田汽车欧洲公司（TME）的大力支持.15669引用[1] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在2018年IEEE计算机视觉和模式识别会议，CVPR2018，美国犹他州盐湖城，2018年6月18日至22日，第859IEEE计算机学会，2018年。二、六[2] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit S. 奥加尔Chauffeurnet：通过模仿最好的和综合最坏的来学习驾驶。在 Antonio Bicchi 、 Hadas Kress-Gazit 和 SethHutchinson的编辑，Robotics：Science and Systems XV，University of Freiburg，Freiburg im Breisgau，德国，2019年6月22日至26日，2019年。一个[3] Anil Batra，Suriya Singh，Guan Pang，Saikat Basu，CVJawa- har，and Manohar Paluri.通过方向和分割的联合学习改进道路连通性在IEEE/CVF计算机视觉和模式识别会议论文集，第10385-10393页，2019年。二个[4] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。1、6[5] Yigit Baran Can、Alexander Liniger、Ozan Unal、DandaPaudel和Luc Van Gool。使用机载单目摄影机理解鸟瞰图语义高清地图。arXiv预印本arXiv：2012.03040，2020。二个[6] Yigit Baran Can、Alexander Liniger、Ozan Unal、DandaPani Paudel和Luc Van Gool。使用机载单目摄影机理解鸟瞰CoRR，abs/2012.03040，2020。四个[7] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在Andrea Vedaldi ， Horst Bischof ， Thomas Brox 和 Jan-Michael Frahm编辑，计算机视觉-ECCV 2020-第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第一，计算机科学讲义第12346卷，第213-229页Springer，2020年。三、四[8] Sergio Casas Abbas Sadat和Raquel Urtasun Mp3：一个统一的模型来映射，感知，预测和计划。arXiv预印本arXiv：2101.06806，2021。一个[9] Dian Chen，Brady Zhou，Vladlen Koltun，and Philipp Kr ？ henb ？ hl.通过作弊来学习。机器人学习会议（CoRL），2020年。一个[10] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在VittorioFerrari ， Martial Hebert ， Cristian Sminchisescu 和 YairWeiss，编辑，计算机视觉- ECCV 2018 -第15届欧洲会议，德国慕尼黑，2018年9月8日至14日，Proceedings，第 VII ，计算机科学讲义第 11211 卷，第 833-851 页Springer，2018. 六个[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在proc15670IEEE计算机视觉与模式识别会议（CVPR），2016年。六个[12] Henggang Cui ， Vladan Radosavljevic ， Fang-ChiehChou ， Tsung-Han Lin ， Thi Nguyen ， Tzu-KuoHuang，Jeff Schnei-der，and Nemanja Djuric.使用深度卷积网络进行自动驾驶的多模式轨迹预测。在机器人与自动化国际会议（ICRA），第2090-2096页，2019年。一个[13] A Fortier，Djemel Ziou，Costas Armenakis和S Wang。航空和卫星图像中道路提取工作综述。加拿大安大略省地形信息地理信息中心。技术报告，241（3），1999年。二个[14] Sour a vGa r g ， N ik oSünderhauf， FerasDayoub ， DouglasMorrison ， Akansel Cosgun ， Gustavo Carneiro ， QiWu，Tat- Jun Chin，Ian Reid，Stephen Gould，et al.机器人映射，感知和交互的语义：一项调查。arXiv预印本arXiv：2101.00443，2021。一个[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具R-CNN，2017年。cite arxiv ：1703.06870评论：开源;附录更多结果。三个[16] Noureldin Hendy，Cooper Sloan，Feng Tian，PengfeiDuan，Nick Charchut，Yuesong Xie，Chuang Wang，and James Philbin.渔网：网格中语义热图的未来推断。arXiv预印本arXiv：2006.09917，2020。二个[17] NamdarHomayounfar ， Wei-ChiuMa ， ShrinidhiKowshika Lakshmikanth，and Raquel Urtasun.用于结构化在线地图的分层递归注意网络在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6月18日至22日，第3417-3426页IEEE计算机学会，2018年。二、五、六[18] NamdarHomayounfar ， Wei-ChiuMa ， ShrinidhiKowshika Lakshmikanth，and Raquel Urtasun.用于结构化在线地图的分层递归注意网络。在IEEE计算机视觉和模式识别会议论文集，第3417-3426页，2018年。二个[19] Namdar Homa

下载后可阅读完整内容，剩余1页未读，立即下载