城市环境中车道实例分割的数据集

53 浏览量更新于2023-10-13 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

城市环境中车道实例分割的数据集Brook Roberts、Sebastian Kaltwang、SinaSamangooei、Mark Pender-Bare、Konstantinos Tertikas和John RedfordFiveAI有限公司英国剑桥CB2 1NS{brook，sebastian，sina，mark.pender-bare，konstantinos，john}@five.ai抽象。自动驾驶车辆需要了解周围的道路布局，这可以通过最先进的CNN来预测这项工作解决了目前缺乏用于确定车道实例的数据的问题，这些车道实例是各种驾驶操作所需的主要问题是耗时的手动标记过程，通常针对每个图像应用。我们注意到，驾驶汽车本身就是一种注释形式因此，我们提出了一种半自动化的方法，允许有效的标签的图像序列，利用估计的道路平面在3D的基础上，汽车已经驱动和投影标签从这个平面到所有图像的序列。每个图像的平均标记时间减少到5秒，并且仅需要廉价的仪表盘凸轮用于数据捕获。我们发布了一个包含24，000张图像的数据集，并额外展示了实验语义分割和实例分割结果。关键词：数据集·城市驾驶·道路·车道·实例分割·半自动注释1介绍自动驾驶汽车有可能彻底改变城市交通。移动性将更安全、随时可用、更可靠、成本更低然而，我们仍然处于实现完全自主系统的开始阶段，仍然存在许多未解决的挑战[1]。一个重要的问题是让自动驾驶系统了解周围的空间：自动驾驶汽车需要知道周围的道路布局，以便做出明智的驾驶决策。在这项工作中，我们解决的问题，从安装在车辆上的摄像头检测行驶车道的情况。需要单独的、空间受限的车道实例区域来执行各种具有挑战性的驾驶操作，包括变道、超车和交叉路口。典型的最先进的CNN模型需要大量的标记数据来可靠地检测车道实例（例如，[2，3，4]）。然而，很少有标记的数据集是公开的，主要是由于耗时的注释过程;它需要从几分钟到一个多小时的图像[5，6，7]注释图像完全语义分割任务。在这项工作中，我们介绍了一个新的视频数据集的道路分割，自我车道分割和车道2B. Roberts等人非道路路非道路路埃戈莱恩一巷二巷城市环境中的实例分割。我们提出了一个半自动化的注释过程，减少了平均时间每幅图像的顺序秒。这种加速通过以下方式来实现：（1）注意到驾驶汽车本身是一种注释形式，并且汽车主要沿着车道行驶，（2）将手动标签调整从单个视图传播到序列的所有图像，以及（3）将手动标签调整从单个视图传播到序列的所有图像。(3)在不明确的情况下接受未标记的部分。以前的车道检测工作集中在检测车道边界的组成部分，然后应用聚类来识别作为一个整体的边界[8，9，10，2]。最近的方法使用基于CNN的分割[2，4]和RNN [11]来检测车道边界。然而，可见车道边界可能被遮挡或磨损的标记中断，并且其本身不与特定车道实例相关联。因此，我们在数据集中以车道实例标签为目标，这些标签提供了车道表面的一致定义（可以从中导出车道边界一些工作集中在道路标记[12]上，这些标记通常存在于车道的边界处。然而，需要额外的步骤来确定每条车道的面积大部分工作仅在专有数据集上进行了评估，只有少数公共数据集可用[13]。各种Fig. 1.来自我们数据集的示例图像（左上），包括道路（右上），自我车道（左下）和车道实例（右下）的注释。车辆下方的道路和车道即使被遮挡也会被注释未标注非彩色部分，即类是未知的。数据集包括作为检测任务的道路区域，以及许多其他语义分割类[14，5，15，16，6，7，17]。一些数据集还包括自我车道[18]，这对车道跟随任务很有用。很少有数据集提供车道实例[19，20]，这是更复杂的驾驶操作所需要的。Aly et. [19]提供了每个车道边界4个单个坐标的相对有限的注释。TuSimple [20]提供了大量的序列，但仅适用于高速公路驾驶。选项卡. 1提供了公开可用数据集的概述我们城市环境中车道实例分割的数据集3每个图像的平均注释时间低得多。然而，我们提供的类是不同的，因为我们专注于车道实例（因此忽略了其他语义分割类，如车辆，建筑物，人等）。此外，我们的数据提供了道路表面注释在密集的交通情况下，尽管闭塞，即我们在车辆下方提供道路标签（见图①的人。这与典型的语义分割标签不同，典型的语义分割标签为遮挡对象提供标签[14，5，15，16，6，7]。另一种有效获得标签的方法是创建一个虚拟世界，其中所有内容都是先验已知的[21，22，23]。然而，目前的方法没有达到真实图像的保真度。表1.可用数据集的比较。每个图像的标签时间仅在作者提供时显示。许多数据集不仅以道路布局为目标，并且因此标记包括更多类别。#标记为img。道路自我车道标记时间名称年份帧#视频序列区域车道实例per img.JJJJ一仅单个图像被注释，但附加（非注释）图像提供了序列B道路区域由给定的车道隐式注释C注释地面而不是道路，即其包括不可行驶区域。D仅限于三种情况：自我车道和自我车道的左/右。一些先前的工作旨在在自动驾驶场景中创建半自动化对象[24，17]使用运动恢复结构（SFM）来估计场景几何形状和动态对象。[25]建议在鸟瞰图中注释[26]使用与Open- StreetMap的对齐来生成道路的地面实况。[27]允许道路和其他静态场景组件的3D激光雷达点云的边界框注释。然后，这些注释作为语义标签被反向投影到每个相机图像，并且它们报告了与我们类似的注释加速：每幅图像13.5秒。[28]建议在图像中检测和投影未来的驾驶路径，而不关注车道注释。这意味着路径不适应车道宽度，并且跨越车道和交叉点。两者[27，28]都需要昂贵的传感器套件，其包括校准的相机和激光雷达。相比之下，我们的方法是适用于从GPS启用仪表盘凸轮的数据。本工作的总体贡献包括：（1）发布了用于车道实例和道路分割的新数据集，（2）用于车道实例和道路分割的半自动化注释方法。加州理工学院车道[19]20081,2244JB-J-CamVid [14，5]20087014JJ- -20分钟Yotta [15]德国马克[16]20122013865001-J-JC- -- -[18]第十八话2013600--JJ- -[17]第十七话20131,287--J-- -城市景观[6]（罚款）城市景观[6]（粗糙2016）2016年5,00020,000--一一JJ---90分钟-7分钟[7]第七话201720,000--J--94分钟4B. Roberts等人（3）尽管有遮挡，但在密集交通场景中的道路表面注释，以及⑷使用CNN的道路、自我车道和车道实例分割的实验结果。2视频采集视频和相关的GPS数据是用标准的Nextbase 402G仪表盘摄像头以每秒30帧的速度以1920x1080的分辨率拍摄的，并用H.264标准压缩。摄像机安装在汽车挡风玻璃的内侧，大致沿着车辆的中心线并且大致与运动轴线对准。图1（左上）显示了我们收集的数据的示例图像。为了去除汽车移动非常缓慢或静止不动的部分最后，我们将记录的数据分割成长度为200m的序列，因为较小的序列更容易处理（例如不需要关键帧束调整，以及更快的加载时间）。3视频注释初始注释步骤是自动的，并提供3D空间中的路面估计值，以及自我车道的估计值（参见第2节3.第三章。①的人。然后手动校正估计，并在路面空间中添加进一步的注释。然后将标签投影到2D相机视图中，允许一次注释序列中的所有图像（参见第2节）。3.第三章。2）的情况。3.13D中的自动自我车道估计给定来自具有未知内部和外部参数的摄像机的N帧的仪表盘摄像头视频序列，目标是确定3D路面并将自我车道的估计投影到该表面上。为此，我们首先应用OpenSfM [29]，一种运动恢复结构算法，以获得每个帧i∈ {1，… N}，以及包括估计的焦距和失真参数（Ri∈R3×3是3D旋转矩阵）的相机投影形式P（·）。OpenSfM重建并不完美，并且在手动注释过程中过滤了失败案例我们假设道路是嵌入在3D世界中的2D流形。道路的局部曲率较低，因此车轮的取向提供了对局部表面梯度的良好估计摄像机固定在车辆内，具有从当前道路平面的静态平移和旋转（即，我们假设车身跟随道路平面并且忽略悬架运动）。因此，在帧i处摄像机下方的道路上的地面点gi被计算为gi = ci +h Ri n，其中h是摄像机在道路上方的高度，并且n是道路相对于摄像机的表面法线（参见图2）。二、左）。左和右自我通道边界b_left、 b_right然后可以被导出为我我城市环境中车道实例分割的数据集5我我我图二. 估计帧i处的车道边界点b左、b右。ci是卡梅拉我我其中，g是在帧i处的位置（经由SfM获得），gi是在摄像机下方的道路上的点，h是摄像机在道路上方的高度，f是向前方向，n是道路平面的法向矢量，r是跨车道的水平矢量（f、n和r是W左、W右是到左侧的距离，W右是到左侧的距离，W右是到左侧的距离，W左是到左侧的距离，W右是到左侧的距离，右是到左侧的距离，W左是到左侧的距离，W右是到左侧的距离，W左是到左侧的距离，W右是到左侧的距离，W右是到左侧的距离，W左是到左侧的距离，W右是到左侧的距离，W右是到左侧的距离，W左是到左侧的距离，W右是到左侧的距离。我我右自我通道边界。b左 = gi +w左 Ri ri i（1）bright = gi +wright Ri r我我其中r是道路平面内的向量，其垂直于驾驶方向，并且w_left、w_right是到左和右自我车道边界的偏移我我见图2（右）为例。我们做一个简单的假设路面垂直于汽车运动的方向是平坦的（但是我们不认为在道路上通常是平坦的-如果我们的自我路径在山丘上，这在我们的给定帧i，我们可以投影所有未来车道边界bj（bj∈{b左，b右}J J并且j > i）通过以下方式bj=P .ΣR−1（bj−ci）（二）其中P（）是经由OpenSfM [29]获得的相机透视变换，其将相机坐标中的3D点投影到图像中的2D像素位置。然后，可以将车道标注绘制为相邻未来的多边形弗拉姆埃斯岛e. withecornerpointsbleft，bright，bright，bleft. 这是一个非常重要的问题。j j j+1j +1这是假设车道是分段直和单位之间的捕获图像. 在下面的部分中，我们描述如何得到量h，n，r，w左和w右。注意，对于具有相同相机位置的所有序列，h、n和r仅需要估计一次道路上方的相机高度h易于手动测量。但是，如果无法做到这一点（例如：对于从web下载的dash-cam视频），也可以使用估计的网格来获得摄像机的高度从OpenSfM获得的道路表面。对h的粗略估计是足够的，因为它是通过手动注释校正的，参见下一节。为了估计道路法线n，我们使用这样的事实，即当汽车移动到道路上时，车辆的速度将全部位于道路平面上，因此取它们的叉积将得到道路法线，见图133.第三章。令m，i，j是帧之间的归一化运动矢量6B. Roberts等人c −c我我i−1，ii和j，即，Mi、j=cj −ci. 帧i处的估计道路法线（在相机J I坐标）为n i= R −1（m i−1，im i，i+1），其中表示叉积（见图10）。（3）第三章。这个估计的质量在很大程度上取决于我们先前假设的正确程度为了获得更可靠的估计，我们对整个旅程中的所有n i进行平均，并通过叉积的大小隐式地对它们进行加权：n =Σ1N−2 niNΣ−2I=2（3）我们只能在转弯时估计法线，因此这种加权方案图三.在单个帧i处的道路法线ni和前向fi的估计。最终估计是所有帧上的聚合。强调急转弯而忽略了直线部分。r垂直于前进方向f并且在道路平面内，因此r =f n（4）剩下的唯一量是f，如果转弯率很低，可以利用m i−1，i+1近似平行于ci处的切线这一事实导出。因此，我们可以通过f i=R −1 m i−1，i+1估计帧i处的前向点，见图3。至于正常值，我们对整个旅程中的所有fi进行平均，以获得更可靠的估计：1f=ΣIaINΣ−2I=2aifi（5）ai= max（mmi，i+1， 0）（6）在这种情况下，我们根据内积ai对运动进行加权，以便增加具有低转动速率的部件的重量，而最大值确保向前运动。w_left和w_right是获得所述组合物的正确对准的关键量我我带注释的车道边界（边界可见），但自动检测是不平凡的。因此，我们最初假设自我通道具有固定的宽度w而汽车正好在中心行驶，即，wleft=1w，wright=−1w我2我2对于所有帧都是恒定的。稍后（见下一节），我们放松了这个假设，并通过手动注释得到改进的估计在实践中，我们选择在道路平面内具有许多转弯的序列来估计n，并且选择直线序列来估计f。那么同样的价值观I=2城市环境中车道实例分割的数据集7被重新用于具有相同静态相机位置的所有序列。我们只注释序列的第一部分，直到距离末端100米。我们这样做是为了避免序列的最终帧上的部分注释，这是由于给定帧前面剩余的车道边界点太少而导致的。在算法1和算法2中提供了自动化自我车道注释过程的概述。自动边界点估计的可视化显示在图1中。4（蓝色）。算法1自动自我车道估计1：测量摄像机在道路上方的高度h2：应用OpenSFM以获得ci，Ri3：根据等式2估计道路法线η（三）4：根据等式4估计前向方向f（5）5：根据等式（1）导出穿过道路r的矢量（四）6：设置wleft=1w和wright=−1w，其中w是默认车道宽度我2我27：根据等式7导出边界点b左、 b右（一）我我8：对于每一帧我做9：Getallfutureborderpointsbleft，bright，j>iaccordingEq. （二）J J10：Drawpolygonswithithedgesbleft，bright，bright，bleftj jj+1j+13.2手动更正和附加注释手动注释有三个目的：（1）排除错误的OpenSfM重建，（2）以改进对自我车道的自动估计，（3）注释自我车道左侧和右侧的附加车道，以及（4）注释非道路区域。OpenSfM失败发生了几次，但它们很容易被注释器发现，随后从数据集中排除。为了改善自我通道的位置，注释者提供了一个方便的界面，编辑h，wleft和wright。请注意，这些量只是标量（相反我我到3D点），因此可以通过键盘输入轻松进行调整我们提供现场渲染视图在一个特定的帧（见图）。5，左），并在更改后立即提供反馈。而且，在序列中向前或向后移动是容易的。为了改善自我通道，注释者可以选择：1. 调整h（适用于整个序列）2. 向左调整所有w或向右调整所有w（适用于整个序列）我我3. 从当前帧i开始调整所有w向左或所有w向右，j > i（适用于J J相对于当前视图的所有未来为了保持接口的低复杂性，一次只编辑一个标量。我们观察到，在一个典型的驱动器，汽车是平行于自我车道的大部分时间。此外，车道在大多数情况下具有恒定的宽度。如果两者都成立，则使用（2）编辑整个车道边界就足够了。8B. Roberts等人我我我我我见图4。车道估计的可视化，从上面看。自动估算显示为蓝色，而手动校正显示为红色。手动注释的附加泳道以绿色显示最初，所有wleft和wright都被设置为一个常数我我值，并且因此估计平行于仅近似地遵循真实的车道边界（蓝色）。然后，注释器可以为每个帧校正w左和w右，这将沿着r移动边界点（如黑色虚线所示），直到它们与真正的边界（如红色所示）对齐。此外，注释器可以添加额外的（非自我）通道并调整其宽度w非自我。顺序只有在汽车偏离平行路径或车道宽度改变的情况下，注释器才需要选项（3）。新的车道可以通过简单的按钮点击放置在当前车道附近。这会在当前通道的左侧或右侧生成b个非自我的新序列（参见4）。至于自我通道，注释者可以调整相应的非自我。等效地，非道路表面可以以如同其是车道的相同方式添加到当前车道旁边，即通过得到它自己的一套b非自我和w非自我的关系。除此之外，图像顶部的固定部分我我可以用非道路注释，因为道路通常位于下部（除了非常多山的地区或极端的相机角度）。图5（左）显示了注释器使用的接口。在图像的中心，可以看到自我路径投射到这个框架中。在左下角，注释器提供了操纵渲染车道的控件（缩小、加宽、向左或向右移动、移动车道的边界等）。增加新的车道。在屏幕的右上方（不可见），注释器被提供有调整相机高度的手段，以将重建匹配到路面和裁剪高度，以排除车辆仪表板或发动机罩。所有注释都在估计的3D道路平面中执行，但通过2D相机视图中的投影提供即时反馈。注释器可以轻松地在序列中向前和向后跳过，以确定标签是否与图像对齐，并在需要时进行更正已纠正序列的示例城市环境中车道实例分割的数据集9图像的上部，注释为非道路车道边界非道路额外泳道1自我车道额外泳道3额外泳道2车道中心呈现控件，以将更改投影到序列中的所有帧中带有控件的当前渲染车道列表图五.注释器与自动初始自我车道估计的接口，由未来驾驶路径（左）以及手动校正和附加车道注释后（右）给出。红色的文字和线条是覆盖的描述，所有其他颜色都是界面的一部分。示于图4（红色）。图1示出了渲染的注释的示例，并且补充材料包含示例视频。4数据集统计和拆分完整的注释集包括402个序列，总共23，979个图像，并且因此平均每个序列60个图像选项卡. 3b显示了所包括的注释类型的细分总共有47，497个标注的泳道实例，即每个序列118.2。实例ID在整个序列中是一致的，即连续帧将使用相同通道的相同实例ID。此外，注释者已经被指示根据场景类型对每个序列进行序列的细分见表1。3a. 我们计划在新序列可用后更新数据集我们将数据分为两组，用于训练和测试。训练集包括360个序列和总共21，355帧，而测试集包括42个序列和2，624帧。选择测试集以包括与列车集相同的城市/高速公路/农村分布。使训练集的帧与图像和注释两者一起可用1，而仅图像与注释一起可用1。为测试集提供此外，我们还测量了每个场景类型的平均注释时间，并发现存在很大的变化，城市场景的时间大约是类似长度的高速公路或乡村场景的3倍（见表1）。（3）第三章。这是由于道路布局的复杂性不同，这是由各种因素引起的：交叉口和辅路的频率，车道结构的整体复杂性以及其他特征，如交通岛和自行车道，这些特征通常在城市环境之外找不到。1在线https://five.ai/datasets10B. Roberts等人表2.根据场景类型（a）和注释覆盖率（b）的数据集细分。场景类型和实例的覆盖率被测量为序列总数的百分比，而注释的覆盖率被测量为像素总数的百分比场景类型注释类型城市58.61%注释密度77.53%公路百分之十点五六非道路62.13%农村30.83%路百分之十五点四（一）自我通道8.84%平均值/中位数/最小值/最大值实例数（每个序列）2.2/2/1/6（b）第（1）款表3.平均注释时间表4.注释者协议以秒任务IoU标准场景类型城市公路乡村按顺序361 100140每图5 2 2公路vs非公路97.2 ± 1.5自我vs公路vs非公路94.3 ± 3.4AP@50 AP车道实例分割99.0 84.4注释质量通过12个随机选择的序列上 84.3%的像素被至少1个注释者赋予了标签，其中67.3%的像素被两个注释者赋予了注释;即所有像素的56.8%被两个注释器给予注释。我们通过Intersection-over-Union（IoU）测量这些重叠标签的一致性，并使用平均精度（AP）和AP@50（实例IoU大于50%的平均精度）测量实例的一致性。结果见表。4. 在12个序列上计算标准偏差。5实验为了证明使用我们的注释可实现的结果，我们提出了两个示例任务的评估程序、模型和结果：道路和自我车道的语义分割，以及车道实例分割。城市环境中车道实例分割的数据集115.1道路和自我车道分割3.2中描述的标签和数据直接允许两个分割任务：道路/非道路检测（ROAD）和自我/非自我/非道路车道检测（EGO）。对于我们的基线，我们使用了经过充分研究的SegNet [30]架构，该架构针对EGO和ROAD实验进行了独立训练。除了对我们的数据进行评估外，我们还提供了CityScapes（精细），Mapillary和KITTI Lanes的ROAD和EGO跨数据库结果。我们选择了一个简单的基线模型，因此总体结果低于针对相应数据集定制的模型报告的结果，如CityScapes，Mapillary和KITTI的排行榜所示。因此，我们的结果不应被视为性能上限。尽管如此，我们认为它们是模型如何在数据集上泛化的一个很好的指标。对于每个数据集，我们使用10%的训练序列进行验证。在训练过程中，我们对每个输入图像进行预处理，将其调整为330px的高度，并提取320× 320px的随机裁剪我们使用ADAM优化器[31]，学习率为0.001，在25，000步后衰减到0.0005，然后在50，000步后衰减到0.0001。我们训练了100，000个训练步骤，并选择了具有最佳验证损失的模型。我们的最小批量大小为2，并且对每像素交叉熵损失进行优化。我们为每个数据集和每个任务训练一个单独的模型这导致了4个模型的道路，训练我们的数据，城市景观（罚款），Mapillary和KITTI车道。EGO标签仅适用于KITTI Lanes的UM部分和我们的数据，因此我们为EGO训练了2个模型。对于每个模型，我们报告IoU，以及F1分数，因为它是KITTI的默认值。我们在每个数据集的数据上测量每个模型对于CityScapes和Mapillary，保留集是它们各自预定义的验证集，对于我们的数据集，保留集是我们的测试集（如第12节所定义）。3. 2）的情况。该方案的例外是KITTI车道，它非常小，并且没有可用的注释保留集。因此，我们使用整个集合来训练KITTI模型，并使用相同的集合来评估其他模型。我们报告每个任务的平均IoU和F1。请注意，我们从CityScapes数据中裁剪了汽车引擎盖和装饰品，因为它不存在于其他数据集中（否则结果会显着下降还应注意的是，由于对车辆堵塞道路的不同处理，结果与CityScapes、Mapillary或KITTI车道的预期评价不具有直接可比性。ROAD结果显示在选项卡中。5和表中的EGO结果。六、首先，我们注意到IoU和F1遵循相同的趋势，而F1的绝对值稍大。我们在数据集之间看到了明显的趋势。首先，当训练和测试子集来自相同的数据时，实现了最高的IoU。这就指向了一个总体的普遍化问题;没有数据集（包括我们自己的数据集）在其他数据上实现相同的性能。在KITTI上训练的模型显示了最差的跨数据集平均值。这并不奇怪，因为它也是最小的集合（它只包含289张ROAD任务的图像和95张EGO任务的图像）。城市景观做得更好，但与我们的差距仍然更大12B. Roberts等人和Mapillary，可能是由于较低的多样性。Mapillary在尺寸上和我们的差不多，达到了几乎相同的性能。略低的结果可能是由于其不同的视点，因为它包含从非道路视角拍摄的图像，例如人行道表5. ROAD任务的结果，通过IoU和F1评分测量。非对角线结果来自交叉数据集实验。该列确定模型在哪个集上进行训练，该行确定评估集的源报告的列平均值仅包括交叉数据集实验。IoU培训日期我们的马皮拉里CityScapes KITTI我们的测试集95.0 85.4 73.2 71.0Mapillary值82.9 90.0 79.6 69.6CityScapes值85.2 85.2 90.0 60.4KITTI列车83.8 72.6 74.6-跨数据集平均值84.0 81.1 75.8 67.0F1训练我们的马皮拉里CityScapes KITTI我们的测试集97.4 91.9 83.7 81.6Mapillary值90.4 94.7 88.3 81.0CityScapes值91.9 91.9 94.7 74.0KITTI列车90.9 83.5 84.8-跨数据集平均值91.1 89.1 85.6 75.8表6. EGO任务的结果，通过IoU和F1评分测量。KITTI我们的39.2 48.3表7.车道实例分割度量得分AP 0.250AP@50 0.5075.2车道实例分割每个图像的多个不同通道的注释（其数量在图像和潜在的序列之间是可变的）自然地暗示了一个实例。尽管由于“Stu f f“不可能实现，并且没有实现目标[32，33]，但我们还是将此孤立确实看起来很多测试测试火车测试IOUF1我们我们88.593.7我们KITTI61.272.6城市环境中车道实例分割的数据集13填充类（停车位、游泳池中的车道、卫星图像中的字段）可以具有有意义的描绘，并且因此应用实例。为该车道实例分割任务提供有用的基线存在其自身的挑战。例如，Cityscapes上的分割的当前技术水平是MaskRCNN [34]。该方法基于RCNN对象检测器，并且因此被优化用于检测适合在广泛非重叠边界框内的紧凑对象，传统上被称为“事物”。在透视图中检测到车道的情况下，任何给定车道的边界框与相邻车道极大地重叠，使得该任务对标准边界框具有潜在挑战性。当道路经历甚至轻微的弯曲时，这变得更加明显，在这种情况下，边界框几乎在彼此的顶部，即使实例像素非常不相交。最近，一些工作已经探索了基于RCNN的算法的替代方法，该算法使用像素嵌入来执行实例分割[35，36，37，38];我们使用像素嵌入为我们的数据集提供了基线。具体来说，我们基于[35]训练模型。我们遵循他们的方法学习每像素嵌入，其值被优化，使得相同训练实例内的像素被赋予类似的嵌入，而单独实例的平均学习这样的像素嵌入的成本函数可以精确地写下来，并且在等式2中呈现。1-4在[35]中，我们使用与该工作中报告的相同的超参数，因此使用8维嵌入空间。我们将这种损失作为从零开始沿着分割任务训练的ROAD SegNet模型的额外输出。在运行时，我们遵循[35]提出的方法的变体，预测每个像素的嵌入我们使用我们的预测的道路过滤掉像素不太可能是车道。然后，我们对道路区域中的像素进行均匀采样，并使用Mean Shift [39]算法对其嵌入进行聚类，从而识别我们检测到的车道实例的中心。最后，道路区域中的所有像素被分配到它们的最近车道实例嵌入，使用到像素的当前实例的欧几里得距离来分配;像素被指定为到达相同实例中的相同实例的像素。为了进行评估，我们使用如MS-COCO [40]实例分割任务所述计算的平均精度（AP）测量。具体而言：我们计算跨图像和跨检测到的通道（分配给嵌入聚类质心的像素）和地面实况通道的IoU阈值的AP。真阳性和假阳性按以下方式计数：（1）当检测与具有高于某个阈值的IoU的地面实况实例重叠时，检测是真肯定的，并且（2）当检测不充分地与任何地面实况实例重叠时，检测是假肯定的。使用这些定义，我们报告了50% IoU时的平均精度和50%至95%（增量为5%）的多个阈值的平均AP。选项卡. 7示出了实例分割基线结果。定性地，通道实例被很好地分离，如图1B中可见。六、14B. Roberts等人见图6。来自我们的测试集（左上）的示例图像，包括对ROAD（右上），EGO（左下）和实例（右下）任务的预测。ROAD和EGO型号的颜色与图1中的颜色相匹配。预测实例由红色、绿色和蓝色表示。6结论我们已经创建了一个数据集，用于城市环境中的道路检测和车道实例分割，仅使用未校准的低成本设备。此外，我们使用一个有效的注释程序，最大限度地减少手工工作。提出的初始实验显示了跨数据集的有希望的泛化结果。尽管向自动驾驶系统迈出了这一步，但我们的数据具有各种限制：（1）不包括静态道路布局的许多其他对象类别的注释，如建筑物，交通标志和交通灯。（2）所有注释车道平行于未来行驶路径，因此当前车道分割和垂直车道（例如，在交叉口处）被排除。(3)不包括动态对象（如车辆、行人和骑自行车者）的位置。在未来的工作中，这些限制可以通过在3D中添加不同对象的进一步注释来解决，受到[27]的启发。非平行车道可以通过扩展我们的注释器工具来此外，可以使用预先训练的分割模型来更好地初始化注释。此外，可以通过包括额外的传感器模态（如立体视觉或激光雷达）来估计动态对象的位置确认我们要感谢我们的同事 Tom Westmacott ， Joel Jakubovic 和 RobertChandler，他们为注释软件的实施做出了贡献。城市环境中车道实例分割的数据集15引用1. Janai，J. Guéney，F.， Bel，A.， Geiger，A. ：汽车制造业的竞争力：问题、数据集和最新技术。（2017年）2. 胡瓦尔湾王，T.，Tandon，S.，基斯克J宋，W.，Pazhayampallil，J.，Andriluka，M.，Rajpurkar，P.，Migimatsu，T.，Cheng-Yue，R.，其他：深度学习对高速公路驾驶的arXiv预印本arXiv：1504.01716（2015）3. Oliveira，G.L.，Burgard，W.Brox，T.：单目道路分割的有效深度方法IEEE/RSJ智能机器人与系统国际会议（IROS 2016）（2016年）4. Neven ， D. De Brabandere ， B. ， Georgoulis ， S. ， Proesmans ， M. ， VanGool，L.：向端到端车道检测：实例分割方法。arXiv预印本arXiv：1802.05591（2018）5. 布罗斯托，G.J.Fauqueur，J.，Cipolla，R.：视频中的语义对象类：一种高分辨率的查找方法。专利文献汇编30（2）（2009）886. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集CVPR（2016）7. 老G Ollmann，T. Bul o`，S. R.， Kontschieder，P. ：该方法是一种用于街道场景的语义理解的数据集。 In ： Proceedings of the Inter-nationalConferenceo n C onCon PuterVisin（ICCV），Venice，Italy. （2017）228. McCall，J.C.Trivedi，M.M.：基于视频的车道估计和跟踪驾驶员辅助：调查，系统和评估。IEEE智能运输系统学报7（1）（20 06）209. Kim，Z.：具有挑战性的场景中的鲁棒车道检测和跟踪IEEE Trans-actionso nIntel i gentTra nsprtio nSys9（1）（2008）1610. 戈帕兰河Hong，T.，Shneier，M.，切拉帕河：车道标线侦测与追踪之学习方法 IEEE Transactions on Intelligent Trans-portatonSystems13 （ 3 ）（2012）108811. 李杰，Mei，X.，Prokhorov，D.，Tao，D.：用于交通场景结构预测和车道线检测的深度神经网络。 IEEETransactionsonNeuralNetworksandlearnigsystems28（3）（2017）69012. Mathibela湾Newman，P.波斯纳，I.：阅读道路：道路标记分类和解释。 IEEE Transactions on Intelligent Transportation Systems16 （ 4 ）（2015）207213. 希勒尔A.B.勒纳河Levi，D.拉兹，G.：道路和车道设计的最新进展：一份调查报告。Machinevisonandapplic atons25（3）（2014）72714. 布罗斯托，G.J.Shotton，J.，Fauqueur，J.，Cipolla，R.：基于运动点云结构的分割与 In ： European conference on computervision ， Springer（2008）4415. Sengupta，S.，Sturgess，P.，Torr，P.H.S.，Others：从街道级图像自动密集视觉在： IntelligentRobotsandSystems （ IROS ），2012IEEE/RSJInternatinalCo nfere nceo n，IEEE（2012）857- 862中16. S charwa¨chter，T.， Enzweiler，M.，弗兰克，U.， Roth，S. ：高效多线程分割。参见：德国模式识别会议，Springer（2013）435-44517. Matzen ， K. ， Snavely ， N. ： NYC3DCars ： A Dataset of 3D Vehicles inGeographicContext. In：ICCV，IN（201 3）76116B. Roberts等人18. Fritsch，J. Kuehnl，T.，Geiger，A.：一种新的道路检测算法性能度量和评价基准。在：第16 届国际IEEE会议上， Transportati o nSystems（ITSC2013），IEEE（2013）169319. Aly ， M. ：城市街道中车道标志的实时检测。 In ： IEEEIntelligentVehiclesSymposium，Proceedings，IEEE（2008）720. TuSimple：泳道检测挑战（数据集）。http://benchmark.tusimple.ai（2017）21. Richter，S.R.，Vineet，V.，Roth，S.，Koltun，V.：播放数据：从电脑游戏中得到的真相。在：欧洲计算机视觉会议，Springer（2016）10 222. Ros，G.，塞拉特湖Materzynska，J.，Vazquez，D.，洛佩兹：synthia数据集：一个大的合成图像集，用于城市场景的语义分割。在：IEEE计算机视觉和模式识别会议论文集中。（2016）323423. Gaidon，A.王建奎，Cabon，Y. Vig，E.：虚拟世界作为多目标跟踪分析的代理。在：CVPR中。（2016年）24. 莱贝湾Cornelis，N.，Cornelis，K.，Van Gool，L.：从移动车辆进行动态三维场景分析。第一卷：CVPR，IE（2007）125. Borkar，A.，Hayes，M.史密斯，M.T.：一种新的车道检测系统，具有高效的地面实况生成。 IEEE Transactions on Intelligent TransportationSystems13（1）（2012）36526. Laddha，A.，Kocamaz，M.K.，Navarro-Serment，L.E.，Hebert，M.：地图监督道路检测。在：智能车辆研讨会（IV），2016 IEEE，IEEE（2016）11827. 谢，J.，Kiefel，M.，Sun，M.T.，Geiger，A.：基于3d到2d标签转换的街景语义实例标注。In：Proceedings of the IEEE Conference on C〇mputerVis isinandPater nRec 〇 gnit i tin. （2016）368828. Barnes，D.，Maddern，W.波斯纳，I.：找到自己的路：城市自治路径建议的弱监督分割。ICRA（2017）29. Mapillary：OpenSfM（软件）. https://github.com/mapillary/OpenSfM（2014）30. Badrinarayanan，V. Kendall，A.， Cipolla，R.： Segnet：一个深度卷积-用于图像分割的传统编码器-解码器架构。arXiv预印本arXiv：1511.00561（2015）31. 金玛，D.P.，B

下载后可阅读完整内容，剩余1页未读，立即下载