基于深度学习的自动化人行横道绘制研究

128 浏览量更新于2023-10-13 收藏 3.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于绘制人行横道的Justin Liang1，2和Raquel Urtasun1，21Uber先进技术集团2多伦多大学抽象。在本文中，我们解决的问题，从激光雷达和摄像机图像检测人行横道。为了这个目标，给定多个Li-DAR扫描和相应的图像，我们将两个输入都投影到地面上以产生场景的自上而下的视图。然后，我们利用卷积神经网络来提取有关人行横道位置的语义线索然后将这些与来自免费可用地图的道路中心线（例如，OpenStreetMaps）来解决绘制最终人行横道边界的结构化优化问题。我们的实验在一个大的城市地区的人行横道上显示，96.6%的自动化可以实现。关键词：深度结构化模型·卷积神经网络·绘制人行横道·测绘·自动驾驶车辆。1介绍自动驾驶汽车有许多潜在的好处。每年有120多万人死于交通事故。此外，事故是由人为因素（例如，驾驶员分心）的情况下。城市拥堵是也改变了我们城市的景观，其中超过20%的土地通常专用于停车。近年来，自动驾驶汽车领域取得了巨大进展。这是人工智能、硬件（例如，传感器、专用计算机）以及英勇的工程努力。工业界和学术界的大多数自动驾驶团队都利用环境的详细注释地图来安全驾驶。这些贴图捕获有关场景的静态信息。因此，当自动驾驶车辆被准确定位时，非常强的先验知识可以用于辅助感知、预测和运动规划。然而，绘制这样的地图高清晰度（HD）地图通常包含关于场景的几何和语义信息。基于SLAM的方法通常用于创建世界的密集点云表示，而人类标记器用于绘制场景的语义组件，诸如车道、道路、十字路口、人行横道、交通灯、交通标志等。大多数地图自动化工作集中在自动估计车道[22，12，7，27，20，32]。基于相机[22，12]，LiDAR [27，20]以及2J. Liang和R.UrtasunFig. 1.我们的模型概述。LiDAR点和相机图像被投影到地面上，以根据从建筑物的眼睛所看到的图像进行输入。该方法被用于卷积神经网络（CNN）以产生三个特征图。接下来，我们使用三个特征图以及提供道路中心线和交叉口多边形的粗略地图进行推理。这被馈送到结构化预测模块中，该结构化预测模块通过最大化结构化能量函数来找到最佳的两个边界x1和x2以及最佳角度β。已经提出了航空图像[32，19]。另一方面，很少或根本没有注意到其他语义元素。在本文中，我们解决的问题，准确地绘制人行横道。了解它们在哪里对于导航至关重要，因为它允许自动驾驶汽车提前计划，并对过街的潜在行人保持谨慎现有的方法集中在预测人行横道的存在，但不提供准确的定位。相反，人行横道通常是众包和手动绘制的。画人行横道不是一件容易的事。正如我们的实验所示，即使在同一个城市，人行横道也有各种各样的形状和风格此外，人行横道标记的油漆质量经常会被洗掉，使得即使对于人类来说也很难完成这项任务。将任务框定为语义分割或对象检测并不能提供自动驾驶所需的可靠性水平。相反，需要更结构化的表示。在本文中，我们建议利用道路中心线和交叉口的多边形，通常可在公开可用的地图，如OpenStreetMap（OSM）项目。这使我们能够以结构化的方式参数化问题，其中我们的人行横道具有正确的拓扑结构和形状。为了实现这一目标，我们推导出一个深度结构化模型，该模型能够产生准确的估计并利用多个传感器，如激光雷达和相机。特别地，我们使用卷积网络来预测语义分割、语义边缘信息以及人行横道方向。然后，这些输出被用来形成一个结构化的预测问题，其推理结果是我们最终的人行横道图纸。通过利用距离变换和积分变换，有效的精确推理是可能的。用于绘制人行横道3我们证明了我们的方法在各种情况下的有效性，其中LIDAR和/或CAMERA作为一个扩展来构建我们的模型所运行的道路的视图我们的方法表明，在离线构建地图时，96.6%的自动化是可能的，而在在线构建地图时（当我们开车时），91.5%的自动化是可能的相比之下，人类的不同意率约为0.6%。2相关工作人行横道检测：在[39，1，10，2，28]中，开发了在街道水平检测人行横道的方法。此外，[24]提出了一种用于空中图像中的人行横道检测的模型。然而，这些方法采用手动创建的特征提取技术，并且只能处理斑马风格的人行横道。最近的方法使用深度卷积神经网络（CNN）来检测人行横道。例如，[25]的作者使用深度CNN来检测航拍图像中的人行横道但是，它们不绘制人行横道。相反，它们只生成人行横道的位置。类似地，[8]的作者使用深度CNN来检测卫星图像中的人行横道，但仅预测图像中是否存在人行横道。在[14]中，针对驾驶员辅助系统在这篇论文中，他们画出了车辆前方的人行横道然而，该方法在存在可以检测到人行横道的最大距离的意义上是有限的此外，该方法仅适用于在车辆水平拍摄的相机图像。自动映射：有许多方法用于自动生成地图的不同元素。例如，道路的自动提取和分割已经在[31，32，30，41]中使用马尔可夫随机场和深度CNN等技术来解决在[37，18]中，他们使用LiDAR数据结合航空图像和/或建筑物地址点来执行建筑物形状重建。在这些论文中，解决了建筑物的2D足迹和3D形状的重建。最近，TorontoCity数据集[40]被发布，并且提供了许多地图相关的基准，诸如建筑物足迹重建、道路中心线和路缘提取、道路边缘和道路边缘提取。在[35]中，从多视图街道级图像产生双眼语义图。在这里，他们进行语义分割的街道级图像，并将其投影到地平面上的俯视图。在[16]中，他们开发了一种生成算法，通过使用深度学习提取卫星图像中的相关特征，自动标记具有街道地址的区域，道路和街区许多制图方法已经利用LiDAR数据来执行自动制图。这方面的例子可以在[29，11，3，13，4]中看到在这些论文中，他们利用LiDAR数据创建城市的3D模型，自动提取路面标记，并对城市地图进行语义分割以分类特征。语义分割：在语义分割中，目标是将图像中的每个像素标记为一个类。涉及递归神经网络的方法4J. Liang和R.Urtasun虽然已经提出了RNN（RNN）[38，43]，但是RNN本身运行起来可能在计算上是昂贵的在[36]中，作者介绍了全卷积网络（FCN），它使用跳过连接来组合CNN内各种空间维度的特征量的语义它利用双线性上采样来执行语义分割。在此之后，释放了许多FCNs的例如，在[34]中，使用深度去卷积网络和条件随机场（CRF）来微调输出分割。类似地，[15]建立在这个想法的基础上，并使用具有剩余层和快捷连接的更深层次的网络来学习身份映射。[26，9，21，6，5]进一步扩展了这些概念，并使用具有跳过连接的编码器-解码器该编码器-解码器架构固有地表示为产生多尺度特征表示的金字塔。由于表示是CNN的形状所固有的，因此推理的内存较少并且计算昂贵。在[42]中，他们引入了扩张卷积来聚合多尺度上下文信息。他们用他们的方法表明，他们可以扩大感受野，而不会损失分辨率和覆盖范围。3用于人行横道映射的深度结构化模型高清晰度（HD）地图通常包含关于场景的几何和语义信息。基于SLAM的方法通常用于创建世界的密集点云表示，而人类标记器通常用于绘制场景的语义组件，例如，车道，人行横道，十字路口的规则本文主要研究人行横道的自动为了实现这一目标，我们导出了一个深度结构化模型，该模型能够产生准确的估计并利用多个传感器，如LiDAR和相机。特别是，我们利用CNN来预测语义分割，语义边缘信息以及人行横道方向。然后，这些输出被用来形成一个结构化的预测问题，其推理结果是我们最终的人行横道图纸。通过利用距离变换和积分累积器，有效的精确推断是可能的。在本节的其余部分3.1计算深层语义特征我们利用图像和LiDAR自动绘制人行横道。为了实现这一目标，对于每个传感器模态，我们创建每个交叉点的俯视图我们请读者参看图1。图1是LiDAR以及图像两者的开销表示的示例注意，给定现有的免费可用的粗略地图（诸如OpenStreetMaps）的拓扑图，确定交叉点发生在哪里是微不足道的然后，将LiDAR和Camera俯拍图像连接起来，以创建场景的输入表示。这形成了一个4通道的输入，3维的RGB和一个激光雷达强度。然后将该4通道图像馈送到用于绘制人行横道5到多任务CNN，其被训练以产生语义分割、语义轮廓检测以及定义人行横道方向的角度特别地第二输出图是从阈值为30像素的人行横道的边界的逆距离变换（即，1.2m）。通过预测逆距离变换，网络学习到边界的相对距离，这使得学习更有效，因为它比简单地预测边缘的位置包含更多的监督。第三输出特征图对扩张到30个像素的直径的每个人行横道边界的角度进行我们用每个像素的两个输出对此进行编码，这两个输出对应于角度的方向单位向量的x和y分量因此，简单地取其反正切将产生预测角度。网络架构：我们使用基于[15，26，9]中的特征金字塔网络的具有跳过连接和残留层的编码器-解码器架构来输出三个特征图。我们请读者参看图1。2，以详细了解我们的网络架构。请注意，在每个卷积层之前，我们使用批量归一化[17]，然后是ReLU非线性[33]。在编码器网络中，每个残差块由三个卷积层组成由于图像可能非常大，因此我们需要确保网络具有较大的感受野，因此，我们在残差块中利用扩张卷积[42]。在解码器网络中，我们执行最近邻上采样以上采样回原始图像大小。然后，我们将输出分成三个分支，每个分支对应一个特征图。为了预测逆距离变换，我们在最后应用ReLU非线性以将输出限制为正值。为了预测分割，我们对输出应用softmax以获得概率图。为了预测比对，我们应用ReLU非线性以将输出限制为正值。学习：我们将距离变换和角度预测视为回归，将分割视为逐像素分类任务。为了训练我们的网络，我们最小化三个预测任务的损失之和：l（I）=lseg（I）+ldt（I）+λla（I）（1）其中λη是对准损失的权重在实践中，我们使用通过交叉验证发现的λ=100我们将分割损失l_seg定义为二进制交叉熵：1ΣIseg（I）=Np（yplog（yp）+（1−yp）log（1−yp））（2）当N是每个视频图像中的多个像素时，可以提高像素的值，并提高作为人行横道的可能性。6J. Liang和R.Urtasunpp图二.我们的预测网络概述。这里我们使用MaxPool2d（内核宽度，内核高度，步幅，填充）和Conv2d（内核宽度，内核高度，输出通道，步幅，填充，膨胀）。我们将边界损失Idt定义为均方损失：ldt1Σ（I）=||DpNp-d||第二章（三）其中，p是p的值，该p的值在所述新的存储器存储器中，该存储器存储器。最后，我们将对准损耗Ia定义为均方损耗：l（I）= 1Σ ||atan .Σvp，y-α-羟色胺||第二（四）条aN vp，xp其中，vp，y和vp，x是对应于预测角度的单位向量的y和x分量，并且αp，gt是地面真值角度。由于单个交叉行走边界可以用多个角度表示，因此我们将输出限制在（0，π）之间。3.2结构化预测在推理过程中，我们试图绘制定义每个人行横道的多边形。我们的方法将道路中心线，交叉口多边形以及我们的多任务卷积网络预测的三个特征图作为输入。受人类如何绘制人行横道的启发，我们将问题框定为2D搜索用于绘制人行横道7精密度（cm）召回（cm）IOUNC L2040608020406080NNMult C C 21岁百分之四二十四岁百分之八二十五百分之二二十五百分之四19号。百分之四二十二岁百分之三二十二岁占7%四十三百分之一三十五百分之九SegMult C C 八十百分之一九十三百分之一94 百分之五九十五0%的百分比七十七。百分之一91. 百分之九九十五百分之二九十七百分之一88岁占7%我们的我们的我们111C-C-CC78岁百分之八七十七。百分之二79岁。百分之八91. 百分之二九十占6%91. 百分之五九十三百分之八九十三百分之一九十三占6%94 百分之九94 百分之一94 占6%78岁占6%七十六。百分之八79岁。百分之九九十百分之五89岁。占7%91. 百分之三92. 百分之九91. 百分之九九十三百分之二九十三百分之八92. 百分之八九十三百分之九86岁。百分之九八十五占7%87岁百分之一我们的我们的我们穆特穆特MultC-C-CC83岁百分之四84. 百分之五百分之八十五点六94 百分之九九十五百分之八百分之九十六点六九十六。占6%九十七占6%百分之九十八点一九十七百分之三九十八百分之四百分之九十八点八83岁百分之三八十五0%的百分比86.1%94 占6%九十六。百分之一百分之九十六点八九十六。百分之二九十七百分之八98.2%九十六。百分之八九十八百分之三百分之九十八点七九十百分之二91. 百分之八92.4%人类-- - 88岁百分之三九十九。百分之四九十九。占7%九十九。百分之八87岁百分之三九十八百分之三九十八百分之八九十八百分之八九十五百分之三表1.该表显示了使用各种输入的模型的性能我们使用列N、C和L表示通过次数、相机输入和LiDAR输入。这里，（Mult）表示用于离线地图绘制的多个汽车通行，并且（1）表示用于在线地图绘制的单个汽车通行。第一基线（NN）是VGG特征之上的最近邻算法。第二基线（Seg）是来自在地面相机和LiDAR的多次通过上训练的模型的分割输出。此外，我们自己注释了100个交叉点，并将这些结果与地面真实人类注释进行比较。沿着每条中心线找到描述人行横道。人行横道绘制问题的这种结构化表示使我们能够产生与人类注释一样好的输出估计我们使用角度预测来定义一组候选假设，包括道路中心线角度、预测模式以及±2θ和±5◦围绕该预测的角度。然后，我们制定了一个能量最大化问题的问题，其中潜在的编码与分割和边界语义特征的协议。这里，逆距离变换值在边界上最大，因此，我们的公式将有利于预测的边界正好在其上。分割潜力用于确保两个边界最大化内部人行横道像素的数量和最大化外部背景像素的数量。我们的能量最大化公式如下：Maxx1，x2，βλI（φseg，，β（x2）−φseg，，β（x1））+（1−λI）（φdt，，β（x2）+φdt，，β（x1））（5）其中Φseg和Φdt是分割和语义边缘任务的输出特征图。x1和x2是中8J. Liang和R.Urtasun心线上定义人行横道的两个点β是边界角。λI是用于在分割和语义边缘特征图之间平衡的权重。为道路中心线。通过使用非轴对齐积分累加器，可以非常有效地计算出exhaustive搜索特别地，我们可以将φseg转换为沿着道路中心线的1D积分图像，这允许我们容易地计算由x1和x2定义的边界内的封闭人行横道像素的数量。用于绘制人行横道94实验评价数据集：我们收集了一个大型数据集在北美城市，并使用所有人行横道在这个城市的面积为100平方公里。总共行驶了9502公里来创建这个数据集。我们的数据集包括1571张训练图像，411张验证图像和607张测试图像。共有2559个交叉口，8526条人行横道。这导致5203次训练、1412次验证和1911次测试交叉行走。每幅图像代表一个至少有一个人行横道的交叉口，分辨率为每像素4厘米。指标：我们使用精确度和召回率作为我们的基本指标。为了精确起见，真阳性等于具有小于τ的最小距离的预测人行横道的集合，并且TP + FP = |P|. 对于召回，真阳性等于具有小于τ的最小距离的地面实况人行横道的集合，并且TP + FN = |G|.我们在20cm、40cm、60cm和80cm的τ处评估精确度和召回率。我们还计算绘制的人行横道和地面实况的“交并”（IoU）实验设置：我们使用批量大小为1和ADAM [23]训练我们的模型，学习率为1 e-4，权重衰减为5e-4。我们每100000次训练迭代将学习率降低10倍。然后，我们在训练时通过随机翻转和旋转图像来执行数据增强。模型在整个训练集上训练了110个epoch。传感器模态的重要性：我们训练了不同的模型，以仅使用相机，仅使用LiDAR或两种传感器的组合。如表1所示，使用两个传感器会产生更好的性能。请注意，传感器类型在表中的C（相机）和L（LiDAR）下进行编码。此外，使用LiDAR和相机图像作为输入的IoU的直方图可以在图中看到5（左）。我们发现94.1%的图像具有大于85.0%的IoU。在线vs离线地图：表1描绘了当使用单遍（在线映射）与使用几遍驾驶来创建输入特征图（离线映射）时获得的结果。如预期的那样，使用多个通道进行离线标测导致更好的性能，具有96.6%（行 7 ，prec@40cm），但是在在线设置中可以达到91.5%（行4，prec@40cm）的自动化。我们在图3中的离线地图设置中可视化了在相机和LiDAR上训练的模型的一些结果，而图4显示了在线地图设置的结果我们的方法在绘制两种设置中具有非常复杂拓扑结构的人行横道方面做得非常好。结构化表示的重要性：表 1 中的第一条目示出了在从相机和LiDAR两者提取的VGG特征之上使用最近邻算法的结果。然而，这只达到24.8%10J. Liang和R.Urtasun图三.使用在相机和LiDAR图像上训练的模型的离线地图模型结果）。1）地面摄像机，2）地面激光雷达，3）预测的逆距离变换，4）预测的分割，5）推断后的预测的人行横道多边形和6）gt人行横道多边形之间的比较。自动化（精度@40 cm）。表1中的第二条目示出了仅使用CNN模型的采样段的输出进行最终预测的结果如图所示，网络做得很好，但在离线设置中只能实现93.1%的自动化（精度@40 cm）。速度：CNN正向传递以每个图像50 ms运行。未优化的结构化预测步骤在单核CPU上以0.75s运行。优化代码将显著提高速度。定性结果：我们请读者参考图3和图4，以了解离线和在线设置的结果。尽管复杂的拓扑结构，我们的方法仍然能够准确地绘制人行横道。用于绘制人行横道11图4.第一章使用在相机和LiDAR图像上训练的模型的在线地图模型结果1）地面摄像机（在线地图），2）地面LiDAR（在线地图），3）预测的逆距离变换，4）预测的分割，5）推断后的预测的人行横道多边形和6）覆盖在地面摄像机上的gt个人行横道多边形（离线地图）之间的比较人类分歧：我们比较了噪声在人类注释的地面真相注释100个路口与几个注释。在这里，我们计算精度，召回率和IoU。如表1的最后一行所示，IOU的误差约为4.7%，不同个体之间在20cm处的精确度和召回率的误差分别为11.7%和12.7%。人行横道角度分析：拥有正确的人行横道角度是至关重要的，以实现高性能的结果。因此，我们对预测的对准和中心线角度的组合进行分析，并将其与地面实况进行比较。也就是说，我们找到在推理中使用的角度与地面真实角度之间的差异。我们在图6中绘制了差异我们分析的模型是在来自离线地图的相机和LiDAR图像上训练的模型我们发现，89%的人行横道使用的角度是±5毫米的地面真理。后10J. Liang和R.Urtasun图五 . 使用 LiDAR 和相机作为输入的 IOU 直方图（左）和累积 IOU 图（右）。在结构化预测步骤（其在附加角度上搜索）中，这变为98%。交叉口复杂度：我们分析了相邻道路的数量对结果的影响相邻道路被定义为一个连接道路的交叉口，提供了一个道路中心线，我们的结构化预测算法。如果一条街道的中间有一个分隔线，那么我们就把这条街道分成两条路。因此，对于4路交叉口，有可能具有8条道路，即，对于到交叉口的每个方法，2条道路。如图7所示，随着道路数量的增加，性能降低。这是预期的，因为这些交叉点更复杂。消融研究：我们进行消融研究来分析在我们的模型中的不同组件的背景下，离线映射与相机和激光雷达。结果示于表2中。我们首先探讨删除模型的某些组件我们删除了行（2）中±2◦和±5◦的角度搜索，两者都会导致性能略微下降。在行（4）中，我们在绘制人行横道时不使用预测角度;我们看到所有性能指标的显著下降超过10%。这表明具有比对预测对于良好的推断结果是非常重要的。Oracle性能：我们分析了我们的系统的上限性能，通过引入oracle信息。比较表2中的行（5）、（6）和（7），我们看到，具有地面实况分割显著提高了模型的性能。另一方面，具有地面实况距离变换仅略微提高性能。有趣的是，使用地面真值角度的性能比我们在行（1）中的结果略差。这可能是由于我们预测的角度非常准确。我们的角度分析表明，没有地面实况角度，我们已经可以达到98%的角度精度。对排12J. Liang和R.Urtasun图六、使用在相机和LiDAR上训练的离线模型的角度差直方图（左）和累积角度差见图7。我们将相邻道路的数量对结果的影响可视化使用相机和LiDAR在离线地图上训练的模型。的直方图IoU与相邻道路的数量（左），40 cm处的精度与相邻道路的数量（中间）和40 cm处的召回与此处绘制了相邻道路的数量（右侧）。我们使用在相机和LiDAR上训练的离线模型进行此分析。(8)，我们使用地面真值距离变换、分割和角度，并且看到这与仅使用地面真值分割执行相同。这表明在未来的模型中对语义分割的改进将产生最大的影响。失效模式：由于我们在能量公式中使用权重λ I在最大化分割或距离变换能量之间进行权衡，因此我们有时可能会为特定输入选择错误的权重。如图8（顶部）所示，由于右侧人行横道中几乎一半的人行横道边界缺失，因此我们的模型预测了错误的分割。在这种情况下，我们的模型表明，预测专注于分割能量的边界会给出更大的值，从而产生错误的推断。第二种失效模式见下图。在此，地面图像中的绘制质量（尽管未示出，但这对于LiDAR图像也是如此）质量较差因此，我们的模型错误的人行横道的停止线在一个十字路口，和用于绘制人行横道13精密度（cm）召回（cm）IOU2040608020406080我们八十五占6%九十六。占6%九十八百分之一九十八百分之八86岁。百分之一九十六。百分之八九十八百分之二九十八占7%92. 百分之四无Ang搜索82岁百分之二94 百分之四九十七百分之一九十八百分之一82岁占7%94 占7%九十七百分之二九十八百分之二91. 百分之三无厘头84. 百分之五九十六。百分之三九十八百分之一九十八百分之八84. 百分之九九十六。百分之四九十八0%的百分比九十八占6%92. 百分之一无预测74岁0%的百分比八十五百分之三88岁百分之九91. 百分之四七十三。百分之八84. 百分之八88岁百分之三九十百分之五83岁占7%GT DT88岁百分之五九十六。占6%九十七百分之八九十八百分之三89岁。百分之五九十七百分之三九十八百分之四九十八百分之八92. 百分之九GT分段94.1% 百分之九十七点八百分之九十八点七99.2% 94 占7%九十八百分之一九十八百分之八九十九。百分之一94 百分之九GT Ang八十五百分之五九十六。百分之五九十八百分之一九十八占7%八十五占7%九十六。百分之四九十七百分之九九十八百分之四92. 百分之二GT DT+S+A九十三百分之九九十七百分之五九十八百分之五九十九。0%的百分比百分之九十四点九百分之九十八点一百分之九十八点九99.2% 百分之九十四点九表2.我们报告的消融研究和性能使用oracle信息在这张桌子上。对于烧蚀研究，我们分析了角度搜索、道路中心线角度和行（2-4）中的预测角度的效果。对于oracle信息，我们注入GT距离变换、分割和角度，并分析行（5-8）中的结果见图8。主要的失效模式是由分割和距离变换权重（顶部）与差的图像/绘制质量（底部）之间的权衡引起的。在这里，我们示出了col 1）地面相机、2）地面LiDAR、3）预测的逆距离变换、4）预测的分割、5）推断后的预测的人行横道多边形和6）gt人行横道多边形之间的比较见图9。在线模型的主要故障模式是由绘制道路时的不良数据收集引起的。如该图所示，这种差的数据收集导致孔和/或差的图像质量。在这里，我们显示了col 1）地面相机（在线地图），2）地面LiDAR（在线地图），3）预测逆距离变换，14J. Liang和R.Urtasun4)预测的分割，5）推断后的预测的人行横道多边形，以及6）覆盖在地面摄像机上的GT人行横道多边形（离线地图）。不预测其在分割输出中的存在对于在线标测场景，主要失效模式是标测图中的孔，如图所示。9.第九条。用于绘制人行横道15见图10。没有人行横道的示例。1)地面相机，2）地面LiDAR，3）预测的逆距离变换，4）预测的分割，5）预测的人行横道多边形，6）GT多边形。图11个国家。将我们的方法推广到道路/交叉口边界预测。假阳性：我们的数据集由包含人行横道的图像组成。在没有再训练的情况下，我们的方法产生了5.7%的误报。当使用不包含人行横道的图像（45%添加的图像）重新训练时，假阳性率为0.04%。重新训练的模型的性能与表1行（8）的结果大致相同。重新训练的模型结果的示例可以在图10中看到。5结论在本文中，我们提出了一个深度结构化模型，可以利用激光雷达和相机图像绘制结构化人行横道。我们在一个大城市的实验表明，96.6%的自动化可以实现离线地图，而91.5%的在线地图。在未来，我们计划扩展我们的方法，从卫星图像估计人行横道。我们还计划扩展我们的方法来预测现代高清地图中存在的其他语义元素。例如，如果我们预测一个边界而不是两个边界，我们可以绘制停止线。我们还可以使用这种通用方法来处理道路/交叉口边界，如图所示11. 在这里，CNN输出逆距离变换和预测分割两者。我们可以使用车辆行驶路径，并且在每个间隔处，我们执行垂直于车辆路径的搜索以获得边界的左右点。这可以进一步扩展以绘制车道边界。16J. Liang和R.Urtasun引用1. Ahmetovic，D.，Bernareggi，C. Mascetti，S.：斑马定位器：人行横道的识别和定位。第13届人机交互与移动设备和服务国际会议论文集。pp.275-284M 〇 bieHCl'll ， A C M ， New York ， NY ， U S A （ 2011 ） .https://doi.org/10.1145/2037373.20374152. Ahmetovic，D.，Manduchi河考夫兰，J.M.，Mascetti，S.：斑马线观察员：空间数据库的自动填充，以提高盲人旅行者的安全性。In：ASSETS. pp.251- 2 58. ACM（2015）3. B abahajiani，P.， Fan，L.， Ka¨m¨ar¨ainen，J. K.， Gab bouj，M. ：从街景图像和激光雷达点云进行三维分割Machine Vision and Applications28，679- 694（2017）. http：//doi. org/10。1007/s00138 - 017 - 0845 -3，sJR：h-ind. 45; class.Q1;字段秩。计算机视觉与模式识别（Computer Vision andPattern Recognition）JuFo-24. Babahajiani，P.，范湖，加-地Kmrinen，J.K.，Gabbouj，M.：利用地面激光扫描点云进行城市三维环境综合自动建模。IEEE（2016）。https：//doi.org/10.1109/CVPRW.2016.87，eXT=5. Badrinarayanan，V.Handa，A.，Cipolla，R.：Segnet：一种深度卷积编码器-解码器架构，用于鲁棒的语义逐像素标记。arXiv预印本arXiv：1505.07293（2015）6. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构IEEE Transactions on Pattern Analysis andMachine Intelligence（2017）7. Bar Hillel，A.，勒纳河Levi，D.拉兹，G.：道路和道路设计的最新进展：调查。 Mach。VisionAppl.25（3），727- 745（Apr 2014）。https://doi.org/10.1007/s00138-011-0404-28. Berriel，R. F.，Lopes，A.T. de Souza，A.F.，Oliveira-Santos，T.：基于深度学习的大规模自动卫星人行横道分类。IEEE Geoscience and RemoteSensing Letters（2017）.https：//doi.org/10.1109/LGRS.2017.2719863，出版9. Chaurasia，A.，Culurciello，E.：Linknet：利用编码器表示进行有效的语义分割。CoRR abs/1707.03718（2017）10. 考夫兰，J.M.，Shen，H.：H：基于图形-背景分割的人行横道快速搜索算法In：In：Proc.第二届计算机视觉应用研讨会，与ECCV合作。第2页（2006年）11. 高，Y.，Zhong河Tang，T.，Wang，L.，美国，刘X：从移动激光雷达点云数据自动提取街道测量科学与技术28（8），085203（2017）12. Gurghian，A.，Koduri，T.，Bailur，S.V.，Carey，K.J.，Murali，V.N.：Deeplanes：使用深度神经网络进行端到端车道位置估计。在：CVPR研讨会。pp. 38-45 IEEEComputerSociety（20 16）13. Hackel ， T. ， Savinov ， N. 拉迪基湖 Wegner ， J.D. ，辛德勒， K. ，Pollefeys，M.：Semantic3d.net：一个新的大规模点云分类基准14. Haselhoff，A.，Kummert，A.：驾驶辅助系统的视觉人行横道检测。88315. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。In：CVPR. pp. 770 -778 IEEEComputerSociety（20 16）用于绘制人行横道1716. Ilke Demir、Forest Hughes、A.R.K.T.D.R.S.M.K.D.S.G.J.M.B.D.G.K.R.R.：Robocodes：Towards generative street addresses from satellite images.在：IEEE计算机视觉和模式识别国际会议，EARTHVISION研讨会（2017）17. Ioffe，S.，Szegedy，C.：批次标准化：加速深度网络训练通过减少内部协变量偏移。第32届国际机器学习会议论文集-第37卷。pp. 448-456 ICML'15，J M L R. OrRg（2015）18. Jarzabek-Rychard，M.：基于激光雷达数据和地址点的密集城区建筑物轮廓重建ISPRS-International Archives of the Pho-togrametry，RemoteSe nsing andS patialI nformalmatio nScie nces pp.12119. Jin，H.，冯，Y.，Li，M.：以阶层式影像分析与加伯滤波器于乡村地区大比例尺航摄影像中自动提取道路车道线之研究。InternationalJournal of Remote Sensing 33 （ 9 ）， 2747http ： //doi.org/10 。1080/01431161。2011年。62003120. Kammel，S.，Pitzer，B.：基于激光雷达的车道标记检测和映射。在：2008IEEEIntelligentVehicles 系统中。 pp.1137- 1142 （ 2008 年 6 月）。https://doi.org/10.1109/IVS.2008.462131821. Kendall，A.，Badrinarayanan，V.，Cipolla，R.：贝叶斯分段：用于场景理解的深度卷积编码器-解码器架构中的模型不确定性。arXiv预印本arXiv：1511.02680（2015）22. 金，J.，Park，C.：基于顺序迁移学习的自动驾驶汽车端到端自我车道估计。在：IEEE计算机视觉和模式识别会议（CVPR）研讨会（2017年7月）23. 金玛，D.P.，Ba，J.：Adam：一种随机优化的方法。载于：ICLR（2015）24. Koester，D.，Lunt，B. Stiefelhagen，R.：基于航空影像的斑马线检测。国际计算机会议帮助有特殊需要的人（ICCHP）。奥地利林茨（2016年7月）25. Kurath，S.，Gupta，R. D.，凯勒，S.：Osmdeepod -正射影像上的物体检测。17326. 林， T. 是的，做吧， PGir shi ck ， R. ， He ， K. ， Hariharan ， B.Belongie，S. ：用于对象检测的Fetur金字塔网络。在：CVPR（2017）27. Lindner，P.，Richter，E.，Wanielik，G.，Takagi，K.，Isogai，A.：用于车道检测和估计的多通道激光雷达处理。在：2009年第12届国际IEEEConfer ennIntelligentTransportati onSys stems. pp. 1- 6（O c t 2009）。https://doi.org/10.1109/ITSC.2009.530970428. Mascetti，S.，Ahmetovic，D.，Gerino，A.，Bernareggi，C.：斑马识别器：视障或失明人士的行人过路识别。PatternRecognition60，40529. Mastin，A.，Kepner，J.，Fisher，J.：城市场景激光雷达与光学图像的自动配准。IEEE国际会议计算机视觉与模式识别（2009）30. Mattyus，G.，罗，W.，乌尔塔松河：Deeproadmapper：从航空影像中提取道路拓扑。在：IEEE计算机视觉国际会议（ICCV）（2017年10月）31. 我是你，G 王，S.， Fidler，S.，你是一个人R ：通过在工作区周围放置一个特殊的图像，可以实现更高的图像质量。 In：ICCV. pp. 1689-1697年。第50集9.6The Fantasy（2015）18J. Liang和R.Urtasun32. 我是你，G王， S.， Fidler ， S. ，你是一个人 R ： HDmaps ： Fine-grainedroadseg-mentat a t a tinypar singr o n gr on undaerimages。 In：CVPR.pp. 3611-3619 IEEE计算机协会（2016）33. Nair ，V.，Hinton，G.E.：整流线性单元改进受限玻尔兹曼机。In：Proceedings of the 27th International Conference on International Conference-Fe-nceonMachineLearning. pp. 807-814 ICML34. 诺H Hong，S.，汉，B.：用于语义分割的学习反卷积网络。在：2015 IEEE国际计算机会议（ ICCV ）的会议记录中。 pp.1520- 1528 年。ICCV’15，IEEE C 〇 m puter S 〇 ciety，WA s hin g t 〇 n，DC，USA（2015）。https://doi.org/10.1109/ICCV.2015.17835. Sengupta，S.，Sturgess，P.，拉迪基湖 Torr，P.H.S.：从街道级图像自动密集视觉语义映射。在：2012 IEEE/RSJ智能机器人和系统国际会议，IR 0 S 2012，Vil-amorra，Algarv e，P〇rtugal，0ctober7-12，2012中。pp.857-862201

下载后可阅读完整内容，剩余1页未读，立即下载