全景摄像头和路线规划器的自动驾驶系统应用

83 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

使用全景摄像头和路线规划器进行Simon Hecker1，Dengxin Dai1，and Luc Van Gool1，21ETH Zurich，苏黎世，瑞士{heckers，dai，vangool}@ vision.ee.ethz.ch2KU Leuven，鲁汶，比利时抽象。对于人类驾驶员来说，拥有后视镜和侧视镜对于安全驾驶至关重要。他们提供了一个更完整的视图是什么发生在汽车周围人类驾驶员也在很大程度上利用他们的心理地图进行导航。尽管如此，已经公布了几种方法，这些方法仅使用前置摄像头而不使用路线规划器来学习驾驶模型。这种信息的缺乏使得自动驾驶任务相当棘手。我们调查的问题，在一个更现实的设置，其中包括一个环绕视图的摄像头系统与八个摄像头，一个路线规划，和一个CAN总线阅读器。特别是，我们开发了一种传感器设置，该传感器设置提供车辆周围区域的360度视图、到目的地的驾驶路线和低级别驾驶机动（例如，驾驶员）的数据。转向角度和速度）。通过这样的传感器设置，我们收集了新的驾驶数据集，涵盖了不同的驾驶场景和不同的天气/照明条件。最后，我们学习一个新的驾驶模型，通过整合信息，从周围的看法相机和路线规划。利用两个路线规划器：1）通过将Open-StreetMap上的规划路线表示为GPS坐标的堆栈，以及2）通过在TomTomGo Mobile上渲染规划路线并将进展记录到视频中我们的实验表明：1）360度全景摄像机有助于避免单个前视摄像机的故障，特别是对于城市驾驶和交叉路口场景;以及2）路线规划器显著帮助驾驶任务，特别是对于转向角预测。代码、数据和更多的可视化结果将在http://www.vision.ee.ethz.ch/上提供。关键词：自动驾驶·驾驶的端到端学习·驾驶的路线规划·全景相机·驾驶数据集1介绍自动驾驶近年来取得了巨大的进步，例如道路场景解析[1，2，3，4]，车道跟随[5，6，7]，路径规划[8，9，10，11]和端到端驾驶模型[12，13，14，15]。到目前为止，自动驾驶汽车已经行驶了数千英里，公司希望在几年内销售这种车辆。然而，重要的技术障碍，例如驾驶模型对恶劣天气/照明条件的必要鲁棒性[2，3，4]或提前预测潜在风险的能力[16，17]，必须在辅助驾驶转变为完全自动驾驶之前克服。同时，研究下一步走向2S. Hecker，D.Dai和L.Van Gool图1：我们的驱动系统的图示。摄像机提供车辆周围区域的360度视图。路线规划器生成的驾驶地图或GPS坐标与我们摄像机的视频同步。他们习惯作为训练驾驶模型的输入。驱动模型由用于特征编码的CNN网络、用于随时间整合CNN输出的LSTM网络组成;以及全连接网络（FN），用于整合来自多个传感器的信息，以预测驾驶操作。“完整的”驾驶系统对于学术界来说变得越来越难获得。我们认为，这主要是由于缺乏大型的，共享的驱动数据集提供更完整的传感器输入。全景摄像头和路线规划器。毫无疑问，驾驶是一项高度视觉化和智力化的任务。需要收集和整合车辆周围的信息，以做出安全决策。作为对我们眼睛有限视野的虚拟扩展，自1906年以来，侧视镜和后视镜被使用[18]，同时已成为强制性的。人类驾驶员还使用他们的内部地图[19，20]或数字地图来选择到达目的地的路线。同样，对于自动驾驶汽车，决策系统必须选择从当前位置到请求目的地的道路网络路线[21，22，23]。如前所述，单个前视摄像头不足以学习安全驾驶模式。在[24]中已经观察到，在到达分叉时-并且没有明确的方向-模型可能会输出多个差异很大的行驶方向，每个选择一个。这将导致不安全的驾驶决策，如在所选择的行驶方向上的振荡。然而，目前的研究往往集中在这一设置，因为它仍然允许研究大量的挑战[6，25，12]。这部分是由于使用单个相机训练模型的简单性，无论是在可用数据集方面还是在有效模型需要具有的复杂性方面。我们的工作包括一个全景摄像系统，一个路线规划器，和一个数据读取器的车辆的CAN总线。该设置提供了车辆周围区域的360度视图，计划的驾驶路线以及人类驾驶员的因此，我们得到带全景摄像头和路线规划器的驾驶模型3类似于人类学徒的学习任务，其中（认知/数字）地图给出总体方向感，并且需要基于对当地道路情况的观察来设置实际转向和速度控制。驾驶模型为了保持任务易于处理，我们选择以端到端的方式学习驾驶模型，即将来自我们的全景摄像头和路线规划器的输入直接映射到汽车的低级别操纵。检测纳入以及用于交通代理的跟踪模块（例如，汽车和行人）和交通控制设备（例如，交通信号灯和标志）是未来的工作。我们设计了一个专门的深度网络架构，它集成了来自我们的全景摄像头和路线规划器的所有信息，然后将这些传感器输入直接映射到低级汽车管理器。请参见图1和网络架构的补充资料路线规划器以两种方式被利用：1）通过将计划路线表示为GPS坐标的堆栈，以及2）通过在地图上渲染计划路线并将进展记录为视频。我们的主要贡献有两个方面：1）一个新的60小时的驾驶数据集，包括来自八个全景摄像头的视频，用于路线规划的两种形式的数据表示，低级别驾驶机动，以及车辆里程计的GPS-IMU数据2)学习算法，用于整合来自所述全景摄像机的信息和规划的路线，以预测未来的驾驶操纵。我们的实验表明：a）360度视图有助于避免单一前视摄像机的故障;以及b）路线规划器也显著地改善了驾驶。2相关工作我们的工作与1）驾驶模型，2）具有全景摄像头的车辆的辅助功能，3）导航和地图，以及4）驾驶场景理解相关。2.1自动驾驶汽车的驾驶模型自动驾驶已经取得了重大进展，特别是由于深度神经网络的部署。驾驶模型可以分为两组[7]：介导感知方法和端到端映射方法，其中一些例外情况如[7]。介导感知方法需要识别所有驾驶相关对象，诸如车道、交通标志、交通灯、汽车、行人等。[26、1、27]。[28]这是一个很好的例子，可以解释这些结果。由汽车行业开发的这种系统大多数使用不同的传感器，如相机，激光扫描仪，雷达，GPS和高清地图[29]。端到端映射方法构建从感觉输入到动作的直接映射。这个想法可以追溯到20世纪80年代，当时神经网络被用来学习从图像到转向角度的直接映射[24]。其他端到端的示例为[5，25，12，14，15]。在[12]中，作者训练了一个神经网络，将相机输入直接映射到车辆的自我运动。还开发了一些方法来解释端到端网络如何为驾驶任务工作[30]，并预测它们何时失败[17]。大多数端到端的工作都只使用前置摄像头进行据我们所知，我们将4S. Hecker，D.Dai和L.Van Gool第一个端到端的方法，利用更真实的输入。请注意，我们的数据也可以用于介导感知方法。最近，用于驾驶的强化学习越来越受到关注[31，32，33]。这一趋势尤其受到优秀驾驶模拟器发布的推动[34，35]。2.2具有全景摄像机在过去的几十年里，越来越多的辅助技术已经部署到车辆上，以提高驾驶安全性。车道保持、盲点检查、前向防撞、自适应巡航控制、驾驶员行为预测等技术，警告驾驶员潜在的危险[36，37，38，39]。最近，这方面的研究已经将焦点转移到环绕视图相机，因为许多这样的应用需要车辆周围的全景视图。值得注意的例子包括对象检测，对象跟踪，车道检测，机动估计和停车指导。例如，鸟瞰视图已被用于监视车辆的周围环境在[40]中。周围车辆的轨迹和机动是用全景摄像机阵列[41，42]估计的。在[43，44]中研究了使用多个重叠相机的对象检测和跟踪的数据集，方法和评估指标。在[45]中研究了使用全景摄像机的车道检测，在[46]中研究了停车问题。高级驾驶员辅助系统通常使用3-D环绕视图，其使驾驶员了解环境并消除盲点[47]。我们的工作将自动驾驶添加到这个列表中。我们的数据集也可以用于所有上述问题;并提供了一个研究路径规划器有效性的平台。2.3导航和地图车载导航系统已被广泛用于在地图上显示车辆多年来，提高定位、导航和数字地图系统的精度和鲁棒性一直是另一个研究热点。已经提出了几种高清映射方法[48，49]，其中一些专门用于自动驾驶[50，51]。路线规划也被广泛研究[52，53，54，55，56]，主要是计算最快、最省油或通过道路网络到达目的地的定制轨迹然而，到目前为止，它们的使用主要限于帮助人类司机。它们作为学习自动驾驶模型的辅助工具的可访问性有限。这项工作报告了使用两种地图的两种方法：s-o-t-a商业地图TomTom Maps 3和优秀的合作项目OpenStreetMaps[57]。虽然在计算机视觉和路线规划方面都取得了相当大的进展，但它们在学习驾驶模型方面的集成尚未得到学术界的应有关注一个热门话题是将数字地图和街景图像相结合，以实现准确的车辆定位[58，59，60，61]。3https://www.tomtom.com/en_us/drive/maps-services/maps/带全景摄像头和路线规划器的驾驶模型52.4驾驶场景理解道路场景理解是辅助或自动驾驶的关键推动因素典型的例子包括道路[62]、交通灯[63]、汽车和行人[64，65，1，2]的检测，以及这些对象的跟踪[66，67，68]。我们建议读者参考这些全面的调查[69，70]。集成像上述算法的这些识别结果可能是必要的，但超出了本文的范围3驾驶数据集我们首先介绍我们的传感器设置，然后描述我们的数据收集，最后将我们的数据集与其他驾驶数据集进行比较。3.1传感器在这项工作中，三种传感器用于数据收集：摄像头，路线规划器（带有地图）和USB读取器，用于从车辆的CAN总线获取数据相机我们使用了八个摄像头，并使用一个特殊设计的带有3D打印摄像头支架的钻机将它们安装在车顶上。摄像机安装在以下角度：0°、45°、90°、135°、180°、225°、270°和315°。我们安装了GoPro Hero 5 Black摄像头，因为它们易于使用，移动时图像质量良好，并且具有耐候性。所有视频均以每秒60帧（fps）的速度在1080p中录制。事实上，一个完整的360度视图已经可以由四个摄像头覆盖。请参阅图2我们的相机配置。普莱森特路。多年来，路线规划一直是研究的重点[53，54]。虽然在计算机视觉和路线规划方面都取得了相当大的进展，但在学术界，它们的整合尚未得到应有的重视。路线已经变得无处不在的商业地图，如谷歌地图，HERE地图和TomTom地图，车载导航设备几乎是在每一个新的汽车。尽管在技术意义上可用，但其路由算法和底层道路网络尚未向公众开放。在这项工作中，我们利用了两个路线规划器：一个基于TomTom地图，另一个基于Open-StreetMap。TomTom地图代表了一种用于驾驶应用的s-o-t-a商业地图。与所有其他商业同行类似，它不提供开放的API来访问其“原始”数据。因此，我们利用他们的Tom-Tom GO移动应用程序[71]提供的视觉信息，并使用智能手机iPhone 7提供的本机屏幕记录软件记录他们渲染的地图视图。由于地图渲染的更新速度相当慢，因此我们以30 fps的速度捕获屏幕。视频分辨率设置为1280×720像素。除了商业地图，OpenStreetMaps（OSM）[57]已经获得了巨大的成功。注意支持路由服务。OSM地理数据包括关于道路的详细空间和语义信息，诸如道路的名称、道路的类型（例如，道路的名称、道路的类型、道路高速公路或人行道）、速度限制、建筑物地址等。OSM的有效性6S. Hecker，D.Dai和L.Van Gool(a) 我们的摄影机装在车上图2：我们的相机的配置。钻机为1。6米宽，使侧视摄像头可以有一个良好的视野路面没有障碍的车顶的车辆。摄像机横向和角度均匀分布。Hentschel和Wagner [72]已经证明了机器人导航。因此，在这项工作中，我们使用Luxen和Vetter为OSM数据[73]开发的实时路由方法作为我们的第二个路线规划器。过去的驾驶轨迹（GPS坐标的堆栈）被提供给路线选择算法以将车辆定位到道路网络，并且前面接下来300米的规划道路的GPS标签被用作“当前”位置的规划路线的表示。由于OSM的道路网络的GPS标签不是根据距离均匀分布的，我们将三次平滑样条拟合到所获得的GPS标签，然后以1米的步幅从拟合的样条中采样300个数据点。因此，对于OSM路线规划器，我们有一个300×2矩阵（300个GPS坐标）作为每个“当前”位置的规划路线的表示人类驾驶机动车我们记录低水平的驾驶动作。方向盘角度和车速，以50Hz的频率记录在汽车的CAN总线上。CAN协议是一种简单的ID和数据有效载荷广播协议，用于车辆中的低级信息广播因此，我们通过CAN-to-USB设备读取特定的CAN ID及其对应的方向盘角度和车速有效载荷，并将其记录在连接到总线的计算机上。车辆我们使用GoPro相机的内置GPS和IMU模块在驾驶时以18 Hz记录GPS数据，以200 Hz记录IMU测量。然后从GoPro创建的视频的元轨道中提取和解析该数据。3.2数据收集同步。所有数据流之间的正确同步至关重要。为此，我们设计了一个自动程序，允许同步到GPS的快速数据集生成。在所有记录期间，所有传感器的内部时钟与GPS时钟同步。所得到的视频帧的同步误差高达8。3毫秒（ms），即帧率的一半。如果车辆在100km/h的速度下，由于车辆纵向位置的同步引起的误差约为23 cm。我们承认，可以由准确的触发信号触发的相机在同步误差方面是优选的然而，我们的地图与我们视频带全景摄像头和路线规划器的驾驶模型7帧为0。5只这是可接受的，因为仅需要规划路线（无论其表示如何）来提供用于导航的全局视图。CAN总线信号与我们的视频帧的同步误差高达10ms。这也是可以容忍的，因为人类驾驶员以相对较低的速率发出驾驶动作。例如，意外和预期人类驾驶员的平均反应时间为1。3和0。7 s [74]。Drive360数据集。使用所描述的传感器，我们收集了一个新的数据集Drive360。Drive360通过在瑞士多个城市（周围）驾驶来记录我们专注为训练驾驶模型提供逼真的数据集。受驾驶教练如何教人类学徒驾驶的启发，我们选择了路线和驾驶时间，目的是最大限度地增加接触所有典型驾驶场景的机会。这减少了生成具有许多“重复”场景的有偏数据集的机会Drive360包含60小时的驾驶数据。司机们总是遵守瑞士的驾驶规则，比如尊重行车速度小心驾驶，不超车时在右车道行驶，与前车保持规定的距离等。我们有第二个人陪同司机，以帮助（提醒）司机始终遵循我们的路线规划计划的路线。我们已经使用手动设置过程来确保两个路线规划器生成“相同”的在选择起点和目的地之后，我们首先使用OSM路线规划器生成驾驶路线对于TomTom路线规划器，我们通过使用相同的起点和目的地以及通过在路线上添加连续的路点序列（中间地点）来获得相同的驾驶路线。我们在每次驾驶之前手动验证路线的每个部分，以确保两条计划路线确实相同。在此同步之后，TomTom Go Mobile由于其高质量的视觉信息而用于引导我们的人类驾驶员。我们的OSM路线规划器的数据是通过使用[73]中提出的路由算法获得的。特别地，对于每个“当前”位置，提供“过去”驾驶轨迹以在OSM中将车辆定位在原始规划的路线上。然后检索前方接下来3003.3与其他数据集的与其他数据集相比，见表1，我们的数据集具有一些独特的特征。计划路线。由于我们的数据集旨在理解和改进当前端到端驾驶模型的谬误，因此我们提供了用于导航的地图数据，并提供了唯一的真实数据集。值得注意的是，计划路线不能通过后处理由车辆记录的GPS坐标来获得，因为计划路线和实际驾驶轨迹本质上不同。两者之间的差异是由实际驾驶（例如，在道路施工区中改变车道和超过停止的公共汽车），并且实际上是驾驶模型要学习的目标。环绕视图和低级别驾驶操作。同样重要的是，我们dataset是唯一一个使用真实数据并提供低级别驾驶操作（例如，转向角和速度控制）。这是特别的-对于端到端驾驶来说非常有价值，因为它允许模型学习正确的转向8S. Hecker，D.Dai和L.Van GoolDrive360608,60✓✓✓ ✓房✗KITTI[26]12,10✗✗✓ ✓房✓城市景观[1]<1002,16✗✗✓ ✓房✗Comma.ai7.31,20✓✗✓N.A.房✗牛津[75]2144,16✗✗✓ ✓房✓BDDV[12]10k1,30✗✗✓✗房✗Udacity[76]1.13,30✓✗✓N.A.房✗GTAN.A.1✓✓✗N.A.渲染合成物表1：我们的数据集与其他为驾驶任务编译的数据集的比较（cam=相机）。对于车道变换，当由人类驾驶员执行时需要“镜子”，或者在交叉路口转弯时需要正确的驾驶动作。与BDDV[12]和Ox-ford数据集[75]相比，我们通过CAN总线提供车辆的低级别驾驶操纵，而它们仅通过GPS设备提供汽车的自我运动。这让我们以预测车辆的输入控制，这更接近于完全自主的端到端训练驾驶模型。Udacity[76]还通过CAN总线提供低级别驾驶然而，它缺乏路线规划器，只包含几个小时的驾驶数据。数据集焦点。如表1所示，存在针对与自动驾驶相关的任务编译的多个数据集。然而，这些数据集都有自己的重点。KITTI、Cityscapes和GTA更多地关注于语义和几何理解驾驶场景。Oxford数据集专注于捕捉驾驶场景的时间（季节）变化，从而将驾驶限制在“单一”驾驶路线上BDDV[12]是一个非常大的数据集，以众包的方式从许多城市收集不过，它只配备了一个前置仪表盘摄像头。4方法我们的驾驶模型的目标是直接从规划的路线，历史车辆状态和当前的道路状况，所需的驾驶行为的地图。4.1我们的驾驶模式让我们用I表示环绕视图视频，P表示计划路线，L表示车辆我们假设驾驶模型以离散时间工作，并且每1/f秒做出驾驶决策。输入全部同步，并以采样率f进行采样。除非另有说明，我们的输入和输出都以这种离散形式表示。数据集驱动时间#凸轮FPS机动，例如转向路线规划师GPSIMU控制凸轮位数据类型LiDAR带全景摄像头和路线规划器的驾驶模型9电话+1我们使用下标t表示时间戳。例如，当前视频帧是It，当前车辆的速度是Vt，第k个先前视频帧是It-k，并且第k个先前转向角是St-k，等等。然后，k个最近样本可以由V[t-k+1，t]表示。 ≡ ∠Vt−k+1，...，Vt∠，S[t−k+1，t] St−k+1，.，St>和V[t−k+1，t] ≡Vt−k+1，...，Vt，respectiv ely.我们的目标是训练一个深度网络来预测所需的从车辆的历史状态、历史和当前视觉观察者的驾驶动作#21453;，以及规划的路线。学习任务可以定义为：F：（S[t−k+1，t]，V[t−k+1，t]，L[t−k+1，t]，I[t−k+1，t]，Pt）→ St+1× Vt+1（1）其中，St+1表示转向角空间，Vt+1表示未来时间t+1的速度空间。S和V可以以若干粒度级别来定义我们考虑从汽车的CAN总线直接记录的连续值，其中V = {V|速度为0≤V≤180，且S={S|−720≤S≤720}（转向角）。这里，千米每小时（km/h）是V的单位，度（◦）是S的单位。由于从P的历史值中没有太多的东西可学，所以只使用PtPt是来自我们的TomTom路线规划器的视频帧或来自我们的OSM路线规划器的300×2矩阵给定在真实驾驶期间收集的N个训练样本，学习预测驾驶针对未来时间t+1的动作基于最小化以下成本：L（θ）= ΣN .n=1nt+1n[t−k+1，t]n[t−k+1，t]n[t−k+1，t]n[t−k+1，t]，Pt））Σ（二）+λl（Vnn[t−k+1，t]n[t−k+1，t]n[t−k+1，t]n[t−k+1，t]，Pt）），其中λ是平衡两个损耗的参数，一个损耗用于转向角，另一个损耗用于速度。我们在这项工作中使用λ=1。F是驾驶模型的学习函数。对于连续回归任务，l（. ）是L2损失函数。找到更好的方法平衡这两个损失函数是我们未来的工作。我们的模型从多个先前的帧中学习，以便更好地理解流量动态。4.2执行我们的驾驶系统配备了四个摄像头（前、左、右和后视），可提供完整的全景视图。我们用所有八个摄像头记录数据，以保持未来的灵活性。这项工作为我们在4.1节中定义的学习问题开发了一个定制的网络架构，该架构由深层次子网络组成。它配备了多个CNN作为特征编码器，四个LSTM作为来自四个全景摄像头的信息的时间编码器，一个全连接网络（FN）来融合来自所有摄像头和地图的信息，最后还有两个FN来输出汽车的未来速度和转向角度。说明性架构在图1中示出。在训练过程中，视频的大小都调整为256×256，我们增加了数据使用227×227裁剪，无需镜像。对于CNN特征编码器，我们采用在ImageNet[78]数据集上预训练的ResNet34[77]模型。我们的网络architec-ture的灵感来自于[79]中开发的长期递归卷积网络。补充资料中提供了有关网络体系结构的更详细说明。l（S，Fs（S，V，L，我，Fv（S，V，L，我10S. Hecker，D.Dai和L.Van Gool表2：当使用单个前置摄像头时的速度预测和转向角预测的MSE（给出了先前的驾驶状态）。5实验我们在80%的数据集上训练我们的模型，对应于48小时的驾驶时间和大约170万个独特的同步序列样本。我们的行车路线通常为2小时我们从30条驾驶路线中挑选了24条进行训练，另外6条进行测试。这样，网络将不会过度适应任何类型的特定道路或天气。同步视频帧以10fps的速率提取，因为60fps将生成非常大的数据集。一个同步样本包含四个帧，分辨率为256×256，用于相应的前、左、右和后向摄像头，一个渲染图像，分辨率为256×256，用于TomTom路线规划器，或一个300×2矩阵，用于OSM路线规划器，CAN总线数据和GPS数据的我们使用Adam Optimizer训练我们的模型，初始学习率为10−4，批量大小为16，持续5个epoch，训练时间约为3天。对于四个环绕视图相机，我们使用四个帧来训练网络：过去的0.6s、过去的0.3s和当前帧。这导致f = 3的采样率。三十三岁。可以以计算成本为代价使用更高的值这导致4×4=16个CNN用于捕获街景视觉场景。我们的评估分为两部分：评估我们的方法，方法，并且评估使用路线规划器和/或环绕视图相机系统的益处。5.1与其他单摄像机方法的比较我们将我们的方法与[12]和[25]的方法进行比较。由于BDDV数据集不提供驾驶动作的数据（例如转向角）[12]，我们在我们的数据集上训练他们的网络为了进行公平的比较，我们遵循他们的设置，只使用一个前置摄像头，并预测未来时间0的驾驶行为。3秒。我们使用均方误差（MSE）进行评估。速度预测在表2中示出了转向角和转向角预测。我们包括仅对CAN总线信息进行训练的基线参考（没有给出图像信息）。该表显示我们的方法显著优于[25]，略优于[12]。[25]不使用预先训练的CNN;这可能解释了为什么他们的表现要差得多。这两种方法的比较是为了验证我们的前视驾驶模型代表了最先进的技术水平，以便扩展到一个合理的基础上，包括多视图摄像头，并包括路线规划。我们注意到，基准参考表现得相当好，这表明由于驾驶操纵的惯性，网络已经可以预测速度和转向角为0。3s进一步进入未来相当好，完全基于过去提供的地面真理ma- neuver例如，如果在时间t将车轮转向右侧，则在时间t仅CAN[25日] [12个]我们转向0.8691.3120.1610.134速度0.01470.6533 0.0066 0.0030带全景摄像头和路线规划器的驾驶模型11路线规划器完整数据集子集：GT≤30 km/h表3：当使用不同设置时，通过我们的方法的速度和转向角预测的MSE（较小=较好）。对全评估集和人类驾驶机动≤30km/h的子集的预测。t+0。3s车轮很可能是在一个类似的角度向右。在真正的自动驾驶车辆中，过去的驾驶状态可能并不总是正确的。因此，我们认为，一些现有方法所采用的依赖于车辆过去的“地面实况”状态的策略对于真正的自动驾驶汽车，错误将通过反馈回路被夸大。基于这个发现，我们去掉S[t−k+1，t]和V[t−k+1，t]，即而不使用先前的人类驾驶动作，并且仅基于计划路线和对当地道路情况的视觉观察来学习期望的速度和转向角度这种新的设置5.2路线规划师我们通过设计两个网络，使用我们的视觉TomTom，或我们的数值OSM指导系统，并比较这些对我们的网络，不包括一个路线规划的路线规划的好处。每个网络速度和转向角预测的结果总结在表3中。评估结果表明，我们的视觉TomTom路线规划显着提高预测性能，而OSM方法并没有产生明显的改善。由于速度的预测比转向角的预测更容易，因此使用路线规划器将对转向角的预测具有更显著的益处。为什么视觉TomTom规划器更好？人们很容易认为GPS坐标比渲染的视频包含更准确的信息，因此为规划的路线提供了更然而，如果直接使用GPS坐标而不进行进一步的仔细处理，则不是这种情况。在诸如TomTom Mobile Go之类的导航设备上的规划路线的可视化利用基于车辆的移动轨迹的准确车辆定位基于车辆移动轨迹的定位在地图匹配的名称下解决，并且这本身是一个长期存在的研究问题[80，81，82]。对于我们的TomTom路线规划器，这是通过TomTom优秀的底层地图匹配方法完成的，尽管公众并不知道。该渲染过程将“原始”GPS坐标转换然而，我们实现的OSM路线规划器编码更多转向速度转向速度没有一0.9670.1974.0530.167前视TomTom0.8080.1763.3570.268OSM0.9810.2124.0870.165没有一0.9270.2573.8700.114环绕视图TomTom0.7990.2003.2140.142OSM0.9400.2283.9170.12512S. Hecker，D.Dai和L.Van Gool在地图级别上的全局空间信息，使得导航信息和街景视频的集成更具挑战性。读者参考图3以获得两个路线规划器的示例性表示。除了地图匹配之外，我们还提供了进一步可能的解释：1）原始GPS坐标对于位置是准确的，但是达不到其他高级和上下文信息（道路布局、道路属性等）。其在可视路线规划器中是“可见的”。例如，原始GPS坐标不区分“高速公路出口”和“高速“轻微右弯”并且不显示交叉口中的其他替代道路，而视觉路线规划器显示。似乎在导航设备中优化以辅助人类驾驶的那些语义特征对于机器驾驶也是有用的。自动驾驶导航任务的特征设计/提取是一个有趣的未来课题。2）TomTom和OSM的底层路网质量不同。OSM是众包的，因此其道路网络的质量/准确性并不总是得到保证。不过，由于TomTom的道路网络不向公众开放，因此很难进行直接比较5.3全景摄像机全景摄像头提供了一个适度的改进，预测转向角的完整评估集。然而，它们似乎降低了速度预测的整体性能。进一步的研究表明，环绕摄像机对于需要自我汽车通过控制驾驶速度来给其他（潜在）道路使用者让路的情况特别有用。值得注意的例子包括1）繁忙的城市街道和居民区，其中人类以低速驾驶; 2）交叉路口，特别是没有交通信号灯和停车标志的交叉路口。例如，交叉路口处的速度由自我汽车是否具有用于规划路线的畅通路径来确定。全景摄像头可以看到是否有其他汽车从任何一侧驶来，而前置摄像头只能看到许多方向。为了检验这一点，我们在我们的评估数据集中明确选择了两种特定类型的场景，以便对前视图与后视图进行更细粒度的评估1）根据人类驾驶的速度的低速（城市）驾驶; 2）人工标注的交叉口场景。评价结果分别示于表3和表4中。性能更好的TomTom路线规划器模型用于表4中的实验。在这两种非常重要的驾驶情况下，全景摄像头显著提高了速度控制的性能。对于作为人类驾驶员，当涉及道路的多个选择时，即在道路交叉口处，我们主要咨询我们的导航系统为了评估路线规划是否特别在这些场景中提高性能，我们选择了我们的测试集的一个子集作为人类低速的示例，并在表3中报告了该子集的结果。表3中的结果支持我们的主张，即路线规划对驾驶模型是有益的，并且改善了驾驶性能，特别是对于执行转弯操纵的情况。在未来的工作中，我们计划选择其他有趣的情况进行更详细的评估。带全景摄像头和路线规划器的驾驶模型13相机≤10km/h≤20km/h≤30km/h≤40km/h≤50km/h前视0.1180.1500.1580.1570.148环绕视图0.0800.1270.1450.1460.143表4：通过我们的前视图+TomTom和TomTom的速度预测的MSE（更小=更好）全景+TomTom驾驶模式。在我们的评估数据集的2小时子集上对手动注释的交叉点场景进行评估。在交叉口情况下，环绕视图的性能显著优于前视图。定性评估虽然神经网络的标准评估技术（如均方误差）确实提供了对模型性能的全局洞察，但它们在评估局部范围内使用环绕视图相机或路线规划提高预测准确性时不太直观为此，我们使用我们的可视化工具来检查和评估不同的“情况”的模型性能图 3 示出了按行的三个模型比较（ TomTom 、 Surround 、 Surround+TomTom）的示例，其中具有附加信息的模型直接与我们的仅前置摄像头的模型进行比较，由速度和方向盘角度仪表示出。方向盘角度表是方向盘角度到度的直接映射，而速度表是从0 km/h到130 km/h。模型可能接收的附加信息是应使用量规进行相对模型比较，其中仅前置摄像头模型预测为橙色，具有附加信息的模型为红色，人类操纵为蓝色。因此，为了我们的目的，我们定义了一个表现良好的模型时，模型规格的大小是相同的（或类似的）人类规格。列方面，我们展示了以下示例：（a）两个模型都表现良好，（b）具有附加信息的模型表现更好，（c）两个模型都失败。我们的定性结果，在图3（1，b）和（3，b），支持我们的假设，路线规划器确实是有用的交叉路口，有一个模糊的正确的行驶方向具有路线规划信息的两个模型都能够预测交叉口处的正确方向，而没有此信息的模型预测相反。虽然这种另一方面，我们的地图模型能够克服这一点。图3（2，b）示出了全景相机在预测正确的速度方面是有益的。提供的正面视图可能表明，一个人在乡村道路上的速度限制明显高于城市，因此，我们的前置摄像头模型预测的速度远远大于人类的操纵。然而，我们的环绕视野系统可以捕捉到汽车右侧的行人，从而相应地调整速度。因此，环绕视图模型对其周围环境具有更精确的理解。可视化工具。进一步了解当前驾驶模型的性能无论成功与否，我们已经开发了一个视觉评估工具，让用户选择场景通过点击地图，然后绘制相应的4个摄像机视图、地面实况和预测的车辆操纵（转向角和速度）以及该时间点的地图来设置评估这些评估工具将与数据集一起向公众发布特别是视觉评估对理解14S. Hecker，D.Dai和L.Van Gool（三（一（二）(a)(b)（c）第（1）款图3：未来驾驶行为预测的定性结果，将三种情况与仅前置摄像头模型进行比较：（1）使用TomTom路线规划器学习，（2）使用环绕视图相机学习，（3）使用TomTom路线规划器和环绕视图相机学习。TomTom路线规划器和环绕视图图像显示在红色框中，而OSM路线规划器显示在黑色框中。最好在屏幕上看。驾驶模型在何处以及为什么预测了某个操纵，因为有时，虽然与人的动作不一致，但是网络仍然可以预测安全的驾驶操纵。6结论在这项工作中，我们将学习端到端驾驶模型扩展到更现实的设置，从仅使用单个前视摄像头。我们已经提出了一个新的任务，学习端到端的驾驶模型与环绕视图摄像头和渲染的地图，使汽车我们提出了两个主要贡献：1）新的驾驶数据集，其特征在于具有八个全景摄像头的60小时的驾驶视频、经由汽车的CAN总线记录的低水平驾驶操纵、由两个路线规划器进行的规划路线的两种表示、以及用于车辆里程计的GPS-IMU数据; 2）新颖的深度网络，其直接从传感器输入映射到未来的驾驶操纵。我们的数据具有高临时分辨率和360度视图覆盖、帧同步和多种道路条件，使其成为学习端到端驾驶模型的理想选择。我们的实验表明，端到端学习方法可以有效地使用全景摄像机和路线规划器。渲染的视频优于表示计划路线的原始GPS坐标堆栈。鸣谢。这项工作是由丰田汽车欧洲通过研究项目TR ACE-Zürich资助的。用于本研究的一台TitanX由NVIDIA捐赠。带全景摄像头和路线规划器的驾驶模型15引用1. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。In：Proc. IEEE计算机视觉与模式识别会议（CVPR）（2016年）2. Sakaridis，C.，Dai，D.，Van Gool，L.：基于合成数据的语义模糊场景理解。International Journal of Computer Vision（2018）3. 余，F.，西安，W.，陈玉，刘芳，Liao，M.，Madhavan，V.，达雷尔，T.：BDD100K：一个多样化的驾驶视频数据库，具有可扩展的注释工具。CoRR（2018）4. Dai，D.，Van Gool，L.：渐进式模型自适应和知识转移从白天到夜间的语义道路场景理解。IEEE International Conference on Intelligent Transportation Systems（IEEE智能交通系统国际会议）（2018年）5. LeCun，Y.，穆勒大学Ben，J. Cosatto，E.，Flepp，B.：通过端到端学习实现越野避障。在：NIPS。（2005年）6. 胡瓦尔湾王，T.，Tandon，S.，基斯克J宋，W.，Pazhayampallil，J.，Andriluka，M.，Rajpurkar，P.，Migimatsu，T.，Cheng-Yue，R.，Mujica，F.，Coates，A.Ng，A.Y.：深度学习对高速公路驾驶的实证评估。CoRRabs/1504.01716（2015）7. 陈春，Seff，A.，Kornhauser，A.，Xiao，J.：Deepdriving：学习直接的启示自动驾驶中的感知。在：IEEE计算机视觉国际会议论文集。（2015）27228. Caltagirone，L.，Bellone，M.，Svensson，L. Wahde，M.：使用全卷积神经网络同时感知和路径生成。arXiv预印本arXiv：1703.08987（2017）9. 陈淑仪，Zhang，S.，（1991），中国农业科学院，尚，J.，陈伯，Zheng，N.：大脑启发的认知模型与自动驾驶汽车的注意力。arXiv预印本arXiv：1702.05596（2017）10. 帕克斯顿角Raman，V.，Hager，G. D.，Kobilarov，M.：结合神经网络和树搜索，用于在具有挑战性的环境中进行任务和运动规划。在：IROS. （2017年）11. 南达科他州彭德尔顿Andersen，H.，杜X沈，X.，Meghjani，M.，Eng，Y.H.，罗斯，D.，Ang，M.H.：自动驾驶汽车的感知、规划、控制和协调机器5（1）（2017）12. 徐华哲，杨高，F.Y.，达雷尔，T.：端到端学习驾驶模型，从大型缩放视频数据集。计算机视觉与模式识别（CVPR）（2017年）13. Cod e v illa，F.， Mülle r，M.， Lopez，A.， Koltun，V.， Dos o vitski y，A.：通过条件模仿学习的端到端驱动（2018年）14. 陈玉，王杰，李杰，吕，C.，Luo，Z.，薛，H.，Wang，C.：激光雷达视频驱动数据集：有效学习驾驶政策。IEEE计算机视觉与模式识别会议（CVPR）(June2018年）15. 马克达人工智能Loquercio，A.，加列戈湾Garc'ıa，N.，Scaramuzza，D.：基于事件的视觉与深度学习在自动驾驶汽车转向预测方面的结合。IEEE计算机视觉与模式识别会议（CVPR）(June2018年）16. 麦卡利斯特河

下载后可阅读完整内容，剩余1页未读，立即下载