没有合适的资源?快使用搜索试试~ 我知道了~
基于视觉的驾驶模型离线评价研究Felipe Code villa1,Antonio M.Lo´ pez1,VladlenK oltun2,and Alexe y Doso vitskiy21ComputerVisionCenter,Uni versitatAuto` nomadeBarcelona2英特尔实验室抽象。理想情况下,自动驾驶模型应该通过将其部署在现实世界中的物理车辆上不幸的是,这种方法对绝大多数研究人员来说并不实用。一个有吸引力的替代方案是离线评估模型,在预先收集的验证数据集上进行地面实况注释。在本文中,我们研究了各种在线和离线指标之间的关系,用于评估自动驾驶模型。我们发现,离线预测误差与驾驶品质并不一定相关,并且具有相同预测误差的两个模型在其驾驶性能上可能会有显着差异我们表明,离线评价与驾驶质量的相关性可以显着提高,通过选择适当的验证数据集和合适的离线指标。保留字: 自动驾驶、深度学习1介绍基于摄像头的自动驾驶可以被视为计算机视觉问题。它需要分析输入视频流并估计某些高级量,例如车辆的期望未来轨迹或要执行的原始控制信号。计算机视觉中的标准方法是通过收集具有地面实况注释的数据集并针对该地面实况评估由算法产生的结果来评估算法(图1(a))。然而,与大多数计算机视觉任务相比,驾驶本质上是主动的也就是说,它涉及与世界和其他代理人的互动。最后的目标是好好开车:安全、舒适、符合交通规则。最终评估将涉及在现实世界中部署一个车队与这种评价相关的逻辑困难导致了以下问题:有没有可能评估一个驱动模型,而不是让它实际驱动,而是遵循离线数据集为中心的方法?一个成功的方法来评估的驱动系统是通过分解。它源于模块化的驾驶方法,其中单独的子系统处理子问题,如环境感知,地图和车辆控制。感知栈提供在语义、3D布局和运动方面对场景的高级理解这些导致标准的计算机视觉任务,例如对象检测,语义分割,深度估计,3D重建或光流估计,这些任务可以在基准数据集上离线评估[10,5,19]。这种方法非常富有成效,但它仅适用于模块化驱动系统。2F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy(一)(b)第(1)款图1.一、感觉运动控制模型的两种评价方法。上图:使用地面实况注释对固定数据集进行离线(被动)评估下图:循环中的环境的在线(主动)评估最近的深度学习方法[1,27]旨在通过从图像到控制命令的端到端学习来取代模块化管道分解评估不适用于此类型的模型端到端方法通常通过收集专家驾驶的大型数据集[27]并测量数据集上模型的平均预测误差来评估这种离线评估很方便,并且与计算机视觉的标准实践一致,但它提供了多少关于模型实际驾驶性能的信息?在本文中,我们实证研究(离线)预测精度和(在线)驾驶质量之间的关系。我们在现实模拟中训练了一组不同的城市驾驶模型[6],并将其驾驶性能与离线预测准确性的各种指标相关联。通过这样做,我们的目标是找到可以在静态数据集上执行的离线评估程序,但同时与驾驶质量相关我们凭经验发现的最佳实践,无论是在选择的验证数据集和设计的错误度量。此外,我们还研究了几种模型在现实世界Berkeley DeepDrive Video(BDDV)城市驾驶数据集上的性能[27]。我们的关键发现是,离线预测准确性和实际驾驶质量的相关性非常弱。这种相关性是特别低的预测时,由一个单一的前向摄像头专家驾驶trajec-tories收集的数据预测误差非常低的网络相反,具有相对高的预测误差的模型可以良好地驾驶。我们发现了两种增加预测和驾驶之间这种不良相关性的一般方法。首先是使用更合适的验证数据。我们发现,在侧向摄像头(有时安装以收集额外的图像用于模仿学习)中测量的预测误差与驾驶性能的相关性比单独在前向摄像头中测量的预测误差更好。第二种方法是设计离线met-观察环境模型预测数据集观察预测模型地面实况误差度量驾驶性能预测性能基于视觉的驾驶模型离线评价研究3偏离简单均方误差(MSE)的rics我们提出了离线指标,与驾驶性能比MSE好60%以上。2相关工作传统上,基于视觉的自动驾驶任务是在专用的注释真实世界数据集上进行评估的。例如,KITTI [10]是一个全面的基准测试套件,具有用于立体深度估计、里程计、光流估计、对象检测、语义分割、实例分割、3D边界框预测等的注释。Cityscapes数据集[5]提供了语义和实例分割的注释。BDDV数据集[27]包括语义分割注释。对于一些任务,地面实况数据采集在物理世界中是具有挑战性的或几乎不可能的(例如,对于光流估计)。这促使使用模拟数据来训练和评估视觉模型,如在SYNTHIA [22]、Vir- tual KITTI [9]和GTA5数据集[20]以及VIPER基准[19]中这些数据集和基准对于评估视觉管道的不同组件的性能是有价值的,但它们不允许评估完整的驾驶系统。最近,对驾驶的端到端学习的兴趣增加导致了用于从观察(通常是图像)进行直接控制信号预测的任务的数据集和基准的出现。为了收集这样的数据集,车辆配备有一个或多个摄像机和记录坐标、速度、有时被执行的控制信号等的附加传感器。Udacity数据集[25]包含高速公路和城市场景中的车道跟踪记录。CommaAI数据集[23]包括7小时的高速公路驾驶。牛津RobotCar数据集[16]包括在不同天气,照明和交通条件下记录的超过1000公里的驾驶BDDV数据集[27]是迄今为止最大的公开可用的城市驾驶数据集,具有从前向摄像头记录的10,000这些数据集为端到端驾驶系统提供了有用的训练数据。然而,由于其静态性质(被动预记录数据而不是生活环境),它们不支持对学习模型的实际驾驶性能进行评估。驾驶模型的在线评估在技术上具有挑战性。在物理世界中,测试通常限于受控的简单环境[13,4]和定性结果[18,1]。对绝大多数研究人员来说,大规模的真实世界评估是不切实际的一种替代方案是模拟。由于其后勤上的可行性,仿真已普遍用于驾驶研究,特别是在机器学习的背景下。TORCS模拟器[26]专注于赛车,并已应用于评估道路跟随[3]。计算机游戏提供的丰富的活动环境已被用于驾驶模型的训练和评估[7];然而,在商业游戏中,可用的信息和环境的可控性通常是有限的最近的CARLA驾驶模拟器[6]允许在不同的天气和照明条件下评估居住城镇中的驾驶在这项工作中,我们使用CARLA进行广泛的研究离线性能指标的驾驶。4F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy虽然我们执行的分析适用于任何基于视觉的驾驶管道(包括包含单独感知[21,24,28,2,12]和控制模块[17]的管道),但在本文中,我们专注于端到端训练模型。这一系列工作可以追溯到Pomerleau的ALVINN模型[18],能够在简单的环境中进行道路跟踪。最近,LeCun et al.[15]通过端到端训练的深度网络展示了冲突避免。Chen等人[3]在TORCS模拟器中学习道路跟踪Bojarski等人[1]在大型真实世界数据集上训练用于车道跟踪的深度卷积网络,并将系统部署在物理车辆上。费尔南多等人[8]使用结合视觉输入和方向盘轨迹的神经记忆网络来执行长期规划,并使用CommaAI数据集来验证该方法。Hubschneider等人[11]将转向信号作为其DriveNet的附加输入。Codevilla等人[4]提出了条件模仿学习,它允许模仿学习扩展到复杂的环境,如城市驾驶,通过对高级导航命令的条件动作预测。对驾驶的端到端学习的兴趣日益增长,促使我们对相关评估指标进行调查。3方法我们的目的是分析离线预测性能和在线驾驶质量之间的关系为此,我们在模拟的城市环境中使用条件模仿学习[4]训练模型[6]。然后,我们评估目标导向导航的驾驶质量我们现在描述用于训练和评估模型的方法。3.1条件模仿学习为了训练模型,我们使用条件模仿学习-模仿学习的一种变体,允许向模型提供高级命令。当与高级拓扑规划器耦合时,该方法可以扩展到复杂的导航任务,例如在城市环境中驾驶。我们在这里简要回顾一下这种方法,并请读者参阅Codevilla等人的文章。[4]详情。我们首先收集一个训练数据集的元组{oi,ci,ai},每个元组包括观察〇i、命令Cl和动作ai。观察结果是由安装在车辆上的相机记录的图像。命令Cl是高级导航指令,诸如我们使用四个命令-最后,i是表示由驱动程序执行的动作的向量它可以是原始控制信号转向角度、油门和刹车在这项工作中,我们专注于预测给定数据集,我们用可学习参数θ训练卷积网络F为了执行命令条件动作预测,通过最小化平均预测基于视觉的驾驶模型离线评价研究5损耗:θ*=arg minΣ(F(o,c,θ),a),我我我θi(一)其中,R2是每个样本的损失。我们的实验与几个架构的网络F,所有的基础上的分支模型Codevilla等人。[4]的文件。在第3.2节中更详细地审查了训练技术和培训的进一步详情见补编。3.2培训数据收集。我们通过在模拟环境中执行自动导航专家来收集训练数据集。专家利用关于环境的特权信息,包括环境的精确地图以及自我汽车、所有其他车辆和行人的精确位置。专家在直线行驶时保持35 km/h的恒定速度,并在转弯时降低速度。我们从三个摄像头记录图像:一个面向前方的摄像机和两个面向左右30度的侧向摄像机。在10%的数据中,我们在驱动策略中注入噪声我们总共记录了80小时的驾驶数据。动作表示。驾驶端到端学习的最直接方法是直接输出原始控制命令,例如转向角[1,4]。我们在大多数实验中使用这种表示法这个动作就是一个矢量a∈R3,由转向角、油门值和制动值组成。为了简化分析并保持与先前工作的兼容性[1,27],我们仅预测转向角度与深网络。我们使用上述专家策略提供的油门和制动值。损失函数在我们的大多数实验中,我们遵循标准实践[1,4]并使用均方误差(MSE)作为每个样本的损失:(F(oi,ci,θ),ai)=(二)我们还尝试了L1损失。在大多数实验中,我们在训练过程中平衡数据。我们通过基于地面实况转向角将数据划分为8个区间并从每个小批次中的每个区间采样相等数量的数据点来因此,被优化的损失不是数据集上的平均MSE,而是其加权版本,其中给予大转向角更高的权重。正规化。即使当在用于收集训练数据的环境中进行评估时,驾驶策略也需要推广到该环境的先前不可见的视图。因此,泛化对于成功的驾驶策略至关重要。在训练网络时,我们使用dropout和数据增强作为正则化措施脱落率为0。卷积层中为2,卷积层中为0。5在完全连接的层中。对于要呈现给网络的每个图像,我们应用具有随机采样幅度的一组变换的随机子集变换包括对比度变化、亮度和色调,以及添加高斯模糊、高斯噪声、椒盐噪声和区域丢弃(掩蔽掉图像中的一组随机矩形6F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy|V|i∈V|V|i∈V1每个矩形大约占图像面积的1%为了确保良好的收敛性,我们发现与训练步骤成比例地逐渐增加数据增强幅度是有帮助的补充资料中提供了更多细节模型架构。我们使用前馈卷积网络进行实验,该网络将当前观测值以及额外的测量向量作为输入(在我们的实验中,唯一的测量值是车辆的当前速度)。该网络实现了一个纯粹的反应性驾驶策略,因为通过构造,它不能利用时间上下文。我们用这个模型的三个变体进行实验。Codevilla等人使用的架构。[4],具有8个卷积层,被表示为“标准”。我们还尝试了具有12个卷积层的更深架构和具有4个卷积层的更浅架构。3.3性能度量离线错误度量。 假设我们给定一个验证集V,它由元组oi,ci,ai,vi组成,索引为i ∈ V。每个元组包括观察、输入命令、基础-真实动作向量和车辆的速度。我们假设验证集由一个或多个按时间排序的驱动序列组成。(For简单性在下文中,我们假设它是单个序列,但推广到多个序列是微不足道的。用a^i=F(oi,ci,θ)表示模型预测的动作。在我们的实验中,a并且a1是标量,表示转向角。速度也是标量(以m/s为单位)。表1. 评估中使用的离线指标。δ是克罗内克δ函数,θ是Heavi侧阶跃函数,Q是量化函数(详见文本),|V|是验证数据集中的样本数。指标名称参数指标定义平方误差绝对误差|i ∈ V 1|i ∈ V1速度加权绝对误差1Σ¨ΣT¨累积速度加权绝对误差T|V| i∈Vt=0 (ai+t−a^i+t)vi+t¨1|V|i∈V|V|i∈V表1列出了我们在本文中评估的离线指标。前两个指标是标准的:均方误差(通常是训练损失)和绝对误差。绝对误差比MSE对大错误的权重相对较小。车速越高,控制错误的影响就越大。为了量化这种直觉,我们评估速度加权绝对误差。该度量近似地测量车辆偏离地面实况轨迹的速度量化分类误差σ1-1(1-δ)(Q(i,σ)),Q(a(i,σ)阈值相对误差α1Σθ(a^i−ai−αai)基于视觉的驾驶模型离线评价研究7^即速度矢量在与航向方向正交的方向上的投影我们通过随时间累积速度加权误差来获得下一个度量。直觉是,平均预测误差可能不是驾驶质量的特征,因为它没有考虑误差中的时间相关性暂时不相关的噪声可能导致专家轨迹周围的轻微振荡,但仍然可以导致成功驾驶。相比之下,长时间持续偏向一个方向不可避免地会导致崩溃。因此,我们在T个时间步长上累积该测量是车辆在T个时间步长上与期望轨迹的偏离的粗略近似另一种直觉是,小噪音可能与驾驶性能无关,重要的是正确的大方向。类似于Xu et al.[27],我们对预测的动作进行分类并评估分类误差。对于量化,我们明确地利用动作是标量的事实(尽管类似的策略可以应用于高维动作)。给定一个阈值σ,如果x−σ,量化函数Q(x,σ)返回−1,如果−σ≤x<σ,返回0,如果x≥σ,返回1。<对于转向角,这些值对应于向左、直行和向右。给定量化预测和地面实况,我们计算分类误差。最后,最后的度量是基于量化和相对误差。代替如在先前度量中那样用固定阈值量化,这里阈值是自适应的,与地面实况转向信号成比例。其思想是,对于大的行动值,与地面实况的小差异不如小行动重要价值观因此,我们计算ai− ai≥ α ai的样本的分数。在线性能指标。我们使用三个指标来衡量驾驶质量。第一个是成功率,或者简单地说,成功完成导航试验的比例。第二个是每个片段朝向目标行进的距离的平均分数(该值可以是负的,因为智能体远离目标)。第三个指标测量两次违规之间的平均行驶公里数。(违规行为的示例包括碰撞、在人行道上行驶或在对面车道上行驶。)4实验我们进行了广泛的研究,在线和离线性能的驾驶模型之间的关系。由于在现实世界中进行此类实验是不切实际的,因此大部分实验在CARLA模拟器中进行[6]。我们首先训练一组不同的驾驶模型,这些模型具有不同的架构,训练数据,正则化和其他参数。然后,我们将在线驾驶质量度量与基于离线预测的度量相关联,旨在找到最能预测在线驾驶性能的离线度量。最后,我们对真实世界的BDDV数据集进行了额外的分析。补充材料可以在项目页面上找到:https://sites.google.com/view/evaluatedrivingmodels。8F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy4.1实验装置仿真 我们使用的CARLA模拟器,以评估在城市环境中的驾驶模式- els的性能。我们遵循Codevilla等人的测试方案。[4]和Dosovitskiy et al.[6]的文件。我们评估目标导向导航与动态障碍。一项评价包括25项目标导向导航试验。CARLA提供两个城镇(城镇1和城镇2)以及可配置的天气和照明条件。我们利用这种能力来评估驾驶方法的泛化我们使用4种天气(晴朗的中午,大雨中午,晴朗的日落和雨后晴朗)中的城镇1进行训练数据收集,并且我们使用两种测试条件:晴朗的中午天气中的城镇1和小雨日落天气中的城镇2。第一个条件存在于训练数据中;然而,请注意,在评估策略时观察到的特定图像因此,即使是这种情况也需要推广。另一个条件为了验证,我们在每个条件下使用2小时具有动作噪声的驾驶数据和2小时不具有动作噪声的数据。使用三个摄像头和每秒10帧的帧速率,一小时的数据量相当于108,000张验证图像。真实世界的数据。 对于真实世界的测试,我们使用BDDV数据集的验证集[27],包含1816个仪表板摄像头视频。我们使用预训练模型和Xu等人提供的数据过滤程序计算整个数据集的离线度量[27]第10段。网络培训和评估。所有模型都使用Adam opti- mizer [14]进行训练,小批量为120个样本,初始学习率为10−4。我们每50K次迭代将学习率降低2倍。所有模型都经过了多达500K次迭代的训练。为了在训练过程中跟踪模型的演变,对于每个模型,我们在以下操作之后执行在线和离线评估训练小批的数量:2K、4K、8K、16K、32K、64K、100K、200K、300K、400K和500K。4.2评价模型我们总共训练了45个模型。我们改变的参数可以大致分为三类:训练数据的属性、模型架构的属性和训练过程的属性。我们改变训练数据的数量和分布。金额在0. 2小时和80小时的车程。分布是以下四种之一:从三个摄像机收集的所有数据以及添加到对照的噪声、仅来自中央摄像机的数据、仅无噪声的数据、以及来自中央摄像机的无噪声的数据。模型架构变化相当于在4层和12层之间改变深度。训练过程中的变化是使用数据平衡,损失函数和应用的正则化(dropout和数据增强的水平)。评价期间变化的参数的完整列表见补充文件。基于视觉的驾驶模型离线评价研究94.3离线和在线指标之间的相关性我们首先研究了整个评估模型集的在线和离线性能指标之间的相关性我们用散点图和相关系数表示结果。为了生成散点图,我们选择两个度量并将每个评估的模型绘制为一个圆,圆心的坐标等于这两个度量的值,圆的半径与模型评估的训练迭代成比例。为了量化相关性,我们使用标准样本Pearson相关系数,在图中的所有点上计算。在下面的图中,我们绘制了泛化条件下的结果(城镇2,看不见的天气)。我们将我们的分析集中在表现良好的模型上,根据离线度量丢弃50%最差的补充资料中显示了训练条件下的结果以及所有模型的散点图验证数据的效果。我们首先绘制(离线)平均转向MSE ver-在不同的离线验证数据集上,计算目标导向导航的(在线)成功率我们改变用于验证的摄像机的数量(仅一个前向摄像机或三个摄像机,包括两个侧向摄像机)和验证集中动作噪声的存在。该实验的灵感来自于3摄像头设置和添加噪声已经被提倡用于训练端到端驾驶模型的事实[27,1,6,4]。结果示于图2中。最引人注目的观察是离线预测和在线性能之间的相关性很弱。 对于基本设置-中央摄像机和无动作噪声-相关系数的绝对值仅为0。39岁动作噪声的添加将相关性提高到0。五十四对来自三个相机的数据进行评估,使相关性达到0。七十七。这表明,一个成功的政策,必须不仅预测专家的专家的轨迹上的行动因此,适当的验证数据应包括从扰动中恢复的实例。离线指标。来自三个摄像机或带有动作噪声的离线验证数据可能并不总是可用的。因此,我们现在的目标是找到预测驾驶质量的离线指标,即使在使用单个前向摄像头和无动作噪声的基本设置中进行评估。图3显示了第3.3节中描述的离线指标与导航成功率的散点图。 MSE与驾驶成功率的相关性最小:相关系数的绝对值仅为0。39岁绝对转向误差在0. 61岁令人惊讶的是,通过速度对误差进行加权或在多个后续步骤上累积误差并没有改善相关性。最后,量化的分类误差和阈值化的相对误差也更强地相关,相关系数的绝对值等于0。65和0。64、分别在线指标。到目前为止,我们已经研究了离线指标和单个在线指标成功率是否完全代表实际驾驶质量?在这里,我们将成功率与其他两个在线指标进行比较:向目标行进的距离的平均分数和两次违规之间行进的平均公里数。10F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy中央摄像头,无噪音中央摄像头,有噪音三个摄像头,无噪音相关系数-0.39相关性-0.54相关性-0.770.600.600.600.400.400.400.200.200.200.000.000.000.004 0.0060.010转向MSE(log)0.0100.016转向MSE(log)0.006 0.010 0.018 0.032转向MSE(log)图二、目标导向导航成功率与当对来自不同分布的数据进行评估时,引导MSE我们在泛化条件(Town 2)下评估模型,并根据离线度量绘制50%最佳性能模型。圆圈的大小表示评估模型的训练迭代。我们还显示了每个图的样本Pearson相关系数。请注意,基本数据集上的误差(单摄像机,无动作噪声)是驾驶性能的最小信息。转向MSE转向绝对误差速度加权误差相关系数-0.39相关性-0.61相关系数-0.570.600.600.600.400.400.400.200.200.200.000.000.000.004 0.0060.010转向MSE(log)0.025 0.0400.063转向绝对误差(log)0.398 0.631 1.000速度加权误差(log)累积误差量化分类阈值相对误差相关性-0.61相关性-0.65相关系数-0.640.600.600.600.400.400.400.200.200.200.000.000.000.631 1.000累积误差,64步(log)0.063 0.100 0.158分类误差@0.03(log)0.933 0.955阈值相对误差@0.1(log)图3.第三章。目标导向导航成功率与不同的离线指标。我们在泛化条件(Town 2)下评估模型,并根据离线度量绘制50%最佳性能模型。请注意相关性通常很弱,尤其是对于均方误差(MSE)。成功率成功率成功率成功率成功率成功率成功率成功率成功率基于视觉的驾驶模型离线评价研究11图4示出了这三个在线度量的成对散点图 成功率和平均完成率强相关,相关系数为0。8.两次违规之间行驶的公里数与成功率(0. 77),但与平均完成率(0。44)。我们的结论是,在线指标并不完全相关,因此,建议在评估驾驶模型时测量几个在线指标成功率与其他两个指标相关性很好,这证明了它作为我们分析中的主要在线指标的合理性。成功率与平均值完成Km/违规vs成功率Km/违规vs平均完成0.80相关性0.80相关性0.7731.62相关系数0.440.6010.0010.000.403.163.160.201.001.000.000.320.320.0 0.5平均完成0.00 0.25 0.500.75成功率0.0 0.5平均完成见图4。在线驾驶质量指标的散点图。这些指标是:成功率、到达目标的平均距离分数(平均完成)和两次违规之间的平均行驶距离(以km为单位)。成功率与其他两个指标密切相关,这证明了它作为我们分析中的主要在线指标的合理性。案例研究。 我们已经看到,即使是相关性最好的离线和在线指标的相关系数也只有0。六十五为了理解这种差异的原因,我们在这里仔细研究了两种模型,它们实现了相似的预测精度,但驾驶质量截然不同。第一个模型仅使用MSE损失和前向相机进行训练。第二个模型使用L1损失和三个摄像头。我们将这些模型分别称为模型1和模型2。图5(左上)显示了随时间变化的地面实况转向信号(蓝色),以及模型的预测(分别为红色和绿色)。模型的预测结果没有明显的定性差异:两者都经常偏离基本事实。一个区别是模型1在转弯时预测的转向信号存在较大误差,如图5(右上)所示这种短期差异可能导致崩溃,并且难以基于平均预测误差进行检测。上面评估的高级离线指标旨在更好地捕捉此类错误。图5(底部)示出了由两个模型驱动的若干轨迹Model 1能够在一段时间内直线行驶,但最终在每次试验中都会撞车,通常是因为转弯的时机或方向错误。相比之下,Model 2驾驶性能良好,成功完成了大部分试验。该示例说明了使用离线度量来预测在线驾驶行为的困难。成功率每次违规的公里数(log)每次违规的公里数(log)12F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy转向角预测与一个转弯的时间0.80.60.40.20.00.20.40.60.40.20.00.20.44450 4500 4550 4600 4650 4700 47504800时间(秒)4490 4500时间(秒)模型1的驾驶轨迹模型2的驾驶轨迹图五、 详细评估两种离线预测质量相似但驾驶行为截然不同的驾驶模型。左上:地面实况转向信号(蓝色)和两个模型(红色和绿色)随时间的预测。右上角:转向时间序列的放大片段,显示Model 1(红色)犯的一个大错误底部:由Town 1中的模型驱动的几个轨迹在两个图中用相同颜色指示相同的场景。请注意,这两款车型的驾驶性能有很大的不同:Model 1在每次试验中都会撞车,而Model 2则可以成功驾驶。4.4真实世界数据现实世界的城市驾驶的评估在逻辑上是复杂的,因此我们限制了对现实世界的数据进行离线评估的实验。我们使用BDDV数据集和[27]提供的训练模型训练模型以执行4向分类(加速、制动、左、右),并且我们测量其分类准确度。我们在BDDV的验证集上进行评估。我们上面提出的离线度量是针对连续值设计的,并且不能直接应用于基于分类的模型。然而,它们中的一些可以适应这种离散设置。表2示出了平均准确度以及若干附加度量。首先,我们通过与不同的地面真实标签相对应的数据子集来提供分类准确性的细分回合中的预测误差是最具信息性的,产生最佳和最差模型之间的最大分离其次,我们尝试用地面实况速度来加权误差我们测量完整验证数据集的结果度量,以及仅用于转弯这些指标减少了前馈和LSTM模型之间的差距。地面实况模型2模型12真相模型地面模型1转向值(弧度)转向值(弧度)基于视觉的驾驶模型离线评价研究13表2. BDDV数据集的详细准确度评价。我们报告的4路分类精度(%)的各种数据子集和不同的速度。平均精度与速度模型所有数据直停止 匝所有数据匝前馈78.090.072.032.480.727.7CNN + LSTM81.890.278.149.383.043.2FCN + LSTM83.390.480.750.783.644.44.5模型的详细评估前几节中给出的散点图表明了一般趋势,但不是特定模型的性能。在这里,我们对几种驾驶模式进行了更详细的评估,重点关注几个参数:训练数据量、其分布、使用的正则化、网络架构和损失函数。我们评估两个离线指标-对于TRE,我们使用参数α= 0。1.一、结果示于表3中。在表的每个部分中,所有参数都是固定,除了感兴趣的参数。(各部分的参数可能有所不同。)驾驶性能对所有变化都很敏感。更大量的训练数据通常会导致更好的驾驶。使用一台或三台摄像机进行训练的效果非常小。数据平衡在这两个城市都有帮助。正则化有助于概括以前看不见的城镇和天气。深度网络通常表现得更好。最后,L1损失导致比通常的MSE损失更好的驱动最后的结果与图3一致,图3示出绝对误差比MSE更好地与驾驶质量相关。接下来,对于6个参数中的每一个和2个城镇中的每一个,我们检查基于离线度量选择的最佳模型是否在驾驶质量方面也是最佳的这模拟了从业者可能面临的现实参数调整场景。我们发现,TRE比MSE更能预测驾驶性能,在12种情况下有10种情况下正确这表明,TRE虽然与在线驾驶质量远未完全相关,但比MSE更能指示良好驾驶的模型。5结论我们研究了自动驾驶的离线与在线评估指标的性能。我们已经表明,专家行动的MSE预测误差不是评估自动驾驶系统性能的良好指标,因为它与实际驾驶质量的相关性非常弱。我们探索两种方法来改善离线指标:修改验证数据和修改指标本身。这两种路径都导致与驾驶质量的改善的相关性。我们的工作朝着理解驾驶模型的评估迈出了一步,但它有几个限制,可以在未来的工作中解决一、评价是14F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy表3. CARLA中模型的详细评价。“TRE”代表阈值相对误差,“成功率”代表驾驶成功率。对于MSE和TRE,越低越好,对于成功率,越高越好。我们用粗体标记每个部分中的最佳结果我们以绿色突出显示根据离线指标的最佳模型也是最佳驾驶的情况,分别针对每个部分和每个城镇。MSE和TRE都不一定与驾驶性能相关,但一般来说,TRE更能预测驾驶质量,在12款车型中正确识别出10款最佳驾驶车型,而MSE在12款车型中只识别出6款。参数值MSE镇1镇2TRE@0.1镇1镇2成功率镇1镇2训练数据0.2小时0.00860.04810.9700.9850.440.001小时0.00250.02170.9450.9720.440.045小时0.00050.00930.9280.9610.600.0825小时0.00070.01660.9260.9580.760.04类型的训练数据1凸轮,无噪音0.00070.00660.9220.9470.840.041凸轮,噪声0.00090.00770.9260.9460.800.203凸轮,无噪音0.00040.00860.9280.9530.840.083凸轮,噪声0.00070.01660.9260.9580.760.04数据平衡无平衡0.00120.00650.9070.9240.880.36具有平衡0.00110.00660.8910.9300.920.56正则化没有一0.00140.00920.9110.9530.920.08轻度脱落0.00100.00740.9210.9530.840.20高辍学0.00070.01660.9260.9580.760.04高落差数据增量0.00130.00510.9190.9310.880.36网络架构浅0.00050.01110.9360.9630.680.12标准0.00070.01660.9260.9580.760.04深0.00110.00720.9280.9490.760.24损失函数L20.00100.00740.9210.9530.840.20L10.00120.00610.8910.9440.960.52几乎完全基于模拟数据。我们认为,关于线上和线下指标弱相关性的一般结论可能会转移到现实世界中;然而,我们的相关性分析的细节是否在现实世界中成立尚不清楚。因此,对在丰富的真实世界环境中运行的物理车辆进行类似的研究将非常有价值。其次,我们专注于相关系数作为两个量之间的关系的措施相关系数在某种程度上估计了两个变量之间的联系,但可能需要更细粒度的分析,以更全面地了解在线和离线指标之间的依赖关系第三,即使是我们发现的最好的离线指标,也远不能与实际驾驶质量完美相关。设计与驾驶性能更密切相关的离线性能指标仍然是一个重要的挑战。确认安 东 尼 奥 ·M Lo´ pez 和 FelipeCode villa 确 认 了 西 班 牙 项 目 TIN 2017 -88709-R( Ministerio de Economia , Industria y Competitividad ) , Generalitat de Ca-talunya CERCA计划及其ACCIO机构。Felipe Codevilla获得了FI资助2017 FI-B1 -00162的部分支持。基于视觉的驾驶模型离线评价研究15引用1. Bojarski,M.,Testa,D. D.,Dworakowski,D.,Firner,B.,弗莱普湾Goyal,P.,Jackel,L.D.蒙福特,M.穆勒大学张杰,张,X.,赵,J,Zieba,K.:自动驾驶汽车的端到端学习。arXiv:1604.07316(2016)2. Bresson,G.,Alsayed,Z.,尤湖Glaser,S.:同时定位和映射:自动驾驶当前趋势的调查。IEEE Trans.智能汽车(2017)3. 陈春,Seff,A.,Kornhauser,A.L.,Xiao,J.:DeepDriving:自动驾驶中的直接感知学习启示。国际计算机视觉会议(ICCV)(2015)4. Cod evilla,F., Mülle r,M., Lopez,A., Koltun,V., Dos o vitski y,A.:通过条件模仿学习的端到端驱动机器人与自动化国际会议(ICRA)(2018)5. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:Cityscapes数据集用于语义城市场景理解。计算机视觉和模式识别(CVPR)(2016)6. 两个人在一起A. Ros,G., Cod e villa,F., Lopez,A., Koltun,V.:CAR LA:开放式城市驾驶模拟器。机器人学习会议(CoRL)(2017)7. Ebrahimi,S.,Rohrbach,A.,达雷尔,T.:无干扰的策略架构搜索和自适应。机器人学习会议(CoRL)(2017)8. Fernando,T.,Denman,S.,Sridharan,S.,福克斯,C.:深入:用神经记忆网络实现自动驾驶。在:国际计算机视觉会议(ICCV)研讨会(2017)9. Gaidon,A.王建奎,Cabon,Y.Vig,E.:虚拟世界作为多目标跟踪分析的代理计算机视觉和模式识别(CVPR)(2016)10. Geiger,A.,Lenz,P.乌尔塔松河:我们准备好自动驾驶了吗?KITTI视觉基准测试套件。计算机视觉和模式识别(CVPR)(2012)11. Hubschneider,C.,Bauer,A. Weber,M.,Zollner,J.M.:在等式中添加导航:端到端车辆控制的转向决策。在:智能交通系统会议(ITSC)研讨会(2017)12. Jin X Xiao,H.,沈,X.,杨杰,林芝,陈玉,杰,Z.冯杰,Yan,S.:预测未来的场景解析和运动动态在:神经信息处理系统(NIPS)(2017)13. Kahn,G.,Villaflor,A. Pong,V.,Abbeel,P.,Levine,S.:不确定性感知的碰撞避免强化学习。1702.01182(2017)14. 金玛,D.P.,Ba,J.:Adam:随机最佳化的方法国际学习表征会议(InternationalConference on Learning Representation,ICLR)(2015)15. LeCun,Y.,穆勒大学Ben,J. Cosatto,E.,Flepp,B.:通过端到端学习实现越野避障。神经信息处理系统(NIPS)(2005)16. Maddern,W.Pascoe,G.,Linegar,C.,Newman,P.:1年,1000公里:牛津机器人汽车数据集。国际机器人研究杂志(IJRR)(2017)17. Paden,B., 来吧,M 容,S.Z., 是的,D.S. Frazzoli,E.:自动驾驶城市车辆运动规划和控制技术综述IEEE Trans. on Intelligent Vehicles(2016)18. Pomerleau,D.:ALVINN:神经网络中的自主陆地车辆。在:神经信息处理系统(NIPS)(1988)19. Richter,S.R.,Hayder,Z.,Koltun,V.:为基准而战。国际计算机视觉会议(ICCV)(2017)20. Richter,S.R.,Vineet,V.,Roth,S.,Koltun,V.:玩数据:来自电脑游戏的地面真相在:欧洲计算机视觉会议(ECCV)(2016)16F. Code villa,A.M. 洛佩斯,维。Koltun和A.Dosovitskiy21. 罗斯,G.,Ramos,S.,Granados,M., Bakhtiar y,A., V a'zquez,D., 洛佩斯,上午:基于视觉的自动驾驶离线-在线感知范例在:冬季conf.计算机视觉应用(WACV)(2015)22. 罗斯,G.,塞拉特湖Materzynska,J., Va'zquez,D., 洛佩斯
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功