没有合适的资源?快使用搜索试试~ 我知道了~
10591最终用户输入图像人对车建议例如,在一个实施例中,“pedestrians are in控制命令可视化车辆控制器文本编码器自动驾驶车辆的接地人车建议Jinkyu Kim1,Teruhisa Misu2,Yi-Ting Chen2,Ashish Tawari2,和JohnCanny11 EECS,UC Berkeley,2Honda Research Institute USA,Inc.1{jinkyu.kim,canny}@ berkeley.edu,2{tmisu,ychen,atawari}@ honda-ri.com摘要最近的成功表明,深层神经控制网络可能是自动驾驶汽车的关键组成部分。这些网络是在大型数据集上训练的,以模仿人类的动作,但它们缺乏对图像内容的语义理解这使得它们在与训练数据不匹配的情况下变得脆弱和潜在的在这里,我们建议通过使用来自人类的自然语言建议来增强训练数据来解决这个问题。建议包括关于做什么和去哪里参加的指导。我们提出了提供建议的第一步,在那里我们训练一个接受建议的端到端车辆控制器。控制器调整它关注场景的方式(视觉没有建议有建议模特注意)和控制(转向和速度)。注意力机制将控制者的行为与建议中的突出对象联系起来。我们在一个新的建议驾驶数据集上评估我们的模型,该数据集具有手动注释的人对车辆的建议,称为本田研究所建议数据集(HAD)。我们表明,采取的意见,提高了性能的端到端的网络,而网络线索的各种视觉功能所提供的意见。该数据集可在https://usa.honda-ri.com/HAD上获得。1. 介绍在过去的几年里,自动驾驶汽车控制取得了巨大的进展。最近的成就[3,27]表明,深度神经模型可以通过有效地从数据中学习潜在表示,以端到端的方式应用于车辆控制。这些深层控制器的可解释性越来越多地通过视觉注意力机制[8],解卷积风格的方法[2]和自然语言模型[9]进行探索。这种可解释的模型将是人车交互的重要元素,因为它们允许人和车辆理解和预测彼此然而,网络图1:我们的模型将人对车辆的建议作为输入,即,“行人在人行横道上”,并将其输入车辆控制器,然后车辆控制器预测一系列控制命令,即,方向盘角度和车速。我们的驱动模型还提供了一个视觉解释的形式,注意突出的地区有一个直接的影响功能估计。视觉化的注意力地图有助于最终用户承认他们的建议被接受。我们已经发现,这导致了语义浅的模型,这些模型对重要的线索(如行人)关注不足,无法预测车辆行为以及其他线索,如停车灯或十字路口的存在。我们还认为,驾驶模型能够根据用户输入(快速,温和,风景优美的路线,避免高速公路等)来适应旅程的“风格”是很重要的。我们使用术语我们将建议与对车辆的明确命令区分开来:如果乘客没有完全注意到车辆的环境,这可能是有问题的。这项工作的目标是用人类的长期建议来增强模仿学习数据集(例如,驾驶教练),以及在较短的时间内,从乘客的车辆。一般来说,建议可能采取条件-动作规则的形式在本文中,我们研究了模拟-视觉编码器10592接受关于行动或感知的短期文本建议的任务在这项工作中,我们提出了一种新的驾驶模型,采用自然语言输入(即,人对车辆广告)。在这里,我们重点关注两种形式的建议:(1)面向目标的建议(自上而下的信号)-在导航任务中影响车辆(例如,“drive slow in a school zone”), (2) stimulus-driven advice(bottom-up signal) – conveys some visual stimuli that theuser expects their“有一个行人过路处”)。如图1所示,控制器需要三个主要能力来处理这样的建议。(i)感知原语来评估控制者的行为。(ii)理解用户的话语并将其置于训练过的感知原语中的能力。(iii)控制器内部状态的可解释性,我们建议,这样的能力,可以在离线培训期间学习。我们的贡献如下。(1)提出了一种新的智能驾驶模型,该模型将人-车智能控制引入到车辆控制器中。(2)我们将(刺激驱动的)建议内部化-调整其注意力,使模型即使在没有建议的情况下也能参考重要的显着目标。(3)我们生成了一个名为Honda Research Institute-Advice Dataset(HAD)的大规模数据集,其中包含超过5,600个视频片段(超过32小时),其中包含人对车辆的建议注释,例如,“有一个行人推着婴儿车穿过人行横道”。该数据集将可用,并将提供一个新的测试平台,用于衡量为自动驾驶汽车开发合理模型的进展。2. 相关工作自动驾驶汽车的端到端学习。最近的成功[3,27]表明,驾驶策略可以通过神经网络作为观察的监督原始图 像 ) - 动 作 ( 即 , 转 向 ) 对 从 人 类 示 范 收 集 。Bojarski等人[3]训练了一个深度神经网络来将仪表盘图像映射到转向控制,而Xu等人。[27]使用扩展的深度神经网络和递归神经网络探索了有状态模型,以便在给定输入图像的情况下预测车辆的离散化未来运动。已经探索了深度神经架构的其他变体[5,4]。深度神经网络的可解释性已经成为计算机视觉和机器学习社区中一个不断发展的领域。Kim等人[8]利用了一个循环注意力模型,然后是因果过滤,去除虚假的注意力斑点,并可视化因果注意力地图。我们从这个基于注意力的驾驶模型开始。注意力模型通过可视化注意力地图来可视化控制器一是尊重和接受他们的建议。其他方法[2,9]也可用于提供更丰富的解释,但我们将其留给未来的工作。听取建议的模式。在人工智能社区中,对采纳建议的价值的认识有着悠久的历史[15],但也有一些尝试利用文本建议。已经提出了几种方法来将自然语言建议转换为正式的语义表示,然后将其用于模拟足球任务[11],移动操作任务[16,17,24]和导航任务[1]的偏置动作。这些方法考虑在代理的任务空间中给出的高级动作序列。相反,我们考虑视觉模仿学习设置,其中模型具有自己的感知原语,这些感知原语通过观察第三人称演示和广告类型来训练。最近的工作表明,结合自然语言人类反馈可以改进基于文本的QA代理[12,26]和图像字幕任务[13]。尽管它们具有潜力,但仍存在各种挑战(例如,安全和责任),收集人类对自动驾驶汽车所采取行动的反馈。其他值得注意的方法(在强化学习环境中)可能包括Tung等人的工作。[25]它学习一个以自然语言动作描述为条件的视觉奖励检测器,然后用于训练代理。据我们所知,我们是第一次尝试采用自然语言的人对车辆的建议,并将其置于实时深度车辆控制器中。3. 合理的驾驶模式如图2所示,我们的模型包括三个主要部分:(1)视觉编码器,其通过利用卷积神经网络(CNN)来提取高级视觉描述。(2)建议编码器,其是将终端用户的话语编码成潜在向量并将其接地到车辆控制器中的自然(3)一种可解释的车辆控制器,其被训练为以端到端的方式预测两个控制命令(广泛用于自动驾驶车辆控制),即,车辆我们的控制器使用视觉(空间)注意力机制[8],通过突出显示模型注视的图像区域来可视化控制器的内部状态,以3.1. 预处理在[8]之后,我们使用下采样到10Hz的原始图像,并调整大小以使输入维度为90×160×3。为了更好地泛化,然后通过从原始像素中减去其平均值来归一化每个图像,除以它的标准差继Liuet al.[14],我们略微改变其饱和度,色调和亮度,以在训练阶段实现鲁棒性。10593视觉编码器车辆控制器视觉注意HW输入:DH逐元素产品wDD输出:注意力热图输出:方向盘角度输出:车速人车建议例如,在一个示例中,“有行人,也有红绿灯。”建议编码器逐元素产品控制LSTM视觉注意力建议编码图2:我们的模型由三个主要部分组成:(1)视觉编码器(这里是CNN),(2)建议编码器,其对终端用户的话语(建议)进行编码并将其输入车辆控制器(见绿色箭头),以及(3)可解释的车辆控制器,其预测两个车辆控制命令(即,速度和转向角命令)。我们的模型还利用(空间)视觉注意力机制来可视化模型看到的位置和内容(见黄色箭头)。3.2. 卷积特征编码器我们利用卷积神经网络(CNN)来获得时间t处的一组视觉描述性的潜在向量,其中每个向量包含特定输入区域中的高级视觉描述。在本文中,我们将这些潜在向量称为卷积特征立方体Xt。通过在每个时间t通过模型馈送图像,我们收集Xt,尺寸w×h×d。请注意,Xt具有l(=w×h)个(空间)不同的向量,每个向量都是d维特征切片对应于某个输入区域。选择这些向量的子集将允许我们选择性地聚焦于图像的不同部分(即,注意)。 形式上,Xt={xt,1,xt , 2,. . . ,xt , l},其中xt , i∈ Rd,其中i ∈ {1,2,. . . ,l}。3.3. 建议编码器我们的建议编码器接受一个可变长度的建议并产生一个潜在向量,然后将其馈送到控制器LSTM(称为Control LSTM)。我们的建议驾驶模型需要理解最终用户的话语,并将其输入车辆控制器。我们假设建议通常会离线提供,或者在乘车开始时提供,例如,“小心行人”或“小心驾驶(乘客会晕车)"。因此,建议编码将在控制器生成控制命令之前准备好。我们训练我们的建议编码器来处理这两种类型的建议(即,目标导向的和刺激驱动的广告)而没有任何输入级分离。我们使用LSTM(称为Advice LSTM,与Control LSTM不同)来编码输入句子(即,人对车建议),并产生一个固定大小的潜在向量,这是常见的 做 法 , 在 序 列 到 序 列 模 型 。 受 视 觉 问 题 分 类(VQA)任务知识的启发,我们遵循Park等人的工作。[18]并使用逐元素乘法来组合来自我们的建议编码器的潜在向量和来自我们的视觉编码器的视觉特征向量。形式上,我们的建议LSTM产生d维潜在向量u ∈Rd。 通过使用逐元素乘法将该向量与视觉特征xt,i组合,我们获得特征向量zt,i= xt,i<$u,然后将其馈送到车辆控制器中。注意,车辆控制器在每个时间t获取新的图像(因此,更新xt,i),但是潜在向量u在事件的一段时间内保持不变请注意,我们专注于两种形式的建议:(i)刺激驱动的建议和(ii)目标导向的建议。前一个建议(例如,当心行人)可以通过注意力地图将感知根植于上下文Yt,i中然而,我们认为注意力地图可能不足以为后一种建议提供依据(例如,直行),这需要通过附加的逐元素乘法对控制器产生更直接的影响合成代币我们使用合成标记来指示不可用的建议输入。由于用户不会意识到车辆的完整状态(他们没有驾驶),因此控制器应该主要负责。因此,我们增加了数据集的复制,但是它有一个token作为建议输入,这将模型暴露给没有建议作为输入的事件。901603预处理输入:图像CNN文本编码器建议LSTM1D10594DTDTR3.4. 可解释的车辆控制器提供控制器的内部状态对于可预见的系统是重要的,因为它将被用作其建议被为此,我们利用基于注意力的驾驶模型[8],该模型通过可视化注意力地图提供控制器其中模型在视觉上注视与决策相关的图像区域。视觉注意。视觉注意通过过滤掉不显著的图像区域来提供内省的解释,而被注意区域内的图像区域对输出具有潜在的因果影响 视觉注意机制的目标是找到上下文Yt={yt,1,yt,2,. . .,yt,l}通过最小化损失函数,其中yt,i= π(αt,i,xt,i)=αt,ixt,i,i={1,2,. . . ,l}。注意,[0,1]中的标量注意力权重值αt,i与输入图像中的某个网格相关联,使得iαt,i= 1。我们使用多层感知器fattn来生成αt,i,即,αt,i=fattn(xt,i,ht−1),条件是前一个隐藏状态ht−1,当前租金特征向量xt,i.Softmax回归函数为用于获得最终的注意力权重。产出我们的模型的输出是两个连续值的速度v(t)和方向盘角度s(t)。 我们利用额外的隐藏层fv和fs,其中的每一个都以(控制LSTM的)当前隐藏状态ht和上下文向量ct为条件。我们生成上下文表1:处理带注释的描述的示例。键入步骤文本注释行动描述初始注释司机一直往前走,在一个十字路口停了下来→现在时司机一直往前走,在一个十字路口停了下来→命令式直走,在十字路口停下来注意事项初始注释有一个行人推着婴儿车穿过人行横道。→现在时有一个行人推着婴儿车通过人行横道。相对于目标值重复变化。(ii)驾驶员之间的任务表现差异受比例-积分-微分(PID)控制器[19]的启发,我们使用以下损失函数,该函数由三项组成:(i)Lp,与er成比例-Error(即, |+的|e s(t)|),其中我们使用误差项|),where we use the error termsev(t)=v(t)−v(t)和es(t)=s(t)−s(t)。(ii)Ld,其与误差的导数成dev(t)和des(t)),以及(iii)Li,它与误差的积分成比例,我们使用车辆未来路线θ(t)的差异被操纵。 在自行车模型假设[19]中,假设左前轮和右前轮由一个前轮表示,我们可以近似计算方向盘角度st<$L/r,其中L是轴距的长度,r是车辆路径的半径。然后,我们可以近似单位时间后车辆τ= 1。因此,我们使用以下损失函数L:LLip利用函数f,它连接1T−1x`x `concatL lL=La+|+的|es(t)|+λi|θ(t)− θ(t)|θ(t) −θˆ(t)|{ct,i}i=1={yt,i∈u}i=1,以输出一维矢量ct。内化建议。刺激驱动的建议提供了不t=0+λ。|2个以上|de(t)|2ΣΣ|2Σ Σ(二)关于视觉显著性的丰富消息(例如,交通灯,ddtvDTS行人、标志等),车辆控制器在驾驶时通常应该看到这些对象。因此,为了使这些建议国际化,我们认为驾驶模型必须考虑这些领域,即使这些建议是不可用的。我们添加一个损失项,即,Kullback-Leibler发散(DKL),在两个注意力图之间(即,在有建议和没有建议的情况下生成),以使驾驶模型涉及相同的显著对象:联系我们Ld其中T是时间步长的数量。我们使用超参数λd和λi来控制项的强度。4. 本田研究所-建议数据集为了评估合理的驾驶模式,我们收集了本田研究所建议数据集(HAD)。La=λa Σ DKL(αw||αwo)=λa拉克里尔αw(logαwt,i)在本节中,我们将从驱动器的角度描述我们的数据集-使用视频来收集人工注释的文本建议,t tt ti =1t我沃特岛(一)我们的注释过程,并分析收集的意见驾驶视频和车辆控制命令。 我们使用其中,αw和αwo分别是车辆控制器在给出和不给出建议的情况下生成的注意力图。我们使用超参数λa来控制正则化项的强度。损失函数现有模型主要通过最小化比例控制误差项(即,人的预测与人的预测之间的差异)。然而,这些系统容易遭受两个主要问题。(i)控制预测的振荡5,675个视频剪辑(超过32小时),每个平均长度为20秒。每个视频包含大约1-2个驾驶活动,例如,通过十字路口、车道变换、停车等。这些视频是从一个名为HDD的大规模驾驶视频数据集中随机收集的[20]。该数据集包含摄像头视频-这些视频大多是在旧金山湾区附近的城市驾驶期间拍摄的α105950s+5s+10s+15秒+20秒时间(A)(B)最常用的20个字目标导向的建议 刺激驱动的建议输入视频直走,进入右转弯车道,红灯时停下来。路上有骑自行车的人。开车穿过十字路口向左转,等待有人穿过。当他转弯时,行人正在过马路一直走到十字路口然后向左拐。05.5千11k 16.5k22k02.75k5.5k8.25k11k路上有建筑锥字数字数图3:(A)输入图像的示例,每5秒采样一次。我们还提供了面向目标的建议和刺激驱动的建议的例子,这些建议是从人类注释者那里收集的,然后进行后处理。我们突出显示视觉提示(例如,行人),这是在建议中提到的,在图像上有一个蓝色的圆圈(B)两类建议中使用频率最高的前20个词的数量。其包含典型的驾驶员活动(即,转弯、合并、车道跟随等)在各种道路类型上(即,高速公路、具有和不具有车道标记的住宅道路等)。除了视频数据,数据集还提供了一组带时间戳的控制器局域网(CAN)总线记录,其中包含人类驾驶员控制输入(即,方向盘角度)。注释。我们提供了一个20秒的驾驶视频,并要求人类注释器从驾驶教练的角度描述驾驶员正在做什么(针对目标导向建议的动作描述)以及驾驶员应该注意什么(针对刺激驱动广告的注意力我们要求注释者分别输入动作描述和注意描述,例如,“驾驶员从右到左穿越车道”和“道路上正在施工”。每个视频片段有4-5个动作描述(共25,549个)和3-4个注意描述(共20,080个)。然后,我们将描述转换为现在时(例如,“驾驶员从右车道向左车道交叉”)。特别是对于动作描述,我 们 将 其 改 为 祈 使 句 ( 例 如 , “ 从 右 到 左 交 叉 车道”),这是用来提供建议。为了确保所收集的描述的质量,我们会请另一位人工注释员对描述/建议进行校对,以纠正印刷错误以及语法和拼写错误。在对注释的分析中,我们发现这种两阶段注释有助于注释者更好地理解任务和执行。在图3(A)中,我们提供了两个示例与仪表盘摄像头图像一起收集的建议类型(每5秒采样一次)。数据集特征。图3(B)分别显示了目标导向型建议和刺激驱动型建议中使用频率最高的前20个单词注意,我们排除了介词、连词、定冠词和不定冠词。最常见的目标导向建议与速度的变化有关(即,停止,慢),驾驶(即,驱动、直行、前进等),以及转弯(即,左、右、转弯)。许多还包括与驾驶相关的概念列表,例如交通灯/标志,车道,十字路口。刺激驱动的建议涵盖与驾驶场景相关的概念的不同列表,诸如交通/车道的状态、交通灯/标志、穿过街道的行人、经过其他停放/穿越的汽车等。虽然不太常见,但有些包含对不同类型车辆的引用(即,公共汽车、卡车、自行车、货车等)、道路颠簸和天气条件。5. 实验培训和评估详情。我们为框架的所有组件我们的模型是使用随机初始化(即,没有预先训练的权重)。对于训练,我们使用Adam优化算法[10]和在隐藏状态连接和Xavier初始化[6]时的0.5 dropout [21]。我们的模型需要1-3天(取决于使用的CNN类型)来训练,并且可以在单个Titan Xp GPU上平均每秒处理超过100帧。我们使用两个数学标准(绝对误差的统计量和相关距离)停止路口向左交通灯签署红色汽车/车辆继续缓慢通行道路等继续来eLAN不righnturedrivightstra汽车/车辆行人交叉停车车道路口转 弯路 公园交通灯街道右驾驶左标志红色crosswalk的身边目标导向型建议10596表2:为了了解我们的建议采纳模型的有效性,我们将车辆控制预测性能与其他两个现有模型进行了比较,这两个模型不接受建议(前两行)。为了公平比较,我们使用相同的5层基础CNN [3]。我们还共享使用相同损失函数训练的相同输入和输出层(即,[8]中使用的比例误差Lp单独)我们根据三组不同的建议(即,只有目标导向的建议(ADVG),只有刺激驱动的建议(ADVS),以及两者)。为了评估,我们使用平均值相关距离(Corr)和绝对误差中位数以及第1(Q1)和第3(Q3)四分位数。类型模型建议输入速度(km/h)方向盘转角(deg)通过与地面真实人工演示的控制命令进行比较,定量评估其性能。建议vs.不可取的模式。 如表2所示,我们首先比较车辆控制预测性能,以查看我们的建议采纳驾驶模型是否优于其他不采纳建议的现有驾驶模型。为此,我们实现了另外两个现有的模型,即,(1)CNN+FF(前馈网络)[3]和(2)CNN+LSTM+Attention [8]。为了公平比较,所有模型都使用相同的5层CNN [3]作为卷积。通过仅最小化损失项Lp来训练的lutional(视觉)特征编码器(与[8]中使用的相同)。参见等式2)。这个视觉编码器从最后一个卷积层产生一个12×20×64维的特征立方体。 后期在第一节中,我们还将探索在此基础CNN配置上使用更具表现力的神经网络的进一步潜在性能改进。在表2中,我们报告了我们的实验总结,验证了我们的建议采纳方法的定量有效性。与不可取的模型(第1-2行)相比,我们的可取模型都给出了更好的分数,车辆控制预测。正如我们将在下一节中看到的,我们观察到我们的建议驾驶模型比其他在训练和测试阶段不接受建议的模型更关注驾驶相关的对象(无论是否作为建议提供)。例如,在图4和图5中,我们的advis- able模型更加关注行人过街、汽车驶出和建筑锥。更重要的是,像“在停车标志处停车“或“有人推着婴儿车穿过人行横道“这样的建议数据表明,在控制器中接受建议有助于更接近人类驾驶员的行为。偏置表3:回想一下3.4节,我们提出了一种建议内化技术--请注意,我们使用合成令牌指示何时建议输入不可用。我们使用λa作为50(通过网格搜索方法)。建议输入车速(km/h)方向盘转角(deg)车型培训测试中位数[Q1、Q3]Corr中位数[Q1,Q3]校正不建议内部化ADVS<无>3.55 [1.58,7.12].7774.01[1.59、10.1]点四七九口径建议内部化ADVS<无>3.36 [1.51,6.62].7843.96[1.55,10.0]点四八零口径控制器通过采纳建议,从人的角度提高了其输出的可解释性。建议的种类。我们进一步研究了两种不同类型建议的性能比较:面向目标的建议(例如, “有行人过路处”)。在表2(第3-4行)中,我们报告了当向模型提供每种类型的建议时的车辆控制预测精度。在我们的分析中,目标导向的AD- VICE提供了更好的控制精度预测方向盘角度命令。这主要是由于以下事实:面向目标的建议传达更直接的消息,其可以包括关于车辆如何行为的导航命令(例如,go/stop and turn)。刺激驱动的建议,传达了丰富的信息,视觉显着性(例如,红灯、停车标志和交叉路口),为车辆速度预测提供了更好的预测精度注意力地图的定性分析。如图4所示,我们通过可视化注意力热图(高亮显示的图像区域)与基线进行了定性培训测试中位数[Q1、Q3]Corr中位数[Q1、Q3]Corr不可取ConvNet+FF(前馈网络)[3]--6.88[3.13、13.1].5974.63[1.80、12.4].366ConvNet+LSTM+Attention [8](基线)--3.98[1.76,8.10].7633.92[1.54、10.1].469可取CNN+LSTM+注意力+建议(我们的)仅ADVGADVG4.25[1.86,8.46].7433.53[1.37,8.83].516CNN+LSTM+注意力+建议(我们的)仅ADVSADVS3.28[1.47,6.46].7823.78[1.45,9.93].484CNN+LSTM+注意力+建议(我们的)ADVG+ADVSADVG3.78[1.67,7.50].7633.54[1.36,9.21].512CNN+LSTM+注意力+建议(我们的)ADVG+ADVSADVS3.78[1.68,7.46].7633.78[1.41,9.51].51110597x10-3119753输入注意力热图输入注意力热图图像基线(不可取)我们(建议)图像基线(不可取)我们(建议)二点九|24.36公里/小时-3.8|14.09公里/小时-8.7| 16.2公里/小时“See-2.1|38.14公里/小时-1.9|2.8公里/小时|33.8公里/小时“There三点八|25.3公里/小时-0.6|24.8公里/小时-4.7| 22.0公里/小时“After-3.2|0.0公里/小时-4.3|10.4公里/小时6.8| 6.7公里/小时“There一百一十六点三|2.21公里/小时91.6|10.5公里/小时113.1| 9.86公里/小时“Stop图4:注意力热图比较。我们提供了由现有的基于注意力的驾驶模型生成的输入原始图像和注意力热图[8](基线列),以及我们使用所有类型的建议一起训练的模型(我们的列)。我们突出显示以对象为中心的关键词(如适当的第1和第2行),例如,圆锥体和一辆白色汽车驶出,绿色以及覆盖在图像上的绿色圆圈中的相应突出物体。对网络的输出有潜在的影响。虽然所有模型都看到与驾驶相关的共同视觉线索(即,车道标记),我们观察到,我们的建议采纳模型表4:我们比较了具有四种不同视觉编码器的载体对照预测。除了视觉编码器部分,我们使用相同的训练策略。更多地集中在与建议相关的提示(即, 行人交叉路口、建筑锥、汽车驶出等)或与特定驾驶场景相关的视觉对象(即,车辆、人行横道、行人等)。采纳的内部化建议。用户通常不会意识到车辆的完整状态(他们没有驾驶),车辆控制器应该主要负责,并且人对车辆的建议可能偶尔不可用。如表3中所总结的,我们进一步检查了在测试时间内没有可用建议的性能比较(我们使用合成标记有趣的是,我们观察到(i)当测试中没有建议输入时,用刺激驱动的广告训练的模型的性能不会降低太多(其控制性能仍然优于其他不可取的方法),(ii)我们的建议内化技术(见等式1)进一步提高了对那些具有建议输入的控制性能。在图5中,我们通过可视化注意力热图进一步检查了建议内部化的效果。我们首先可视化在没有提供建议的情况下生成的注意力地图使用标记,参见中间行)。然后我们车速(km/h)方向盘转角(deg)CNN基地中位数[Q1、Q3]Corr中位数[Q1、Q3]Corr移动网络[7]3.93[1.73,7.80].7534.20[1.65、10.7].463Bojarski等人[3]第一章3.78[1.68,7.49].7633.58[1.39,9.34].512[23]第二十三话2.89[1.31,5.59].7953.47[1.34,8.76].525Inception-ResNet-v2 [22]2.93[1.33,5.63].7963.54[1.36,9.19].491当模型接受真实的建议作为输入时,可视化注意力地图的变化(见底行)。我们的结果表明,我们的模型仍然能够看到驾驶相关的视觉线索(即,交通灯或车道),而建议输入可以使模型偏向于引用对象,这与给出的建议有关。视觉编码器比较。我们进一步研究我们提出的模型使用四种不同的广泛使用的视觉特征编码器的变量。我们使用Bojarski等人的中间层输出。[3],Inception v3[23],Mo- bileNet [7]和Inception-ResNet-v2 [22]。我们使用随机初始化以端到端的方式训练所有模型,并且在训练和测试阶段使用两种类型的建议作为输入(报告平均分数)。5.2 |16.66公里/小时-37.4| 16.25公里/小时0.17 |16.55公里/小时“Go建议方向盘角度|速度105981 2 3 4 5 6输入图像注意力热图(没有建议,即,a无>令牌)注意力差异(与(不建议)10-31512963x10-32.41.20-1.2-2.4“A“There “Drive“Someone “Come to a stop sign and“过马路的距离”。图5:我们比较了在测试时间内使用和不使用建议作为输入生成的注意力热图。我们将原始输入图像可视化,其中显著对象由绿色圆圈标记,例如,公共汽车驶离,其由建议输入(第一行)提及所提供的建议(1-6)在图的底部提供。我们从我们的训练模型中可视化注意力热图,但使用合成标记(即,没有建议,第二排)。注意力地图有和没有建议的差异(第三行),其中红色部分表示模型(有建议)更关注的地方。如表4所示,结果表明,当使用更深的CNN架构时,通常可以预期控制预测准确性会得到改善,该架构可以学习更多的表达性视觉特征。基于Inception v3架构的可视化功能带来了最佳的性能提升0.850.840.830.82速度加速度2.972.952.932.910.740.730.72转向转向速率3.483.473.463.45与其他三种体系结构相比。正规化的效果。回想3.4节,我们研究了损失函数L,其中包含三项0.812.890.00 0.01 0.05 0.10 1.00 0.01 0.01 0.100.00 0.00 0.00 0.00 0.01 0.10 0.100.713.440.00 0.01 0.05 0.10 1.00 0.01 0.01 0.100.00 0.00 0.00 0.00 0.01 0.10 0.10(比例误差)、Ld(微分误差)和Li(积分错误)。 我们使用两个超参数λd和λi来控制相应术语的强度。图6示出了在绝对误差的中值方面具有不同超参数组合的控制命令预测误差。我们还可视化加速度(速度的导数)和转向角速率(转向角指令的导数)的误差。 增加这些损失项的影响在速度预测中占主导地位,而转向性能略有下降。在速度预测中,通过增加积分损失项(λi)获得了边际改进,而通过增加导数损失项(λd)减小了导数误差。6. 结论我们描述了一种适用于自动驾驶汽车的驾驶模型,它结合了一个文本编码器,该编码器可以理解人对车辆的自然语言建议,并将其输入车辆控制器。我们表明,(i)与基线相比,采纳建议提高了车辆控制预测的准确性,(ii)我们的采纳建议模型确实看到了建议-图6:不同的控制性能比较超参数(λd,λi)的集合(参见等式2)。除了比例预测误差(绿条),我们还可视化了导数误差(蓝线)。我们报告绝对误差的中位数。相关的视觉提示和这样的建议可以内化,(iii) 我们的本田研究所建议数据集(HAD)允许我们训练和评估我们的建议模型,我们将在发布时提供数据集。这是第一篇关于使用建议的论文,但这种设计最适合于逐向(短时间)建议。由于我们的数据包含短片段,因此建议在整个片段中都是有效的。这将是值得探索的其他风格的建议,如每次乘坐的建议(温和,快速等)和基于规则的全球建议。鸣谢。这项工作是J。Kim在美国本田研究所的夏季/秋季实习,并得到DARPA XAI计划和伯克利DeepDrive的支持。123456转向(度)加速度车速(km/h)转向速率10599引用[1] Y. Artzi和L. Zettlemoyer 弱监督学习- 语义解析器的执行 , 用 于 将 指 令 映 射 到 动 作 。 Transactions of theAssociation of Computational Linguistics,1:49[2] M. Bojarski,A.乔罗曼斯卡湾乔罗曼斯基湾费纳L. Jackel,U. Muller和K. Zieba。可视化支持:使CNNS可视化以用于自动驾驶。arXiv预印本,2016年。[3]M. Bojarski,D. Del Testa,D. 德沃拉科夫斯基湾费纳B. Flepp,P. Goyal,L. D.杰克尔湾蒙福特大学穆勒J. Zhang等人,《End to End Learning for Self-Driving Cars》。CoRR abs/1604.07316,2016。[4] L. Chi和Y.Mu. 从空间和时间视觉线索学习端到端自主转向模型在智能和互联社区中的视觉分析研讨会论文集,第9-16页ACM,2017。[5] T. Fernando,S. Denman,S. Sridharan和C.福克斯再深入一点:神经记忆网络自动驾驶。计算机视觉研讨会(ICCVW),2017年IEEE国际会议,第214-221页。IEEE,2017年。[6] X. Glorot和Y.本吉奥。了解训练深度前馈神经网络的困难。国际人工智能与统计会议论文集(AISTATS),第9卷,第249-256页[7] A. G. Howard , M.Zhu , B.Chen , 中 国 粘 蝇D.Kalenichenko,W.小王,T. Weyand,M. Andreetto和H. Adam. Mobilenets:用于移动视 觉应用的高效 卷积神经网 络。arXiv预印本arXiv:1704.04861,2017。[8] J. Kim和J.精明通过可视化因果注意力实现自动驾驶汽车的 可解 释学习 IEEE计算 机视 觉国际 会议 论文集(ICCV),第2942-2950页[9] J. Kim,A. Rohrbach,T. Darrell,J. Canny,and Z.赤田自动驾驶汽车的文字说明。在欧洲计算机视觉会议(ECCV)的会议记录中,第577-593页。Springer,Cham,2018.[10] D. Kingma和J. BA. Adam:随机最佳化的方法。国际学习表征会议(ICLR),2015年。[11] G. Kuhlmann,P.斯通河Mooney和J.沙夫里克用自然语言建议指导强化学习者:Robocup足球赛的初步结果。AAAI-2004学习和自适应系统监督控制研讨会。SanJose,CA,2004.[12] J. Li,A. H.米勒,S。Chopra,M. Ranzato和J.韦斯顿与人 在 回 路 的 对 话 学 习 。 arXiv 预 印 本 arXiv :1611.09823,2016年。[13] H. Ling和S.菲德勒通过自然语言反馈教机器描述图像。在神经信息处理系统集,第5075-5085页[14] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C.伯格。Ssd:单发多盒探测器。欧洲计算机视觉会议(ECCV)论文集,第21-37页。施普林格,2016年。[15] J·麦卡锡。有常识的程序。RLE和MIT计算中心,1960年。[16] D. K. Misra, J. Sung , K. Lee 和 A. 萨 克塞 纳 告诉 我dave:自然语言到操作指令的上下文相关基础。国际机器人研究杂志,35(1-3):281[17] D. K. 米斯拉角Tao,P.Liang,和A.萨克塞纳用于高级指令的环境驱动的词典归纳。在第53届计算语言学协会年会和第7届自然语言处理国际联合会议(第1卷:Long Papers),第1卷,第992-1002页,2015年。[18] D. H. 朴 L. A. 亨德里克斯 Z. 赤田 A. 罗尔巴赫B. Schiele,T. Darrell和M.罗尔巴赫多模式解释:为决策辩护并指出证据。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。[19] R. 拉 贾 马 尼 车 辆 动 力 学 和 控 制 。 Springer Sci-enceBusiness Media,2011.[20] V. Ramanishka,Y.- T. Chen,T. Misu和K.萨恩科对行车现场的了解:用于学习驾驶员行为和因果推理的数据集。在IEEE计算机视觉和模式识别会议(CVPR)的会议中,第7699-7707页[21] N. Srivastava、G.E. Hinton,A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout:防止神经网络过拟合的简单方 法 。 Journal of Machine Learning Research , 15(1):1929[22] C.塞格迪,S。约菲,V. Vanhoucke,和A. A.阿莱米起始 -v4 , 起 始 -resnet 和 剩 余 连 接 对 学 习 的 影 响 。 在AAAI,第4卷,第12页,2017年。[23] C. 塞格迪河谷Vanhoucke,S.Ioffe,J.Shlens和Z.沃伊纳重新思考计算机视觉的初始架构。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,第2818-2826页[24] S. Tellex,T.Kollar,S.Dickerson,M.R. Walter,A.G.Baner-jee,S.J. Teller和N.罗伊理解机器人导航和移动操作的自然在AAAI,第1卷,第2页,2011中。[25] H.- Y. F. Tung、黄毛菊A. W.哈雷湖K. Huang和K.太棒了。奖励从叙述的演示中学习。IEEE计算机视觉和模式识别会议(CVPR),2018年。[26] J. E.韦斯顿基于对话的语言学习。神
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功