自动驾驶汽车的可解释文字模型

96 浏览量更新于2023-10-13 收藏 1.89MB PDF 举报

自动驾驶汽车

注意力模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

自动驾驶汽车的文字说明Jinkyu Kim1[0000−0001−6520−2074]、Anna Rohrbach1、2[0000−0003−1161−6006]、Trevor Darrell1[0000−0001−5453−8533]、JohnCanny1[0000−0002−7161−7927]和Zeynep Akata2、3[0000−0002−1432−7747]1EECS，University of California，Berkeley CA 94720，USA2MPIforInformatics，SaarlandInformaticsCampus，66123Saarbrücken，German y3AMLab，University of Amsterdam，1098 XH Amsterdam，Netherlandsuva.nl抽象。深度神经感知和控制网络已成为自动驾驶汽车的关键组成部分。用户接受可能受益于易于解释的文本解释，其允许最终用户理解是什么触发了特定行为。解释可以由神经控制器触发，即内省解释，或者由神经控制器的输出通知我们提出了一个新的方法，内省解释，它包括两个部分。首先，我们使用视觉（空间）注意力模型来训练从图像到车辆控制命令的端到端卷积网络，即。例如，加速和改变路线。控制器的注意力识别可能影响网络输出的图像区域。其次，我们使用基于注意力的视频到文本模型来产生模型动作的文本解释。控制器和解释模型的注意力地图是对齐的，使得解释在场景中对控制器重要的部分中扎根我们探讨两种方法来注意力对齐，强和弱对齐。最后，我们探索了一个版本的模型，产生合理化，并与内省的解释相同的视频片段进行比较。我们在一个新的驾驶数据集上评估这些模型，该数据集具有地面真实的人类解释，即伯克利DeepDriveeXplanation（BDD-X）数据集。代码可在https://github.com/JinkyuKimUCB/保留字：可解释的深度驾驶·BDD-X数据集1介绍深度神经网络是以端到端方式学习自动驾驶汽车的车辆控制器的有效工具[3，26]尽管DNN作为函数估计器是有效在这样的网络中没有可解释的状态或标签，并且表示完全分布为激活集使深度模型更加透明的可解释模型非常重要，原因如下：（i）用户接受-自动驾驶车辆是用户接受的根本技术，并且需要非常高的信任水平，（ii）车辆行为的理解和推断-用户理想地应该能够预期车辆在大多数情况下将做什么，（iii）有效的通信-它们帮助用户向车辆传达偏好，反之亦然。2J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.Akata时间控制输出（加速度，改变航向）注意力对齐（文字说明+解释）10- 3654321解释生成器车辆控制器文本描述+解释示例：我们的：人类注释者：“汽车头朝下开过街道+因为街道是畅通的。”图1：我们的模型预测车辆控制命令，即。例如，在每个时间步处的加速和路线改变，而解释模型生成对基本原理的自然语言解释，e.例如，在一个实施例中，“The car is driving forward because there are no other cars in its lane”, and avisual explanation in the form of attention – attended regions directly influence thetextual explanation generation解释可以是合理化解释-以事后方式证明系统行为的解释，也可以是内省解释-基于系统内部状态的解释。内省解释代表了系统输入和行为之间的因果关系，并解决了上述所有目标。具体化可以解决接受问题，（i）上面，但对（ii）理解模型的因果行为或（iii）基于车辆产生内省解释的一种方式是通过视觉注意[27，11]。视觉注意过滤掉了非显著的图像区域，并且被注意区域内的图像区域对输出具有潜在的因果影响（被注意区域外的图像区域不能）。如[11]所示，可以应用额外的显著性过滤，使得注意力图仅显示对输出有因果影响的区域视觉注意限制了控制者行为的原因，但不影响控制者行为的动机。例如，在一个实施例中，将特定动作绑定到特定输入区域e. 例如，在一个实施例中，“车辆减速是因为控制十字路口的灯是红色的”。对于乘客而言，回放注意力地图与文本解释的（通常是按需的）语音呈现。在这项工作中，我们专注于生成文本描述和解释，例如：“车辆减速”和“因为它正在接近十字路口并且灯是红色的”，如图1所示。自然语言具有固有不可理解的优点，并且不需要熟悉智能系统的设计以提供有用的信息。为了训练这样一个模型，我们从人类注释者那里收集解释。我们的解释数据集建立在另一个大规模驾驶数据集[26]的基础上，这些数据集是从人类驾驶的VE中的仪表盘摄像头收集的。车辆控制器输入图像自动驾驶汽车的文字说明3hicles 注释者查看视频数据集，撰写车辆活动的描述和车辆驾驶员执行的动作的获得用于车辆解释的训练数据本身是一个重大挑战。地面实况解释实际上通常是合理化（由观测服务器而不是驾驶员生成），并且在获取驾驶员数据方面存在额外的挑战。但更重要的是，目前不可能获得车辆控制器在想什么的人类解释，即。例如，一个真实的事实然而，我们的实验表明，在控制者和解释模型之间使用注意对齐通常会提高解释的质量，即。例如，生成更好地匹配驾驶视频的人类合理化的解释。我们的贡献如下。(1)我们提出了一个用于自动驾驶汽车的内省文本解释模型，为深度车辆控制网络的行为提供易于解释的解释(2)我们通过将解释生成器的注意力与车辆控制器的注意力对齐以使解释接地来将解释生成器与车辆控制器集成，并比较两种方法：注意力一致的解释和不一致的合理化。(3)我们生成了一个大规模的Berkeley DeepDrive eXplanation（BDD-X）数据集，其中包含超过6，984个视频片段，其中注释了驾驶描述，例如。例如，在一个实施例中，“The car slows 例如，在一个实施例中，“因为它即将与繁忙的高速公路合并”。我们的数据集提供了一个新的测试平台，用于衡量为自动驾驶汽车开发可解释模型的进展2相关工作在本节中，我们将回顾自动驾驶汽车端到端学习的现有工作，以及视觉解释和理由的工作。自动驾驶汽车的端到端学习：用于自动驾驶汽车的大多数车辆控制器可以分为两种类型的方法[5]：（1）基于中介感知的方法和（2）端到端学习方法。基于介导感知的方法取决于识别人类指定的特征，例如车道标记、交通灯、行人或汽车，其通常需要苛刻的参数调整以获得平衡的性能[19]。[23]，[24]，[25]，[26]，[27]，[28]，[29]，至于端到端的方法，最近的工作[3，26]表明神经网络可以以端到端的方式成功应用于自动驾驶汽车这些方法中的大多数使用行为克隆，其学习驾驶策略作为来自人类驾驶示范的观察-动作对的监督学习问题其中，[3]提出了一种深度神经车辆控制器网络，该网络直接将仪表盘图像流映射到转向控制，而[26]使用深度神经网络，该网络输入原始像素和先前的车辆状态并预测车辆尽管它们具有潜力，但这些方法的有效性受到它们无法解释系统决策的基本原理的限制，这使得它们的行为不透明且不可解释。在这项工作中，我们提出了一个用于自动驾驶汽车的端到端可训练系统，该系统能够通过注意力地图和自然语言在视觉上证明其预测的合理性。4J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.Akata时间关注空间关注=“The car slows down因为它弱对齐注意（WAA）CNN时空关注注意力对齐损失“The car is slowing down车辆控制器使用强对齐注意力（SAA）的解释图2：车辆控制器为每一帧生成空间注意力地图α c，预测加速度和改变路线（ct，at），这些都是解释的条件。解释生成器预测跨帧的时间注意力（β）和每个帧中的空间注意力（αj）。SAA使用αc，WAA强制αj和αc之间的损失。视觉和文本解释：解释对最终用户的重要性已经从心理学的角度进行了研究[17，18]，表明人类使用解释作为学习和理解的指南，通过建立推理和寻求命题或判断来丰富他们的先验知识。他们通常会根据先前的知识和目标来寻找解释来填补所要求的空白。为了支持这一趋势，最近可解释性已经作为计算机视觉和机器学习的一个领域而增长。特别是，人们对内省深度神经网络的兴趣越来越大。[28]使用反卷积来可视化卷积网络的内层激活[14]提出了用于图像的文本解释的自动生成的字幕。[2]开发一个更丰富的像素对输出的贡献的概念然而，去卷积式方法的困难在于缺乏网络输出如何受空间扩展特征（而不是像素）影响的正式测量。遵循这一规则的是基于注意力的方法。[11]提出了基于注意力的方法，具有去除虚假注意力斑点的因果过滤。然而，能够证明所做的决定是合理的，并以人类可以理解的方式解释为什么它们是合理的，这一点也很重要。例如，自然语言。对于图像分类问题，[7，8]使用了LSTM[9]字幕生成模型，该模型为CNN模型生成文本理由。[21]将基于注意力模型和文本调整系统结合起来，以产生可解释模型。据我们所知，我们是第一次尝试通过对图像流的注意力和自然语言解释的组合来证明实时深度控制器的决定。自动驾驶汽车的文字说明5不3可解释的驾驶模型在本文中，我们提出了一个驾驶模型，解释了如何驾驶决策（i）通过可视化的图像区域，决策者参加和（ii）通过生成一个文本描述和解释是什么触发了一个特定的驾驶决策，例如。例如，在一个实施例中，“汽车继续（描述），因为交通自由流动（解释）”。如图2所示，我们的模型包括两个部分：（1）车辆控制器，其被训练以学习人类演示的车辆控制命令，例如，在一个实施例中，我们的控制器使用视觉（空间）注意力机制，识别网络输出的潜在影响图像区域;（2）文本解释生成器，其生成文本描述和解释控制器行为。这种方法的关键是调整注意力地图。预处理。我们的模型被训练来预测两个车辆控制命令，即。例如，一个加速和一个航向的改变在每个时间t处，通过对速度测量值求导数来测量加速度a t，并且通过使用简单指数平滑法[10]来计算当前车辆的路线与平滑值之间的差来计算路线变化c t。我们在补充材料中提供了详细信息。为了减少计算负担，我们将采样降到10Hz，并通过将原始图像大小调整为90×160×3的最近邻图像来缩放算法然后通过从原始图像中减去平均值来归一化每个图像。输入像素并除以其标准偏差。该预处理应用于最新的4帧，然后将其堆叠以产生神经网络的最终输入卷积特征编码器。我们使用卷积神经网络将视觉信息编码为时间t，i的一组视觉特征向量。例如，卷积特征立方体Xt={xt，1，xt，2，. . . ，xt，l}，其中xt，i∈ Rd，其中i ∈ {1，2，. . . ，l}，并且l是给定输入的不同空间区域的数量。每个特征向量包含一个对存在于某个输入区域中对象的高级描述这允许我们通过选择这些特征向量的子集来选择性地关注给定图像的不同区域我们使用一个五层卷积网络，如[3，11]中所示，并省略最大池化层，以防止空间信息丢失[15]。输出是三维特征立方体Xt，并且特征块在每个时间t具有大小w×h×d。3.1车辆控制器我们的车辆控制器以端到端的方式进行培训。给定仪表盘摄像头图像流和车辆例如，在一个实施例中，速度，控制器预测在每个时间步长的加速度和路线变化我们利用一个deterministic软注意力机制，是可训练的标准的反向传播方法。软注意力机制将注意力权重相乘地应用于特征，并通过映射π相加地汇集结果。我们的模型将由控制器映射πc产生的上下文向量yc馈送到控制器LSTM：yc =πc（{αcΣl}，{xt，i}）=αcxt，i（1）t t，ii=1t我6J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.AkataAttnt−1t−1t我不不不其中i={1，2，. . . ，l}。αc是由空间softmax输出注意力权重图，以及Σct，i满足iα t，i = 1。这些注意力权重可以被解释为l卷积特征向量。具有高关注权重的位置对于以下是显著的：驾驶（driving）。注意力模型fc（Xt，hc）是以先前的LSTM状态hc和当前特征向量Xt。它包含一个完全连接的层和空间softmax以产生归一化的{αc}。车辆控制器的输出是车辆当然是c。为此，我们使用附加的多层全连接块，其中ReLU非线性，由fa（yc，hc）和fc（yc，hc）表示。我们还加入了熵t t t t t t注意力权重对目标函数的HΣ。ΣLc=（at−at）2+（ct−ct）2+λcH（αc）不（二）在注意力地图上计算熵，就好像它是一个概率分布。最小化损失对应于最小化熵。低熵注意力地图是稀疏的，并且强调相对较少的区域。我们使用超参数λc来控制熵正则化项的强度。3.2注意力对齐控制器注意力图提供了网络关注的输入区域，这些区域对网络的输出有直接影响因此，产量例如，如果车辆控制器通过检测绿色交通灯来预测例如，在一个实施例中，在这里，我们解释了两种方法来对齐车辆控制器和文本调整器，使得它们查看相同的输入区域。高度一致的注意力（SAA）：连续的一组空间关注的输入区域（其中的每一个由车辆控制器编码为上下文向量y。。）可以直接用于生成文本解释（参见图2，右上）。因此，模型共享一个关注层正如我们在3.3节中详细介绍的，我们的解释模块使用具有权重β的时间注意力到控制器上下文向量{y，j，t = 1，. . . }并且因此允许输出令牌相对于输入样本的灵活性弱对齐注意力（WAA）：代替直接使用车辆控制器的注意力，解释生成器可以具有其自己的空间注意力网络（参见图2，右下）。一个损失，i例如，两个注意力图之间的Kullback-Leibler散度（DKL）使得解释生成器涉及显著对象：La=λaΣ D K L（αc||αj）=λa拉克里尔αc（logαc-logαj）（3）t ttti=1t我t我t我其中αc和αj分别是由车辆控制器和解释生成器模型生成的注意力图。我们使用超参数λa来控制正则化项的强度。自动驾驶汽车的文字说明7不不不不不Attnk−1K3.3文本解释生成器我们的文本解释生成器需要可变长度的视频帧序列，并生成一个可变长度的描述/解释。描述和解释通常是训练数据中同一句子的一部分，但用分隔符注释在训练和测试中，我们在描述和解释之间使用合成分隔符解释LSTM预测描述/解释序列并输出每个单词的softmax概率。用于描述生成器的上下文向量的源取决于注意力图之间对于弱对齐的注意力或合理化，解释生成器在每个时间步长t创建自己的空间注意力图αj。该图包括针对弱对齐注意力的控制器注意力图的损失，但在生成合理化时没有这样的损失。将注意力图α j应用于CNN输出，产生上下文向量γj。我们的文本解释生成器解释了驾驶模型背后的基本原理，因此我们认为调整器需要来自车辆运动预测器的输出作为输入。对于弱对齐和强对齐注意方法，我们分别将元组（a（t，c（t））与空间关注的context向量yj和yc连接然后，这个连接的向量用于更新LSTM以生成文本解释。解释模块将具有权重β的时间注意力直接应用于控制器上下文向量{y，c，t =l，. . . }（强对齐），或解释向量{y，j，t = 1，. . . }（弱对齐或合理化）。这种输入序列注意力在序列到序列模型中很常见，并允许输出标记的灵活性相对于输入样本[1]。时间注意力应用的结果是（在y上去掉c或j上标）：ΣTzk=π（{βk，t}，{yt}）=βk，tyt⑷t=1Σ其中tβ k，t=1。在每个时间k（用于句子生成）处的权重βk，t是com。由注意力模型Fe（{yt}，he），这与空间注意力正如我们在前一节中所解释的那样（详见补充材料总而言之，我们最小化以下负对数似然（用于训练我们的调整器）以及车辆控制估计损失L。和注意力对准损失La：ΣL=Lc+La−logp（ok|ok−1，he，zk）（5）K4Berkeley DeepDrive eXplanation数据集（BDD-X）为了有效地生成和评估文本驱动原理，我们收集了Berkeley Deep Drive（BDD）数据集子集的文本理由[26]。该数据集包含视频，长度约为40秒，由安装在车辆前镜后面的仪表盘摄像头捕获。视频大多是在各种天气条件下的城市驾驶过程中拍摄的，包括白天和夜间。数据集8J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.AkataA（1）（二）（三）（四）（五）行动描述：行动说明：(1) 汽车在行驶，因为没有什么阻碍。(2) 这辆车正驶入右车道，因为这样做是安全的。(3) 车子移回左车道因为前面的校车它正在停止。BDD-X数据集#帧8，400，000小时≈ 77小时条件市区照明白天/夜晚#注释26，228平均值#动作/视频三点八#视频6，984(4) 汽车在左车道(5) 汽车驶入右车道才能超过校车因为它现在已经过了校车，而且它走的是正确的岔路。#培训5，588#验证/测试698图3：（A）输入帧和相应的人类注释动作描述以及如何做出驾驶决策的理由的示例。为了实现可视化，我们每两秒采样一次帧（B）BDD-X数据集细节。超过77小时的驾驶，带有时间戳的人工注释，用于操作描述和理由。还包括在其他道路类型上驾驶，例如住宅区道路（有和没有车道标记），并包含所有典型的驾驶员活动，例如在车道上停留、转弯、切换车道等。除了视频数据之外，数据集还提供一组带时间戳的传感器测量值，例如车辆的速度、路线和GPS位置。对于与视频数据的时间戳不同步的传感器日志，我们使用内插测量的估计。为了提高信任和可靠性，自动驾驶汽车的机器学习系统应该能够解释为什么在某个时间做出某些决定。此外，通过自然语言证明其决定的汽车也将是用户友好的。因此，我们填充一个子集的BDD数据集的动作描述和理由，所有的驾驶事件，以及他们的时间戳。我们在图3（A）中提供了来自伯克利深度驱动扩展（BDD-X）注释。我们提供了一个驾驶视频，并要求亚马逊机械土耳其人中的人类注释者想象自己是一名驾驶教练。请注意，我们专门选择了熟悉美国驾驶规则的人工注释者。注释者必须从驾驶教练的角度描述驾驶员正在做什么（特别是当行为改变时）以及为什么每个描述的动作必须伴随有开始和结束时间戳。注释者可以停止视频，向前和向后通过它，同时搜索有趣且合理的活动为了确保注释者为我们提供驱动原理以及描述，我们要求他们分别输入动作描述和动作理由：例如，在一个实施例中，“车子正在往左车道移动”、“因为前面的校车停了下来”.在我们的初步注释研究中，我们发现，给出单独的注释框有助于注释者理解任务并更好地执行输入图像B自动驾驶汽车的文字说明9数据集统计。我们的数据集（见图3（B））由6，984个视频中这些视频是在不同的驾驶条件下拍摄的，例如。例如，在一个实施例中，白天/夜晚、高速公路/城市/乡村、夏季/冬季等。平均40秒，每个视频包含大约3-4个动作。例如，在一个实施例中，加速、减速、右转等，所有这些都用描述和解释来注释。我们的数据集包含超过26K的活动，超过8。4M帧。我们引入了一个训练集、一个验证集和一个测试集，分别包含5，588、698和698个视频。人类之间的协议。虽然我们无法了解驾驶员的内部思维过程，但可以使用现场的视觉证据推断其行为背后的原因。此外，如果可能的话，建立数据收集过程将具有挑战性我们依靠一批合格的工人（即：例如，它们通过资格测试）和选择性人工检查。此外，我们测量了998个训练视频的子集上的人与人之间的一致性，每个视频都由两个不同的工作人员注释。我们的分析如下。在72%的视频中，注释间隔的数量相差小于3。注释器之间的平均时间IoU为0。63（SD=0. 第21段）。当IoU >0时。5行动描述的CIDEr评分为142.60，行动理由的CIDEr评分为97.49（随机选择：39.40/28.39）。当IoU >0时。5并且来自两个注释者的动作描述是相同的（165个剪辑1），则跨理由的CIDEr分数是200.72，而强基线，从具有相同动作描述的不同视频中选择理由，导致CIDEr分数136.72。这些结果表明一致注释者之间的差异以及所收集的动作描述和理由的相关性理由的涵盖范围。BDD-X数据集具有从大规模众包驾驶视频数据集的大量随机子集收集的超过26 k注释（77小时），所述大规模众包驾驶视频数据集由城市驾驶期间的所有典型驾驶员活动组成。训练动作描述和理由的词汇量分别为906和1,668个词一些常见的动作是（频率递减）：向前移动，停止，加速，减速，转弯，合并，转向，拉[在]。理由涵盖了大多数相关概念：交通标志/信号灯、汽车、车道、人行横道、通行、停车、人行道、等待、阻塞、安全等。5结果和讨论在这里，我们首先提供了我们的训练和评估细节，然后对我们的车辆控制器和我们的文本识别器进行定量和定性分析。培训和评估详情。作为卷积特征编码器，我们使用5层CNN[3]，从最后一层产生12×20×64维卷积特征立方体。CNN之后的控制器具有5个完全连接的层（即，例如，#隐藏dims：分别为1164、100、50、10），其预测加速度和1视频间隔（非完整视频）的数量，其中提供的动作描述（非解释）相同（常见动作e.例如，在一个实施例中，“the car slows10J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.Akata输入图像控制器= 0= 10= 100= 1000x10-3654321图4：根据四种不同熵正则化系数λc={ 0，10，100，1000}的车辆控制器注意力图。红色部分表示模型更加关注的位置。较高的λc值使得注意力图稀疏。我们观察到，稀疏的注意力地图提高了生成文本解释的性能，而控制性能略有下降。课程，并从头开始进行端到端的培训。使用其他更具表现力的网络可能会比我们的基本CNN配置带来性能提升，但这些探索超出了我们的范围。给定获得的卷积特征立方体，我们首先训练我们的车辆控制器，然后通过冻结控制网络来训练解释生成器（单层LSTM，除非对于训练，我们在隐藏状态连接和Xavier初始化[6]时使用Adam优化器[12]和0.5的dropout [22]。标准数据集分为80%（5，588个视频）作为训练集，10%（698个视频）作为测试集，10%（698个视频）作为验证集。我们的模型在单个NVIDIA Titan X GPU上训练不到一天。对于评估车辆控制器，我们使用平均绝对误差（越低越好）和距离相关性（越高越好），对于调整器，我们使用BLEU[20]， METEOR[13]和CIDER-D[24]以及人类评估。前者的指标被广泛用于评估的视频和图像字幕模型自动对地面真相。5.1评价车辆控制器我们开始定量比较我们的车辆控制器的变体和最先进的，其中包括由Bojarski等人的工作的变体。[3]和Kimet al. [11]在表1中。请注意，这些作品与我们的不同之处在于，他们的输出是驾驶的曲线，而我们的模型估计连续加速和课程值的变化。因此，他们的模型有一个单一的输出，而我们的估计两个控制命令。在这个实验中，我们用我们的输出层替换了他们的输出层。为了公平比较，我们对所有模型使用相同的CNN。在这个实验中，每个模型估计车辆的加速度和路线的变化。我们的车辆控制器预测加速度和路线的变化，这通常需要车辆的当前状态，即先验知识例如，速度和路线，以及导航输入，特别是在城市驾驶中。我们注意到使用最新的自动驾驶汽车的文字说明11模型λc绝对平均值加速度（m/s2）误差（MAE）课程（学位）距离平均值加速度（m/s2）相关性课程（学位）CNN+FC[3]†-6.92 [7.50]12.1 [19.7]0.17 [0.15]0.16 [0.14]CNN+FC[3]+P-6.09 [7.73]6.74 [14.9]0.21 [0.18]0.39 [0.33]CNN+LSTM+Attention[11]†-6.87 [7.44]10.2 [18.4]0.19 [0.16]0.22 [0.18]CNN+LSTM+Attention+P（我们的）10005.02 [6.32]6.94 [15.4]0.65 [0.25]0.43 [0.33]CNN+LSTM+Attention+P（我们的）1002.68 [3.73]6.17 [14.7]0.78 [0.28]0.43 [0.34]CNN+LSTM+Attention+P（我们的）102.33 [3.38]6.10 [14.7]0.81 [0.27]0.46 [0.35]CNN+LSTM+Attention+P（我们的）02.29 [3.33]6.06 [14.7]0.82 [0.26]0.47 [0.35]表1：比较具有不同熵正则化系数λ c ={0，10，100，1000}值的我们的车辆控制器的变体和最新技术。λ c的高值产生低熵注意力图，其是稀疏的并且强调相对少的区域。†：模型使用单个图像帧作为输入。标准偏差用大括号表示。简称：FC（全连接层），P（先前输入）四个连续帧和先前输入（即，例如，车辆的运动测量和导航信息）提高了控制预测精度（参见第3对第7行），而视觉注意力的使用也提供了改善（见第1与第3行）。具体来说，与基于CNN的方法[3]和[11]相比，我们没有熵正则化项的模型（最后一行）表现最好。这种改进对于加速度估计尤其明显。在图4中，我们比较了不同熵正则化系数λc={0，10，100，1000}的输入图像（第一列）和相应的注意力图。红色是高关注，蓝色是低关注。正如我们所看到的，较高的λc导致较稀疏的映射。为了更好地可视化，注意力图被其轮廓线和输入图像覆盖。定量地，控制器性能（误差和相关性）随着λc增加而略微降低，并且注意力图变得更加稀疏（参见表1中的底部四行）。因此，在稀疏映射（更易于解释）和控制器性能之间存在一些紧张关系。正则化的另一种选择是[11]在控制器因果过滤是理想的，本工作不仅要提高稀疏性，但因为因果过滤后，“热”区域必然有一个因果关系的影响控制器的行为，而未过滤的我们将在今后的工作中探索它5.2评价文本解释在本节中，我们使用自动评估措施来评估文本解释与地面实况解释的关系，并提供人工评估，然后进行定性分析。自动评估。为了进行最先进的比较，我们实现了S2VT[25]及其变体。请注意，在我们的实现中，S2VT使用我们的CNN，而不使用CNN。12J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.Akata解释说明类型模型控制λaλc （e. 例如，在一个实施例中，“because the light is red”例如，在一个实施例中，输入BLEU-4流星 CIDEr-DBLEU-4流星CIDEr-DS2VT[25] N--6.33211.19 53.3530.2127.53179.8S2VT[25]+SA N--5.66810.96 51.3728.9426.91171.3S2VT[25]+SA+T A N--五点八四七10.91 52.7427.1126.41157.0合理化我们的（无约束）Y00六五一五12.04 61.9931.0128.64205.0我们的（与SAA）Y-0六九九八12.08 62.2432.4429.13213.6我们的（与SAA）Y-10六千七百六十12.23 63.3629.9928.26203.6内省我们的（与SAA）Y-1007.07412.23 66.0931.8429.11214.8解释Ours（with WAA）Y1006.96712.14 64.1932.2429.00219.7Ours（with WAA）Y10106.95112.34 68.5630.4028.57206.6Ours（with WAA）Y101007.28112.24 69.5232.3429.22215.8表2：比较生成的和地面实况（列6-8）描述（e. 例如，在一个实施例中，“thecar 例如，在一个实施例中，我们实现了S2VT[25]和具有空间注意力（SA）和时间注意力（TA）作为基线的变体。我们测试了两种不同的注意力对齐方法，即。例如，WAA（弱对齐注意力）和SAA（强对齐注意力），具有两个常规注意力的不同组合。化系数：对于注意力对准，λ a ={0，10}，对于车辆控制器，λ c ={0，10，100}。合理化基线依赖于我们的模型（WAA方法），但没有注意力对齐。请注意，我们将所有值报告为百分比。使用光流特征。在表2中，我们报告了验证我们的方法的定量有效性的实验的总结行5-10示出了最佳解释结果通常是用弱对齐的注意力获得的。与第四行相比，内省型的解释生成得分均高于合理化型。描述得分更混合，但大多数内省模型得分更高。正如我们将在下一节中看到的，我们的合理化模型关注的是视觉显著性，这有时与控制器实际“看”的内容不同例如，在图5（第5个示例）中，我们的控制器看到前面的车辆，并且我们的内省模型生成诸如“因为前面的车辆移动缓慢”的解释，而我们的由于我们的训练数据是驾驶视频的人类观察者注释，它们不是驾驶员的解释，它们是事后合理化。但是，基于视觉证据，（e。例如，在一个实施例中，右转标志的存在解释了为什么驾驶员已经右转，即使我们无法获得驾驶员的确切思维过程），它们反映了人类驾驶员行为的典型原因数据表明，将解释建立在控制器内部状态的基础上，有助于产生更好地与人类第三方解释相一致的解释偏向控制器状态的解释（WAA和SAA模型就是这样做的）从人类的角度提高了它们的合理性，这是一个好兆头。我们在下面的评估中进一步分析人类偏好自动驾驶汽车的文字说明13类型模型控制λaλc正确率表3：针对随机选择的250个视频间隔的所生成的动作描述和解释的人类评价。我们测量成功率，其中至少有2名人类法官对生成的描述或解释进行评分，得分为1（正确和具体/详细）或2（正确）。人体评价。在我们的第一个人类评估实验中，人类法官只看到描述，而在第二个实验中，他们只看到描述（例如，“汽车......因为<解释>”），以分别排除解释/描述对评级的影响。我们随机选择250个视频间隔，并比较合理化，WAA（λa=10，λc=100）和SAA（λc=100）预测。选项。要求人类在量表{1. 4}（1：正确和具体/详细，2：正确，3：小错误，4：重大错误）。我们收集老鼠-每个任务有3个人类裁判。最后，我们计算多数票，i。例如，3名评委中至少有2名应给描述/解释打1分或2分。如表3所示，我们的WAA模型优于其他两个，支持上述结果。有趣的是，根据人类的研究，合理化在这个子集上比SAA做得更好。这可能是因为SAA中的解释依赖于与控制器完全相同的视觉证据，其可以包括反事实的重要区域（即，控制器）。例如，这里可能有停止标志），但是可能混淆解释模块。语篇证明语的定性分析。如图5所示，我们提出的文本解释模型生成了合理的描述和解释，同时我们的模型还提供了对证据的注意力可视化。在图5的第一示例中，控制器看到相邻车辆和车道标记，而解释模型生成“汽车正在向前行驶（描述）”和“因为交通正在自由移动（解释）"。在图5中，我们还提供了涵盖常见驾驶情况的其他示例，例如向前行驶（第一示例），减速/停车（第二、第三和第五）以及转弯（第四和第六）。我们还观察到，我们的解释有显着的分歧，e。例如，在一个实施例中，他们提出了各种停止的理由：红灯、停车标志和交通。我们提供更多不同的例子作为补充材料。6结论我们描述了一个端到端的可解释的自动驾驶汽车的驾驶模型，包括一个接地内省的解释模型。我们发现（i）合并输入解释描述合理化我们的（无约束）Y0064.0%92.8%内省我们的（与SAA）Y-10062.4%百分之九十点八14J. Kim，A.Rohrbach，T.Darrell，J.Canny，Z.Akata人类：汽车平稳地行驶+现在汽车正在移动。我们的（WAA）：汽车正在向前行驶+因为交通自由移动由于没有迎面而来的汽车，汽车向左转汽车正向左转弯进入一条马路。我们的（SAA）：汽车沿着道路行驶+因为交通以稳定的速度行驶汽车左转+因为道路畅通合理化：汽车减速+因为它汽车正在减速，因为它25人类：汽车减速+因为它要左转。我们的（WAA）：汽车减速+因为它正准备转向道路。我们的（SAA）：汽车正在减速+，因为它正在接近停车标志。合理化：汽车减速+因为有停车标志。汽车正在减速准备转弯。这辆车正在减速，因为前面的车开得很慢。这辆车正在减速，因为前面的车停了汽车减速了，因为它36人类：汽车停下来+等待前面的车辆移动。我们的（WAA）：车停了+因为交通停了。我们的（SAA）：车停了+因为它前面的车停了。合理化：车停了+因为停在左边车道。汽车正向左转向，缓慢地向前行驶汽车正在通过一个左转弯处。汽车减速了，因为它汽车沿着公路向前+因为交通以稳定的速度移动。汽车正在向前行驶+因为道路畅通图5：与人类注释相比，由我们的模型生成的示例描述和解释。我们通过（从第2行起）车辆控制器、文本解释生成器和合理化模型（注：（λ c，λ a）=（100，10），并且合成分隔符标记被替换为“+”）。与基线相比，注意力机制和先前输入的组合提高了车辆控制预测的准确性，（ii）我们的接地（内省）模型生成了准确的人类可理解的文本描述和驾驶行为的解释，（iii）注意力对齐被证明在结合车辆控制器和调整模型方面是有效的，（iv）我们的BDD-X数据集允许我们训练和自动评估我们的解释模型。retable调整模型与人类注释进行比较。最近的工作[11]表明，注意力热图上的因果过滤可以通过去除虚假的斑点来实现解释复杂性的有效降低，这些斑点不会显著影响输出。因果过滤的思想将是值得探索的，以获得因果注意热图，它可以提供推理的因果基础。此外，结合更强的感知管道将是有益的，例如，对象检测器，以引入更此外，将驾驶员鸣谢。这项工作得到了DARPA XAI计划和Berkeley DeepDrive的支持。123456x10- 365432114注意力热图合理化解释生成器输入图像控制器自动驾驶汽车的文字说明15引用1. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。学习表征会议（2014）2. Bojarski，M.，Choromanska，A. Choromanski，K.，Firner，B.，杰克尔湖穆勒大学Zieba，K.：可视化支持：用于自动驾驶的可视化CNNS。CoRR，vol. abs/1611.05418（2016）3. Bojarski，M.，Del Testa，D.Dworakowski，D.，Firner，B.，弗莱普湾Goyal，P.，Jackel，L.D.蒙福特，M.穆勒大学张杰，等：自动驾驶汽车的端到端学习。CoRRabs/1604.07316（2016）4. Buehler，M.，Iagnemma，K.，Singh，S.：DARPA城市挑战：城市交通中的自动驾驶车辆，卷。56. 02 The Dog（2009）5. 陈春，Seff，A.，Kornhauser，A.，Xiao，J.：深度驾驶：自动驾驶中的直接感知学习启示。在：计算机视觉（ICCV），2015年IEEE国际会议上。pp. 2722-2730. IEEE（2015）6. Glorot，X.，Bengio，Y.：理解训练深度前馈神经网络的困难在：Aistats.第9卷，第2497. 洛杉矶的亨德里克斯Akata，Z.，Rohrbach，M.，Donahue，J.，Schiele，B.，达雷尔，T.：生成视觉解释。在：欧洲计算机视觉会议（ECCV）（2016）8. 洛杉矶的亨德里克斯胡河Darrell，T.，Akata，Z.：基础视觉解释。在：欧洲计算机视觉会议（ECCV）（2018）9. Hochreiter，S.，Schmidhuber，J.：Lstm可以解决困难的长时间滞后问题。在：神经信息处理系统的进展。pp. 47310. 海德曼河Koehler，A.B.，Ord，J.K.，Snyder，R.D.：指数平滑预测：状态空间方法。05 The

下载后可阅读完整内容，剩余1页未读，立即下载