人车建议：语义分割、实例掩码和注意力热图的车辆控制方法及其可视化解释

15 浏览量更新于2023-10-25 收藏 3.45MB PDF 举报

控制命令

操作命令

身份认证购VIP最低享 7 折!

30元优惠券

控制命令（离线）人对车建议详细观察：“The road is操作命令：“Slow1“当道路是湿的通过内化观察到行动规则的Jinkyu Kim，Suhong Moon，Anna Rohrbach，Trevor Darrell和JohnCanny EECS，加州大学伯克利分校{jinkyu.kim，suhong.moon，anna.rohrbach，trevordarrell，canny}@ berkeley.edu摘要语义分割实例掩码注意力热图人类通过实践和理论来学习驾驶例如，通过研究规则，而大多数自动驾驶系统仅限于前者。能够将人类对典型的因果驾驶行为的知识结合起来应该会使自动驾驶系统受益。我们提出了一种新的方法，学习车辆控制的帮助下，人类的意见。具体来说，我们的系统学习用自然语言总结其视觉观察结果，预测适当的动作响应（例如，此外，为了提高我们的系统的可解释性，我们引入了一个细粒度的注意力机制，它依赖于语义分割和以对象为中心的ROI池。我们表明，我们的方法与人类的建议，在丰富的语义表示，训练自主系统，匹配或超越先前的工作控制预测和解释生成。我们的方法还通过可视化以对象为中心的注意力地图来获得更直观的视觉解释代码可在https：//github上获得。com/JinkyuKimUCB/advisable-driving.1. 介绍自动驾驶控制在过去几年中取得了巨大的所提出的车辆控制器使用多种方法;最近的努力[5]表明，深度神经网络可以以端到端的方式有效地应用于控制器。然而，这些模型是不透明的。简化和暴露潜在推理的一种方式是经由对场景中的可见对象的特定于情境的依赖性，即，通过只关注与驾驶员的动作有因果关系的图像区域[ 15 ]。然而，由此产生的注意力地图并不总是令人信服或人类可解释的。另一种选择是用自然语言描述自动驾驶车辆由此产生的文本解释是人类可以理解的，但往往是相当图1：我们的模型由四个主要部分组成：（1）建立在语义分割模型上的以对象为中心的视觉编码器，（2）观察生成器，其生成关于场景的文本观察（“Theroad is wet”），(3) 观察到动作模块，其将视觉场景描述映射到（高级）动作命令（较不常见的，可能更重要的（例如，建筑锥）。这两种方法都没有达到类似于典型的人类驾驶员的令人不安的因果行为。为了解决这个问题，[16]用即时的人类建议来增强模仿学习数据集（例如，“there is a pedestrian ahead”,or “turn left”), see Figure 他们表明，提供这样的输入有助于更紧密地模仿人类驾驶员的行为。虽然很有前途，但这种方法需要在测试时进行真实的人工输入。人类学习驾驶不仅要从实践和示范中学习，而且要从理论中学习，例如。通过研究规则。我们提倡在学习过程中以更有原则的方式整合人类的建议。我们假设在训练时，人类的建议是以观察-行动的形式提供的9661车辆控制器以对象为中心的可视化编码观察- 到-行动观测产生器9662图像图像图像人对车长期（全球）建议人车即时通知t+1Mux（自生成，文本）操作命令动作命令离散[8]，原文[17，30]，route [13]命令解释[18]第18话：我的世界解释模块空间注意力Spatial关注特征观测产生器Mux序列到序列观察到行动文本观察“大雾干扰了前方能见度。”控制命令控制命令控制命令(A)(B)（C）我们的目标条件d端到端驱动模型可解释端到端驱动模型可取端到端驱动模型图2：（A）现有的以目标为条件的端到端驾驶模型，其采用（作为输入）离散[7]，自然语言命令[16，28]和预期导航路线[12]。（B）现有的可解释的端到端驾驶模型，将DNN状态转换为自然语言[17]或视觉解释[15]。(C)结合上述两个思想，我们可以创建“明智的”驾驶模型，采取人对车辆的意见，在观察-行动规则的形式。为了结合这些规则，我们的模型涉及到一个序列到序列观察到行动模块，它生成一个软条件动作规则，映射到一个高层次的动作命令的文本观察。详情见第3节。规则（例如，“如果道路是湿的，减速”）。阐明这些规则可以帮助驾驶模型学习更多类似人类的行为，见图1。一个明智的驾驶模型的一个关键要求是它的可解释性如前所述，视觉注意力经常用于最近的可解释模型[15，17]。这些模型生成空间注意力地图，然后显示在原始图像上。然而，这样的注意力地图是粗糙的，并且具有有限的可解释性。它们通常具有低空间分辨率（作为最后的卷积层），并使用2D高斯核进行上采样。这模糊了细节，并且很难确定模型实际上关注的是什么。我们提倡使用更丰富的表示，例如语义分割，它提供像素预测并描绘图像中的对象边界。最后一个卷积层的输出保留了对应的局部图像区域的信息，这对于获得更细粒度的注意力图是有利的因此，我们建议使用语义分割作为我们的输入表示。为了进一步提高注意力地图的质量，我们还使用了一个实例分割模型，它允许我们将注意力分配到单个对象上。总的来说，我们提出了一个新的自动驾驶模型，既可行又可解释，见图2（C）。我们的模型从人类输入中学习建议，这些输入传达了用户期望车辆遵循的全局规则（例如，“If a雾会影响前方能见度，请慢驶。我们还可以提供视觉解释-通过我们在以对象为中心的视觉表示中将这两种功能都接地。我们在BDD-X数据集[17]上评估了我们的方法，并表明我们的模型在控制预测和文本观察生成方面与之前的工作相匹配或优于我们的注意力地图，绑定到语义分割，导致以对象为中心（因此更可解释）的内部状态的可视化。我们在模拟环境中的人类评估（Carla[8]）进一步表明，我们的advis系统可以增加用户信任。2. 相关工作自动驾驶汽车的端到端学习。最近的工作[4，12]表明，驾驶策略可以通过神经网络通过监督学习而不是观察（例如，视频）和动作（例如，转向）对，从人类示范中收集。波-贾斯基等。[5]训练了一个5层ConvNet来预测来自仪表盘图像的转向控制，而Xu等人。[39]利用与LSTM相结合的扩展ConvNet来预测车辆最近，Heckeret al. [12]探索了扩展模型，该模型采用环绕视图多摄像头系统，路线规划器和CAN总线读取器。Codevilla等人[7]探索了一种有条件的端到端驱动模型，该模型采用高级命令输入（即，车辆控制器车辆控制器以对象为中心的视觉编码器车辆控制器视觉编码器视觉编码器96631442563预处理（18x32x1）（144x256x1）双线性内插Softmax /argmax左/右转弯、车道跟随和交叉口通过），见图2（A）。为了降低复杂性，人们越来越关注端到中[41]和中到中[4]驾驶模型，这些模型通过消耗原始传感器或中间场景表示作为输入，以可驾驶轨迹的形式然而，他们的行为是不透明的，在城市地区学习驾驶仍然具有挑战性。这些驾驶模型也被称为视觉和文本解释。深度神经网络的可解释性已经成为计算机中一个不断发展的领域深度级连接实例m问实例内实例间控制命令视觉和机器学习社区[10]。在陆地上-图像语义分割注意力热图Mark Work [40]利用反卷积层来可视化ConvNet的内部表示。其他方法[42，30]已经探索了合成高度激活神经元的图像然而，他们缺乏正式的措施，由网络估计的功能是如何受到空间扩展功能的影响。基于注意力的方法可能是这个规则的例外。Kim等人[15]利用注意力模型，然后进行额外的显着过滤，以显示对输出产生因果影响的区域。Wang等人[36] Wuet al. [38]介绍了一种实例级注意力模型，汽车，行人），网络需要注意的。然而，这样的注意力对于用户来说可能不太方便（特别是在驾驶领域中）“重放”。同样重要的是能够证明所做的决定是合理的，并以人类可以理解的方式解释为什么它们是合理的，即。自然语言[13，14]Kim等人[17]提出了一个文本解释模型来解释车辆控制器背后的比率，见图2（B）。可解释的模型可以帮助揭示模型正在做什么，并显示其决策的基础，这使得暴露弱点和进一步改进更容易。我们提出了一个模型，这是既可解释的和可取的。人对车辆的建议可以采取各种形式，而自然语言是人类交流的直观形式我们的方法受到[17]的启发，但我们通过学习来结合建议，以自然语言生成观察和相应的动作。建议采纳模型。对采纳建议的价值的认识在人工智能社区有着悠久的历史[23]，但很少有人尝试利用文本建议。已经提出了几种方法来将自然语言建议转换为正式的语义表示，然后将其用于模拟足球[19]，移动操作[24，25，31]和导航[2]的偏置动作。最近的工作表明，结合自然语言人类反馈可以提高基于文本的QA代理[21，37]和图像字幕性能[22]。尽管有潜力，图3：我们以对象为中心的可视化编码器的详细概述，该编码器建立在实例掩码检测器和语义分割模型之上，两者都提供了从图像中进行像素级类别预测以及对象边界的解线收集关于自动驾驶汽车所采取的动作的人类反馈的各种挑战（例如，安全与责任）。其他值得注意的方法（在强化学习设置中）包括Tung等人的工作。[32]它学习以自然语言动作识别为条件的视觉奖励检测器，然后用于训练代理。Kim等人[16]介绍了一种地面即时人车建议的方法。感知和行动，并表明接受这样的建议，提高整体控制预测的准确性，而卢等。[28]集中于将自然语言指令调节到驾驶模型，参见图2（A）。受这些工作的启发，我们在训练时纳入观察-行动规则，并学会在测试时识别何时遵循建议，而不是期望在测试时由“乘客”给出这样3. 明智的学习在本文中，我们提出了一个新的驾驶模型，这是既可解释和建议。我们的模型可以通过可视化它所关注的图像区域和用语言表达它所看到的观察结果（例如，“下雪了”）。我们的模型也是可取的，通过纳入一般的观察-行动规则，预计将遵循。如图2（C）所示，我们的模型包括四个主要组件。我们的以对象为中心的视觉编码器通过ConvNet提取视觉（语义）表示，该ConvNet在语义分割任务上进行了预训练（第3.1节）。车辆控制器经过训练，能够预测以高级动作命令为条件的控制命令（例如： Ob-（144x256x1）2x（1x1转换）双线性内插Atrous空间金字塔合并ConvNet实例掩码检测器ROIavg. 池车辆控制器(18 x 32 x256）(18 x 32 x64）1x1转换(18 x 32 x9664文本动作命令例如：人行横道...Word WordEmb Emb字嵌入注意力热图<开始>停止速度1832逐元素乘积未来航路点图像速度256256单位LSTM关注LSTM256单位LSTM256单位LSTM图4：我们的目标调节车辆控制器的详细概述。我们以自然语言的动作命令作为输入，并将其输入控制器。我们的模型采用了空间注意机制π，它引导控制器看向哪里。以关注特征和（可选地）当前速度v t为条件，我们的模型输出未来轨迹P和速度vt。生成器生成关于场景的可变长度的文本观察（例如，最终尺寸请注意，使用语义分割作为视觉场景的内部表示通常可以在真实世界和模拟环境之间转移。以对象为中心的ROI池。为了进一步提供以对象为中心的注意力热图，其突出显示更精确的对象区域，我们使用实例检测模型MaskR-CNN模型[11]，并将预测的实例掩码与特征Xt 联系起来。给定实例区域（RoI），使用位置敏感的RoI池化层来聚合潜在向量xt，i，其中i ={1，2，. - 是的- 是的，l}，以获得视觉特征y。Note, that the pooled latent vector is thendistributed equally to replace the original representations.这提供了共享相同潜在表示的特征切片的子集，从而允许模型平等地关注RoI的部分。3.2.目标调节的车辆控制器自然语言动作命令。我们的车辆控制器被训练来预测以高级动作命令为条件的控制命令（例如，我们使用一个文本编码器，交叉最后，我们的序列到序列观察到行动模块生成软条件行动规则，映射视觉场景描述（例如。“it issnowing”“maintain a slow speed”请注意，我们的车辆控制器利用视觉（空间）注意力机制，可以突出显示模型固定在网络输出上的图像区域然后，将该关注特征馈送到观察生成器中以进行最终预测。3.1. 以对象为中心的视觉编码器我们使用下采样到10 Hz的图像，并通过应用双线性插值将尺寸调整为144×256×3。通过从原始像素中减去全局平均值并除以全局标准差[29]来归一化每个图像，参见图3。分割作为输入表示。我们没有从头开始训练ConvNet，而是使用在Mapillary Vistas街景场景理解数据集上预先训练的语义分割模型[26]。因此，我们的前端视觉模块经过训练，可以从图像中识别像素级的类别预测，并描绘每个对象的边界。在这里，我们使用DeepLabv3 模型[6]，这是一种最先进的网络，它使用atrous空间金字塔池化，通过不同采样率和视场的各种滤波器以多尺度稳健地分割对象。我们在每个时间步长t处获得输入图像的高级视觉表示。这个表示Xt（大小为18×32×256）包含一组空间维度上的256维潜向量，即Xt={xt，1，xt，2，. . .，xt，l}，其中l（= w×h）是spa-变长文本命令并将其接地到VE中。油门控制器在[16]之后，我们使用LSTM对输入单词序列进行编码，并产生一个256维的潜在向量ut。我们通过逐元素乘法将该向量与视觉特征yt，i组合，并获得特征向量zt，i=yt，i=ut，其中i={1，2，. . .，l}，然后将其馈送到视觉注意力模块中以生成注意力图。我们在图4中提供了详细的模型架构。视觉注意。视觉注意通过过滤掉不显著的图像区域来提供内省（视觉）解释，而被注意的区域对输出具有潜在的因果效应。视觉注意机制的目标是找到上下文Ct={Ct，1，Ct，2，. - 是的- 是的，ct，l}，其中ct，i= π（α t，i，zt，i）= α t，izt，i，i={1，2，. -是的-是的，l}。注意，注意力权重值是一个标量αt，i在[0，1]中，使得iαt，i= 1。我们使用多-层感知器来计算这些注意力权重，即，αt ， i=fattn（zt，i，ht−1），以（Attention LSTM的）先前隐藏状态ht−1和当前基于建议的特征向量zt，i为条件。使用Softmax回归函数来获得最终的归一化注意力权重。输出. 受先前工作的启发[4，41]，我们的飞行器控制器预测未来的轨迹P=[pt，2 π，pt，2π，. -是的-是的，pt，N]以及速度vt。对于j={1，2，. -是的-是的，N}的特征在于其在时间j之后的未来经度和纬度位置。该轨迹可以被转换成低级别的驾驶控制命令（即，转向、制动和加速）。不同类型的车辆可以利用不同的控制输出来实现相同的驾驶轨迹，这表明2x 256单元FC2x 256单元FC512单位FC2x 512单元FC2x 128单元FC256-维数特征向量以对象为中心的视觉编码器9665而不是训练网络以直接输出低水平转向和加速控制。为了预测未来的轨迹，我们使用附加的隐藏层fout，其条件是潜在表示Ct（来自我们的基于建议的视觉注意力）和当前速度 vt ，即 P=fout （ [fflatten（Ct），fspeedd（vt）]），其中fspeed表示在高维潜在空间中对速度进行编码的附加隐藏层fflatten是一个平坦化函数。我们使用0。5秒，N为6（因此，我们预测未来3秒的轨迹损失函数。我们最小化比例控制误差（即.人类演示和预测之间的差异）来训练我们的未来轨迹预测器。我们的解码器输出每个字的softmax概率。我们将以下几点进行了优化：ivelog-likLobs=-k logp（ok|ok−1，gk）.3.4. 序列到序列观察到行动我们希望我们的模型能够包含自然语言的人对车建议。这样的建议通常是高级的，而不是低级的（车辆控制器操作的地方）。最近的工作[16]提出了一个模型，允许短期（或本地）的文本建议，从乘客（例如，“有施工锥”或“慢下来”）。更一般地，建议可能采取条件动作规则的形式在这项工作中，我们关注这样的长期（或全球）建议L=1TΣNλλp-p2+λ（一）从人（例如，驾驶员）。CTLNTt=1j=1jt，jt，j20t t2我们使用一个通用的编码器-解码器框架，其中λj和λ0控制每项的强度，选择为与全局方差成反比。3.3. 文本观察生成器我们的文本观察生成器的主要目标是总结视觉观察，这需要考虑，而驾驶，例如。“有一辆闪烁着灯光的校车”（这通常意味着车辆应该靠边停车）。在这里，我们使用术语这些观察可以采取具有不同紧急程度的各种形式，并且将在每个时间步长处提供给车辆控制器。为了生成这样的观察结果，我们的模型涉及一个视频到文本模块，该模块采用一系列视频帧并生成可变长度的文本观察结果。为了实现这样的模型，我们从[17]的工作开始，该工作最初被设计为生成文本描述/解释，例如一对“车辆减速”（描述）和“因为它正在接近十字路口并且灯是红色的与[17]不同的是，在[17 ]中，解释/解释被联合预测为单个序列（由标记分隔），我们专注于生成后面的部分（即，解释）并将其视为观察。然后，这些观察结果用于预测相应的文本动作命令，以某种方式（例如，go，pass，turn），在第3.4节中。我们收集过去T个时间步的潜在向量遵守观察-行动规则。我们的LSTM编码器采用生成的可变长度文本观察（该模型通过最小化负对数似然来训练（类似于观察生成器）。我们的模型是由人类输入的观察，行动规则的形式，用户希望车辆遵循的监督。预测的动作命令作为车辆控制器的输入给出。请注意，这些规则是在离线训练期间分别从我们的车辆控制器和文本观察生成器中我们的方法也可以适用于在线设置，通过加强我们的观察-行动规则的学习。策略梯度方法可用于训练代理在在线设置中生成这样的规则，同时通过测量自动分数来估计人对车即时建议。我们目前假设建议是离线给出的，而不是在在线人车交互期间。然而，请注意，我们的模型也可以接受即时的人对车辆的建议。如图2（C）所示，我们使用两个多路复用器来接受观测和导航建议。我们的模型将观察建议映射到动作命令。损失函数。我们的观察到行动模块输出每个单词的softmax 概率，并且我们最小化以下负对数似然Lobs2act：通过对关注的特征向量{Ct，i}求和，即，LΣ=−logp（a|一，{o，o，. -是的- 是的，o（2）c′tΣli=1 ct，i. 我们会使用时间注意力机制-obs2actMmm−112K在每个时间步，将权重βk，t赋予这些向量我们最小化下面的损失函数L来训练我们的en-k（句子生成的），即G=0βc¯轮胎驱动模型端到端，L=L+L+ L。kt=t0−T+1k，ttOBSCTLobs2act其中t0是当前时间步长，tβk，t= 1，其中βk，t在[0，1]中。权重βk，t由注意力计算这与空间注意力相似这是序列到序列模型中的常见做法，并允许输出令牌相对于输入样本的灵活性[3]。4. 实验数据集。我们使用Berkeley DeepDrive-eXplanation（BDD-X）数据集[17]来训练和评估我们提出的=9666（一）输入图像注意力映射(B)是车观察操作命令它汽车前车观察结果：Seq-to-Seq观察到行动行动：“Because the“Because the图5：（A）我们的模型生成的示例观察和动作命令。我们提供车辆控制器的输入原始图像和注意力地图。(B)我们的前100名的分布分别由前四个或前三个单词生成观察/动作对。单词的排序从中心开始，弧的长度表示单词数量请注意，我们删除了单词数量太少而无法显示的区域表1：我们报告了我们的方法和现有基线的车辆控制预测性能。我们比较了平均位移误差（ADE）的中位数以及第一（Q1）和第三（Q3）四分位数（越低越好）的性能，即。中位数[Q1，Q3]。ADE（米）↓模型无速度输入带速度输入A. CNN+FC [5] 2.36 [1.18，4.61]-B. A + LSTM [39] 3.29 [1.49，6.93]-C. B +注意[15] 2.22 [1.17，4.61]-D. A +离散命令（带分支输出）[7]2.28 [0.89，4.56] 1.35 [0.66，2.76]E. C +（自然语言）命令[16] 2.11 [0.84，4.86] 1.35 [0.42，2.94]F. D +长期（全球）咨询意见2.14 [0.93，4.57] 0.81 [0.45，1.61]G. F + Object-centric Visual Encoder（我们的）1.93 [1.03，4.26] 0.65 [0.46，1.43]模型 BDD-X包含在美国城市驾驶期间收集的前视仪表盘视频（约40秒），涵盖所有典型的驾驶事件。除了视频数据外，数据集还提供了相应的时间戳IMU传感器测量值，我们将其用作地面实况控制信号。我们在补充材料中提供了数据集的详细信息。此外，数据集提供了（i）车辆动作的文本描述（驾驶员正在做什么），以及（ii）驾驶员动作的解释（从驾驶教练的角度来看，驾驶员为什么采取该动作），诸如对：“汽车减速”和“因为它接近十字路口”。此数据集收集自Amazon Mechanical Turk中的人工注释器。我们用文本解释来监督文本观察生成器，而我们的序列到序列观察到动作模块则用动作描述来监督（即：作为导航命令）。培训和评估详情。除了我们的对象为中心的视觉编码器，我们训练其他部分端到端使用随机初始化（即。没有预先训练的权重）。除非另有说明，否则我们对框架的所有组件使用单个LSTM层。对于训练，我们使用Adam优化算法[18]和Xavier初始化[9]。为了评估，我们使用平均位移误差（ADE），通过与地面真实的人类演示的控制命令进行比较来定量评估控制预测性能。为了评估由我们的模型生成的文本话语，我们使用流行的自动度量：BLEU [27]，METEOR [20]，CIDER-D [34]，[1] Spice驾驶性能评估。我们报告了我们的模型的车辆控制预测性能和一些基线，以评估在确定的动作条件下控制车辆的能力。我们比较了端到端驾驶模型，CNN+FC[5]，CNN+FC+LSTM[39]和CNN+FC+LSTM+Attention [15]以及基于不同类型目标的目标条件驾驶模型：离散命令[7]、自顶向下视图预期路线[12]和自然语言命令[16]。为了公平比较，我们在所有情况下都使用相同的基本CNN [7]，除了模型123132驱动抵达车具有9667（A）我们的基线（B）2518.7512.56.2509.2518.527.75 37归一化注意力权重总和（%）图6：（A）基线[ 15 ]和我们的模型的各个语义区域的归一化注意力权重（蓝色）之和;差异以红色表示。我们的模型更多地关注道路，汽车，行人区域，车道标记，而不是建筑物，天空，植被。(We选择了我们模型中最常访问的前20个地区。）(B)我们提供输入图像，并将基线和我们的模型的注意力图进行比较注意力地图由其轮廓线覆盖并显示在输入图像上。注意力权重的较高值（红色）显示驾驶模型关注的内容。G，它使用我们的以对象为中心的前端视觉编码器。所有模型都具有相同的输出层，并通过最小化相同的损失函数进行训练。我们在表 1 中报告了上述模型的性能（越低越好）。与之前的工作一致，目标条件模型[7，16]（D和E）通常比非目标条件模型（前三行）提供更好的控制预测性能。我们的模型是建立在模型D-一个目标条件驾驶模型，需要四个不同的离散导航命令（即。车道跟随、转弯、并道、停车）。基于表2：我们报告了生成的文本观察（顶部）和操作命令（底部）的质量。我们依赖标准的自动度量：[ 27 ]BLEU-4 [27]，METEOR [20]，CIDER-D [34]和SPICE[1]。†：报告人[17]文本观察生成模型我们的11.7 16.0 98.2 20.7在这一点上，我们的模型F采用自然语言命令，刺激驱动的行动，例如车辆可以停止，模型文本动作命令生成从而鼓励模型注意重要的视觉提示（例如，停车标志、交通灯、行人）。使用我们的以对象为中心的视觉编码器（而不是从头开始训练Con- vNet）进一步提高了控制预测性能（比较G与F）。观察到行动模块的分析。在图5（A）中，我们提供了文本观察的定性示例（例如，“because the car infront is stopped”) and corre- sponding我们还展示了生成的注意力图，它突出显示了影响网络输出的图像区域文本观察和控制命令两者）。我们的模型注意到相关的视觉线索，并产生相应的文本序列。车辆控制器还查看其他与驾驶相关的对象，例如：车道标记。重要的是，我们的模型能够学习观察-动作规则，这些规则是由hu提供的。人在训练时间，并正确地反映了典型的链接之间的视觉原因和人类驾驶行为的行动为了查看学习到的观察到动作规则的分布，我们根据前几个单词（例如，该对中的“灯是我们的模型生成各种观察到的动作对，这是兼容的人类司机的一般知识。例如，以“道路是湿的”开始的任务会命令以“汽车保持低速”开始语义丰富的驾驶模型。分析生成的注意力地图证实，我们的模型更侧重于重要的对象相关的视觉线索（例如。车辆、车道标记等）。相比之下，基线模型[15]经常关注背景（例如，天空、树木、建筑物等），但对重要的视觉线索关注不足。路自我车辆路自我车辆车行人专用区隧道车道标记-人行横道雪地车支架建筑水天空植被桥卡车护栏辅助车道人行横道-普通公交人行道车道标记-概述车行人专用区隧道车道标记-人行横道雪车载建筑用水天空植物桥卡车护栏辅助车道人行横道-普通总线人行道车道标记-概述差异输入图像注意力热图我们基线BLEU-4流星CIDEr-D香料S2VT [35]+SA+TA†5.8410.952.714.3S2VT+SA+TA+WAA[17]†7.2812.269.517.5基于变换器的解码器[33]9.9013.670.117.5缓慢和/或偏离，因为交通参与者，障碍，S2VT [35]+SA+TA†27.126.4157.055.1其他环境原因。我们注意到我们的S2VT+SA+TA+WAA[17]†32.329.2215.859.6通过添加长期（或全局）建议模块（比较F与D）。我们的控制人分享我们42.634.6338.562.6使用观察生成器的有人值守功能，以及9668在图6（A）中，我们提供了我们的模型所关注的前20个语义分段标签。蓝色条表示每个标签的归一化注意力权重之和我们模型的前3个参与区域是道路，自我车辆，行人区域，而基线则侧重于建筑物，道路，天空。为了了解这些模型之间的差异，我们（一）755025（一）（二）（三）（B）百分之五十百分之四十百分之三十百分之二十百分之十0%的百分比1 2 3 4 5（C）百分之四十百分之三十百分之二十百分之十0%的百分比1234 5也将差异可视化为红色条。我们的显然是...更多关于驾驶相关的功能，例如：道路，汽车，行人-场景没有忠告我不相信这个系统不可解释的模型我相信这个系统制度没有改善该系统提高三角区，车道标记，积雪，建筑物，天空，植被等。在图6（B）中，我们进一步比较了at-提供咨询意见可解释的w/注意力和文字解释可解释的w/人对车的建议我们和基线模型之间的张力图[15]。我们提供输入视频帧（第一行），由基线模型生成的注意力地图（第二行）和我们的注意力地图（第三行）。注意力地图显示，我们的模型在-倾向于重要的对象相关的视觉线索（如。车辆、车道标记等）。生成的观察/行动质量。接下来，我们评估生成的观察结果和行动命令的质量，见表2（越高越好）。我们的文本观察生成器基于视觉输入预测自然语言观察我们的一些基线是视频字幕方法，其不考虑载体控制（S2VT [35]+SA（空间注意力）+TA（时间注意力）和基于变换器的方法[33]）。同时，我们的整个系统都是端到端训练的，包括预测控制的损失，因此我们的文本观察被鼓励与驾驶行为相关因此，我们还比较了[17]的最佳版本，WAA模型（弱对齐注意力）。该模型生成的动作描述和解释的预测车辆控制的条件下，我们解释为观察。这与我们的方法不同，相反，车辆控制是基于观察/动作命令来预测的。尽管如此，对于我们的方法来说，这些都是有意义的参考数字。正如我们所看到的，我们的模型在生成的观察和动作命令的所有指标中获得了最高分模拟和人类评估。可解释和可广告的驾驶模型可以通过提供有效的通信来增加用户信任，这有助于用户将他们的偏好/指导传达给车辆，反之亦然。为了验证这一点，我们进行了一次人工评估。我们首先将驾驶模型从离线设置迁移到模拟环境中，Carla [8]，即。我们的模型在BDD-X数据集上进行了训练，并在Carla模拟器中进行了测试。我们选择三种不同的驾驶场景：（i）在红灯前停车;（ii）在大雨中在红灯前停车;及（iii）在停止标记。在这些实验中，我们的驾驶模型未能停止（ii）和（iii）场景。然后，我们使用以下建议来测试模型：“红灯”和“有停车标志”。我们观察到故障率下降（见图7（A））。此外，我们招募了20名人类法官，并研究了以下三种情况图7：（A）我们报告了使用和不使用在Carla模拟器上的以下三种情况下的建议输入。(B-C)我们还报告了人类研究对以下问题的回答：（B）“你对这个系统有多信任？“，和（C）“人车建议系统改进到什么水平？“.答案以1-5 Likert量表衡量。情况：（i）用户仅观察汽车如图7（B）所示，我们的可解释和可取的系统显示了对用户信任的更好响应。具体来说，提供视觉和文本解释会略微提高用户信任度（蓝色与红色）。此外，向用户展示驾驶模型接受人对车辆建议的示例显著提高了用户信任度（红色与黄色）。此外，我们还通过询问“系统在人车建议方面的改进程度如何？“.我们的评估人员承认，建议改善了驾驶系统，见图7（C）。我们在补充材料中提供了在Carla模拟器中进行评估的详细信息5. 结论为了学习更像人类的驾驶行为，我们建议以观察-行动规则的形式使用人类的建议。具体来说，我们提出了一种新的方法，在训练过程中使用这样的建议作为监督，并根据文本动作命令预测控制。我们依靠语义视觉表示来更好地为文本观察提供基础，并生成以对象为中心的注意力地图。我们在BDD-X数据集上的实验表明，我们的模型在控制预测和文本观察生成方面与以前的工作相匹配或优于以前的工作。我们对Carla模拟器的人工评估进一步表明，我们的建议系统可以增加用户的信任。鸣谢。我们感谢Y。Gao，L. Wang，O. Watkins和C.德文在加州大学伯克利分校的有益的讨论。这项工作得到了DARPA XAI计划和Berkeley DeepDrive的支持J.Kim获得了三星奖学金的部分支持。故障率响应响应9669引用[1] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。见ECCV，第382-398页。施普林格，2016年。六、七[2] Yoav Artzi和Luke Zettlemoyer。弱监督学习语义解析器，用于将指令映射到动作。TACL，2013年。3[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。ICLR，2014年。5[4] Mayank Bansal 、 Alex Krizhevsky 和 Abhijit Ogale 。Chauf- feurnet：学习驾驶是通过模仿最好的和合成最坏的来实现的。RSS，2019. 二、三、四[5] MariuszBojarski ， DavideDelTesta ， DanielDworakowski ， Bernhard Firner ， Beat Flepp ， PrasoonGoyal，Lawrence D Jackel，Mathew Monfort，Urs穆勒嘉凯zhang等人自动驾驶汽车的端到端学习。CoRR abs/1604.07316，2016。一、二、六[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2018年。4[7] 费利佩·科德·维拉，马蒂亚斯·米耶，安东尼奥·洛佩斯，弗拉德连·科尔通和阿列克谢·多索维茨基。通过条件模仿学习实现端到端驱动载于ICRA，第1IEEE，2018年。二六七[8] Alexey Dosovitskiy 、 German Ros 、 Felipe Codevilla 、Antonio Lopez和Vladlen Koltun。卡拉：一个开放式的城市驾驶模拟器。CoRL，2017年。二、八[9] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在AIS中-TATS，2010年。6[10] 大卫·甘宁可解释人工智能（XAI）。国防高级研究计划局（DARPA），2017年。3[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页，2017年。4[12] Simon Hecker，Dengxin Dai，and Luc Van Gool.使用全景摄像头和路线规划器进行驾驶模型的端到端学习。在ECCV，2018。二、六[13] LisaAnneHendricks ， ZeynepAkata ， MarcusRohrbach ， Jeff Donahue ， Bernt Schiele 和 TrevorDarrell。生成视觉解释。在ECCV，2016年。3[14] Lisa Anne Hendricks，Ronghang Hu，Trevor Darrell和Zeynep Akata。基础视觉解释。在ECCV，2018。3[15] 金镇奎和约翰·坎尼。通过可视化因果注意力实现自动驾驶汽车的可解释学习。ICCV，2017年。一二三六七八[16] Jinkyu Kim ， Terihusa Misu ， Yi-Ting Chen ， AshishTawari，and John Canny.为自动驾驶车辆提供人对车建议。CVPR，2019年。一、二、三、四、五、六、七[17] Jinkyu Kim ， Anna Rohrbach ， Trevor Darrell ， JohnCanny，and Zeynep Akata.自动驾驶车辆的文字说明。在ECCV，2018。一二三五七八9670[18] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。ICLR，2015年。6[19] Gregory Kuhlmann，Peter Stone，Raymond Mooney，and Jude Shavlik.用自然语言建议指导强化学习者：Robocup足球赛的初步结果。在AAAI研讨会，2004年。3[20] 阿隆·拉维和阿布哈亚·阿加瓦尔Meteor：一个自动的评估指标，与人类的判断有更好的相关性 . 载于EMNLP，2005年。六、七[21] Jiwei Li ， Alexander H Miller ， Sumit Chopra ，Marc'Aurelio Ranzato，and Jason Weston.对话学习与人在环。arXiv预印本arXiv：1611.09823，2016年。3[22] 桓灵和桑雅·菲德勒。通过自然语言反馈教机器描述图像。arXiv预印本arXiv：1706.00130，2017年。3[23] 约翰·麦卡锡。有常识的程序。

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

人车建议：语义分割、实例掩码和注意力热图的车辆控制方法及其可视化解释

语义分割结果可视化（原图+语义掩码+图例）

语义分割和实例分割的区别是什么

yolov8语义分割掩码颜色

现在已经有语义分割的掩码图了，帮我写一个语义分割之后的mask图从原图中提取出来的python代码

两个语义分割实现实例分割

语义分割和实例分割_【图像分割模型】实例分割模型—DeepMask

现在已经有语义分割的掩码图了，帮我写一个语义分割之后的mask图从原图中提取出来并且保持和原图颜色一样，并保存图片的python代码，

现在已经有语义分割的掩码图了，帮我写一个语义分割之后的mask图从原图中提取出来并保存图像的python代码

在标准Transformer模型中，包括哪些注意力机制A、Encoder中的掩码自注意力B、Decoder中的单向自注意力C、Decoder中的掩码自注意力D、Decoder到Encoder的注意力

如何利用代码将VOC格式语义分割数据集怎么转化为实例分割数据集

现在已经有语义分割的掩码图了，帮我写一个语义分割之后的mask图从原图中提取出来并且该图像的色值同原图一样，并保存图片的python代码，

实例分割中掩码分支与PointRend的区别

帮写一个当已经有语义分割的掩码图并且需要从原图中提取出来原图并保存图像时的python代码

我分割出了图像中货车的掩码和人的掩码，我想判断人是否在货车上，可以怎么做

掩码多头注意力机制与多头注意力的区别在哪?目的有何不同

YOLOv5 语义分割

yolact 注意力机制

掩码多头注意力机制子层

yolov8 实例分割

coco数据集进行语义分割

最新资源