自动驾驶中的可解释对象诱发动作决策

20 浏览量更新于2023-10-24 收藏 12.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{y5xu,x4yang,lgong,lhsuanch,tzw001,yul554,nuno}@ucsd.edu95230自动驾驶中的可解释对象诱发动作决策0Yiran Xu Xiaoyin Yang Lihang Gong Hsuan-Chu LinTz-Ying Wu Yunsheng Li Nuno Vasconcelos加利福尼亚大学圣地亚哥分校电气与计算机工程系0摘要0提出了一种新的自动驾驶范式。这种新范式介于端到端和流水线方法之间，并受到人类解决问题的启发。虽然它依赖于场景理解，但后者只考虑可能产生危险的对象。这些被称为诱发动作的对象，因为它们的状态变化应该触发车辆动作。他们还定义了与这些动作相关的一组解释，这些解释应该与后者一起产生。提出了BDD100K数据集的扩展，用于注释一组4个动作和21个解释。然后引入了一个新的多任务问题的公式，该问题优化了动作命令和解释的准确性。最后，提出了一种CNN架构来解决这个问题，通过结合对诱发动作对象和全局场景上的推理。实验结果表明，解释的要求提高了诱发动作对象的识别能力，进而导致更好的动作预测。01. 引言0深度学习在自动驾驶方面取得了巨大的进展。出现了两种主要方法。端到端系统[1, 2, 3, 4,5]将视觉输入直接映射为驾驶动作，如“减速”或“转弯”。流水线系统首先检测对象和障碍物，然后利用这些信息来决定驾驶动作。这两种方法都有优点和缺点。端到端系统在理论上是最优的，因为它们利用了所有的视觉信息进行决策。根据数据处理定理[6]，中间决策只会导致信息的丢失，从而损害端到端的最优性。然而，端到端预测器非常复杂，需要大量的数据集和网络。流水线具有模块化的优势，将问题分解为许多更小的子问题，如对象检测0图1.上图：自动驾驶面临复杂的场景，由许多对象组成，但只有少数是诱发动作的。下图：每个诱发动作的对象都有一个相关的解释。箭头表示动作“前进”、“左转”、“停止/减速”和“右转”（顺时针顺序）。绿色表示可接受的动作。0轨迹分析和规划等。这种方法涵盖了3D物体检测[7, 8, 9,10]、分割[11]、深度估计[12,13]、3D重建[14]等多个子领域。然而，单个模块的失败可能会影响整个系统的性能[15]。除了驾驶性能，可解释性也是自动驾驶的一个重要问题。端到端系统在这方面的表现很差，因为它们是黑盒子的性质。虽然可以通过解释来补充它们[16,17]，但这些解释尚不完全可靠。流水线系统更容易进行法证分析，通过分析每个模块的性能并评估其对系统故障的潜在贡献。然而，目前的流水线方法并不是为此而设计的。相反，每个模块都成为一个计算机视觉问题，有时还有自己的数据集和排行榜。这在评估性能时容易迷失整体目标。例如，对于检测的进一步进展95240在人行道上遮挡的行人不太可能提高自动驾驶性能。在这项工作中，我们主张设计介于这两个极端之间的系统。这受到了人类解决问题的启发。在决定减速还是转弯时，人类不采用严格的端到端策略。相反，他们对场景对象进行一定程度的理解和推理。然而，这远非全面的场景理解。相反，他们只关注与驾驶任务直接相关的对象。例如，在驾驶时，大多数人很少关注人行道上的行人或停放的汽车，而是专注于可能造成危险的对象[18,19]。我们将这些对象称为诱发动作的对象，因为它们的状态变化，例如穿过街道的行人，会触发车辆动作，例如“减速”或“停止”。这在图1中有所说明。虽然场景中包含许多对象，但只有少数是诱发动作的。专注于诱发动作的对象的一个优点是它们定义了驾驶动作的解释集。例如，在图1中，接近交叉口的汽车由于两个诱发动作的对象而减速：一个红色的交通灯和穿过街道的行人。更一般地说，每个诱发动作的对象都有一个与之相关的动作解释。这意味着只需要一个有限的解释集，并且解释可以被视为一组辅助的语义类别，与动作同时预测。这自然地导致了一个多任务问题，目标是联合预测动作和解释，如图1所示。在这项工作中，我们提出了一个用于联合预测的架构。我们首先介绍了BDD对象诱发动作（BDD-OIA）数据集，用于研究这个问题。当前驾驶数据集[20, 21, 22,23]的一个局限性是它们太简单了，即往往很容易确定要采取的动作。为了解决这个问题，BDD-OIA只包括复杂的场景，其中可能存在多个动作。这些场景经过手动注释，标注了动作和相关的解释。BDD-OIA还配备了一种新的联合动作/解释预测架构，该架构通过利用FasterR-CNN来检测对象和全局场景上的上下文模块来确定哪些对象是诱发动作的，并输出相应的动作和解释对。多任务问题的公式具有几个良好的性质。首先，解释不是分类器设计的额外负担，而是成为辅助监督的次要来源。通过强制分类器预测动作“减速”，因为“交通灯是红色的”，多任务设置使分类器暴露于两者之间的因果关系。这比简单地标记为“减速”的图像要丰富得多。其次，与事后计算的预测热图[1, 3, 18, 19, 24, 25, 26, 27, 28]或合成的方法不同0完全自然语言的[3]使用循环网络或生成系统，一组有限的解释可以映射到一个分类任务。因此，系统可以明确地优化生成自然语言解释，同时提出一个相对简单的学习问题。事实上，我们的实验表明，在提出的多任务公式下，解释的生成改善了网络的动作预测性能。据我们所知，这是首次表明可解释的人工智能可以提高自动驾驶系统的性能。所提出的网络在预测驾驶命令和解释方面也表现出良好的性能，在BDD-OIA上取得了最先进的结果。总体而言，本文提出了四个主要贡献。• 一个用于驾驶命令和解释的大型数据集。•一个新的多任务公式，用于优化动作命令和解释的准确性。•一种用于解决这个问题的CNN架构，结合对引发动作的对象和全局场景上下文的推理。•通过实验评估表明，解释的生成改善了动作的决策过程，两者都受益于对象为中心和全局场景推理的结合。02. 相关工作0自动驾驶的端到端学习。端到端驾驶最早在1989年提出，由ALVINN系统[29]实现。[30]后来证明了CNN在生成方向盘命令方面的强大能力。这些系统严格遵循端到端的原则，不使用关于对象的明确推理。最近，一些端到端学习车辆控制的方法[1, 2, 3, 4,5]利用了上下文和对象特征。然而，许多这些系统是在驾驶模拟器上训练的[4,5]。尽管在域适应算法方面取得了进展，但在真实世界中部署时，使用合成数据训练的系统往往表现不佳。我们提出的网络是一个完全在真实图像上训练的端到端系统，利用对象检测和上下文推理。全局-局部上下文表示。全局和局部场景特征之间的上下文关系是识别场景重要部分的重要线索。上下文推理在计算机视觉领域有着悠久的历史[31, 32, 33,34, 35, 36, 37]。例如，[34]显示多尺度池化改善了FasterR-CNN[38]的目标检测性能，而[35]则依赖于上下文信息来识别视觉关系。然而，上下文学习受到了有限的关注。�95250在自动驾驶文献中。[5]提出了一个选择场景中最关键对象的选择器，但完全忽视了全局特征的重要性。[1,3]相反，考虑了从整个场景中提取的特征，忽视了对象。我们提出的架构同时考虑了对象和上下文，探索它们之间的关系，并通过解释的形式提供详细的监督，以区分对驾驶无关重要的对象和引发动作的对象。0注意机制。注意机制已被广泛应用于神经网络[39,40]。注意力图也被用于可视化这些网络的内部工作[24, 25,26, 27,28]。在自动驾驶领域，[41]开发了一个更丰富的注意力概念，用于协同预测。使用眼动追踪系统进行人类注意力研究也在[18,19]中进行，以确定哪些场景区域吸引驾驶员的目光。[1,3]引入了端到端驾驶的视觉注意力图概念。[5]提出了一种对象级别的注意力模型，可以看作是使用对象定义动作的一种较弱形式。0解释。有时候会使用文本解释来了解网络对图像或场景的理解[16, 17, 42, 39]。例如，[39, 16,17]生成文本来解释注意力图或网络预测。在自动驾驶设置中，Kim等人[3]将文本生成和注意机制与端到端驾驶相结合。使用基于注意力的视频到文本模型为每个预测的动作生成人类可理解的解释。现在提出的公式基于引发动作的对象，可以生成独热编码的解释。这消除了文本解释的歧义，并提高了动作预测性能。0数据集。几个自动驾驶数据集包含了真实图像或视频以及来自多个传感器的信息，包括雷达、LiDAR、GPS或IMU信息。KITTI[20]是最早用于标注对象边界框、语义分割标签、深度和3D点云的数据集之一。BDD100K[43]包含了100K个视频，标注有图像级标签、对象边界框、可驾驶区域、车道标记和全帧实例分割。Apolloscape[44]有14万张图像、RGB视频和相应的密集3D点云，重点关注3D标注和语义分割。nuScenes[21]包含了1000个场景，其中包含由相机、LiDAR和雷达产生的传感器信息。虽然这些数据集都很大且注释丰富，但没有一个数据集专门用于检测引发动作的对象。现在提出的数据集是从BDD100K派生而来的，但包含了大量额外的注释以实现这个目标。03.联合动作和解释预测0在本节中，我们介绍了联合预测和解释对象诱导动作的问题。03.1.定义0智能驾驶系统执行两类主要动作。第一类动作与环境中的其他对象无关。例如，一辆在沙漠高速公路上行驶的汽车可以简单地决定减速以优化能源消耗。这些动作不需要复杂的感知，并且不会造成危险。第二类动作涉及对道路上的其他对象或其周围环境的推理，如图1所示。虽然我们将其称为对象诱导动作，但对象的定义可以是抽象的。例如，由于存在一个开放的车道“对象”，所以可以进行车道变更。对于本文的目的，任何可以被视觉系统检测或识别的对象或事件都被视为对象。对象诱导动作的一个有趣特性是它们具有强大的因果结构。例如，在图1中，横穿马路的行人迫使汽车减速。虽然动作可能有多个原因，例如交通灯也是红色的，但是这个集合的基数相对较小。这意味着该动作只有一小组可能的解释。如果汽车闯红灯，那么它要么没有检测到行人，要么没有检测到交通灯。虽然“边缘”情况总是存在，例如汽车没有检测到路中间的断掉的树枝，但这些情况可以逐步添加到解释集合中。无论如何，由于对象和解释的集合相对较小，动作和解释的联合预测可以映射为一个阶乘分类问题。在本文中，我们考虑了端到端驾驶系统常常预测的4个动作集合[2,5]，并列在表1的左侧。这些动作由表中右侧列出的21个解释补充。与以前的工作不同，我们将动作的分类视为多标签分类，即我们可以有多个选择。从数学上讲，给定一个图像I或一个视频V在某个空间X中，目标是确定最佳动作A∈{0, 1}4和解释E∈{0, 1}21。0最佳解释。这是通过映射实现的0φ：X →（A，E）∈{0，1}4×{0，1}21。（1）0例如，如果可能的动作是“停止”和“切换到左车道”，则A = [0，1，1，0]T。动作和解释标签向量的结构在表1中定义。总之，联合动作/解释预测是两个多标签分类问题的组合。03.2. BDD-OIA数据集0Move forward12491Follow trafﬁc3489Stop/Slow down10432Trafﬁc sign1539Obstacle: person163Obstacle: others455838No lane on the left150Solid line on the left3165064Trafﬁc light allows885Turn right1071Obstacles on the right lane45145470On the right-turn lane6081Front car turning right2161atively short periods where the driver must decide betweena set of object induced actions. When decisions have tobe made, they are more difﬁcult if environments are com-plex, e.g. with road obstacles, pedestrian crossings, etc. Yet,driving datasets contain a relatively low percentage of suchscenes. This can be seen from Table 2, which summarizesthe average densities of pedestrians and moving vehicles perimage of several datasets. The fact that these numbers arelow suggests that most of the driving scenarios are relativelysimple. Previous research also only predicts the action cho-sen by the driver [2, 4, 5], creating the false impression thatonly that action was possible. All of this, makes existingdatasets poorly suited to study object induced actions. Be-yond this, because these datasets are not annotated with ex-planations for object induced actions, they cannot be usedto learn how to generate such explanations.To address these problems, we selected a subset ofBDD100K [43] video clips containing at least 5 pedestri-ans or bicycle riders and more than 5 vehicles.To in-crease scene diversity, these videos were selected undervarious weather conditions and times of the day. This re-sulted in 22,924 5-second video clips, which were anno-tated on MTurk for the 4 actions and 21 explanations ofTable 1. We refer to this dataset as the BDD Object InducedActions (BDD-OIA) dataset. Figure 2 shows examples oftypical scenes in BDD-OIA. These are all complex drivingscenes, where multiple action choices are frequently possi-ble. There are also many objects, e.g. cars parked on the95260动作类别数量解释数量0交通灯为绿色7805个0道路畅通4838个0交通灯5381个0障碍物：汽车233个0障碍物：骑手5255个0左转0左车道上的障碍物666个0在左转车道上154个0前车左转365个0右侧没有车道4503个0右侧实线3660个0交通灯允许4022个0表1.BDD-OIA数据集中的动作和解释类别。由于动作是由对象引起的，解释是基于对象的。将向左/向右变道与向左/向右转弯合并以避免分布不平衡。对于向左/向右转弯的行，上部子行呈现向左/向右变道的统计数据，下部子行呈现向左/向右转弯的统计数据。对于这些动作，解释说明了为什么该动作不可能。0数据集＃行人＃车辆0BDD100K [43] 1.2 9.7 KITTI [20] 0.8 4.1Cityscapes [22] 7.0 11.8 BDD-OIA 8.011.80表2.流行驾驶数据集中每个图像的行人和车辆密度（基于训练集的统计数据）。平均而言，BDD-OIA数据集的场景比以前的数据集更复杂。0图2.BDD-OIA中的场景。右下角的绿色箭头显示可能动作的真实情况。0街道的一侧，这些物体不会引发动作，每个场景只有几个引发动作的物体。引发动作的物体可以是其他车辆、行人、交通灯或开放车道。表1总结了数据集内容，包括4个动作类别和21个解释类别。动作的覆盖范围相当平衡。事实上，我们最初的目标是包括四个BDD类别（“前进”，“停止/减速”，“左转”和“右转”），以及左/右两个新类别的“变道”。然而，在BDD100K中很少有转弯的机会。为了避免高度不平衡的数据集，我们合并了转弯和变道。21个解释类别的覆盖范围更不平衡。最常见的是“交通灯是绿色”（7805次出现），而最稀有的是“左侧没有车道”（150次）和“在左转车道上”（154次）。04. 深度学习架构0在本节中，我们提出了一个用于对象诱导动作的联合预测和解释的深度架构。04.1. 架构概述0对象诱导动作及其解释的预测需要结合几种类型的推理。在这项工作中，我们提出了一个基于几个步骤的深度网络模型，如图3所示。网络首先计算骨干特征，然后将其输入到两个模块中。局部特征 t l i ，i = 1, 2, ..., N 首先由FasterR-CNN的RPN和ROI头层生成[38]。全局模块通过处理骨干特征的大小和维度来生成全局特征 t g。LocalAvg Pooltl1tl2tl3tlNtgtgtgtgs1s2s3sNGlobalPoolChannel-wise concatenationElement-wise multiplication952701×3×H×W 动作诱导物体选择模块0全局模块0复制0fc0fc0fc0全局分支0局部分支0N0t g softmax0排序 Top-k选择0预测0图3. 提出网络的架构。使用FasterR-CNN提取骨干特征，将其输入到全局分支和局部分支中。全局模块生成提供场景上下文的全局特征图，而局部分支捕捉引发动作物体的细节。在局部分支中，选择器模块为每个物体特征张量和相关的全局上下文信息输出一个分数。选择前k个引发动作的物体，并将两个分支的特征进行拼接，用于动作和解释的预测。还显示了从输入图像派生的两个可视化结果。局部和全局特征的组合以及端到端的监督使网络能够推理场景-物体关系，并生成比骨干特征图更具选择性的动作诱导物体的全局特征图。0然后将局部特征和全局特征输入到动作诱导物体检测模块，以识别动作诱导物体。这最终产生动作 ˆ A 和解释 ˆ E的预测。网络使用多任务损失函数进行训练。0L = L A + λ L E，(2)0其中 L A = 4 j =1 L [ ˆ A j , A j ] ，L E = 21 j =1 L [ ˆ E j ,E j ] ，A j 和 E j 是第 j 个动作和解释的真实标签，L [ ., . ]是二元交叉熵损失，λ是一个超参数，控制动作和解释错误的相对重要性。这种形式有几个好处。首先，多任务训练允许显式优化网络以生成解释。这可能比仅通过后验推导解释更有效，例如仅使用突出显示预测相关图像区域的热图[27]。其次，因为解释的生成被形式化为一个分类问题，优化问题相对简单，所需的数据比基于循环网络或生成语言模型的自然语言系统的训练要少得多[3]。最后，由于多任务形式化，动作和解释可以互相受益。通过明确监督汽车必须减速因为交通灯是红色这个事实，视觉系统面临的学习问题比只被告知减速的问题要简单得多。它不必自己弄清楚红灯和减速之间的因果关系。04.2. 实现细节0全局模块。该模块从FasterR-CNN的主干特征中生成全局特征tg。它由两个带有ReLU激活函数的卷积层组成。0再加上一个局部平均池化操作。它将主干特征的维度从2048降低到256，并将其特征图的空间尺寸减小到7 ×7，以便进一步联合处理局部和全局特征。动作诱导对象选择模块。该模块用于从FasterR-CNN生成的所有对象提议中选择动作诱导对象。首先从提议位置提取大小为7 ×7的N个局部特征张量tl_i，并与全局特征张量tg连接，形成每个对象的对象-场景张量t(l+g)_i。然后将这些张量连接成大小为N × c × 7 × 7的场景张量，其中c = 2048 +256。然后，选择器S从该张量中选择动作诱导对象。S由三个卷积层和一个具有N个输出的softmax层实现，定义了对N个对象的概率分布。概率被解释为动作诱导对象得分。然后选择得分最高的k个对象作为动作诱导对象，并将相关的对象-场景张量t(l+g)_i传递给下一个网络阶段。预测。然后对这些对象-场景张量进行全局池化，并将其向量化为特征向量，然后通过三个全连接层生成动作预测和解释。对象-场景关系。上述模块共同使网络能够推理场景-对象关系。全局模块为对象在场景中的出现位置和全局场景布局提供了空间上下文。它可以看作是一种注意机制，将主干特征图组合起来产生有关动作诱导对象位置的场景特征。这在Figure3中有所说明，其中我们展示了一张图像，主干输出的特征图的平均值，以及全局模块后的平均特征图（维度从2048降低到256）。尽管主干特征在整个场景中具有分散的强度，但全局特征图对动作诱导对象具有很高的选择性。这种效果由选择器补充。由于选择器是学习得到的00.7830.7580.4190.5680.6320.675-0.010.8190.7600.5040.6050.6720.6960.3290.10.7840.7690.5620.6270.6860.7090.3711.00.8290.7810.6300.6340.7180.7340.422∞------0.41895280λ F S L R 动作mF1 动作F1 总体解释F1 总体0表3. 动作和解释预测性能与每个任务的重要性（由λ确定）对（2）损失的影响。标签表示“前进”（F），“停止/减速”（S），“向左转/变道”（L）和“向右转/变道”（R）。0通过整体损失函数L的监督，它选择改进动作预测和解释准确性的对象-场景张量。这为全局特征图提供了所需的监督信号，以突出显示相关对象。其余的提议在选择器的输出处得分较低，并被丢弃。这极大地减少了对动作预测无关重要的对象所造成的混乱。05. 实验05.1. 设置0所有实验都基于BDD-OIA数据集。只使用每个视频剪辑的最后一帧，训练集包含16,082张图像，验证集包含2,270张图像，测试集包含4,572张图像。图像的输入尺寸为3 × 720× 1280。Faster R-CNN在BDD100K[43]的标注图像上进行预训练，并在Figure3的其余网络上使用BDD-OIA进行训练。使用Adam优化器，权重衰减为1 ×10^(-4)，初始学习率α为0.001。进行50个epochs的训练，每10个epochs将α除以10。所有实验都使用标准度量指标F1分数进行评估，考虑了两种变体。0F1 all = 1 |A |0| A |0j =1 F1( ˆ Aj , Aj ) , (3)0平均F1得分是对所有预测进行的。由于数据集不平衡，即大多数行动是向前和缓慢的，我们进一步讨论了每个行动j的平均F1得分mF1，仅计算每个样本的F1( ˆ Aj , Aj)。所提出的网络与其他两个模型进行了比较：ResNet-101[45]（作为基准）和[5]的网络。因为后者设计用于除对象诱导行动识别之外的任务，所以对其进行了修改以支持此任务。ResNet-101在ImageNet上进行了预训练。为了适应ResNet-101的架构，图像的输入大小被调整为3×224×224。其输出层被修改为2个分支：一个完全连接（fc）层，输出4个行动类别，和一个fc层，输出21个解释。[5]的网络预测驾驶行动。我们为其添加了一个新的解释输出分支。所有模型都使用(2)的损失进行训练。行动诱导对象的数量设置为k =10。05.2. 行动和解释之间的相互作用0我们首先研究了解释对行动预测准确性的影响。为此，我们改变了(2)的超参数λ，如表3所总结的。请注意，λ =0表示在训练过程中忽略解释，λ =∞表示忽略行动预测。有趣的是，仅训练用于预测行动的网络(λ = 0)的行动预测性能是所有模型中最弱的。当λ =1时，即解释和行动被赋予相同的权重时，获得了显著的增益（行动F1得分从0.675增加到0.734）。该模型在所有行动类别中也具有最佳性能。这表明解释不仅有用，而且提高了自动驾驶系统的性能。我们相信这是首次在视觉文献中展示可解释的AI系统可以胜过不可解释的系统。所提出的解释的两个特性证明了这一观察结果。首先，解释集是有限的，并且基于对象进行定义。这反过来使得解释系统能够从有限的示例集中进行稳健学习。基于由递归模型合成的自然语言的开放式解释系统缺乏这个特性。其次，更为关键的是，对象诱导的行动识别系统的解释是基于对象之间的因果关系的，例如“停下来是因为行人正在穿过街道”。这有助于系统学习对象-场景关系，例如找出在全局特征图中要定位的内容，并将局部特征与全局特征相关联，从而更好地识别导致行动的对象，并因此简化行动预测。在没有解释的情况下，系统必须自己弄清所有这些关系。总之，对于预测对象诱导的行动，解释的添加是可管理的，并且提供了关于对象和诱导行动因果关系的直接监督，从而显著简化了学习问题。这实际上可以从表3的结果中看出。请注意，解释的添加对于数据集中表示较小的行动L和R的增益要大得多（与L和R相比，F和S的表示类别的比例为2:1）。这表明，随着训练示例数量的减少和学习更容易过拟合，解释的正则化产生了更大的收益。95290模型 F S L R mF1 F1 all 解释 mF1 解释 F1 all0仅本地分支 0.760 0.649 0.413 0.473 0.574 0.605 0.139 0.351 仅全局分支 0.820 0.777 0.499 0.621 0.679 0.7040.206 0.419 在选择器中的随机选择 0.823 0.778 0.499 0.637 0.685 0.709 0.197 0.4130选择前5个 0.821 0.768 0.617 0.625 0.708 0.720 0.212 0.416 选择前10个 0.829 0.781 0.630 0.634 0.7180.734 0.208 0.4220表4.使用全局和本地特征的动作和解释预测性能。“仅本地分支”（“仅全局分支”）表示网络忽略全局（本地）特征，“随机选择器”表示随机选择物体特征，“选择前k个”表示选择得分最高的k个物体。0图4. 网络预测示例，作为动作诱导的物体选择和解释。黄色边界框表示FasterR-CNN检测到的物体，红色边界框表示由提出的网络选择为动作诱导的物体。“G”代表真实值，“P”代表预测值。对于解释，绿色表示真正的正例，红色表示假正例，灰色表示假阴例（即未预测到的有效解释）。0在动作预测性能方面取得了更大的增益。05.3. 本地和全局特征之间的相互作用0接下来，我们测试了结合本地和全局推理的重要性。表4总结了一系列消融实验，使用不同的本地和全局特征组合。我们首先评估了仅使用来自FasterR-CNN检测的本地特征的模型。这在所有测试的模型中，无论是动作还是解释，都取得了最差的性能。动作预测高度依赖于空间信息，没有这些信息，准确性会大幅下降。接下来，我们考虑了仅使用全局特征的网络和一个从k =10个随机物体中选择特征的网络。虽然全局特征的性能要比本地特征好得多，但其性能略弱于随机选择的性能。这表明从所有的Faster R-CNN物体检测中预测动作太困难了。0全局特征的改进性能支持了它们能够推理诱导动作的场景部分的观点。事实上，全局特征产生了三种方法中最好的解释。然而，随机物体选择稍微更好的动作预测表明，详细考虑物体也是重要的。0鉴于这一切，将两种特征类型结合起来导致了显著的额外性能提升，在这两个任务上取得了最佳结果。这支持了动作预测需要推理物体-场景交互的假设。虽然基于本地和全局特征组合的前5个和前10个物体的选择都优于单一特征类型的所有模型，但物体数量对网络性能有非平凡的影响。特别是，10个物体比5个物体获得了更好的结果。这证实了BDD-OIA场景的复杂性。另一方面，物体数量对解释的影响只有微小的效果。OutputsFSLRmF1F1all95300模型 F S L R mF1 F1 所有解释 mF1 解释 F1 所有0基准模型 0.755 0.607 0.098 0.108 0.392 0.601 0.180 0.331 本地选择器 [5] 0.810 0.762 0.600 0.6240.699 0.711 0.196 0.4060我们的模型 0.829 0.781 0.630 0.634 0.718 0.734 0.208 0.4220表5. 不同模型的比较。0单个动作 0.791 0.636 0.133 0.261 0.455 0.715 多个动作 0.795 0.680 0.5220.594 0.648 0.6650表6.单个动作预测与多个动作预测的比较。单个动作预测在给定输入图像时输出一个动作标签。多个动作预测输出多个标签。0性能。事实上，仅使用全局特征的模型产生了与整个网络几乎相当质量的解释。这表明解释主要受益于上下文推理。05.4. 模型比较0表5将提出的网络与基线和[5]的方法进行了比较。基线是一种纯粹的全局方法，它在不提取对象特征的情况下预测动作。它在所有方法中的性能最差。这进一步证明了将局部特征和全局特征结合起来进行动作预测的重要性。[5]的模型可以被认为是一种纯粹的局部选择器，它不使用全局特征。它的性能比提出的网络要弱，并且与表4中的随机选择模型相似。不足为奇的是，这个选择器缺乏全局推理的能力。提出的网络的优势表明，对象诱导的动作识别受益于对上下文对象-场景关系的分析。05.5. 单个动作预测与多个动作预测0现有的数据集假设每个时刻只可能有一个动作预测，即由驾驶员选择的动作。为了研究这对动作预测性能的影响，我们比较了多个和单个动作预测。单个预测的真实标签是根据原始BDD100K数据集中的IMU数据计算得出的，该数据集包含11,236个训练图像和3,249个测试图像。图3的网络被修改为产生单个动作预测，通过添加一个softmax层。这与原始模型进行了比较，原始模型可以预测多个动作。表6显示，对于单个动作预测，每个动作类别的性能都较差。这有两个原因。首先，IMU标签加剧了数据集的类别不平衡。在训练图像中，有6,773个F，4,258个S，111个L和94个R标签。严重不平衡的数据导致模型总是预测F和S。其次，单个标签是具有误导性的。驾驶员选择F并不意味着选择L或R是不可能的。因此，IMU标签不是可能动作的真实标签，它们主要反映了驾驶员的意图。从F标签中可以得出的唯一结论是驾驶员希望继续向前行驶。0并不是F是唯一可能的动作，而是没有被迫停下来。再次强调，由于驾驶员通常更频繁地选择F和S而不是L或R，模型被鼓励总是预测F或S。总结一下，IMU标签鼓励不知道何时可以转弯的自动驾驶车辆。多个动作预测的引入大大增加了每个类别的示例数量，缓解了数据不平衡问题，并创建了更多具有转弯标签的场景示例，从而缓解了转弯回避问题。05.6. 定性结果0最后，我们在图4中展示了一些定性结果。在大多数情况下，网络能够正确预测动作。在第二张图片中有一个错误，将左转错误地预测为可能。这可能是因为在十字路口中间很难推断出左转还是右转。可以肯定的是，网络能够成功地选择少数导致动作的对象，包括小型交通标志、灯光或道路边上的障碍物，同时忽略许多其他不导致动作的对象。这与[5]的方法不同，后者的选择器无法捕捉到大多数导致动作的对象，导致解释预测中出现更多错误。06. 结论0在这项工作中，我们提出了自动驾驶中对象诱导的动作和解释预测的问题。为此任务引入了一个数据集，并提出了一种新的架构来解决这个问题。这个新任务对计算机视觉来说是一个有趣的挑战，因为它需要考虑场景上下文的对象推理。目标不仅仅是检测对象，而是检测可能在自动驾驶环境中造成危险的对象，并为所有预测的动作提供解释。然而，由于所有解释都是基于诱导动作的对象，它们比在通用计算机视觉环境中更容易生成。实际上，它们可以简化为一种独热样式的预测，并且可以用分类技术来处理。由于这个原因，我们的实验证明，添加解释可以提高动作预测的准确性。我们相信这是第一个展示解释实际上有助于改善深度学习系统性能的研究。0致谢0这项工作部分由NSF资助，奖项为IIS-1637941，IIS-1924937，并获得了NVIDIA GPU捐赠。95310参考文献0[1] Jinkyu Kim和John Canny.可解释的自动驾驶汽车学习通过可视化因果关注。在《计算机视觉国际会议（ICCV）》论文集中，第2942-2950页，2017年。0[2] Huazhe Xu, Yang Gao, Fisher Yu和Trevor Darrell.从大规模视频数据集中端到端学习驾驶模型。在《计算机视觉与模式识别（CVPR）IEEE会议论文集》中，第2174-2182页，2017年。0[3] Jinkyu Kim, Anna Rohrbach, Trevor Darrell, JohnCanny和Zeynep Akata.自动驾驶车辆的文本解释。在《欧洲计算机视觉会议（ECCV）》论文集中，第563-578页，2018年。0[4] Dequan Wang, Coline Devin, Qi-Zhi Cai, PhilippKr¨ahenb¨uhl和Trevor Darrell.用于自动驾驶的单目平面视图网络。arXiv预印本arXiv:1905.06937，2019年。0[5] Dequan Wang, Coline Devin, Qi-Zhi Cai, FisherYu和Trevor Darrell.深度物体中心策略用于自动驾驶。在《机器人与自动化国际会议（ICRA）》中，第8853-8859页。IEEE，2019年。0[6] Thomas M Cover和Joy A Thomas.《信息论的要素》。John Wiley & Sons出版社，2012年。0[7] Jason Ku, Alex D Pon和Steven L Waslander.单目三维物体检测利用准确的提议和形状重建。在《计算机视觉与模式识别（CVPR）IEEE会议论文集》中，第11867-11876页，2019年。0[8] Peiliang Li, Xiaozhi Chen和Shaojie Shen.基于立体R-CNN的自动驾驶三维物体检测。在《计算机视觉与模式识别（CVPR）IEEE会议论文集》中，第7644-7652页，2019年。0[9] Gregory P Meyer, Ankit Laddha, Eric Kee, CarlosVallespi-Gonzalez和Carl K Wellington.Lasernet：一种高效的概率三维物体检测器用于自动驾驶。在《计算机视觉与模式识别（CVPR）IEEE会议论文集》中，第12677-12686页，2019年。0[10] Yan Wang, Wei-Lun Chao, Divyansh Garg, BharathHariharan, Mark Campbell和Kilian Q Weinberger.从视觉深度估计中的伪LiDAR：弥合自动驾驶中的3D物体检测差距。在《计算机视觉与模式识别（CVPR）IEEE会议论文集》中，第8445-8453页，2019年。0[11] Yanwei Li, Xin

下载后可阅读完整内容，剩余1页未读，立即下载