没有合适的资源?快使用搜索试试~ 我知道了~
深度逆强化学习中最大熵方法预测驾驶员注意力
13178MEDIRL:通过最大熵深度逆强化学习Sonia Baee1,Erfan Pakdamanian1,Inki Kim2,Lu Feng1,Vicente Ordonez3,LauraBarnes11弗吉尼亚大学2伊利诺伊大学香槟分校3莱斯大学sb5ce@virginia.edu,inkikim@illinois.edu,ep2ca@virginia.eduLu. virginia.edu,vicenteor@rice.edulb3dp@virginia.edu摘要受人类视觉注意力的启发,我们提出了一种新的逆强 化 学 习 公 式 , 使 用 最 大 熵 深 度 逆 强 化 学 习(MEDIRL)来预测事故多发情况下驾驶员的视觉注意力。MEDIRL通过从注意力驱动器记录的眼睛注视模式学习任务敏感的回报函数来预测导致最大回报的注视位置。此外,我们还介绍了EyeCar,这是一个新的驾驶员注意力数据集,适用于事故多发的情况。我们进行全面的实验,以评估我们提出的模型在三个共同的基准:(DR(eye)VE,BDD-A,DADA-2000)和我们的EyeCar数据集。结果表明,MEDIRL优于现有的模型预测的注意力,并达到国家的最先进的性能。我们提出了广泛的消融研究,以提供更多的洞察到我们提出的模型的不同功能。11. 介绍近年来,自动驾驶车辆已经取得了显著的进步这些车辆保证了更好的安全性和自由,从长期和单调的驾驶任务。然而,集成到这些车辆中的基于视觉的模型的剩余安全挑战之一是如何快速识别重要的视觉线索并在紧急情况下理解交通环境中涉及的风险[51]。人类具有令人难以置信的视觉注意力能力,可以快速检测最相关的刺激,将注意力引导到复杂情况下的潜在危险[43],并仅选择感知信息的相关部分进行更深入的处理[53]。人类能够通过自下而上(刺激驱动,例如,颜色和强度)和自顶向下(任务驱动,例如,当前目标或意图)机制[13,27]。1代码和数据集在github.com/soniabaee/MEDIRL-EyeCar中提供以供重现。图1:给定驾驶视频和相应的眼睛注视作为输入,MEDIRL学习将注视选择建模为状态和动作序列(St,At)。MEDIRL然后通过感知地解析场景以提取丰富的视觉信息(环境)并通过注视(状态)累积视觉线索序列来预测最大回报的注视位置。在特定任务活动期间,人类的目标导向行为及其潜在的基于目标的选择性注意力使驾驶员能够忽略其视野中与其决策无关的物体和不必要的细节[7,8]。例如,在某个时刻,驾驶员的目标可能是发起超车动作,因此附近的车辆成为目标对象。 随后,驾驶员可能需要突然停车以避免事故,从而前方汽车的刹车灯成为目标对象。尽管最近在自主系统的计算机视觉模型方面取得了进展[28,63],但它们仍然落后于人类的中央凹视觉能力[42,61,69]。逆强化学习(IRL)算法能够通过学习模仿由专家产生的有效注意分配来解决这个问题,即,一个细心的司机[41]。重要的是,自主车辆利用人类视觉注意机制来改善其性能,特别是在可能遇到罕见事件的关键情况下更好的安全性在本文中,我们引入了最大熵深度逆学习(MEDIRL)来学习特定于任务的视觉13179注意力策略,以可靠地预测即将发生的追尾碰撞中的注意力。自下而上显著性模型中的先前努力通常优先考虑像素位置(例如,自由观看固定)[31,44,49]。这些模型不能完全捕获目标导向行为中的驾驶员注意力[15,61,61,32]。此外,基于视频的显著性模型通常在每个帧中聚合由显著性图引导的空间特征[57,26,25,64]。然而,这些注视预测模型中的大多数利用特定的信息源[61,45,17],并且没有考虑联合处理空间和时间信息[57,25]。在这项工作中,我们的目标是预测眼睛的固定模式之前,关键的情况下,这些模式可以是空间(固定地图)或时空(固定序列)的功能。反向强化学习(IRL)是模仿学习的一种高级形式[74,60],它使学习代理能够从专家演示中获得技能[52]。我们提出的MEDIRL模型通过将每个注视视为潜在的奖励来源来学习眼睛注视序列我们利用集体视觉信息,这些信息被认为与先前作品中的视频显着性相关[39,44,9]。例如,如果自主系统试图在即将发生的追尾碰撞之前定位驾驶场景的突出区域,则可以通过研究有效检测制动灯的驾驶员的注意力来展示期望的视觉行为以这种方式,学习代理可以推断解释专家行为的奖励函数,并相应地优化其自身的行为。为此,我们提出的模型预测驾驶员的注意力,其中固定模式表示为状态-动作对。给定与眼睛注视配对的视频帧输入,MEDIRL通过感知地解析场景以提取丰富的视觉信息(环境)并通过注视(状态)累积视觉线索序列来预测最大回报的注视位置(动作)(参见图1)。此外,我们引入了EyeCar,一个新的驾驶员注意力数据集在事故多发的情况下。EyeCar对于训练目标导向注意力模型是必不可少的,因为它是在高交通密度的环境中在事故发生前捕获注意力的唯一数据集。我们在三个常见基准点(DR(眼睛)VE [45],BDD-A[62],DADA-2000 [17])以 及我 们自 己的 EyeCar数 据集 。实 验结 果表 明 ,MEDIRL优于国家的最先进的模型对驾驶员的注意力预测。我们还进行了广泛的消融研究,以确定哪些输入功能是最重要的关键情况下的驾驶员注意力预测。我们的贡献可归纳如下:• 我们提出了MEDIRL,一种新的IRL公式预测驾驶员的视觉注意力在事故多发的sizations。MEDIRL使用最大熵深度反向强化学习来最大限度地预测奖励固定位置。• 我们介绍了EyeCar,一个新的驾驶员注意力数据集组成的追尾碰撞视频的目标导向的注意力问题,在关键的驾驶情况。• 对三个驾驶员注意力基准数据集进行了广泛的实验 评 估 : DR ( eye ) VE [45] 、 BDD-A [62] 、DADA-2000 [17]和EyeCar。结果表明,MEDIRL优于现有的注意力预测模型,并实现了最先进的性能。此外,我们目前的消融研究显示目标(刹车灯),非目标(上下文),和驾驶任务是重要的预测驾驶员的注意力。2. 相关工作我们的工作与先前在固定预测模型上的努力广泛相关,使用反向强化学习进行视觉任务,以及驾驶任务的先前数据集。固定预测。随着对大规模注释注意力数据集和高级数据驱动机器学习技术的访问增加,人类显着性的预测在计算机视觉中受到了极大的关注[59,56,31,73,11,39]。 大量的前期研究-研究人员探索了自下而上的显着性模型和静态刺激的视觉搜索策略[16,34,22,18,4,67],以及视频[73,58,38,39,68,9]。通常,这些模型的输出是示出眼睛注视分布的概率的注意力图。与这种方法相比,较少的作品探索了自上而下的注意力模型来解释眼球运动的序列[48,5,3]。最近,一些作品探索了驾驶背景下的视觉注意力模型[23,61,19]。由于特定于任务的指令可能会改变凝视分布[47],因此一些模型通常会在自由观看任务中检测图像或视频的显著区域。先前的研究还研究了与特定任务活动相关的眼球运动模式[38,1]。其中一些作品依赖于眼球运动和任务需求之间的直接联系[65,50,48]。这些先前提出的注意力模型主要是在静态图像观看场景上训练的,而人类注意力通常以顺序的方式获得信息。此外,最近的视频显着性工作已经提出了使用深度学习进行注意力预测的联合自下而上和自上而下机制[45,62,17,29,44]。然而,他们没有考虑联合处理空间和时间信息。我们感兴趣的是在特定于任务的驾驶活动中检测场景的显著区域,其中估计驾驶员正在动态地看哪里,并且可靠地检测任务相关对象(目标对象)。反向强化学习。我们的方法建立在对人类视觉注意力建模的基础上,其固定是智能体检测显著区域的顺序决策过程[37,70,35]。Yang等人 [65]最近提出的工作与我们的13180E∈Rt=1数据集碰撞碰撞视点速度GPS车辆数量#帧#凝视DR(眼)Ve✗✗✓✓1.0555k8BDD-A✗✗✓✗4.4318K45DADA-2000✓✗✗✗2.1658k20EyeCar✓✓✓✓4.6315k20表1:与之前的数据集相比,EyeCar是唯一从视点(POV)角度捕获碰撞的数据集,并且主车辆参与碰撞。先前的数据集要么没有从碰撞的角度捕获注意力注意,#车辆是指每帧的平均车辆数静态图像的视觉搜索任务中的视觉注意模型。我们进一步解决视频显着性预测在一个动态和复杂的驾驶环境。我们的模型也不需要预先定义一组目标,而是解析每个驱动视频帧,以提取丰富的场景上下文和候选目标对象。接下来,它将视觉提示与驾驶员然后,它恢复了内在的特定于任务的奖励函数[72],这些奖励函数由驾驶环境中的驾驶员记录的视觉注意力分配策略引起为此,我们建议使用最大熵深度IRL [74],它可以处理原始图像输入,并使模型能够处理驱动程序的通常次优和看似随机的行为[60]。驾驶注意力数据集。已经提出了几个驾驶行为数据集[10,63,46]。 然而,只有少数大规模的,公开可用的,现实世界的视频数据集与注释的视觉注意力存在于驾驶环境中。DR(眼睛)VE [45]和BDD-A [62]分别是自然和实验室驾驶环境中最知名的大规模注释数据集。重要的是,最近发布的带有实验室设置的注释驾驶注意力数据集DADA-2000 [17]是唯一可用的图2:状态表示的为了模拟人的中央凹,代理接收高分辨率的信息周围的出席的位置,和低分辨率的信息以外的这个模拟的中央凹。在每个固定点处,通过应用Eq. 3.2.3.1. 概述和准备工作在本节中,我们将介绍我们的符号,并描述我们提出的模型中使用的功能。视觉信息。在动态和复杂场景中的注意力分配期间,相关锚点因此,我们需要对给定视频的每个帧进行编码以提取代理需要的目标和非目标特征,以便有效地选择下一个固定位置。接下来,我们将详细描述如何完成此编码(参见图1)。2)的情况。算法1中还概述了视觉编码器功能的概述。给定一族驱动视频帧输入,I=捕捉碰撞场景的数据集这是因为它.IΣT,其中T是帧的数量。 我们提取vi-几乎不可能为碰撞或接近碰撞事件收集足够的驾驶员注意力数据。EyeCar进一步为这一领域做出贡献,除了向前看和车道保持之外,还提供了更多样化的驾驶活动。与DADA-2000不同,EyeCar从碰撞点(POV)角度(自我中心)捕获碰撞,其中自我车辆参与事故。表1将EyeCar与类似的数据集进行了比较(更多详细信息请参见4).3. 方法我们提出MEDIRL预测驾驶员的视觉注意力,在事故多发的情况下,从驾驶视频与他们的眼睛固定配对。MEDIRL从演示的注意力行为中学习视觉注意力策略。我们制定的问题作为学习的政策功能,模型的眼睛固定作为一个由代理人作出的决定序列。在给定当前代理状态和当前观察到的世界配置(即,场景上下文)。在保持相关的空间信息的同时,以有区别的方式来识别视觉信息每个帧具有顺序处理的若干固定位置在每一步中,我们从当前输入帧中提取视觉特征为了很好地表示输入到代理的给定视频帧,我们考虑像素级和实例级表示(参见图1)。像素级表示通过强调理解其全局属性来确定整体场景类别实例级表示标识整个场景的各个组成部分以及它们在更局部的实例级上的相互关系对于像素级表示,我们从给定视频帧(例如,汽车、树木)。特征提取器的输出是张量Xth×w×d,其中h、w和d分别是高度、宽度和通道 在实例级,我们表示边界框或实例掩码以在实例上显式地推理(例如,引导车辆)而不是对所有对象表示进行推理。我们利用位置敏感的ROI平均池化层[64]以提取每个框的区域特征Yt为了提取与驾驶任务相关的特征,我们还包括:不13181×个×个×个K在我们的视觉表示中沿着引导车辆特征使道路车道侧边。道路车道(Gt)对于驾驶员的任务相关视觉注意力至关重要,因为它们是机动类型的重要指标[14]。为了放大对目标对象的像素的预测注意力,我们检测在追尾碰撞中重要的领头车辆(Mt)[36]。引导车辆是可以将驾驶员注意力引导到目标对象的关键锚定对象即刹车灯。我们将每个帧离散化为n m网格,其中每个补丁与领先车辆边界框的最小(最远)尺寸相匹配(参见图1)。2)的情况。此外,我们提取的刹车灯的像素位置,通过第一转换,verting每帧的HSV颜色空间,然后使用位置敏感的ROI最大池化层提取区域特征的铅车辆框(Ut)。框及其各自的特征被视为一组对象。相对距离驾驶员更关注相对较近的物体而不是距离较远的物体,因为前一种情况下碰撞的机会明显更高。因此,物体和自我车辆之间的相对距离对于做出最佳驾驶决策至关重要[44]。为了放大驾驶场景的附近区域,我们使用密集深度图(Dt)并将其与一般深度图相通过使用以下公式计算视觉特征(YtZt= YtDt= Yt⊙ λ * Dt+ Yt,λ = 1。2其中λ是放大因子驾驶任务。为了发现所观察到的环境的哪些特征是最相关的驾驶任务,我们需要确定驾驶任务的类型(Qt)。我们在所有视频中观察到三个以追尾事故结束的驾驶任务:车道保持、并线和制动。我们使用函数ftask通过两个标准来定义这些驱动任务:1) 自我车辆做出车道变换决定c,以及2)在给定的驾驶视频中存在交通信号I信号眼睛注视点,以预测注视。因此,主体的状态由通过朝向目标对象的注视而累积的视觉信息的序列确定(即,刹车灯),我们称之为中心凹帧,图1示出了中心凹帧的示例。代理的动作,下一个固定位置,取决于当时的状态。智能体的目标是通过固定位置的变化来封装注意力驱动者(专家)的预期行为,从而最大化内部奖励MEDIRL采用IRL从演示集合中恢复该奖励函数(R)。国家代表:MEDIRL在状态表示中考虑以下组件:模拟人类视觉系统、收集空间线索的上下文、以及对状态动态进行建模。参见用于描述状态表示的概述的算法1。人类视觉系统(中央凹):人类视觉系统通过关注视野内的特定位置来累积信息。因此,人类选择性地注视新的位置以做出最佳决策。这意味着高分辨率视觉信息仅在中心注视位置处可用,并且注意位置之外的视觉输入我们通过捕获关于当前注视位置和大小为12 17(约1◦视角)的周围贴片的高分辨率信息以及模拟中心凹外部的低分辨率信息来模拟人类中心凹[69]。为了有效地制定该系统,MEDIRL使用来自视频的原始帧的局部补丁作为高分辨率中央凹输入,并且使用帧的模糊版本来近似来自外围视觉的低分辨率输入L[71]。我们通过应用具有标准偏差σ=2d的高斯平滑来获得模糊帧,其中d等于当前注视lane-keeping,如果c=0,则I信号= 0点p,k,t,其中k= 0,…,和帧的大小。注意,注视次数K从帧到帧变化驾驶任务=合并,如果c= 1,则I信号= 0或1braking,ifc=0,Isignal=1frame.空间线索:驾驶任务和场景中与驾驶相关的物体可能会直接引导驾驶员的注意力车辆状态。我们可以选择性地将自我车辆vt,其可以影响注视选择[66,45,44],具有提取的视觉表示、相对距离和驾驶任务。3.2. MEDIRL注意力集中的驾驶员主要关注场景中与任务相关的MEDIRL试图通过在状态表示中使用通过解析驾驶场景提取的集体非目标和目标特征来模仿这种行为。随后,它将状态表示中的更改与注意力集中在主要目标物体上。例如,驾驶员在刹车时考虑到与前车的距离。为了近似注视的这种引导选择,MEDIRL在状态表示中包括视觉信息。这种状态表示收集非目标和目标特征,可以创建可能影响驾驶员注视选择的空间和时间线索的上下文状态的动态性:为了对每次固定之后的状态表示的改变进行建模,我们提出了动态状态模型。首先,状态是对应于外围视觉输入的低分辨率帧。在驱动程序进行每次固定之后,我们通过将低分辨率特征的一部分替换为13182×个K∈⊙K}∫{Σ联系我们不算法1MEDIRL状态表示1:函数VISUALENCODER(视频帧I)第二章:X:=HRnet(I)▷全局特征Q:=f任务(c,I信号)14:函数BLUR(帧I,固定k)十五:d =欧几里德(k,大小⑴)十六:I’=GaussianBlur(I,σ),σ= 2d▷ 应 用 高 斯 平 滑17:return I' ▷返回低分辨率帧18:程序STATE DYNAMICS(帧I t,固定)19:对于kK哆哆20:#基于模拟的中央凹运动收集空间线索的上下文21:Ht:= VisualEncoder(It)22:Lk,t:= VisualEncoder(blur(It,k))23:#更新每次固定之后发生的状态24:O0,1=L0,1▷初始化与周边视觉对应的帧25:#Ek,t是从第k次固定生成的圆形掩码26:Ok+1,t=Ek,t⊙Ht+(1− Ek,t)⊙Ok,t在每个新的固定位置获得的相应的高分辨率部分(见图1)。2)的情况。在给定的时间步长t,原始帧(高分辨率)的特征图H和模糊帧(低分辨率)的特征图L如下组合:O0, 1=L 0, 1,Ok +1,t=Ek,t⊙Ht+(1−Ek,t)⊙Ok,t,其中是元素级乘积。〇k,t是k个注视之后的空间线索Ek,t是从第k次固定生成的圆形掩码(即, 它是二进制映射,在当前注视位置处为1,在离散帧中其它位置处为0)。 为了联合地聚合所有时间信息,我们通过如下考虑前一帧中的空间线索的所有上下文来更新下一帧:Ok,t+1=E k,t+1⊙H t+1+(1−E k,t+1)⊙O K,t,其中Ok,t是时间步长t(前一帧)的所有注视之后的视觉信息。驾驶员在执行驾驶任务时具有各种视觉行为,并且许多因素(例如,驾驶员的视觉行为)影响驾驶员的视觉行为。速度)可能会影响所选择的固定策略[66,45,44]。为了有效地预测所有驾驶员的注视,我们通过用编码驾驶任务Qt的高维潜在空间聚合它来增强状态。然后添加另一个全连接层为了编码自我车辆的当前速度Vt和con,将状态与速度矢量连锁。在每一个时间步的视觉信息和自我车辆状态,我们融合成一个单一的状态。在这个意义上,代理人的状态是完整的,它包含所有自下而上,自上而下和历史信息(这些组件的更多细节可以在补充材料中找到)。行动空间:在此,我们旨在预测驾驶员的下一个眼睛注视位置。因此,该策略在给定的离散化框架中从n*m个补丁中中心帧中所选补片的最大值是新的固定。最后,当前注视和所选注视的变化(Δx,Δy)限定动作空间Δt:左、右、上、下、向内聚焦、向外聚焦、停留,如图1所示,其具有三个自由度(垂直、水平、对角)。奖励及政策:为了学习追尾碰撞中驾驶员视觉注意力的奖励函数和策略,我们使用最大熵深度逆强化学习[60]。MEDIRL假设奖励是状态和动作的函数,并且可以使用模仿策略来联合学习该奖励函数。IRL的主要目标是从一组证明S =ξ1,ξ2,…,ξq,其中ξq=(si,ai),…(sτ,aτ)。我们使用最大熵深度IRL,它将轨迹建模为与其指数回报成比例分布:p(ξ)=(1/Z)exp(R(ξ)),其中Z是配分函数,Z=ξexp(R(ξ))dξ。为了近似奖励函数,我们假设它可以表示为R=ωT,其中ω是权重向量,是特征向量。这样的表示被约束为相对于输入特征是线性的。为了学习A在具有较少约束的奖励函数中,我们使用深度学习技术来确定Φ(,θ),这是一个潜在的更高维特征空间,并将奖励函数近似为R=ωTΦ(,θ)(s,a)。注意,ω的权重向量和参数向量θ都与通过联合训练不同类别的驾驶任务而微调的网络相关联损失函数:为了学习注意力策略,MEDIRL在给定的奖励结构和模型参数θ下最大化注视选择演示的联合后验分布。对于单个帧和给定的固定序列ξ,长度为|τ|,可能性为:Lθ=(1/S)logP(ξi,θ),ξi∈Ξ其中P(ξi,θ)是演示Ξ中的轨迹ξ i的概率。该算法试图选择一个奖励函数,该函数引入一个注意力策略,该注意力策略在所有状态-动作轨迹上具有最大熵分布,并且来自驾驶员状态-动作对的经验Kullback-Leibler散度(KLD)最小。在最大熵深度IRL算法的每次迭代(q)中,我们首先基于状态特征和当前奖励网络参数(θq)来评估奖励值。然后,我们基于奖励的当前近似(Rq)和转移矩阵(即,所采取的动作的结果状态空间)。 我们受益于最大熵范式,它使模型能够处理次优和随机视觉第三章:O:=mask-rcnn(I)▷检测对象列表第四章:Y:=ROI-平均值(0,X)▷提取区域特征第五章:G,c =VPG-净(I)▷检测道路车道和车道变更第六章:M,I信号:=mask-rcnn(Y)▷检测引导车辆和交通信号13183≥联系我们数据任务方法并入车道保持制动CC↑s-AUC↑KLD↓CC↑s-AUC↑KLD↓CC↑s-AUC↑KLD↓DR(眼)VE [45]多分支机构[45]0.48-2.800.55-1.870.71-2.20HWS [62]0.51-2.120.75-1.720.74-1.99SAM-ResNet [1]0.78-2.010.80-1.800.79-1.89SAM-VGG [1]0.78-2.050.82-1.840.80-1.81TASED-NET [39]0.68-1.890.73-1.710.70-1.89MEDIRL(我们的)0.78-0.880.89-0.750.85-0.82BDD-A [62]多分支机构[45]0.580.512.080.750.722.000.690.772.04HWS [62]0.530.591.950.670.891.520.690.811.59SAM-ResNet [1]0.740.612.000.890.791.830.850.881.89SAM-VGG [1]0.760.621.790.890.821.640.860.871.85TASED-NET [39]0.730.681.830.810.661.170.870.881.12MEDIRL(我们的)0.820.790.910.940.910.850.930.920.89DADA-2000 [1]多分支机构[45]0.440.533.650.690.542.850.670.642.91HWS [62]0.490.593.020.720.532.650.690.772.80SAM-ResNet [1]0.650.612.390.780.642.320.750.812.34SAM-VGG [1]0.680.602.410.760.622.240.750.802.35TASED-NET [39]0.690.661.980.780.691.870.800.811.45MEDIRL(我们的)0.700.681.310.890.710.920.810.880.99表2:驾驶员注意力预测在基准上的性能比较模型在BDD-A [62]训练集上训练,并在Dr(eye)VE [45],BDD-A[62]和DADA-2000 [17]测试集上测试。驾驶员的行为,通过对可能轨迹上的分布进行操作[74,60]。4. EyeCar数据集正常情况下的注意力丧失(例如,车道跟随,空的道路)的成本与易发生事故的情况(例如,追尾碰撞),其中犯错误的成本很高。然而,在事故多发的情况下,从驾驶员那里收集足够的眼球运动几乎是不可能的,因为它们是相当罕见的。 此外,在车内收集的驾驶员注意力数据有两个主要缺点[62,61]:1)内隐注意缺失:眼动追踪器只能记录驾驶员的一个焦点,而驾驶员可能会注意到多个重要物体,并且2) 假阳性凝视:驾驶员可能被潜在的干扰分散注意力(例如,路边广告),这些广告与驾驶无关。先前的工作[62,61]通过实验室数据收集解决了这些问题,在执行模拟驾驶任务时收集驾驶员尽管实验室内驾驶员注意力收集不可避免地不同于车内驾驶员注意力,但BDD-A实验室内实验方案表明,实验室内视觉注意力数据可靠地揭示了驾驶员应该看哪里并识别潜在风险。因此,我们遵循他们建立和标准化的实验设计协议来收集实验室内驾驶员的注意力,并创建专门用于追尾碰撞的EyeCar数据集。为了激励用户关注并在自动驾驶汽车中发挥后备准备作用,我们进一步修改了实验设计,让他们坐在低保真驾驶模拟器中。模拟器由Logitech G29方向盘、加速器、制动踏板和眼动仪组成(参见补充-详细资料)。我们招募了20名参与者(5名女性和15名男性,年龄22-39岁),至少有三年的驾驶经验(平均值=9.7,SD=5.8)。参与者观看了所有21个选定的仪表盘摄像头视频(每个持续约30秒),以识别追尾碰撞中的危险线索。EyeCar数据集包含从超过315,000个追尾碰撞视频帧中捕获的3.5小时凝视行为(聚合每个帧平均包括4.6辆车,这使得EyeCar驾驶场景比其他视觉注意力数据集更复杂从每个帧提取的速度显示38%的车辆高速行驶(65v),39%正常(35v65),和23%低(35V)。EyeCar还提供了一组丰富的注释(例如,场景标记、对象边界、车道标记等;补充材料中的更多细节)。5. 实验培训详情。驾驶员的注意力通常强烈偏向道路的消失点,并且在正常驾驶情况下不会定期改变[62,44]。然而,细心的司机经常将注意力从道路中心转移到容易发生事故的情况下捕捉重要线索。MEDIRL旨在预测驾驶员在关键情况下的注意力。因此,为了学习驾驶任务特定的定位并避免我们的模型中的强烈中心偏差,在对训练帧进行采样时施加了两个标准:1)在重要帧上训练,2)排除驾驶无关的物体注视序列。由于驾驶员必须注意(注视)通常出现在关键地点的重要视觉线索,因此重要帧被定义为其中注意力图大大偏离平均注意力图的帧。我们使用KLD来衡量13184×个×个×个数据任务方法并入车道保持制动CC↑s-AUC↑KLD↓CC↑s-AUC↑KLD↓CC↑s-AUC↑KLD↓DR(眼)VE [45]多分支机构[45]0.360.376.460.510.494.800.690.493.38HWS [62]0.380.344.380.710.514.440.720.613.30SAM-ResNet [1]0.490.484.290.730.553.900.740.663.27SAM-VGG [1]0.500.474.310.740.533.950.750.643.29TASED-NET [39]0.480.463.950.740.553.810.760.653.23MEDIRL(我们的)0.510.512.320.760.573.110.790.693.07BDD-A [62]多分支机构[45]0.460.484.420.510.613.570.610.643.08HWS [62]0.410.474.360.690.813.550.670.682.86SAM-ResNet [1]0.550.483.850.850.723.290.790.742.46SAM-VGG [1]0.530.493.920.840.703.220.770.702.49TASED-NET [39]0.550.493.780.840.713.120.770.762.47MEDIRL(我们的)0.580.492.810.860.732.430.790.812.30DADA-2000 [1]多分支机构[45]0.210.386.460.450.444.670.540.593.12HWS [62]0.310.356.120.510.474.540.670.713.10SAM-ResNet [1]0.330.385.280.650.564.420.770.713.07SAM-VGG [1]0.300.395.350.690.574.310.740.693.10TASED-NET [39]0.320.384.760.680.573.990.730.743.01MEDIRL(我们的)0.410.453.790.730.602.510.750.792.51表3:EyeCar上的驾驶员注意力预测的性能比较。模型在Dr(eye)VE [45]、BDD-A [62]和DADA-2000 [17]火车组上训练并在EyeCar上测试。每个视频帧上的注意力和整个视频的平均注意力图。通过聚合和平滑所有独立观察者的注视模式来计算每帧的平均注意力图[12]。然后,我们对六个帧的连续序列进行采样作为训练帧,其中它们的KLD至少为0.89。我们还排除了在不相关对象上具有超过40%的焦点的注视序列(例如,树、广告)。数据集。我们在三个驾驶员注意力基准数据集上评估我 们 的 模 型 : DR ( eye ) VE [45] 、 BDD-A [62] 、DADA-2000 [17]和EyeCar。为了预测与追尾碰撞相关的驾驶员注意力,我们从DR(眼)VE和DR(眼)VE中提取完全停止事件(类似于接近碰撞)。BDD-A和DADA-200的追尾事件。在应用排除标准后,我们在DR(眼)VE、BDD-A和DADA-200中分别留下400、1350和534个事件。最后,在每种类型的驾驶任务中,我们将它们随机分为三组:70%培训,10%验证,20%测试。5.1. 实现细节我们将每个视频帧输入调整为144 256。 然后,我们通过从原始像素中减去全局平均值并除以全局标准偏差来规范化每个帧。对视觉信息进行编码(参见第3),我们使用几个骨干:HRNetV 2 [55]-在MapillaryVistas街景场景[40]上预训练,MaskTrack-RCNN [64]-在youtube-VIS上预训练,Monodepth 2 [21]-在KITTI2015 [20]上预训练,以及VPGNet [33]-在VPGNet数据集上预训练。MEDIRL由四个隐藏卷积层组成,分别具有52、34、20和20个ReLu单元;随后是七个softmax单元以输出最终的概率图。我们图3:对于每个比较模型和MEDIRL,在制动任务中预测 的 驾 驶 员 注 意 力 。 他 们 都 接 受 过 BDD-A 训 练MEDIRL可以学习检测大多数任务相关的显著刺激(例如,交通灯、刹车灯)。较红的颜色表示对注视位置的较高奖励的期望补充材料中的更多示例。在ReLu激活后使用批量标准化,并将奖励折扣因子设置为0.98。 我们还将初始学习率设置为1。5 10- 4,在前10个时期,我们将学习率线性增加到5 10- 4。在epoch 11之后,我们应用学习率衰减策略,每三个epoch将学习率乘以0.25。对于训练,我们使用Adam优化器[30](β1=. 9,β2=. 99)和权重衰减= 0。总的来说,MEDIRL在36个时期上训练,批次大小为20个序列,每个序列有六个帧。MEDIRL的训练时间在单个NVIDIA Tesla V100 GPU上大约为1.5小时,处理每帧大约需要0.08秒。评估指标。为了评估注意力预测,我们13185数据集MEDIRL的消融版本EyeCarBDD-A [62]CC↑KLD↓Fβ↑CC↑KLD↓Fβ↑1全局图像+IRL0.184.210.100.224.380.122非靶标+IRL0.194.150.120.204.290.123目标+非目标+IRL0.293.510.180.363.850.254目标+非目标+距离+IRL0.303.620.190.383.770.275前车+车道+IRL0.303.570.230.293.510.286目标+非目标+车道+引导车辆+IRL0.363.530.210.413.470.327目标+非目标+距离+车道+引导车辆+IRL0.333.430.260.353.070.348目标+非目标+距离+车道+驾驶任务+IRL0.513.410.310.572.180.599目标+非目标+距离+引导车辆+驾驶任务+IRL0.662.910.490.731.070.6610目标+非目标+距离+车道+引导车辆+驾驶任务+IRL0.702.780.600.870.870.7511MEDIRL:目标+非目标+距离+车道+引导车辆+驾驶任务+速度+IRL0.742.510.610.890.880.78表4:MEDIRL的消融版本和完整MEDIRL的定量评价。所有模型都在BDD-A训练集上训练,并在EyeCar和BDD-A测试集上测试。我们通过每次将映射设置为零来屏蔽一个部分。使用基于位置和基于分布的显著性度量:KLD、ROC曲线下面积(s-AUC)和相关系数(CC)[6]。我们报告s-AUC,因为它惩罚具有更中心预测的模型[5,6,19]。6. 结果表2提供了MEDIRL和五个基线注意力预测模型的定量 评 估 结 果 , 包 括 Multi-branch [45] , HWS [62] ,SAM-ResNet [11] , SAM-VGG [11] , TASED-NET[39]。为了公平比较,我们直接报告作者发布的可用结果,或通过公开的源代码复制实验结果。在这次评估中,我们在BDD-A上训练了模型,并在每个基准上进行了测试。结果表明,MEDIRL在所有评价指标下均优于几乎所有模型.最重要的是,我们的方法可以有效地预测驾驶员的注意力,同时执行各种驾驶任务。虽然我们不能计算Dr(眼)VE的s-AUC,因为未报告原始固定,但表2中的结果也表明MEDIRL的优越性此外,我们评估了MEDIRL以及表3中报告的EyeCar数据集上的其他注意力模型。在该实验中,我们在每个基准上训练模型(即,BDD-A、DR(eye)VE、DADA)并在EyeCar上测试。MEDIRL的性能优于其他竞争对手。然而,表2和表3之间存在很大的性能差距,这可能表明EyeCar具有不同的分布。为了研究这个问题,我们在EyeCar上训练了模型,并在每个基准上进行了测试。我们获得了以下结果;(CC:0. 89,KLD:0。80)、(CC:0。94,s-AUC:0。91,KLD:0。85),(CC:0.85,s-AUC:0。七十七KLD:0。99)在DR(眼)VE、BDD-A和DADA-2000上,重新它们分别是所有类型驾驶任务的平均值。这些结果显示了EyeCar在关键情况下表示显著区域的有效性,并且还显示了在事故多发情况之前的EyeCar注意力分布比基准更具信息性。图3示出了MEDIRL与其他模型的定性比较MEDIRL可以可靠地捕捉制动任务中的重要视觉线索,在复杂的情况下frame.相比之下,几乎所有其他模型部分地捕获空间线索并且预测主要朝向帧的中心的注意力,从而忽略目标和非目标对象(即,空间线索)。更多示例请参考补充材料。6.1. 消融研究为了研究我们的模型中的不同特征如何影响其性能,我们将我们的模型的几个消融版本EyeCar和BDD-A),使用Fβ(β2= 1 [44])、CC和KLD。我们模型的所有消融版本都在BDD-A上训练。结果表明,模型中的关键特征包括与目标和非目标相关的空间线索的上下文(L3),驾驶特定对象(行8,10),其次是驾驶任务(L9)特征。没有靶标(L2)和非靶标(L5)的MEDIRL显示出显著的性能下降。从表4中的结果,我们可以观察到,与消融版本相比,我们的完整模型实现了更好的性能,这证明了我们提出的模型中每个特征的必要性7. 结论我们提出了MEDIRL,一种新的反向强化学习公式,用于预测事故多发情况下的驾驶员注意力。MEDIRL有效地学习将注视选择建模为状态和动作的序列。MEDIRL通过感知地解析场景并通过注视累积视觉线索序列来预测最大回报的注视位置为了便于我们的研究,我们提供了一个新的驾驶员注意力数据集,包括追尾碰撞视频与丰富的注释眼睛信息。我们通过三个基准测试和EyeCar上的实验评估来研究注意力预测模型的有效性结果表明,MEDIRL优于现有的注意力预测模型,并达到了最先进的性能。致谢本工作部分得到了Leidos的捐赠、美国国家科学基金会(NSF)基金CCF-1942836和IIS-2045773的支持。13186引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集,第6077-6086页[2]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功