没有合适的资源?快使用搜索试试~ 我知道了~
AGIL:从人类学习注意力用于视觉运动任务张若涵1[0000−0001−6681−3360],刘卓德2,张鲁新3,杰克A.作者声明:John S.第四章玛丽·M.Hayhoe4和Dana H.巴拉德11美国德克萨斯大学奥斯汀分校计算机科学系@ utexas.edu2谷歌公司,山景城,美国zhuodel@google.com3北京大学智能科学系,北京,中国zhangluxin@pku.edu.cn4美国德克萨斯大学奥斯汀分校知觉系统中心{jake.whritner,karl.muller,hayhoe}@ utexas.edu抽象。当智能代理从人类演示中学习视觉运动行为时,它们可以受益于知道人类在哪里分配视觉注意力,这可以从他们的凝视中推断 关于智能决策制定的大量信息通过人类注视分配来传达;因此,利用这样的信息具有改善注视特性的点。在此 基础上,提出了AGIL(Attention Guided ImitationLearning)框架。我们收集高质量的人类动作和凝视数据,同时在一个精心控制的实验环境中玩雅达利游戏。 使用这些数据,我们首先训练一个深度神经网络,它可以高精度地预测人类的注视位置和视觉注意力(注视网络),然后训练另一个网络来预测人类的行动(策略网络)。将从凝视网络学习到的注意力模型结合到策略网络中显著提高了动作预测准确性和任务性能。关键词:视觉注意·眼动追踪·模仿学习1介绍在视觉运动行为的端到端学习中,诸如模仿学习、强化学习(RL)或两者的组合等算法在视频游戏[28]、棋盘游戏[37,38]和机器人操纵任务[24,30]中取得了显著的成功单独使用RL的一个主要问题是其样本效率,因此在实践中,可以使用人类演示来加速学习[37,6,15]。模仿学习或从演示中学习遵循学生-教师范式,其中学习代理从人类的演示中学习2R. Zhang等人教师[1]。一种流行的方法是行为克隆,即,用监督学习方法训练代理来预测(模仿)所展示的行为。模拟学习研究主要关注在这项工作中,我们认为,理解和建模的人类教师也是一个重要的研究问题,在这种范式。具体地,在学习算法中,人类注意力的一个关键组成部分--视觉注意力机制-建模人类视觉注意力和指导学习代理与学习注意力模型可以导致显着改善任务性能。我们提出了注意力引导模仿学习(AGIL)框架,在该框架中,学习代理首先从人类凝视数据中学习视觉注意力模型,然后从人类决策数据中学习如何执行视觉运动任务。其动机是,对于决策状态通常在原始像素空间中的深度模仿学习任务,注意力的引入可以帮助解决两个问题:1. 人类具 有 单 一 的 问 题 或 系 统 , 该 问 题 与 机 器 不 同 , 并 且 这导 致 不同 的 感 知 决策 状 态 。2. 这些系统或系统的特征导致学习代理还不可用的机器人和机器人智能机制。在没有这些机制的情况下,代理很难推断出哪些视觉特征正在被关注并且与高维特征空间中的给定时刻的决策相关为了详细说明第一点,人类在视野的中心1-2视觉度中具有高敏锐度中央凹视觉(即,在臂长处覆盖手指的宽度这导致了人类和机器的感知状态的差异,其中机器感知到如图1所示的全分辨率图像1a而一个人会看到图。 1b如果所述存储单元是6 4。6×40管理并将其发送到所述子节点78。7cm. 与全分辨率相机相比,中央凹视觉系统似乎较差,但它导致了人类智能的一个突出特性:视觉注意力,这可以被看作是一种特征选择机制。人类设法在正确的时间将他们的中央凹移动到正确的位置,以强调重要的任务相关特征[8,36]。通过这种方式,大量的信息被编码在人类的注视行为中,例如,在执行某个动作时,一个物体相对于另一个物体考虑到人类凝视中编码的丰富信息,我们假设一种有前途的方法来加强模仿学习算法是通过凝视来模拟人类视觉注意力,并随后在决策学习过程中包括这样的模型。这样做将允许学习代理使用凝视信息来帮助破译由人类教师使用的内部状态表示。通过提取对任务最重要的特征,学习可以被更广泛地理解并减少人力资源的使用。注意引导模仿学习3(a)(b)第(1)款图 1 : Atari Seaquest 的 原 始 游 戏 帧 , 其 中 红 色 圆 圈 指 示 注 视 位 置(a)。注视位置用于生成中央凹图像(b),其是视觉刺激(如由人类感知的刺激)的生物学上合理的视网膜表示。我们首先提取训练所需的大量高质量训练数据。借助现代高速眼动仪,我们收集人类玩游戏的数据和各种Atari游戏的凝视数据。我们首先训练一个可以预测人类注视位置和视觉注意力的深度神经网络(注视网络)。其次,我们训练了另一个由视觉注意力信息引导的深度神经最后,我们从行为匹配准确率和游戏性能两个方面对模仿学习的结果进行了评估。2相关工作造型视觉注意力:自下而上与自上而下计算机视觉中的先前工作已经将视觉注意力建模形式化为显著性预测问题,其中显著性源自图像统计,例如经典Itti-Koch模型中的强度、颜色和方向[17]。近年来,由于大型基准数据集和深度神经网络,这种方法取得了巨大进展[19,5,25,22,42,21]。 许多显著性数据集以“自由观看”的方式收集人眼跟踪数据,并将其作为自由观看[ 19]。与这种方法相反,自上而下的模型强调任务相关变量对视觉注意力的影响[12,39,33,2]。[36]已经表明变化的任务指令极大地改变了不同类别的对象上的注视分布(例如,任务无关的对象被忽略,即使它们从自下而上的角度来看是突出的)。[20]已经表明,在城市驾驶环境中,注意力转移可以通过改变不同任务的相对报酬和状态估计中的不确定性水平来准确预测。因此,自上而下的注意力模型与强化学习密切相关,因为它们都涉及对获得奖励最重要的视觉状态特征[12,23]。4R. Zhang等人不管他们的方法,这些作品认为,有很多有价值的信息编码在凝视行为。应该说,这两种方法并不相互排斥,因为注意力是以显着性驱动和意志控制的方式调节的[17]。如前所述,深度神经网络一直是预测自下而上显著性的标准方法。相比之下,自上而下的凝视模型通常依赖于手动定义的任务变量。我们的方法试图结合这些方法,并使用深度网络的表示学习能力来提取任务相关的视觉特征,给定任务驱动的凝视数据。最近的一项工作也采用了这种方法[31],他们使用多通道深度网络从原始图像中预测人类的视线视觉运动学习任务中的注意力虽然视觉注意力模型在几个视觉学习任务中显示出非常有希望的结果,包括视觉问题回答[43],图像生成[11],图像标题生成[41]和空间Transformer网络[18],但将视觉注意力模型纳入视觉运动学习还有待探索。神经科学研究人员已经揭示了注意力和强化学习之间的关系[9,35,23,16]。[29]尝试联合学习注意力和控制,并表明学习注意力模型可以比自下而上的显着性模型更好地预测视觉注意力。[40]显示不同-ent网络组件学习处理不同的视觉特征,但它们并没有明确地模拟视觉注意力。[27]开创性地将深度强化学习和视觉注意力结合起来,其中注意力被视为顺序决策问题(看哪里),并通过深度强化学习与控制策略(做什么)联合训练。因此,他们的注意力模型是不可微的(或“硬”)注意力模型,这导致计算上昂贵的训练过程。相比之下,显著性方法在一般情况下是可实现的(或“s of t”),从而可以更有效地实现我们的工作视注意作为视觉运动学习任务的辅助组成部分,并选择使用更有效的软注意模型。3数据采集我们在Arcade Learning Environment [3]中使用Atari游戏收集了人类玩游戏的动作,Arcade Learning Environment是一个丰富的环境,具有非常不同的动力学,视觉特征和奖励功能的游戏。这些游戏捕捉了自然视觉运动任务的许多有趣方面,同时允许比现实世界任务更好的实验控制。在每个时间步长t,原始图像帧It,人类击键动作和注视位置Gt。使用EyeLink 1000眼动仪以1000Hz记录注视数据。 游戏画面是64。6×400厘米,这是一个距离到他的subjects'eye是7 8。7cm. 对象的大小与对象在该区域上的图像大小相同。屏幕的可视角度是44。6× 28。5视觉度。标准眼动追踪校准和注意引导模仿学习5实施验证技术,导致0.44视觉度的平均注视位置误差(覆盖手臂长度处手指的半宽)。我们的目标是从人类受试者中获得最佳的控制策略,因此我们考虑到人类反应时间和疲劳的限制。对于像玩Atari游戏这样的视觉运动任务,人类对视觉刺激的反应时间平均为250毫秒,因此以原始速度运行游戏对大多数人类受试者来说太具有挑战性了。为了有足够的反应时间,游戏只有在受试者做出动作(按下一个键或保持按下一个键)时才继续进行为了减少疲劳,运动员打15分钟,休息15分钟至少20分钟我们从[28]中精心挑选了八款雅达利游戏,每款游戏都代表了不同的类型。这些数据来自三位业余玩家,包含总长度为1,335分钟和1,576,843帧图像。由于眨眼、屏幕外凝视或跟踪器错误而没有凝视的帧属于单个trajec- tory(Atari游戏中的一个片段)的数据将不会被分成训练集和测试集。由于数据记录设备的高采样频率,两个相邻的帧/动作/注视高度相似,因此我们避免将一个置于训练中而将另一个置于测试中。培训和测试的样本量信息见附录1。与之前的深度模仿学习和RL文献[28,40,15]中报道的人类实验相比,数据是在不同的设置下收集的 尽管人类玩家是被招募的熟悉这些游戏但非专家的学生,我们的实验设置导致了显着更好的人类表现;参见附录1的人类比赛得分比较。人类游戏的高得分为人类和深度RL在决策方面的表现进行更深入的比较铺平了道路该数据集可应要求提供,以鼓励未来在视觉科学,视觉运动行为,模仿学习和强化学习方面的研究。4凝视网络计算机视觉研究已经将视觉注意力建模形式化为端到端显著性预测问题,由此深度网络可以用于预测注视的概率分布(显著性图)。如[4]所建议的,通过使用高斯核将离散注视位置转换为连续分布来生成地面实况显著性图,其中σ等于1视觉我们对所有八个游戏使用相同的深度神经网络架构和超参数(这对本工作中使用的所有模型都是如此)。我们使用的网络架构(如图所2)是三通道卷积-反卷积网络。顶部通道的输入是预处理程序遵循的图像[28],因此由堆叠在一起的4帧序列组成,其中每帧的灰度为84×84。使用4帧的原因是因为单个图像状态在Atari游戏中是非马尔可夫的,例如,方向6R. Zhang等人如果我们只看到一个画面,那么子弹飞行的图像是模糊的。中间通道对运动信息(光流)进行建模,因为人类注视对移动敏感,所以包括运动信息,并且运动信息已用于提高注视预测准确性[26]。使用[10]中的算法计算两个连续帧的光流矢量并将其馈送到网络中。底部通道包括由经典Itti-Koch模型[17]计算的自下而上的显著性图。网络的输出是以Kullback-Leibler散度作为损失函数训练的注视显著性图:KL(P,Q)= Σ。Qilog+我QiΣ+Pi(一)其中P表示预测的显著性图,Q表示基础事实。正则化常数被设置为1e− 10。图2:三通道凝视网络。顶部通道接收图像,中间通道接收相应的光流,底部通道接收自下而上的图像显著性。然后我们对三个通道的输出求平均值。最终输出是指示注视的预测概率分布的注视显著性图。卷积层的设计遵循深度Q网络[28]。为了进行性能比较,我们使用经典的自下而上显着性模型[17]作为第一个基线(表1中的然后,我们计算当前图像的光流然后进行消融研究,其中模型仅由图1中的原始网络的一个或两个通道组成。2,即,图像(I)、图像+显著性(I+S)或图像+运动(I+M)。使用视觉显着性文献[34]中的四个标准度量来评估算法的性能:归一化扫描路径显着性(NSS)、曲线下面积(AUC)、Kullback-Leibler散度(KL)和相关系数(CC)。定量结果示于表1中。总体而言,我们的模型的预测结果在所有游戏中都非常准确,并且在很大程度上优于显著性和运动基线,这由高AUC(所有游戏均高于0.93)表示注意引导模仿学习7打断-出来免费-方式Enduro 河-raid海-quest女士Pacman中心-pedeVen-ture显著性(S)NSS↑ -0.075 -0.175 -0.2610.094 -0.208 -0.3760.6650.422运动(M)2.3061.015 0.6011.200 2.016 0.8911.2291.004图片(一)6.3366.762 8.4555.776 6.417 4.5225.1475.429I+S6.3636.837 8.3795.746 6.384 4.5185.2155.469I+M6.432 6.874 8.4815.834 6.485 4.6005.445 6.222I+S+M6.4296.852 8.4355.873 6.510 4.5715.3696.125显著性(S)AUC↑ 0.4940.560 0.4470.494 0.352 0.4260.6910.607运动(M)0.6640.697 0.7420.738 0.779 0.6640.7290.643图片(一)0.970 0.973 0.988 0.962 0.963 0.9320.9560.957I+S0.9690.973 0.9880.961 0.963 0.9330.9570.956I+M0.970 0.972 0.988 0.962 0.964 0.9350.961 0.964I+S+M0.9690.973 0.988 0.962 0.964 0.9360.960 0.964显著性(S)KL↓4.3754.289 4.5174.235 4.744 4.6803.7743.868运动(M)13.097 10.638 8.3129.151 9.133 12.17310.810 12.853图片(一)1.3041.261 0.8341.609 1.464 1.9851.7111.749I+S1.3011.260 0.8341.613 1.470 1.9951.7091.727I+M1.294 1.257 0.8321.593 1.438 1.9591.622 1.512I+S+M1.2991.260 0.8351.592 1.437 1.9611.645 1.510显著性(S)CC↑-0.009 -0.023 -0.033-0.008 -0.035 -0.0480.0650.048运动(M)0.2050.099 0.0770.125 0.190 0.0920.1320.105图片(一)0.5830.588 0.7050.505 0.558 0.4390.4810.483I+S0.5830.588 0.7020.503 0.555 0.4360.4790.488I+M0.584 0.591 0.7060.509 0.564 0.4410.499 0.543I+S+M0.584 0.589 0.7040.511 0.562 0.4400.4920.541表1:跨八场比赛预测人类注视的定量结果随机预测基线:NSS =0.000,AUC = 0.500,KL = 6.159,CC = 0.000。为了进行比较,将经典[17]模型(显着性)和光流(运动)与我们模型的版本进行比较。我们的所有模型在预测人类凝视方面都是准确的(AUC> 0.93)。一般来说,图像+运动(I+M)模型在游戏和四个指标上实现了最佳的预测准确性。8R. Zhang等人(a)(b)高速公路(c)Enduro(d)Riverraid(e)Seaquest(女)MsPacman(g)蜈蚣(h)风险投资图3:八场比赛的注视预测结果的可视化(以彩色最佳观看)。实心红点指示地面实况人类注视位置。该地图显示了该模型作为一个单独的地图的发布,使用图像+运动凝视网络进行计算。注意引导模仿学习9游戏)获得。双通道模型(图像+运动)通常可获得最佳结果。进一步移除运动信息(仅具有图像)只会在怪物的速度最重要的游戏场景的情况下简单地实现,因此移除运动会降低预测准确度。将自下而上的显著性包括到模型中并不能提高整体性能。这表明,在给定的任务中,自上而下的视觉注意不同于传统的自下而上的图像显著性,并且难以从传统的自下而上的图像显著性推断。我们鼓励读者在https://w www.example.com上观看预测结果的视频演示youtube.com/watch? v=-zTX9VFSFME。所有游戏的示例预测如图所示其中预测的注视显著性图和地面实况人类注视位置被叠加在游戏帧之上值得注意的是,预测可以是多模态的,如图3d和3g所示,指示任务需要在我们的模型成功捕获的这些情况下分散注意力。样本效率在模仿学习任务中,样本效率是一个主要问题,因为收集人类演示数据的成本可能很高。如果学习注意力模型需要更多的数据,那么建议的AGIL框架不能声称比以前的模仿学习或RL方法具有优势。我们研究了不同训练样本大小对预测准确性的影响,并发现图像+运动模型能够在人类凝视数据(15分钟)的单次试验中实现高AUC值(MsPacman高于 0.88,其他7个游戏高于0.94针对所有游戏的训练样本量绘制的学习曲线可以在附录2中找到因此,训练注视网络不会对给定任务的样本大小造成负担。人类受试者在执行相同任务时是否表现出不同的注视行为?这个问题是进一步研究通过traiing的气体或konesubject' s d at andttt i n g的其他h我们发现,凝视模型是最准确的训练和测试时,当在不同的受试者上测试时,与在相同受试者上训练和测试的相比,在相关系数方面的平均预测准确度损失为0.091(0.387对0.387)。0.478)。详细分析见附录3。5关注的政策网络给定可以准确地预测视觉注意力的注视网络,我们可以将注意力集中在人类的决定上。利用监督学习来训练设计网络w或k,以在给定当前帧的情况下对人类动作进行分类。基线网络架构遵循Deep Q-Network[28]。在这里,我们讨论了两个模型,将视觉注意力信息的imitation学习过程。10R. Zhang等人5.1注视点渲染利用注视信息的一种方式是重建视觉刺激(如由人类受试者感知的刺激)的生物学上合理的表示。我们假设用真实的视网膜图像训练网络可以提高预测,因为这些图像更接近真实的人类代表。我们将游戏屏幕的视角(44.58×28.50),单个地面真实人类凝视位置和原始图像输入到空间变异成像系统[32]。 该算法提供了一个生物学上似乎合理的模拟中心凹视网膜图像,如图。通过根据人视网膜上的神经节细胞的分布对图像进行下采样和模糊来实现图1b的图像。中心凹图像具有强调注视位置附近的视觉特征的良好性质然而,人类并不觉得他们像无花果一样感知1b,因为记忆在重建视觉世界中起着重要的作用。一个中央凹的图像突出了视觉信息被感知的时刻,但它可能会失去其他任务相关的信息存储在内存中。为了补偿这种影响,我们将原始图像和中心凹图像都输入到一个双通道深度网络中。该模型被称为Foveated模型。预测结果如表2所示正如预期的那样,Foveated模型始终实现比普通模仿模型更好或相当的性能。5.2注意力掩蔽中央凹渲染方法直接将人类地面实况凝视纳入模仿学习中。然而,我们认为使用凝视网络学习的凝视热图可能更好,原因有两个:1)虽然地面实况注视位置是单个位置,但是人类注意力可以分布在多个对象上(例如,图3d、3e和3g); 2)地面真实人类凝视可能是嘈杂的,但预测的注意力是准确和干净的。此外,当智能体实际玩游戏时,地面实况人类注视将不可用。我们将预测的注视热图视为显著性掩模,并将掩模与图像帧元素相乘。与中央凹渲染类似,掩模具有强调正在关注的刺激的效果。出于与Foveated模型相同的原因,我们添加了第二个通道,该通道也将原始图像作为输入,并将其称为Attention模型。最终架构如图所示。4.第一章预测结果如表2所示很明显,结合注意力模型具有优于基线的优势。特别是,经常需要多任务处理的四个游戏的结果显示出较大的改 进 : Seaquest上 的 15.6% , MsPacman上 的 16% , Centipede上的5.1% 和Venture上的6.6%。我们通过转发或屏蔽来实现在云计算中的云计算格式,可以显著提高策略匹配精度方面的性能。注意引导模仿学习11图4:模仿人类行为的策略网络架构。顶部通道接收当前图像帧,底部通道接收掩蔽图像,掩蔽图像是原始图像和由注视网络预测的注视显著性图的元素级乘积。然后,我们对两个通道的输出进行平均。模仿+注视+注意突围81.50.3 ± 0.2±0.1 ± 0.2 ± 0.2高速公路96.7± 0.0 96.4±0.1 96.4 ± 0.2Enduro60.60.4 ± 0.4 60.5±0.4 61.9 ± 0.3里弗莱德72.50.3 ± 0.472.5 ± 0.4SeaQuest46.0 2019 -05 -26 10:00:00MsPacman54.6电话:021 - 88888888传真:021-88888888蜈蚣61.9 0.2±0.3 64.8±0.3 67.0 ± 0.3风险46.70.2±0.1 53.3 ± 0.3表2:使用不同模型预测八场比赛中人类行为的准确率(平均值±标准差)随机预测基线:5.56.图中的模型。4(+注意力)产生最佳的预测精度。12R. Zhang等人6评估学习策略行为匹配精度不是唯一的性能评估指标,因为模仿学习的最终目标是学习一个好的策略来实际执行任务。在进行博弈时,AGIL框架将博弈图像作为对策略网络的输入,并将博弈图像作为代理使用具有Gibbs(Boltzmann)分布的softmax函数概率性地选择动作a,以使P(a)上的p(π(a)=Σ exp(ηP(a))a′∈Aexp(ηP(a′))(二)其中A表示所有可能动作的集合exp(. 表示指数函数,并且温度参数η被设置为1。每个游戏超过100集的平均游戏得分在表3中报告,其中每个集使用随机生成的游戏种子进行初始化我们的注意力模型优于[15]以前的普通模仿学习结果和使用我们的数据集没有注意力的模型。比后者的改进为3。4%至1143。8%。Freeway的改善较小,因为评分接近该任务的最大可能评分(34.0)。与RL相比,模仿学习的一个优点是它的样本效率。我们展示了使用标准OpenAI DQN基准测试[7]实现的深度Q学习[28]的性能,该测试针对相同的样本量进行了训练(每个游戏的训练样本量可以在附录1中找到很明显,在相同的训练数据量下,DQN值得注意的是,经过2亿个训练样本(对应于60Hz时约38.58天的游戏体验),我们的方法在四场比赛中仍然优于或媲美DQN:菲威,耐力,蜈蚣,冒险.事实上,与任何RL方法或其组合相比,我们的方法在Centipede上实现了最先进的结果[14]。为什么学习的视觉注意模型提高了动作预测的准确性和任务性能?首先,注意力在高维状态空间中突出显示任务相关的视觉特征,即使这些特征在该空间中可能只占据几个像素,如图3所示因此,注意力可以被看作是一种特征选择机制,它使策略网络偏向于关注所选择的特征。第二,注意力可以帮助识别和消除歧义的目标时,当前的行动存在多个任务相关的对象。例如图在图5b和5c中,凝视指示当前行动的目标涉及黄色潜艇左侧或上方的敌人。对应的这两个敌人在视觉上是相同的,因此学习代理无法在没有注视信息的情况下预测正确的动作由于这些原因,对人类注意力进行建模有助于智能体推断出正确的决策。注意引导模仿学习13模仿模仿[15]我们的数据AGIL我们的数据改进-mentDQN同一N NDQN= 200M突围3.51 .一、6 ±1。2 19号。9 ±14。1 一千一百四十三点八1.52401.2高速公路22.729岁6 ±1。2三十6 ±1。2百分之三点四030.3Enduro134.8239 8 ±90。8二百九十五7±99。523.3%0301.8里弗莱德2148.52419 7 ±655。83338 5±1485。938.0%15108316SeaQuest195.6252 2 ±109。2 788 9 ±609。2 212.8%1005286MsPacman692.41069 9 ±810。5一七五五年1±1000。964.0%2302311蜈蚣N/A5543 0±3509。5九五十五4±5626。871.7%20808309风险N/A三六三0±133。2468 0 ±176。6 百分之二十八点九0380.0表3:来自以前工作的普通模仿学习[15],使用我们的数据集AGIL的普通模仿学习和深度强化学习(DQN)[28,7]之间的游戏得分(平均值±标准差)DQN分数以两个不同的训练样本大小记录:一个与我们的数据集具有相同的样本大小(114 K-223 K取决于游戏),另一个在样本上为200μm。“Improv e m e m e n t”计算结果表明,与使用我们的数据集的普通模仿学习相比,AGL的人类教师的状态,并了解该决定的潜在原因(a)(b)(c)图5:人类注视信息帮助学习代理正确地推断关于该选择动作的下一个细节。该指示符指示人类7结论和未来工作视觉运动任务中模仿学习的研究问题是:应该从人类老师那里学到什么?智能体可以学习策略(行为克隆),奖励函数(逆RL)或一些高级认知功能,如视觉注意力。据我们所知,拟议的AGIL框架是第一次尝试学习视觉注意模仿学习任务。通过改进人力资源管理员的虚拟化管理,提高了数据库的有效性14R. Zhang等人更深刻地理解为什么老师会做出特定的决定我们证明了学习一个准确的任务驱动的人类视觉注意力模型是可行的,并且将其与深度模仿学习相结合会产生有希望的结果。在我们的工作中,在预测凝视中实现的高准确性意味着,给定认知要求高的视觉运动任务,可以使用端到端的学习算法准确地对人类凝视进行建模。这表明,流行的深度显着性模型可以用于学习视觉注意力,给定任务驱动的数据。在这种师生模式中,当我们对学生和教师都有更多的了解时,就有可能建立一个更好的学习框架。从心理学的角度对人类教师有更多的了解,这在未来的工作中还有很大的空间。由于人类视觉反应时间,动作at可能不取决于时间t处的图像和凝视,而是取决于数百毫秒之前的图像和凝视。更重要的是,人类记忆系统允许保存先前参与的对象的状态,并且内部模型可以执行基于模型的预测以更新记忆中的这些认知功能可以很容易地通过深度网络模型来实现,例如递归神经网络,以允许更好地预测人类行为。[28]的结果已经证明了视觉运动任务的端到端学习的有效性,其中DQN在涉及单个任务的游戏中表现出色。然而,对于诸如Seaquest和MsPacman之类的游戏(此外,DQN需要数百万个样本进行训练。上述问题可以通过结合AGIL和深度RL来缓解,其中注意力模型可以帮助提取特征以加速学习并指示任务优先级。通过使我们的数据集可用,我们鼓励未来的研究走向组合的方法。确认我们希望在Géisler的实验室上进行分类,以便在一个集合中进行更新。我们要感谢Calen Walshe和Prabhat Nagarajan提供了有益的讨论和建议。这项工作得到了NIH Grant EY 05729,NIH Grant T32 EY 21462 -6,NSF GrantCNS-1624378和Google AR/VR研究奖的支持。引用1. Argall,B.D.,Chernova,S.,Veloso,M.,Browning,B.:机器人学习方法综述。R〇b〇ticsandaut〇n〇m〇ssystems57(5),4692. Baldauf,D.沃尔夫M.Deubel,H.: 视觉注意力在一系列去方向性动作和运动之前的部署。Visionresearch46(26),4355注意引导模仿学习153. Bellemare,M.G.Naddaf,Y.Veness,J.,保龄球,M.: 街机学习环境:一个面向总代理的评估平台。人工智能研究杂志(2012)4. Bylinskii,Z.,Judd,T.,Oliva,A.,Torralba,A.,Durand,F.:不同的评估指标告诉我们关于显着性模型的什么?arXiv预印本arXiv:1604.03605(2016)5. Bylinskii , Z. , Recasens , A. , Borji , A. , Oliva , A. , Torralba , A. ,Durand,F.:显着性模型下一步应该看什么?欧洲计算机视觉会议。pp.809-824 Springger(2016)6. 小克鲁兹G.V.杜,Y.,Taylor,M.E.:使用人类演示对神经网络进行预训练,以进行深度强化学习。arXiv预印本arXiv:1709.04083(2017)7. Dhariwal,P.黑塞角Klimov,O.,Nichol,A.,Plappert,M.,Radford,A.舒曼,Sidor,S.,吴Y:Openai基线。https://github.com/openai/baselines(2017)8. Diaz,G.,库珀J Rothkopf,C.,Hayhoe,M.:对未来球位置的扫视揭示了虚拟现实拦截任务中基于记忆的预测。Journal ofVis10 n13(1),209. Eldar,E. Cohen,J.D.,Niv,Y.:神经增益对注意力和学习的影响。Natureneur oscie16(8),114610. F a rnebac¨k,G. :两个自定义模块将数据存储在聚合物非线性扩展空间中。Im-a-gea nalysispp. 36311. Gregor,K.,达尼赫尔卡岛格雷夫斯,A.,Rezende,D.,Wierstra,D.:Draw : 用 于 图 像 生 成 的 递 归 神 经 网 络 。 在 : Proceedings of the 32ndInternational C0nFeR enceonMachineLearningg(ICML-15)中。pp. 146212. Hayhoe , M. Ballard , D. : 自 然 行 为 中 的 眼 球 运 动 。 Trends incognitivesciences9(4),18813. Henderson,P.,伊斯兰河Bachman,P.,Pineau,J.,普雷卡普,D.,Meger,D.:深度强化学习很重要。arXiv预印本arXiv:1709.06560(2017)14. Hessel,M.,Modayil,J.,Van Hasselt,H. Schaul,T.,Ostrovski,G.,Dabney,W. Horgan,D.,Piot,B.,Azar,M.,西尔弗,D.:Rainbow:结合深度强化学习的改进。arXiv预印本arXiv:1710.02298(2017)15. Hester,T.,Vecerik,M.,Pietquin,O.,Lanctot,M.,Schaul,T.,Piot,B.,Sendonaris,A.,Dulac-Arnold,G.奥斯班岛Agapiou,J.,等:从演示中进行深度Q学习。人工智能促进协会(AAAI)(2018)16. Holroyd,C.B.,Coles,M.G.:人类错误处理的神经基础:强化学习,多巴胺和错误相关的消极性。Psychological Review 109 (4),679(2002)17. 伊蒂湖Koch,C.,尼布尔,E.:基于显著性的快速场景分析视觉注意模型。IEEE Transactions on pattern analysis and machine intelligence20(11),125 418. Jaderberg,M.,西蒙尼扬,K.,Zisserman,A.,等:空间Transformer网络。In:Ava ncesi nNe ur alI np roces ing S y s i n gPr ocesi ngS y s i n g P r o ce s i n g Sy si n g S i n g ipp. 201719. Jiang,M.,Huang,S.,(1996年),中国科学院,Duan,J.,Zhao,Q.:Salicon:语境中的显著性。在:IEEE计算机视觉和模式识别会议的进展。pp. 107220. 约翰逊湖Sullivan,B. Hayhoe,M. Ballard,D.:预测驾驶任务中的人类视觉运动行为。伦敦皇家学会哲学汇刊B:生物科学369(1636),20130044(2014)16R. Zhang等人21. Krafka,K.,Khosla,A. Kellnhofer,P.,Kannan,H.,Bhandarkar,S.,Matusik,W.,Torralba,A.:每个人的眼动追踪In:Proceedings of the IEEEconference oncomputervisionandpatternrecognition. pp. 217622. Kruthiventi,S.S.,Ayush,K.巴布,R.V.:Deepfix:一个完全卷积的神经网络用于预测人眼注视的网络。IEEE Transactions on Image Processing(2017)23. Leong,Y.C.,Radulescu,A.,丹尼尔·RDeWoskin,V.Niv,Y.:动态交互多维环境中强化学习与注意力之间的作用。Neuron93(2),45124. Levine,S.,Finn,C.,Darrell,T.,Abbeel,P.:深度视觉运动的端到端训练波利奇岛TheJ〇urnalofMach ineLearn in gReserch17( 1), 133425. Li,G.,Yu,Y.:基于多尺度深度特征的视觉显著性。In:ProceedingsoftheEEEconnferenceoncomputerisionandpater nrecognition. pp. 545526. Marat,S., Puoc,T. H、 格兰琼湖 Guyader,N., Pellerin,D. ,Gu'erin-Dugu'e,答:建模时空显著性以预测短视频的注视方向国际计算机视觉杂志82(3),231(2009)27. Mnih,V.,Heess,N.格雷夫斯,A.,等:视觉注意的循环模型。于:在新的生产系统中进行开发。pp. 220428. Mnih , V. , Kavukcuoglu , K. , Silver , D. , Rusu , A.A. , Veness , J. ,Bellemare , M.G. 格 雷 夫 斯 , A. , Riedmiller , M. , Fidjeland , A.K. ,Ostrovski,G.,等:人工级别的持续时间为元素筛选提供了一种新的方法。Nature518(7540),52929. Mousavi,S.,Borji,A.,Mozayani,N.:学习预测在交互中看哪里使用深度递归q学习的动态环境。arXiv预印本arXiv:1612.05753(2016)30. Nair,A.,McGrew,B.,Andrychowicz,M.,Zaremba,W.,Abbeel,P.:Overcom-在强化学习中的探索与演示。arXiv预印本arXiv:1709.10089(2017)31. Palazzi,A.,Abati,D.Calderara,S.,Solera,F.,Cucchiara,R.:预测驱动程序的格式为:驱动程序(眼睛)arXiv表示arXiv:1705。03854(2017)32. Perry,J.S.Geisler,W. S.:任意视景的视在实时仿真fields. 电子技术2002年。pp. 57比69 光与光子学的综合学科(2002)33. 彼得斯,R.J. Itti,L.:超越自下而上:结合任务依赖性影响空间注意力的计算模型。In:Computer Vision and Pa
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功