没有合适的资源?快使用搜索试试~ 我知道了~
2980有趣的答案和在哪里找到它们:沉浸式视觉注意力Ming Jiang*Shi Chen*Jinhui Yang Qi Zhao明尼苏达{mjiang,chen4595,yang7004,qzhao}@www.example.com摘要问:房间里有时钟吗?是的.问:头盔是什么颜色的?A:黄色。虽然大多数视觉注意研究集中在有限视野下的自下而上的注意,但现实生活中充满了具身视觉任务。注意的作用在后者中由于信息过载而更加显著,对最重要区域的注意对任务的成功在这种情况下,视觉注意对任务绩效的影响也被广泛忽视。这项研究解决了一些挑战,以弥合这一研究差距,在数据和模型方面。具体来说,我们介绍了沉浸式场景中自上而下的注意力的第一个数据集。沉浸式问题导向视觉注意力(IQVA)数据集以视觉注意力和相应的任务表现(即,正确答案)。它包括975个问题和答案,这些问题和答案来自于在头戴式显示器中观看360°视频的人。对数据的分析表明,人们的任务绩效与他们的眼动之间存在显著在此基础上,开发了一个神经网络来编码正确和不正确注意的差异,并联合预测两者。所提出的注意力模型首次考虑到答案的正确性,其输出自然区分重要区域和干扰。这项研究的新数据和功能可能会使新的任务,利用注意力和答案的正确性,并激发新的研究,揭示决策背后的过程,在执行各种任务。1. 介绍视觉注意力通过选择性地处理传入的信息为人类和机器提供了快速理解场景的能力理解注意力的作用对于许多应用来说是非常重要的*同等贡献。✓✗图1:视觉注意力由任务驱动。正确的注意力(第1行)提供了回答问题的基本信息,而不正确的注意力(第2行)有助于识别设计智能视觉系统时要避免的分散 注 意 力 的 特 征 。 等 高 线 代 表 不 同 的 固 视 密 度(0.25、0.5和0.75),较亮的等高线表示较高的固视密度。在过去的几十年中,已经开发了许多眼动跟踪数据集和注意力预测模型来研究规则图像和视频中的然而,由于视场的限制和被动观察的范式,这些研究很难被转移到解决现实世界的问题。此外,尽管聚合所有人类注意力模式用于注意力建模的流行这种差异揭示了重要的视觉特征,以关注或避免,为理解和建模的关注感兴趣的任务提供了见解为了推进视觉注意的研究前沿,本文旨在探讨计算机视觉中两个尚未研究的问题:沉浸式场景中的任务驱动注意,以及注意与任务绩效之间的关系。在这项工作中,我们介绍了沉浸式视觉引导的视觉注意力(IQVA),一个新的眼动跟踪数据集2981从人类在沉浸式场景中回答问题中收集。它由360°视频剪辑上的975个问题组成,每个问题都有14个答案(正确或不正确)和相应的眼动跟踪数据。与以往的眼动追踪数据集不同,IQVA是建立在一个更普遍和现实的范式上,人们在有时间限制的情况下主动探索沉浸式场景并回答问题。它强调了注意力对任务结果的重要性,并能够在与不同任务绩效相关的注意力模式之间进行细粒度的比较。据我们所知,IQVA是第一个明确验证地面实况标签正确性并区分正确和不正确标签的注意力数据集。它展示了注意对任务性能的显著影响,这可以有利于人类和机器视觉系统的建模基于新的数据集和分析,我们进一步引入了一种新的注意力模型来预测正确和不正确的注意力地图,并强调它们的差异。考虑到不正确的注意作为一个硬负样本,我们表明,联合预测正确和不正确的注意,可以提高两者的准确性。总之,这项工作的主要贡献有三个方面:首先,我们介绍并强调一个新的研究问题:沉浸式视觉注意力。为了研究这个问题,我们提出了IQVA数据集,重点是正确和不正确答案的注意模式之间的差异。其次,通过大量的数据分析,我们证明了视觉注意和任务绩效之间的回答正确的人表现出一致的注意力模式,而那些回答错误的人受到各种因素的影响。最后,我们提出了一个神经网络模型来联合预测正确和不正确的注意。语义工作记忆和细粒度的差异损失提出了自上而下的任务指导模型和学习的特点,区分两个注意。2. 相关工作视觉注意力数据集。 几十年来,视觉注意在计算机视觉[4,5,23,38]和认知视觉[1,32,50]领域得到了广泛的研究。已经使用眼动跟踪[21,48]或模拟替代方案[20]建立了数据集,以促进注意力模型的开发[4,5,45,50]。虽然许多研究都集中在关于刺激驱动的自下而上的注意[4,5,49,50],任务驱动的自上而下的注意研究较少[2,23,47]。此外,视频观看的常规图像中的高度受控的设置和为了在自然FOV中收集注意力数据,一些作品[10,27,28]使用可穿戴眼睛-用于记录日常活动中的注意力的跟踪器(例如,烹饪),人们可以在环境中自由移动和行动。另一个研究方向是利用全向摄像头和头戴式显示器(HMD)来研究人们如何探索虚拟环境。这种类型的沉浸式场景中的注意力数据是通过跟踪人们的头部运动[18,44]或眼睛运动[17,43]来捕获的虽然能够跟踪更自然的凝视行为,但现有数据集要么在场景中具有不足的可变性,要么忽略了自上而下任务的影响。因此,理解和建模任务驱动的注意力仍然是一个开放的挑战。为了解决这些问题,我们的数据集强调了沉浸式场景中问题回答的各种注意力以及答案的正确性。该数据集可以研究人们的注意力是如何被任务驱动的自上而下任务中的人类和机器注意力。许多计算机视觉模型使用模型注意力来区分优先级-在视觉任务中形成。尽管模型注意力被广泛接受并对任务表现做出了贡献,但在相同任务的情况下,模型注意力并不总是与人类一致[4,8,49]。例如,在视觉问题回答(VQA)[3,15]中,注意力起着重要作用,分析[12]显示模型和人类注意力之间的相关性较低。这种不对齐可能是由数据集偏差引起的,该数据集偏差将模型注意力引导到某些先验[15,31,40],或者对地面实况注释的正确性验证不足[22,30]。在这项工作中,我们研究了人类的注意力在一般的自上而下的任务,如计数对象,识别对象charac- teristics,或寻找对象间的关系。 为了减少数据偏差,我们通过提出更具挑战性的问题和提供宽FOV视觉输入(即,沉浸式场景)。因此,人类和机器都需要正确地参与以回答问题。此外,我们明确验证了地面实况答案的正确性,因此所提出的数据集和模型可以提供正确和不正确的注意力如何影响任务性能的见解。3. 数据收集在本节中,我们介绍了数据收集和后处理的过程我们的IQVA数据集以表1比较了IQVA与其他相关数据集。我们的数据集将公开提供。3.1. 刺激和注释我们的刺激是360° YouTube视频。我们手动选择了392个视频,其中包含各种各样的360°场景和丰富的上下文。大多数视频描述人类活动,如旅游,聚会,驾驶和体育活动,而其他2982计数查询验证40030020010004567岁以上视频长度3-56-8 9-11 12+问题长度0 1 2困难表1:IQVA和相关的沉浸式视觉注意力数据集之间的比较。TPA:带有任务性能注释。I:图像数据集。PV:被动观察。问题答案那个女人在玩什么有多少狮子在喝水白色的汽车从绿色的摩托车后面经过吗?男孩戴的红色太阳镜是什么形状的?穿灰色衣服的男人在女人走之前走吗?卡车黑色油画前有植物吗?谁把第一把椅子放在桌子下面?什么动物在游泳有多少不同的人踢过球表2:问题和常用词的例子。展示动物或自然景观。所有视频都是4K等矩形格式(3840×1920像素),帧速率在24和60 fps之间。从这些视频中裁剪了总共975个片段,每个片段都用一个问题进行了注释。这些问题是由作者和两名训练有素的研究生助理提出的。所有问题都由第一作者审查,以确保它们几乎没有歧义,并且相当困难(即,在给定时间限制的情况下,主动观察者可以正确回答)。难度的大小取决于时间的限制、场景的复杂程度、相关物体的数量和大小等。虽然这些问题代表了各种各样的一般任务,但为了更好地组织数据收集和分析,我们将问题分为三类:查询(例如,什么……和 计数(例如,'如何许多...... 并验证(例如,这是……和)的情况。许多的问题需要详尽的搜索,空间和TEM-poral推理,or fine细grained粒度recognition识别.根据他们对注意力和推理能力的要求,每个问题的难度从0到2不等。表2列出了问题的例子,以及问题和答案中使用的常用词。虽然VQA数据集认为注释者最常见的回答是正确的,但这一假设并不总是正确的[16,22,30]。为了区分正确和不正确的注意力,我们通过详尽地检查至少有两个作者的所有视频,用正确的答案来如果作者因答案不明确而无法达成一致,则对问题进行修改或删除。图2显示了视频和问题的统计数据,图2:关于问题类型、视频长度(秒)、问题长度(单词)和难度级别的数据注释分布。包括录像长度(4-15秒,5.26±1.56),问题长度(3-17字,7.94±2.98),难度(0-2,0.70±0.72)。三种常见问题类型分别占数据的40.78%(查询),35.76%(计数)和3.2. 眼睛跟踪设备. 360°视频显示在HMD(HTC VIVE Pro Eye,HTC,Valve公司)中。该头戴式显示器允许以每秒90帧的速度对大约110°水平FOV(2880×1600像素)的场景进行采样。HMD中的集成眼动跟踪器以120 Hz的频率采样凝视数据,精度为0.5°-1.1°。该实验在配备NVIDIA GTX 2070 GPU的计算机上运行创建定制的Unity3D(Unity Engine,CA,USA)场景以360°显示等矩形视频并记录眼睛注视的像素坐标。参与者共有18名男性和10名女性,年龄在19至38岁之间,在机构审查委员会(IRB)的批准下参加了眼动追踪实验。所有参与者都得到了金钱补偿。视频和问题被随机分成10个区块,每个区块一个小时。平均而言,每个参与者观看约500个视频剪辑并回答相应的问题。每个问题由14名参与者回答。Procedure. 眼动仪在每次会话之前进行5点校准。试验的顺序和每个视频的起始纵向位置是随机初始化的。每一次试验都以一个显示在空白背景上的问题开始。在完全理解了问题之后,参与者按下控制器按钮开始播放相应的视频。所有的视频播放没有声音。参与者积极探索场景,寻找正确答案。当视频结束时,问题再次显示。参与者要么回答他们的答案,要么说实验者将回答记录在电子表格中.最后,参与者按下另一个控制器按钮以进行下一个试验。 为了避免HMD危害(例如,头晕、碰撞、跌倒),参与者或实验者可以中断数据集模态场景扫描路径任务TPACorbillon等人[第十一届]头50.3kPV✗Wu等人[46个]头90.4kPV✗Lo等[29日]头100.5kPV✗[34]第三十四话头241kPV✗David等人[13个国家]眼睛191kPV✗西茨曼等人[四十三]头/眼22我2kPV✗Zhang等人[五十一]眼睛1042kPV✗Rai等人[39]第三十九届眼睛98I4kPV✗的样品298390450-451.00.5<20% 20%-80%>80%-90图3:数据集的平均注视图显示了倾斜的赤道偏差。0.04567岁以上视频长度3-56-8 9-11 12+问题长度0 1 2困难或者随时终止实验图4:人类回答准确率在不同时间点不同的视频长度、问题长度和难度级别。3.3. 实验后处理答案验证。作者回顾了参与者的回答,并将其与先前注释的由于问题的歧义已经减少或消除,所有的回答都可以被分类为正确或不正确。如果参与者计数806040200 1 2困难验证0 1 2困难查询0 1 2困难未能提供答案也被归类为不正确。固定图计算。 实验为每个视频和问题产生一组视觉扫描路径。从原始凝视中所有参与者的立场通过在以t为中心的400 ms的时间滑动窗口中累积注视点来计算时间t处的帧的注视图。使用具有高斯核(σ=9°)的球面卷积来进一步平滑注视图以获得最终注视映射{Ft}。为了提高计算效率,我们按照[52] 以256×128的降低分辨率计算地图4. 数据分析在本节中,我们进行并报告统计分析,以从眼动追踪数据和注释中收集见解。我们目前的观察人类的注意力和VQA表现在沉浸式场景。4.1. 人类的目光偏向赤道与之前报道感知图像或360°场景中不同类型空间偏差的眼动跟踪文献类似[7,35,36,42],我们在数据中观察到强烈的赤道偏差,如图3所示。在纬度方面,95%的注视点在-43°到18.5°之间,80%在-24°到6.5°之间。这种偏差是由照相机的定位共同引起的(即,总是处于摄像机面向前方的直立位置),参与者的运动偏差(即,水平转向),以及它们的观看策略(即,期望将感兴趣的对象放置在地面附近)。向下偏斜可能是由相机位置引起的,因为相机通常安装在相对较高的高度(例如,在汽车或电线杆等的顶部。).由于经度初始化是随机的,实验中没有引入明显的水平偏差。此外,通过区分正确和不正确的注意力,我们图5:人类对不同问题的类型和难度级别。误差条指示平均值的标准误差。观察到他们的赤道偏差是高度相似的(皮尔逊4.2. 人类的答案有很大的准确性The overall accuracy of the participants’ answers is68.45%.由于我们的问题和视频的独特性,只有15.78%的问题全部正确,50.51%的问题的准确率在20%到80%之间。如图4所示,随着视频长度和难度的增加,参与者回答的准确性注意,视频长度通过设计与难度相关(即,较难的题目有较长的时间限制)。图5显示了不同问题类型的准确性随着难度的增加而下降。一般来说,正确回答查询(77.03%准确率)或验证问题(69.84%准确率)比计数问题(57.76%准确率)更容易。这可能是因为查询和验证问题都需要观察更少的目标,并且目标倾向于被提供有附加的描述(例如,“woman in blue” instead of “woman”), which also makesthe search4.3. 正确的注意力是一样的为了研究注意力如何影响任务绩效,我们测量每对视觉扫描路径之间的时空距离,并根据两个答案的正确性将它们分为三组:都正确,都不正确,正确和不正确之间。该距离是使用球面“实数序列百分之八十纬度比例准确度(%)2984正确的不正确的(a) 问:有多少人答:四个。计数验证查询0.650.600.55(b) 问:这个人在驾驶什么A:卡车。0.500 12困难0 12困难0 1 2困难图6:不同问题类型和难度水平的EDR分数比较误差条指示平均值的标准误差。(EDR)[9]距离阈值为9°(即,半个中央凹大小[14]),并且较低的EDR分数指示更相似的扫描路径。对于稳健性,该比较仅包括准确度在20%至80%之间的问题。根据图6,回答正确的人具有一致相似的注意力模式,而导致错误答案的注意力模式彼此不太相似。组间相似性也低于正确组内的相似性。这适用于所有问题类型的难度级别鉴于这一点,计数问题的成绩差距明显较小,我们推测这是因为对于计数正确的参与者来说,每个目标的计数顺序可能不同4.4. 不正确的注意力会以不同的模式我们进一步分析了正确和不正确的注意力的定性例子,以了解为什么它们的差异导致不同的答案。特别地,图7示出了错误答案的典型情况的示例。虽然所有正确的注视点地图都突出了答案的重要区域,但由于各种原因,不正确的注意力与正确的注意力不同:遗漏重要线索。图7a-7 c示出了缺失任务相关线索的典型示例。造成这种失误的原因可能有三方面:首先,答案可能是基于不太显著的区域和难以发现的区域(例如, 图7a,一些人在树下行走);第二,人的主观偏见可能导致有偏见的注意力(例如,图7 b,有些人回答“汽车”而不看车辆的后部);第三,人们的注意力可能被视觉上或语义上相似的对象分散(例如,图7c,路灯看起来像旗杆)。所有这些不同的因素都可能导致找不到正确答案。看,但没有看到。许多问题需要密切关注视觉线索。例如,在图7d中,摄像机前面有两只熊猫,后面还有一只。这两只熊猫非常亲密,如果不给予足够的重视,人们很容易将它们误认为一个。在这些情况下,花在观察视觉线索上的注意力或时间可以在-(c) 问:在警察面前有一个标语吗?是的.(d) 问:地面上有多少动物?答:三个。(e) 问:有多少人?答:两个。图7:正确(第1行)和不正确(第2行)注意模式的示例将所有帧(第1列)和每三个帧(第2-4列)中覆盖为等值线图的固定图平均列5示出了用于正确回答的感兴趣的局部影响答案的正确性。时机不对。时机也是一个关键因素。因为场景在变化,看对了地方却错过了关键时刻,会导致错误的答案。如图7e所示,第二个人只在很短的时间间隔内出现在门口回答正确的人总是在关键时刻看门,而回答错误的人要么早,要么晚。我们的分析表明,注意力和任务绩效之间存在很强的相关性,正确和不正确的注意力之间存在细微的差异。更多的例子在补充材料中显示。5. 预测正确和不正确的注意力正确和不正确的注意模式的理解,可以发挥重要的视觉特征区分从硬负先验和分心物的重要作用。在本节中,我们提出了一个新的注意力预测模型,并意识到答案的正确性,以进一步证明我们的数据集的主要影响。大多数注意力预测模型模拟人类视觉的自下而上的路径[19,36,45]。虽然有些人可以用自上而下任务中记录的凝视数据进行训练EDREDR2985tttt atttt真正的时间动态,这样的选择是通过σt=αtSt−1,其中+αt=Wα (WSSt−1 +Wss t−1 +Wu(1)−凝视预测网络图8:所提出的正确性感知注意力预测模型的架构。是指示每个历史时间步长t的动态重要性的时间注意力向量。它决定了从记忆中回忆起什么视觉语义来计算σt。这里,WS、Ws和Wu都是相应因素的可训练权重,Wα被训练以优化时间注意力αt。权重在两个SWM块之间共享,以允许两个注意力之间的知识共享。调用的语义σ+和σ−(对应于t t很少有人做出努力来明确地对自上而下因素的影响进行建模或表征正确和不正确的注意力模式之间的细粒度在本节中,我们提出了一种新的正确性感知注意力预测网络来解决这两个问题。正确和不正确的注意力)与视觉特征Vt∈Rd×w ×h相结合,并使用卷积LSTM进行处理,其中w和h是视觉特征分别。它们用于自适应地控制LSTM的门函数:如图8所示,所提出的模型由一个视觉编码器(attentive VGG [45])和语言引擎-it=WviVt+Whiht−1+Wcict−1+ W+σ++W−σ−+b(二)σitσiti编码器(Skip-Thought模型[25])提取视觉特征Vt和语言功能u从视频和问题中-ft=WvfVt+Whfht−1+Wcfct−1(三)+W+σ++W−σ−+b以及一个新的凝视预测网络,σftσftf正确和不正确的注意力地图与传统模型不同,我们的模型同时计算ot=WvoVt+Whoht−1+Wcoct−1+W+σ++W−σ−+b(四)两个人的知识共享,让知识共享成为可能。σotσotoo语义工作记忆(Semantic Working Memory,SWM)考虑了问题信息和视觉语义其中,it、ft、ot是输入门、遗忘门和输出门。的ht−1和ct−1是隐藏状态。 Wv,Wh,Wc,Wv,i i i f随着时间的推移参加,表征自上而下的任务的作用Wh,Wc,Wv,Wh是对应的f fo o在影响空间分布以及时间或-门函数中的因子,而W+,W+,W+,W-,眼睛注视的程度。 除了模型设计之外,σiσfσoσi为了捕捉正确注意和不正确注意之间的差异,我们进一步提出了一种新的细粒度差异(FGD)损失,以更好地区分这两种类型的注意。5.1. 语义工作记忆先前的凝视预测网络隐含地对时间动态进行建模[45]或依赖于连续帧之间的短期相关性[52]。因此,所提出的SWM明确地和选择性地记忆最多的任务-相关语义随着时间的推移而出现。具体地,我们将时间t处的SWM定义为St= [s1,. . . 其中st∈ Rd是在时间t的记忆的视觉语义。为了同时预测正确和不正确的态度,两个SWM模块(S+和S-)用于pro-switches。Wσf、Wσo为纳入召回的权重记忆中的语义最后,预测的注意力图M= [M+,M-]被计算为Mt=Woutht,其中Wout指示输出层参数。两人的回忆,使用最新参与的语义来更新会话:S[t]+/−=W(M+/−V)(5)其中,Watt是学习的权重,以进一步编码视觉特征Vt中的关注语义,并且Watt指示Hadamard乘积。通过合并SWM块,我们的模型能够将任务信息与视觉输入相关联,并随着时间的推移自适应地聚合重要语义,以受益t t提出了注视预测网络来记忆正确和错误注意参与的视觉具体来说,我们首先开发一种选择机制,从先前记忆的语义St-1中召回最相关的信息σt。 利用语言特征u∈Rd来整合任务信息,mantics出席了在以前的时间步骤st-1到帽,问题语义工作记忆语言编码器−1关注帧Conv-LSTM视觉编码器2986所有视频帧的注意力预测。5.2. 细粒度差异损失我们提出了一个细粒度的差异(FGD)损失,以鼓励模型区分两个输出。首先,我们计算两个地面实况修复之间的差异,图F=F+−F−和介于两者之间的图tt t2987产出 =M+−M−。FGD损失表示为我们稍微修改它们,以有效地考虑到ttΣL=L不(男+女)|✓ F|,M−|✓ F|)与我们的模型类似的问题信息。更多细节见补充材料。FGDCCtΣΣttt第1006章:一夜情(6)2训练 我们用提出的目标训练我们的模型-+γ(Mt− Ft)|Ft|其中LCC表示相关系数[33])。损失的第一项根据地面实况的差异大小对注意力进行归一化,更多地关注两个地面实况具有较大差异的位置,然后通过最小化它们的相关性来强制模型进行不同的预测第二项进一步最小化预测注意力和地面实况注意力的差异之间的差异。为了表征注视的空间分布和准确位置,我们遵循ACLNet [45]并使用平滑的′在我们的损失中,没有平滑的注视点地图是没有平滑的 的超参数γ平衡了两种损失的贡献届我们的最终损失被定义为FGD损失和独立优化两个输出的损失项的线性组合:使用Adam [24]优化器,学习率为10- 4,权重衰减为10-3。基于验证集性能,将超参数β和γ分别经验地视觉输入的分辨率设置为512×256。对于现有的模型,我们遵循它们的原始设置,分别使用正确或不正确的数据训练两个独立的模型。所有模型都使用ImageNet分类预训练的权重进行初始化。批量1用于训练类似于[19]的所有模型,因为更大的批量需要更高的计算成本,并且不会导致明显的改进。最佳模型是根据其在验证集上的性能选择的。6.1. 预测正确和不正确的注意力我们首先评估我们的模型预测正确和不正确的注意。量化,表3显示我们的基线模型(即,多属性),预测两个注意力没有记忆和拟议的损失显着-L=L++L−+β·LFGD(七)执行现有的国家的最先进的,表明im-其中L+/−被定义为注意力评估指标的组合[45],以测量M+/−和F+/−之间的距离。超参数β平衡了损失项的贡献。6. 实验和结果数据集。对于我们的实验,我们将数据集分为658个训练样本,96个验证样本和221个测试样本。我们在IQVA数据集上训练和评估模型,以执行两个不同的任务:正确性感知注意力预测和聚合注意力预测,而不管正确性。给定一个视频片段和一个问题,前者的目标是预测每个视频帧的正确和不正确的注视点,而后者预测一个聚合的注视点图。为了减少由正确和不正确答案的不平衡数量引起的偏差,对于第一个任务,我 们 只 考 虑 答 案 准 确 度 在 20% 和 80% 之 间 的 样 本(即,50.51%的样本)。对于第二个任务,我们使用所有可用的数据。在[52]之后,所有视频在时间上被下采样5。评价方案。我们在实验中使用了五种流行的注意力评估指标,包括Correla-标准化扫描路径显著性(NSS)[37],Kullback-Leibler散度(KLD)[26],相似性(SIM)[41]和混洗AUC[6]。等距矩形投影的畸变用正弦加权函数校正[13]。由于现有的最先进的模型仅被设计用于自下而上的关注,以适应我们的数据集具有自上而下的关注,知识分享对更好地理解任务的重要性。此外,利用SWM实现的增加的性能(即,Multi-Attt + SWM)证明了随时间推移自适应地合并视觉语义的有效性。最后,我们的完整模型与SWM和FGD损失(即,多属性+ SWM + FGD)在所有评价指标中对两种关注度的预测效果最好如图9所示,与正确和不正确答案(最右一列)对应的地面真实注意力显示出明显的差异,表明注意力在这些情况下发挥了作用(更多细节和讨论见第4节和补充材料)。从建模方面来看,虽然大多数现有模型(见第2-5列)突出了感兴趣的区域(即,两个例子中的人)在某种程度上,他们都不能区分导致正确和不正确答案的注意力模式(即,两行中的预测注意力模式相似)。相比之下,所提出的模型(见第6列)不仅捕获了与问题相关的感兴趣区域,而且还区分了对正确答案至关重要的区域(即,远离摄像机滑板的人和右边有麦克风的人)与其他人(即,不符合这些描述的人)。请注意,现有模型对正确和不正确注意力的预测是使用相应的数据进行训练的。 缺乏能力 在区分中,差异表明需要在模型设计中缩小这一差距。上述结果表明,我们的模型架构,语义记忆和损失的有效性,在区分at-2988正确不正确CCNSSKLDSIMsAUCCCNSSKLDSIMsAUCSALICON [19]0.4072.0101.6450.3500.4290.3891.9141.6890.3260.431SALNet [36]0.4122.0281.5600.3470.4510.3801.9461.7030.3290.397ACLNet [45]0.4021.9381.6060.3410.4480.3781.9001.7170.3220.424[52]第五十二话0.2681.2251.9550.2620.3330.2471.1672.0850.2340.343多属性0.4262.2931.4790.3650.4460.4112.2251.5700.3440.447多属性+SWM0.4392.3161.4340.3680.4560.4222.2051.5610.3440.455Multi-Att + SWM + FGD0.4412.3751.4290.3710.4620.4242.2671.5240.3450.469表3:注意力预测性能的比较。最佳结果以粗体突出显示。SALICONSALNetACLNet球形U形网我们人类(a)有多少人玩滑板吗(b)有多少人拿着麦克风图9:预测的正确(第1行)和不正确(第2行)固视图的定性比较导致不同任务表现的张力。它开辟了一个新的范式,在注意力建模考虑任务性能。此外,输出中的差异自然地突出要注视的区域(例如,与任务相关的视觉提示)或要避免的(例如,视觉干扰物),这对各种应用具有直接益处。6.2. 预测聚集注意力所提出的数据集也可以用于预测聚合注意力,而不管正确性如何。在本节中,我们对现有模型和建议模型进行基准测试,以预测我们数据集上的聚合注意力。对于所提出的模型,我们采用我们在以前的实验中预先训练的模型,并开发了一个地图聚合模块,该模块自适应地将预测的正确和不正确的注意力地图集成到聚合的注意力地图中。如表4所示,通过对在先前任务中开发的正确和不正确注意力的理解,所提出的模型能够在聚合注意力预测方面始终优于详情请参阅我们的补充资料7. 结论我们引入了一个新的数据集,用于沉浸式场景中的任务驱动注意力。随着新的范式具有多样化的沉浸式场景和问题,以及答案正确性的手动注释,所提出的数据集不仅可以作为自上而下的视觉注意力建模的新基准,而且还开辟了新的研究机会。CCNSSKLDSIMsAUCSALICON [19]0.5142.0981.1030.4490.483SALNet [36]0.4982.0831.1280.4390.463ACLNet [45]0.4932.0221.1460.4380.466[52]第五十二话0.3431.3091.5470.3310.408我们0.5382.4091.0470.4660.498表4:预测360°视频的聚集注意力的比较结果最佳结果以粗体突出显示。通过考虑任务绩效来联系。我们的分析表明,注意力和任务绩效之间存在很强的相关性,为现实生活中人类注意力的绩效感知研究开辟了新的途径。此外,我们提出了一个正确意识的注意预测模型,以及一个新的损失,联合预测正确和不正确的注意模式。我们的模型强调了从两种类型的注意力中整合知识的重要性,以捕获它们的细粒度差异并预测聚合注意力。今后的研究方向有两个:描述个体的注意模式以理解和预测其任务表现,并通过改进的注意机制来提高神经网络的性能和可解释性。确认这项工作得到了NSF资助1908711和1849107的支持。2989引用[1] 艾伦·奥尔波特注意力集中。MIT Press,1989.[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中,第6077-6086页,2018年。[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在ICCV,2015年。[4] 阿里·博尔吉深度学习时代的显着性预测:一项实证调查。arXiv预印本arXiv:1810.03716,2018。[5] Ali Borji和Laurent Itti视觉注意力建模的最新技术。TPAMI,35(1):185[6] A. Borji,H. R. Tavakoli,D. N. Sihite和L.伊蒂视觉显著性预测中的分数、数据集和模型分析。在ICCV,第921-928页[7] Georg Buscher,Ed Cutrell和Meredith Ringel Morris。当你冲浪的时候你看到了什么?使用眼睛跟踪来预测网页的显著区域。InCHI,2009.[8] ZoyaBylinskii , Adria 'Recasens , Ali Borji , AudeOliva,AntonioTorralba和Fr e' doDur and。saliency的模特们下一步该往哪里In Bastian Leibe,Jiri Matas,NicuSebe,and Max Welling,editors,ECCV,pages 809[9] LeiChen,M. TamerOüzsu和VincentOria。运动目标轨迹的快速相似性搜索在SIGMOD,第491-502页[10] Eunji Chong , Nataniel Ruiz , Yongxin Wang , YunZhang,Agata Rozga,and James M.瑞格连接凝视、场景和注意力:通过注视和场景显著性联合建模的广义注意估计。在ECCV中,第397- 412页[11] 泽维尔·科比隆,弗朗西丝卡·德·西蒙娜,格温达尔·西蒙. 360-度视频头部运动数据集。在MMsys,第199-204页[12] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。人类在视觉问题回答中的注意力:人类和深度网络会关注相同的区域吗?CVIU,163:90[13] 二湾庵JDa vid,Jesu's好吧,安托万Coutrot,Matthieu Perreira Da Silva,and Patrick Le Callet. 360视频的头部和眼睛运动数据集。在MMsys,第432-437页[14] 唐纳德·H·爱德华兹神经科学第三版dale purves,georgej augustine,david fitzpatrick,william c hall,anthony-samuel lamantia , james o mcnamara , and s markwilliams编辑。生物学季刊,81(1):86[15] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在CVPR,2017年。[16] Danna Gurari和Kristen GraumanCrowdverge:预测人们是否会同意视觉问题的答案。在CHI,第3511-3522页[17] Jesu's古蒂·埃雷兹,二湾庵JDa vid,安托万Coutrot , Matthieu Perreira Da Silva , and Patrick LeCallet.介绍一个360度的大人物!benchmark:用于评估360度全景内容的视觉注意力模型的平台。在QoMEX,第1-3页[18] Brian Hu , Ishmael Johnson-Bey , Mansi Sharma , andErnst Niebur.虚拟现实中自然图像视觉探索过程中的头部运动。在CISS,第1-6页[19] Xun Huang,Chengyao Shen,Xavier Boix,and Qi Zhao.SALICON:通过适应深度神经网络减少显著性预测中的语义差距。在ICCV,2015年。[20] M. Jiang,S.黄,J.Duan和Q.赵Salicon:语境中的显著性。在CVPR,第1072-1080页[21] TilkeJudd , KristaA.Ehinger , Fre'doDurand ,andAntonioTorralba.学习预测人类的视线。ICCV,第2106-2113页[22] Kushal Kafle和Christopher Kanan。视觉问题回答:数据集、算法和未来的挑战。CVIU,163:3[23] 放大图片作者:Christopher Kanan,Matthew H. Tong,Lingyun Zhang,and Garrison W.科特雷尔SUN:使用自然统 计的自 上而下 显着性Visual Cognition,17 (6-7):979[24] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。2015年,国际会议[25] 作者:Ryan Kiros,Yukun Zhu,Ruslan Salakhutdinov,Richard S. Zemel,Antonio Torralba,Raquel Urtasun,and Sanja Fidler.跳过思维向量。在NIPS,第3294-3302页[26] 所罗门·库尔贝克信息论与统计学。威利,1959年。[27] Yin Li,Miao Liu,and James M.瑞格在旁观者的眼中在ECCV中,第639-655页[28] Y. Li,Zhefan Ye,and J. M.瑞格深入研究自我中心的行为。在CVPR,第287-295页[29] 罗文智、范庆玲、李珍、黄春英头戴式虚拟现实中的360视频观看数据集。在MMsys,第211-216页[30] 马特乌斯·马林诺夫斯基和马里奥·弗里茨一个视觉转向的挑战。arXiv预印本arXiv:1410.8027,2014年。[31] Varun Manjunatha、Nirat Saini和Larry S.戴维斯视觉问答模型中的外显偏见发现在CVPR中,第9562-9571页[32] Vinod Menon和Lucina Q Uddin。显著性、切换、注意力和控制:脑岛功能的网络模型。Brain Structure andFunction,214(5-6):655[33] 奥利维耶·勒梅尔,帕特里克·勒·卡勒,多米尼克·巴尔巴。基于低级视觉特征预测视频上的视觉注视VisionResearch,47(19):
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功