视觉搜索中的目标缺失行为预测的数据驱动计算模型

63 浏览量更新于2023-11-30 收藏 1.23MB PDF 举报

人机交互系统

视觉搜索

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文目标缺失的人类注意力Zhibo Yang，Sounak Mondal，Seoyoung Ahn，Gregory Zelinsky，Minh Hoai，and DimitrisSamaras石溪大学，石溪，纽约11794，美国抽象的。人类注视行为的预测对于构建能够预测用户注意力的人机交互系统是重要的。计算机视觉模型已经被开发来预测人们在搜索目标物体时所做的注视但如果目标不在图像中同样重要的是要知道人们在找不到目标时如何搜索，以及何时会停止搜索。在本文中，我们提出了一个数据驱动的计算模型，解决了搜索终止问题，并预测搜索固定的扫描路径的人搜索的目标，不出现在图像中。我们将视觉搜索建模为模仿学习问题，并使用我们称为Foveated FeatureMaps（FFM）的新状态表示来表示观众通过固定获得的内部知识。FFM将模拟的中央凹视网膜集成到预训练的ConvNet中，该ConvNet产生网络内特征金字塔，所有这些都具有最小的计算开销。我们的方法将FFM集成为逆强化学习中的状态表示在实验上，我们改进了COCO-Search 18数据集上预测人类目标缺失搜索行为的最新技术代码可在：https://github.com/cvlab-stonybrook/Target-absent-Human-Attention.关键词：视觉搜索，人类注意力，反向强化学习，扫描路径预测，终止预测，目标缺席1介绍人类用于优先考虑和选择视觉信息的注意力机制[37，36，35]引起了计算机视觉研究人员的兴趣，他们试图在机器中重现这种选择效率[43，8，44，7，38]。研究这种效率最常用的范例是视觉搜索任务，其中效率是关于需要多少注意力转移（凝视固定）来检测图像中的目标来测量的。但如果目标不是吗理解目标缺失搜索（包括搜索终止）过程中的凝视行为将有助于人机交互的应用，如果不解决由目标缺失搜索引起的独特问题，人类搜索固定的预测模型就不完整。arXiv：2207.01166v2 [cs.CV] 2022年8月+v：mala2255获取更多论文2Z. Yang等人灵长类动物的中央凹视网膜的神经解剖学是这样的，即视敏度随着与高分辨率中央凹的距离的增加而当搜索目标时，这种中央凹视网膜驱使人们选择性地将眼睛移动到最有可能成为目标的图像位置，从而为目标识别任务提供最高分辨率的视觉输入，每个固定运动由来自周边视觉的低分辨率输入引导认识到人类视觉输入通过中央凹视网膜过滤的事实对于理解和预测人类注视行为是至关重要为了模拟用于预测人类搜索注视的中央凹视网膜，Zelin-sky等人。[44]直接将预训练的ResNet [16]应用于中心凹图像[34]，以提取状态表示的特征图。Yang等[43]提出了DCB，通过使用全分辨率图像及其模糊版本的分割图分别近似高分辨率中央凹和低分辨率周边，由预训练的Panoptic-FPN [22]预测。与其他预测人类注意力的模型一样[31，25，26，7，46]，这两种方法都依赖于预训练的网络来提取图像特征，并使用迁移学习为下游任务训练更小的网络，这通常是由于缺乏用于训练的人类固定数据。同样值得注意的是，这些方法应用在全分辨率图像上预训练的网络（例如，ResNets [16]在Ima-geNet [39]上训练）对模糊图像进行处理，期望预训练的网络能够近似人类感知模糊图像的方式。然而，卷积神经网络（ConvNets）非常容易受到图像扰动的影响[17，13]，并且从模糊图像上的模型中提取的视觉特征在对象识别的背景下几乎没有意义（与人类视觉相反，人类视觉主动寻求低分辨率周边视觉的指导以进行目标识别）。为了更好地表示人类从外围视觉中获得的退化信息，并因此可以用来指导他们的搜索，我们利用了现代ConvNets具有固有的分层架构这一事实，更深的层具有逐渐增大的感受野，对应于随着视觉偏心率的增加而出现的更大的模糊。我们建议以一种偶然的方式将不同层的特征图组合起来在人的注视位置上，近似从中央凹视网膜1可获得的信息。我们将此方法命名为FFM（Foveated Feature Maps。FFM是在全分辨率图像上计算的，因此它们可以很容易地应用于各种预训练的ConvNet。此外，FFM是现代ConvNets的轻量级修改，能够表示从中央凹到中央凹的微妙过渡从而更好地适用于预测人类注视运动。我们发现，当我们的FFM与反向强化学习器（IQ- Learn [12]）相结合时，显着优于DCB [43]和其他基线（见第二节）。4.3）在预测目标缺失和目标存在注视中的作用。[1]请注意，我们的目标不是完美地近似人类中央凹视网膜提取的信息。+v：mala2255获取更多论文目标缺失的人类注意力3总之，本文的贡献如下：（1）我们介绍了（2）我们提出了一种新的状态表示方法，它动态地整合了通过类似于人类的中央凹视网膜收集的知识;（3）我们在人类表现的最高点预测了目标缺失搜索注视，并且与以前的方法相比，在预测目标存在扫描路径方面取得了更好的性能;（4）提出了一种新的评价指标语义序列得分，用于衡量人类扫描路径之间的对象级一致性。与传统的序列得分[4]相比，它更好地捕捉了人们用来指导他们的目标缺失搜索行为的上下文线索。2相关工作视觉搜索是基本的人类目标导向凝视行为之一，其主动扫描视觉环境以找到目标对象类别的任何范例[42，45，11]。在视觉搜索过程中对人类凝视进行建模和预测的兴趣正在兴起[43，44，7，38，9]。Yang等[43]第一次使用反向再学习来模拟跨越18个目标类别的目标存在搜索固定。最近，[7]直接应用强化学习来预测各种视觉任务中的扫描路径，包括目标存在搜索。然而，他们的普遍性从来没有询问的预测目标不存在的搜索扫描路径，其中没有强的目标信号是在图像中。早期的工作表明，目标缺失搜索不是随机行为[10，2]，而是受到目标相关视觉特征的极大影响，以至于可以从扫描路径中解码搜索然而，这项研究只使用了两个目标类别，任务是只搜索四个非目标。在这项工作中，我们从数据驱动的角度研究了目标缺失的凝视行为。最近的几项研究试图对输入图像的中央凹表示进行建模，以预测人类注视行为[43，44，38]或解决其他视觉任务（例如，目标检测;[1，19]）。Yang等[43]在每次注视时，通过具有被退化的视觉周边（图像的稍微模糊的版本）包围的高分辨率中心（全分辨率图像）来近似中央预训练的全景-FPN [22]分别应用于全分辨率和模糊图像，以获得最终组合成最终状态表示的全景分割图。Zelinsky等人没有将中央凹视网膜近似为高分辨率和低分辨率图像的中心-周边配对，而是将其近似为高分辨率图像和低分辨率图像的中心-周边配对。[44]直接使用预训练的ResNet-50 [16]从中央凹图像中提取特征图[34]用于状态表示。值得注意的是，这两种方法都将预训练的网络应用于模糊图像，而我们的FFM是从全分辨率图像中提取的，因此预训练的网络更鲁棒。Rashidi等人[38]提出了一种方法，从眼睛跟踪数据中直接估计目标对象的中央凹可检测性[32然而，这一办法不能轻易地推广到更多的目标类别+v：mala2255获取更多论文4 Z. Yang等人1x1转换，4x向上1x1转换，2x向上1x1转换对象中心图中心凹特征图注意力地图固定点中心凹权重图图1.一、中心凹特征图（FFM）概述。FFM是一组多分辨率特征图，通过组合预训练的ConvNet使用基于计算的中心凹权重图产生的网络内特征金字塔来构建。以前的固定。对象检测模块和注视预测模块分别将FFM映射到COCO中的一组对象中心热图（COCO中的80个对象类别[30]）和COCO-Search18 [8]中的18个目标的一组注意力图因为它需要为每个目标训练多个检测器，并通过在不同纹理背景下以多个尺度显示每个目标来手动创建专门的数据集。相比之下，我们的模型能够联合学习特征级的视觉聚焦过程和通过人类凝视行为的反向传播预测人类扫描路径的网络3方法根据Yang etal. [43]对于目标存在的数据，我们还建议使用反向强化学习（IRL）来建模目标缺失数据的视觉搜索行为。具体来说，我们假设人类观察者是一个强化学习代理，试图在给定的目标缺失图像上定位目标对象（人类观察者不知道图像是否包含目标）。观看者通过一系列凝视注视来获取知识，并基于该知识来分配他们的下一个凝视点以搜索目标（第二节）。3.1）。当观察者确认在给定图像中没有目标时，搜索终止（第3.2）。在这个框架中，我们假设可以访问地面实况人类扫描路径（专家演示），目标是学习模仿或者预测给定图像和目标的人类注视行为（Sec.3.2）。3.1中心凹特征图（FFM）为了捕捉一个人通过一系列注视从图像中获取的信息，我们提出了一种新的状态表示，称为Foveated特征图（FFM）。图1显示了我们的FFM是如何构建的概述FFM利用预训练的ConvNets，它会生成一个特征金字塔对象检测模块注视预测模块……+v：mala2255获取更多论文||我的天|我的天|i=1p目标缺失的人类注意力5感受野逐渐变大的地图通过将更深的特征图视为在周边视觉中以较大偏心率（较低分辨率）获得的信息，我们将FFM构建为一组多分辨率特征图，这是使用基于先前注视生成的中央凹权重图的不同级别特征图的加权组合。与图像聚焦类似[44]，在FFM中，具有较低分辨率（对应于较大偏心率）的较深特征图在距离注视点的距离增加的位置处权重更大。下面我们将更详细地讨论实况调查团。相对分辨率图。已知人类视觉系统是中央凹的，这意味着视图中的视觉信息没有以均匀的分辨率进行处理。相反，仅在注视点周围获得高空间细节（即，中央凹），并且中央凹外部的分辨率随着外围像素和中央凹之间的距离增加而下降。为了模拟这一点，Perry和Geisler [34]提出了一种图像聚焦方法，该方法已用于自由观看[20]和视觉搜索[44]任务。在这里，我们扩展图像的视觉中心凹，以产生多分辨率的特征映射来表示图像的视觉中心凹视图的图像特征的水平。特别是y，给定一个固定点f=（xf，yf），我们首先定义一个与f有关的相对分辨率映射为：αR（x，y|f）=（x-x）2+（y-y）2·（1）α+f f这里，p是一个视角的像素数，取决于观看者和显示器之间的距离。α是一个可学习的参数，它控制像素（x，y）远离固定点时分辨率的下降速度。对于多个注视点{f1，···，f n}，我们通过在每个位置取最大值来计算组合分辨率图：R（x，y f1，，f n）= max iR（x，y f i）。与[34]相比，[34 ]创建给定图像I的高斯金字塔以产生I的多分辨率版本，我们从特征金字塔网络[28]中获得灵感，并使用由现有预训练ConvNet产生的网络内特征金字塔，并在特征金字塔的每个级别混合特征图以构建多分辨率特征图（即，基于相对分辨率图R（x，y，f）的FFM。为了简洁起见，我们将R（x，y f）写为R（x，y）。中心凹特征图（FFM）。我们使用ResNet-50 [16]作为骨干（该方法可以很容易地扩展到其他ConvNet骨干，如VGG网[40]），并让ResNet的特征金字塔为C1，C5，表示ResNet-50每个阶段最后一个残差块的特征激活输出，即conv 1，conv 2，conv 3，conv 4和conv 5的输出。类似于图像的高斯金字塔，较低级别的特征金字塔包含更多的空间细节，而较高级别的特征图在语义上更强。为了减少不同层次之间的语义差异，我们在每个Ci上应用1×1卷积层，以将它们投影到相同的嵌入空间然后，我们将{Ci}5上采样到与C1相同的空间维度，+v：mala2255获取更多论文Σ⊙⊙·−−−−Σ−6个Z。Yang等人相同大小的3D张量，表示为{P1，···，P5}。然后，我们为每个P i计算空间权重图W i，并产生一组多分辨率特征图M作为W i和P i的加权组合：M= iW i P i，其中表示空间轴上的元素乘法。我们将这些多分辨率特征映射称为FFM。下面我们描述如何基于相对分辨率映射R（x，y）来计算Wi特征金字塔Pi的每一级表示对应于固定空间分辨率的特定偏心率，其表示为Ri。它被定义为相对分辨率，其中传递函数Ti（·）处于其半最大值，即，Ti（Ri）=0。5[34]。传递函数Ti（）是将相对分辨率r映射到相对幅度的函数Ti（r）=ex p（−（2i−3r/σ）2/2）。（2）R1阶>R2阶>R3阶>R4阶>R5阶，形成4个分辨率仓其边界由Ri和Ri 1（i ∈ {2，3，4，5}）定义。计算位置（x，y）处的权重，我们首先确定哪个bin像素（x，y）落在根据其相对分辨率R（x，y）（详见补充材料）。假设像素（x，y）落在层j和j-1之间，即，Rj 1≥R（x，y）>Rj≥. 然后，我们将layerj和j-1处的weights设置为在相对幅度空间中，像素（x，y）和相应层之间的距离与（x，y）处的层j和j-1之间的距离Wi（x，y）=0。5−Tj（R（x，y））Tj1（R（x，y））−Tj（R（x，y））10. 5−Tj（R（x，y））Tj−1（R（x，y））−Tj（R（x，y））如果i=j-1，如果i=j，（三）000元，否则显然，iWi（x，y）= 1，并且在位置（x，y）处，仅来自层j和层j1的特征被集成到最终的FFM中。在[34]中，α通过生理实验被调整为与人类感知相匹配。在这里，我们直接从人类注视数据中学习FFM的参数α和σ以及3.2奖励和政策学习使用FFM作为我们的状态表示，我们使用IRL框架训练了一个模仿人类凝视行为的策略[43]。然而，我们发现GAIL[18][43]中使用的IRL算法对其超参数过于敏感，这是由于其对抗性学习设计，这也在[23]中显示。因此，我们使用IQ-Learn [12]作为我们的IRL算法。基于软Q-Learning [14]，IQ- Learn在单个Q函数中编码奖励和策略，因此能够同时优化奖励和策略。设Q（s，a）为Q函数，它将状态-动作对（s，a）映射为表示在状态s下采取动作a所获得的未来奖励量的标量值。我们希望找到一个奖励函数，使专家策略在所有其他可能的情况下获得的累积奖励+v：mala2255获取更多论文CUPΣΣ×·|Ldet=−N|Σ（七））否则，目标缺失的人类注意力7施政纲要而因此，IQ-Learn通过最小化以下损失来训练Q函数Lirl=−EρE Q（s，a）−γEs′<$P（s，a）V（s′），（4）其中V（s）=logaexp（Q（s，a）），ρE和表示占用度量专家政策[18]和动力学，分别。我们没有将[12]中提出的χ2-发散应用于奖励函数，因为它没有导致我们的任务有任何显著的改进给定学习的Q函数Q，我们可以计算作为状态和动作的函数的奖励r（s，a）=Q（s，a）−γEs′<$P（s，a）V（s′），（5）以及作为状态函数的策略：exp（Q（s，a）/τ）π（a s）=a'.（六）exp（Q（s，a′）/τ）τ是温度系数，控制作用分布的熵行动空间。我们的任务是预测下一个固定给定以前的固定，输入图像，和分类目标。为了预测对图像的注视，我们遵循[43]并将图像空间离散为20 32网格（动作空间）。在每个时间步，策略根据预测的分类动作分布π（s）从640个网格单元中采样一个单元。对于选定的网格单元格，我们将预测的固定设置为单元格的中心辅助侦查任务。视觉搜索任务本质上是一个检测任务，因此状态表示捕捉目标对象的特征是很重要的。此外，在目标对象不存在的目标缺失搜索中，人类行为由目标相对于其他共同出现的对象的预期位置驱动。与[43]直接使用预训练的全景分割网络的输出相比，我们用预测对象中心图的辅助任务来具体来说，我们在FFM之上添加了一个检测网络模块该模块输出80COCO数据集中的80个对象类别的热图Y=[30]。设Y=xyc表示位置（x，y）处的第c个热图的值在CenterNet之后 [48]，我们使用像素级焦点损失[29]作为训练整个网络的额外损失1美元。（1−Y<$x yc）κlo g（Y<$x yc）如果Yx yc=1，x，y，c）κlog（1−Y<$xyc）λ（Y<$xyc（1−Yxyc其中Y是由对象大小相关的高斯内核创建的地面实况热图[27]。我们设置κ=2和λ=4，如[48]中所示。请注意，我们并没有预测图像中物体的精确高度和宽度，因为我们认为对不同物体位置的粗略估计足以帮助预测目标缺失的注视。我们使用IRL损失和辅助检测损失来学习Q函数：L=Lirl+ωLdet，（8）+v：mala2255获取更多论文八Z。Yang等人其中ω是平衡两个损失项的权重终止预测。当一个人将停止搜索是一个内在的问题，以目标缺席搜索。与[7]不同的是，[7]将终止描述为策略学习中固定预测的额外动作，我们将终止预测视为新固定后每一步发生的额外任务。我们发现，如果我们把终止作为一个额外的行动，政策将过度适合终止行动，因为它似乎比其他行动更频繁。为此，我们在Q函数的基础上训练一个二元分类器（参见第二节）。3.2）用于使用二进制交叉熵损失的终止预测我们权衡的损失计算，在终止和非终止行动成反比，他们的频率。此外，心理学研究[10，41]表明，时间可能是预测停止的重要因素。然而，我们在模型中没有预测注视的持续时间。相反，我们使用先前固定的数量作为时间的近似值，并将其与Q函数的Q值连接起来作为输入来训练终止分类器。4实验我们通过使用COCO-Search 18 [ 8 ]来训练和评估所提出的方法和其他模型，COCO-Search 18 [8]在搜索18个不同的对象类别时包含目标存在和目标不存在的人类扫描路径。COCO-Search 18有3101个目标存在图像和3101个目标不存在图像，每个图像由10个受试者查看在本文中，我们主要集中在目标缺席注视行为预测。除非另有说明，否则所有模型仅使用目标缺失图像和固定进行训练。对于所有模型，我们以贪婪的方式为每个测试图像预测一个扫描路径总是从预测的动作分布中选择具有最大概率质量的动作作为下一个注视），并将它们与地面实况扫描路径进行比较。4.1语义序列评分序列得分（SS）经常被用来量化扫描路径预测的成功[4，43]。序列分数通过现有的字符串匹配算法计算，该算法在将两个注视序列转换为注视聚类ID的字符串之后比较两个注视序列[ 33 ]。基于注视位置来计算注视聚类。然而，我们认为，序列分数并没有捕捉到在分析目标导向注意中起重要作用的注视的语义意义：它只捕捉到一个人在看“哪里”，而不是“什么”被看。为此，我们提出了语义序列评分（SemSS），它通过利用COCO [ 30 ]中提供的分割注释将固定序列转换为对象类别序列。然后，我们应用与传统序列得分相同的字符串匹配算法来度量两个扫描路径之间的相似性使用“ 事物 ” 与 “ 东西” 范式 [ 6 ] ，我们不区分对象实例。本文主要+v：mala2255获取更多论文××××目标缺失的人类注意力9只关注“事物”类别，因为我们感兴趣的是非目标对象如何共同影响视觉搜索任务中的人类注视行为。“东西”类别可以很容易地集成到语义序列得分中。其他指标。我们还报告了其他扫描路径预测指标，包括传统的序列得分和条件优先级图[24]，其测量了在给定先前注视时，模型使用包括信息增益（IG）和归一化扫描路径显著性（NSS）[ 5 ]的显著性指标预测注视的效果。为了清楚起见，我们用cIG和cNSS表示它们，其中“c” cIG测量模型预测在使用训练注视点计算的任务特定注视密度图上的信息增益量。cNSS测量预测的注视概率图与地面实况注视之间的对应性。此外，为了衡量终止预测的准确性，我们报告了预测和地面实况扫描路径长度之间的平均绝对误差（MAE）。为了与不自动终止的模型（如IRL [43]）进行公平比较，我们还通过在前2个和前4个新固定处截断预测和地面实况扫描路径来报告截断序列得分，分别表示为SS（2）和SS（4）4.2实现细节网络结构。在[43]之后，为了提高计算效率，我们将输入图像的大小调整为320 512。如图1所示，我们的模型具有三个组件：一组11个卷积层，其将特征金字塔中的特征图投影到相同的维度（即，FFM中的通道数量）;对象检测模块;以及注视预测模块。我们将FFM通道的数量固定预测模块和对象检测模块共享由三个连续卷积块组成的相同ConvNet，这三个连续卷积块将输入中心凹特征图（FFM）的空间分辨率降低了8倍（从160 256到20 32）。在卷积块的两个连续卷积层之间，我们应用层归一化[3]和ReLU激活函数。最后，固定预测模块使用两个卷积层将共享ConvNet的输出映射到18个注意力映射（COCO-Search 18 [8]中的每个目标对象检测模块具有类似的结构，但输出80个中心图（COCO [30]中每个对象请注意，本文中所有模型的骨干网络在训练期间都保持固定。详细网络参数见附件。超参数我们在本文中使用Adam [21]优化器训练模型，学习率为10 −4。方程中的辅助检测损失ω的权重（8）为0.1。在COCO-Search 18 [8]中，一个度中的像素数视角p= 9。14.我们根据P 1的空间分辨率对其进行缩放，并设置p= 4。57.对于具有终止预测器的模型，我们在训练和测试期间将每个预测扫描路径的最大长度设置为10（不包括初始固定）。对于不自动终止的模型，我们将扫描路径的长度设置为6，这大约是COCO-Search 18中无目标扫描路径的平均长度。对于IQ-Learn算法，+v：mala2255获取更多论文××10Z. Yang等人表1. 在COCO-Search 18的无目标测试集上使用多个扫描路径度量（列）比较无目标扫描路径预测算法（行）。最佳结果以粗体突出显示SemSSSScIGCNSsSS（2）SS（4）人的一致性0.5420.381--0.5610.478检测器0.4970.321-0.5160.4460.4970.402固定启发法0.4840.298-0.5990.4050.4920.379IRL [43]0.4760.3190.0321.2020.5080.407Chen等人[7]《中国日报》0.4840.331--0.5160.434我们0.5160.3720.7291.5240.5370.441奖励折扣系数设置为0.8。在[15，12]之后，我们在IQ-Learn中使用目标更新和重播缓冲区来稳定训练。方程中的温度系数τ（5）设为0.01。我们使用系数为0.01的指数移动平均来重放缓冲区可以容纳8000个状态-动作对，并在训练期间在线更新。4.3比较扫描路径预测方法我们将我们的模型与以下基线进行比较：1）人类一致性，一种使用一个目标的扫描路径来预测另一个目标的扫描路径的方法; 2）检测器，一种在COCO-Search 18的目标存在图像上训练的ConvNet，以输出目标检测置信度图，我们从该图中顺序地对注视进行采样，并抑制返回（IOR）;3）固定启发式，类似于检测器，但经过训练以使用目标缺失数据来预测人类注视密度图;以及最近的方法，包括4）IRL [ 43 ]和5）Chen等人。s模型[7]。注意Chen et al.的模型使用了更精细的动作空间3040。为了公平比较，我们将其预测的注视点重新缩放到我们的动作空间2032岁从Tab可以看出1，我们的方法优于所有其他方法在所有指标的目标缺席扫描路径预测2。我们的方法最接近人类的一致性，这被认为是任何预测模型的天花板。在序列评分的情况下，我们的方法仅比人类的一致性差0.09，领先第二好（Chenet al. [7] 0.41。排除终止预测因子的影响，前2和4个固定的序列分数也表明，即使没有终止扫描路径，我们的方法仍然是最好的相比，所有其他计算模型。此外，比较截断扫描路径和完整扫描路径的序列得分，我们看到随着所有方法的扫描路径长度增加，性能下降的趋势，即，SS（2）>SS（4）>SS，这种模式在目标缺失搜索中特别明显（对于目标存在搜索，SS和SS（4）之间没有显著差异，见表1）。3）。事实上，在没有目标的搜索过程中，后来的注视更难被发现。2cIG和cNSS都只能计算自回归概率模型（我们的方法，IRL，检测器和固定启发式）。+v：mala2255获取更多论文目标缺失的人类注意力11微波水槽刀停止标志人类我们IRLChen等人[五]《中国日报》检测器固定启发法图二、可视化不同搜索目标（列）的不同方法（行）的预测扫描路径。最上面的一行显示了真实的人类扫描路径，其他行是来自不同模型的预测扫描路径。预测表明，人类的眼球运动在搜索的后期表现得更加随机，特别是当场景中没有目标时。我们还定性地比较不同的方法，通过可视化他们的预测扫描路径的四个场景图2。当在这个场景中搜索微波炉时，我们的方法单独预测了图像中经常发现微波炉的所有三个桌子和柜台表面上的固定（类似于代表性的人类搜索方式）。在水槽和刀子搜查中也观察到类似的现象。这表明，我们的方法能够捕捉对象之间的上下文关系，在驱动目标缺失注视中发挥作用。在搜索停车标志时，我们的方法是唯一一种查看位于中心的垂直物体顶部的方法，尽管有严重的遮挡，推测是因为停车标志通常安装在杆的顶部相比之下，IRL使用预训练的ConvNet从模糊像素中提取特征，完全未能捕捉到这张图像中的垂直物体，+v：mala2255获取更多论文12号Z。Yang等人0.500.450.400.350.300.25截断扫描路径完整扫描路径集团模型Invidiual模型集团模型Invidiual模型扫描路径长度6420群体模型图三. 比较组模型（红色）和个体模型（青色），使用：（左）无自动终止的截断扫描路径（前4个固定）的序列评分，（中）包括终止的完整扫描路径的序列评分，以及（右）预测扫描路径长度的平均绝对误差。我们对每个实验设置进行Wilcoxon符号秩检验。双侧p值分别为0.012、0.028和0.006。引导搜索这证明了使用我们提出的FFM捕获从周边视觉提取的指导性上下文信息的价值4.4群体模型与个体模型在目标存在搜索中，由于图像中的目标对象提供的强引导，人类扫描路径非常一致。事实上，用一群人的注视训练的模型对一个新的看不见的人进行了很好的推广[43]。然而，考虑到目标缺失搜索的终止时间存在很大的个体差异[8]，我们预计个性化建模对于目标缺失搜索预测可能为了检验这一假设，我们比较了群体与个体对目标缺失搜索注视的预测性能组模型用9个受试者的训练扫描路径进行训练个体模型用单个受试者的训练扫描路径进行训练，并在同一受试者我们对所有10个受试者都这样做了图3显示了组模型和个体模型在完整扫描路径和截短扫描路径（前四个固定）的序列得分有趣的是，尽管使用较少的数据进行训练，但在完整扫描路径建模中，个体模型显示出比组模型更好的性能，而在截断扫描路径预测中，组模型表现得更好。截断与完整扫描路径的建模之间的关键区别在于，后者涉及搜索终止预测。图3中最右边的图还显示，个体模型在扫描路径长度预测中产生的误差（以MAE度量）比组模型更少。这些结果共同表明，个性化建模可能更适合无目标搜索预测。更多关于不同受试者终止标准的实验结果见补充资料。序列评分平均绝对误差+v：mala2255获取更多论文目标缺失的人类注意力13表2. 消融研究。我们消除损失函数（第二行）和状态表示（第三和第四行）。所有方法都使用IQ-Learn进行训练SemSSSScIGCNSsSS（2）SS（4）常客里程0.516 0.372 0.729 1.524 0.5370.441FFM（无检测丢失）0.4760.3500.5501.332 0.545 0.437DCBS0.5080.3550.2121.1290.5140.426CFI0.5040.3520.5181.2520.5060.426FPN0.5080.3380.0180.8810.4080.351二进制掩码0.5100.3640.3471.1480.4380.378表3. 在COCO-Search 18测试数据集上使用多个扫描路径度量比较目标存在扫描路径预测算法。SemSSSScIGCNSsSS（2）SS（4）人的一致性0.6240.478--0.4860.480IRL [43]0.5360.419-9.7091.9770.4370.421Chen等人[7]《中国日报》0.5720.445--0.4290.319我们0.5620.4511.5482.3760.4670.4504.5消融研究首先，我们消除损失（见等式2）。（8）通过去除辅助检测损失来改进我们的模型。其次，我们通过使用相同的 IRL 算法（即， IQ-Learn）。作为更细粒度的消融，我们通过使用COCO预训练的Mask R-CNN的FPN主干提取的特征作为状态表示来消融FFM。我们使用FPNP2的最高分辨率特征图。我们进一步二进制化我们的模型的FFM，使得值在最细水平（中央凹）的固定位置和粗水平（外围）的非固定位置处为1，并且在其他地方为如Tab中所示。2，所提出的辅助检测损失在6个度量中的5个度量中提高了性能。语义序列得分从0.476增加到0.516，这表明知道图像中的非目标对象的位置有助于预测目标缺失注视。比较不同的状态表示（即，FFM，DCB，CFI，FPN和二元掩码），我们可以看到，所提出的FFM在预测目标缺失注视方面优于所有其他状态呈现。这显示了FFM在表示人类通过注视获得的知识方面的优势，与DCB和CFI相比，DCB和CFI在模糊图像上应用预训练的ConvNets来模拟中央凹视网膜。+v：mala2255获取更多论文14Z. Yang等人4.6目标存在搜索尽管目标缺席搜索的动机，我们的方法也直接适用于目标存在的固定预测。在本节中，我们将我们的模型与两个竞争模型IRL [43]和Chen等人进行比较。[7]，在目标存在扫描路径预测中。为了公平比较，我们遵循[43]并将所有模型的最大扫描路径长度设置为6（不包括第一次固定），一旦固定落入目标的边界框中，则自动终止扫描路径。选项卡. 3表明，我们的方法在6个指标中的5个指标 Chen等人，的模型在语义序列得分上略优于我们的模型。他们使用了一个预先训练好的CenterNet [48]，[30]（约118 K图像）来预测目标的边界框作为其模型的输入，而我们仅在COCO-Search 18中使用目标存在的图像[8]（约3K图像）来训练我们的对象检测模块（见图1）。尽管使用较少的数据进行训练，我们的模型仍然优于Chen等人。[7]在其他五个度量中，特别是当在截断的固定长度扫描路径中评估SS（2）和SS（4））。我们还希望我们的模型在使用所有COCO训练图像来训练我们的目标检测模块时表现更好。选项卡. 1、Tab。3一起证明了我们提出的方法不仅在预测目标缺失注视方面表现出色（见第二节）。4.3），但也有目标存在的固定。5结论与讨论我们已经提出了第一个计算模型，用于预测目标缺席的搜索扫描路径。为了表示观众通过注视获得的内部知识，我们提出了一种新的状态表示，中心凹特征图（FFM）。FFM通过将预训练的ConvNet产生的网络内特征金字塔与中央凹视网膜集成，规避了在先前方法中直接将预训练的ConvNet应用于模糊图像的缺点[44，43]。当在COCO-Search 18数据集上进行训练和评估时，FFM的性能优于以前的状态表示，并实现了最先进的性能使用IRL框架预测目标缺失和目标存在搜索注视。此外，我们还提出了一个新的变种的序列得分测量扫描路径的相似性，称为语义序列得分。它更好地捕获用于指导目标缺失搜索的对象到对象关系今后的工作。受[43]的启发，我们未来的工作将涉及扩展我们的模型和语义序列得分，以包括COCO [ 6 ]中的“东西”类别，以研究背景类别对目标缺失搜索凝视行为的影响，并探索使用半监督学习通过利用COCO图像中的丰富注释来解决人类凝视数据的缺乏[ 30 ]。致谢。作者要感谢Jianyuan Deng在结果可视化和统计分析方面的帮助。该项目得到了美国国家科学基金会奖IIS-1763981和IIS- 2123920、合作伙伴大学基金、SUNY 2020基础设施传输安全中心以及Adobe的部分支持。+v：mala2255获取更多论文目标缺失的人类注意力15引用1. Akbas，E.，议员埃克斯坦：通过使用中央凹视觉系统的搜索进行目标检测PLoS计算生物学（2017）2. 亚历山大，R.G.，Zelinsky，G.J.：分类搜索中的视觉相似性效应Jour-nal ofvision11（8），93. Ba，J.L.，Kiros，J.R.，Hinton，G. E.：层归一化。arXiv预印本arXiv：1607.06450（2016）4. Borji，A.，Tavakoli，HR，Sihite，D.N.，Itti，L.：视觉显着性预测中的分数、数据集和模型分析。在：IEEE计算机视觉国际会议论文集。pp. 9215. Bylinskii，Z.，贾德，T.，Oliva，A.，Torralba，A.，Durand，F.：关于显着性模型，不同的评估指标告诉我们什么？ IEEE transactions on patternanalysis and machine intelligence41（3），7406. 凯撒，H.，Uijlings，J.，Ferrari，V.：Coco-stuff：上下文中的东西类。在：IEEE计算机视觉和模式识别会议论文集。pp. 12097. 陈旭，蒋，M.，Zhao，Q.：预测视觉问答中的人类扫描路径。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 108768. 陈玉，杨志，Ahn，S.，萨马拉斯，D.，Hoai，M.，Zelinsky，G.：coco-search 18固定数据集用于预测目标导向注意力控制。科学报告11（1），19. 陈玉，杨志，Chakraborty，S.，Mondal，S.，Ahn，S.，萨马拉斯，D.，Hoai，M.，Zelinsky，G.：人类注意力缺失的特征。在：IEEE/CVF计算机视觉和模式识别会议（CVPR）研讨会上。pp. 503110. 春，M.M.，沃尔夫，J.M.：说不：当没有目标存在时，视觉搜索如何终止？认知心理学30（1），3911. 议员埃克斯坦：视觉搜索：回顾。视觉杂志11（5），14-14（2011）12. Garg，D.，Chakraborty，S.，坎迪角，宋杰Ermon，S.：Iq-learn：Inversesoft-q学习模仿。神经信息处理系统进展34（2021）13. 盖柳斯河Rubisch，P.，Michaelis，C.，Bethge，M.，Wichmann，F.A.，布兰多，W.：ImageNet训练的CNN偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。在：国际学习代表会议（ 2019 ），https://openreview.net/forum? ID=Bygh9j09KX14. Haarnoja，T.，Tang，H.，Abbeel，P.，Levine，S.：基于深度能量策略的强化学习。上一篇：机器学习国际会议pp.公元1352 PMLR（2017）15. Haarnoja，T.，Zhou，A.，Abbeel，P.，Levine，S.：Soft Actor-Critic：Off-policy Maxi- mum Entropy Deep Reinforcement Learning with a Random Actor。上一篇：机器学习国际会议pp. 1861-1870. PMLR（2018）16. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77017. Hendrycks，D.，Dietterich，T.：基准神经网络的鲁棒性常见的腐败和扰动。在：国际学习代表会议（2019年），https://

下载后可阅读完整内容，剩余1页未读，立即下载