新进展：小鼠运动与注视的视觉显著性分析

145 浏览量更新于2023-10-16 收藏 1021KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1774再论显著性：小鼠运动与注视的分析哈米德河Tavakoli<$Fawad Ahmed<$Ali Borji<$ Jorma Laaksonen<$†部门芬兰阿尔托大学计算机科学系‡部门计算机科学，中佛罗里达大学，奥兰多摘要本文回顾了视觉显著性预测，通过评估该领域的最新进展，如基于众包鼠标跟踪的数据库和上下文注释。我们追求一个关键的和定量的ap-proach对一些新的挑战，包括鼠标跟踪与眼动跟踪的模型训练和评估的质量。我们扩展了模型的定量评估，以便通过提出一种评估方法来纳入上下文信息，该方法允许对上下文因素（如文本、面孔和对象属性）进行评估。拟议的上下文评价计划，便于详细分析模型，并帮助确定其利弊。通过几个实验，我们发现：（1）与眼动数据相比，鼠标跟踪数据具有较低的参与者间视觉一致性和较高的离散度，（2）鼠标跟踪数据在总体上和具体的不同上下文区域方面与眼动数据并不完全一致，以及（3）鼠标跟踪数据在训练当前现有模型时导致可接受的结果，（4）小鼠跟踪数据对模型选择和评价的可靠性较低。上下文评估还显示，在所研究的模型中，没有一个模型在所有测试的注释上表现最好。1. 介绍最近在视觉显著性领域取得了重大进展。已经引入了许多模型和数据集新的数据库在两个方面得到扩展：（1）增加图像和观看者的数量，以及（2）引入更丰富的上下文注释（例如，图像类别[2]和区域属性[33]等）。为了实现这些目标，研究人员一直依赖于众包方案来记录眼球运动（例如，使用网络摄像头[34]）或替代信号，如鼠标移动和点击（例如，”[14]注。然而，在取得这些进展的同时，也出现了需要应对的新挑战。例如，是否以及在多大程度上不同，仍有待回答。图1.使用眼睛和鼠标跟踪的固定图的视觉比较从左至右：图像，眼睛跟踪，使用Amazon Mechanical Turk（AMT）的鼠标跟踪，以及来自[33]的受控实验室（LAB）中的鼠标跟踪。红色和绿色椭圆分别表示高估和低估。意向代理是否一致是否有可能通过利用大规模的鼠标数据达到人类水平的准确性？这些新类型的数据应该如何用于显著性模型的评估和构建？图1直观地比较了眼睛和鼠标跟踪的密度图它描述了地图之间的明显差异，鼓励详细的定量研究。我们的贡献。本文提出了两个主要贡献：（1）评估作为眼动跟踪的替代方案的众包鼠标跟踪的质量，以及这些数据对模型训练和评估的影响，以及（2）介绍-引入用于以细粒度方式评估模型的上下文评估方案。语境评价适用于模型评估和小鼠跟踪与眼跟踪的比较。此外，这项研究将解决一些问题，已经浮出水面的介绍鼠标跟踪为基础的数据库，并帮助更好地了解显着性模型这是另一个基准吗？不，我们没有进行另一个基准。文献已经充满了基准[3，17，4，6]，度量讨论[21，26，32，7]、综述论文[28，1]和分析模型比较[8]。或者，我们试图回答一些重要的问题，有关鼠标跟踪作为一种替代眼睛1775动作这些问题的答案将有利于模型的验证和评估。此外，我们还试图将可用的上下文注释纳入模型评估，以促进模型的自动详细分析。这将帮助我们更好地理解模型的优点和缺点。2. 相关研究考虑到视觉显著性和固定预测的鼠标跟踪分析，最相关的工作是[14]。它提出使用鼠标跟踪而不是眼睛跟踪，以便在更大幅度的刺激（数百万而不是数百或数千）上按比例增加数据收集Jiang等人[14]分析了小鼠数据的一些属性，如中心偏差，评估了小鼠地图与固定地图，并使用小鼠跟踪数据比较了显着性模型。然而，他们的工作中也有一些方面被忽视了，如参与者之间的一致性，鼠标跟踪对训练显着性模型的影响，使用鼠标和眼睛跟踪的模型评估和比较。在这里，我们重新审视江等人。的工作，并进行系统的调查鼠标数据方面的眼球运动。考虑到上下文模型分析，本文最相关的是Bylinskii等人最近的研究。[8]的一项建议。他们选择了几个基于MIT300数据集的深度学习架构的最佳显着性模型[6]。数据库轨道公司简介易学（O，I）Cont 外部的安诺蒂对ET湿MtOLICOAFBFIGRIM[5]×--(15 630）××--EFC[15]×--(16 500）×-×-KTH Koostra[19]×--(31、99）-×--NUSEF[25]×--(25，758）-×--CAT2000[2]×--(24，4000）-×--[22]第二十二话×--(12，850）×---iSUN[34]-×-（3，8926）××--SALICON[14]--×(60，万人）×---OSIE[33]×-×(15、700）×-××表1. 在增强注释和眼动跟踪技术方面比较数据库。（O，I）对应于观察者的平均数量和图像的数量。跟踪技术是ET：商业高端眼动追踪设备，wET：基于网络摄像头的眼动跟踪，MT：鼠标跟踪上下文信息的类型为OL：对象类型和定位，IC：图像类别和场景类型，OA：对象属性，FB：对象的前地/背景属性。3. 显着性数据库上下文注释存在许多用于显著性评估的数据库截至本文撰写时，[6]列举了23个数据集。这些数据库经常在刺激和实验设置方面相互比较（例如，观察者的数量、到图像中心的距离、记录设备、任务等）。而不是沿着这些维度比较数据集，我们研究它们的增强与额外的信息。存在不同级别的增强，包括图像类类别、对象定位和对象属性注释。然后，他们进行了一项行为研究，要求亚马逊土耳其机械工人标记（15个标签中的1个）图像区域，这些区域位于>95%的固定热图上。通过分析这些区域的模型失败，他们发现，大约一半的模型错误是由于未能准确地检测到人，面部，动物和文本的部分，这意味着模型应该尝试改进这些区域。对这种基于人类的评估的主要批评是，它仅限于模型，主题和图像的数量，使得大规模进行成本高昂为了弥补这些不足，我们扩展了现有的评估方案，并提出了一个系统的框架上下文模型评估。然后，我们采用所提出的技术，尽可能详细比较鼠标跟踪和眼动基准研究和度量研究在方法论上与当前的研究有一些共同之处。例如，Borji et al.[4]分析了影响显著性评估的不同参数（例如，中心偏差、类别等），以便对模型进行基准测试。Riche等人[26]采用统计分析，以便为显着性评估进行度量选择。他们表明，少量的指标是足够的模型评估，因为许多指标携带类似的信息。然而，这项研究是解决鼠标跟踪作为眼动跟踪学习显着性的替代方法的影响。表1总结了一些最值得注意的增强数据库。如图所示，大多数数据库都有对象类别注释，对象边界框、对象遮罩或对象边界。然而，只有两个数据库具有上下文对象属性注释：人群中的眼睛注视（EFC）[15]和对象和语义图像与眼睛跟踪（OSIE）[33]。收集EFC数据库用于分析人群中的显着性它包含面边界框本地化及其属性，例如面是正面、侧面、背面还是被遮挡。OSIE数据库具有范围最广的上下文注释，由12个布尔属性组成，传达对象的语义含义。这些属性包括：文本、面部（包括：背面、侧面和正面）、情感（如果面部传达情感）、声音（产生声音的物体）、气味（具有气味的物体）、味道（任何可以品尝的东西）、触摸（任何具有触觉的东西）、运动（移动/飞行物体），可操作性（用手握住的天然或人造工具），可观看（设计为被观看的人造对象）、被触摸（被触摸的对象）和被注视（如果对象被图像中的某个人注视）。除了丰富的上下文注释外，OSIE还定义了对象的前景/背景属性，这对于验证模型如何区分背景和前景区域是理想的。1776OSIE数据集为比较鼠标和眼动跟踪提供了宝贵的机会它包括700个图像，15个眼动跟踪观察员（OSIEEYE），使用受控实验室设置（OSIE LAB）的约46名小鼠跟踪参与者，以及使用Amazon Mechanical Turk（OSIE AMT）的至少86名小鼠跟踪参与者。因此，我们的研究基于OSIE数据集。4. 度量显着性评价的方法。过去已经引入了许多用于显著性评估的度量。其中一些是：基于ROC的度量（例如，AUC[30]、 AUC-Judd[18]、 AUC-Borji[4]、混洗AUC（sAUC）[4，36]、分箱AUC[32]）、基于相似性的度量（例如，相关系数（CC）[16]、Kullback-Leibler发散度（KL）[21，36，13]、相似性得分（SIM）[17]、地球移动器扫描路径评估评分[4]）。为了简洁起见，我们省略了详细解释，并请读者参考相关出版物[4，7，21，26]。度量的微小变化有时会对度量解释产生重大影响。例如，[13]采用KL度量作为一种技术来测量显着图中固定位置和随机位置分布之间的相似性，而在[6，26]中，KL是根据固定密度图和显着图之间的相似性来测量的。因此，在[13]中，KL值越高越好，在[6]中，KL值越低越好。值得注意的是，我们在实验中遵循[6]适当的度量。许多显着性度量传递相同的信息，使得模型性能解释困难。为了更容易解释的结果，我们的动机是选择一个子集的指标。本算法1计算显着图的上下文评估指标：如何缩放您首选的传统指标以利用上下文数据。⊙是元素乘积。输入：Sal：大小为W×H的显著性图，大小为W×H×O的上下文掩码Cm的张量，其中O是区域的数量，大小为O×N的上下文属性矩阵Ca，其报告属性的存在，其中N是属性的数量，以及大小为W×H的人类注视图Fix。输出：上下文属性的评估值Score的向量1：对于Cm中的所有o区域，2：Salo=SalCm（：，：，o）3：固定o=固定Cm（：，：，o）4：s=计算度量（Salo，Fixo）5：对于Ca中的所有n个属性，6：如果Ca（o，n）为真，则7：更新平均值（评分（n），s）8：如果结束9：结束10：结束其他，根据图。二、上下文显着性评估。为了执行上下文评估，我们使用关于上下文注释的现有度量。也就是说，给定图像，我们采用与上下文属性相关联的图像的指定区域内的前向度量算法1提出了如何计算人眼注视和显著性图之间的协议与属性，如凝视，面部和文本相关联的注释区域。在原则上，所有现有的显着性评价指标可以用于上下文评价的目的，所提出的算法。这种上下文评估的结果是一个分数向量，有助于调查捕获每个属性的模型的优点虽然我们建议使用上下文分数进行细粒度分析，但也可以将分数总结为一个用于模型排名的目的。为了实现这一目标，对于凸性映射的一个向量，我们定义一个加权的αv-，结束时，对鼠标跟踪数据OSIE AMT进行评估，CScore评分=Nn=1 其中，N是人眼注视数据，OSIE EYE。对于指标，的数量，w是加权向量计算图像得分值之间的 Spearman 经典的多维标度（MDS），然后采用二维可视化的相关矩阵。结果总结于图1B中。二、说明每个属性的重要性。其中：wn=属性n上的固定次数Nn=1 wn= 1，.（一）指示度量之间的总体高相关性。考虑在第一特征值（x轴）上的投影- 它是最有贡献的特征值。度量可以被分组为三个簇。最大的集群包括编码注视信息的度量、基于AUC的度量以及NSS和IG。另外两个集群包括（1）CC和SIM，以及（2）EMD和KL。我们选择SIM，KL和sAUC来报告模型的性能。sAUC优于其他AUC指标和NSS，因为（a）它具有明确定义的下限和上限值，（b）它具有定义的机会水平值，（c）它考虑了注视分布中的中心偏倚[4]。选择SIM和KL度量，因为它们对每个度量属性为n为了进一步总结数据库中的评分，采用评分平均值，即平均CScore值得注意的是，当计算平均上下文得分时，所有属性可能不因此，应该针对具有属性的图像的数量而不是所有图像来进行平均。5. 鼠标跟踪数据参与者之间的视觉一致性。 “How is the inter-participant17770.850.650.450.250.05-0.15图2. 使用多维标度（MDS）分析选择适当的指标。从左至右：指标斯皮尔曼的秩相关矩阵，归一化的特征值和MDS可视化的指标。中间的面板表示2D可视化就足够了。第三面板中的x轴对应于第一特征值。参与者之一。值得注意的是，我们将平滑因子保持在[33，14]报告的最佳值，该值可以为所有参与者的情况产生最大性能。表2.参与者间视觉一致性的比较是-中间眼跟踪（ EYE ）和鼠标跟踪亚马逊机械土耳其人（AMT）数据。报告平均值和标准差。用于生成映射的平滑参数是[33，14]中报告的优化值。与眼动追踪相比，“参与者之间的视觉一致性反映了参与者在观看相同图像时的一致性的量。为了计算IPVC的数量，我们遵循[29]中的一对所有方案。也就是说，我们拿出一个参与者，并将其与所有其他参与者的固定图进行比较。对所有观察者和所有图像重复该过程。结果总结见表2，其中ANOVA分析显示所有指标在组间均存在显著差异（ρ<0. 001）的情况下。如图所示，与鼠标跟踪相比，眼睛跟踪实验的参与者之间存在更高的视觉一致性换句话说，鼠标跟踪数据显示参与者之间的分散度更高。由于刺激是相同的，这表明鼠标跟踪数据并不像预期的那样准确来代替眼动追踪此外，我们还通过进行另一项分析来补充IPVC，以衡量作为参与者数量函数的性能。参与者的数量与OSIE AMT的OSIE EYE中的观察员数量相同，即15名参与者。由于OSIE AMT的参与者数量较多，我们制作了10个不相交的折叠，覆盖了OSIE AMT的所有小鼠参与者对于每个折叠，我们从折叠的参与者中随机选择p个参与者该过程重复10次。对于OSIE EYE采用类似的过程，除了只有1我们使用术语参与者间而不是观察者间来表示其他记录介质（如鼠标）的作用。图3总结了结果。与IPVC实验类似，与眼动追踪参与者相比，小鼠参与者之间存在更高的分散度。然而，KL和SIM收敛到最大参与者的上限，因为它们被设计为分别为完全相似的输入产生0和1sAUC总是显示小鼠和眼睛数据之间的显著差距参加人数。“需要多少参与者才能通过跟随鼠标运动来复制眼动跟踪？“ 为了回答这个问题，我们从OISE AMT的小鼠跟踪数据中随机选择参与者，并构建小鼠密度图来预测眼睛注视密度图。我们评估不同数量的参与者。评价过程重复10次，并报告平均性能。图图4描绘了结果，表明鼠标跟踪和眼睛跟踪之间存在显著差距即使有90个参与者提供鼠标数据也不能达到15个观察者的眼动一方面，这表明不需要超过40或50只小鼠参与者，与SALICON [14]中使用的数量一致。另一方面，结果是令人震惊的，因为显著性模型上的前巨大差距的影响没有得到很好的研究。上下文信息和注视分配。 “注视如何分配到不同的区域，鼠标跟踪数据是否捕获与眼动跟踪相同的上下文信息？”通过测量所有上下文注释和图像上的平均分配注视来研究不同图像部分及其上下文注释上的注视分配。结果总结见图。五、与众多关于注意力引导特征的研究相一致，与面部、运动和可观看属性相关的区域受到更多关注也就不足为奇了。图图5还将通过眼睛跟踪的对注释区域的注视分配与通过鼠标跟踪的注视分配进行比较。相关矩阵1sAUC0.8AUC Judd0.6AUC Borji0.4NSS0.2KL0CC-0.2SIM-0.4-0.6EMD-0.8IG0.80.60.40.2EMDSIMKL电话：+86-10 -88888888传真：+86-10 - 88888888CCAUC Borji-0.20.2 0.4 0.6 0.81.0IGsAUCNSS02 468 10特征值数AUC Judd-0.4-0.6-0.8归一化特征值数据SIMKLsAUCOSIE眼0.54±0.064.71±1.440.76±0.06OSIE AMT0.43±0.036.37±0.910.61±0.0317781.000.940.880.820.760.700.640.580.520.460.4015 10156.505.855.204.553.903.252.601.951.300.650.0015 10150.900.870.840.810.780.750.720.690.660.630.601510OSIE AMTOSIE眼15参与人数参与人数参与人数图3. 将p个参与者与所有参与者进行比较。EYE将EYE评估为地面实况，AMT使用AMT评估。用于生成映射的平滑参数是[33，14]中报告的优化值。1.000.940.880.820.760.700.640.580.520.460.40110152040506080 906.505.855.204.553.903.252.601.951.300.650.00110152040506080900.900.870.840.810.780.750.720.690.660.630.6011015204050608090OSIE AMTOSIE眼参与人数参与人数参与人数图4. 实现眼动跟踪性能的鼠标参与者的数量，即，EYE和AMT都是使用EYE作为基本事实来评估的。用于生成映射的平滑参数是[33，14]中报告的优化值。0.250.200.150.100.050.00图5.使用眼动跟踪和鼠标跟踪数据对所有上下文注释的平均分配注视ing.结果表明，平均而言，鼠标和眼动跟踪显示出相同的趋势（ρ= 0. 94，p= 0。LAB和AMT分别为94）。然而，在更细的尺度上，它们具有不同的特征。例如，眼睛跟踪显示更多的目光分配给面部而不是运动，而鼠标跟踪分配更多的注意力给运动而不是面部。此外，眼动跟踪关联更多的注意文本，情感，凝视和可观看的区域，而鼠标跟踪附属更多的注意气味，味道，触摸，和可操作性。有些属性在通过鼠标和眼睛吸引注意力方面几乎是相同的，例如，声音和触摸。鼠标贴图的上下文性能。 “How well鼠标跟踪捕获上下文信息，与眼动追踪有关吗“为了回答这个问题，我们根据眼动跟踪地面实况评估了小鼠密度图。针对OSIE AMT和OSIE LAB的眼动跟踪对鼠标地图的上下文评估总结于图六、结果显示鼠标跟踪和眼动跟踪之间存在差距。该间隙对于某些特性变得更加显著背景区域是最不一致的区域SIM<0。6和KL>0。8. 这可以是鼠标跟踪可以与眼睛跟踪具有更好一致性的指示，只要显著区域是前景。这一发现也与表2中的IPVC分析和图2中的实验所示的小鼠跟踪中存在较高的分散性相一致。3.第三章。在小鼠数据上进行训练。“通过小鼠数据训练模型对其性能有什么影响？“我们的目标是通过在小鼠数据上训练模型并在两个实验中对眼动跟踪数据进行评估来回答这个问题。在第一个实验中，训练数据库是OSIE，测试集是MIT1003 [18]。我们利用SALICON模型的开源实现[12]，即OpenSali-con [27]。训练使用相同的初始化和3个时期完成，对于每个地面实况类型，使用相同的随机图像顺序馈送所有图像3次由于MIT1003[18]没有上下文注释，因此我们仅报告其传统评分。表 3 报告了使用鼠标和眼睛跟踪数据训练OpenSalicon的结果。统计显著性检验表明，所有训练的OpenSalicon模型的巴黎（通过小鼠或眼睛数据）在（p 0 . 05）的度量方面彼此显著不同<。001），除了sAUC。这表明，虽然在sAUC方面使用小鼠数据进行训练与使用眼睛数据进行训练类似，但生成的显着性图不一定与地面实况相似。图7描绘了一些示例，示出了OSIE LABOSIEAMTOSIE EYESIMProbSIMKLKLsAUCsAUC17790.900.850.800.750.700.650.600.550.500.451.21.00.80.60.40.20.00.900.860.820.780.740.700.660.620.580.540.50小鼠 LAB 小鼠 AMT 人眼图6.小鼠密度图和固视密度图与固视地面实况的比较（对于眼睛跟踪KL=0和SIM=1）。图7. OpenSalicon显着图的视觉比较，通过鼠标和眼睛数据进行训练。从左至右：地面实况，来自OpenSalicon的地图，分别通过眼睛跟踪和鼠标跟踪训练。型号（GT训练）SIMKLsAUC人类表现100.75OpenSalicon（EYE）0.3901.1980.715OpenSalicon（AMT）0.3641.2490.717OpenSalicon（LAB）0.3651.2570.722表3. 训练地面实况源对模型性能的影响：OpenSalicon在MIT1003上的性能。训练在OSIE数据库上进行，使用眼动跟踪（EYE）、来自亚马逊机械土耳其人（AMT）的小鼠数据和实验室（LAB）作为训练地面实况（GT）。虽然在小鼠数据上训练的模型捕获了显著区域，但它易于过度估计。第二个实验使用5折交叉验证方案在OSIE数据集上进行。也就是说，五分之一的数据用于测试，其余的用于训练。所有的图像都是在不相交的褶皱中使用的。在每个折叠中，针对测试集预测显著性图并根据上下文进行评估。评估始终使用OSIE EYE作为基础事实进行，也就是说，即使模型在OSIE AMT或LAB上训练，测试折叠的评估也使用基于眼动跟踪的基础事实进行。图8总结了结果。总体而言，对眼动跟踪数据的训练然而，在环境绩效方面存在一些差异。例如，在鼠标跟踪数据上训练Open-Salicon会为背景产生更好的分数，而在眼睛跟踪上训练会为前景产生更好的分数。在鼠标跟踪AMT的基础上，他学得更好，而面部，情感，和声音更好地被眼睛跟踪数据训练的模型捕获。总之，研究结果表明，鼠标跟踪通常可以作为训练数据的可接受替代品，尽管在其上训练的模型可能略逊于在眼动跟踪上训练的小鼠数据评价。“对鼠标跟踪数据的评估如何影响我们对模型性能的理解？“我们已经观察到，在上下文行为和参与者视觉一致性方面，鼠标跟踪和眼动跟踪之间存在一些差异。虽然我们在使用眼动跟踪或鼠标跟踪训练模型时没有发现严重的差异，但一个关键问题是：通过鼠标数据进行模型选择和评估是否会观察到相同的现象为了回答这个问题，我们评估了几个模型，包括OpenSalicon[27] ，SalNet[23] （深度网络），BMS[35] ，AWS[10] ，GBVS[11] ，Judd[18] ，eDN[31]，CovSal[9]基于两个数据库和地面实况数据。这些模型的选择是基于它们在MIT300[17]上的性能报告和编写本文时的代码可用性。我们在 MIT1003 上训练OpenSalicon [18]。使用作者提供的SalNet、eDN和Judd模型的预训练模型GBVS、CovSal、AWS和BMS模型不需要训练。测试数据库为OSIE、眼动跟踪和鼠标跟踪（AMT）地面实况和MIT300 [17]。为了数据库之间的可比性，我们报告了每个模型和数据库的传统sAUC、KL和SIM评分。每个模型的平均等级分数RAS是通过对模型的每个分数的等级求平均值来计算的。模型根据RAS值进行排名。结果总结于表4中。它显示了模型为了研究这一现象的严重性，我们计算了数据库中模型对之间的Spearman实验结果表明，OSIE眼动仪和MIT300眼动仪的眼动参数ρ= 0。而OSIE眼睛跟踪和OSIE鼠标跟踪对具有ρ= 0。七十三。类似地，OSIE鼠标跟踪和MIT300眼睛跟踪的配对具有ρ= 0。八十总之，在具有不同基础真值的相同图像上评估模型会产生很大的不同。SIMKLsAUC17800.850.800.750.700.650.600.550.500.450.400.351.51.20.90.60.30.00.900.860.820.780.740.700.660.620.580.540.50OpenSalicon（LAB）OpenSalicon（AMT）OpenSalicon（EYE）人眼图8. 训练地面真值源对模型性能的影响。OpenSalicon使用5折交叉验证在OSIE图像上进行训练和测试。OpenSalicon（EYE）接受了眼睛注视的训练，其中OpenSalicon（AMT）和OpenSalicon（LAB）分别接受了亚马逊机械土耳其人和实验室的鼠标跟踪训练。测试基础事实始终是眼动跟踪，并且来自眼动跟踪（人眼）的人类表现被报告为上限（对于人类KL=0和SIM=1）。与使用基于地面实况的眼动跟踪在不同图像上评估模型相比该发现不利地影响了作为眼睛跟踪的替代方案的用于模型评估的鼠标跟踪地面实况的可靠性，因为使用不同地面实况源（眼睛跟踪和鼠标跟踪）的相同图像上的显著性模型的等级相关性显著低于不同图像和眼睛跟踪地面实况的模型的等级相关性。6. 上下文模型评估在静态图像上，先前的研究[8]表明，模型仍然一致地预测语义上重要的图像区域（例如，文本、人物、动作等）。在整个图像上计算分数和平均大图像集合掩盖了这样的缺陷。因此，随着模型的不断改进，更精确地测量它们如何在上下文注释的区域上预成形我们，在这里，采用所提出的上下文模型评估方案。使用这些模型， OpenSalicon[27] （在 MIT 1003 上训练）， Sal- Net[23] （深度网络）， BMS[35] ，AWS[10]， GBVS[11]，Judd[18]， eDN[31]， CovSal[9]，我们计算OSIE EYE的显着图并根据上下文对其进行评估。表5总结了背景评分和平均CScore的结果。考虑到总体评分，平均CScore在数值上与传统评分不同。虽然OpenSalicon是总体上最好的执行模型，但它并不是所有上下文属性的赢家。不同的模型倾向于支持不同的属性。这有助于识别模型例如，AWS模型更好地捕获文本区域，但就平均CScore而言，它不是当前模型中最好的模型。因此，对于文本处理应用程序，AWS可能是一个更好的模型，以减少多余的数据。更重要的是，该方案允许一个显着性模型的弱点，更容易和有效地识别在模型排名和基准方面，计算排名如前所述，排名将是OpenSalicon> SalNet> BMS>AWS> GBVS> eDN> Judd> CovSal。因此，所提出的方法产生与传统指标类似的排名，其中通过传统指标和平均CScore的模型排名之间的相关性为：ρ= 0。在OSIE EYE上为98，ρ= 0。91与MIT300的模型等级相比。7. 结论和未来研究本研究的结果表明，参与者之间的视觉一致性是显着较低的鼠标跟踪数据相比，眼动跟踪。我们还了解到，即使是90个鼠标跟踪参与者也不能像15个眼动跟踪参与者的地图那样准确。这意味着鼠标跟踪的低效率以及通过采用鼠标跟踪获得不太准确的地面实况的在细粒度分析中，这在背景区域上的鼠标和眼睛跟踪之间的不一致中是显而易见的。尽管如此，鼠标跟踪捕获可接受水平的视觉显著性作为眼睛跟踪的低成本替代。使用OpenSalicon [27]（[12]的开源实现）分析数据类型对训练深度模型的影响，发现在鼠标跟踪上训练的OpenSalicon达到了接近在眼动跟踪数据上训练的相同模型的sAUC分数。此外，它捕获最显著的区域，尽管它可能不会根据SIM和KL分数产生与人类注视图类似的图。这促使鼠标跟踪数据可以用于模型训练。在模型评估方面，我们的结果不符合小鼠跟踪数据。鼠标跟踪似乎是模型评估和排名的不太可靠的基础事实与OSIE EYE和MIT 300（不同图像;均具有眼动跟踪地面实况）相比，OSIE EYE和OSIE AMT（相同图像;不同地面实况源类型）之间模型的等级相关性显著较小，为0.73 vs. 0.95。因此，我们不建议仅根据鼠标跟踪数据来比较模型。SIMKLsAUC1781模型OSIE数据库MIT300数据库眼睛跟踪鼠标跟踪（AMT）眼睛跟踪sAUCKLSIMRasRsAUCKLSIMRasRsAUCKLSIMRasR人类0.8901––0.7701––0.8101––[27]第二十七话0.800.790.52110.680.550.67340.720.830.5022SalNet[23]0.780.860.50220.690.440.73110.690.810.521.331BMS[35]0.781.040.442.6630.680.470.652.6630.650.810.512.333AWS[10]0.761.100.43440.680.470.64340.681.070.434.335GBVS[11]0.681.100.434.3350.600.440.662.3320.630.870.4844贾德[18]0.681.300.36560.600.510.60460.601.120.426.336eDN[31]0.681.310.365.3370.590.520.59570.621.140.416.667科维萨尔[9]0.592.260.40680.532.820.496.380.572.680.476.667表4. 比较眼动跟踪和鼠标跟踪地面真实数据进行模型评估。RAS是指标上的平均等级分数，R是最终等级。度量模型背景属性前景背景平均CScore文本脸情感声音气味味道触摸运动操作性值得观看感动望sAUC人类0.710.790.840.840.830.810.770.840.800.760.780.780.850.860.80OpenSalicon0.590.650.730.690.640.650.610.740.600.630.640.630.740.710.66SalNet0.550.650.690.660.690.640.620.700.600.600.600.620.680.720.64BMS0.560.630.680.640.640.630.610.630.580.600.600.620.650.740.62AWS0.570.600.600.620.610.600.600.630.570.590.590.600.640.740.60eDN0.510.610.650.620.570.540.570.580.520.520.540.560.560.670.57贾德0.480.610.640.620.560.530.540.590.510.500.540.560.550.670.56GBVS0.490.600.610.580.550.540.560.560.520.500.550.560.540.660.55CovSal0.470.610.630.590.520.490.520.520.500.480.510.560.500.610.53KLOpenSalicon0.130.240.250.380.460.390.390.410.390.240.290.270.551.310.30SalNet0.300.230.290.370.320.320.370.460.330.330.280.300.601.240.32BMS0.130.240.330.440.430.390.390.620.380.230.320.270.741.410.35GBVS0.140.220.320.420.470.400.350.620.360.260.320.270.781.340.35AWS0.120.270.380.470.480.420.380.630.400.240.320.280.781.400.37eDN0.130.250.360.450.490.410.380.650.370.260.330.290.791.580.37贾德0.140.260.360.440.490.420.390.650.380.260.340.290.801.590.37CovSal2.171.160.460.851.111.782.331.341.582.230.881.291.823.321.45SIMSalNet0.830.780.720.690.700.710.720.650.720.780.750.760.580.420.74OpenSalicon0.820.770.750.680.640.680.680.670.680.760.740.750.600.390.73BMS0.820.760.700.650.650.670.680.580.680.760.720.740.540.350.71GBVS0.820.770.700.660.630.670.700.590.690.750.720.740.510.370.71AWS0.830.750.680.650.630.660.690.590.680.760.720.740.520.350.70eDN0.820.750.680.640.620.660.680.570.680.750.710.730.500.310.69贾德0.820.750.680.650.620.650.680.570.670.750.710.730.500.300.69CovSal0.710.750.720.660.580.590.620.550.630.660.680.700.440.380.66表5.使用眼动追踪作为地面实况对OSIE上的模型进行上下文评估。背景、前景和平均CScore中的每一个的sAUC、KL和SIM分数，即，平均注视加权上下文得分。KL=0和SIM=1时的人因性能。模型按每个得分的性能降序显示。未来的方向。我们的研究结果表明，鼠标跟踪数据一般提供了一个一阶近似的眼睛跟踪。鼠标跟踪数据对于模型训练是有用然而，细粒度的分析突出了鼠标跟踪数据的短期性，特别是诸如注视方向、动作终点等的上下文线索的影响。（见图1）我们的研究结果表明，最近基于深度学习的显着性模型所实现的高性能可能仅仅是由于大量的训练数据。老鼠的数据，虽然嘈杂，已经非常有帮助，但这并不一定意味着收集更多的老鼠数据将最终让我们达到人类对注视的准确性我们认为，未来的研究应该集中在对地面真实数据和模型的细粒度分析上，以便更好地理解注意机制和改进现有的显着性模型。我们的研究表明，没有一个模型在所有上下文注释上表现最好。这表明模型可以相互补充，并激发进一步的研究，以了解模型的致谢。芬兰计算推理研究卓越中心（COIN）获得认可。1782引用[1] A. Borji和L.伊蒂视觉注意力模型的最新进展 IEEETrans. 模式分析马赫内特尔，35（1）：185[2] A. Borji和L.伊蒂Cat2000：一个用于促进显着性研究的大规模固定数据集。arXiv：1505.03581，2015。[3] A. Borji，D. Sihite和L.伊蒂视觉显著性建模中的人体模型一致性的定量分析：比较研究。IEEE传输图像处理。，22（1）：55[4] A. Borji，H. R. Tavakoli，D. N. Sihite和L.伊蒂视觉显著性预测中的分数、数据集和模型分析。InICCV，2013.[5] Z. 拜林斯基，P. Isola， C. 班布里奇 A. Torralba，以及A.奥利瓦图像记忆的内在和外在影响。Vision Res. ，116，B部分：165[6] Z. Bylinskii，T. Judd，A.博尔吉湖Itti，F. Durand，A.Oliva和A.托拉尔巴MIT显着性基准。2016年上线[7] Z. Bylinskii，T. Judd，A.奥利瓦A. Torralba和F.杜兰德不同的评估指标告诉我们关于显着性模型的什么？arXiv：1604.03605，2016年。[8] Z. Bylinskii ， A. Recasens ， A. Borji ， A. 奥利瓦 A.Torralba和F.杜兰德显着性模型下一步应该看什么？在ECCV，2016年。[9] E. Erdem和A. Erdem利用区域协方差非线性整合特征的视觉显著性估计。J Vis，13（4），2013.[10] A. Garcia-Diaz，X. Festival-Vidal，X. Pardo和R.多西尔去相关性和独特性提供了类似人类的显著性。在ACIVS，2009年。[11] J. Harel，C. Koch和P.佩洛娜基于图形的视觉显著性。NIPS，2007年。[12] X.黄角Shen，X. Boix和Q.赵Salicon：通过调整深度神经网络来减少显着性预测中的语义差

下载后可阅读完整内容，剩余1页未读，立即下载