显著性基准测试：分离模型、映射和度量

160 浏览量更新于2023-10-13 收藏 990KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

显著性基准测试变得简单：分离模型、映射和度量M atthiasKu¨mmererer1[0000−0001−9644−4703]，ThomasS.A. Wallis1，2[0000−0001−7431−4852]，and MatthiasBethge11WerReichardCentreferforItegrativeNeurosience，UivityofTu¨bingen，Tu¨bingen，Ger many2德国图宾根大学Wilhelm-Schickard计算机科学研究所（信息学）{matthias.kuemmerer，tom.wallis，matthias} @ bethgelab.org抽象。每年都会发布数十种关于注视预测的新模型然而，该领域的进展可能很难判断，因为模型是使用各种不一致的指标进行比较的在这里，我们表明，没有一个显着图可以在所有指标下表现良好相反，我们提出了一个原则性的方法来解决基准问题，通过分离的显着性模型，地图和指标的概念。受贝叶斯决策理论的启发，我们将显著性模型定义为固定密度预测的概率模型，并且将显著性图定义为从模型密度导出的特定于度量的预测，该模型密度最大化给定模型密度的该度量的预期性能。我们推导出这些最常用的显着性指标（AUC，sAUC，NSS，CC，SIM，KL-Div）的最佳显着性图，并表明它们可以计算分析或近似高精度。我们表明，这导致一致的排名在所有指标，并避免使用一个显着性图的所有指标的处罚我们的方法允许研究人员让他们的模型在许多不同的指标上进行竞争，而这些指标的特点是：“好的“模型将在所有指标中表现出色。关键词：显著性，基准，度量，固定，贝叶斯决策理论，模型比较1介绍人类具有中央凹视觉系统：只有视网膜的小中心部分具有高受体密度，允许感知场景的细节因此，人类进行眼球运动以将高分辨率中央凹放置在他们想要看到的事物上。因此，了解他们选择看哪里是理解行为的重要组成部分。自下而上的注意力引导的一个长期存在的解释假设了人类大脑中存在“sal i e n y m ap”（或m ap）[ 48，26 ]。Here，asaliency2M. Ku¨mmerer，T. S. A. WalisandM.BETHGEmap表示空间重要性，通常定义为亮度、颜色或方向等低级特征的局部对比度。由于Itti和Koch将此概念公式化到其开创性的基于图像的模型[17]中，因此已经提出了大量模型用于从图像特征预测注视，例如[15，56，25，6，24，55，1]以及最近基于深度学习的许多模型，例如[49，30，16，28，36，31];参见[4，19]以获得广泛的评论文学作品。新模型定期发布，贡献主要来自计算机视觉和心理学的社区。已经广泛讨论了哪些效应对注视预测很重要，从低水平和高水平影响[50，14，3，12，18，7，31]到偏见[44，45，46，8]，任务[41，27，43]和语义效应[11]。随着时间的推移，显著性图的概念已经从其在低级特征集成中的起源移开，并且现在可以更一般地指代“在特定区域固定的映射”。在实践中，显著性映射现在有许多具有显著性模型的用户。大量的模型产生了对量化指标的需求，以评估该领域的进展和比较模型。已经提出了许多不同的度量。AUC型度量[45]曾经是最常见的，而在过去的几年中，已经看到了向CC [22]，NSS [37]和SIM [23]等度量的转变，并且最近已经提出了信息增益度量[32]。有关使用中的不同指标的概述，请参见例如：[4、23]。社区在基准中使用这些指标来跟踪进展：MIT显着性基准[9，23]和LSUN挑战[53，54，52，21]。最广泛接受的MIT基准以八种不同的指标评估提交。根据选择的度量标准，模型的排名和性能会发生显着变化。这一事实导致了大量的研究分析指标之间的差异，并给出建议，在何种情况下使用哪种指标[33，51，40，10，38，39]。其他作者提出了新的建模和评估方法：建模为点过程[2，42]，其他损失函数[20]和GLMM [35]。该领域的一般结论是，度量度量在性质上测量不同的事物[51，40，10]，并且甚至在概念上不可能确定该差异的最佳程度。最近，Ku¨mm等人[32]试图证明不同模型之间的唯一排名，方法是通过优化显着性尺度和信息增益平滑核（IG，本质上是对数似然），通过显着性图的后处理可以消除不同度量之间的大部分不一致。然而，这似乎不是一个令人满意的解决方案：首先，这种方法需要访问想要比较的所有模型，并且需要对每个模型进行繁琐的后处理。除了这个实际障碍之外，该方法还遭受主要概念上的缺点，即针对IG的优化不可能对于所有度量都是最优的。事实上，我们在下文中表明，[32]中提出的日志密度在大多数指标上表现不佳，并且仍然可以产生不一致的排名。理想情况下，人们希望模型能够在所有度量上与其他模型或原始度量竞争，即使这些模型直接针对该度量进行显著性基准测试变得简单3都知道。当按照[32]中的建议评估对数密度时，这是不可能的。事实上，我们在本文中表明，即使知道了真实的注视分布，也没有一个显著性图可以在所有指标中表现良好。然而，在实践中，研究人员仍然必须决定一个特定的显着图提交给基准。因此，他们的模型无法在所有指标上与最先进的模型竞争只要在相同的显着性图上评估所有显着性度量，就不可能解决基准测试问题。在这里，我们认为，根本问题是显着性模型和显着性图被认为是相同的。贝叶斯决策理论的一个主要观点是，最优决策的推导可以分解为实验可能结果的任务无关概率分布在显着性设置中，人们决定显着性图以服从某个度量。相应地，显著性模型应该被定义为在可能的注视上的度量无关的概率密度，并且随后可以从针对不同误差度量的相同密度导出许多不同的度量相关的显著性图我们表明，显着地图的最有影响力的指标AUC，sAUC，NSS，CC，SIM和KL-Div可以从固定密度的原则性的方式。我们证明了我们的方法在真实模型和真实数据的有效性。通过解耦显着性模型和显着性图的概念，显着性模型可以在其原始规模的所有指标上进行有意义的比较，MIT显着性基准将实现我们建议的方法。2理论受上述思路的启发，我们在此建议使用以下定义：1. 显著性模型预测注视概率密度p（x，y|I）给定图像I。2. 显著性度量是对地面实况数据的显著性图的性能测量。3. 一个简单的映射p，m（x，y，l）是一个从模型密度中获得的特性。之前已经论证了将显著性模型公式化为概率模型是有利的（例如，将显著性模型公式化为概率模型）。[2，32]）。在该定义中，显著性模型预测注视概率密度，即概率p（x，y|（一）观察在给定图像3中的给定像素处的固定。我们提出的三个定义3请注意，我们使用单次注视的注视概率密度（如[32]），而[2]定义了整个扫描路径的点过程密度4M. Ku¨mmerer，T. S. A. WalisandM.BETHGEa）p（x，y|I）b）、sAUC（x，y|I） ssAUC（x，y|I）sNSS/IG（x，y|I）sCC/KL-Div（x，y|I）sSIM（x，y|I）c）、0.80.6AUC0.80.6sAUCNSS210IGCC1.010.50 0.00.00.5KL-div1.00.50.0SIM图1：即使当真实注视分布已知时，也没有单个显著性图可以在所有度量中表现最佳这个问题可以通过将显著性模型与显著性图分离来解决a）根据地面实况注视密度p（x，y）分布注视|I）对于一些刺激I（关于可视化的细节，参见补充材料）。b）该地面真值密度根据预期的度量来预测不同的显著性图。显著性图由于度量的不同属性而显著不同，但总是反映相同的底层模型。注意，NSS和IG度量的映射是相同的，CC和KL-Div的映射也是相同的。c）来自b）的显著性图在七个显著性度量下对从a）中的模型分布采样的大量注视的条的颜色对应于b）中的框架颜色。针对特定度量（加框条）的预测显著性图在所有情况下产生最佳性能。以上是贝叶斯决策理论的基本原理：显著性模型是所有可能事件上的后验密度，而显著性度量是效用函数。基于后验密度和效用函数，然后选择显著性图以最大化期望效用。2.1从显著性模型从模型的预测注视密度，可以使用预期效用最大化来导出模型预期在某个度量4中产生最高性能的显著性图。4.“度量”是一种非约束性的约束：严格地说，度量测量两个对象之间的距离，并且通常期望是最小的。显著性基准测试变得简单51我评估显著性度量涉及显著性图s（x，y |I）和地面实况注视数据（xi，yi）。因此，我们可以将度量表述为M[s（x，y）]上的函数i|I）;（x1，y1），. . . ，（xn，yn）]。CC或SIM使用经验显着图而不是地面实况固定（基于分布的指标，richeSaliency2013）。然而，经验显着图总是从地面实况固定构建，通常通过将它们与高斯卷积。这可以被认为是度量评估的一部分，正如我们将在下面说明的那样。在D=（x1，y1），. . . ，（xn，yn），度量评估可以被写为M [s（x，y|I）; D].由于固定器是一个随机的随机变量，因此可以将固定器定义为随机变量（xi，yi）p（x，y|I），因此Dnp（x，y），度量的预期性能在显著性图上是EDM [s（x，y|I）; D].应该选择预期产生度量M的最高性能的显著性图：即，Maxs（x，y|I）EDM[D，s（x，y|I）]针对由感兴趣的模型给出的注视分布p求解该优化问题基本上回答了以下问题：如果我们假设未知的新固件，在此基础上，将评估所有的新固件，根据模型密度p（因此D=np），最好的是显著性图用于度量M？对于度量M，优化问题的解产生变换p（x，y|I）›→ sM（x，y）|I）从注视密度到导出的度量特定的显著性图。虽然优化问题通常可能很难，但对于大多数常用的显着性度量，它可以可以精确地或近似地求解，如下所示。重要的是，所述方法仅基于模型的密度预测来确定所述模型的结构形式不需要使用地面实况数据进行优化在下文中，我们给出了六个最广泛使用的度量的精确或近似解决方案，包括直接对地面实况注视进行操作的三个度量（AUC，sAUC和NSS）和三个基于分布的度量，其首先将地面实况注视转换为经验显着性图（CC，SIM，KL-Div）。此外，我们还包括[32]中引入的IG度量，因为我们使用该度量将现有的显着图模型转换为概率模型。AUC，sAUCAUC AUC型指标（“曲线下面积”，[ 45 ]）测量2AFC（2个备选强迫选择）任务中的模型性能，其中模型必须决定两个位置中的哪一个已经固定：在2AFC任务中，向系统呈现一个信号和一个噪声激励，并选择哪个激励是“信号”。在显著性AUC的情况下，信号和噪声分别对应于固定和非固定图像位置（参见补充材料以证明ROC曲线和2AFC然而，简单地说，这种“方法”并不意味着将新的格式转换为最大化格式（使用了几个额外的设备，例如：例如，在一个实施例中， KL-DIV和DIV_A（t）（移动的方向）。6M. Ku¨mmerer，T. S. A. WalisandM.BETHGE2t为k）。如果没有模型的固定地址是固定地址p_fi_x（x，y），则固定地址是固定地址p_n_fi_x（x，y）（其对于AUC是统一的，并且对于AUC是独立的存储单元），并且不存在由y（x_1，y_1）表示的两个地址。（x2，y2）。 2A FCt是在从rompfix×pnonfix或从rompnonfix×pfix 中提取存储点的关键。所给出的这两个子集的类似方法是将fix（x1，y1）p定义为fix（x2，y2）r。pnonfix（x1，y1）pfix（x2，y2）. 该模型通过选择具有较高相似性或相等性的分布来期望最佳性能，其中p_fi_x（x，y）/p_n_fi_x（x，y）具有较高的值。对于该模型，必须对该算法进行优化以产生最高性能。在标准AUC度量的特殊情况下，p_n_fix是恒定的，并且该值映射到p_fix。附加的实际考虑是MIT基准当前仅接受作为JPEG图像的提交。为了补偿这种有限的精度和可能的JPEG伪影，应该另外对显著图进行直方图均衡化（参见补充材料）。显着性图模型的归一化扫描路径显着性（NSS，[37]）性能被定义为归一化（零均值，单位方差）显着性图中固定像素的平均显着性值（即，固定显著性值的平均Z分数）。我们可以通过分析表明，人们应该从预测的注视密度本身期待最高的NSS评分：给定具有N个像素的图像，令pro b asiglefixationfallinggontoopixelΣibepi. 这是一个很好的例子NS_S的一个sal_i_n_y_apq=（ql，. . . ，qN）with1 qi=q<$=0，q2=1isΣNNi2ipi·qi= ∠p，q∠。找到具有最佳可能NSS的显著图是相当于找到问题max-p，qS. t. q¯=0，q2=1√如果 q›→q ′ =p¯+αqwithα=p|q¯=0 ， q2=1}andd{q ′ |q¯ ′ =p¯=1/N ， q2=p2}，我们可以确定p，q′ 的最大值S. t. q¯′=p¯，q′2=p2intead（然后对q进行归一化以获得归一化的显著性图）。因为=1（x2+y2|−x−y2），则该最大值与p−q2的最小值相同，其中p。因此，相对于NSS的最佳可能的显著性图是注视分布的密度。信息增益（IG，[32]）度量要求显着图是一个概率分布，并将固定像素的平均对数概率与基线模型（通常是中心偏差或均匀模型）给出的概率进行IG的最佳显著图取决于该度量如何将显著图解释为概率密度。我们将显着图归一化为概率向量s（nonnegative，unitsum），并在此情况下将所述显着图归一化为Σselfylds。该高的安全性可由下式得到： . . ，pN），其中ithp≥0Σ，表示每个像素的预测概率，q≥0，ipi= 1iqi=1 a显著性基准测试变得简单7Σesaliencymap. Le tpbl=（pbl，l，. . . ，pbl，N）是该b的pixelproΣb能力，如e-我的爱。q的xpectedIG为EpIG（q）Σ=andditsmΣaximumisargmaxqEpIG（q）=argmaxqipi（logqi− logpbl，i）ipi（logqiΣ−logpbl，i）=argmaxqipilogqi=arg maxqipi（logqi− logpi）= argminqipi（logpi−logqi）=arg minqKL [p，q]=p。CC相关系数（CC，[22]）在将两个显着图归一化为零均值和单位方差后，测量模型显着图和经验显着图这相当于测量预测的显著性图和归一化的经验显著性图之间的欧几里德距离。到随机变量的期望欧氏距离由其期望值最小化。因此，相对于CC的最佳显著性图是期望的归一化经验显著性图。这表明，预测CC的最佳显著性图关键取决于如何计算经验显著性图。经验显著图通常通过从眼球运动d，其中G使用了Σcertain大小的存储量。IntΣhiscasetexpecte dΣem pirical显着性图将是Exp1NGσ（x）=1NExpGσ（x）=1NGσ*iNi Nip=Gσ*p，即用大小为σ的高斯核模糊的密度。不幸的是，预期的经验显著性图不是预期的归一化的经验显著性图，其先前被示出为对于CC是最佳的。归一化涉及减去平均值并除以标准偏差，后者是非线性的。有效地，归一化方差仅改变权重，通过该权重，不同的经验显著性图在期望值中被只要不同的经验统计的方差不存在差异，就不会有效应的存在，并且我们的模拟因此，作为一个近似的预期归一化的经验显着图，我们使用的预期显着图在本文中，这是通过卷积的预期密度由高斯计算。显然，如果使用更多涉及的技术来计算经验显著性图（例如，如在[ 32 ]中那样的核大小的交叉验证），则预期的经验显著性图更难或不可能分析地计算。然而，人们仍然可以通过从预期的注视分布中采样归一化的经验显著性图并对它们进行平均来在数值上近似它KL-DivKL-Div度量在将经验显着性图和模型显着性图转换为概率分布（通过使它们非负并将它们归一化为具有单位和）之后，计算经验显着性图和模型显着性图之间的Kullback-Leibler散度。我们可以显示对于KL-Divmeti c，xpect ed empirΣi cali en cymap期望最佳性能：令e =（e1，. . . ，eN），其中e彡0，i∈i= 1表示Σd是可变的，其中，herereprese sempiresaliencymapnqithq≥0，iqi=1，则该模型是一个自适应映射。新的工作是为了解决这个问题，最小化EpKL[e，q]。由于Ep[KL[e，q]]=EpΣlogei我i记录qiΣ=Ep[ieilogei]−8M. Ku¨mmerer，T. S. A. WalisandM.BETHGE[2019 -04-19][2019 - 04][2019-我p 我我Σip Σii这又相当于找到iEp[ei] logEp [ei]−iEp[ei] logqi的最小值=KL[Ep[e]，q]。这显然通过q=Ep[e]（预期的经验显著性图）来最小化。至于CC，这是由与用于经验显著性图的相同核大小模糊的密度。SIM相似性（SIM，[23]）度量将模型显着性图和经验显着性图归一化为概率向量（与KL- Div相同），并对两个显着性图的像素最小值与CC度量相反，CC度量可以被解释为测量归一化dΣ并行映射之间的l2距离，而Σ则有效地测量一维并行映射maps（imin（pi，qi）=i1（pi+qi-|pi−qi|）=1−1p−q1，）Thisopti-2 2一般来说，分解问题不能通过分析来解决相反，我们解决它数值上：我们对从概率密度采样的固定集合执行约束随机梯度下降（详见第3节）。请注意，SIM的最佳显着图与本文提供的所有其他显着图不同，取决于每张图像的注视次数（有关此效果的详细信息，请参阅补充）。3实验和结果我们使用pysaliency工具箱[29]来计算显着性度量（详见补充）。根据图像上的概率密度，我们计算五种类型的显着性图：通过均衡概率密度以在所有像素上产生均匀直方图来创建AUC显著性图。通过将概率密度除以中心偏置密度并再次均衡显著性图以产生所有像素上的均匀直方图中心偏差密度估计使用高斯核密度估计在所有固定从MIT1003数据集和交叉验证图像。NSS/IG显着图只是概率密度。CC/KL-Div显着性图通过将概率密度与σ= 35px的高斯核进行卷积来计算（对应于1dva，如MIT 1003数据集上常用的SIM显著性图：我们将CC显著性图除以其总和以将其归一化。从那里开始，我们对从预测密度采样的注视点执行约束（非负，单位和）随机梯度下降，以最大化预期的SIM性能（有关实现细节，请参见补充材料）。3.1没有显著图来统治它们在这里，我们使用模拟数据说明，即使真实的固定密度是已知的，没有一个显着图可以在所有显着性度量中获胜。根据虚构的注视密度（图la），我们计算我们预测对于七个显著性度量AUC、sAUC、NSS/IG、CC/KL-Div和SIM（图lb）是最佳的显著性图我们从固视密度中抽取1000组100个固视显著性基准测试变得简单9并使用该数据集上的七个不同的显着性度量来评估所有五个显着性图（图1c，补充中的原始数据）。尽管图lb中的显著性图都是由相同的模型预测的，但它们在视觉上看起来不同：虽然AUC显著性图基本上只是归一化密度，但是sAUC显著性图去除了中心偏差贡献（见上文）。NSS/IG显著性图恰好是密度，并且示出具有非常低的值的大区域。CC/KL-Div显著性图是密度的模糊版本，比NSS显著性图平滑得多。SIM显著性图看起来主要像CC/KL-Div显著性图，但稍微更稀疏。五个显著性图的排名在度量上高度不一致（图lc）：即使知道真实注视分布，也没有显著性图对于所有显著性度量都是最佳的。然而，每个显着图对于已经预测为最优的那些度量是最优的。mal（框架钢筋）。这说明了我们的主要结果：通过从注视密度以原则性的方式导出度量特定的显著性图，一个模型可以在所有度量中最佳地执行。注意，在目前的实践中，一个单独的研究小组宁愿从图1b中的一张地图中挑选并且相应地在图1c中的其它度量上受到惩罚。3.2MIT1003在我们的主要实验中，我们使用我们的方法在流行的基准数据集MIT1003（15名受试者在1003张图像上的自由观看固定，[24]）上评估六个显着性模型对于所有评估的模型，已使用原始源代码和默认参数。包括的模型是AIM [6]，基于布尔映射的显着性（BMS）[55]，深度网络集成（ eDN ） [49] ， OpenSALICON [47] ， SalGAN [36] 和DeepGaze II [31]。将产生任意显着图的现有模型转换为概率模型并不简单[32]。我们使用[32]中描述的方法，并在pysaliency工具箱中实现，以优化信息增益：我们为每个模型拟合逐像素单调非线性和中心偏差，以产生MIT1003数据集的最大信息增益（详见补充材料）。与[32]不同，我们没有优化额外的高斯卷积来平滑预测。由于DeepGaze II已经被公式化为概率模型，因此不需要转换该模型。为了示出“或原始地图”，我们在此实例中使用日志。显着性图示例。在图2中，我们示出了一个示例刺激的显著性模型（行）的概率分布和预测的显著性图（列）比较列内和列之间的显著性图，即度量，注意到预测某些度量的显著性图的过程对跨模型一致的显著性图的形状具有很强的影响。它对显着图的视觉外观的影响程度比实际模型更大：AUC和sAUC图具有非常高的对比度，而NSS和CC显著性图具有非常小的显著性的大区域。CC和SIM显著性图比所有其他显著性图都要平滑得多。10M. Ku¨mmerer，T. S. A. WalisandM.BETHGE原始密度图2：对于相同刺激，根据不同模型的各种度量的预测显著性图对于六个模型（行），我们显示了它们的原始显着性图（第一列），将模型转换为概率模型后的概率分布（第二列）以及针对七个不同度量预测的显着性图（第三列至第七列）。不同模型对同一指标的预测特别是，注意原始模型（通常在基准测试中进行比较）相对于每度量显着性图的不一致性。它因此，难以在视觉上比较针对不同度量制定的原始模型预测显着图在视觉上比较不同模型的显著性图（例如，见[13]，图6;[5]，图6;[4]，图9）。图2表明，这种技术可能非常误导，除非显着图是相同类型的（即，旨在用于相同的显著性度量）。比较模型性能。在图3中，我们评估了显着性模型（AIM、BMS、eDN、OpenSALICON、SalGAN、DeepGaze II; X轴）（子图，补充中的原始数据）。该方法通过使用特定类型的显著性图来确定模型在评估方法中的表现。虚线指示使用模型或原始算法的性能（即，e. 不需要为实现可执行性而进行格式化DeepGazeIISalGAN OpenSALICONeDNBMS目的AUCsAUCNSS/IGCC/KL-DivSIM显著性基准测试变得简单11评价AUC评价sAUC评价NSS2.580701.00.50.00.5目的BMSeDN OpnSSalGAN DGII评估IG目的BMSeDN OpnSSalGAN DGII评估SIM757065600.80.60.40.2目的BMSeDN OpnSSalGAN DGII评价CC目的BMSeDN OpnSSalGAN DGII2.01.51.00.50.40.81.2目的BMSeDN OpnSSalGAN DGII评估KL-div目的BMSeDN OpnSSalGAN DGII0.7AUC显著性图sAUC显著性图0.60.50.4目的BMSeDN OpnSSalGAN DGIINSS/IG显著图CC/KL显著图SIM显著图原始显著图对数密度显著图图3：我们在MIT 1003数据集上的原始显着性图（虚线）和从不同显着性度量的概率模型（实线）导出的显着性图（实线）上，根据固定密度和评估的AUC、sAUC、NSS、IG、CC、KL-Div和SIM重新制定了几个显着性模型针对给定度量导出的显著性图总是产生该度量的最高性能（粗线），并且对于每个度量，当使用正确的显著性图时，模型排名是一致的请注意，AUC指标在AUC显著性图、NSS显著性图和对数密度显著性图上产生相同的结果，因此在AUC和sAUC图中此外，CC度量在SIM显著性图上产生的结果仅略差OpnS=OpenSALICON，DGII=DeepGaze II。密度）。原始显着图上的不同度量之间的性能非常不一致实线指示五种类型的导出的显著性图（红色：AUC，粉色：sAUC，蓝色：NSS和IG，绿色：CC和KL-Div，橙色：SIM）上的度量性能。此外，我们还包括了[32]中提出的对数密度显着性图（紫色虚线）。对于每个度量，针对该度量预测的显著性图（图中的粗线）可以是每个子图）产生所有模型的最高性能。相反，针对其他度量导出的显著性图通常招致严重的惩罚（除了极少数边界情况，见下文）。虽然不同的模型给出的排名12M. Ku¨mmerer，T. S. A. WalisandM.BETHGE尽管每个显著性图类型上的度量比原始显著性图上的度量一致得多，但是当评估相同显著性图类型上的所有度量时，在剩余的度量之间仍然存在不一致。有趣的是，AIM模型使用CC显着图比使用NSS显着图获得更好的NSS性能。这很容易解释：AIM模块提供了一种在构建后快速恢复的设计方法。对于更好的模型，该效应消失。例如，DeepGaze II在NSS显著性图的情况下比在CC显著性图的情况下达到显著更高的NSS分数，并且对于CC度量反之亦然SIM度量似乎在SIM显著性图上仅显示出比在CC显著性图上略好的性能，平均差异仅为0.006。然而，MIT显着性基准中关于SIM的最佳五个模型在小于0.02的范围内执行相差0. 可以通过多个应用程序来实现对模型的排序。图3还用于说明[ 32 ]中提出的度量统一与我们从注视密度预测显着性图的方法之间的关键差异：[ 32 ]中给出的度量结果对应于AUC、sAUC、NSS的紫色虚线对数密度线，以及IG和KL-Div的蓝色密度线（在我们的实现中，取密度的对数是度量本身的一部分）。如[32]中所报告的，这些线的模型排名比原始显着图更一致。然而，除了AUC和IG之外，在所有其他指标中，当这样评估时，模型会受到惩罚，此外，对于最佳模型，甚至指标排名之间的一致性也会丢失（SalGANvs DeepGaze II，AUC/sAUC/IG vs NSS/CC/KL-Div）。这表明[32]中提出的方法虽然设法消除了度量之间的大量不一致，但并不完美。总而言之，图3说明了本文的主要结果：无论您决定使用哪种显着性图类型，即使是最先进的模型在某些指标上也会表现不佳，并且排名仍然不一致。只有在给定模型密度的情况下，为每个指标使用正确的显着图，每个模型才能在理论上表现良好，并且所有模型排名都一致。因此，我们的评估产生了基准测试的独特赢家：从所有包含的模型中，DeepGaze II在所有考虑的指标中表现最好。4讨论尽管近年来在注视预测方面取得了很大进展，但由于大量的基准测试指标，将显着性模型彼此进行比较可能会令人困惑在这里，我们认为，可以通过将显著性模型视为概率密度预测器，将显著性度量视为评估显著性图相对于地面实况固定的性能度量，并且随后将显著性图视为从模型的设计中导出的度量特定的，来简化基准测试。我们如何利用概率模型来预测最常见的显著性方法的良好显著性图：“goodmodels”形式在许多方法中是常见的。显著性基准测试变得简单13重要的是，这种特定指标的预测反映了相同的基础模型。并不是针对每个指标重新训练模型。相反，我们显示的显着性图是从模型预测的固定密度确定性地得出的。以这种方式，可以从任意度量的给定显著性密度获得最佳预测显着性模型密度捕获训练数据中的所有必要信息，并以可以容易地与任意误差度量组合使用的方式表示它。信息增益（等效地，对数似然）是理想的优化度量，因为它反映注视密度的结构中的所有信息，而与任何特定度量无关。因此，它应该在所有指标中产生良好的结果。指标对显着性图施加强约束的事实意味着在视觉上比较用于不同指标的显着性图是误导的（见图2）-但这通常在该领域进行（[13，5，4]）例如，基于分布的指标（如CC，SIM和KL-Div）的最佳显着性图需要模糊，而不像NSS和IG。目前工作的另一个结果是，MIT基准上可用的八个指标现在可以被视为一个好处，而不是一个可能的混乱来源。由于每个度量评估注视预测的不同方面，因此基准现在将允许在多个感兴趣的任务上进行公平比较，这些任务对于某些应用可能或多或少相关对于示例性实施例，SAUC更可靠，而一旦排除中心偏差，则非中心偏差在模块的预期性能中更可靠在应用于具有与MIT1003训练数据不同的中心偏差的设置中）。虽然我们已经导出的显著性图针对给定的注视密度给出了最佳的特定于度量的显著性图，但是仍然可能的是，给定的模型可以在具有不旨在用于特定于度量的显著性图的度量上做得更好，而不是在特定于度量的显著性图上。如果模型的密度不是正确的密度（即，不反映数据生成密度），则所述所提取的数据映射可以是最优的。如果模型的设计特别差，则一些度量甚至可能在未针对该度量预测的显著性图上比在针对该度量预测的显著性图上表现得更好。例如：如果模型的显著性分布是不同的，则AUC方法将在平滑的CC显著性图上执行，而不是在实际的AUC显著性图上执行。因此，实际上优化每个特定度量的模型预测可以（通过比较底层密度）了解度量之间的差异。实际上，这在实践中可以在训练度量上产生比信息增益优化密度更好的性能。事实上，我们没有发现这一点会影响到基本的算法映射（在eDN、OpenSALICON、SalGAN和DeepGaze II的情况下，我们发现了这一点：图3，虚线）表明任何改进都可能很小，并且可能以在其他指标中表现得更差为代价。最后，我们想要注意到，显著性模型和显著性映射之间的区别不在于“显著性映射14M. Ku¨mmerer，T. S. A. WalisandM.BETHGE注意力引导或重要性图（例如）选择下一个地方在一个场景中固定[34，48，26]。我们的命名法是相当独立的，并打算显着性模型基准。本工作中演示的用于评估显着性模型的代码已作为pysaliencypython库的一部分发布（可在https：//github.com/matthias-k/pysaliency）上提供。结论我们的工作解决了一个显着性模型无法在所有相关显着性度量中达到最先进性能的问题我们的主要理论贡献是解耦显着性模型和显着性图的概念对于基准测试实践，这意味着显着性模型可以在其原始规模的所有指标上进行有意义的比较。因此，我们的方法允许与不使用该方法的传统模型进行比较;即使只有其他模型的度量分数是已知的（例如在度量分数在论文中发表的情况下），它也是有效的。实际上，这意味着不需要修改现有的基准：提交模型密度的研究人员可以对其性能进行公平评估，但现有模型可以保留在表中。MIT显着性基准将实现此选项。一个新的知识分子在国际马克斯·普朗克智能系统研究学院（IMPRS-IS）工作。该研究由德国科学基金会（DFG;合作研究中心1233）和德国卓越计划（EXC307）。引用1. Adeli，H.，Vitu，F.，Zelinsky，G.J.：上丘模型可预测在检查和检查期间的固定位置。J.NEUROSCI.37（6），1453https://doi.org/10.1523/jneurosci.0825-16.2016，https：//doi. 2016年10月10日至12月16日2. Barthelme ， S. ， Trukenbrod ， H. ， Engbert 河 Wichmann ， F. ：使用PATALPONTPR OCES SE对固视锁定进行建模。 J〇rnal〇f13（12），1-1（0ct2013）。https://doi.org/10.1167/13.12.1，https：//doi.org/10.1167/13.12.12，33. Borji，A.，Sihite，D.N.，Itti，L.：对象不能比早期更好地预测注视：实际上，注视是一种有用的方法。’ J〇un alofVis〇 n 13（10），18-1 8（ 2 0 1 3 年 8 月）。https://doi.org/10.1167/13.10.18 ， https ：//doi.org/10.1167/13.10. 1824. Borji ， A.， Itti ， L. ：视觉注意力建模的最新技术。 IEEETrans.PATTERNAnal.Mach。我告诉你。 35（1）、 185 （Jan2013年）。https://doi.org/10.1109/tpami.2012.89，https：//doi.org/10.1109/tpami. 2012.892，10，135. Borji，A.，Sihite，D.N.，Itti，L.：视觉显着性建模中人类模型一致性的定量分析：比较研究。IEEE Trans.图像处理。22（1），55 http：//doi.org/10。1109/tip.2012年。2210727，https：//doi.org/10.1109/tip.2012.221072710，136. 布鲁斯，N.D.B.，Tsotsos，J.K.：显著性、注意力和视觉搜索：一个信息到这个或这个相关的一个程序。参见V.I.S.19（3），5- 5（M a r2009）。https://doi.org/10.1167/9.3.5，https：//doi.org/10.1167/9.3.52，9显著性基准测试变得简单157. 布鲁斯，N.D.B.，卡顿角Janjic，S.：深入研究显着性：特征对比，语义及其他。在：2016年IEEE计算机视觉和模式识别会议IEEE（2016年6月）。https://doi.org/10.1109/cvpr.2016.62，https：//doi.org/10.1109/cvpr.2016.6228. 北达科他州布鲁斯Wloka角Frosst，N. Rahman，S.，Tsotsos，J.K.：在计算模型中，visualency：Examinghat是正确的，并且h a t是左的。 VisionResear ch116，95- 112（N o v 2015）。 http：//doi. org/10。1016/j. visres.2015年。01. 010，https://doi.org/10.1016/j.visres.2015.01.01029. Bylinskii，Z.，Judd，T.，Durand，F.，Oliva，A.，Torralba，A.：麻省理工显著性基准。http://saliency.mit.edu/210. Bylinskii，Z.，Judd，T.，Oliva，A.，Torralba，A.，Durand，F.：不同的评估指标告诉我们关于显着性模型的什么？arXiv：1604.03605 [cs]（2016），http://arxiv.org/abs/1604.03605211. Bylinskii，Z.，Recasens，A.，Borji，A.，Oliva，A.，Torralba，A.，Durand，F.：显着性模型下一步应该看什么？In：ComputerVision- ECCV 2016. pp.809-824LectureNotesinComp uterScience ，Springer，Cham（2016）. https://doi.org/10.1007/978-3-319-46454-149、https://link.springer。com/chapter/10.1007/978-3-319-46454-1_49212. Cerf，M.，哈瑞，杰， Huth，A.， Einhäu

下载后可阅读完整内容，剩余1页未读，立即下载