深入研究迁移学习对显着性预测的影响，通过改进主干模型的组合实现良好置信度校准，提高了显着性预测性能

111 浏览量更新于2023-10-14 收藏 796KB PDF 举报

迁移学习

神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12919DeepGaze IIE：针对最先进的显着性建模的域内和域外校准预测Akis Linardos*巴塞罗那大学linardos. gmail.com蒂宾根大学matthias. bethgelab.org图宾根大学ori.press邮件bethgelab.org蒂宾根大学matthias@bethgelab.org摘要自2014年以来，迁移学习已经成为改善空间显着性预测的关键驱动力，但在过去的3-5年中进展停滞。我们进行了一项大规模的迁移学习研究，该研究测试了不同的Ima-geNet主干，始终使用从DeepGaze II采用的相同的读出架构和学习协议通过使用ResNet50功能替换DeepGaze II的VGG19主干，我们将显着性预测的性能从78%提高到85%。然而，随着我们继续测试更好的ImageNet模型作为主干，如EfficientNetB5，我们没有观察到显着性预测的额外改进。通过进一步分析主干，我们发现对其他数据集的概括有很大的不同，模型在固定预测方面一直过于自信。我们表明，通过以原则性的方式组合多个主干，可以实现对看不见的数据集的良好置信度校准。这种新模型“DeepGazeIIE”在域内和域外的基准性能方面取得了重大飞跃，比DeepGazeII提高了15%，在MIT1003上提高了93%，标志着MIT/Tuebingen显着性基准在所有可用指标（AUC： 88.3% ， sAUC ：79.4%，CC：82.4%）。1. 介绍显著性检测涉及许多感觉模态。它将相关机制总结为人类和动物将注意力分配到最重要的数据子集在视觉中，这意味着关注视觉输入的元素，这些元素从它们的相邻区域中脱颖而出，视觉显着性通常是操作性的。* 表示共同第一作者通过测量注视点位置来确定因此，在计算机视觉中，显著性预测当前是指预测注视位置或检测显著对象。早期，研究人员发现注视点的位置在统计学上受到视觉刺激特征的影响，这些视觉刺激特征既包括高级属性，如人[41]和低水平的，如空间对比度[33]。在特征整合理论出现后不久[38]，Koch和Ullmann概述了一种用于建模注意力的计算机制[21]，该机制在13年后由Itti等人实施[15]。Itti-Koch模型是第一个从任意图像预测显着图而不需要预先计算基本特征的模型，允许广泛的应用。这为许多有趣的显着性预测模型[2，20，42]铺平了道路，导致目前深度学习模型在该领域占主导地位[39，25，28，32，16]。23]由大规模显着性数据集驱动[19，17，1]。由于与一些更突出的计算机视觉任务相比，显着域具有实质上更少的数据，因此迁移学习已经成为改善显着域的关键驱动力。地面实况DeepGaze II DeepGaze IIE图1.通过利用不同骨干的多样性，我们的新显着性模型DeepGaze IIE能够非常准确地预测人类注视位置。12920×个空间显著性预测DeCAF [6]是最早的深度学习迁移学习的作品之一，作者使用了由深度CNN提取的特征，该CNN在对象识别上进行了训练，利用大型数据集来处理缺乏标记数据的通用任务。在这种迁移学习计划之后，他们在各种视觉挑战中表现优于最先进的水平受深度卷积模型在分类领域的巨大成功，特别是ImageNet基准测试[5]的启发，DeepGazeI[25]是第一个将ImageNet学习的特征转移到显着性领域的人从那时起，所有高性能的显着性模型都使用ImageNet作为借口任务。迄今为止，空间显着性的问题远未解决，并且MIT300基准[18]的简单情况说明了现有模型与可解释信息的下限之间的实质性差距（例如，IG为0.951 vs1.317，sAUC为0.784 vs 0.823）。2014年特别是深度学习和迁移学习的引入，在经历了几年的停滞不前之后，为显着性预测带来了新的时代。类似地，在最近3-5年中也只是逐步取得了进展，而不是在此期间提出了大量的模型（图2）。从机器学习的角度来看，显着性预测的任务在概念上是有趣的，因为它需要经过良好校准的概率预测，这些预测在高度确定性分类问题的更常见设置中不太重要在这项工作中，我们通过研究如何实现良好校准的概率预测来显着提高空间显着性建模。除了提出一个新的最先进的模型之外，我们还对ImageNet性能提高导致显着域性能提高的程度进行了系统分析具体来说，我们利用广泛的模型，这些模型在ImageNet上达到了最先进的水平，作为显着性预测任务的固定特征主干，使用逐点非线性读出，遵循DeepGaze II架构和学习时间表，如[28]所述。此外，我们研究了这些模型之间的互补性，并通过进行集成学习方法来利用它，该方法最终产生了一种新的最先进的技术，缩小了模型之间的差距，并在所有指标中保持观察者之间的一致性。为了进一步了解主干之间的差异，我们研究了基于它们的模型的置信度校准。当在域外环境中应用模型时，置信度校准尤其重要，在域外环境中，我们期望一个好的模型能够实现域转移并相应地降低其置信度[31]。许多已建立的置信度校准度量[9]不适用于非常高的随机性情况，如注视预测，因此我们提出了一种新的方法来测试置信度校准，该方法可应用于具有高熵的数据集而不是很好地校准或保守-我们发现，大多数个体模型对域外数据高度自信，而我们的集成模型显示出更好的置信度校准，这使得它们在看不见的数据集上更值得信赖。2. 相关工作经典模型依赖于手工设计的特征来解决显着性预测[15，37，2，20，42]。从那时起，显着性预测已经转移到深度学习模型，其中第一个是eDN [39]。然而，在利用深度学习模型处理显著性预测时的一个主要障碍是可用数据的小尺寸，这源于收集注视数据既耗时又昂贵的事实。最重要的是，当对图像应用变换时，图像的真实显着性容易发生变化，严重限制了潜在的增强[4]。第一个将迁移学习应用于显着域的工作是DeepGaze I[25]此后，它演变为建立在VGG19上的DeepGaze II[28]。在DeepGaze之后，我几乎每个高性能的显着性模型都使用了迁移学习，通常基于ImageNet。在过去专注于显着性预测的原则性迁移学习方案的作品中，[14] 训练了来自三个 CNN （ AlexNet ， GoogleNet 和VGG16）的深度特征的显着性模型，结合了低级和高级预训练特征，顶部是支持向量机，DeepFeat[30]其中，作者在三个预训练的CNN特征（ResNet，VGG，GoogleNet）之上使用固定EML-NET[16]模型引入了一种可扩展的方法，将任何复杂度的多个深度卷积网络组合为与视觉显著性相关的特征的编码器其他模型设计了复杂的深度架构，或者建立在现有的在其他任务中表现出优势的基础上，但所有这些模型都使用了迁移学习，通过以更大的数据集作为起点来预训练其架构。SalGAN [32]和GazeGAN [4]都使用对抗性损失来训练他们的显着性预测模型，在第一种情况下，该模型由编码器-解码器架构组成，而第二种则构建在U-net结构上。MSI-NET[23]通过在其编码器-解码器架构中集成全局场景信息来解决该任务。UNISAL统一了显着性的图像和视频模式，以利用整个显着性预测数据集[7]。可以说，DeepFeat [30]和EML-NET [16]是与我们自己最相关的DeepFeat在预先训练的特征之上使用固定的线性读出，而我们根据DeepGaze II范例[28]微调由11个卷积组成的读出网络。由于许多可能的变换，由多层卷积网络提取的特征12921×个×个0.880.860.840.820.800.780.762007年2009年2011年2013年2015年2017年2019首次公开日期图2.过去15年显著性预测进展的可视化。显示的日期对应于我们发现可用模型的最早日期，通常反映模型的首次测试日期或发布日期（以先到者为准）。AUC对应于MIT/Tuebingen显著性基准的MIT 300评价[24]。出于可读性的目的，我们将图的标度限制为AUC得分高于0.75的模型灰线表示相对于MIT/Tuebingen显着性基准中列出的模型的最新性能我们不能包括仅在先前基准saliency.mit.edu上评估的模型，因为评估略有变化，导致不同的模型得分。刚性线性读出对于这种类型的输入太受限制。相比之下，11个卷积的读出网络能够学习调整输入特征的尺度的非线性变换并利用这些特征之间的相互作用。较小的内核大小意味着网络无法学习新的空间特征，而是将给定的空间特征作为输入进行组合，这使其成为比较任何给定任务的不同主干之间的特征预测性除了这一主要差异之外，我们还进行了一系列研究，揭示了不同模型的表现如何不同，并结合它们的固定密度来利用它们的互补性。EML-NET的目标是最大的预测性能，但我们的目标是了解有多少有关固定位置的相关信息被编码在深层功能。为此，我们不仅比较了两个，而且还比较了大量相关的EML-NET在编码器阶段训练每个CNN模型，而我们保持我们的固定，这不仅成本更低，而且是研究ImageNet训练特征泛化能力的更强大的科学工具。除此之外，EML-NET在编码器阶段结合了这些模型，以获得更广泛的先验知识，同时在我们例子中，我们分别研究了每个模型，描述了它们各自的贡献，然后将它们的预测密度结合起来。最后，与这两项工作相比，我们使用了更广泛的最先进的ImageNet CNN作为我们架构的骨干，并训练了每个模型配置的聚集，考虑了我们指标中的3. 方法3.1. 模型和培训管道图3中显示了整个管道，其中最终模型是在一系列原则性分析步骤之后从多个主干的组合中导出的。首先用主干CNN处理图像以提取深度激活，随后在11个卷积的读出网络中处理深度激活。读出网络的单个输出通道是模糊的，与中心偏置组合并通过softmax馈送以产生二维固定分布（图3a）。从本质上讲，这是DeepGaze II [28]架构的一个改编，具有更深E（我们的）UNISAL则ICASNet IISalGANSAM-VGGDVAe贾德FesRARE2012BMSreContextAwaDVA目的IttiKoch2LDSDNCovSalDeepGaMSI-NETazeGANGEML-netDeepGaze II学习FER学习深反式DeepGaze IIic模型类AUC12922图像×个|Σ×个×个置信度校准模型间互补性分析模型内互补性分析图3.我们所有实验中使用的适应性DeepGaze II架构的图表，以及我们表现最好的变体DeepGaze IIE。（a）测试主干：我们从在ImageNet上预训练的CNN中收集一些层，而不需要任何额外的训练。我们在这些层上应用读出网络，该读出网络由11个卷积的块、layernorm和softplus函数组成然后，在softmax之前应用模糊和中心偏置先验，这为我们提供了最终的注视概率密度（b）集成模型DeepGaze IIE：我们结合了一些最先进的ImageNet骨干，利用了在第4.2节中分析的模型间和模型内的互补性。置信度校准用作分析工具，以更好地理解为什么这些模型表现最佳。读出网络、层范数和softplus代替ReLU作为激活函数，并且最值得注意的是，具有不同的骨干而不是原始的VGG19网络。读出网络以及模糊大小和中心偏置权重是经历训练的流水线的仅有部分。特征提取器由于我们的模型预测注视密度，我们可以直接访问注视的可能性，因此我们优化了我们的模型以获得最大似然。我们首先在 SALICON 数据集上预训练我们的模型[17]，然后进行微调在模型和基线模型的平均对数似然中的重要性。因此，该度量度量度量模型的知识超过基线模型的知识的程度由于它对于预测固定密度p（x 1）的模型在给定图像I的可能注视位置x上，信息增益被计算为NMIT1003数据集[19]。SALICON包括10，000个图像，其地面实况是使用观察者而不是凝视检测器指示的鼠标轨迹收集的Al-IG（模型）=1logN2我p模型（xi| Ii)−log2 p基线（xi），尽管这似乎牺牲了精度，但SALICON是一个很好的起点，因为它已被证明对预训练显着性模型非常有用。MIT1003由在15个受试者上测试的1003个自然图像组成（呈现时间为3秒）。该数据集包含各种尺寸的图像，我们将其大小调整为 1024 786 或 768 1024 。对于SALICON ，图像以 1.5 的因子下采样，对于 MIT1003/MIT 300，图像以2.0的因子下我们使用学习率调度器，其以0.001的初始学习率开始，然后每设定数量的时期衰减10倍。我们评估我们的模型的每一个配置后，MIT1003数据集上的10倍交叉验证方案简而言之，给定MIT1003图像，来自该过程的十个模型中恰好有一个在训练期间没有看到该图像，也没有在超参数调整中进行验证，使得其预测密度适合于评估。因此，所有报告的指标均反映了测试性能。3.2. 度量作为我们在实验期间的主要指导，我们使用信息增益度量[26]，这实际上是不同的其中xi是数据集的第i次固定，发生在图像Ii.我们认为信息增益是最有原则的度量[26]并且因此主要依赖于它，但是我们稍后评估其他常用的显著性度量。这些包括AUC、混洗AUC、KL散度、相关系数和归一化扫描路径显著性[3]。当在相同的显着图上进行评估时，显着性度量是非常不一致的[3]。然而，最近已经表明，可以通过评估显著性图上的每个度量来缓解概率模型的这个问题，该显著性图在模型预测的注视密度下具有最高的预期性能[27]。3.3. 测试置信度校准显着性模型的一个关键特征是，它们预测的是概率性注视分布，而不是确定性类别。这意味着我们的模型不仅定性地预测他们期望哪些区域被注视，而且定量地预测他们期望某个突出区域比任何其他给定区域被注视的频率高多少。通过将其与低密度和高密度区域中的注视的实际数量进行比较，我们可以检查模型置信度的校准程度-即是否有（（骨干（预训练）读出（可训练）定型（可训练）ShapeNetC高效NetB5ResNext50DenseNet20112923MIT1003黄金标准百分百DeepGaze II百分之七十八高效NetB5ResNet50ShapeNetCDenseNet201ResNext50VGG11VGG19ResNet101AlexNet百分之九十三DeepGaze IIE（(a)（b）第（1）款SALICON验证0.90Pascal-S（d）其他事项1.01.21.11.00.90.80.779.09 88.63 90.88 92.87 93.28 93.56 93.66 95.2 96.7ImageNet分类-Top5准确度0.400.380.360.340.320.3079.09 88.63 90.88 92.87 93.28 93.56 93.66 95.2 96.7ImageNet分类-Top5准确度0.850.800.750.700.650.600.550.500.4579.09 88.63 90.88 92.87 93.28 93.56 93.66 95.2 96.7ImageNet分类-Top5准确度0.90.80.70.60.579.09 88.63 90.88 92.87 93.28 93.56 93.66 95.2 96.7ImageNet分类-Top5准确度图4.显着性预测性能与ImageNet模型主干的准确性相比（a）每个小提琴图是20个实例的性能分布的表示，这些实例共享相同的配置并且仅在它们的训练的初始化种子方面不同红色虚线（DeepGaze IIE）表示本文中我们提出的最佳模型的性能（93%），它平均了具有不同主干的模型的多个黑色虚线（黄金标准= 100%）示出了通过注视的非参数高斯KDE模型对可实现的性能的估计灰色虚线表示现有DeepGaze II模型的性能(b)：SALICON验证数据集上相同（使用SALICON预训练阶段后的模型）。(c)以及（d）我们评估（a）的所有模型，而不对PASCAL-S数据集和多伦多数据集进行再训练。过度自信或不自信的预测。之前已经针对像ImageNet[9]这样的分类任务对深度神经网络进行了置信度校准测试，并且已知深度神经网络倾向于对IID数据进行在不同的增强技术上训练的合奏可以在一定程度上减轻这种过度自信[35，31]。分类模型的置信度校准通常使用预期校准误差进行测试，该误差将模型的准确度与其平均置信度进行比较如果一个模型被完美地校准，它的平均置信度与它的准确度相匹配。注视预测可以被视为高维分类任务，其中每个图像像素构成不同的类。然而，在ImageNet或类似的分类任务中，通常只有一个或非常少的类包含大部分概率质量，而在注视预测中，随机性要高得多，使得即使是最显著的像素也具有相对较低的概率，并且所有像素之间的差异相对细微。虽然这种随机性使得置信度校准更加重要，但准确度总是非常低，因此用于校准的经验测试是相反，在这里，我们提出了一种更适合于高熵设置的方法首先，我们通过概率对预测的注视密度的像素进行例如，在图1中，模型预测由轮廓线分成大小递减的四个区域（黄色经绿色到蓝色），每个区域累积预测注视概率的25%。在分割预测的注视密度之后，我们对每个区域中的经验测量的注视进行如果模型校准良好，则每个区域应接收相同数量的注视。如果模型过于自信，则会将高概率分配给接收不到其他区域将收到比预期更多的固定次数。通过对每个概率分位数的注视次数求平均，即，在整个数据集上，我们可以在直方图中总结置信度校准。4. 实验和结果4.1. 将ImageNet特征转换为显着性我们的设置概述如下：首先，我们获得在ImageNet分类上训练的架构，并训练读出网络，该读出网络将一定数量的深层作为输入，其通道总数约为2048（关于层选择策略的细节，请参见下文这些层是卷积层或激活层（ReLU）。我们使用以下网络作为我们读出网络的骨干：AlexNet [22]，VGG 11和VGG 19 [34]，ResNet 50 和 ResNet 101 [10] ， ShapeNet [8] ，EfficientNet-B5 [36]和 DenseNet [13]。请注意，关于ShapeNet，有3种关于模型如何训练的配置，我们选择在ImageNet和Stylized-ImageNet上训练的配置我们将其称为ShapeNet-C。4.1.1从主干中对于每个网络，我们进行两组实验：首先，我们推断哪些提取的层导致最佳性能（层搜索阶段），然后重复完全相同配置的多个初始化，以获得最终性能的鲁棒度量（实例搜索阶段）。我们的初步结果表明，波动甚至出现在相同层配置的不同实例之间，并且与层配置之间的波动具有相同的幅度。百分之七十七高效NetB5ResNet101VGG19AlexNet ResNet50 DenseNet201VGG11 ShapeNetC ResNext50DeepGaze II百分之九十九DeepGaze IIE百分百黄金标准VGG11 ShapeNetC ResNext50 VGG19ResNet101EfficientNetB5DenseNet201ResNet50AlexNetDeepGaze IIDeepGaze IIE多伦多黄金标准DeepGaze IIE百分百百分DeepGaze II百分之八十三AlexNet ResNet50 DenseNet201VGG11 ShapeNetC ResNext50 VGG19ResNet101EfficientNetB5位/固定位/固定位/固定位/固定12924×个×个执行层配置的前5个，指示广泛的层搜索具有边际值。因此，我们在层搜索期间测试10个可能的配置，然后从顶部配置训练20个实例。考虑到即使在同一管道的不同实例之间也似乎存在显著的波动，评估20个实例的信息增益为我们提供了模型真实性能的更稳健的图片一般来说，我们发现使用来自最终和倒数第二层空间的大约3-4层是理想的，而使用单层一致地导致高度次优的性能。4.1.2ImageNet准确性作为显着性预测性能在图4a中，我们显示了MIT1003数据集上每个主干的预测性能。对于每个主干，我们显示了20个训练实例的性能分布我们的研究结果表明，ImageNet性能线性转移到显着性，直到达到平台。具体来说，我们看到从AlexNet开始，到ResNet-50，显着性性能有了很大的飞跃，然后在DenseNet-201达到峰值，然后下降这种趋势在所有其他常用的显着性度量中也是可见的（补充材料，表1）4.2. 研究模型互补性当两个不同的模型在一个数据集上表现得几乎一样好时，有两个潜在的假设：第一，他们正在学习完全相同的信息，从而实现类似的表现，可能其中一个以稍微更好的方式做到这一点。第二，这些模型在整个数据集上的表现同样出色，但可能是通过编码不同且可能互补的信息来实现的。4.2.1固定密度在另外的实验中，我们发现对于具有不同主干的模型和对于使用相同主干但不同随机种子的模型实例，每图像性能这表明，不仅不同的骨架，而且在我们的实验中使用相同骨架的模型的不同实例编码不同的信息。这一发现促使我们利用我们的模型在模型间互补性（不同的主干）和模型内互补性（同一模型内的不同实例）方面编码的信息我们在一些概率模型中以成对的方式对预测的固定密度进行平均，改变每个预测密度的权重在进行了这个在几个成对组合的实验中，我们发现，当两个模型具有相等的权重时，我们始终可以获得性能的改善（补充材料，图3）。我们试图通过以成对方式组合我们所有的最佳表现模型，然后以三重方式组合，最后以ShapeNet-C、EfficientNet-B5、ResNext-50、DenseNet-201的四重混合（在所有情况下权重相等当添加模型时，模型为总共5个模型混合添加ResNet-50会降低性能，因此我们在四个主干上停止。由于即使在相同的主干内，每个样本的性能也存在显著的差异，因此我们不仅利用模型间的互补性，而且利用模型内的互补性。为了做到这一点，我们保留了我们发现最好的4个主干，并对它们中的每一个平均几个实例，有效地平均4个模型2个实例，然后4个模型3个实例等，导致每个模型5个实例，总共20个实例的混合拆分不会改变每个模型对总平均值的影响，而是通过对更多实例进行平均，使每个模型具有更有根据的利用模型内互补性，我们实现了性能的进一步提升，每个模型在3个实例处饱和，最终信息增益得分为1.1329位/固定，而每个模型仅一个实例为1.1285位/固定（表2）。该最佳性能模型DSREx3在下文中将被称为“DeepGaze IIE”（“E”表示“集合”）。在补充，图4中，我们可视化的示例预测不同的型号。4.2.2泛化性能在图4c和d中，我们展示了具有不同骨架的模型如何推广到PASCAL-S数据集[29]和多伦多数据集[2]。可以看出，并非所有的脊骨都具有同样好的概括性.虽然VGG、DenseNet和EfficientNet在两个数据集上都表现出良好的泛化性能，但ResNet、ShapeNet和ResNext的性能要DeepGaze IIE集成模型再次显示出与所有单个模型相比的显著性能提升，性能接近黄金标准性能（ PASCAL-S 上为 99% ， Toronto 上为 95% 特别是在PASCAL-S上，相对于最佳主干（EfficientNet）的性能增益几乎与最佳主干和最差主干之间的性能差异在图4b中，我们还展示了具有不同主干的模型在SALICON验证集上的表现（使用SALICON预训练的模型权重这里，再次可以观察到非常相似的模式。由于SALI-CON是比MIT 1003大得多的数据集，因此这提供了12925(a)（b）（c）EfficientNetDSREx1DeepGaze IIE（DSREx3）EfficientNetDSREx1DeepGaze IIE（DSREx3）EfficientNetDSREx1DeepGaze IIE（DSREx3）每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高每像素低每像素最高图5.针对不同模型（单个直方图）在不同数据集（a：MIT 1003，b：PASCAL-S，c：Toronto）上进行置信度校准我们将预测的注视密度分成相同概率质量的多个分位数，但通过增加每个像素的概率进行排序，并量化每个预测概率的实际注视次数，以评估模型是否过度自信（条形高度从左到右降低），自信不足（条形高度从左到右增加）或校准良好（均匀直方图）。在用于训练的数据集MIT1003上，在PASCAL-S和Toronto上的泛化设置中，单个模型强烈过度自信，而集合模型接近完美校准。表1. 利用模型间的互补性：我们混合了表现最好的模型，从两两混合开始，最多四个混合。注意，出于说明的目的，较深的红色阴影表示对应混合模型的更多分量骨干没有一DenseNet-201高效网络-B5DenseNet-201、EfficientNet-B5没有一1.03771.03261.1077ResNext-501.03681.10751.10521.1256ShapeNet-C1.02781.10251.09861.1213ResNext-50，ShapeNet-C1.09041.11651.11431.1285这进一步证明了DeepGaze IIE并不是简单地解决过拟合问题，而是利用了来自不同主干的不同信息。最后，我们还在MIT/Tuebingen显着性基准的MIT300数据集上测试了我们的集成模型我们的模型的成对组合已经足以击败最先进的技术，而我们的四个模型与三个实例的最终组合导致了对最先进技术的更高飞跃MIT 300上的三个当前最佳性能模型（UNISAL、EML-Net和MSI-Net）的混合进一步证明了将不同模型与不同主干集成的强大功能，其性能基准测试结果如表3所示。在附录表2中，我们还报告了SALICON测试集的分数。4.2.3置信度校准在图5中，我们可视化了模型的置信度校准（详情请参见第3.3节）。均匀的直方图表示完美的置信度校准，而向左倾斜的直方图表示过度自信的模型：在高显着性区域中没有模型预期的那么多注视直方图向右倾斜表示不自信的模型。在图5a中，我们评估了以下各项的置信度校准：MIT1003数据集上具有四个不同主干以及DSREx1和DeepGaze IIE的模型。显然，所有单独的主链都被相当好地校准（直方图接近均匀），具有朝向过度置信的轻微偏差。另一方面，集成模型DSREx1和DeepGazeIIE当推广到PASCAL-S和Toronto数据集[2，29]（图5 b和c）时，这种效果发生了变化：现在，所有单独的模型都非常过度自信，而集合模型在两个数据集上都接近完美校准。这表明，个别模型在新图像上产生不同的误差，这些误差通过使用具有不同骨架的模型的集合来补偿。有趣的是，当我们只对具有相同骨架的模型进行平均时，这显然，问题不是读出网络中的噪声，而是对主链的某些特征的过度拟合，这可能与MIT1003数据集上的注视过度相关。由于集成有帮助，各个模型使用的特征可能在主干上有很大的不同。5. 讨论尽管为ImageNet分类训练的模型包含对显着性预测具有高价值的特征，但从ImageNet分类中提取的特征已经达到了收益递减的点，其中额外的分类固定次数概率质量固定次数概率质量固定次数概率质量固定次数概率质量MIT1003Pascal-S不奥龙特ODensenet201ResNext50ShapenetDenseNetShapeNetResNeXTDenseNet形状NetResNeXT固定次数概率质量概率质量12926×个表2.利用模型内的互补性：我们将四模型混合（DSRE）拆分为每个模型的更多实例，并评估每个实例的数量。实例数12345DSRE1.12851.131931.132941.132851.13287表3.模型在MIT300基准上的得分值得注意的是，一些模型缺少IG，因为它们不是概率性的，因此不可能在该度量下进行评估DINet不包括在公开的MIT300排行榜中，因此我们显示了他们论文中报告的分数模型IG↑AUC↑sAUC↑NSS↑CC↑KLDiv↓SIM↑DeepGaze IIE（DSREx3）1.07150.88290.79422.52650.82420.34740.6993DSREx11.06790.88250.79382.52190.82340.34890.6987UNISAL+EML-Net+MSI-Net1.06070.88240.79482.51310.82390.35370.7030UNISAL [7]0.95050.87720.78402.36890.78510.41490.6746EML-NET [16]0.87620.74692.48760.78930.84390.6756MSI-NET [23]0.91850.87380.77872.30530.77900.42320.6704[28]第二十八话0.92470.87330.77592.33710.77030.42390.6636TransSalNet0.87300.74712.37580.79910.90190.6852GazeGAN [4]0.86070.73162.21180.75791.33900.6491DINet [40]0.860.712.330.79准确性不再明显地转移到显著域中的更高预测然而，来自不同主干的使用不同主干的模型以非常不同的方式推广到新数据集的事实表明了这一点，并且更重要的是，集成模型在数据集内和新数据集上的表现甚至远远优于最好的单个模型。为了测试我们的模型在看不见的数据集上的实际应用中有多有用，我们不仅在预测性能方面，而且在置信度校准方面测试了域外性能。我们发现，我们的个体模型往往对域外数据过度自信，而我们的集成模型对域内数据稍微不自信，但对域外数据接近完美校准，这使得它们更适用于看不见的数据集。我们提出的方法，用于评估置信度校准可以很容易地应用于设置中具有高数量的类和高随机性的地面真值分布。关于显著性预测，近年来性能有些停滞，从而使得所观察到的飞跃甚至更加显著，特别是如果我们考虑到我们的架构对于任务不是过度设计的，而是可以潜在地应用于其他领域的原则性流水线的一部分我们将成功归因于四个因素：首先，我们对读出网络的选择，其比线性读出更少约束，允许其进行输入特征的非线性变换，但比典型的CNN更受约束，因为其仅使用11个内核。这允许它组合空间特征而不创建新的空间特征，使其成为迁移学习的有效工具，并允许因为我们没有对脊椎骨进行微调，所以它的结果不具有可解释性虽然理论上微调主干可以产生更好的性能，但我们发现，通过微调大参数空间，我们不可避免地过拟合MIT1003，并始终产生更差的结果。第二个因素是我们对每个模型的多个实例的利用。我们认为，这是一个很好的做法，因为它模拟了这些模型中的不确定性第三，我们利用多个模型并以原则性的方式结合它们，利用架构之间的互补性和相同架构的内部之间的互补性，我们分别标记为内部和内部互补性对于显着性，这种组合非常简单，不需要oracle网络，而是固定密度的简单平均过程第四，我们使用信息增益来指导我们的实验，并强调了相对性能如何可靠地转移到其他指标和其他数据集。有人认为，由于信息增益在信息论中的基础及其与超参数的独立性，信息增益是原则性研究的理想选择[26]。在未来，最大限度地多样化的骨干应进一步探索，以产生更好的模型。这可以通过相关性分析或通过将ImageNet主干（例如本文中呈现的主干）与自监督主干以及在其他任务（例如对象检测）上预先训练的主干相结合来完成。综上所述，我们已经证明，我们的原则性集成学习方法比DeepGaze II提高了15%，在所有可用指标中，在MIT/Tuebingen显着性基准上设置了显着性预测的新技术状态，在4年的渐进式进展之后，这是一个重大的飞跃，突出了我们方法的承诺。12927引用[1] Ali Borji和Laurent Itti Cat2000：一个用于促进显着性研究的大规模固定数据集。CVPR 2015研讨会“数据集的未来”，2015年。arXiv预印本arXiv：1505.03581。[2] 尼尔·布鲁斯和约翰·措措斯。注意力基于信息最大化。Journal of Vision，7（9）：950[3] Z. Bylinskii，T. Judd，A.奥利瓦A. Torralba和F.杜兰德不同的评估指标告诉我们关于显着性模型的什么？IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页[4] Chaohui Che ， Ali Borji ， Guangtao Zhai ， XiongkuoMin，Guodong Guo，and Patrick Le Callet.凝视如何受图像变换的影响？数据集和模型。IEEE Transactions onImage Processing，29：2287[5] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei.Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[6] Jeff Donahue ， Yangqing Jia ， Oriol Vinyals ， JudyHoffman，Ning Zhang，Eric Tzeng，and Trevor Darrell.Decaf：用于通用视觉识别的深度卷积激活功能机器学习国际会议，第647- 655页，2014年[7] Richard Droste，Jianbo Jiao，and J Alison Noble. 统一的图像和视频显著性建模。 arXiv 预印本 arXiv ：2003.05477，2020。[8] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。 arXiv 预印本 arXiv ：1811.12231，2018.[9] Chuan Guo，Geoff Pleiss，Yu Sun，and Kilian Q.温伯格现代神经网络的校准。国际机器学习，第1321PMLR，2017年。ISSN：2640-3498。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[11] 马蒂亚斯·海因，马克西姆·安德里先科，朱利安·苦狼.为什么ReLU网络产生远离训练数据的高置信度预测，以及如何缓解这个问题。 arXiv ： 1812.05720 [cs ，stat]，2019.[12] Dan Hendrycks* ， Norman Mu*，Ekin Dogus Cubuk，BarretZoph，JustinGilmer，andBalajiLakshminarayanan.AugMix ：一种简单的数据处理方法，用于提高鲁棒性和不确定性。在国际学习代表会议（ICLR），2019年会议记录。[13] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKi

下载后可阅读完整内容，剩余1页未读，立即下载