没有合适的资源?快使用搜索试试~ 我知道了~
154040神经网络模型搜索的神经生物学评估度量0Nathaniel Blanchard计算机科学与工程学院 圣母大学0nblancha@nd.edu0Jeffery Kinnison计算机科学与工程学院 圣母大学0jkinniso@nd.edu0Brandon RichardWebster计算机科学与工程学院 圣母大学0brichar1@nd.edu0Pouya BashivanMcGovern大脑研究所和脑与认知科学系 MIT0bashivan@mit.edu0Walter J. Scheirer 计算机科学与工程学院圣母大学0walter.scheirer@nd.edu0摘要0神经科学理论认为,大脑的视觉系统通过神经激活模式来粗略地识别广泛的物体类别,类似的物体产生类似的神经反应。人工神经网络在对刺激作出反应时也有内部激活行为。我们假设表现出类似大脑激活行为的网络将表现出类似大脑的特征,例如更强的泛化能力。在本文中,我们引入了一种人-模型相似度(HMS)度量,用于量化人类fMRI和网络激活行为的相似性。为了计算HMS,我们创建了表示性差异矩阵(RDMs),作为激活行为的抽象,通过激活对刺激对的相关性来衡量。HMS是fMRIRDM和神经网络RDM在所有刺激对之间的相关性。我们在无监督的预测编码网络上测试了该度量标准,并在大范围的超参数上评估了该度量标准的统计显著性。我们的实验表明,具有增加的人-模型相似性的网络与两个计算机视觉任务的更好性能相关:下一帧预测和物体匹配准确性。此外,HMS还可以作为训练过程中的早停机制。0图1.生物启发的深度学习工作的一个主要目标是实现更接近生物大脑的泛化能力。在这方面,我们提出神经网络训练的模型搜索框架可以通过人-模型相似度度量来进行引导。该度量标准将人脑和神经网络在共享刺激上的内部激活行为进行相关性比较。在本研究中,我们研究了fMRI记录[23]和预测编码网络[29]的具体情况。通过测量两个刺激之间激活的差异来衡量内部行为。人-模型相似度是大脑和模型在一个刺激集上的内部行为的比较,较高的相似度意味着更好的模型泛化能力。1https://github.com/CVRL/human-model-similarity540501. 简介0研究人员最初根据神经生物学的结构和功能设计了人工神经网络,希望这些网络能够近似于启发它们的生物学的性能[44]。随着现代深度学习技术的出现,神经网络终于开始在某些模式识别问题上实现这一最初的目标[25]。然而,我们只需要考虑大脑的学习和处理能力,就知道神经网络的性能与人类的能力相差甚远[5,16,40,41]。这一缺点激发了研究人员设计新的网络,这些网络更好地近似了神经生物学的结构,利用机器学习的架构元素构建了体现现代脑组织理论的网络[29,30,42,43,47,53]。在本文中,我们超越了结构相似性,考虑了生物大脑和训练网络(即模型)之间的行为相似性,通过比较在一组刺激上的激活行为的相似性来衡量。我们假设行为相似性增加的网络将在不同的视觉识别任务中表现出更好的泛化能力。一种受神经生物学启发的网络是无监督的预测编码网络[29,39]。预测编码网络将神经网络的经验成功与计算神经科学的见解相结合,以增加生物学的准确性(即算法的表示、转换和学习规则与大脑中对应部分的对应性)。这些网络被设计[29]和证明[30]体现了在野外生物视觉系统不断预测下一个输入信号的理论[39]。此外,这些网络使用无监督的视频数据进行训练,这也是生物体所做的[25],允许大规模的无监督学习。最后,这些网络已经在至少两个不同的任务上表现出良好的性能:下一帧预测和物体匹配[29]。预测编码网络在体系结构上设计成模拟神经处理。然而,生物体泛化和适应的能力不仅来自结构,还来自内部行为。在内部,视觉系统以相似的细胞激活模式处理相似的物体[7,14,33]。这种激活行为是大脑泛化能力的可观察表现,例如自动允许对未见过的物体类别进行分类(例如,尽管以前从未见过这辆特定的汽车,但正确识别出它是一辆汽车)。我们假设模仿大脑视觉行为的预测编码网络将具有增加的生物学准确性,因此相比不表现出这种行为的编码网络具有更强的泛化能力。为了测试这个假设,我们进行了研究0我们提出了一种新的人-模型相似度度量(HMS),用于评估网络与人脑fMRI记录之间的内部行为相似性(图1)。预测编码网络和生物大脑都通过它们的神经激活展现内部行为。因此,评估网络的内部行为是否具有生物相似性需要测量激活的相似性。为此,我们利用最近建立的表示相似性分析(RSA)技术[23,32]。RSA利用一组刺激来量化激活的行为相似性。对于任何大脑或网络,可以测量其对刺激的激活功率。然后,可以将内部行为定义为在一组刺激上的激活差异。在视觉识别的情况下,我们期望类似的刺激具有类似的激活。我们利用一组选择的刺激来展示相似和不相似对象的范围[24]。评估生物体和神经网络的激活行为相似性的一个问题是大脑神经元和网络神经元之间缺乏一对一的映射。通过RSA,复杂系统被抽象为表示不相似性矩阵(RDMs),由系统的内部行为组成,即在一组刺激上的激活差异。将系统抽象为RDM的完整过程如图2所示。当两个输入系统都被抽象为具有相同刺激的RDM时,可以直接进行映射。我们提出的HMS度量将人类fMRIRDM和神经网络RDM的相关性作为人-模型相似性的度量。我们在广泛的超参数化网络、数据领域和替代网络度量的蒙特卡洛场景中评估HMS度量。这种方法使我们能够探索预测编码网络中我们可以期望找到的内部行为相似性的范围。此外,这种方法使我们能够考虑如何在神经网络训练的模型搜索过程中使用人-模型相似性度量。虽然RSA已被用于分析卷积神经网络(CNNs)和生物行为之间的相似性[21, 32,51,52],但作为评估网络神经生物学保真度的一种广义人-模型相似性度量以及其在神经网络模型搜索中的应用,迄今为止仍然很少被测试。我们的目标是通过数据驱动的HMS度量研究,将其作为研究计算机视觉中泛化性的工具。总之,我们的贡献如下:(1)引入和评估一种新的人-模型相似度度量,称为HMS,用于衡量网络的泛化能力。1 (2)实施度量评估框架,评估新的机器学习性能度量。(3)发现HMS作为训练的早停机制的指标。54060通过对KITTI [15]、VLOG [13]和“Gazoobian Object”[48]数据集进行实验,我们评估了预测编码网络的性能。(4)将HMS确定为训练的早停机制。02. 相关工作0如何最好地评估机器学习算法是一个持续讨论的话题。传统的评估方法侧重于数据集上的外部性能,但无法保证不会出现过拟合或在真实世界数据上出现不可预测的网络性能[49]。另一种替代的评估方法是视觉心理物理学,它在逐渐扰动刺激的同时监测神经网络的性能[26, 40,41]。这种评估方法的核心观察是,一个不一致地识别扰动刺激的网络是不可信任的。然而,这些评估仍然集中在数据集内部的变异性上,不能保证网络不仅仅是过拟合了它。超越数据集,我们提出的评估指标HMS通过直接与世界上最具普适性的视觉系统之一——生物大脑[7, 14,33]的内部行为进行比较,量化了网络内部行为的一致性。HMS使用人类参与者的fMRI数据作为导致良好泛化的内部行为的基准。网络和人类fMRI数据之间的比较受到了Kriegeskorte等人的启发[23],他们描述了如何将网络或神经激活抽象为RDM。RDM是一种可以与另一个RDM直接比较的抽象表示,只要两者都是从一组共同的刺激中创建的。图2显示了如何计算和抽象内部行为,并如何比较RDM。第3.3节描述了正式的RDM创建过程。Kriegeskorte长期以来一直利用RDM研究神经行为[21, 22, 23, 24, 34,35]。关于神经科学和机器学习之间的交叉领域,fMRI神经影像技术已被用作设计特征的基准[8],解释神经网络特征[19,28]和研究网络性能[46]。Fong等人[12]最近发现原始fMRI数据可以用于加权支持向量机以提高性能,表明粗粒度的脑数据可能有助于机器学习网络的泛化。那项研究的成功,以及Nili等人[35]以RDM形式公开发布的人类fMRI数据进一步激发了我们在网络评估中使用fMRI数据作为基准的动机。fMRI数据在扩展我们对神经网络理解方面的具体贡献尚待探索,但据我们所知,这是fMRI数据首次被用于神经网络模型搜索的实例,其中任务是筛选在给定任务上表现良好的不同超参数和架构配置的模型。0最近对于神经网络模型搜索的优化方法、搜索策略和基础设施引起了相当大的兴趣[3, 10, 18, 27,36]。在这个背景下,我们的工作为这样的搜索提供了新的能力。已经进行了大量研究,将猕猴的神经活动与CNN进行比较[17, 20, 50, 51,52]。这些研究将CNN层映射到用电极阵列测量的解剖学视觉区域。最近的研究表明,这些内部表示对图像级别的灵长类动物行为没有预测能力[38,45],这表明CNN没有足够好地模仿内部行为。鉴于这些最近的发现,我们选择研究更具生物学可行性的预测编码网络[29,39]。这些网络是无监督的,并且在许多问题领域相对未被探索,但在下一帧预测等问题上具有最先进的性能。我们选择PredNet架构是因为研究已经证明其具有与生物视觉一致的新兴特性[30],这意味着它不仅仅是基于理论。然而,还有许多受生物启发的神经网络架构[37, 42, 43, 47,53],对它们的兴趣还在不断增长[2]。所有这些网络都值得进行内部行为的研究。03. 方法0在本节中,我们介绍了围绕HMS度量的核心方法。首先,我们介绍了用于实验的受生物启发的预测编码网络。然后,我们解释了用于研究HMS的评估框架,并讨论了计算机视觉任务(对象匹配和下一帧预测),网络性能是在这些任务上进行评估的。最后,我们详细介绍了度量本身(图2),解释了:(1)通过测量对刺激物的激活来将fMRI记录和神经网络抽象成个体RDM,以及(2)fMRI和神经网络RDM之间的相关性,从而得到HMS分数。03.1. PredNet:一种受生物启发的网络0PredNet[29]是一种最近引入的无监督的、受生物启发的预测编码网络。它的架构包括多个层(根据配置可以变化),每个层都包含表示神经元(卷积LSTM单元),在处理数据序列时,在每个时间步输出特定层的预测。然后将该输出与目标进行比较,计算出一个误差项,该误差项在网络中进行横向和纵向传播。我们遵循Lotter等人[29]提出的PredNet训练方案。PredNet是无监督训练的:网络展示了一组随机抽样的连续帧序列,并在查看每个帧时,尝试预测下一个帧。54070图2.提出的人体模型相似度度量HMS是通过比较预测编码网络和人脑fMRI记录的神经激活行为来计算的。神经激活是通过将系统暴露于刺激物而获得的。我们根据内部行为抽象地总结源,通过激活模式为每个刺激物对生成相似性分数ψ。然后,我们将这种内部行为存储到刺激物的RDM(上面的R1和R2)。最后,HMS度量ρ等于通过刺激物对所测量的两个源的内部行为的Spearman等级相关系数。0图3.我们在随机超参数化的预测编码网络上评估了我们提出的HMS评估度量,以研究空间的蒙特卡罗式统计样本。我们使用三个度量来评估每个网络:HMS、对象匹配准确度度量和下一帧预测误差度量。然后,我们比较了所有训练过的网络在这些度量上的性能。我们发现,HMS较高的网络在其他计算机视觉度量上具有较高的性能,并且性能在网络之间和网络内部都有关联。0网络被优化以减少训练集上的下一帧预测误差。03.2.度量评估框架0因为我们专注于提高泛化能力,所以我们评估HMS作为其他更标准的性能度量的预测指标的价值。这涉及在网络类型内变化超参数,获得搜索空间的蒙特卡罗式统计样本,并在样本中将HMS与标准计算机视觉评估指标进行相关分析(图3)。我们通过研究样本网络的几个性能指标的均值、标准差和Spearman相关系数来分析网络。我们通过报告Spearman的p值来确保显著性,该值对应于相关性发生的可能性。我们还遵循Cohen的标准建议来解释效应大小[6],并且在比较两个不同的度量时不考虑小的相关性(小于0.2),即使它们达到了统计显著性。此外,我们进行Bonferroni校正,该校正以保守的方式调整显著性,以抵消多重检验问题,其中多个推断增加了错误推断的可能性[9]。在我们的所有结果中,报告了经过Bonferroni校正的p值。0在这项研究中,我们将HMS与下一帧预测任务(PredNet的默认模式)上的均方误差(MSE)以及对象匹配准确性进行相关。在实验中,按照Lotter等人[29]建立的协议,MSE被计算为预测的下一帧和实际下一帧之间像素差的平方的均值。对象匹配准确性进行评估。=(1)(3)54080首先提取最后一层对探针图像的神经激活。然后,在包含50个图像的图库中提取来自最后一层的神经激活,其中一个图像是具有改变的照明、颜色、视角或其组合的相同对象。计算探针和图库激活之间的余弦相似度,并且具有与探针最高激活相似度的图库图像是预测的匹配。03.3.用于模型搜索的HMS指标0计算提出的HMS指标涉及几个步骤(主要步骤在图2中突出显示)。下面描述的RDM创建过程遵循RSA工具箱的程序[35]。用于构建RDM的刺激选择。刺激是由Kriegeskorte等人选择的,用于比较人类-灵长类神经下颞叶(IT)对象表示。刺激被选择为提供一系列不同和相似对象的分层范围,例如有生命和无生命的对象,非人类和人类的对象,以及面部和身体的对象。完整的刺激集合在补充材料的第1.1节中描述。人类fMRI数据集。人类fMRI数据作为表征差异性工具箱的一部分发布[35]。所有数据都以RDM格式提供,这意味着我们没有直接处理fMRI数据,而是已经以可用形式接收到该集合。因此,任何人都可以在不需要特定的fMRI领域知识的情况下使用这些数据,这使得HMS指标广泛适用于机器学习任务。尽管从四个参与者在两个会话中收集了数据,但我们按照Mur等人的方法[34]将主题RDM平均到一起,形成一个平均人脑RDM,以减少噪音。RDM是从大脑的双侧IT区域的激活中构建的。有关人类fMRI数据收集的完整细节可以在[24]中找到。尽管如此,为了完整起见,我们简要描述了Kriegeskorte等人[24]用于收集人类fMRI数据的过程。从四个主题在两个会话中的fMRI记录中构建了八个RDM,以响应92个刺激。记录是从一个枕顶颞区域(厚度为5cm)的1.95×1.95×2mm³测量中进行的。被试者被呈现一个随机序列的92个刺激。每个刺激显示300毫秒,每3700毫秒一次,刺激之间间隔4秒。并非所有体素都用于构建RDM。基于对独立数据集中刺激的体素响应,选择了感兴趣的体素。未进行空间平滑或体素平均。对刺激的PredNet激活。使用完全相同的92个刺激集,我们使用PredNet内部表示神经元的激活作为特征构建RDM。具体而言,从卷积LSTM单元记录激活。预测编码网络是0基于时间的网络,因此我们为固定的五帧呈现刺激并记录每个时间步的激活。我们丢弃第一个时间步,因为它对应于“空白”预测。这种类型的刺激呈现方式下,PredNet的激活模式模仿了感知的生物神经反应[30]。RDM构建。给定单个特征f和单个刺激s,v =f(s),其中v是对s的响应中特征f的值。同样,向量0�v =0[0]0v1v2...vn0]0]0T0[0]0f1(s)f2(s)...fn(s)0]0]0T0可以表示n个特征f1,f2,...,fn对s的响应的特征值集合�v。如果将s的表示扩展到一组m个刺激S = s1, s2, ...,sm,那么�v的自然扩展就是特征值集合V = �v1, �v2, ...,�vm,其中si ∈ S与�vi ∈ V配对,对于每个i = 1, 2, ...,m。在构建RDM之前的最后一步是定义V中任意两个�vi ∈V和�vj ∈ V之间的不相似度分数。我们使用对称函数0ψ(�vi,�vj) := 1 - 0∥�vi - ¯vi∥2 ∥�vj - ¯vj∥2 (2)0其中¯v是�v中特征的均值。然后可以根据S、V和ψ构建RDM:0R =0[0[0ψ(�v1,�v2) ψ(�v1,�v3) ... ψ(�v1,�vm) ψv2,�v3)... ψ(�v2,�vm) ... ... ψ(�vm−1,�vm)0]0||||||0人-模型相似性(HMS)。对于来自同一组刺激S的任意两个RDMsR1和R2,可以计算它们的相似性以确定对S的激活行为有多相似。相似性函数0HMS = ρ(ˆR1, ˆR2) (4)0计算了由ρ表示的Spearman等级相关系数。因此,HMS被计算为人类fMRIRDM的平均值与构建的PredNet网络RDM之间的相关性,该RDM是通过网络对刺激的激活获得的。得到的分数在实数区间[-1,1]上定义,其中1表示完美相关,-1表示完美负相关,0表示两个RDM完全不相关。54090评估任务指标均值(标准差)前十个HMS均值(标准差)0下一帧预测误差像素MSE0.092(0.148)0.009(0.003)物体匹配准确性0.367(0.134)0.459(0.049)人-模型相似性RDM相关性0.106(0.055)0.178(0.011)0表1.对于95个随机超参数化的PredNet网络样本的评估分数的统计概述。这些分数表示我们预计从任意PredNet网络中获得的分数范围。前十个HMS平均分数指的是十个具有最高人-模型相似性的网络在每个指标上的平均分数。前十个平均值显示,具有高HMS的网络在其他任务上也能取得高性能。物体匹配任务被故意设计为困难的-网络必须区分未见过的、虚构的“Gazoobian”对象的细微差异[48],其中任务的机会是(0.02)。网络使用KITTI[15]进行训练,并使用一组保留的KITTI数据进行下一帧预测的评估。像素MSE是预测帧与实际帧在像素级上的均方误差。SD是标准差。04. 实验0我们的实验评估了预测编码网络的生物保真度对两个计算机视觉任务的影响:下一帧预测和物体匹配。我们将生物保真度定义为内部激活行为与人类fMRI的相似性,通过RDMs进行测量。我们使用了四个数据集。我们在包含92个刺激的数据集上评估了HMS,这些刺激包含了从真实人脸到动画对象等各种相似和不相似的对象[23]。计算机视觉能力通过两个任务进行评估:下一帧预测和物体匹配准确性,如第3.2节所述。下一帧预测通过在KITTI数据集[15]上测量像素级MSE来进行评估,该数据集由车载摄像头的图像序列组成。我们还尝试了另一个视频数据集VLOG[13]。对于物体匹配,我们使用了一个随机生成的“GazoobianObjects”数据集(按照Tenenbaum等人[48]的描述进行),其中包含了在训练中保证未见过的异世界对象。Gazoobian刺激与HMS刺激的呈现方式相似。尽管这些对象与用于训练的自然图像相比完全不同,但人类能够轻松地推广到它们[48],使它们成为研究模型在推理时的泛化能力的优秀基础。对象的旋转、光照、颜色或其组合是变化的。所有数据集的示例图像可以在补充材料的第1节中找到。04.1. HMS是否发现了具有泛化能力的模型?0最初,我们评估了一组随机的蒙特卡洛样式的超参数,以测试HMS、下一帧预测和物体匹配在PredNet网络中的变化情况。按照典型的模型搜索方式,我们变化了六个超参数,包括训练时期的数量、训练一个时期后用于验证的视频序列数量、在一个时期内用于训练的视频序列数量、批量大小、学习率以及所有层的卷积滤波器的大小。0我们使用HyperOpt[4]这个分布式超参数优化软件包,使用随机选择的超参数训练了95个4层PredNets。在表1中,我们报告了这95个训练过的PredNets的指标均值和标准差。下一帧预测在Lotter等人的研究[29]范围内。准确度分数突出了物体匹配任务的困难,该任务专注于从50个图像库中进行特定物体匹配(机会=0.02)。评估分数表明我们的参数非常适合抽样:性能高于机会但低于上限。令人印象深刻的是,平均HMS在平均人类相似性得分0.19(SD =0.09)的标准差范围内。我们还通过使用VLOG数据集[13]在跨数据集环境中验证了这些结果的稳定性(这些实验在补充材料的第3节中讨论)。我们接下来研究了高HMS相似性与其他指标的关系,通过查看HMS得分最高的10个网络(在表1中报告)。这些网络在两个计算机视觉任务上相对于所有网络集合实现了更高的性能。我们还研究了HMS最低的10个网络,并注意到它们的性能远低于平均水平:平均下一帧预测误差为0.314(SD =0.138),平均物体匹配准确率为0.13(0.15),平均HMS为-0.008(0.027)。这表明HMS是一个有效的性能度量。HMS较高的网络表现良好,HMS较低的网络表现较差。为了有用,HMS需要在所有模型中都是一个有效的预测器,而不仅仅是在高性能和低性能的模型中。我们通过计算样本网络之间的Spearman相关系数来验证,在所有模型中,HMS较高与其他指标的较高性能相关(表2)。此外,这些相关性的p值是我们的发现出现的概率,p <0.001表示我们的相关性发生的概率小于0.001(0.1%),即发生的概率很小(详见第3.2节中这些保障措施的详细信息)。这些指标之间的相关性强度为中等到强,p <0.001。这证实了HMS对计算机视觉任务的网络性能具有预测能力。此外,我们计算了所有超参数的相关性分数,以验证没有个别参数负责这些结果。我们在表2中包括学习率(LR)超参数,因为它与其他指标有中等相关性。与LR的相关性表明LR可能对结果产生强烈影响。我们使用偏相关分析来研究其影响,偏相关分析可以在控制LR的影响下测量指标之间的关系。表2中的指标之间的相关性不具有统计学意义(p <0.001);然而,样本大小对于测试的LR范围来说太小。我们通过在一个更大的网络集合(N =1811)上重复偏相关分析来解决这个问题。对于这个样本,指标之间的偏相关性具有统计学意义(p <0.001),样本的相关性强度与之前的样本相似。这证实了HMS与其他指标的相关性是显著的,无论LR对训练的影响如何。关于这个实验的更多讨论可以在补充材料的第2.2节中找到。上述所有发现都证明了HMS是一个有效的搜索指标。HMS对于计算机视觉任务在所有模型(通过相关性)和极端模型(顶部和底部模型)上的性能具有指示作用。表现出更类似于大脑内部行为的网络在其他评估任务中具有更好的泛化能力。54100变量准确率HMS学习率0下一帧预测误差-0.791 ** -0.646 ** 0.635 **0物体匹配准确率。0.575 ** -0.517 **0人-模型相似性。-0.452 **0** p < 0 . 001 表2.95个使用随机超参数训练的PredNets的Spearman相关系数。相关性证实HMS对其他指标的网络性能具有预测能力。Next FramePredictionError与其他两个指标之间的负相关是因为下一帧预测是通过误差来衡量的,应该最小化,而HMS和Accuracy是要最大化的指标。确定统计显著性时采取了预防措施,详见第3.2节。学习率与每个指标都有相关性,但在偏相关分析后并未确定学习率是HMS作为网络性能预测因素的显著贡献因素。0HMS对计算机视觉任务的网络性能具有预测能力。此外,我们计算了所有超参数的相关性分数,以验证没有个别参数负责这些结果。我们在表2中包括学习率(LR)超参数,因为它与其他指标有中等相关性。与LR的相关性表明LR可能对结果产生强烈影响。我们使用偏相关分析来研究其影响,偏相关分析可以在控制LR的影响下测量指标之间的关系。表2中的指标之间的相关性不具有统计学意义(p <0.001);然而,样本大小对于测试的LR范围来说太小。我们通过在一个更大的网络集合(N =1811)上重复偏相关分析来解决这个问题。对于这个样本,指标之间的偏相关性具有统计学意义(p <0.001),样本的相关性强度与之前的样本相似。这证实了HMS与其他指标的相关性是显著的,无论LR对训练的影响如何。关于这个实验的更多讨论可以在补充材料的第2.2节中找到。上述所有发现都证明了HMS是一个有效的搜索指标。HMS对于计算机视觉任务在所有模型(通过相关性)和极端模型(顶部和底部模型)上的性能具有指示作用。表现出更类似于大脑内部行为的网络在其他评估任务中具有更好的泛化能力。04.2. 模型搜索中的指标稳定性0在网络训练过程中,我们的评估指标有多稳定?在相同的超参数化模型中,网络性能的评估是否存在差异?如果HMS在训练过程中波动很大,它可能是一个不可靠的性能指标。通过进一步的实验,我们发现情况并非如此,并且证明HMS是比其他指标更早的一个预测器。网络内稳定性。我们首先研究了在训练过程中指标的变化情况,选择了74个4层PredNet的样本,训练了150个轮次,并在每5个轮次进行性能评估。我们重点分析了10个网络,其中MSE在第150个轮次时低于0.01,这意味着0收敛性。我们发现每个指标都有自己的可预测行为,如图4所示,这种行为在超参数一致的情况下是一致的。一旦HMS在25个轮次内稳定(标准差≤0.01),它就会保持稳定。目标匹配准确性往往在开始时较高,然后下降,最后随着训练的进行再次上升。最后,下一帧预测误差要么持续减小,得到一个良好的网络,要么增加,导致一个退化的网络。表2中的相关性表明任何指标都可以用作预测器,但训练行为揭示了如何利用这些指标。HMS首先稳定下来,平均需要32个轮次。准确性其次,在平均66.5个轮次(标准差为36)后稳定,尽管有些分数没有达到平稳状态,而是继续增加。在下一帧预测误差(MSE)随着训练的进行而减小的情况下,它通常在所有150个轮次内持续减小,这使其成为一个较差的指标。0图4.代表性PredNet模型的网络内稳定性分析。我们发现每个指标在训练过程中都有自己的典型行为。目标匹配准确性在训练初期不一致,但最终稳定并继续增加。下一帧预测误差(MSE)要么持续下降(如上图所示),要么不可预测地上升,但它严重依赖于训练时间。HMS在训练初期不一致,但比准确性更快地稳定下来,而准确性的稳定时间更长,MSE需要较长的训练时间才能稳定。这些发现意味着HMS可以用于识别网络搜索中的性能较差的网络并进行早停止。01503000.000.300.60-0.050.2054110性能的相关性。请注意,在95个模型样本中,MSE是唯一与训练轮数相关的指标(-0.332,p <0.001)。有关跨网络稳定性的更多细节、结果和实验,请参阅补充材料的第5节。04.3. 早停止的机制0从第4.2节的研究结果可以得出结论,我们提出的HMS指标可以在网络训练过程中用于丢弃(即停止训练)最终表现较差的模型。为了证明这一点,我们对第4.1节中的95个PredNet进行了事后分析。在图5的左侧,我们展示了使用HMS进行早停止所节省的时间以及使用第4.2节的收敛准则的准确性。总体而言,使用HMS进行早停止可以将训练时间减少67%,而不会对最终性能造成任何损失。我们还测试了一个阈值策略,即如果网络的HMS得分低于0.161(表1中HMS的平均值加上一个标准差),则在训练过程中停止该网络。在95个模型中,只有13个(13.7%)的模型超过了这个阈值。图5的右侧显示了模型的准确性得分与HMS阈值的关系。我们的分析表明,即使设置了较高的停止训练阈值,并且损失了一些性能较高的模型,大多数保留下来的模型仍然具有较高的性能,并且更有可能在两个任务上表现出较高的性能。此外,在这种情况下,最高性能的计算机视觉模型得以保留,但其他一些保留下来的性能较高的模型在性能上有微小差异,如果最佳模型被丢弃,它们也同样有用。有关这些实验和其他结果的完整细节,请参阅补充材料的第6节。05. 讨论0相较于传统的人-模型比较,利用HMS有几个好处。(1)HMS对于模型搜索非常有用,因为学习表示的激活模式在训练早期就会出现,而其他评估需要完全训练一个网络。(2)有证据表明,HMS能够指示模型对未见数据和任务的泛化能力,因为HMS较高的PredNet模型更有可能在对象匹配准确性和下一帧预测方面表现良好。(3)与其他感知一致性评估相比,如视觉心理物理学[40,41],HMS的计算成本要低得多。考虑到HMS评估与准确性评估的计算成本,后者利用心理物理刺激(变化的光照和纹理)。HMS只需要网络处理92个刺激。PredNet准确性度量需要网络处理每个试验的51个刺激(1个探针,50个图库),共500个试验(25,500个刺激)。(4)我们使用fMRI数据作为基准,因为它克服了标记不同对象之间正确相似性的困难。例如,作为人类,我们本能地知道一对面孔应该具有高度相似的激活行为,但手和面孔呢?神经数据为这个问题提供了一个隐含的答案。可以提出的一个担忧是获得fMRI数据的困难。幸运的是,在神经科学领域有一个不断增长的开放科学运动。本研究中使用的fMRI数据是公开可用的,任何人都可以利用[35],而且远非唯一可用的数据。存在着大量的公共fMRI存储库,用于视觉、文本和音频任务,研究人员不需要成为专家就能利用它们。一些例子是Donders存储库[11],OpenNeuro[1]和Oasis[31]。我们相信,在功能上更具生物学保真度的网络将是克服当今网络在复制生物视觉方面的缺点的关键。人工智能研究的未来需要弥合网络结构和内部行为之间的差距,这需要重新评估我们如何评估网络。过去,意外的网络行为使研究人员措手不及,例如对敌对图像的敏感性。而且重要的是要记住,当前的网络与人类行为不一致[40,41]。测量内部行为的评估应该对避免意外问题有所帮助,并可能帮助我们实现下一次泛化突破。0HMS准确性无0训练时间(小时)0使用不同度量的节省时间0早停止度量0用于早停止的度量0准确性0HMS0早停止阈值0与网络准确性一起0图5.左图显示了使用HMS驱动的早停止对95个PredNets样本的训练时间进行了67%的削减,使用SD≤0.01的收敛标准进行了25个epochs。使用相同的准确性收敛标准效果不如预期。右图散点图显示了早停止阈值(0.161)上下模型的准确性。线左侧的82个模型可以在不影响最终性能的情况下被丢弃。这些实验利用了第4.2节建立的度量稳定性的发现,以量化利用早停止对模型样本的潜在结果。0它克服了标记不同对象之间正确相似性的困难。例如,作为人类,我们本能地知道一对面孔应该具有高度相似的激活行为,但手和面孔呢?神经数据为这个问题提供了一个隐含的答案。可以提出的一个担忧是获得fMRI数据的困难。幸运的是,在神经科学领域有一个不断增长的开放科学运动。本研究中使用的fMRI数据是公开可用的,任何人都可以利用[35],而且远非唯一可用的数据。存在着大量的公共fMRI存储库,用于视觉、文本和音频任务,研究人员不需要成为专家就能利用它们。一些例子是Donders存储库[11],OpenNeuro[1]和Oasis[31]。我们相信,在功能上更具生物学保真度的网络将是克服当今网络在复制生物视觉方面的缺点的关键。人工智能研究的未来需要弥合网络结构和内部行为之间的差距,这需要重新评估我们如何评估网络。过去,意外的网络行为使研究人员措手不及,例如对敌对图像的敏感性。而且重要的是要记住,当前的网络与人类行为不一致[40,41]。测量内部行为的评估应该对避免意外问题有所帮助,并可能帮助我们实现下一次泛化突破。06. 致谢0该研究得到了IARPA合同D16PC00002和NSF DGE1313583的资助。54120参考文献0[1] https://openneuro.org/. 8 [2] D. G. Barrett, A. S. Morcos,and J. H. Macke.分析生物和人工神经网络:挑战与协同机会?arXiv预印本arXiv:1810.13373,2018. 30[3] P. Bashivan, M. Tensen, and J. J. DiCarlo.教师引导的架构搜索。《arXiv:1808.01405[cs]》,2018年8月,arXiv:1808.01405,30[4] J. Bergstra, D. Yamins, and D. D. Cox.在视觉架构的数百个维度上进行模型搜索的科学。《ICML(1)》,2013年28:115-123,60[5] M. F. Bonner and R. A. Epstein.计算机机制解释了对视觉场景可供性属性的皮层反应。《PLOS计算生物学》,2018年4月,14(4):e1006111,20[6] J. Cohen.行为科学的统计功效分析。第二版。劳伦斯∙埃尔鲍姆联合出版公司,1988年,40[7] M. N. Coutanche and G. E. Koch.大小不一的生物:动物的实际大小预测视觉皮层的表示,超越分类类别。《神经影像学》,2018年12月,183:627-634,2,30[8] J. G. Daugman.二维视觉皮层滤波器在空间、空间频率和方向上的分辨率优化的不确定性关系。《美国光学学会杂志A》,1985年7月,2(7):1160-1169,30[9] O. J. Dunn.依赖变量均值的估计。《数学和统计学年鉴》,1958年12月,29(4):1095-1111,40[10] T. Elsken, J. H. Metzen, and F. Hutter.神经架构搜索综述。《arXiv预印本arXiv:1808.05377》,2018年,30[11] FAIRsharing团队.Donders存储库,2018年,类型:数据集,80[12] R. Fong, W. J. Scheirer, and D. Cox.利用人脑活动指导机器学习。《科学报告》,2018年3月,8:5397,30[13] D. F. Fouhey, W.-c. Kuo, A. A. Efros, and J. Malik.从生活方式视频博客到日常互动。《IEEE/CVFCVPR》,2018年,3,60[14] F. E. Garcea, J. Almeida, M. H. Sims, A. Nunno, S. P.Meyers, Y. M. Li, K. Walter, W. H. Pilcher, and B. Z. Mahon.领域特异性的远离性:顶叶动作区损伤调节腹侧通路对工具的神经反应。《大脑皮层》,2018年,2,30[15] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun.视觉与机器人技术相遇:KITTI数据集。《国际机器人研究杂志》,2013年32(11):1231-1237,3,60[16] R. Geirhos, C. R. M. Temme, J. Rauber, H. H. Schuett, M.Bethge, and F. A. Wichmann.人类和深度神经网络的泛化。《arXiv预印本arXiv:1808.08750》,2018年,20[17] H. Hong, D. L. Yamins, N. J. Majaj, and J. J. DiCarlo.类别正交物体属性的显式信息沿着腹侧通路增加。《自然神经科学》,2016年19(4):613,30[18] C.-H. Hsu, S.-H. Chang, D.-C. Juan, J.-Y. Pan, Y.-T. Chen,W. Wei, and S.-C. Chang.Monas:使用强化学习的多目标神经架构搜索。《arXiv预印本arXiv:1806.10332》,2018年,30[19] I. Kalfas, K. Vinken, and R. Vogels.深度卷积神经网络、猴子颞下皮层神经元和人类判断对规则和不规则形状的表示。《PLOS计算生物学》,2018年14(10):e1006557,30[20] S. R. Kheradpisheh, M. Ghod
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功