深度学习中感知学习的隐藏层分析与参数转移的研究

92 浏览量更新于2023-10-15 收藏 12.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

45540感知学习中的隐藏层0Gad Cohen DaphnaWeinshall计算机科学与工程学院耶路撒冷希伯来大学，以色列耶路撒冷91904电子邮件：gad.a.cohen@gmail.com，daphna@mail.huji.ac.il0摘要0视觉感知学习研究探究了人类在相对简单（因此更易管理）的视觉任务背景下通过练习而提高的表现方式。借鉴目前用于训练卷积神经网络（CNN）的强大工具，这些网络的原始架构受到视觉系统的启发，我们重新审视了感知学习中的一些开放性计算问题。我们首先通过训练一个浅层CNN来复制两组代表性的感知学习实验。这些网络在定性上展示了感知学习中观察到的大部分特征行为，包括特异性及其在转移或部分转移形式中的各种表现，以及学习的启用。接下来，我们分析了网络中权重修改的动态，识别出似乎对模拟网络中从一个任务到另一个任务的技能转移（或泛化）起到重要作用的模式。这些模式可以确定在网络重新训练期间参数空间中搜索领域的方式，从而显著减少知识转移。01. 引言0相对简单的感知任务的表现已知受到练习的影响。对这个过程的研究揭示了一些令人惊讶的结果[16]，为了解人类学习机制提供了一个窗口。最引人注目的结果之一是反复观察到许多获得的技能特定于刺激的低级属性（例如方向），并且不会转移（例如不会推广到其他方向）。这些和其他结果被用来限制人类感知学习的计算建模，如第2.1节简要回顾。在本文中，我们在深度学习的最新进展和具体情况下重新审视这些计算研究0通过卷积神经网络（CNN）对学习者进行建模。选择这种建模方式是因为CNN的架构与大脑中的低级视觉区域的组织相似。在第3节中，我们描述了代表性感知学习实验的模拟，其中学习者是一个浅层CNN，并研究其出现的特性。这些特性以定性的方式与实际的感知学习结果进行直接比较。在第4节中，我们分析学习过程。我们跟踪权重修改的动态，以及促进后续学习会话的变化模式，即实现学习转移的模式。当重新训练网络时，通过减少搜索空间来实现这种促进。我们研究的模型是一个相对浅层的卷积神经网络（CNN），它具有两个隐藏的卷积池化层（实际上是学习到的特征），以及一个输出层，该输出层使用可修改的权重整合特征的响应。与之前的建模尝试相比，主要的区别在于这是一个通用模型，它在其管道分层结构上类似于视觉系统（尽管它不是视觉处理区域的生理准确模型）。它是一种从零开始学习视觉特征以及决策分类器的通用学习机器。因此，它可以用来研究特征和分类权重对学习过程的相对贡献。02. 背景02.1. 感知学习中的泛化0非凡的认知学习能力，可以说是优于任何其他生物，使人类能够取得令人难以置信的成就。在这里，我们关注与之相关但不那么引人注目的感知学习能力，即通过实践和训练改善感知技能（特别是视觉技能）。感知学习研究通常衡量练习对简单视觉任务（如运动方向判别或线条方向检测）的表现的影响。典型的情况是，通过练习，学习者可以提高在这些任务中的准确性和速度。cally the learner is given feedback, but perceptual learningis known to take place also without direct feedback.Early studies showed improvement in sensitivity of basic(low level) visual tasks, as basic as hyper-acuity. It was soonshown that most of these improvements were rather speciﬁc,selective to stimulus orientation, spatial-frequency, and reti-nal location [6, 3].This seemed to imply that learning-related modulations were taking place in early areas of vi-sual processing, indicating somewhat unexpected plasticityin the adult brain. Thus, the issue of learning Speciﬁcitybecame central to the study of perceptual learning, with ev-idence accumulating for the lack of Transfer, namely, per-ceptual learning typically would not lead to improved per-formance in the same task when slightly modiﬁed (e.g., byshifting the stimulus to a different retinal position). A cen-tral question emerged [16]: ”does learning involve rewiringof neurons in early visual areas, or can it all be explained byimproved efﬁciency in the readout of unchanged early neu-ronal representations?”. This question provided a centralmotivation for the current study.The question of learning Speciﬁcity continued to inspireadditional studies, further complicating the picture. Thuslearning Speciﬁcity was shown to be correlated with difﬁ-cult perceptual tasks. In easier tasks, e.g., in discriminationtasks involving stimuli with high SNR, generalization wassometimes seen by way of immediate improvement in thenovel task, or a shorter learning period [9, 12]. Moreover, anew phenomenon called learning Enabling, or Eureka, wasreported. This time, when the difﬁculty of the perceptualtask was manipulated, a new form of transfer was observed[2]: after training with an easy perceptual task (e.g., us-ing high SNR stimulus), observers were suddenly able tolearn the corresponding difﬁcult condition (low SNR) theyhad previously been unable to learn. This is reminiscentof similar phenomena in cognitive learning, and the relatedconcept of curriculum learning [4].Two prominent computational models of perceptuallearning were developed to explain this pattern of results.The reverse hierarchy theory [1] postulates a hierarchicalarchitecture, where learning is governed by a top-down(rather than the customary bottom-up) information ﬂow.Speciﬁcally, learning is ﬁrst achieved at some rather ab-stract high level layer, which is task speciﬁc; only later, ifand when necessary, further learning is achieved at lowerlevel layers which correspond more directly to stimuli pro-cessing and the computation of feature maps. The reweight-ing model [9] assumes a shallow network, and seeks toexplain all observed perceptual learning phenomena basedon the reweighting of an unchanged set of features. Thus,while not postulating a reverse learning order, this modelalso looks for the primary loci of modulations (or learning)at some integration level - where the the task-relevant de-cision (or classiﬁcation) is taking place, rather than at the45550然而，由于存在神经生理学证据表明感知学习与低层视觉处理区域的变化相对应[16]，因此这个理论并不完全令人满意。02.2. 卷积神经网络0卷积神经网络（CNN）是一种模型，其架构基于新认知模型[7,8]，而新认知模型的架构在很大程度上受到了我们对早期视觉系统的理解的启发，这种理解在20世纪60年代和70年代形成。网络中的每一层计算一些特征映射（或通道），其中每个通道对应于与图像中的补丁进行卷积的某个滤波器，类似于通过滑动窗口传递。除了卷积子层外，每一层还包括其他操作（子层）。其中一些与视觉系统中已知的操作相对应，例如最大池化，它在卷积子层上定义了一个小窗口，计算出最大的响应，或者修正线性单元（ReLU），它对响应进行非线性操作，将所有负响应置零。为了增加其能力，还添加了一些不一定受生物启发的其他操作到人工CNN中。当前的CNN模型基于20世纪80年代开发的模型[15]。与新认知模型不同，这些模型是学习机器，它们根据从输出层传播的误差信号修改网络的权重。反向传播模型本身并没有受到生物学的启发，它等效于通过梯度下降更新网络权重以更新自然损失函数的误差信号。然而，从损失函数导出的误差信号在一定程度上近似于赫布规则，因此该模型被用于研究生物学学习机制（例如，[14,13]）。近年来，我们看到了CNN模型在实际应用中的越来越广泛的使用，现在在许多计算机视觉子领域（如对象识别）中占据主导地位[11, 17, 18, 10]。这得益于大量的数据 -大量的图像被收集到公开可用的数据库中，这些数据库被用于比以往更有效地训练深度CNN模型。在本文中，我们利用这个机会 -广泛和有效地训练CNN的工具的可用性，重新审视感知学习中的问题，并研究CNN模型在感知学习任务中的学习。03.网络训练中特异性和启用性的出现0我们的研究重点关注感知学习的两个重要特征：特异性和启用性（见前一节的讨论）。455603.1. 方法0CNN网络：我们使用普通的SGD训练了一个两层CNN，学习率和批量大小（50）固定。网络使用一个固定的随机生成的权重向量进行初始化。第一层包括6个通道，每个通道都有5x5的卷积，步幅为1，ReLU和池化。第二层包括16个通道，每个通道都有5x5的卷积，步幅为1，ReLU和池化。该层连接到网络的输出，即2个输出神经元。总体而言，网络包含8846个参数，包括权重和偏置。每个实验重复32次，每次训练一个新的网络。本节中的图表显示了所有重复实验的平均结果，以及相应的标准差（std）。在所有条件下，网络在初始学习任务上进行了足够长的训练以达到收敛。0a）b）0图1.a）具有不同方向线段的突出判别任务在两个位置上。b）方向判别任务。0视觉刺激：所有图像都是灰度图像，大小为108×108，加入了高斯噪声。对于每个实验设置（例如，具有θ=8°的突出任务），创建了一个包含3000个训练图像和1500个测试图像的数据集。在突出实验（第3.2节）中，每个图像显示了一个7×7的平行方向线段阵列。实验包括4个条件，如图1a所示：无突出（a1），右侧或左侧位置的突出（a2和a3），以及具有交换方向的相同两个条件（a4）。每个图像在x轴和y轴上随机平移最多4个像素。在方向判别实验（第3.3节）中，图像是灰度图像，大小为68×68。图像的一个角附近显示了一个倾斜的Gabor补丁（见图1b），然后以顺时针或逆时针方向旋转一个固定角度。03.2. 突出任务中的特异性和启用性0我们首先复制了[2]中描述的任务，训练了上述的卷积神经网络来执行下面描述的判别任务。我们特别寻找与[2]中报道的结果相关的学习的新特性。0实验设置：相关的感知任务类似于图1a中描述的任务。该任务要求确定显示的阵列是否包含奇数线段（如图1-a2）或不包含（如图1-a1）。奇数线段与其余线段之间的角度差θ控制了任务的难度（或信噪比）。在[2]中，还有一个参数控制任务的难度-SOA（刺激开始异步）；由于这需要超出本研究范围的生理建模，因此在我们的模拟中没有复制该参数。0学习作为任务难度的函数：我们的CNN模型经过训练，执行如图1a所示的奇数元素判别任务。结果（正确百分比）如图2所示。我们注意到，对于简单任务（30°），需要大约300个时期才能达到0.3%的测试错误率，而对于困难任务（8°），需要大约1500个时期才能达到3.1%的测试错误率。0a）b）0图2.使用几个不同难度级别进行相关判别任务的训练结果。a）CNN网络：难度级别由奇数线段与背景线段之间的角度差控制：8°、16°、30°。b）[2]图1b。这两个图表显示了类似的行为特征-更难的判别任务需要更长的训练时间。然而需要注意的是，a）和b）中的难度级别和改进方式的测量方法有很大的不同。0我们通过改变奇异线段与背景线段之间的角度差异来重复任务难度的操作，如[2]中所述。我们使用了3个条件：8°（最难）、16°（中等）和30°（最易）。如第2.1节所述，感知学习实验揭示了在任务难度被操作时不同的特征。在极端情况下，非常困难的任务没有显示出学习效果，而易任务的学习速度快，甚至是立即的。这种模式在我们的实验中也出现了，如图2a所示。0学习的泛化（转移）：为了检查学习的特异性，对训练过的网络进行了与上述相同的辨别任务的测试。与[2]一样，我们首先测试了在相同图像位置的转移。在不改变任务的难度的情况下，最初通过使用交换任务（参见图1-a4）来实现。45570结果如图3所示，显示了易任务的更大转移和相反情况的类似定性行为。0图3.在相同的难度级别的两个相似任务之间的同一图像位置的转移。顶部：CNN网络，在易任务中进行转移，θ =30°（左），在困难任务中进行转移，θ =8°（右）。底部：[2]中的图2a中报告了类似的现象。0接下来，我们研究了学习对不同图像位置上显示的相似刺激的转移。现在，奇异线段显示在训练位置的左侧或右侧相邻网格位置上。结果（正确百分比）如图4所示。再次看到在模拟和生物学学习结果中类似的定性行为，即通过易任务（30°角差异）进行训练在视野中的新位置上有相当大的转移（或泛化），而通过更困难的任务（16°角差异）进行训练几乎不会影响新位置上的表现。我们看到一个小的差异：人类更容易转移到两个训练位置之间的位置，而我们的网络没有显示出这种偏好。0a) b)0图4.测试经过训练的网络进行相同的辨别任务，但将奇异元素从训练位置移动到不同的位置。a) CNN网络。b)[2]中的图2c中报告了类似的现象。0学习的启动（Eureka）：最后，我们研究了学习的启动。在非常困难的任务中，参与者可能无法通过练习来改进，要么是因为他们无法学会任务，要么是因为他们学得太慢，以至于结果无法测量。在[2]中，研究表明，在易任务的短期训练会话（或单次长时间暴露）后，会出现突然的变化，观察者开始快速改进，同时学习困难任务。这种现象在[2]中被称为学习的启动；当变化是瞬间发生时，被称为Eureka。在我们的模拟中，出现了类似的现象，即通过困难任务的训练所需的时间明显长于通过易任务的训练。然而，如果网络首先通过易任务进行训练，随后通过困难任务的训练变得非常快速，并出现瞬间改进。改进在准确性和收敛速度上都是明显的，在累积迭代次数不到一半的情况下，测试误差减小了1.5%，与[4]中报告的结果一致。这些结果如图5所示。0a) b)0图5. a) CNN：训练以检测具有 θ = 8° 的奇异段0（一个困难任务）需要很长时间（底线）。然而，当网络首先通过类似的易任务进行训练，使用θ =30°，会出现瞬间的改进，随后是快速的学习。即使在奇异元素和背景之间交换了方向，也会出现相同的情况。b)[2]中的图5b中报告了类似的现象。03.3. 方向辨别的特异性0我们的第二个代表性感知学习任务受到[9]中使用的任务的启发。0实验设置：相关的感知任务类似于图1b中描述的任务。任务要求确定刺激物体是顺时针旋转还是逆时针旋转。旋转角度θ控制了任务的难度（或信噪比）。在每个实验会话中，仅使用图像对角线上的两个角进行训练，而另外两个角用于探测位置转移。为了测试方向转移，还呈现了另一个定向的刺激物体，对应于在训练期间呈现的刺激物体旋转90°。45580学习精度：在这个任务中，与前面3.2节中描述的任务一样，学习特性强烈依赖于任务的难度。与之前一样，对于较容易的任务（具有相对较大的方向差θ），学习速度较快，而对于困难的任务（较小的θ），学习速度较慢。然而，[9]观察到重要的是目标（测试）任务的难度，他们称之为任务精度，而不是初始训练任务的难度，参见图6-bottom 1。0图6.转移与训练任务的困难程度与目标（测试）任务的困难程度之间的依赖关系。根据转移（测试）任务的困难程度分别显示转移结果。左：简单的测试任务；右：困难的测试任务。上：CNN模拟（详见正文解释）。下：[9]中的图2也报告了类似的现象。0因此，我们重复了这些实验并模拟了4个相关条件。在图6-left中显示的前两个条件中，我们使用了一个困难的训练任务（θ = 16°）或一个相对简单的任务（θ =30°）来训练网络，并测试转移到θ =30°的简单条件。在图6-right中显示的最后两个条件中，我们使用相同的训练，但测试转移到困难条件θ =16°。模拟结果显示了与感知学习任务中类似的定性行为，尽管在我们的模拟中，训练任务的困难程度也对转移的效果起到了一定作用，并且即使在简单任务中，转移也不是瞬时的。0学习的泛化（转移）：[5]研究了学习干扰的问题。具体而言，他们比较了在三种条件下转移到新任务的转移情况：仅改变刺激物体的绝对方向，仅改变01图6-bottom的每个面板左侧显示的初始学习曲线的差异（标记为'Training'）是由于不同受试者之间的随机差异，因为不同的受试者参与了这两个实验。然而，学习任务是相同的。0刺激物体呈现的图像位置，或同时改变两者。根据上述结果，我们预计如果任务不太困难，所有三个条件都应该有一些转移。有趣的是，[5]观察到当刺激物体的绝对方向发生改变时，当它在新位置呈现时，转移效果比在相同位置呈现修改后的刺激物体时更强。这可能表明在同一图像位置学习不同基本特征之间存在一些破坏性干扰。我们研究了我们的模型是否也存在相同的情况。与之前一样，我们使用原始刺激物体训练了CNN，然后使用相同的三种操作进行性能测试：改变刺激物体的绝对方向但保持方向差固定、改变位置以及同时改变两者。结果如图7所示，对于θ =30°的简单任务，与感知学习结果定性一致。（[5]中报告的相关结果仅提到了θ =30°的简单任务。在我们的模拟中，这种现象在θ =16°的更困难任务中也是明显的。）0a）b）0图7. 转移到新位置和新刺激方向。a）CNN，使用θ =30°。b）[5]中的图2报告了一个类似的现象。03.4. 讨论0通过模拟[2]中描述的任务，学习结果显示出与人类感知学习中描述的结果类似的特征。具体来说，随着感知任务的难度降低，学习时间减少。当任务容易时，学习更容易转移（或泛化）到类似的任务。最后，通过使用一个简单的任务进行训练，可以通过显著缩短学习所需的时间来使后续的困难任务训练变得容易。这些定性结果捕捉到了[2]中报告的几乎所有观察结果的本质。通过模拟[5,9]中描述的任务，我们观察到了其他效应的类似之处：转移更多地依赖于目标任务的难度而不是训练任务；当图像位置改变时，转移更有效，而当刺激方向改变时，转移效果较差；最后，当在同一图像位置中使用不同的刺激教授类似的任务时，我们观察到了一些学习干扰。后一种观察结果并没有依赖于每层中的通道数量。We ﬁrst note that, in both experiments, the CNN learnedsimple edge-like features matching the displayed stimuli,as can be readily seen in Fig. 8. More speciﬁcally, Fig. 8ashows typical patterns of activation in the channels of thesecond CNN layer in a pop-out experiment. In many ofthese channels, the location of the odd element appears as ahighlighted region or a gap in the background pattern.In Fig. 8b we see detectors of line segments matchingthe locations and orientations of the training segments (ﬁrstand last row). Interestingly, features learned for one taskwith orientation o1 were able to partially detect the targetsegment in another task with orientation o2 (second row).Slight weight modiﬁcations, limited to the bias elementsonly, improved the detection somewhat (compare the thirdrow with the fourth row). This may explain the orientationtransfer we see in this condition, where re-training with anew orientation is much faster than training from scratch inthe new orientation.a)b)45590a）b）0图8.代表性特征图。a）突出检测任务（第3.2节）。从左到右的前3列对应于不同的角度差异：8°、16°和30°。第4列对应于具有交换方向的任务。在每一列中，显示了4个任意的通道。b）方向判别任务（第3.3节）。每一列对应于一个不同的通道。第一行显示了在训练和测试过程中使用方向o1时的4个通道的特征图。最后一行显示了在训练和测试过程中使用通过将o1旋转90°得到的角度o2时的相同通道。第二行显示了在训练网络时使用o1，而在计算特征图时使用o2的相同通道。第三行显示了在训练网络时使用o1，然后将偏差从最后一行的网络复制过来，最后使用o2计算特征图。0不依赖于每层中的通道数量。04. 权重修改的动态0在前一节中，我们展示了当训练一个浅层CNN执行视觉判别任务时，我们的模拟能够复制出感知学习实验中反复观察到的许多现象。在本节中，我们进一步研究了支撑这些现象的网络权重修改模式。首先，我们注意到，在两个实验中，CNN学习了与显示的刺激相匹配的简单边缘样式特征，如图8所示。具体来说，图8a显示了在突出实验中第二个CNN层的通道中的激活模式。在这些通道中，奇异元素的位置出现为突出的区域或背景模式中的间隙。在图8b中，我们看到与训练段的位置和方向相匹配的线段检测器（第一行和最后一行）。有趣的是，使用o1方向训练的特征在使用o2方向的另一个任务中能够部分检测到目标段（第二行）。仅对偏差元素进行轻微的权重修改可以稍微改善检测效果（将第三行与第四行进行比较）。这可能解释了我们在这种条件下观察到的方向转移，即使用新方向重新训练比在新方向上从头开始训练要快得多。04.1. 特征图和滤波器04.2. 对新位置的泛化0学习转移（即泛化）是感知学习文献中用来描述这样一种现象的术语，即在某个图像位置上进行的视觉任务的初始训练会改善在不同图像位置上的性能。我们复制了两个这样的结果，如图4a和图7a所示。为了研究转移，我们分析了在图7中描述的实验中网络的修改。回想一下，在这个设置中，首先使用中间权重值训练网络进行图像中定向边缘的判别（中间权重值），然后使用不同的图像位置（最终权重值）训练网络进行相同的判别任务。我们分析了中间状态和最终状态之间的网络权重的变化。首先，我们注意到所有显著的（归一化的）变化发生在最后一个卷积池层和输出神经元之间的连接中。这些修改在图9中显示。我们在图9a中看到了一系列的变化，包括抑制和兴奋。然而，许多通道显示出了一种特定的变化模式，如图9b所示。在这里，学习到的权重模式显示出了与图像中刺激位置对应的交替峰值。这种模式是矢量化过程的一个人为产物。0图9. a)最后一个卷积池化层与输出神经元之间的连接权重。淡淡的垂直线将权重分成16组，每组对应于最后一个卷积池化层中一个通道产生的权重。中间权重（黄色）叠加在最终权重（蓝色）上。由于中间权重在第二阶段的训练中几乎没有改变，因此最终权重实际上由黄色和蓝色条的并集描述。b)典型通道的近距离视图，仅显示来自最后一个卷积池化层中一个通道的权重。0图9b的解释如下：左侧的模式对应于图像的左半部分；这里，蓝色条表示每列顶部的像素，而黄色条表示每列底部的像素。当边缘出现在图像的左下部分时，中间权重被训练，因此与这些位置的连接被放大（黄色条）。在第二个学习阶段（传递任务）中，边缘出现在左上角02为了可视化权重的变化，我们将网络权重重塑为1D向量。因此，对于每个二维滤波器，向量化过程通过从左到右扫描矩阵的列，将权重矩阵转换为向量。a)b)c)45600图像的一部分，导致与这些像素的连接放大（蓝色条）。30因此，我们看到网络在训练的中间阶段保持了已学习的特征，从第一个卷积池化层到第二个卷积池化层的权重的稳定性可以看出。当相同的刺激出现在新的位置时，网络所要做的就是修改最后一个卷积池化层与输出神经元之间的连接权重，对应于新的图像位置。在第二个训练阶段，这种对搜索空间的限制使得网络能够更快地收敛到在新位置呈现的刺激的良好解决方案。换句话说，在我们的网络中，位置转移是先前学习到的特征的重复使用的结果，只需要重新学习特征和输出层之间的权重（读出权重）。04.3. 对新方向的泛化0在图7a描述的实验中，我们研究了对新刺激方向（以及新位置）的转移。当我们在网络中改变刺激方向但保持位置不变时，观察到的权重修改动态与上述情况不同。这次网络中的所有权重都发生了变化，特别是在第一和第二个卷积池化层中正在学习新的特征，导致权重的变化。在决策层中，将最后一个卷积池化层与输出神经元连接的权重被调整以匹配第二个（传递）刺激的方向。0图10.当网络仅训练以区分方向o1时，学习到的第一个卷积池化层中的6个卷积滤波器：a)；当网络仅训练以区分方向o2时，学习到的第一个卷积池化层中的6个卷积滤波器：b)；当网络在训练了方向o1后再训练以区分方向o2时，学习到的第一个卷积池化层中的6个卷积滤波器：c)。0在CNN的第一个卷积池化层中，每个通道学习到的6个卷积滤波器如图10所示。当训练单个方向（o1或o2）时，一些滤波器捕捉到了显示的方向。有趣的是，当先训练一个方向（o1），然后再训练另一个方向（o2）时，新的适用于o2的滤波器在第二阶段学习中出现，但用于区分o1的最佳滤波器并没有显著修改。这个有趣的特性，03 右侧的模式应以类似的方式进行解释。0在新任务训练中，主要修改了之前任务中不太重要的通道，这些修改特征在我们的网络的所有32次重复中都得到了验证。我们注意到，在一些重复中，卷积神经网络未能学习到新的适当的特征，并且它也未能学习到新的具有方向o2的判别任务。0交换线段：在突出显示实验中，通过交换奇数段和背景段的方向来研究对新方向的转移。我们检查了相应模拟中的权重修改动态，如图11所示。在这个例子中，强正权重对应于一个通道（图11a），该通道在初始学习任务中被奇数段激活。方向交换后，该通道被背景段激活，并且输出神经元指示输入是否为“非突出显示”。为了使输出神经元正确分类输入，网络抑制了从该通道发出的与背景段相对应的负权重（黄色曲线中的较高权重与蓝色曲线相比）。否则，它们的效果会在所有背景段位置上求和并减少总和，导致输出神经元错误分类。0a) b)0图11. a)最后一个卷积池化层中一个通道与一个输出神经元之间的连接权重。重新训练后的最终权重（黄色）与重新训练前的中间权重（蓝色）叠加在一起。b)在初始任务期间由突出边缘激活的通道的特征图（左）。在方向交换后的第二次学习会话结束时的相同通道特征图（右）。04.4. 启用0学习启用是指在易条件（高信噪比）下进行初始任务训练后，能够在困难条件（低信噪比）下进行后续学习的现象。我们在图5a和图6左侧描述了两种这样的情况。为了研究学习启用，我们分析了图6中描述的实验中的网络修改。请注意，在图6中，我们使用了[9]中引入的有些令人困惑的术语“低精度”和“高精度”，在下面的讨论中，这些术语被更准确的术语“高信噪比”和“低信噪比”所取代。2 pos - 30o99.79%5.0942 pos - 16o99.40%5.6568o45610再次，我们检查了在两个学习阶段期间训练网络的权重发生的修改。在图12中，我们展示了第一学习阶段结束时（高信噪比任务训练结束时）网络的权重与第二学习阶段结束时（低信噪比任务训练结束时）网络的权重的叠加。我们首先观察到，总体上，权重的绝对值显著增加，符合我们的经验观察：与第二种情况相比，独立进行高信噪比和低信噪比任务的训练通常会导致第一种情况下的更高绝对权重。有趣的是，我们在第二阶段学习后没有看到权重重新分布，而是出现了权重的放大：大部分权重的绝对值变大，但符号保持不变（见图12右侧）。我们在整个网络中都看到了权重的放大，包括第一和第二个卷积层以及最后的决策层。我们注意到，如果我们在低信噪比困难任务上从头开始训练网络，而没有先在高信噪比任务上进行训练，整体效果将是权重的重新分布而不是权重的放大。0图12.左侧。训练网络的权重可视化：蓝色条表示过程结束时的权重，叠加的黄色条表示在初始易（高信噪比）任务训练后的中间权重。几乎所有的权重变化都对应于放大（更正或更负的值）；很少有权重的绝对值减小或符号改变的变化。右侧。为了证明这一点，我们在图中放大了一部分绘图，重点关注从通道到决策神经元的一些最终权重的变化。这是网络中所有其他权重变化的典型情况。0有趣的是，我们的网络中的学习启用是在第一阶段达到一定状态的结果，这被证明是第二阶段的一个强大的初始条件；从这个起点开始，仅通过权重放大就能在第二个任务中实现大部分的收敛到一个良好的解决方案。这显著减少了搜索空间，从而导致更快的收敛，或者说启用了学习。最后，我们评估了针对不同信噪比训练的网络，计算了在不降低性能超过1%的情况下存储网络权重所需的最小位数，见表1。显然，对于更难的判别任务，需要更多的位数（或更高的精度）。0表1. 维持原始准确性所需的位数。任务准确性 #位数08 o 启用 98.43% 5.71880此外，我们发现，在相同精度要求（相同位数）下，启用的网络（表中的第4行）达到了更高的准确性，与仅使用困难任务训练的网络（表中的第3行）相比。05. 总结与讨论0我们在本文中描述了两组基于感知学习实验模拟的结果和观察。我们首先训练了一个浅层卷积神经网络来执行这些任务，以与人类学习者进行比较。我们能够展示出两种学习场景中出现的许多相似之处，特别是涉及学习转移和启用的方面。然后，我们分析了网络中的权重修改模式，识别出可能对观察到的学习转移起到重要作用的特征模式。当新任务发生在不同的图像位置时，网络通常会重用为第一个任务学到的特征，只改变最后的分类层中的读出权重。这与[9]中提出的模型一致。然而，某些转移任务（如方向变化）需要在整个网络中改变权重，与[9]中提出的模型不一致。然而，在感知学习期间，早期视觉区域的可塑性的证据更一致。在我们的模型中，当通过易任务进行训练后，学习启用出现。具体而言，用易任务训练网络会使网络处于一种状态，从这个起点开始，仅通过权重放大就能在第二个任务中收敛到一个良好的解决方案。这显著减少了搜索空间，从而加快了收敛速度，或者说启用了学习。最后，我们评估了针对不同信噪比训练的网络，计算了在不降低性能超过1%的情况下存储网络权重所需的最小位数，见表1。显然，对于更难的判别任务，需要更多的位数（或更高的精度）。0致谢0这项研究由英特尔计算智能协作研究所（ICRI-CI）资助。45620参考文献0[1] M. Ahissar and S. Hochstein. 视觉感知学习的反向层次理论.《认知科学趋势》, 8(10):457–464, 2004. [2] M. Ahissar, S.Hochstein, et al. 任务难度和感知学习的特异性. 《自然》,387(6631):401–406, 1997. [3] K. Ball and R. Sekuler.视觉运动辨别的特定和持久改进. 《科学》, 218(4573):697–698,1982. [4] Y. Bengio, J. Louradour, R. Collobert, and J. Weston.课程学习. 《第26届国际机器学习会议论文集》, pages 41–48.ACM, 2009. [5] B. A. Dosher, P. Jeter, J. Liu, and Z.-L. Lu.感知学习的综合重新加权理论. 《美国国家科学院院刊》,110(33):13678–13683, 2013. [6] A. Fiorentini and N. Berardi.特定于方向和空间频率的感知学习. 《自然》, 1980. [7] K.Fukushima. Neocognitron:一种能够进行视觉模式识别的分层神经网络. 《神经网络》,1(2):119–130, 1988. [8] K. Fukushima. 多层神经网络的人工视觉:Neocognitron及其进展.

下载后可阅读完整内容，剩余1页未读，立即下载