没有合适的资源?快使用搜索试试~ 我知道了~
带记忆的深度神经网络:半监督学习中的模型学习记忆机制的应用
带记忆的雁北陈1下天竺2韶钢宫11 2伦敦玛丽皇后大学视觉语义学有限公司{yanbei.chen,s.gong}@ qmul.ac.ukeddy@visionsemantics.com抽象。我们考虑从稀疏标记和丰富的未标记训练数据中学习的半监督多类分类问题。为了解决这个问题,现有的半监督深度学习方法通常依赖于最新的“训练中的网络”来形成半监督学习目标。这忽略了区分特征表示和由网络在先前的学习迭代中揭示的模型推理不确定性,称为模型学习的记忆。在这项工作中,我们提出了一种新的记忆辅助深度神经网络(MA-DNN),能够利用模型学习的记忆来实现半监督学习。具体地说,我们在网络训练过程中引入了一种记忆机制,作为网络与外部记忆模块之间的同化-调节相互作用。实验证明了所提出的MA-DNN模型在三个图像分类基准数据集SVHN、CIFAR 10和CIFAR 100上优于最先进的半监督深度学习方法。关键词:半监督学习,带记忆的神经网络。1介绍半监督学习(SSL)旨在通过在只有有限数量的标记数据可用时利用大量未标记数据来提高模型性能[4,37]。它的动机是,未标记的数据可在大规模,但标记的数据是稀缺的,由于高标签成本。这种学习方案对于许多应用都是有用和有益的,例如图像搜索[6],网页分类[2],文档检索[21],基因组学[29]等。在SSL文献中,最简单的SSL算法是自训练,其中目标模型通过由具有高精度的改进的当前预处理给出的附加自标记数据来递增地训练[ 21,2,25]。由于高置信度的错误预测,该方法在模型学习中易于发生错误传播。其他常见方法包括转导SVM [10,3]和基于图形的方法[39,1],然而,由于低效的优化,这些方法可能会遭受对大规模未标记数据的可扩展性差的最近,基于神经网络的SSL方法[23,35,15,12,30,24,19,26,16,9,32]由于深度神经网络强大的表示学习能力而开始主导进展这些方法中的大多数通常利用最新的训练中网络来制定额外的无监督惩罚,因此2Y. Chen,X. Zhu,S. 龚数据池标记数据池…青蛙猫 …无标签数据池…??... 什么?…住宿猫地面实况:青蛙,猫,待吸收样品同化类似深度CNN非相似存储器住宿狗Fig. 1. 内存辅助的半监督深度学习框架的图示,该框架将深度CNN与同时训练的外部内存模块集成在一起。 记忆模块在运行中吸收传入的训练数据,并生成额外的无监督记忆损失,以指导网络学习以及标准的监督分类损失。以实现半监督学习。我们认为这种深度SSL方案是次优的,前提是深度网络的记忆能力通常是不完整的,并且不足以表示过去学习迭代中积累的知识[34]。为了有效地利用这种知识,我们将记忆机制引入深度网络训练过程中,以实现从小尺寸标记和大尺寸未标记的半监督学习。鉴于人类的持续学习能力[7],我们的目标是设计一种SSL方案,该方案允许深度模型额外地从其记忆中学习(同化)并调整自身以增量方式最佳地适应传入的为此,我们制定了一个新的记忆辅助半监督深度学习框架:记忆辅助深度神经网络(MA-DNN),如图所示1.一、MA-DNN的特征在于网络和外部存储模块之间的同化-调节我们的框架设计的关键是两个方面:(1)类级判别在外部存储器模块中逐步积累主动特征表示和网络推理不确定性;(2)该存储的信息被用于在运行中吸收新输入的图像样本,并生成信息性的无监督存储器损失,以与监督分类损失一起引导网络学习。我们的贡献是双重的:(1)我们建议利用模型学习的记忆,以实现从稀疏标记和丰富的未标记训练数据中进行半监督深度学习,同时完全采用现有的端到端训练过程。这与大多数现有的深度SSL方法相反,这些方法通常忽略模型学习的记忆。(2)我们制定了一种新的记忆辅助深度神经网络(MA-DNN),其特征在于记忆机制。我们引入了一种与标准监督分类损失兼容的无监督记忆损失,以实现半监督学习。广泛的比较实验证明了我们提出的MA-DNN模型在各种最先进的半监督深度学习方法中的优势。带记忆的32相关作品由于深度神经网络的强大泛化能力,半监督深度学习最近获得了越来越大的吸引力[35,15,12,30,24,19,14]。一种常见的策略是通过同时优化标记样本上的标准监督分类损失以及对未标记数据[15,27,5]或标记和未标记数据[35,24,19,14]施加的额外无监督损失项来训练深度神经网络。这些额外的损失项被认为是无监督的监督信号,因为不一定需要地面实况标签来导出损失值。例如,Lee [15]利用在未标记样本的伪标签(具有最新网络给出的最大预测概率的类别)上计算的交叉熵损失Rasmus等人[24]采用一个干净的前向传播和一个随机损坏的前向传播之间的重建损失,该前向传播是针对同一样本导出的。Miyato等人[19]将针对局部随机扰动的分布平滑定义为无监督惩罚。莱恩等人[14]引入无监督的L2损失,以消除网络预测和时间集成网络预测之间的不一致性。总的来说,这些SSL算法的基本原理是通过实施对随机扰动具有鲁棒性的平滑和一致的分类边界来正则化网络[24,19];或者通过利用由网络学习的知识来丰富监视信号,诸如使用伪标签[15]或时间上集成的预测[14]。在分享引入无监督惩罚的一般精神的同时,我们的方法在许多基本方面是独特的:(i)利用模型学习的记忆:而不是依赖于单个最新网络的不完整知识来导出额外的损失[15],我们采用记忆模块来基于累积的类级特征表示和模型推理不确定性来导出记忆损失。之前的训练迭代。(ii)低计算成本:通过利用记忆机制,仅需要一个网络前向传播来计算用于训练网络的附加损失项,而不是其他模型[24,19]所需的多个前向传播。(iii)内存占用量低:我们的在线更新内存模块不是将所有训练样本的所有预测存储在一个大型映射文件中[14],而是消耗非常有限的内存占用,因此可能更易于扩展到更大规模的训练数据。最近引入了具有记忆的神经网络,以实现更强大的学习和推理能力,用于解决几个具有挑战性的任务,例如问答[34,31,18]和一次性学习[28,11]。利用外部存储器组件来增强网络是有吸引力的,这是由于其将过去的知识存储、抽象和组织成结构化和可寻址形式的作为早期的作品,Weston et al.[34]提出了记忆网络,它将推理组件与可以读取和写入的记忆组件Kaiser等[11]提出了一种终身记忆模块,用于记录罕见事件的网络激活,以进行一次性学习。我们的工作是概念-4Y. Chen,X. Zhu,S. 龚我我我Ally受到这些作品的启发,但它是探索半监督深度学习中除了基本的存储功能外,我们的记忆模块还诱导同化-调节相互作用,以利用模型学习的记忆并产生允许半监督学习的信息3记忆辅助深度神经网络我们在多类图像分类的背景下考虑半监督深度学习。 在这种情况下,我们可以访问有限数量的标记图像样本DL={(I i,l,yi,l)}nl,但是可以访问大量的未标记图像样本DU={(I i,u)}nu,其中nu=nl。假设每个未标记的图像属于与标记的数据相同的K个对象类别(类)Y={yi}K中的一个,而它们的地面实况标签不可用于训练。SSL的关键目标是通过同时从标记的图像数据DL和附加的未标记的图像数据DU学习来增强模型性能。为此,我们制定了一个记忆辅助的半监督深度学习框架,该框架将深度神经网络与记忆模块集成在一起,我们称之为记忆辅助的深度神经网络(MA-DNN)。3.1方法概述图二、用于半监督深度学习的记忆辅助深度神经网络(MA-DNN)的概述。在训练期间,给定(a)稀疏的标记和丰富的未标记训练数据,标记/未标记数据的小批量被前馈到(b)深度CNN以获得每个样本的最新特征表示x和概率预测p。给定(c)经更新的存储器模块,存储器作为存储器模块,在不存在该经更新的存储器模块的情况下, (4)用于并行寻址和值读取。在调节中,记忆损失Lm(等式10)。(7))是由pandemployedasadditionalsupervisi nsi g nal组成的,用于将两个任务合并与监督分类损失联合学习。在测试时,不再需要内存模块,因此不会影响部署效率。(a)数据输入管线(c)存储器模块价值嵌入标记数据池…青蛙猫 …(b)深度CNNLc编号&无标签数据池…Softmax解决L$??……??…卷积层X同化关键字嵌入FC在 训 练 期 间 对 CatAssimile dpre dic ti on%在第10个时期10.50在第50个纪元10.50在第100个纪元10.50飞机汽车鸟猫鹿狗蛙马轮船卡车带记忆的5J我们的MA-DNN架构的总体设计在图1中描绘。2.所提出的MA-DNN包含三个部分:(1)深度神经网络(3.2节);(2)设计用于记录模型学习记忆的记忆模块(3.3节);(3)引入同化-调节交互机制,有效地利用记忆促进半监督学习中的网络优化(3.4节)。3.2传统深度神经网络所提出的框架旨在与现有的标准深度神经网络一起工作。我们选择卷积神经网络(CNN)在这项工作中,由于其强大的图像数据的表示学习能力。为了训练用于图像分类的CNN,通常采用监督交叉熵损失函数在训练期间,给定任何训练样本I,我们通过最新的深度网络对其进行前馈,以获得所有类别上的特征向量X和多类别概率预测向量P具体地,我们将标记图像样本Ii的第j类exp(Wxi)p(yj|xi)=Σ|Y|j=1Jexp(Wxi)(一)其中Xi是指由深度CNN提取的Ii的嵌入式深度特征表示,并且Wj是第j类预测函数参数。针对地面实况类标签k的Ii上的交叉熵损失计算为:ΣKLce=−j=1.Σ1[yj=k]logp(yj|(2)显然,交叉熵损失函数仅限于从标记样本中学习为了利用未标记的训练样本,直接的方式是在训练中利用由最新模型给出的预测标签。然而,鉴于不成熟的标签估计,特别是在模型训练的开始,这可能是容易出错和不可靠的。这是一个catch-22问题。我们通过在网络训练过程中引入记忆模块来逐步估计未标记数据上更可靠的预测来克服这个问题3.3存储器模块为了利用模型学习中产生的可记忆信息我们考虑两种类型在训练中的网络所经历的记忆:(1)类级特征表示,以及(2)模型推理不确定性。为了管理这些可记忆的信息,我们在键值结构中构建内存模块[18]。内存模块由多个插槽组成6Y. Chen,X. Zhu,S. 龚我K每个槽存储一个符号对(键,值)。特别地,密钥嵌入是特征空间中的每个类的动态更新的特征表示。利用每个类的单义表示是基于假设每个类别的深度特征嵌入可以逐渐学习以分布在特征空间中的聚类质心周围[33]。基于此假设,所有类的全局特征分布由其在特征空间中的聚类质心表示,而这些聚类质心以分批方式累积更新为关键嵌入。另一方面,值嵌入记录类似更新的多类别概率预测w.r. t。每个班级。因此,每个值嵌入是来自相同类别的样本的累积网络预测,其在类别级别编码整体模型推断不确定性。为了表示增量演化的特征空间和最新的整体模型推理不确定性,每次迭代都执行内存更新以适应网络的最新更新。我们只利用标记的数据进行内存更新,如果未标记的样本在类分配中具有不确定性,因此可能会引起错误传播的风险。形式上,假设存在来自第j个类(j∈{1,...,K})的nj个标记的图像样本{Ii},其特征向量和概率预测为{(xi,pi)}nj,则第j个存储器槽(kj,vj)在所有训练迭代中累积更新如下。Σnj(k-x)kj←kj−η∇kj∇kj=i=1jiv− ηv与1+njΣ(三)vj←Σjjj (v−p)K(v−η∇v=i=1j ii=1j,ij,ij1+nj其中η表示学习速率(设置为η=0)。5在我们的实验)。对嵌入值v j进行归一化,以确保其概率分布性质。在训练过程中,随着梯度(k j,vj)逐渐变小,键和值嵌入将变得更加可靠,以反映底层特征结构和多类分布。为了在不强加先验知识的情况下开始训练过程,我们将所有的键和值嵌入分别初始化为0和1·1(K个类上的均匀概率分布)。这表明所存储的信息在训练期间被网络完全发现,而没有对问题设置的任何特定假设,因此可能适用于不同的半监督图像分类任务。3.4同化-适应的相互作用鉴于模型学习的更新记忆,我们进一步使用它来实现半监督深度学习。这是通过引入同化-适应交互机制来实现的,该机制具有在每个训练迭代中执行的两个操作:(1)记忆同化:通过键寻址和值读取来计算每个训练样本的记忆预测;带记忆的7计算记忆损失以制定最终的半监督学习目标。我们在下文中呈现这些操作的细节。(1) 记忆同化。给定图像I的前向传播图像表示x和网络预测p,记忆同化会导致更多的可能性,因为p?based d在记忆上的概率更高。我们通过键寻址和值读取来获得这一点[18]。具体地说,密钥分配是计算寻址概率w(m i|I),即,对每个存储器槽的概率分配m i=(k i,v i),i ∈ {1,...,K},基于成对相似性w.r.t. 每个密钥嵌入。本质上,w(m i|I)是特征空间中的聚类分配。 给定所有K个存储器槽上的寻址概率,然后应用值读取以通过如下列出所有值的总和来计算存储器预测概率。ΣKp=i=1w(m i|(4)根据标签的可用性,我们采用了两种寻址策略。第一个是基于位置的寻址应用于标记的训练样本。形式上,假设训练样本I被标记为第k个类别,则基于位置k获得寻址概率为w(m i|I)=.1,i=k0,i/ =k(五)第二个是基于内容的寻址应用于未标记的图像样本。该策略基于图像样本I和密钥嵌入ki之间的成对相似性来计算寻址概率,如下所示:e−d是t(x,ki)w(m i|I)= Σ Kj=1 e−d是t(x,kj)(6)其中X是I的提取的特征向量,并且dist()表示欧几里得距离。当量(6)可以被认为是基于聚类假设[35,36]的标签传播[38]的一种形式,在这个意义上,概率质量是根据特征空间中每个聚类质心的接近度分布的。也就是说,基于集群成员资格来计算概率分配。(2) 住宿.该操作为深度网络提供了记忆损失,以制定最终的半监督学习目标,使得网络可以额外地从未标记的数据中学习。具体来说,我们在每个训练样本x上引入记忆损失,如下所示。Lm=H(p¨)+max(p¨)DK L(p||(7)其中H()是指熵度量; max()是返回输入向量的最大值的最大值函数; DKL()是Kullback-Leibler8Y. Chen,X. Zhu,S. 龚j=1(KL)分歧。H()和DKL()都可以在没有地面真值标签的情况下计算,因此适用于半监督学习。在Eq. (7)被命名为模型熵(ME)损失和存储器网络发散(MND)损失,如下所述。(i) M(E)l〇stermH(pP)的形式如下:ΣH(p)=−Kj=1plog(j)(8)这意味着它在产品中没有被有效地编码。从熵理论的角度来看,熵反映了整体模型推断的不确定性。在p处的所有维度图像嵌入的高操作是一个多模态概率分布,其对应于特定类别的检索值嵌入。这表明网络不能很好地区分这个类和其他类,这是由于向同一类内的图像样本分配不一致的概率预测造成的。另一方面,未标记样本的高熵表明特征空间中不同类别之间存在严重的类别分布重叠。这是因为未标记的样本不能以高概率被分配到某个类别。因此,最小化模型熵H相当于减少特征空间中的类分布重叠,并在类级别惩罚不一致的网络预测,这基本上是由熵最小化原理[8]驱动(ii) MND(M-Netwo rkDivergence)损失DK L(p||isom-根据两个工作组的工作情况,我们将按照以下方式进行工作。DKLΣ(p)||p()=Kp(j)logp(j)p(j)(九)DK L(p||p)是一个非线性方程,因为它是由两个方向组成的完全覆盖:p和p。 Itrerentshedined in 最小化该KL避免了网络预测过度偏离从该模型中导出的概率分布。 WenDK L(p||p()→0时,它表明两个网络的w或k个预测与其记忆预测匹配良好。此外,我们还施加了一个dynamicwig ht:max(p(),p()的最大可预测值,以确定当给定模糊记忆预测时DKL()的重要性,即,多模态概率分布。因此,鼓励p与p?p?ticularly匹配,而p?c或r e s p on d s t o a c on f i d e n m emenyp?d ictictict io n,即p?c或r e s p on d s t o a c on f idenm emic ti c tio n。例如, 峰值概率分布,其中峰值对应于以高概率分配到某个类别。最终的半监督学习目标函数由下式表示:合并等式(7)和等式(2)如下L=Lce+λLm(10)其中λ是超参数,其被设置为1以确保在训练期间两个损失项的等效重要性。带记忆的93.5模型训练所提出的MA-DNN通过标准随机梯度下降算法以端到端的方式进行训练。在算法1中总结了模型训练的算法概述算法1记忆辅助半监督深度学习。输入:标记数据DL和未标记数据DU。输出:用于分类的深度CNN模型。对于t= 1,最大化iterdo对一小批标记的未标记的数据进行采样。网络前向传播(样本前馈)。存储器更新(公式(三))。网络监督损失计算(等式(2)译注。记忆同化(Eq. (4))住宿(Eq.)(七))。通过反向传播的网络更新(等式(10))。端4实验我们在三个广泛采用的图像分类基准数据集上验证了MA-DNN的有效性,并与第4.2节中的其他最先进方法和第4.2节中的消融研究进行了比较。4.1半监督分类基准数据集。为了评估我们提出的MA-DNN,我们选择了三个广泛采用的图像分类基准数据集,如下所述(1) SVHN [20]:一个街景房屋号码数据集,包括来自Google街景的10类(0 - 9)彩色数字图像。 分类任务是识别每个图像的中心数字。我们使用format-2版本,提供大小为32×32的裁剪图像,以及标准的73,257/26,032训练/测试数据分割。(2) CIFAR10 [13]:一个自然图像数据集,包含来自10个对象类的50,000/10,000个训练/测试图像样本。 每个类有6,000个大小为32×32的图像。(3) CIFAR100 [13]:一个数据集(与CIFAR 10具有相同的图像大小)包含来自100个更细粒度的类的50,000/10,000个训练/测试图像,具有细微的类间视觉差异。实验方案。根据标准的半监督分类协议[12,24,30,19],我们将训练 数 据 随 机 分 为 一 个 小 的 标 记 集 和 一 个 大 的 未 标 记 集 。 在SVHN/CIFAR 10/CIFAR 100上标记的训练图像的数量分别为1,000/4,000/10,000,剩余的72,257/46,000/40,000个图像作为未标记的训练数据。我们采用10Y. Chen,X. Zhu,S. 龚表1. 与最先进的方法相比,半监督图像分类基准的评估。度量:误差率(%)±标准差,较低者为∗好多了表示未报告结果。“ ” indicates generative方法SVHN [20]CIFAR10 [13]CIFAR100 [13]36.02 ±0.10–-二十四63二十二岁8616.61 ±0.248.11 ±1.37.42 ±0.654.82 ±0.174.42 ± 0.163.95±0.19–19.58 ±0.58–––17.99±1.6212.36 ±0.3112.16 ±0.2412.31 ±0.28––––––––37.34 ±0.44–副总经理[12]Γ-模型[24]CatGAN [30]增值税[19]ADGM [16]SDGM [16]IMPGAN [27]ALI [5]Π-模型[14][14]第十四话[32]第三十二话MA-DNN(我们的)4.21 ±0.1211.91 ±0.2234.51 ±0.61常见的分类错误率作为模型性能度量,并报告10个随机数据分割的平均错误率实施详情。我们采用与[14]相同的10层CNN架构。补充材料中提供了更多的实施细节。与现有技术方法的比较。在表1中,我们将我们的模型与11种最先进 的 竞 争 性 方 法 进 行 了 比 较 , 并 将 其 在 SVHN , CIFAR10 和CIFAR100上的报告结果进行了比较。在所有这些方法中,MeanTeacher是唯一一个在数字分类任务上稍微优于我们的MA-DNN的方法 在自然图像分类任务上,我们的MA-DNN在CIFAR10和CIFAR100上分别以0.25%(12.16-11.91)和2.83%(37.34-34.51)的幅度超过了最佳替代方案(TemporalEnsembling)。 这表明所提出的MA-DNN在各种竞争性半监督学习算法中在半监督深度学习中的性能优势。 另外,还可以观察到,MA-DNN在更具挑战性的数据集CIFAR 100上表现更好,在更多类中具有更细粒度的语义结构。这表明源自模型学习的记忆的记忆损失可以增强更细粒度的类区分和分离,以促进更好的半监督学习。因此,在涉及大量类别的图像分类任务上,MA-DNN可能比其他竞争对手更具可扩展性在所有的COSTS上安装计算机。 该per-batchdistaccomu. tationΣcomple.xityΣin-由记忆同化和记忆更新引起的是ONuK和ONI 重新表示其中,K是存储器插槽的数量,Nl、Nu是存储器插槽的数量,每个小批次中的标记和未标记样品为了提高计算效率,所有的内存操作都是在GPU上以单浮点精度实现的简单矩阵操作。总的来说,MA-DNN在许多方面具有计算效率:(i)仅需要一个网络前向传播来计算附加监督信号,而不是一个以上带记忆的11表2. 评估个体记忆丧失术语的影响。 度量:误差率(%)±标准差,越低越好。ME:模型熵;记忆-网络分歧。方法SVHN [20]CIFAR10 [13]CIFAR100 [13]完整(ME+MND)4.210.12±11.91 ±0.2234.51 ±0.61不含ME4.59 ±0.1112.63 ±0.2639.93 ±0.34不含MND6.75 ±0.4017.41 ±0.1541.90 ±0.39Γ-模型、VAT、Π-模型和Mean-Teacher所需的前向传播。(ii) 内存占用的消耗是有限的。MA-DNN中内存模块的内存大小仅与类的数量成比例;而Temporal Ensembling需要将所有样本的预测存储在一个大型映射文件中,内存大小与训练样本的数量成比例(iii) 与包括DGM、CatGAN、ADGM、SDGM、Imp-GAN和ALI的生成模型不同,我们的MA-DNN在训练期间不需要生成额外的合成图像,因此导致更有效的模型训练。4.2消融研究和进一步分析记忆丧失的影响。我们评估了记忆丧失公式中的两个损失项的单独贡献(等式1)。(7)):(1)模型熵(ME)(方程(7))(8))和(2)存储器网络发散度(MND)(等式(8))。(9))。我们测量了每个损失项的影响,当从记忆丧失公式中删除时,性能下降表2显示了与完全记忆丧失制剂相比的评价结果我们有以下观察:(i)两个损失项带来积极的影响,以提高模型的性能。当两个损失项中的任何一个被消除时,分类错误率增加(ii)MND项有效地提高了模型性能。 消除MND项导致SVHN、CIFAR 10 和 CIFAR 100 的 性 能 分 别 下 降 2.54%( 6.75-4.21) 、 5.50%(17.41-11.91)和7.39%(41.90-34.51)。 这表明鼓励网络预测与从模型学习的记忆中得出的可靠记忆预测一致的有效性。(iii)ME术语也有效。消除ME项导致SVHN、CI-FAR 10和CIFAR 100的性能分别下降0.38%(4.59-4.21)、0.72%(12.63-11.91)、5.42%(39.93-34.51)。这表明惩罚类分布重叠和加强类分离的好处,特别是当类的数量增加时总的来说,表2中的评估展示了两个损失项的互补联合益处,以改善半监督深度学习中的模型性能。标签训练样本量。我们评估了MA-DNN在不同数量的标记训练样本上的鲁棒性。我们通过将标记样本的数量从73,257(所有训练样本都被标记)改变到250来对SVHN进行该评估。作为比较,我们采用监督的cnn-监督训练,只使用相同的标记数据,而不使用12Y. Chen,X. Zhu,S. 龚80604020073257 5000 2500 2000 1500 1000 500 250标记物数目图3.第三章。评估MA-DNN对不同数量的标记训练样本的鲁棒性。度量:错误率,越低越好。init第五十纪元第250纪元端(a)标记数据(b)未标记的数据(c)测试数据见图4。(a)标记数据的关键嵌入(表示为黑点)和多类数据分布(表示为彩色点(b) 未标记的数据,(c)训练期间特征空间中来自CIFAR10的测试数据。2-D空间中的数据投影通过tSNE [17]基于表示的特征来实现在不同的训练阶段使用CNN在相同的数据集上提取存储模块图3示出了随着标记数据的大小减小,CNN监督的模型性能从61.18%(给定73,257个标记样本)下降到2.89%(给定250个标记样本),错误率的总性能下降了58.29%相比之下,MA-DNN的性能仅下降5.94%(8.83-2.89)。这表明,当提供小尺寸标记和大尺寸未标记训练数据时,所提出的MA-DNN可以内存模块的演变。如上所述,记录在存储器模块中的两种类型的类级可记忆信息是(1)类级特征表示(键嵌入),以及(2)模型推断不确定性(值嵌入)。 为了理解记忆模块在训练过程中是如何更新的,我们在图1中可视化了键嵌入和值嵌入的演变。4,5,并定性分析其效果如下。CNN-监督MA-DNN61.1848.7932.0617.2810.483.7012.483.878.832.897.492.893.394.184.215.11错误率带记忆的1310日40日第60次第100次10日40日60日100日10(a)(b)第(1)款图五. 对(a)CIFAR10和(b)CIFAR100的价值嵌入演变进行可视化。在每个块中,每行对应于每类值嵌入,即,一种多类概率预测,在训练期间的不同时期对类级网络推理不确定性进行编码。关键字嵌入的效果。如图4所示,关键嵌入(被标记为黑点)基本上被更新为聚类质心以捕获特征空间中的全局流形结构特别地,我们有以下观察结果:(i)图4(a)示出了尽管密钥嵌入被初始化为0而不强加先验知识,但是它们被一致地更新以捕获投影的2-D特征空间中的标记数据的底层全局流形结构,如在第50/250个时期处所见。(ii)Fig.图4(b)示出了最初未标记数据存在严重的类分布重叠;然而,随着模型的训练,这种类分布重叠倾向于逐渐减轻。(iii)图4(c)示出了密钥嵌入还粗略地捕获了不可见的测试数据的全局流形结构,即使网络没有被优化以适应测试数据分布。总的来说,这些观察结果符合我们的动机,记录的累积更新的集群质心作为关键的嵌入,用于获得基于集群假设的未标记样本的概率分配。此外,图中未标记数据分布的演变。4(b)还定性地表明,我们的记忆丧失有助于惩罚类分布重叠,并使类决策边界位于低密度区域。注意,高维数据的2-D tSNE可视化可能不能完美地反映在特征空间中如何分离类的底层结构。价值嵌入的影响。如图5所示,值嵌入基本上记录了类级别的模型推理不确定性 在初始训练阶段,值嵌入反映了高得多的推理不确定性(具有较高熵的多峰分布),但随着模型的逐步训练,逐渐反映了低得多的推理不确定性(具有较低熵的峰值分布)。事实上,当移除值嵌入时,未标记样本的概率分配在早期训练阶段可能变得特别 不 可靠 , 这 甚 至 导致 SVHN/CIFAR 10/CIFAR 100的 性 能下 降0.69/1.94/2.78%,如我们的实验所验证的。因此,值嵌入可以用于反映标签空间中的类别分离,并且用于平滑具有模型推断不确定性的概率分配,以导出更可靠的存储器预测。记忆预测的演变我们可视化了来自CIFAR10的未标记样本在不同训练阶段的14Y. Chen,X. Zhu,S. 龚飞机汽车鸟猫鹿在第十纪元10.50在第40纪元10.50在第六十纪元10.50在第100纪元10.50在第十纪元10.50在第40纪元10.50在第六十纪元10.50在第100纪元10.50在第十纪元10.50在第40纪元10.50在第六十纪元10.50在第100纪元10.50在第十纪元10.50在第40纪元10.50在第六十纪元10.50在第100纪元10.50在第十纪元10.50在第40纪元10.50在第六十纪元10.50在第100纪元10.50图六、来自CIFAR10的随机选择的未标记样品的记忆预测的演变。 红色条对应于缺失的地面实况类。在图6中。可以观察到,在未标记的训练样本上,记忆预测从更不确定(模糊)逐渐提高到更有信心。这不仅证明了MA-DNN的良好收敛特性,而且还表明了记忆损失如何在模型学习中起作用-(5结论在这项工作中,我们提出了一种新的记忆辅助深度神经网络(MA-DNN),以实现对稀疏标记和丰富的未标记训练数据的半监督深度学习MA-DNN是建立在利用模型学习的记忆来更可靠和有效地从未标记的训练数据中学习的思想上的。特别是,我们制定了一种新的同化-适应网络和外部记忆模块之间的相互作用,能够促进更有效的半监督深度学习,通过施加来自增量更新的记忆模块的记忆损失在三个半监督图像分类基准数据集上进行的广泛比较评估验证了所提出的MA-DNN在广泛的最先进方法中的优势。我们还提供了详细的消融研究和进一步的分析,以提供对模型设计和性能增益的见解确认这项工作得到了国家留学基金管理委员会、Vision Semantics Limited、英国皇家学会牛顿高级奖学金计划(NA 150459)和Innovate UK IndustrialChallengeProjectonDevelopingandCommercialisingIntelligentVideoAnalytics Solutions for Public Safety(98111- 571149)的部分支持。带记忆的15引用1. Blum,A.,La fferty,J.,Rwebangira,M.R.,Reddy,R.:使用随机分割的半监督学习。国际机器学习会议(2004)2. Blum,A.,Mitchell,T.:结合标记和未标记数据与协同训练。在:第十一届计算学习理论年会论文集。ACM(1998)3. 夏佩尔岛Zien,A.,Ghahramani,C.Z.,等:通过低密度分离的半监督分类。第十届国际人工智能和统计研讨会(2005年)4. 夏佩尔岛Schlkopf,B.,Zien,A.:半监督学习The Mistress Press(2010)5. Dumoulin,V.,贝尔加齐岛 Poole,B. Lamb,A., Arjovsky,M., 马斯特罗彼得罗岛Courville,A.:逆向学习推理。在:学习表示国际会议(2017)6. 费格斯河Weiss,Y.,Torralba,A.:半监督学习在巨大的图像集合。神经信息处理系统进展(2009)7. 金斯伯格,H.P. Opper,S.:皮亚杰的智力发展理论。02 The Dog(1988)8. Grandvalet,Y. Bengio,Y.:基于熵最小化的半监督学习。神经信息处理系统进展(2005)9. Haeusser,P.,Mordvintsev,A.,Cremers,D.:联想学习神经网络的多功能半监督训练方法。IEEE计算机视觉与模式识别会议(2017)10. Joachims,T.:使用支持向量机进行文本分类的直推推理。国际机器学习会议(International Conference on Machine Learning,1999)11. Kaiser , L-. ,N achum , O. , R 〇 y , A. , Ben g io , S. : Learning gtorememberberrrevents. 在:学习表示国际会议(2017)12. 金玛,D.P.,Mohamed,S.,Rezende,D.J.,Welling,M.:使用深度生成模型的半监督学习。神经信息处理系统进展(2014)13. Krizhevsky,A.,Hinton,G.:从微小的图像中学习多层特征。技术报告,多伦多大学(2009年)14. Laine,S.,艾拉,T.:用于半监督学习的时间集成。在:国际学习表示会议(2017)15. Lee ,D.H. : 伪标 签 :深 度神 经 网络 的 简单 高 效的 半监 督 学习 方 法。 ICMLWorkshop on Challenges in Representation Learning(2013)16. 马洛伊湖Sønderby,C.K.,Sønderby,S.K.,Winther,O.:辅助深度生成模型。机器学习国际会议(2016)17. Maaten , L.v.d. , Hinton , G. : 使 用 t-sne 可 视 化 数 据 。 机 器 学 习 研 究 杂 志(2008)18. Miller,A.,Fisch,A.,Dodge,J.,Karimi,A.H.,Bordes,A.,Weston,J.:用于直接读取文档的键值存储网络在:Proceedings of the 2016 Conference onEmpirical Methods in Natural Language Processing(2016)19. Miyato,T.,Maeda,S. i.,Koyama,M.,Nakae,K.,Ishii,S.:虚拟对抗训练的分布平滑。在:学习代表国际会议(2016)20. Netzer,Y.,王,T.,Coates,A. Bissacco,A.,吴,B.,Ng,A.Y.:读取数字在自然图像中使用无监督特征学习。在:关于深度学习和无监督特征学习的NIPS研讨会(2011)16Y. Chen,X. Zhu,S. 龚21. Nigam,K.,加尼,R.:分析联合训练的有效性和适用性。第九届信息和知识管理国际会议论文集ACM(2000年)22. Pereyra,G., Tucker,G., C〇r 〇 w s k i,J., Kaiser,L-., 嗨,G。:通过惩罚有把握的输出分布来恢复神经网络在:学习表示国际会议(2017)23. Ranzato,M.,Szummer,M.:使用深度网络对紧凑文档表示进行半监督学习。机器学习国际会议(2008)24. Rasmus,A.,Berglund,M.,Honkala,M.,Valpola,H.,Raiko,T.:使用梯形网络的半监督学习。在:神经信息处理系统的进展(2015)25. Rosenberg,C. Hebert,M.,Schneiderman,H.:目标检测模型的半监督自训练。第七届IEEE计算机视觉应用研讨会。05 The Dog(2005)26. Sajjadi,M.,Javanmardi,M. Tasdizen,T.:深度半监督学习的随机变换和扰动正则化。在:神经信息处理系统的进展(2016)27. Salimans,T.古德费洛岛Zaremba,W.,Cheung,V. Radford,A. Chen,X.:改进训练gans的技术在:神经信息处理系统的进展(2016)28. Santoro,A. Bartunov,S.,Botvinick,M.,Wierstra,D.,Lillicrap,T.:使用记忆增强神经网络的元学习。机器学习国际会议(2016)29. Shi,M.,Zhang,B.:半监督学习改善了基于基因表达的癌症复发预测。生物信息学27(21)(2011)30. Springenberg,J.T.:无监督和半监督分类学习生成对抗网络在:学习代表国际会议(2016)31. Sukhbaatar,S.,Weston,J.,费格斯河等:端到端内存网络。于:神经信息处理系统进展(2015)32. Tarvainen,A.,Valpola,H.:教师是更好的
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功