没有合适的资源?快使用搜索试试~ 我知道了~
5315NNN×∼ ×GEMS:生成高效的元子网VaradPimpalkhute TCS研究,印度varad. tcs.comShruti KundeTCS研究,印度孟买shruti. tcs.comRekha SinghalTCS研究,印度孟买rekha. tcs.com摘要基于语义的Meta学习器(GBML),如MAML[6]旨在跨类似任务学习模型初始化,以便模型在从相同分布中采样的未见过任务上很好地推广,并且具有很少的梯度更新。GBML的一个局限性是它无法适应现实世界的应用程序,其中输入任务是从多个分布中采样的。 现有的努力[23]学习从分布中采样的任务的初始化;大概增加了训练时间。相反,我们使用单个模型初始化来学习每个输入任务的分布特定参数。这减少了分布之间的负知识转移和总体计算成本。具体来说,我们探索了两种有效学习多分布任务的方法:1)学习分布特定层的二进制掩码感知器(BMP),2)学习分布特定参数的多模态超级掩码(MMST)。我们评估了所提出的框架(GEMS)在少数镜头视觉分类任务上的性能。实验结果表明,在准确性和2到4的训练时间的速度1. 介绍人类通过观察几个样本并利用以前的知识,很快学会识别周围的物体。元学习,或学习学习,旨在通过从分布(也称为少枪学习[21,20])中训练几个任务我们研究了基于梯度的元学习(GBML)算法[3,6,9,13,15,17,23,14,10],如MAML [6],其目的是学习最佳模型先验,使得模型在暴露于从相同分布中采样的看不见的任务时快速收敛,几乎没有梯度更新。GBML背后的基本前提是学习输入任务的底层结构。如果看不见的任务的结构与训练任务的结构相似,则模型具有很好的泛化能力。文献中大多数最先进的GBML算法都假设任务是从相同或相似的分布中采样的。随着分布间相似性的降低,负知识转移增加对于从不同分布中采样的任务,例如,人类可以将获得的知识应用于驾驶特定型号的四轮车(汽车),以不同类型的四轮车辆。同样的知识可能对驾驶飞机或骑自行车没有好处。然而,在多个模型初始化(例如,[23]多MAML1)导致训练时间的线性增加,尽管与在单个模型初始化上的训练相比导致更好的泛化。因此,我们观察到的计算成本和模型性能之间的权衡在本文中,我们解决这个权衡,提出了一个有效的策略,多分布训练的GBML算法。在以前的工作中[15],作者已经证明,即使网络中的所有层(头层除外)都被冻结,模型也能够很好地概括来自类似分布的看不见的任务。这种方法的功效在多分布场景中降低,因为层对输入任务的结构是冻结不可知的。这使得我们提出了一种方法,该方法基于输入分布的结构来确定要冻结的特定层在该层的参数内进行更深入的探索,使我们能够对特定于任务的参数进行训练,并共享跨任务不可知参数获得的知识,从而改善了多分布环境中的泛化我们提出了两种GEMS(方法)(1) 二进制掩码方法,用于识别模型中的相关层。然后,我们进一步提出一个(2) 多模态Meta Supermask方法,1 Multi-MAML为每个输入分布{pi(T)→θ i} 学 习 单 独 的 模 型 初 始 化|i =1,2,…N}个。5316NNN模型中参数的相关子网络。我们的两种方法都是使用GBML算法上的单个模型初始化来实现的。作为实证分析的一部分,我们提出的两种方法都在训练过程中对来自相似分布的未知任务以及来自模型未知分布的任务(跨域)进行了测试。 我们的目标是最大限度地提高 多分布设置,同时最小化计算/训练时间。MAML(Acc. )≤ GEMS(Acc. )≤ M ULTI-MAML(Acc. )MAML(Cmp. )≤ GEMS(Cmp. )≤ M ULTI-MAML(Cmp. )我们的贡献如下:1. 二进制掩码感知器(BMP)方法,其识别用于训练的任务特定的网络架构层。2. 多模态Meta Supermark(MMST)方法识别用于训练的网络架构中的神经元的任务特异性。3. 元学习领域准基准数据集的实证分析2. 相关工作用很少的镜头学会学习的想法已经流行了一段时间了[21,18,19]。大多数与模型无关的元学习器旨在学习特定任务分布的模型初始化,从而使用梯度下降进行快速自适应。基于这些Meta学习者报告的结果是令人鼓舞的[6,9]。MAML是一种试图为输入分布找到最优模型初始化的算法.它是模型不可知的,广泛用于各种领域的少量学习。MAML的某些变体[15,13,14,10]专注于改善内环中的任务特定学习,而其他变体[3,4]则专注于改善外环中的任务不可知学习。[17,9,2]专注于解决MAML中的挑战,例如过拟合,不稳定的训练,计算效率等。然而,这些方法的性能是有限的,特别是当任务集从多模态任务分布中采样多 初 始 化 MAML 。 Multi-MAML 和 [23](MMAML)解决了在单个初始化上训练多个分布的挑战。在单个初始化上训练多个分布会导致准确性恶化,从而需要训练多个初始化。Multi-MAML(在相应的初始化上训练分布)基于输入任务分布已知的假设,减少了负知识MMAML通过引入一个调制网络来解决这个问题,该调制网络可以自动识别输入任务的模式(初始化)。然而,在这方面,Multi-MAML和MMAML都是计算昂贵的,因为它们在不同的初始化,导致整体训练时间的增加。此外,来自不同分布的任务之间不共享知识。梯度稀疏。[15,13]元学习与骨干参数相对应的二进制掩码,这些参数集被屏蔽在骨干的权重上,类似于切换可训练和不可训练的参数。然而,元学习附加参数集导致计算开销。相反,我们提出了一个简单的MLP,它具有更少的参数,可以找到可训练层而不是可训练参数。我们还强调,[14]更倾向于单分布训练,而不是我们专注于多分布训练的方法。网络修剪。[1]专注于修剪底层骨干的权重,以减少GBML算法中训练和推理期间的计算开销。作者利用彩票假设2来确定具有足够好的准确性的子网络,从而修剪骨干中的其余权重虽然这确实会减少计算量,但它的代价是精度下降。相反,更新子网络的权重,同时冻结其他权重的其余部分,确保仅更新相关权重,同时保留从先前任务中获得的知识。在网络修剪[22]的另一项工作中,作者提出了一种从训练任务中学习稀疏元初始化网络我们的目标是训练一个计算最优的模型初始化,它可以很好地概括来自多分布的任务。我们提出了GEMS框架,采用两种新的方法,即BMP,它生成一个二进制掩码使用适配器和MMSTO,它确定了相关的子网络的模型参数,从不同的分布任务进行训练。3. 方法在本节中,我们描述了我们提出的方法-生成E-高效M-子网(GEMS)。基于梯度的元学习算法的缺点是假设输入任务分布是单峰的,即,假设任务是从单个分布中采样的。从MAML上的多个分布中采样的天真训练任务会导致准确性恶化,当分布数量增加1时[23]。蛮力2彩票假说[7]阐明了在神经网络中,存在一组子网络,当训练时,这些子网络实现竞争准确性。5317NNKfDθDLT T T{D D} ∈ T D <$DT ∈ DT ∈DT TTD{D}不LTiw.r.t我不是我不是我不我不是我不是7:使用以下方法计算任务特定权重的更新不TiTi不L(f)←− ∇ΣL(f)我不是一种方法(多MAML)能够在N个单独的MAML架构上训练所有分布,以获得N个不同的模型初始化。MMAML [23]自动识别输入任务的分布,从而在不同的模型初始化上进行训练。这两种方法在计算上都比MAML昂贵。我们能做得更好吗?答案是否在于确定给定模型参数对训练任务的有效性,而不是在多个初始化上进行训练?在来自不同分布的两个任务之间传输正性知识,以及识别特定于分布的参数,是否可以提高多分布设置中的性能?我们提出了两种算法来解决这个问题:1)双模态掩模感知器(BMP),2)多模态Meta超掩模(MMPs)。二进制掩码感知器通过引入二进制掩码适配器来元学习特定于分布的层和特定于分布的学习速率多模态Meta Supermask的灵感来自彩票假说[7,16,25],因此,在底层架构中识别特定于分发的子网,同时在分发不可知参数之间共享知识。掩蔽因此,参数在我们的方法中起着重要的作用。在第3节中,我们提出了元学习问题()在输入数据集N上收敛良好。Meta-learning,尤其是基于梯度的元学习算法,Rithm,模型不可知Meta Learning(MAML),通常用于少数拍摄任务。MAML在训练过程中确定了一个良好的模型初始化,使得模型fθ能够通过几个自适应步骤快速收敛于看不见的任务。给定一个模型f,用参数θ0随机初始化,我们假设任务是从单个分布p()中采样的,使得ip()。在k-shot设置中,每个任务由从任务中存在的N个类中的每个类采样的数据点组成。MAML训练fθ在任务TRAIN上学习一组最优参数θ′,使得fθ′在看不见的任务测试上收敛良好,其中火车测试p()及列车 试验=MAML通过两个优化循环学习初始化:1)外循环(从所有任务的学习被并入以更新模型初始化),2)内循环(任务-执行在几个梯度更新步骤上的特定自适应)。对于给定的任务Ti,在相应的损失函数Ti下,任务从初始值开始采用m个梯度步长进行快速自适应,权重θ0如下所示:声明在第3.1节和第3.2节中,我们详细解释了所提出的方法。θm=θm−1−α<$θD列车θm−1(1)我不是TiTi其中,θ0我不是 =θ0。 接下来,从所有任务算法1二进制掩码感知器(BMP)要求:学习率η,β,多任务分布p0(),p1(),.,pN−1()确保:随机初始化θ,θ被合并以提供任务的一般性能从测试中取样。因此,在外部循环中,学习了一个Meta初始化,该元初始化概括了所有任务:θ←θ−β<$θ<$LD检验(fθm)(2)一曰: 不做就做2:对一批任务Ti∈ {p0(T),.,pN−1(T)}TiTi我不是3:对于每个Tido4:来自Ti的样本数据点{Dtrain={x(j),y(j)}}5:在每个梯度步长m评估LDtrain(fθm),MAML的缺点在公式2中突出显示,其中来自所有任务的知识得到了整合。对于来自多个发行版的任务,评估TiTiDM6:计算二进制掩码BM和任务特定LR这会影响准确性。 因此,对于多重分布αm使用g?Ti,θm,θLDtrain(fθm)等式4梯度下降:θm+1,l=θm,l−αm。BMm我不∇θ LD列车(fθm)TiTil建立在MAML的基础上,以应对恶化的挑战-在多分布设置中提高性能。8:样本数据点测试=x,y对于元更新9:结束从Ti3.1. 二元屏蔽感知器文献中基于MAML的方法,如ANIL10:通过评估损失准则计算LD检验(fθm)w.r.tD我我test.[15]和BOIL [13]显示出显著的效果,在MAML上搜索。ANIL冻结所有层,11:更新权重:ϕ←ϕ−β∇ϕΣLD检验(fθm)和θ θ ηθ十二: end while预赛我不是TiTiD试验θm我不是TiT i在内部循环优化步骤中的头部。我们的方法根据任务特征动态冻结层,而不是冻结一组固定的参数。给定一个模型fθ,我们确定了一组可学习参数rsθpi (T)和一个学习率αpi(T),用于从分布中采样的输入任务在少样本学习(FSL)中,我们为N个类中的每个类提供K个样本,目标是训练模型i()的情况。 所提出的方法如图1算法1。火车可以从一个单一的元初始化,其中广告,培训 有必要确定分布-具体和分布不可知的参数。 我们的工作我不是我不是(j)(j)5318L不T ∈{T T T}N−Ti{D}我不是不我不是我不我不是我不是GGi=0时θ我不是Gi−G′G′我不是我不是我不是我不是L我不我不是我不是G不L(f )m我JBMm−1是第l层的二进制掩码∈ {0,1},模型在第(m-1)个梯度更新步骤,αm-1为学习率 (m−1)th用于输入任务我不是Ti. 的在内环中的每个梯度更新步骤m处使用适配器网络g_i生成二进制掩码和学习速率,适配器网络g_i是Ti、θ和f_θL(fθ)的函数:图1.二元屏蔽感知器BM m,αm=g. Ti,θm,θLDtrain(fθm)(4)算法2多模态Meta超级掩码(MMMAST)要求:学习率β,多任务分布p(T),p(T),.,p(T)因此,我们能够为内部循环中的每个i生成一个二进制掩码。目的是学习给定层的权重以用于在Ti上学习,并控制给定层的权重的大小。确保:随机初始化一曰: 不做就做0 1θ,N−1更新步骤。直觉是,类似的任务将有一个与不相似的任务相比,共享参数的较大交集因此,使用二进制掩码来有效地2:抽样一批任务ip0(),p1(),., p1()3:对于每个Tido4:来自Ti的样本数据点{Dtrain={x(j),y(j)}5:计算每层k<$g<$(θ,<$θ)中的稀疏度%调制fθ的分布特异性和分布不可知性参数。最后,在外环优化步骤中,如下训练g的参数kLD检验(fθm)(5)6:计算子网工作Gi:选择前k%权重,对于l ∈ {0,1,.,L}TiTiTi7:评估D列θm在每个梯度步骤,评估GiTifθ的外环优化与等式2. 对于用gra掩蔽二进制掩码w.r.t列车8:仅在子网工作Gi上计算更新使用gra-对于fθ,我们使用直通估计,梯度下降:θm+1=θm−α <$θLD列车(fθm)(STE)[5]广泛用于掩蔽操作[25],吉吉GiTi[14]第10段。 STE忽略二进制掩码的梯度,9:子网络中不存在的权重:θm+1=θmTi−G i10:样本数据点测试=x元更新。11:结束(j),y(j)Ti−Gi}fromTi for反向传播梯度不变。补充材料中讨论了STE的实施细节。我们还在补充资料中提供了有关g的体系结构和输入参数的12:通过评估损失准则计算LD检验(fθm)材料十三:w.r.tD我我test.3.2. 多模态Meta超级掩码更新权重:θ ←θ −αTθ. 德国铁路D型列车(fθm−1)− <$LDtrain(fθm−1)<$/T其中,G=G <$G。14:更新MLP权重:g←g−βθLD检验(fθm)。GiGi我们用参数θ0初始化模型fθ,并引入一个随机初始化参数θ0的适配网络g θ。 对于一个给定的输入任务,g将(1)来自当前任务i的特征和(2)以f θ中的权重和梯度形式存储的先验知识作为输入,以生成两个输出:(1)特定于任务的学习率和(2)自适应地屏蔽fθ中不可训练层的更新的二进制掩码。因此,等式1被修改如下:θm,l =θm−1,l−αm−1。BMm−1θLDtrain(fθm−1)15:结束我不是(三)5319图2.多模态Meta超级掩码多模态Meta Supermasks(MMMAKS)将BMP扩展到参数级冻结。我们的目标是确定一个子网络,能够有效地学习一个给定的任务Ti. 直觉是,如果我们减少其中,l= 1,2,...,L是模型fθ的第l层。可学习参数Ti∈p0(T)和Tj∈p1(T),5320NN G GG我G表1.5种方式,1次注射-相同分布培训分布测试分布元学习架构MAML精度时间多MAML精确度时间BMP精度时间MMM精度时间公司简介+ VGG102公司简介VGG1020.506±0.0080.703±0.0096.580.533±0.0110.719±0.01111.570.563±0.0060.751±0.0056.630.524±0.0280.723±0.0227.17公司简介+真菌公司简介真菌0.487±0.0160.392±0.0146.330.533±0.0110.424±0.00613.580.522±0.0280.421±0.0347.460.525±0.0220.425±0.0057.79公司简介+ VGG102+真菌CUB200VGG102真菌0.483±0.0150.691±0.0110.405±0.0067.020.533±0.0110.719±0.0110.424±0.00619.060.543±0.0020.733±0.0150.441±0.0046.520.517±0.0270.691±0.0170.403±0.0037.35公司简介公司简介0.479±0.0100.677±0.0110.398±0.0040.283±0.0045.590.533±0.0110.719±0.0110.424±0.0060.400±0.01028.490.517±0.0110.649±0.0050.423±0.0130.402±0.0257.720.487±0.0180.689±0.0190.380±0.0060.349±0.0128.23+ VGG102 VGG102+真菌真菌+飞机飞机表2.5路,1次拍摄-跨域分布培训分布测试分布元学习架构MAML精确度时间多MAML精确度时间BMP精度时间MMM精确度时间公司简介真菌0.4106.580.36111.570.4116.620.3887.17+ VGG102飞机0.2690.2770.3070.291公司简介VGG1020.6036.330.63813.580.6847.460.6117.8+真菌飞机0.2680.2770.2940.306它可以减少准确性的恶化。给定N分布,MMCs识别子网1,2,..., N同时使得能够在网络的分布不可知参数之间共享知识。对于每个输入分布类型,识别参数的子网络。这些是与特定分布相关的参数。Frankle和Carbin [7]证明了子网络的存在,这些子网络可以被训练以达到与彩票假设中的原始网络相当的[16]在此基础上,提出了一种边弹出算法,以在随机初始化的超参数化网络中找到一个子网。我们改进了边缘弹出算法,生成与训练中的分布相对应的子网络。识别特定于分布的参数,避免了参数的训练请注意,我们的方法与[25]不同,因为我们的目标不是识别子网络,而是识别导致准确性最小恶化的参数子集。因此,不是保持单独的分数来学习输入分布的理想子网络,我们学习底层网络fθ的相关权重。 我们元学习每个节点中存在的稀疏度%(k%)。使用MLP(g)的底层架构的层。我们也可以保持稀疏性参数不变,但是,我们稍后在第4节中观察到,改变稀疏性会带来更好的性能。内环更新类似于公式1,但有一些微小的变化:θm+1=θm−α<$θLD列车(fθm)这些参数可能与特定分布无关,因此避免了在网络中训练额外的不相关参数。我们的方法如图2和算法所示。Giθm+1Ti−GiGiGiTi=θmTi−G i(六)Rithm 2.给 定 一 个 模 型 fθ , 训 练 分 布 p1 ( T ) , p2(T),., pN(T),我们的目标是识别任务Ti的f θ的参数子集Gi,使得LT(Gi)≤LT(fθ)。其中,θGi是来自每个fθ和f ′中的层是任务不可知参数(所有分布中共有的参数)。我们最后,外环优化步骤如下进行5321ϕGiGi(a)BMP准确性。(b)MAML准确性。(c)MMST的准确性。(d)BMP错误。(e)MAML错误。(f)MMPs错误。图3.训练精度和损失. ΣT德国铁路D型列车(fθm−1)LD系列(fθm−1)与Multi-MAML不同,超级掩码方法都是训练单个基础模型,因此是计算最优。不像θG=θG−αi=0时θGi− G′Ti不-αθG′我不是不(七)MAML,这两种方法都被设计用于不同的分布。我们说明了我们的AP的功效对CUBirds [24]、Air- craft [11]、VGG Flowers [12]和Fungi [8]等5个图像数据集进行了研究。数据集和超参数的详细信息在Supple-G ←g-β-内酰胺FLOWLD检验(fθm)第二节。 所有的实验都是在一个ded-(八)配置为GPU 100,配备30 GB RAM、8 vCPU和10 GBGPU内存。每一个实验都被重新-其中,{G = G1<$G2<$. G N}。4. 实验和消融研究我们评估我们的方法在图像分类领域,使用准基准数据集从元学习领域。我们的方法进行了比较与基线MAML和MultiMAML。MAML代表了与模型无关的元学习器家族,并且已知其在已知分布的任务上具有很好的泛化能力,因此形成了我们的模型训练准确性多MAML由M(不同模态的数量)MAML模型组成,我们将我们的方法与多MAML场景中的大量训练时间进行了比较。在Multi-MAML中,为每个输入分布训练一个单独的模型。在M个输入分布的情况下,多MAML将训练M个模型。在我们的实验中,我们使用5个数据集,因此在多MAML方法中,我们将训练5个模型(每个数据集一个)。二进制掩码感知器和Meta用不同的种子播种3次,以确保足够的随机性。4.1. BMP和MMPs的多重分布性能表1描述了在多分布场景中训练单个模型,即模型在2、3或4个数据集上训练。训练后的模型在来自已知分布的看不见的任务上进行了测试。BMP和MMML在准确性方面优于base-MAML,或者达到相当的准确性,因为这两种方法都专注于在训练时识别特定于分布的层或参数。BMP和MMPs的训练时间均然而,在大多数情况下,MAML的训练时间在两种情况下都较短原因是,BMP需要一个适配器来确定二进制掩码,而MMPs需要识别相关的子网络来训练特定的输入分布。这两种操作都增加了总训练时间。然而,BMP和MMPs实现了较低的训练时间相比,多,ϕθ我不是5322表3.变稀疏性数据集稀疏值0.1 0.2 0.3 0.4 0.5 0.60.70.80.9VGG1020.6690.6760.6760.6810.6710.6810.6650.6520.653公司简介0.5090.5020.520.5150.5090.5120.5010.4990.475表4.稀疏度随网络深度变化数据集稀疏深度S1 S2 S3 S4 S5S6S7S8VGG1020.6710.6720.6780.6790.7060.6660.6640.671公司简介0.4910.4960.4880.4940.5150.5030.5030.504MAML as Multi-MAML为每个模态训练一个单独的模型。图3描述了BMP、MMP和MAML的准确度和损失范围。BMP的总体训练时间低于MMNN,因为MMNN识别与给定输入任务相关的所有网络参数另一方面,BMP一次考虑网络的整个层。这两种方法的准确性是相当的。由于BMP的粒度小于MMK,因此当选择层内的所有参数时,其在交叉域中的性能可能最终优于MMK(准确度)BMP可能最终选择一个层,该层可能不具有给定分布的所有相关参数,但可能与推断期间看不见的分布相关。我们已经观察到,改变MMMK中的稀疏性与保持稀疏性固定相比给出了相对更好的结果表2描述了跨域结果,其中模型在多个分布上训练,并在来自未知分布的任务上进行测试BMP和MMML都比MAML实现了更好的准确性,因为已知MAML在来自类似分布的任务上很好地通用化。训练时间如表1表5.BMP和MMBMP的适配步骤算法#适应步骤123 4 5BMP0.774 0.764 0.755 0.746 0.739MMM0.734 0.722 0.703 0.689 0.7234.2. 消融研究在本节中,我们进行消融研究,以更好地理解和分析GEMS的性能。我们注意到4-CONV主干上两个分布(VGG 102和CUB 200数据集)实例的5路1次训练的训练时间和准确性。子章节中的所有结果均已在VGG102数据集上进行测试。图4. BMP和MMPs4.3. 适应步骤我们首先通过改变内部循环中的自适应步骤的数量来分析BMP和MMPs在快速学习过程中的有效性。随着自适应(梯度)步骤的数量增加,模型会学习更多特定于任务的参数。当在不同数量的适应步骤上进行训练时,我们测量BMP和MMPs的准确度和训练时间,如表5和图5所示。如图5所示,无论自适应步骤的数量如何,BMP和MMML都优于在5个自适应步骤上训练的MAML算法的准确性。此外,BMP的性能随着自适应步长的减小而提高. 由于MMNN这使我们假设BMP和MMOS已经学习了良好的先验知识,如[15]所述。在测试期间,它导致在输入任务上的仅一个自适应步骤中的快速收敛,最终使得额外的自适应步骤变得多余。4.4. 变稀疏度为了理解稀疏性如何影响MMXs的性能,我们在4-CONV骨干的所有层(包括头层)中保持稀疏性值恒定。作为一个例子,我们将观察结果绘制在5323图5.适应步骤表3和图6中的VGG102和CUB200数据集。其余分布也观察到类似的模式。据观察,随着稀疏性的增加,精度和训练时间都下降。然而,与在零稀疏性上训练的MAML相比,VGG 102和CUB 200的准确性性能都是次优的这使我们得出结论,保持固定的稀疏值图6.变稀疏性4.5. 稀疏度随深度在先前消融研究的基础上,我们改变了每层的稀疏百分比,并将观察结果记录在表4和图7中。我们观察到,随着稀疏性随深度减小,准确性增加。这种现象在VGG102和CUB200数据集上记录,但在其他两个分布上也观察到相同的趋势。我们从这项研究中得出结论,MMNN在训练的早期就在初始层上学习。这一结论与[15,13]的发现一致,即在内环更新中手动因此,自动识别每个层中的稀疏性的过程有助于MMNN优于手工设计的算法,如ANIL [15]和BOIL [13]。5. 讨论GBML算法族假设任务是从一个单一的分布中抽样的。在任务图7.稀疏深度来自多个分布的误差导致准确度的恶化。训练多个模型,每个分布一个模型会增加训练时间,这是因为计算量增加。因此,我们提出了BMP和MMDO,两者都在多分布场景中训练单个模型。BMP方法具有确定二进制掩码的适配器,因此仅训练与给定输入分布相关的那些层。 这也提高了跨域场景中的训练精度。然而,BMP具有比MAML更高的训练时间,因为适配器引入了额外的计算来确定二进制掩码。MMML更进一步,确定每个输入分布的相关参数,因此与MAML相比具有很好的泛化能力。然而,与BMP和MAML相比,MMML具有更高的训练时间,因为确定子网可能在计算上是昂贵的,从而增加了训练时间。然而,BMP 和 MMML 在 训 练 时 间 方 面 都 击 败 了 Multi-MAML,因为它们在多个分布上训练单个模型,而Multi-MAML训练多个模型。6. 结论在 本 文 中 , 我 们 概 述 了 两 种 方 法 , 即 BMP 和MMDO,它们能够在多分布场景中训练单个模型。这两种方法虽然与MAML基线相比具有更高的训练时间,但在训练时间和准确性方面优于最佳情况我们还illustrate在跨域的情况下的性能。我们的两种方法都很好地概括了已知和未知分布的任务。我们还提出了广泛的消融研究,促进更深入地了解BMP和MMPs的方法,从而验证的方法的有效性。在本文中,我们已经测试了我们提出的图像分类任务的方法,使用准基准数据集在元学习领域我们计划将其进一步扩展到图像分割,对象检测和强化学习。我们还打算在多模态场景中扩展这项工作,其中模型应该能够很好地概括来自不同模态的输入任务,同时优化整体训练时间。5324--引用[1] Milad Alizadeh,Shyam A. Tailor,Luisa M Zintelor,Joost van Amersfoort , Sebastian Farquhar , NicholasDonald Lane,and Yarin Gal.前景修剪:使用元梯度在初始化时找到可训练的权重。在2022年的学习代表国际会议[2] Antreas Antoniou,Harrison Edwards,Amos Storkey.如何训练你的MAML在2019年国际学习代表会议上[3] Sungyong Baik 、 Myungsub Choi 、 Janghoon Choi 、Heewon Kim和Kyoung Mu Lee。自适应超参数元学习。神经信息处理系统,34,2020。[4] HarkiratBehl 、 AtılımGuünesBaydin 和 Ph i lipH.S.T或 R。Alpha maml:自适应模型不可知元学习。在第六届ICML自动化机器学习研讨会上,第三十六届机器学习国际会议(ICML 2019),长滩,CA,美国,2019。[5] YoshuaBengio、NicholasLe'onard和AaronC. 考维尔通过用于条件计算的随机神经元估计或传播梯度。CoRR,abs/1308.3432,2013。[6] Chelsea Finn,Pieter Abbeel,Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Doina Precup和Yee Whye Teh,编辑,第34届机器学习国际会议论文集,机器学习研究论文集第70卷,第1126-1135页。PMLR,2017年8月6日[7] 乔纳森·弗兰克尔和迈克尔·卡宾。彩票假设:寻找稀疏的、可训练的神经网络。在ICLR。OpenReview.net,2019年。[8] Tobias Guldberg Frøslev , Jacob Heilmann-Clausen ,Chris- tian Lange , Thomas Læssøe , Jens HenrikPetersen , UlrikSøchting , ThomasStjernegardJeppesen,and Jan Vester- holt.丹麦真菌学会,真菌记录数据库,2022。[9] KwonjoonLee,SubhransuMaji,AvinashRavichandran,and Stefano Soatto.可微凸优化的元学习在CVPR,2019年。[10] Yoonho Lee和Seungjin Choi。基于梯度的Meta学习,学习分层度量和子空间。在ICML,第2933-2942页[11] S. Maji,J. Kannala,E. Rahtu,M. Blaschko和A. 维达尔迪飞机的细粒度视觉分类。技术报告,马萨诸塞大学阿默斯特分校,2013年。[12] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。2008年第六届印度计算机视觉会议,图形图像处理,第722-729页[13] 吴在勋,柳亨俊,金昌焕,尹世英。BOIL:TowardsRepresentation Change for Few-Shot Learning ( 英 语 :Towards Representation Change for Few-Shot Learning)2021年,在国际学术会议上发表[14] 约翰尼斯·冯·奥斯瓦尔德,多米尼克·赵,小林清人,西蒙·舒格,马西莫·卡恰,尼古拉斯·祖切特和若昂·萨克拉门托。学习在哪里学习:Meta学习和持续学习中的梯度稀疏性。以. Beygelzimer,Y.太子P. Liang和J.Wortman Vaughan,编辑,神经信息处理系统进展,2021。[15] Aniruddh Raghu、Maithra Raghu、Samy Bengio和OriolVinyals。快速学习还是功能重用?了解MAML的有效性在国际会议上学习代表,2020年。[16] 诉Ramanujan,M.Wortsman,A.Kembhavi、A.法哈迪,以及M.拉斯特加里随机加权的神经网络中隐藏着什么?在2020 年 IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第11890-11899页IEEE计算机协会。[17] 安 德烈 ·A. Rusu 、 Dushyant Rao 、 Jakub Sygnowski 、Oriol Vinyals、Razvan Pascanu、Simon Osindero和RaiaHad-sell。 具有潜在嵌入优化的元学习。在2019年国际学习代表会议上。[18] JürgenSchmidhube r.自我参照学习或学习如何学习的进化原则:超超 hook.1987年,慕尼黑,技术工人,慕尼黑。[19] J. 施密特胡博一个神经网络嵌入了自己的Meta层次。在IEEE神经网络国际会议上,第407-412页,[20] JürgenSchmidhube r.论学习方法学习策略。技术报告,《慕尼黑技术》,1995年。[21] Sebastian Thrun和Lorien Pratt 学会学习:简介和概述,第3-17页。Kluwer学术出版社,美国,1998年。[22] 田红端,刘波,袁晓彤,刘青山使用网络修剪的元学习。欧洲计算机视觉会议,第675-700页。Springer,2020年。[23] Risto Vuorio,Shao-Hua Sun,Hexiang Hu,and Joseph J.林基于任务感知调制的多模态模型不可知元学习。Curran Associates Inc. Red Hook,NY,USA,2019.[24] Catherine Wah,Steve Branson,Peter Welinder,PietroPerona,and Serge J.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。加州理工大学圣地亚哥分校,2011年。[25] 米切尔·沃茨曼、维韦克·拉马努金、罗珊·刘、阿尼鲁达·肯巴维、穆罕默德·拉斯蒂加里、杰森·约辛斯基和阿里·法哈迪。叠加的超级面具。在第34届神经信息处理系统国际会议上,NIPS'20,Red Hook,NY,美国,2020年。Curran Associates Inc.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功