没有合适的资源?快使用搜索试试~ 我知道了~
98510动态内核选择以改善元学习中的泛化和内存效率0Arnav Chavan�†‡,Rishabh Tiwari*�†‡,Udbhav Bamba†‡和Deepak K. Gupta†0† Transmute AI Lab(Texmin Hub),印度理工学院,ISM丹巴德0{arnavchavan04,akchitra99,ubamba98,guptadeepak2806}@gmail.com0摘要0基于梯度的元学习方法容易在元训练集上过拟合,而且这种行为在大型和复杂网络中更为突出。此外,大型网络限制了在低功耗边缘设备上应用元学习模型。虽然选择较小的网络在一定程度上避免了这些问题,但它会影响整体泛化能力,导致性能下降。显然,对于每个元学习问题,存在一个近似最优的网络架构选择,然而,事先确定它并不直接。在本文中,我们提出了一种任务特定的动态内核选择策略 M ETADOCK,用于设计在元学习中对未知任务具有良好泛化能力的压缩CNN模型。我们的方法基于这样的假设:对于一组相似的任务,每个任务并不需要网络的所有内核。相反,每个任务只使用内核的一部分,并且内核的选择可以作为内部更新步骤的一部分动态学习。 M ETA DOCK压缩了元模型和任务特定的内部模型,因此为每个任务提供了显著的模型大小减小,并通过限制每个任务的活动内核数量,隐式地缓解了元过拟合问题。我们表明,在相同的推理预算下,使用我们的方法获得的大型CNN模型的修剪版本始终优于传统的CNN模型选择。 M ETA DOCK与流行的元学习方法(如iMAML[22])相结合效果良好。我们的方法在CIFAR-fs[1]和mini-ImageNet[28]数据集上得到了验证,并且我们观察到我们的方法可以在标准元学习基准测试中提高模型准确性高达2%,同时将模型大小减少75%以上。我们的代码可在https://github.com/transmuteAI/ MetaDOCK 上获得。0*表示相等的贡献。Arnav Chavan是对应的作者。01. 引言0任何人工智能(AI)系统所期望的一个重要特性是在多种不同条件下解决任务的能力,并且在有限的数据帮助下能够快速适应未知环境。尽管深度学习领域已经通过开发多种高效算法取得了显著进展,但众所周知,当推理数据的统计特征与训练集不同时,标准学习方法往往在使用数百万数据点进行训练时表现良好,但在这种情况下会出现问题。元学习通过从一系列具有有限数据的任务中学习模型权重来解决这个问题。这个学习过程有助于模型良好地泛化并在少量示例的帮助下快速适应未知任务。这种设置在视觉和强化学习问题中具有许多实际优势,例如少样本图像分类[3, 11, 22,28],导航[30],领域适应[5]等。这些元学习方法背后的关键思想是学习可以轻松修改为新任务的广义权重。与其他方法相比,基于梯度的方法往往面临过拟合问题更严重。其中观察到的两种过拟合问题是:1)内部任务过拟合,指的是元模型的任务特定过拟合,对此问题进行了广泛研究[13,33],因为它在所有深度学习方法中普遍存在,并且提出了多种方法来解决这个问题,例如内部正则化、dropout、权重衰减、学习率调整等。2)任务间过拟合或元过拟合,即元模型在已知任务上过拟合,并且在未知任务上无法很好地泛化,对这个问题的研究有限,一些常见的方法是添加隐式正则化[22],选择更大的CNN网络以增加学习能力[13],使用初始化技术来改善泛化[25]。在本文中,我们提出改进基于梯度的元学习模型的泛化能力以及98520通过修剪学习中的内存效率。我们提出了基于梯度的动态学习方案M ETADOCK,用于为每个元学习任务识别最佳的卷积核集合。METADOCK基于这样的假设:每个任务只需要从传统的元学习模型中存在的完整卷积核集合中选择一个小的子集,使用过多的卷积核可能会导致元过拟合。每个任务的卷积核数量的减少进一步分为两部分:减少最终元模型中的卷积核数量,并学习在内部更新步骤期间进一步优化选择的任务级别。METADOCK使用在内部更新步骤中累积的梯度信息来激活/停用元模型中的卷积核。M ETA DOCK的主要贡献如下:0•我们证明了通过在元级别和每个任务上高效修剪网络的过度和不需要的部分,可以使元学习模型更好地推广到未见过的任务。0• 我们的M ETADOCK策略动态地识别出每个任务需要保留的正确卷积核集合,并丢弃其余部分。这有助于避免过拟合,并提高元学习方法的可靠性。0• 通过修剪元模型和任务特定模型,M ETADOCK显著减小了模型的大小。由此产生的较小的元模型更适合在低功耗设备上部署,并提高了模型的推理效率。0• 我们通过成功将M ETADOCK与流行的元学习方法iMAML集成在一起,证明了M ETADOCK在基准数据集上改进了对未见任务的性能。02. 相关工作0大多数标准的机器学习模型很难适应未见任务,而元学习试图解决这个问题[9]。解决元学习问题的常见方法[29]包括基于度量的学习、基于模型的方法和基于优化的方法。在基于度量的学习中,核心思想类似于最近邻算法,其中使用嵌入函数将输入信号编码为较小维度的特征向量,进一步用于区分不同类别。这些方法假设相同类别的样本嵌入应该彼此更接近,并且那些0不同类别之间应该相互分离。Siamese神经网络[10]、匹配网络[27]、原型网络[24]是该领域中一些重要的工作。基于模型的方法[19, 23,31]通过模型的内部设计或其他元模型的帮助来设计快速学习的模型。基于优化的方法使用修改后的反向传播来处理跨任务的少样本学习。其中一些常见的方法是MAML[3]、iMAML[22]和Reptile[20]。本文提出的方法与减少任务间过拟合有关,也被称为基于优化的元模型中的元过拟合,通过任务特定的核选择来实现。我们将研究重点放在基于优化的方法上,因为与基于度量和基于模型的元学习方法相比,这些方法天然地设计用于较小的模型。我们通过开发一种修剪策略来实现这一点,该策略为每个不同的任务找到不同的核子集。网络修剪是去除深度神经网络中冗余权重的重要方法。修剪网络的一些常见方法如下:1)非结构化修剪[2, 4, 6, 7,12,32],这些方法减少了存储需求,但目前无法通过最新的硬件实现加速。2)结构化修剪[8, 15, 16, 18,26],这些方法修剪了整个通道或层的神经网络,保持了神经网络的结构。我们方法中使用的核选择修剪与结构化修剪方法密切相关,因为它保持了规则的结构,并选择要应用于卷积层中每个输出通道的核。[25]提出了另一种利用修剪改善元学习泛化性能的方法。他们将修剪用作模型权重初始化的方法,并在一定程度上展示了泛化性能,但未引入任何稀疏性或压缩,并且计算量非常大,因为它们需要相对于正常的元学习多3倍的训练,而在推理中没有任何内存/计算增益。03. 动态核选择03.1. 背景:元学习0在本文中,我们讨论了元学习在少样本监督学习问题中的应用,如[3]中所述。在这个设置中,令{Ti}Mi=1表示从任务分布P(T)中抽取的一组元训练任务。对于每个任务Ti,与之相关联的是一个数据集Di,该数据集进一步划分为两个不相交的集合:Dtri和Dtesti。这两个数据子集的形式为Dtri ={(xki,yki)}Kk=1,Dtesti同理,其中x∈X,y∈Y分别表示输入和输出。目标是学习形式为Fϕ:X→Y的模型,其中ϕ∈Φ是参数。对于任务Ti,目标是使用Dtri学习特定于任务的参数ϕi,使得相应任务的测试损失θ∗ML := argminθ∈ΘF(θ),L Ad(θ, Dtri ), Dtesti.(1)to fit across all the tasks, it needs to possess sufficient band-width of model weights. However, it is of interest to ex-plore whether all the model weights are indeed needed foreach of these tasks, and if not, can we adapt this usage in atask-specific manner.Figure 1 shows an example of kernel usage for a fewmappings between the kernels and the output channels. Forthe sake of visual clarity, we show here only first 32 ker-nels of the total 64 from the last layer of our model. Foreach output channel, we show the relative contribution ofthe various kernels. From Figure 1a, it is seen that the con-tributions of the different input kernels vary across differentoutput channels with some kernels being more importantthan the others for an output channel. Figure 1b shows thesame 32 kernels as above, but for a model pruned with ourmethod to a budget constraint of 50% on the total fraction ofthe kernels to be used. The resulting sparsity is clearly visi-ble in Figure 1b where we see that for each output channel, asignificant set of kernels are no more relevant. We have ob-served and later report in this paper that even at such sparseconfigurations, the overall performance of the model is atpar with the model trained without any budget constraint.As anticipated, different output channels use different setof input kernels, however, the overall selection of kernelsis still sparse. Clearly, there is a scope of using a reducednumber of kernels per output channel, and we achieve it inthis paper through smart kernel selection, also referred askernel pruning.Kernel selection, when combined with meta-learning, fa-cilitates the identification of optimal set of kernels specificto each task. This leads to compressed meta-models as wellas task-specific models that are less vulnerable to overfit-ting and provide improved memory efficiency.Figure 298530(a) 没有预算约束0(b) 有预算约束0图1.在没有预算约束和预算约束为总使用核数的50%的情况下,32个不同3×3核在映射10个不同输出通道中的相对贡献。0L(ϕi,Dtesti)最小化。传统上,元学习被形式化为一个双层优化问题,涉及模型的优化参数在两个不同层次上的更新:元更新(外部更新)和适应(内部更新)。在元更新层面上,参数集θ∈Θ被优化,这与任务特定的训练集一起用于为任何给定的任务Ti获得ϕi。元学习的目标是优化元参数θ,使得对于最优解,其适应性(用Ad(∙)表示)对于某个任务Ti使用Dtri最小化相应任务的测试损失L(ϕi,Dtesti)。数学上可以表示为0其中,F(θ) = 10M �0在推理过程中,使用与新任务Tj�P(T)对应的数据集Dtrj来更新θML以获得任务特定的参数ϕj。这进一步表示为ϕj =Ad(θML, Dtrj)。03.2. 元学习中的核选择0图2.对于10个随机抽样的任务对,构建32个不同输出通道的二进制相关图。这里,“黄色”表示相应任务对中的两个任务的输出通道是使用完全相同的输入核构建的,“红色”表示相反。0展示了在元学习中用于任务特定修剪的核选择示例。我们可以看到这里是多个任务对的二进制相关性图,观察到用于构建输出通道的输入核的选择在不同任务之间变化。显然,并非模型的所有核对每个任务都是相关的,未使用的核可以通过我们的动态核选择策略消除。+985403.3. M ETA DOCK 公式0我们在这里提出了 M ETADOCK,这是一种将任务特定的核选择作为模型优化过程的一个组成部分的元学习动态核选择策略。首先,M ETADOCK 修改了在公式 1 中陈述的优化问题如下。0θ � ML , z � ML := argmin θ ∈0F ( θ , z ) = 10i =1 L A d ( z , θ ; D tr i ) , D test i .(2)0请注意,这里的 z表示一组掩蔽参数。基于这个公式,很明显修剪掩蔽在两个不同的层次上进行学习:元层和适应阶段(内层)。内部步骤有助于识别用于某个任务的核,并忽略其余的核。对于内层学习过程,M ETA DOCK 使用适应函数 A d ( ∙ )。受到iMAML 算法的启发,我们构造 A d ( ∙ )为以下正则化问题:0A d � ( θ , z ; D tr i ) = argmin ϕ ∈ Θ , ζ ∈Z L( B ( ζ ) ⊙ K ( ϕ ); D tr i )0+ λ 02 ∥ θ - ϕ ∥ 2 + λ 202 ∥ z - ζ ∥ 202 ∥V ( ζ ) - V 0 ∥ 2 + λ 4 ∥ ζ ∥(3)0方程中的任务特定模型参数和修剪掩蔽由 ϕ 和 ζ表示。此外,K ( ϕ ) 表示从模型参数 ϕ 构建的核集合,⊙表示逐元素乘法运算。每个掩蔽与网络中的一个核相乘,以使掩蔽的总数等于模型的核数。在对核进行掩蔽时,使用运算符 B ( ∙ ) 将掩蔽 ζ 投影到 0 或 1,该函数定义为0B ( ζ j ) = 1,如果 ζ i > 0;0,否则 (4)0如公式 3 所示,目标函数中有四个由项 λ 1 , λ 2 , λ 3 和λ 4 加权的正则化项。与传统的 iMAML策略类似,第一项鼓励任务特定的模型参数 ϕ i 保持接近θ。这种正则化有助于获得关于 θ的强先验,使得学到的元模型只需要很少的更新步骤和非常有限的新训练样本就能适应新任务。类似地,方程 3中的第二个正则化项确保任务特定的动态核选择建立在在元模型级别确定为活动的核上。这种正则化对 z施加了强先验,并有助于动态选择任务特定的0只有几个更新步骤的核。第三个正则化项考虑了对优化问题施加的预算约束。任何任务的总预算 V ( ζ ) 定义为0V ( ζ ) = 活动核的总数,即 B ( ζ j ) 的总和0核的总数。 (5)0对于 M 个任务,我们有 M个这样的不等式约束,而不是直接加入它们,我们为其添加了一个组合的正则化项。预算约束的实现在我们的实现中是通用的,可以用于对模型体积、通道和 FLOP等施加预算,如 [14, 26] 中所述。最后一个正则化项在 z上引入 ℓ 1稀疏性。对于与大多数动态核相关联的掩蔽,我们观察到这个惩罚项有助于将 z 的值保持接近0,从而方便在不同任务之间轻松切换活动和非活动。03.4. M ETA DOCK 优化0通过交替进行以下两个更新步骤来解决公式 3中提出的优化问题:0θ ← θ − η 1 d θ F ( θ , z ; D tr i ) , (6)0z ← z − η 2 d z F ( θ , z ; D tr i ) , (7)0其中 d θ ( ∙ ) 和 d z ( ∙ ) 分别表示对 θ 和 z的一阶梯度。根据公式3,掩码的更新步骤可以进一步展开为0z ← z − η2 1 M0M �0i =10d A d � i ( θ , z ) d ζ � z L ( A d � ( z , θ )) . (8)0对于 θ也可以给出类似的表达式。这种两步更新策略可以实现交织优化问题的稳定性,并通过梯度下降方法帮助收敛。图3显示了M ETADOCK的工作流程的示意图,该方法的流程细节在算法1中提供。M ETADOCK从使用预训练模型的权重初始化元模型,因此 θ = θ0。然后,我们为初始模型的每个核关联一个修剪掩码,并且掩码的值从均匀分布中采样(以保持所有掩码最初都处于激活状态)。然后,METADOCK的目标是同时优化模型权重和相关的掩码。在每个元步骤中,从预定义的任务分布中随机抽取一组任务,并独立地为每个任务执行内部更新以获得 ϕ i 从θ。基于整个任务批次的误差梯度的平均值,对元模型进行更新。重复此过程,直到达到所需的收敛水平。有关算法1中概述的每个函数的详细信息可以在补充材料中找到。为了更好地收敛,M ETA DOCK采用了Eqs.6 和 7中所述的两步模型更新策略。在第一步中,模型使用相对于模型参数的误差梯度进行更新,同时使用 B ( ∙ ) 将 z的值阈值化为0或1。请注意,由于 B ( ∙ ),无法计算 z的梯度。因此,在第二步中,模型使用伪梯度进行更新,即,反向传播忽略投影函数,并使用sigmoid函数近似梯度。这种方法在修剪和二值化文献中非常常见(例如[17,21]),我们发现它在M ETADOCK框架中的效果很好,因为权重直接在离散掩码上进行优化,完全消除了单独的重新训练阶段的需要。We discuss here various experiments conducted in thispaper to demonstrate the efficacy of METADOCK. Firstwe conduct an experiment to analyze how our two-steppruning strategy performs compared to the classical con-tinuous pruning for meta-learning. In another set of ex-periments, we perform a comparative study between task-specific pruning as well as global pruning. It is of interest toanalyze whether the few inner update steps are sufficient toperform task-specific pruning, and if yes, we study whetherthe resultant models perform well or not. We propose a met-ric to measure the extent of overfit in meta-learning and con-duct experiments to analyze whether the models obtainedfrom METADOCK generalize better than their unprunedcounterparts.We study the performance of METADOCK on standard4-conv models trained on mini-ImageNet [28] and CIFAR-fs [1] datasets for several different choices of pruning bud-get. For the meta-validation tasks, we sample 600 tasks ran-domly from the meta-validation split. In contrast to the ex-15for j = 1, 2, ...Ninner do6ζb ← B(ζ)7ˆy ← Forward(x, ϕ, ζb)8L1 ← MetaLoss(y, ˆy1, λ1, λ2, ϕ, θ, ζ, z)9L2 ← L1 + λ3Bud.Loss(ζb, V0) + λ4∥ζ∥10∇ϕ ← Backward(L1)11∇ζ ← PseudoBackward(L2, ζ)12(ϕ, ζ)OptimizeStep(ϕ,ζ, β)14ˆ∇G(θ) = (1/B) �Bi=1 gi15ˆ∇H(z) = (1/B) �Bi=1 hi16θ ← θ − η ˆ∇G(θ), z ← z − η ˆ∇H(z)1798550图3. M ETA D OCK 管道的示意图0我们在本文中进行了各种实验,以展示 M ETA DOCK的有效性。首先,我们进行了一项实验,分析我们的两步修剪策略与经典的连续修剪在元学习中的表现相比如何。在另一组实验中,我们进行了任务特定修剪和全局修剪的比较研究。我们有兴趣分析少量内部更新步骤是否足以进行任务特定的修剪,如果是,我们研究修剪后的模型是否表现良好。我们提出了一种度量元学习中过拟合程度的方法,并进行实验分析 M ETA DOCK获得的模型是否比其未修剪的对应模型更好地泛化。我们研究了在 mini-ImageNet [28] 和 CIFAR- fs [1]数据集上训练的标准4-conv模型在多种修剪预算选择下 META DOCK的性能。对于元验证任务,我们从元验证集中随机抽取了600个任务。与之相反的是,实验中的每个函数的详细信息可以在补充材料中找到。04. 实验0算法1:iMAML的M ETA DOCK0输入:任务分布:P(T),预训练模型参数:θ0,预算:V0,元迭代次数:Nouter,元批量大小:B,内部迭代次数:N inner,标量:λ1,λ2,λ3,λ40输出:参数:θ�,掩码:z�0初始化:模型权重:θ = θ0,内核掩码:z∈ U(0, 0.01)02 从任务中随机抽取小批量 {T i } B i =1 � P(T)04 ϕ = θ,ζ = z013 计算 ϕ 的任务元梯度:g i,ζ:h i0对于现有方法,我们从元测试集中选择所有可能的类别组合,生成大量的元测试任务。对于完整的元测试集中的 C类,我们为 N-way 设置生成的元测试任务的总数是 C CN。这相当于 CIFAR-fs 和 mini-ImageNet 的 15504个测试任务(C = 20,N =5)。我们在每进行1000个元训练步骤后评估元验证任务,并根据最佳平均元验证准确率保存模型。最后,我们在所有生成的元测试任务上评估此保存的模型。这种策略比仅报告元验证准确率更加稳健,后者往往由于重复评估而过拟合。98560预算 方法 验证准确率(%) 测试准确率(%)025.0 连续修剪 67.49 ± 1.00 67.78 ± 0.19 25.2 M ETADOCK 69.65 ± 0.94 69.30 ± 0.19012.5 连续修剪 64.40 ± 1.01 64.87 ± 0.20 13.0 M ETADOCK 70.69 ± 0.97 70.15 ± 0.190表1. 在不同预算下,CIFAR-fs数据集5-way5-shot设置的连续修剪和离散两步(M ETADOCK)修剪的性能得分。0在训练过程中。我们在所有修剪实验中将λ3(预算权重)设置为50,将λ4(l1权重)设置为10^-6。请注意,对于涉及非常低预算的极端修剪情况,应选择较大的 λ3值以满足目标预算,但我们优先考虑性能而不是严格满足预算,因此在所有预算中选择了固定的 λ3值。最后,根据[22]的原始报告,将 λ1 设置为0.5。由于λ2 具有与 λ1类似的正则化效果,但作用于掩码上,因此我们也将其设置为0.5。我们在50%,25%,12.5%和6.25%的目标预算下展示实验结果。最后,我们在修剪阶段使用与[22]的预训练阶段相同的优化超参数。04.1. 元学习的最佳修剪策略0连续与两步模型更新方案。通常,大多数修剪方法采用连续修剪方案。这涉及将软掩码作为模型训练过程的一部分进行学习。与使用0和1的离散值来表示掩码不同,连续方案将其优化为[0,1]之间的值,并在目标函数上增加额外的惩罚,将最终的掩码推向0(非活跃内核)和1(活跃内核)。如前所述,METADOCK采用了两步离散修剪方案,在这个实验中,我们将其性能与经典的连续修剪方法进行比较。对于连续方案,我们遵循类似于[16]的方法,引入内核掩码以在预训练的元模型中引入稀疏性。目标是根据引入的掩码值对内核进行排名,以其对最终性能的影响。该模型与常规的元学习损失函数一起进行联合训练,结合了对掩码的ℓ1范数正则化,使用与预训练阶段相同的训练超参数。完成修剪后,根据目标预算,消除掩码值较低的内核,并提取压缩的元模型结构。最后,使用与预训练阶段相同的策略对这个压缩的元模型进行重新训练,以便权重从修剪阶段的连续掩码调整到最终结构中的二进制/不存在掩码。需要注意的一点是,使用此策略修剪的模型具有较小的大小,但是它是任务独立的,即在所有任务中使用相同的元模型。与我们的两步离散修剪策略相比,这是一个重要的区别。0预算 方法 验证精度(%) 测试精度(%)013.9 全局 69.95 ± 0.98 69.98 ± 0.19 13.0 任务特定70.69 ± 0.97 70.15 ± 0.1907.8 全局 69.96 ± 0.98 69.92 ± 0.19 7.2 任务特定70.49 ± 0.99 70.21 ± 0.190表2. 在不同预算下,CIFAR-fs 5-way5-shot设置的全局和任务特定剪枝的性能0例如,权重优化在二进制掩码上发生在单个阶段,连续剪枝需要额外的微调阶段,以使压缩的元模型从剪枝阶段的连续掩码适应最终模型中的离散/不存在的掩码,从而增加了总的剪枝时间。连续方案和我们在CIFAR-fs、5-way、5-shot上的方法的结果如表1所示。可以清楚地看到,我们的剪枝方法在25%和12.5%的预算下都优于连续剪枝基线。在极端预算(12.5%)下,我们的方法显著提高了性能。这清楚地表明,M ETADOCK中采用的具有离散投影的两步策略是元学习中剪枝的更稳定和更好的方法。全局剪枝与任务特定剪枝。我们进一步分析我们的任务特定剪枝是否增加了模型整体性能和效率的价值。为此,我们将我们的方法与全局剪枝进行比较,其中只在元模型级别进行剪枝。任务特定剪枝允许每个任务调整模型权重以及掩码值,从而相应地改变架构。然而,全局剪枝冻结了压缩的元模型,并且只允许权重按任务适应。在CIFAR-FS、5-way5-shot上的全局和任务特定剪枝的结果如表2所示。任务特定剪枝在12.5%和6.25%的预算下优于全局剪枝,同时实现了更大程度的压缩。这证实了基于任务难度,模型应该能够在给定范围内自我压缩或扩展的事实。这进一步激励我们在所有进一步的实验中采用任务特定剪枝。04.2. 学习任务特定的压缩元模型0我们在这里讨论使用M ETA DOCK在CIFAR-fs 5-way1-shot和5-way5-shot设置上对标准的具有64个和128个通道的4-Conv模型进行的任务特定剪枝的结果。相关结果在表3、4、5和6中呈现。这里,元预算表示在元模型中保留的核的比例,任务预算指的是任务特定模型中剩余的比例。总体上,我们看到修剪后的元模型的性能是01 iMAML [ 22 ] 数字作为基准使用官方实现https://github.com/aravindr93/imaml_deviMAML [22]68.97 ± 0.9468.08 ± 0.1915.554.350.269.45 ± 0.9668.62 ± 0.1918.228.025.269.65 ± 0.9469.30 ± 0.1914.113.913.070.69 ± 0.9770.15 ± 0.199.77.87.270.49 ± 0.9970.21 ± 0.196.14.84.168.85 ± 0.9767.88 ± 0.193.9iMAML [22]56.50 ± 1.9855.23 ± 0.3835.453.050.458.27 ± 1.9155.46 ± 0.3830.726.325.758.40 ± 1.8956.04 ± 0.3824.413.913.757.27 ± 1.8555.38 ± 0.3820.57.47.357.20 ± 1.9155.72 ± 0.3815.54.24.156.82 ± 1.9553.27 ± 0.3813.1iMAML [22]67.90 ± 0.9867.25 ± 0.206.053.050.269.51 ± 0.9469.17 ± 0.198.626.925.269.91 ± 0.9669.75 ± 0.194.814.112.868.35 ± 0.9767.92 ± 0.193.67.26.866.66 ± 0.9866.53 ± 0.192.9iMAML [22]55.97 ± 1.9554.10 ± 0.3824.750.750.056.30 ± 2.0254.55 ± 0.3822.325.725.257.33 ± 1.9155.28 ± 0.3814.713.112.856.40 ± 1.9754.02 ± 0.3811.37.77.655.37 ± 1.9252.37 ± 0.389.598570预算(%) 精度(%) ↑ 过拟合度(MO) ↓ 元任务 验证 测试0表3. 在不同预算下,具有128个通道的4-Conv模型在CIFAR-fs上以5-way5-Shot设置的性能。0预算(%) 精度(%) ↑ MO ↓ 元任务 验证 测试0表4. 在不同预算下,具有128个通道的4-Conv模型在CIFAR-fs上以5-way1-Shot设置的性能。0预算(%) 精度(%) ↑ MO ↓ 元任务 验证 测试0表5. 在不同预算下,使用64通道的4-Conv模型在CIFAR-fs上进行5-way5-Shot设置的性能。0预算(%) 准确率(%) ↑ MO ↓ 元任务 验证 测试0表6. 在不同预算下,使用64通道的4-Conv模型在CIFAR-fs上进行5-way1-Shot设置的性能。0剪枝模型的准确率比未剪枝模型高,并且对于128通道的5-way5-shot设置,这种增益最大(表3)。对于这种情况,剪枝在验证集和测试集上都有很大的改进,最佳性能在约7%的预算下实现,将性能提高了约2%。类似地,在128通道的5-way1-shot设置中(表4),在25%的预算下进行剪枝将基础性能提高了约1%。0为了分析M ETA DOCK在其他数据集上的泛化能力,我们还在表7、8、9和10中报告了mini-ImageNet的结果。我们观察到,对于这个数据集,剪枝模型始终优于基线模型,除了非常低的预算(低于10%)下,观察到轻微的性能下降。与CIFAR-fs类似,对于这个数据集,准确率提高了最多2%。显然,使用M ETA -DOCK,可以学习到在元学习中性能优于基线模型的压缩模型。0有趣的观察是,在两个数据集上,对较大模型进行任务特定的剪枝比仅使用相同大小的未剪枝模型更有益。直观上,这似乎是正确的,因为剪枝模型与未剪枝模型相比,具有更优化的卷积核分布。例如,我们观察到,在这两个数据集上,当使用128通道进行训练并剪枝25%预算时,4-conv模型的准确率高于由64通道组成的预训练4-conv模型 -这两个模型具有相同的大小。前者在CIFAR- fs 5-way1-shot上获得了平均元测试准确率为70.15%(表3),而后者得分为67.25%,因此性能提高了2.9%的绝对幅度。类似地,对于0图4. 使用M ETA D OCK对128通道的4-Conv进行剪枝的准确率与参数的关系。0图5. 使用M ETA D OCK对128通道的4-Conv进行剪枝的准确率与FLOPs的关系。0mini-ImageNet数据集的准确率提高了约2.2%(表7和9)。在不同数据集和不同模型设置中,也可以观察到类似的趋势。这表明,将大型网络剪枝以获得任务特定的模型比使用相似大小的预训练模型更好。iMAML [22]61.55 ± 0.9163.39 ± 0.1817.657.450.363.19 ± 0.9163.54 ± 0.1818.832.225.363.65 ± 0.9264.34 ± 0.1813.115.912.863.62 ± 0.9464.05 ± 0.1811.48.26.863.32 ± 0.9163.81 ± 0.188.9iMAML [22]46.90 ± 1.7745.55 ± 0.3621.357.850.547.07 ± 1.8445.72 ± 0.3623.428.626.047.17 ± 1.8945.90 ± 0.3620.212.912.847.10 ± 1.9345.97 ± 0.3617.37.17.046.81 ± 1.9045.55 ± 0.3617.0iMAML [22]60.58 ± 0.9462.13 ± 0.1812.456.250.263.30 ± 0.9363.5 ± 0.1813.230.025.263.29 ± 0.9363.4 ± 0.1911.215.112.862.90 ± 0.9662.72 ± 0.189.68.26.461.34 ± 0.9261.23 ± 0.187.4iMAML [22]45.20 ± 1.8844.58 ± 0.3623.160.250.446.20 ± 1.9244.88 ± 0.3621.326.625.545.72 ± 1.9344.92 ± 0.3620.513.012.745.27 ± 1.9144.87 ± 0.3614.86.86.644.83 ± 1.8244.67 ± 0.3612.2MO = Acctrain − AcctestAcctest× 100(9)98580预算(%) 准确率(%) ↑ MO ↓ 元任务 验证 测试0表7. 在不同预算下,使用128通道的4-Conv模型在mini-ImageNet上进行5-way5-Shot设置的性能。0预算(%) 准确率(%) ↑ MO ↓ 元任务 验证 测试0表8. 在不同预算下,使用128通道的4-Conv模型在mini-ImageNet上进行5-way1-Shot设置的性能。0预算(%) 准确率(%) ↑ MO ↓ 元任务 验证 测试0表9.在不同预算下,使用64通道的4-Conv模型在mini-ImageNet上进行5-way 5-Shot设置的性能。0预算(%) 准确率(%) ↑ MO ↓ Meta Task 验证测试0表10.在不同预算下,使用64通道的4-Conv模型在mini-ImageNet上进行5
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功