可扩展神经权重搜索实现任务增量学习和控制内存增长

19 浏览量更新于2023-10-15 收藏 747KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1390可扩展任务增量学习的神经权重搜索Jian Jiang和Oya Celiktutan英国伦敦国王学院工程系{jian.jiang，oya.celiktutan}@ kcl.ac.uk摘要任务增量学习旨在使系统在学习新任务的同时保持其在先前学习的任务上的性能，一种有前途的方法是为未来的任务建立一个单独的网络或子网络。然而，由于为新任务节省额外的权重，这导致了不断增长的内存，如何解决这个问题仍然是任务增量学习中的一个悬而未决的问题。在本文中，我们介绍了一种新的神经权重搜索技术，该技术设计了一个固定的搜索空间，可以搜索冻结权重的最佳组合，以端到端的方式为新任务构建新模型，从而实现可扩展和可控的内存增长。在两个基准上进行了广泛的实验，Split-CIFAR-100和CUB-to-Sketches的实验结果表明，我们的方法在平均推理精度和总内存开销方面都达到了最先进的性能。11. 介绍过去十年已经证明了深度学习方法的强大功能，在许多机器视觉任务中实现了卓越的性能。然而，机器人的现代机器学习算法假设所有数据在训练阶段都可用。另一方面，现实世界是高度多样的、动态的和不可预测的。收集足够多的数据来代表现实世界的所有方面是不可行的。因此，机器人必须不断地从与现实世界的互动中学习。受此启发，增量学习（也称为终身学习和持续学习）是一个新兴的研究领域，旨在设计能够通过从无限数据流中学习逐渐扩展其所获得知识的系统[7，10，14，16，26，36]。增量学习仍然是一个具有挑战性的开放式问题，1实现：https://github.com/JianJiangKCL/NeuralWeightSearch图1：设想任务增量学习在现实世界人机交互设置中的一个实际应用。为了使这样的实际应用，本文的目的是解决内存增长的问题。LEM是因为它要求旧任务的性能损失最小，模型存储的增加最小。换句话说，模型应该能够有效地适应新的任务，同时不会在先前学习的任务上表现得明显不足，这被称为灾难性遗忘问题。有一个重要的机构的工作增量学习[1，23]。这些方法可以根据学习场景分为两大类，即类增量学习（CIL）和任务增量学习（TIL）。通常，CIL方法建立在需要顺序学习一系列任务的单个网络模型上。一个优点是，它们在推理过程中不需要任务id，这与TIL方法不同。然而，单一的共享模型将不可避免地导致先前学习的任务的性能下降此外，现有技术的CIL方法，即基于重放的方法[16，17]，需要额外的存储器来保存每个任务的样本典型地，一个任务具有5个类，并且每个类保存20个图像，这将导致随着任务数量变得更大的存储器的显著增加。另一方面，TIL方法为每个新任务学习一个单独的模型，本质上解决了for-1391得到。一个缺点是在推理期间需要任务ID。解决方案如图1所示，其中机器人可以交互式地询问其用户以确定训练和推理中的然而，由于节省了额外的权重，为新任务构建单独的网络或子网络会导致不断增长的内存，并且如何解决这个问题是TIL研究的核心空间限制。由于其相关的人机交互，在本文中，我们专注于任务的增量学习设置，以减轻记忆增长的问题，机器人遇到新的任务顺序的目标。为此，一系列研究集中在通过创建新模型或子网络来动态扩展任务增量学习在这些方法中，渐进神经网络（PNN）[29]冻结了以前学习的模型，并不断为新任务添加新模型。PNN的一个缺点是，随着任务数量的增加，它会导致参数的大幅增长最近的工作[19，20，35]集中在学习特定于任务的内核掩码，以将骨干模型转移和PiggyBack [19]旨在学习新任务的二进制元素内核掩码。然而，这种方法有两个主要限制。首先，二进制值可能会限制表示能力。二是固定的骨干妨碍了新任务的学习PackNet[20]旨在通过释放一些先前任务未使用的现有权重来解决这个问题，用于学习新任务。然而，PackNet的主干模型也可能耗尽可学习的权重，最终可能成为“固定”的为了解决这个问题，压缩，挑选和增长（CPG）[8]，增长和修剪PiggyBack的主干用于增量学习，然而，这具有潮汐迭代训练过程，并且可能导致保存模型所需的存储量显着增加总的来说，可扩展的任务增量学习仍然是一个开放的问题，特别是，如何利用以前学到的知识，新的任务和增长的模型在一个可控的方式。这项工作通过利用一种称为神经权重搜索（NWS）的可扩展技术来解决这个开放性问题与使用主干模型的现有方法[19，20，35]不同，NWS丢弃主干，但保留分组权重的冻结逐层池。对于每个新任务，它通过搜索池中分组权重的最佳组合来构建新模型该搜索是在一组临时内核权重的帮助下有效进行的，这些临时内核权重不用于处理输入，并且是离散的。培训结束后，图2说明了我们提出的方法的工作流程。综上所述，我们的主要贡献如下：（i）我们提出了一种新的问题设置，称为神经权重搜索（NWS）。类似于神经结构搜索（NAS），NWS自动搜索预训练的权重来构建网络。(ii)无骨架设计是任务增量学习的一种新方法。与传统的内核掩码为基础的方法，其中的骨干模型是固定的或部分固定的，我们的方法丢弃的骨干，但mains- tains内核权重逐层池，允许更多的代表能力。(iii)NWS在构建模型时可以重用权重，并实现可扩展性能。与最先进的方法[35]相比，我们的内存增益可达82%（包括保存池所需的内存），平均精度可提高1。在两个现有基准上的9%2. 相关工作有大量关于增量学习的工作[11，36]），建筑-基于（例如，[8，19，20，24，25，35]）和基于重放（例如，【3、9、10、15、17、18、27]）。我们提出的方法是在两个类别，即基于正则化，和基于架构的方法的交叉。如前所述，增量学习中有两种广泛使用的设置，即类增量学习（CIL）[3，9，10，15，17，18，任务增量学习（task incremental learning，TIL）[8，19，20，35]。在这项工作中，我们专注于任务增量学习设置。TIL方法通常是基于架构的方法（也称为参数隔离方法）。这些方法学习个体模型或部分原始模型（例如，共享的低级层和单独的高级层）。总的来说，这些方法在保存新模型时遭受存储器的不可控制的增长。例如，Rusuet al.提出了渐进神经网络（PNN）[29]，通过为每个任务生成新网络来不断扩展网络，同时修复先前学习的网络，这导致参数不受控制地增长，因此可扩展性较差。最近的方法，如Piggyback [19]，PackNet [20]，CPG[8]和KSM [35]，旨在通过引入具有单个主干模型的可学习掩码来缓解这个问题。新模型的权重通过将掩码与骨干模型中的相应权重相乘来生成。PiggyBack [19]修复了骨干网络，并学习了内核的二进制元素掩码。首先，生成实值掩码，其具有与内核相同的大小。然后，应用预定义阈值以获得二进制掩码。这样的掩码，即1392043111前向传播无差别更换通过内核池进行选择STE梯度到临时内核临时内核的梯度分层神经权搜索层的预训练池旧任务（CUB）新任务（花）权重层1固定分组权重（冻结）层的差异损耗指数C重量搜索查找权重第2临时权重W搜索权重K交叉熵损失for aLayer层（可培训）权重层L旧模式新模式前向传播无差别更换通过内核池进行选择STE梯度到临时内核临时内核的梯度01234LL联系我们∈340111图2：神经权重搜索算法的图示在训练和推理中，仅使用搜索到的核临时核权重可以被视为用于构建神经网络模型的支架，其可以在训练后被丢弃。任务受到固定骨干模型的约束。基于PiggyBack构建的Pack- Net [20]使用一种策略来修剪旧任务未使用的权重，从而释放这些参数以用于学习未来的任务。然而，Pack-Net并没有添加更多的内核，当没有更多的参数需要释放时，它就会达到瓶颈。增量学习的能力与PiggyBack相同，当它用完了可学习的权重时。因此，PackNet推进了PiggyBack，但从长远来看，它仍然无法扩展。受上述方法的启发，CPG [8]采用了Piggyback的结构，但它通过迭代地为新的coming任务引入更多的内核并修剪学习的模型来实现网络的自适应迭代扩展和修剪操作继续，直到模型达到任务的预定义推理性能。例如，预定义性能可以被定义为针对对应任务单独微调的一组基线模型的推断准确度。然而，CPG有两个主要的限制。首先，关于基线性能的先验知识通常是事先不可用的.其次，它有一个繁琐而苛刻的迭代训练过程。最近一种称为KSM [35]的方法使用与Piggyback相同的设置，但使用结合二进制和实数值的软内核掩码，而不是使用二进制元素内核掩码。与Piggyback相比，软内核掩码增强了增量学习能力，ity，允许内核使用更丰富的表示来适应不同的任务。KSM 在 Split-CIFAR-100 [13] 基准测试和 CUB-to-Sketches基准测试[2，5，12，22，30，34]中达到了最先进的性能。然而，KSM也依赖于一个固定的骨干模型，这限制了表示的学习。与前面提到的基于内核掩码的方法不同，其中骨干模型是固定的或部分固定的，我们的方法放弃了骨干的使用我们保持冻结的预训练内核权重，这些权重以逐层池的形式保存，并且这些权重可以有效地以各种组合和排序重用于不同的任务，从而最大限度地提高可塑性并显着减少内存增长。3. 问题定义3.1. 任务增量学习（TIL）在一般的TIL设置中，存在T个增量阶段，其中第t个阶段引入具有训练数据xt和标签yt的新的vt-路分类任务，其中yt0，1，2，... vt1.对于每个任务，我们的目标是学习一个由可学习权重θ t参数化的个体模型ft，目标为arg minθt（ft（xt），yt），其中是分类损失。在推理过程中，每个任务特定的模型ft在相应的测试数据集上进行评估x检验和y检验。t t1393×*d在在L×----联系我们∈−∈∈3.2. 神经权重搜索为了解决现有方法的局限性（见第2节），我们定义了一个新的问题设置命名为神经权重搜索（NWS）的TIL。NWS不依赖于固定或部分固定的骨干网，也不为每个新任务学习掩码，而是通过从固定和部分固定的骨干网中搜索权重的最佳组合来构建新模型。第4.1节）和搜索空间的设计（第4.2节）。4.1. NWS算法如3.2节所述，我们将权重分组，使得每个组代表一个卷积核。我们将卷积核定义为浮点域中的k k矩阵。为了构建卷积层l，我们在逐层池中搜索内核的最佳组合在大规模图像数据集上预训练的存储权重这些权重可以被重用（而不更新Kl∈Rdl×k ×k，其中dl=dll输出 dll输出是权值）用于任何即将到来的新任务。将每个权重标量视为要搜索的元素将导致显著大的搜索空间。在实践中，我们搜索分组的权重，并且一组权重可以是卷积核、滤波器甚至层。简单地说，我们首先设计一个固定的搜索空间的索引分组神经权重。然后，我们在搜索空间中搜索分组权重的最佳组合，以构建新任务的新模型，其中相同的分组权重可以在同一任务内以及跨不同任务共享。如图2所示，对于每个层l，我们保持nl个索引的权重组的搜索空间，Ml=m1，m2，.， mnl，其在我们的公式中被称为“逐层池”或简称为“池”。让需要学习该层的d1组权重，由W1= w1，w2，...，WDL.NWS 通过搜索权重 K1=k1 ， k2 ，.，其中kiMl.注意，不同层的搜索过程与目标arg mincomb（fK（x），y）同时进行。因为新模型是用索引分组权重形成的，如果存在NWS是一个多模型的组合，它可以节省组合索引和搜索空间，从而大大降低分类成本。在本文中，我们以卷积核的形式对权重进行分组，例如，对于大小为3 ×3的卷积核，将9个权重值分组在一起。我们已经证明了我们的方法与不同的卷积网络架构的有效性。据我们所知，本文介绍的神经权重搜索NWS与混合整数线性规划中的“核搜索”和SVM等核方法中的“核搜索优化 ” 完全不同。 NWS 类似于神经架构搜索（NAS）。NAS预先设计了模型构件的搜索空间，通过对构件组合的评价，得到最优的模型结构。NWS为神经权重设计了一个搜索空间，并自动搜索权重的最佳组合以构建网络。4. 该方法我们提出的方法有两个主要组成部分，即神经权重搜索（NWS）算法（秒-输入通道和输出通道的数量，活泼地在预训练阶段学习并固定一个逐层池MlRnl×k×k，其中nl是池中的内核数量（见4.2节）。池中的核由范围从0到nl1的非负整数索引，因此池Ml是可以通过给出索引返回对应核的查找表由于池中的内核被索引，因此可以将KlC1（其值是非负整数）、C1Nd1和C1可以通过在M1中进行查找操作而容易地映射到浮点域K1。请参见图2。搜索逐层池的一种直接方法是使用基于分类性能的蛮力搜索然而，每层，要搜索的内核的可能组合的数量是（n-1）d-1 ，并且d-1是给定模型的常数因此，尝试每一个可能的组合使用蛮力搜索，因为搜索空间是非常大的。因此，我们引入了一种高效的端到端搜索算法，用于找到用于组成层的内核的最佳组合我们利用一个辅助组件，它是一系列可学习的临时内核权重WlRdl×k ×k与Kl的大小相同。 A层需要被填充有从池中选择的内核，并且W1可以被认为是占位符。每个临时核都被池中基于相似性度量（如L2距离）的核替换。从池形成模型，并用于处理输入，导致分类损失然后通过分类损失和相似性度量损失来更新临时内核。我们在多次迭代中重复这个过程以更新临时内核，使得在给定新任务的情况下可以从池中找到最优的Kl集合可以使用从先前任务的内核索引映射的权重来初始化最后，我们同时搜索模型中每层内核的最佳组合池。所形成的层然后在前向传播中处理输入。然而，在反向传播中，由分类损失引起的K1的梯度被用于更新临时核权重W1，并且池中的核权重保持固定。如等式1.搜索核的权值是最近邻搜索问题，其中k和w是选择的核和临时核，，d13942345678910获取特定于任务的数据xt，yt对于层l=l;l=L，Wt← D（Ct−1;M）K，diff ←NWS（LLW;M）LLt t不L差异差异如果l=1，则← L+diffLto←f（Lx;K）L不不不其o←f（Lto;K）l−1L不不1112L ←minL（o，y）L tceWttWt←UPDATE（Wt;Lce，Ldiff）更新基于Eq. 21314Kt← D（Ct;M）在推理过程中，映射Ct← E（Wt;M）-保存模型作为指标通过在池中15执行推理（xt;Kt）ΣED2L2分别为：ki=NWS（w;M），其中i= argmin<$w−ki<$. （一）算法1：任务增量学习，神经权重搜索i2要求：由于NWS是一种非差分操作，因此将所选内核的梯度传递到临时内核并不简单，因此我们使用直通估计（STE）来实现此目的。损失可以定义为：V预训练模型的C0核指数M个预训练池NWS神经权重搜索函数，将临时内核作为输入通过池将输入内核编码为相应的非负整数的嵌入函数LNWS（x，y，W，M））= −δJy=j logg（pj（x））通过池（查找表）返回给定索引的相应内核的查询操作对于任务t=1;t=N，为1+sg[NWS（W;M）]−W2，（二）其中Eq.2是softmax交叉熵损失，δy=j 是指示函数，并且pj（x）表示预测值第j个类（总共V个类）的tion logits在Eq中的第二项2是相似性损失（在实践中使用均方误差停止梯度，sg[. ]，是一个防止梯度传播到其参数的操作如图2所示，上述两种损失的梯度分别为：门回到临时内核：（1）相似损失的直接梯度;分类损失的间接STE梯度。有几点需要注意。对于每一层，我们使用一个单独的池。我们的调查表明，所有层的单个共享池的性能不如逐层池。因为在训练或推理过程中，临时内核不直接用于前向传播，所以它们从不存储，并且可以在模型构建后丢弃。整个训练和推理过程在算法1中给出。4.2. 搜索空间可以有许多方法来设计逐层搜索空间（池）。一种直接的方法是预训练模型并使用所有内核权重作为搜索空间。然而，在这种情况下，由于该搜索空间的大小与层的输入和输出通道的数量成比例，因此大的数量可能带来显著的搜索成本。为了解决这个问题，我们提出了一种新的知识存储策略，可以从网络中存储一个紧凑的搜索空间与预定义的池大小。构建池可以通过最小化以下损失函数来实现：minLKP（x，y，W，M）=minLNWS+βminLWD，（3）由方程式3，第一项优化临时权重以找到池中的核权重的最佳选择第二项，即，权重蒸馏损失允许更新来自池的所选内核权重（在该阶段中可训练的），使它们更接近对应的临时权重。系数β用于控制更新池的速度。逐层池（权重嵌入空间）的构造类似于VQ-VAE[33]中讨论的特征嵌入空间在像ImageNet [28]这样的大规模数据集中同时进行预训练和训练，以确保泛化。一旦预训练完成，对于每一层，池中的由此产生的池可以用于构建W、MW M新模型和学习新任务，如第二节所述其中，NWS是用于更新第4.1节中使用的临时内核的权重搜索损失。我们将重量蒸馏（WD）损失定义如下：第4.1节。4.3. 实现细节我们 NWS 算法是一模型不可知学习LWD=sg[W] −NWS（W; M）2。（四）1395方法，它是通过简单地替换1396×××−不i=1卷积层（包括捷径层）与NWS结合的卷积层。一个加入了NWS的卷积层有临时内核（在搜索后被丢弃）和一个池。我们的研究表明，每个池的最佳核数是nl=512（详见附录3）。为了评估我们的方法，我们展示了不同架构的结果，包括 ResNet-18 、 ResNet-34 [6] 、MobileNetV 2 [31]和VGG [32]。例如，对于ResNet-18[6]，我们将最后一个全连接层替换为卷积层（内核大小为11）。剩余层的内核大小（k k）基于ResNet-18的默认参数设置。方程中的总损失函数。3用于通过预训练模型（如ResNet）来构建逐层池。18在大规模图像数据集上，即，ImageNet [28]，我们随机初始化池中的内核以及临时内核。然后，在增量学习期间，新模型的层与NWS损失同时构建2)以端到端的方式。5. 实验5.1. 基准根据以前的工作[20，35]，我们在两个现有的TIL基准上评估我们提出的方法：拆分- CIFAR-100和CUB到草图。Split-CIFAR-100基准测试包含20个任务，其中每个任务都是5路分类任务，图像大小为32 32。拆分是以一种任务中的5个类具有相同超类的方式完成的[13]。CUB-to-Sketches基准包含5个数据集，每个数据集都被视为一个任务，包括CUB-200 [34]，Cars-196[12]，Flowers-102 [22]，WikiArt-195 [30]和Sketches-250 [5]。例如，在这里，CUB-200表示CUB数据集有200个类，以此类推，对于这些类，数据集，图像大小调整为224 ×224。5.2. 评估指标我们报告的任务明智的准确性，评估每个任务，分别与相应的任务明智的模型。我们还使用所有任务的平均准确度，其定义为：（2）KSM[35]。它修复了预训练的骨干模型，并为每个任务学习软内核掩码。 (3)[20]第二十话它学习每个二进制内核掩码，任务并更新预训练模型。每次任务后它释放了一个固定比例的模型权重，并且只有释放的权重可用于下一个任务。(4)AQD[4]。它在为每个任务单独以元素方式微调预训练模型时量化权重和特征。5.4.实验装置为了公平比较，我们使用相同的骨干模型架构（即，ResNet-18 [6]）以及基线和我们的方法的相同公共对于特定于方法的超参数，默认值是在它们的原始实现中选择的（参见App.1）。5详情）。我们用3种不同的种子进行每个实验，并报告平均结果。训练前。对于所有基线，我们使用了在ImageNet [28]（来自Pytorch模型动物园）上预训练的初始ResNet-18。对于NWS，我们在ImageNet上预训练了160个epoch。每个逐层池具有512个内核。两个内核都在池和临时内核是在预训练。为了学习任务t，我们的方法通过查找实值内核的索引来初始化来自先前任务t1超参数。在[8，35]之后，所有模型都使用随机梯度下降（SGD）优化器进行训练，0。9动量和1e−5重量在100个历元内衰减。在Split-CIFAR-100的情况下，初始学习率设置为0。01. 在CUB到草图的情况下，初始学习率设置为0。001。在50个时期和80个时期之后，学习率除以10。对于NWS，我们empiri-cally将β设置为0。5（0。1）在Eq？3用于Split-CIFAR-100（CUB到草图）。我们报告进一步的结果进行了dif-应用程序中的超参数。3.第三章。表1：在Split-CIFAR-100上，就平均分类准确度和总内存成本而言，比较了第5.3节中描述的方法A=1μTAi，其中T是任务总数。以下 [8，20，35]报告总内存成本，包括骨干模型和引入的掩码以及用于基线的每个任务的批量规格化的统计（均值和方差），或者包括共享的逐层内核池和单独的内核索引以及用于我们的方法的每个任务的批量规格化的统计。5.3. 基线我们将我们的算法与以下基线方法进行比较：（1）Finetune。它分别为每个任务微调预训练模型。它理论上提供了准确性的上限和不可控制的内存增长。方法平均访问（%）内存（MB）Finetune71.3892.0KSM [35]71.5192.5[20]第二十话67.155.2AQD [4]69.952.7我们73.433.95.5. 实验结果在准确性方面，图3比较了Split-CIFAR-100上的任务推理准确性，其中我们的方法1397908070605040301 234 5 6 789 10111213141516171819 20任务图3：在Split-CIFAR-100上比较第5.3节中描述的方法在任务方面的准确性（a）分层内核利用率1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21层(b)图层稀疏度1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21层1.00.80.60.40.2图4：热图可视化（a）逐层内核利用率，以及（b）在CUB-to- Sketches基准测试中获得的层稀疏度（分别表示为任务1到任务5）。表2：在CUB-to-Sketches基准上，比较第5.3节中描述的方法在任务方面的准确性方法任务准确率（%）任务1任务2任务3任务4任务5内存（MB）FinetuneKSM [35][20]第二十话AQD [4]在 20 个任务中的 8 个任务中优于所有方法，包括Finetune。PackNet从任务2到任务4的表现与KSM相似;但对于后面的任务，它的表现比其他基线差，支持可学习权重在某个点后用完的现象AQD的表现略差于KSM和Finetune;因为网络量化技术限制了对丰富表示的学习。查看表1，我们的方法优于KSM，幅度为1。9%，平均准确率。CUB到草图的进一步结果见表2。PackNet的结果比KSM稍好，除了WikiArt。这可能是因为，CUB-to-Sketches 中的任务数量比 Split-CIFAR-100小得多（5比20）。AQD的表现比他人我们推测，这是因为 CUB-to-Sketches 与 Split-CIFAR- 100 相比具有更高的分辨率图像（2242vs.322）。不包括内存不友好的Finetune，总的来说，我们的方法达到了最好的平均值精度它比其他任务，汽车和WikiArt的方法表现更好，并且与CUB的最佳表现基线（-1）相当。4%），花卉（-0。5%）草图（-0。2%）。在内存方面，Split-CIFAR-100和CUB-to-Sketches都可以观察到类似的趋势。从表1和表2中可以看出，与Finetune、PackNet、KSM和AQD相比，我们的方法分别节省了96%、39%在Split-CIFAR-100基准上为82%，35%，在Split-CIFAR-100基准上为95%，82%，在CUB-to-Sketches基准测试中为87%，28%的Finetune KSM PackNet AQD我们的准确度（%）任务5432 1幼崽汽车花WikiArt草图Avg七十七点四八十四点一九十四点五七十四点二七十六点九八十一点四223.0六十五点九七十九点七93.566.2七十三点九七十五点八七十六点九七十八点四八十二点四九十七六十九点零七十五点三七十九点一56.01398√uΣ×u在推理期间的运行时间方面，除AQD之外的所有模型大致相同。由于查找操作，NWS可以将保存的模型的内核索引映射到模型的权重，时间可以忽略不计。综上所述，我们提出的方法在两个TIL基准测试中实现了具有竞争力的性能，并且与基线2相比，5.6. 不同的模型架构为了证明我们的方法可以推广，我们用另外3种不同的架构测试了NWS算法：Resnet-34 [6]、MobileNet-V2 [31]、VGG-16 [32]。我们在表3中将NWS合并模型与基线进行比较。基线分别为每个任务微调相应的预训练模型（在ImageNet上预训练）。请参阅App。4、培训前的准备和培训。结果表明，我们的NWS与现代深度神经网络兼容，并且加入NWS的网络可以提供大量的内存减少，并具有竞争性的推理精度。请注意，NWS-VGG 16 实现了更高的压缩率（ 97 。 NWS-MobileNetV2（81%）。这是因为1×1核在Mo中被广泛使用共21层（包括捷径层）。图4-（a）示出了层1和层8利用来自相应的逐层池的较少数量的唯一内核。对于层1（第一层），观察到非常低的利用率。较大的利用率表示池中的大多数内核第一层中的核捕获粗略的共同局部特征（例如，线、曲线和点），而随后层中的内核提取细粒度的特殊化全局特征（例如，耳朵、眼睛和头）。因此，我们推测，与第一层相比，后续层中的内核必须具有多样性（大KUR），以确保专业化。我们还研究了层稀疏性。直观地说，内核在一个层中被重用的次数越多，它就越重要。相比之下，选择几次的核不太重要;因此，将其权重值设置为零几乎不会影响性能，这可以用作网络稀疏化的手段。我们将unique索引的选择时间表示为h1，并且将自适应逐层阈值表示为d1，其中d1是构建自适应层所需的核的数量。层. 我们将层稀疏度公式化如下：LbileNetV2和从模型压缩的角度来看，11内核NWS仅将1个浮点值压缩为1整数值。LSl=huDlu=1S.T. hl<波尔德湖（五）表3：Split上不同架构的比较- CIFAR-100。方法平均访问（%）内存（MB）Finetune-Res3477.01,628.0Finetune-VGG1675.61,124.0Finetune-移动网络V275.7272.0NWS-Res3474.859.6NWS-VGG1674.828.0NWS-MobileNetV271.552.65.7. 选定内核在本节中，我们将进一步深入了解如何将内核用于不同的层。为此，我们引入了两个新的概念，即逐层核利用率和层稀疏度。我们将逐层内核利用率（ KUR ）定义为KUR=U1/n1，其中U1是层1的唯一选择的内核的数量，n1是池中的内核的数量（在我们的情况下为512我们在CUB-to-Sketches基准上计算KUR。ResNet-18具有[2]我们还与CPG [8]进行了比较。然而，我们的调查表明，如果ResNet-18被用作Split-CIFAR 100上的主干，CPG会对用于控制训练的预定义阈值敏感，并且往往会失败或增长太多，这导致该方法的性能不佳，因此出于公平性考虑将其排除在外。另一个热图用于可视化CUB-to-Sketches基准的逐层稀疏度如图4（b）所示任务4和5）。可能是以顺序方式学习任务（当前任务的临时内核用先前模型的重构内核指标初始化）并且稀疏性可能已经被继承。6. 结论在本文中，我们提出了一种新的方法称为神经权重搜索任务增量学习。我们的算法通过搜索保存在分层池中的分组权重来学习新模型，并以索引的形式保存学习的模型，这大大降低了内存成本。NWS是一种开箱即用的机制，可以很容易地与现代深度学习方法集成。我们的实验表明，NWS在Split-CIFAR-100和CUB-to-Sketches基准测试中的准确性和内存方面都达到了最先进的确认江健的工作得到了国王大学中国留学基金委员会（K-CSC）博士奖学金计划和NVIDIA学术硬件资助计划的支持Oya Celiktutan的工作得到了英国 EPSRC 资助的 LISI 项目的支持（资助编号：EP/V010875/1 ）。最后，这项工作得到了丰田汽车欧洲公司（TME）和丰田汽车公司（TMC）的部分支持。1399引用[1] Rahaf Aljundi神经网络中的持续学习。arXiv预印本arXiv：1910.02718，2019。[2] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年欧洲计算机视觉会议[3] Arslan Chaudhry，Marc有效的终身学习与创业板。在学习代表国际会议上，2019年。[4] Peng Chen，Jing Liu，Bohan Zhuang，Mingkui Tan，and Chunhua Shen. Aqd：实现精确的量化对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第104-113页，2021年。[5] Mathias Eitz，James Hays，and Marc Alexa.人类是如何描绘物体的？ACM Transactions on Graphics（TOG），31（4）：1[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[7] Saihui Hou ， Xinyu Pan ， Chen Change Loy ， ZileiWang，and Dahua Lin.通过重新平衡来增量地学习统一分类器。在IEEE/CVF计算机视觉和模式识别会议论文集，第831-839页[8] Ching-Yi Hung，Cheng-Hao Tu，Cheng-En Wu，Chien-Hung Chen，Yi-Ming Chan，and Chu-Song Chen.压实，采摘和成长，不忘不断学习。 Advances in NeuralInformation Processing Systems，32，2019。[9] David Isele和Akansel Cosgun。选择性的经验重新发挥终身学习.在AAAI人工智能会议论文集，第32卷，2018年。[10] Jian Jiang，Edoardo Cetin，Oya Celiktutan.增量学习与信息反馈离散表示重放。在IEEE/CVF计算机视觉和模式识别研讨会论文集，第3533-3542页[11] James Kirkpatrick、Razvan Pascanu、Neil Rabinowitz、Joel Veness 、 Guillaume Desjardins 、 Andrei A Rusu 、Kieran Milan、John Quan、Tiago Ramalho、AgnieszkaGrabska-Barwinska 、 DemisHassabis 、 ClaudiaClopath、Dharshan Ku- maran和Raia Hadsell。克服灾难性的 - 进入神经网络。美国国家科学院院刊， 114（13）：3521[12] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3d对象表示。第四届IEEE 3D表示和识别国际研讨会，澳大利亚悉尼，2013年。[13] Alex Krizhevsky等人从微小的图像中学习多层特征。2009年[14] 李志忠和Derek Hoiem。学而不忘。IEEE Transactionson Pattern Analysis and Machine Intelligence ， 40（12）：2935[15] 刘夏磊，吴辰申，米克尔门塔，路易斯Herranz，博格-丹Raducanu，安德鲁D Bagdanov，朱尚玲，和Joost范德魏杰。用于类的生成特征重放 - 增量学习。在IEEE/CVF计算机视觉和模式识别研讨会论文集，第226-227页[16] Yao Liu，Bernt Schiele，and Qianru Sun.用于类增量学习的自适应聚合网络。在IEEE/CVF计算机视觉和模式识别会议，第2卷，2021年。[17] Yao Liu，Yuting Su，An-An Liu，Bernt Schiele，andQianru Sun.记忆术训练：多类增量学习而不会忘记。在IEEE/CVF计算机视觉和模式识别会议论文集，第12245-12254页[18] David Lopez-Paz和Marc'Aurelio Ranzato。持续学习的梯度情景记忆神经信息处理系统进展，2017年12月，第6468-6477页，2017年[19] Arun Mallya，Dillon Davis，和Svetlana Lazebnik.背驮式：通过学习屏蔽权重，使单个网络适应多个任务。在欧洲计算机视觉会议（ECCV）的会议记录中，第67-82页[20] Arun Mallya和Svetlana Lazebnik。Packnet：通过迭代修剪将多个任务添加到单个网络。在IEEE计算机视觉和模式识别会议的论文集，第7765-7773页[21] Massimiliano Mancini，Hakan Karaoguz，Elisa Ricci，Patric Jensfelt，and Barbara Caputo.知识永远不够：走向网络辅助的深度开放世界认知。2019年国际机器人与自动化会议（ICRA），第9537-9543页[22] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。2008年12月在印度计算机视觉、图形和图像处理会议上[23] German I Parisi ， Ronald Kemker ， Jose L Part ，Christopher Kanan，and Stefan Wermter.使用神经网络进行持续终身学习：审查.[24] German I Parisi，Jun Tani，Cornelius Weber，and StefanWermter.具有双重记忆循环自组织的时空表征的终身学习。神经机器人的前沿，第78页，2018年。[25] 作者：Amal Rannen，Rahaf Aljundi，Matthew B.布拉施科和蒂娜·图伊特拉尔斯。基于编码器的终身学习。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表[26] Dushyant Rao、Francesco Visin、Andrei Rusu、RazvanPascanu、Yee Whye Teh和Raia Hadsell。连续无监督表征学习。神经信息处理系统的进展，32，2019。[27] David Rolnic

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

可扩展神经权重搜索实现任务增量学习和控制内存增长

一种改进的深度神经网络结构搜索方法

基于可伸缩强化学习的神经结构搜索在癌症深度学习研究中的应用

神经网络增量学习算法

使用hebb学习设计神经网络实现字母y和n的识别。请给出权重调整的过程，得出网络权重，并画出神经网络结构。

增量学习怎么引用到RNN中

lstm和增量学习结合

神经网络和深度学习的区别和联系

多任务学习网络不同任务之间权重如何选择

神经网络的权重和参数

卷积神经网络可以实现权重共享

多任务学习损失函数权重寻优

BLS的增量学习算法介绍

GAN增量式学习和连续学习

神经网络智能控制c程序

深度神经网络 实现图像特征提取和学习 python

神经网络和mpc控制

具备增量学习的文本分类AI框架

神经网络自适应控制算法

神经网络 实现pid

随机森林的增量学习算法

最新资源

深度神经网络实现图像特征提取和学习 python

神经网络实现pid