固定网络的动态掩码学习：适应多任务的高效策略

143 浏览量更新于2024-06-20 收藏 687KB PDF 举报

本文探讨了一种新颖的神经网络架构方法，旨在通过学习掩蔽权重来适应多个任务，而无需牺牲已学习任务的性能。这种方法借鉴了网络量化和规划的概念，提出了一种端到端可区分的机制，允许对固定深度神经网络的权重进行低开销的调整。研究者Arun Mallya、Dillon Davis和Svetlana Lazebnik来自伊利诺伊大学香槟分校，他们开发了一种技术，即在新任务上应用“规划块”，这些块可以应用于网络的原始权重，从而实现对网络的增量学习。传统的深度网络微调往往导致旧任务性能下降的问题，也就是所谓的“为获取训练而学习任务”。作者们的目标是开发一种更高效的方法，既能增强网络的泛化能力，又能防止灾难性遗忘，同时减少额外参数的增加。他们提出的策略与传统的无遗忘学习（LwF）和弹性权重合并（EWC）不同，后者依赖于代理损失和正则化，而他们的方法则是通过迭代地学习掩码，而不是直接修改权重。核心概念是“背负式掩码”，这是一种元素级别的操作，它可以在不改变底层网络结构的情况下，针对每个任务生成特定的权重掩码。这种掩码可以被设计成二进制，比如通过阈值函数，或者保持实数值，以有效地选择或抑制某些过滤器，仅在任务K上启用或关闭特定的网络连接。这种方法的优点在于它能够适应各种分类任务，即便这些任务的初始训练数据集（如ImageNet）与新任务之间存在较大差异。作者们展示了他们的方法在处理不同任务时表现出与专用微调网络相当的性能，而且无论任务的顺序如何，都不会出现严重的任务遗忘或竞争问题。这表明他们的方法在保持网络灵活性和迁移学习能力方面取得了显著的成果，对于在资源有限且任务不断变化的场景下提升深度学习模型的实用性具有重要意义。关键词：增量学习、二进制网络、灾难性遗忘、权重掩码、网络量化、固定骨干网络。总结来说，这项研究为多任务学习提供了一种创新策略，通过掩码权重的学习来动态适应任务，这对于减少模型的复杂度、提高效率和保持旧任务性能具有潜在的实际价值。

A. Mallya，D. Davis和S. 拉伯尼克

网络的卷积滤波器组与向网络添加附加的每任务卷积层相同。最新的

深度自适应网络（DAN）[16]允许学习新的滤波器，这些滤波器是现

有滤波器的线性与这些方法类似，我们能够学习新的每个任务的过滤

器。然而，这些新的过滤器被约束为现有过滤器的掩蔽版本我们学习

的二进制掩码每个网络参数产生1位的开销，小于所有先前的工作。

此外，我们没有发现有必要学习特定于任务的层偏差和批量归一化参

数。

我们用于训练二进制掩码的方法是基于Courbariaux

等人

[26，27]介

绍的用于从头开始训练具有二进制值权重的神经网络的技术。作者维

护了一组实值权重，这些权重在前向传递期间通过二进制化器函数传

递。在通过应用链式规则的反向传递期间相对于二值化权重计算梯

度，并且使用针对二值化版本计算的梯度来更新实值权重在[26]中，

作者认为，即使以这种方式计算的梯度是有噪声的，但它们有效地用

作正则化器，并且量化误差在多次迭代中抵消随后的工作包括[28，

29]已经将此思想扩展到三值权重。与这些工作不同的是，我们不会

从头开始训练量化网络，而是学习应用于固定实值滤波器权重的量化

掩码。稀疏化密集神经网络的工作，特别是[30]，使用了掩码权重矩

阵的思想。然而，只有它们的权重矩阵是可训练的，并且它们的掩码

值是权重矩阵的大小的固定函数，并且不是显式可训练的。相比之

下，我们将骨干网络的权重矩阵视为固定常数。

方法

我们的方法背后的关键思想是学习选择性地屏蔽基础网络的固定权

重，以提高新任务的性能我们通过保持一组实值权重来实现这一点，

所述实值权重通过确定性阈值函数以获得二进制掩码，然后将其应用

于现有权重。通过反向传播更新实值权重，我们希望学习适合手头任

务的这个过程如图1所示。通过学习每个任务不同的二进制值

{

，

}

掩码，这些掩码按元素应用于网络参数，我们可以以最小的开销将相

同的底层基础网络重新用于多个任务。即使我们不修改网络的权重，

也可以通过掩蔽来获得大量不同的滤波器例如，

诸如[0

，

。

，

-0

。

，

1]可以产生诸如[0

，

、

，

-0

。

，

和[0

，

。

，

1]。在实践中，我们首先使用在ImageNet分类任务上预训练的

VGG-16或ResNet-50等网络作为我们的基础网络，称为

骨干

网络，并

将实值掩码变量与所有卷积层和全连接层的每个权重参数相关联。通

过结合网络二进制化中使用的技术，

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

固定网络的动态掩码学习：适应多任务的高效策略

SdAE：自蒸馏掩蔽自动编码器网络提升视觉Transformer的表现

数字图像处理：非锐化掩蔽与高频提升滤波详解

自适应β阶贝叶斯语音增强：结合听觉掩蔽的新算法

卷积 BSS：通过时频掩蔽的欠定卷积盲源分离-matlab开发

MCLNN-theano：掩蔽条件神经网络

ResidualMaskingNetwork:残差掩蔽网络的面部表情识别

maskRangeR:掩蔽范围

基于感知掩蔽深度神经网络的单通道语音增强方法.pdf

lung_diagnostics:Keras实施噪声掩蔽RNN进行呼吸声分类

基于DWT-SVD-DCT的自适应数字水印算法：鲁棒与掩蔽性提升

最新资源