无数据类增量学习：增量蒸馏策略与基准改进

179 浏览量更新于2024-06-20 收藏 886KB PDF 举报

"无数据类增量学习中的增量蒸馏策略及其对常见类增量基准的改进" 在当前的计算机视觉领域，模型需要不断适应新概念，但传统的离线训练方式容易导致灾难性遗忘。无数据类增量学习（DFCIL）正是为了解决这一问题，它允许模型在没有历史数据的情况下学习新任务，避免了存储和重放数据的需求。然而，这种方法在应对常见的类增量基准测试时面临挑战。 DFCIL的一个关键方法是利用学习者模型的冻结副本生成合成图像以模拟数据重放，但研究发现这种方法在标准蒸馏策略下效果不佳。为了解决这个问题，文章提出了一个创新的增量蒸馏策略。该策略结合了交叉熵训练和重要性加权特征蒸馏，有效缓解了模型在学习新任务时对旧任务知识的遗忘。通过对现有方法的分析，作者揭示了传统策略失败的原因，并通过实验证明了新策略的有效性。相比于当前最先进的DFCIL方法，新方法在多个常见的类增量基准测试上提高了25.1%的最终任务准确性，甚至在某些情况下超越了基于存储图像核心集的重放方法。这项工作的重要性在于，它为解决实际场景中存储和数据隐私问题提供了新的思路。由于许多计算机视觉应用在设备上运行，存储空间有限，且涉及敏感数据，因此无数据的学习策略具有显著的实际价值。此外，提出的增量蒸馏策略不仅适用于DFCIL，也可能对更广泛的持续学习和终身学习研究产生深远影响。 "无数据类增量学习中的增量蒸馏策略"是一个突破性的研究，它通过改进的学习策略增强了模型在不断变化环境中的适应能力，降低了对存储历史数据的依赖。这种方法为未来的计算机视觉系统提供了更高效、更灵活的学习框架，有望推动终身学习领域的进一步发展。代码已开源，供其他研究人员参考和使用。

9377

不

|T T

−

···

con

div

信

息

stat

，

任务，在任务

的训练期间根据需要对合成图像进行采

样，然后在任务结束时将其丢弃。

可以与合成类多样性作斗争;我们遵循[9]并优化

合成图像的类预测的多样性以匹配均匀分布，而不是

在类标签Y上条件φ。将p

（x）表示为模型θ对某个

输入x产生的预测类分布，我们希望

最大化合成样本

的

平均类

预测向量

的熵

。例如，我们

最小化

标签多样

性损失

：

（

）

−H

。

（x）

（

）

其中，KL表示Kullback-Leibler（KL）散度，

（

，

）、

（

（，

）是

给定小批量合成图像的层l处的特征

的平均值和标准差

，并且μ

、

是所述层l的批量范数

统计。

由于

−

的批量统计量存储在批量

归一化层

中，因此这种损失不需要任何额外的存储。此外，先

验知识告诉我们，自然图像在像素空间中比初始噪声

更局部平滑因此，我们可以通过最小化

平滑先验损失

先

验来

稳定优化。形式上，

先验

是

每个合成图像（

）和一

个版本之间

的L2

距离。

用高斯核模糊（

）：

之前

（

六

）

模

糊

（

）

−

其中

info

是信息熵。请注意，当损失取最小值时，均值

类预测向量中的每个元素都将等于

，这意味着

总而言之，假设使用

来表示效率，则

因此，基线的最终损失为

min

con

（

，

）

div

（

）

一

......

生成类的速率大致相同。

除了多样性，要始终如一地综合有用的

状态

状

态

（

）

之前

先验

（

）

（

七

）

对于DFCIL设置中的图像，图像必须强制执行校准的

类置信度、特征统计的一致性以及局部平滑的潜在空

间，如下所述。

内容

损失

con

最大

化关于图像张量

的

类预测置信

度

，使得

−

应该对所有输入做出可靠的预测。从形式上讲，

con

是两个向量之间的交叉熵分类损失。

重要的是：虽然我们优化了

而不是

[16，60]中所做

的

？

，该方法可以使用后者，但牺牲了计算效率。

为类增量学习提取合成数据：在类增量学习设置中，

其中任务T

的类被建模而不学习代表。

的类预测和最大类预测

：

表示任务类

-1

，知识分布

在合成图像上的倾斜最常用于

（

，

）

temp

−

，

1：

−

（

）

，

（

）

正则化θ

，迫使它以最小的退化学习T

到

···

−

。对于任务

，我们综合

max

∈

不

−

，

1：

−

（3

）

来自任务期间（

）

雨的冻结副本

的

图像

−

。这些合成图像帮助我们提取出

1 n

−

在任务

我们现在的模型

在哪

里放

的

是标准交叉熵损失和logit out-

（

），因为它从

···

−

数据。

θ由温度常数α

temp

缩放。通过com-

使用

div

和bin

con

，我们确保合成的图像将表示所有过去

任务类

先前的工作已经发现，模型-

版本

的复杂性

可能导致

−

特征的分布

大大偏离合成批次的分布。

在我们的基线中，我们采用蒸馏法

在DeepInversion [60]中使用，它概括了原始的无遗忘

学习（LwF）[34]蒸馏方法。形式上，给定当前任务数

据x和合成

大小的蒸馏数据

，我们最小化：

图像.直观地说，合成图像的批量统计数据应该与θ n −

1中的批量归一化层的统计数据相匹配

。为了执行此，

统计对齐丢失

，

统计

，

最小

，

1：n

（x）

，

（

，

−

）

（x

，

−

）

（

八

）

惩罚中间层批次之间的偏差

其中

是知识蒸馏正则化，如下：

存储在

−

中

的归一化统计量（

BNS

）和特征

在合成图像的这些层[16，39，60]：

（

，

−

）

（

n−1

，

1：n

(x)

，

1：n

（x））

（九）

（

）

（

，

σ）

（

）

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无数据类增量学习：增量蒸馏策略与基准改进

(无水印)变长增量型极限学习机及其泛化性能研究_变长增量型极限学习机及其泛化性能_增量分类_ELM_水印隐_增量学习_

增量学习，深度学习，综述

类增量式新类发现：预训练模型与知识蒸馏的应用

缓解灾难性遗忘：联合类增量学习的全局与局部遗忘补偿

深度学习模型优化技巧：语音识别中的性能提升

【边缘计算深度学习】：选择合适的框架以优化性能

多模态大模型是如何克服跨模态间差异性的？ 在多模态任务中，如何评估模型性能以及优化模型效果？ 大型多模态模型在处理实时数据流时面临哪些挑战？

大学生职业生涯规划书Word模板范文就业求职简历应聘工作PPT医疗康复专业

基于Java的学生信息管理系统的实现与操作

基于单片机控制的填块切割装置的设计_孟紫腾.pdf

最新资源

多模态大模型是如何克服跨模态间差异性的？在多模态任务中，如何评估模型性能以及优化模型效果？大型多模态模型在处理实时数据流时面临哪些挑战？