持续学习中的灾难性遗忘：神经重播策略研究

博士学位

188 浏览量更新于2024-06-18 收藏 5.76MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

第二章。深度学习背景：原理与应用

2.1

通过梯度下降

在本节中，我们介绍了训练深度神经网络的最简单方法：随机梯度下降。我们还介绍了目标优化

和深度学习库。

2.1.1

深度神经网络（DNN）

深度神经网络（DNN）是具有多个隐藏层的人工神经网络一层由一组神经元组成，这些神经元连

接到前一层的神经元它们执行计算并将单个值发送到下一层。神经元共同形成神经网络。深层神

经结构的表示见图2.1。通过将所有神经元组合成一个相干体，神经网络应该能够学习复杂的功能

来解决复杂的问题。

从数学上讲，对于一组n 1个输入值x

，

...

，

神经元将计算以下输出：

out

σ（x

b）（

2.1

）

使用σ（

。

a）非线性激活函数，b是偏置，ω

是神经元的权重单个神经元的示意图如图2.2所示。为

了训练神经网络，我们调整所有神经元的权重（或参数）和偏差，以产生特定的功能。

图2.2人工神经元的示意图。

有不同类型的神经网络，如卷积神经网络或全连接神经网络。我们将在第2.2.1节中介绍这些内

容。在下一节中，我们将了解如何培训DNN。

2.1.2

随机梯度下降（SOD）

我们定义了函数

（

。

由神经网络实现。

）

。

）由θRN参数化，θ RN是对应于所有神经元的连接

权重和偏差的N个实值的向量。对于输入数据x，我们有：

（

;

）

（

2.2

）

因为

神经不工作，所以它不工作

。

我们假设数据集由对等体（x

，

y）组成，x是一个数据点，y

是与之

相关

的执行输出。

eac

数据

oin

，

可以

计算

（

;

）

和

损失

约

2.1.

通过梯度下降训练

深度神经网络

（

）

。

（

，

）

损失函数是一个可微函数，例如平方欧几里得距离：

（

，

）

−

（

）

然后，训练程序的目标是找到使成本函数最小化的最

佳向量

θ *

。

L（. 我们有数据集D。

对于

eac

参数

，

奏效

，

计算梯度

：

（

（x

;

θ）

，

y）

（

）

深度神经网络的资产之一是梯度在整个模型中的有效反向传播。梯度可以使用链规则从一层传

递到另一层。

（

）（

）

（

）

（

）

（

）

（x

;

）

Hence

，

（

;

）

;

）

，

）

可以

计算

，因此

对于all

and

在

计算

之后使用

。

（

;

）

这

是一个很大的问题，也是一个很大的问题，也是一个很大的问题

。

学习率。

→

−

（

2.6

）

然后对从数据集随机采样的所有（x

，

y）重复此操作，直到收敛到

（

（x;θ）

，

y）的局部最

小值θ

这个过程被称为随机梯度下降（入住率下降）。这是通过梯度下降训练深度神经网络的最

简单方法。随机采样的数据称为i.i.d.（完全相同且独立分布）。i.i.d. 对数据分布的假设通常是训

练算法成功的必要条件。

更新规则（等式2.6）可以被修改以实现更有效的优化。一些众所周知的优化方法是Adagrad

[64]、Nesterov momentum [239]、Adam [118]、RMSProp [55]。他们将动量和加速度分量添加

到梯度中，以便更快地学习。在本论文的实际应用中，我们主要使用Adam和SOD来优化深度神经

网络。

2.1.3

过拟合和概括

第2.1.2节中描述的优化过程最小化训练数据上的损失函数，直到找到局部最小

值

：

= argmin

（

，

）

l（f

（

x;θ

）

，

）（

2.7

）

使用培训数据集。

然而，深度学习优化的真正目标是对从未见过的数据做出良好的预测，即将知识从培训数据推

广到新数据。对未知数据做出良好预测的能力

称为推广

。它是通过计算测试中的损失来衡量的，

而D是模型

从未

见过的。如果训练损失非常低，但测试损失

第二章。深度学习背景：原理与应用

设置为高，模型没有学习到解决任务的好方法。这种现象被称为

过拟合

。如果测试集的损失较

低，则我们认为模型推广良好，培训成功。

机器学习和深度学习的主要目标之一是学习能够很好地概括新数据的函数。然而，重要的是要

注意，测试集应该与训练集相似。神经网络不能推广到完全不同的数据。

2.1.4

深度学习编程框架

神经网络的训练在大多数情况下都是通过编程专门用于深度学习的库来实现的。这些库允许高效

和自动地计算所有参数的梯度并更快地训练神经网络。使用这些库还可以更快地开发代码，并轻

松使用GPU加速进行深度神经网络训练。目前最著名的深度学习库是Pytorch，TensorFlow

[1]和Keras [44]，但几年前的咖啡[106]和Theano [11]是最常用的。所有这些库都可以与python一

起使用，但其中一些库有一个接口，可以与其他编程语言（如C++）一起使用。

近年来，这些库已经得到了非常密集的开发，使得查找

预训练模型和已经实现的架构、神经层和优

化过程成为可能。

今天，它们是开发和训练深度神经网络的完整框架。

在本论文中，所有训练深度神经网络的代码都是在Python中使用Pytorch框架开发的。

2.2

学习范式

深度神经网络的训练已经应用于不同的学习范式。这些范式在它们的监督信号上有所不同。有监

督的算法对所有数据点都有一个真实的标签，强化学习算法有一个稀疏的标签，称为

奖励

，而无

监督的算法根本没有标签。

2.2.1

分类

图像分类（或图像识别）是深度学习的典型应用。它包括学习预测与输入数据相关联的类。在这

一部分中，我们只对深度神经网络分类的监督训练感兴趣。监督培训是最常用的学习分类方法。

历史

在21世纪10年代早期，深度神经网络帮助图像识别领域取得了重大进展，特别是卷积神经网络

（CNN）架构[77]和图形处理单元（GPU）的硬件计算加速

GPU硬件的发展促进了神经网络训练的加速。在过去的几年里，它极大地帮助了深度神经网络

的发展，从几层沙子发展到了数百万个参数。从那时起，它们在分类挑战中无处不在，如

PASCAL VOC、ImageNet、MS COCO和Open Images。

剩余172页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

持续学习中的灾难性遗忘：神经重播策略研究

神经网络模型中灾难性遗忘研究的综述.pdf

在神经网络中测量灾难性遗忘

0385-极智论文-解读用弹性响应蒸馏客服增量目标检测中的灾难性遗忘

灾难性遗忘 mnist

深度学习中除了灾难性遗忘还有什么类似的问题

针对表格数据，增量学习中为了避免知识的灾难性遗忘如何使用python代码应用其中

chatglm 灾难性遗忘

如何在解决增量学习的灾难性遗忘时使用Minkowski距离，给出具体应用的python代码

使用Minkowski距离减轻增量学习中的灾难性遗忘问题，请给出具体应用的pyhon代码

深度学习中除了灾难性遗忘还有什么类似的问题，请举出10个例子

简述灾难恢复的管理过程

正则表达式 灾难性回溯

正则回溯java_正则表达式灾难性回溯

visual studio灾难性故障

wsl安装报灾难性故障

wsl 显示 灾难性故障

讲解一下ianvs 和 sedna

vscode wsl灾难性

解压压缩包0x8000FFFF灾难性故障

最新资源

正则表达式灾难性回溯

wsl 显示灾难性故障