"深度模型优化: 梯度下降及其优化算法详解"

需积分: 0 26 浏览量更新于2024-01-15 收藏 543KB PDF 举报

在深度模型中的优化中，梯度下降算法是一种常用的优化算法。梯度在微积分中表示函数增长最快的方向，在神经网络中，采用负梯度来指示目标函数下降的最快方向。梯度由损失函数关于网络中每个参数的偏导数所组成的向量表示。但是梯度只能指示每个参数在个别方向上增长最快的方向，不能保证全局方向一定是函数为了达到最小值应该前进的方向。因此，在使用梯度的具体计算方法上需要进行反向传播。梯度下降是一种通过迭代的方式寻找使模型的目标函数达到最小值时的最优参数的优化算法，也被称为最速下降法。当目标函数是凸函数时，梯度下降的解是全局最优解，但在一般情况下，梯度下降不能保证全局最优。梯度下降最常用的形式是批量梯度下降法（Batch Gradient Descent，BGD），其做法是在更新参数时使用所有的样本来进行更新。而如果要求解目标函数达到最大值时的最优参数，则需要使用梯度上升法进行迭代。在负梯度中的每一项可以认为传达了两个信息。首先，梯度的大小表示了函数在当前参数下的变化率。当梯度较大时，表示目标函数在该参数处的变化幅度较大，相应的需要更大步长进行参数更新。其次，梯度的方向表示了函数在当前参数下最快下降的方向。通过沿着负梯度方向移动，可以使目标函数的值不断减小。在深度模型中的优化中，梯度下降算法是一种重要的优化方法。但是，梯度下降算法也存在着一些问题。首先，随着模型深度的增加，梯度下降算法的收敛速度会变得非常缓慢。其次，梯度下降算法容易陷入局部最优解，而无法达到全局最优解。为了解决这些问题，研究者们提出了一系列的改进算法，如随机梯度下降（Stochastic Gradient Descent，SGD）、动量法（Momentum）、自适应学习率算法（Adaptive Learning Rate）、adam算法等。总之，梯度下降算法是深度模型中优化的核心方法之一。它通过迭代的方式寻找使模型的目标函数达到最小值时的最优参数。然而，梯度下降算法也存在着一些问题，如收敛速度慢和易陷入局部最优解等。因此，在实际应用中，可以结合其他优化算法对梯度下降进行改进，以提高深度模型的性能。这些改进算法不断推动着深度学习的发展，使得深度模型在各种任务中取得了优秀的性能表现。

深度学习：深度模型中的优化朱明超

self.cache = C

return param - update

@property

def hyperparams(self):

return {

"op": "AdaGrad",

"lr": self.lr,

"eps": self.eps

}

1.3.2 RMSProp 算法

RMSProp 主要是为了解决 AdaGrad ⽅法中学习率过度衰减的问题—— AdaGrad 根据平⽅梯度的整个历史来收缩学习率，可能使得学习率在达到

局部最⼩值之前就变得太⼩⽽难以继续训练。RMSProp 使⽤指数衰减平均 (递归定义) 以丢弃遥远的历史，使其能够在找到某个 “凸” 结构后快速

收敛。此外，RMSProp 还加⼊了⼀个超参数 ρ ⽤于控制衰减速率：

g ←

∇



J(f(x

(i)

; θ), y

(i)

)

r ← ρr + (1 − ρ)g ⊙ g

θ ← θ −

√

δ + r

⊙ g

(5)

RMSProp 建议的初始值：全局学习率 ϵ = 1e − 3，衰减速率 ρ = 0.9。

[6]: class RMSProp(OptimizerBase):

def __init__(

self, lr=0.001, decay=0.9, eps=1e-7, **kwargs

"""

参数说明：

lr：学习率，float (default: 0.001)

eps：delta 项，防止分母为 0

decay：衰减速率

"""

super().__init__()

self.lr = lr

self.eps = eps

self.decay = decay

self.cache = {}

def __str__(self):

return "RMSProp(lr={}, eps={}, decay={})".format(

self.lr, self.eps, self.decay

)

def update(self, param, param_grad, param_name):

C = self.cache

lr, eps = self.hyperparams["lr"], self.hyperparams["eps"]

decay = self.hyperparams["decay"]

if param_name not in C: # 保存 r

C[param_name] = np.zeros_like(param_grad)

C[param_name] = decay * C[param_name] + (1 - decay) * param_grad ** 2

update = lr * param_grad / (np.sqrt(C[param_name]) + eps)

self.cache = C

return param - update

@property

def hyperparams(self):

return {

剩余22页未读，继续阅读

航知道

粉丝: 31
资源: 301

"深度模型优化: 梯度下降及其优化算法详解"

深度学习模型训练的优化

08_设计优化1

4 优化模型1

深度学习模型优化的方法有哪些

介绍深度学习模型中的优化算法

如何进行深度学习模型评估和优化

深度学习算法模型优化的方向

深度学习模型评估和优化思路方法

相机标定优化利用什么深度强化学习模型好

如何选择合适的优化算法求解深度模型

最新资源