优化深度网络性能的梯度下降算法及其Python实现

需积分: 0 104 浏览量更新于2024-01-02 收藏 1.99MB PDF 举报

本文主要讨论了深度学习中的优化算法，旨在提高深度网络的性能。优化算法在深度学习中的反向传播过程中起着重要的作用，通过找到最优的参数（如W、b），使得代价函数（cost function）最小化，来提高深度网络的精度和速度。首先介绍了梯度下降算法的几种变体。其中，批量梯度下降（Batch Gradient Descent）是指在寻找最优参数W和b的过程中，使用全部的训练样本计算梯度，并以此调整参数。它的优点是每次更新都能朝着最优方向前进，但缺点是计算量大，训练速度慢。其次介绍了随机梯度下降（Stochastic Gradient Descent），它与批量梯度下降相反，只使用一个样本来计算梯度和调整参数。虽然训练速度快，但由于噪声的存在，很容易陷入局部最优解。接下来介绍了动量梯度下降（Momentum Gradient Descent），它在随机梯度下降的基础上引入了动量项。动量项考虑了历史梯度的加权平均，使得参数更新更加稳定，避免了在平坦区域受到的震荡。然后介绍了RMSprop算法，它通过计算梯度的移动平均值来调整学习率。这样可以减少学习率的抖动，提高收敛速度。接下来介绍了学习率衰减（Learning Rate Decay），它是一种让学习率随着时间逐渐减小的方法。在训练初期使用较大的学习率可以加速收敛，而在训练后期使用较小的学习率可以更细致地搜索最优解。最后介绍了Adam算法，它结合了动量梯度下降和RMSprop算法的优点，既能快速收敛，又能适应不同参数的学习率变化。在文章的附录部分，作者给出了每个优化算法的原理解释和公式推导，并提供了Python代码的实现框架，可以在Github上查阅详细数据和代码。作者表示本文的原理解释部分由LSayhi完成，供学习参考和传播，代码实现部分的框架由Coursera提供，由LSayhi完成。总之，本文综述了深度学习中常用的优化算法，包括梯度下降、批量梯度下降、随机梯度下降、动量梯度下降、RMSprop、学习率衰减和Adam算法。这些优化算法在提高深度网络性能方面起着重要作用，能够大大提高整个团队的效率和训练速度。通过仔细选择和调整合适的优化算法，可以使得深度网络更好地收敛，提高精度和速度，从而推动深度学习的发展和应用。

In[3]:

In[4]:

Expected Output:

W1 [[ 1.63535156 -0.62320365 -0.53718766] [-1.07799357 0.85639907 -2.29470142]]

b1 [[ 1.74604067] [-0.75184921]]

W2 [[ 0.32171798 -0.25467393 1.46902454] [-2.05617317 -0.31554548 -0.3756023 ] [ 1.1404819 -1.09976462 -0.1612551 ]]

b2 [[-0.88020257] [ 0.02561572] [ 0.57539477]]

A variant of this is Stochastic Gradient Descent (SGD), which is equivalent to mini-batch gradient descent where each mini-batch has just 1 example.

The update rule that you have just implemented does not change. What changes is that you would be computing gradients on just one training

example at a time, rather than on the whole training set. The code examples below illustrate the difference between stochastic gradient descent and

(batch) gradient descent.

(Batch) Gradient Descent:

X = data_input

Y = labels

parameters = initialize_parameters(layers_dims)

for

range(0, num_iterations):

# Forward propagation

a, caches = forward_propagation(X, parameters)

# Compute cost.

cost = compute_cost(a, Y)

# Backward propagation.

grads = backward_propagation(a, caches, parameters)

# Update parameters.

parameters = update_parameters(parameters, grads)

Stochastic Gradient Descent:

W1 = [[ 1.63535156 -0.62320365 -0.53718766]

[-1.07799357 0.85639907 -2.29470142]]

b1 = [[ 1.74604067]

[-0.75184921]]

W2 = [[ 0.32171798 -0.25467393 1.46902454]

[-2.05617317 -0.31554548 -0.3756023 ]

[ 1.1404819 -1.09976462 -0.1612551 ]]

b2 = [[-0.88020257]

[ 0.02561572]

[ 0.57539477]]

# GRADED FUNCTION: update_parameters_with_gd

def

update_parameters_with_gd(parameters, grads, learning_rate):

"""

Update parameters using one step of gradient descent

Arguments:

parameters -- python dictionary containing your parameters to be updated:

parameters['W' + str(l)] = Wl

parameters['b' + str(l)] = bl

grads -- python dictionary containing your gradients to update each parameters:

grads['dW' + str(l)] = dWl

grads['db' + str(l)] = dbl

learning_rate -- the learning rate, scalar.

Returns:

parameters -- python dictionary containing your updated parameters

"""

L = len(parameters)

# number of layers in the neural networks

# Update rule for each parameter

for

range(L):

### START CODE HERE ### (approx. 2 lines)

parameters["W"

str(l

1)] = parameters["W"

str(l

1)]

learning_rate

grads["dW"

str(l

1)]

parameters["b"

str(l

1)] = parameters["b"

str(l

1)]

learning_rate

grads["db"

str(l

1)]

### END CODE HERE ###

return

parameters

parameters, grads, learning_rate = update_parameters_with_gd_test_case()

parameters = update_parameters_with_gd(parameters, grads, learning_rate)

print("W1 = "

str(parameters["W1"]))

print("b1 = "

str(parameters["b1"]))

print("W2 = "

str(parameters["W2"]))

print("b2 = "

str(parameters["b2"]))

剩余19页未读，继续阅读

AshleyK

粉丝: 27

优化深度网络性能的梯度下降算法及其Python实现

python性能优化实践1

最优化算法第四章1

BP神经网络的python实现，里面包含adam、RMSProp等多种优化算法，网络结构参数化实现。.zip

Python实现GA-BP算法：无深度学习框架的机器学习教程

纯Python实现机器学习算法：ml-from-scratch深度剖析

Python实现的机器学习与深度学习基础算法

Python-MedicalNet项目深度学习资源：3D-ResNet预训练模型与代码分享

SSA-Catboost算法优化实战：Matlab源码解析与性能对比

Python深度学习优化：Adam算法的实现与应用

Python实现的深度学习和机器学习算法教程资源

最新资源