深度学习：随机梯度下降SGD算法详解与实现

sigmoid

test

26 浏览量更新于2023-05-04 2 收藏 30KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本文主要介绍了随机梯度下降（SGD）算法的基本原理和实现方法，同时涉及了神经网络中的反向传播（backpropagation）过程。随机梯度下降（SGD）是一种常用的优化算法，特别是在训练深度学习模型时用于更新权重参数。其核心思想是通过迭代的方式逐步减小损失函数，以找到最优的模型参数。在每次迭代中，SGD仅使用一个样本来计算梯度，从而降低了计算复杂性，使其适用于大数据集的训练。在神经网络中，反向传播是SGD的一部分，它用于计算损失函数相对于网络中每个权重和偏置的梯度。这涉及到以下几个步骤： 1. 前向传播：给定输入x，通过网络的各层计算得到输出a，其中z=w*a'+b，这里的a'是上一层的激活值，a是当前层的激活值，w和b分别是权重和偏置。 2. 计算误差：计算输出层的误差delta，这个delta等于真实值y与预测值a之间的差异，乘以sigmoid(z)函数关于z的导数。这是因为sigmoid函数是神经网络中常见的激活函数，它的导数有助于计算误差的传播。 3. 反向传播误差：通过链式法则，计算输出层之前的每一层的误差delta，这些delta表示了损失函数对偏置b的偏导数。 4. 更新权重：根据误差delta和输入a，计算损失函数对权重w的偏导数，进而更新权重w，以减小损失函数。以下是一个简单的Python类`Network`的实现，它包含了前向传播、评估和反向传播的函数。在这个类中，初始化时随机生成了权重和偏置，`feedforward`函数执行前向传播，`evaluate`函数用于评估模型在测试数据上的性能，而`backprop`函数则进行反向传播来计算权重和偏置的梯度。需要注意的是，随机梯度下降在处理大规模数据时有其优势，但也会因为每次仅使用一个样本导致训练不稳定性。为了改善这一情况，可以采用批量随机梯度下降（mini-batch SGD），在每次迭代时使用一小批样本来计算梯度，以获得更稳定且效率更高的训练过程。随机梯度下降算法和反向传播在机器学习和深度学习中起着至关重要的作用，它们共同帮助模型在训练过程中不断优化，以达到更好的预测性能。

资源详情

资源推荐

随机梯度下降随机梯度下降SGD算法原理和实现算法原理和实现

backpropagation

backpropagation解决的核心问题损失函数c与w,b求偏导，(c为cost(w,b))

整体来说，分两步整体来说，分两步

1.z=w*a’+b

2.a=sigmoid(z)

其中，a’表示上一层的输出值，a表示当前该层的输出值

1，输入x，正向的更新一遍所有的a值就都有了，

2，计算输出层的delta=(y-a)点乘sigmoid(z)函数对z的偏导数

3，计算输出层之前层的误差delta，该delta即为损失函数对b的偏导数，

4，然后根据公式4，求出对w的偏导数

公式推导详解

import numpy as np

import random

class Network(object):

def __init__(self, sizes):

self.number_layers = len(sizes)

self.sizes = sizes

self.biases = [np.random.randn(y, 1) for y in sizes[1:]] self.weights = [np.random.randn(y, x) for x, y in zip(sizes[:-1],

sizes[1:])] def feedforward(self,a):

for b, w in zip(self.biases, self.weights):

a = sigmoid(np.dot(w, a) + b)

return a

def evaluate(self,test_data):

test_results = [(np.argmax(self.feedforward(x)), y)

for (x, y) in test_data] return sum(int(x == y) for (x, y) in test_results)

def derivate(self,output,y):

return (output-y)

def backprop(self,x,y):

nabla_b = [np.zeros(b.shape) for b in self.biases] nabla_w = [np.zeros(w.shape) for w in self.weights] activation = x

activations = [x] zs = [] for b, w in zip(self.biases, self.weights):

z = np.dot(w, activation)+b

zs.append(z)

activation = sigmoid(z)

activations.append(activation)

delta = self.derivate(activations[-1], y) * sigmoid_prime(zs[-1])

nabla_b[-1] = delta

nabla_w[-1] = np.dot(delta, activations[-2].transpose())

for i in range(2,self.number_layers):

z = zs[-i] ps = sigmoid_prime(z)

delta = np.dot(self.weights[-i+1].transpose(), delta) * ps

nabla_b[-i] = delta

nabla_w[-i] = np.dot(delta, activations[-i-1].transpose())

return nabla_b, nabla_w

def update_mini_batch(self, mini_batch, eta):

nabla_w = [np.zeros(w.shape) for w in self.weights] nabla_b = [np.zeros(b.shape) for b in self.biases] for x, y in mini_batch:

delta_nabla_b, delta_nabla_w = self.backprop(x, y)

nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)] nabla_w = [nw+dnw for nw, dnw in zip(nabla_w,

delta_nabla_w)] self.weights = [w - (eta/len(mini_batch) * nw) for w, nw in zip(self.weights, nabla_w)] self.biases = [b -

(eta/len(mini_batch) * nb) for b, nb in zip(self.biases, nabla_b)] def SGD(self, training_data, epochs, mini_batch_size, eta,

test_data=None):

if test_data:n_test = len(test_data)

n = len(training_data)

for j in range(epochs):

random.shuffle(training_data)

mini_batches = [

training_data[k:k+mini_batch_size] for k in range(0, n, mini_batch_size)

] for mini_batch in mini_batches:

self.update_mini_batch(mini_batch, eta)

if test_data:

print('Epoch{0} : {1}/{2} '.format(j, self.evaluate(test_data), n_test))

else:

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

weixin_38672815

粉丝: 11
资源: 870

会员权益专享

深度学习：随机梯度下降SGD算法详解与实现

梯度下降算法代码及详细解释（非常易懂）.zip

python实现随机梯度下降（SGD）

并行SGD矩阵分解算法

Logistic算法（随机梯度下降法）的Python代码和数据样本

梯度下降算法的随机梯度下降法深入解析

随机梯度下降算法的推导与改进

随机梯度下降（SGD）：加速机器学习训练

随机梯度下降算法与批量梯度下降算法的区别与联系

随机梯度下降算法中的样本采样技巧深度剖析

随机梯度下降算法原理优点

随机梯度下降算法的原理

随机梯度下降法的原理，以及目标函数和梯度函数的设置

随机梯度下降法原理是什么

机器学习随机梯度下降原理

随机梯度下降可以引用哪篇参考文献？

带有动量的随机梯度下降

随机梯度下降法和动量优化法相结合的算法应用于分类器训练中的原理

能不能详细解释一下随机梯度下降法和动量优化法相结合的算法应用于分类器训练中的原理

sgd优化器和adamw

会员权益专享

最新资源