梯度下降与小批量梯度下降：机器学习中的优化方法

需积分: 10 53 浏览量更新于2024-09-11 收藏 154KB PDF 举报

"这篇资料主要介绍了基于梯度的学习方法，包括梯度下降、随机梯度下降和小批量随机梯度下降，并讨论了学习率的选择在优化过程中的重要性。" 在机器学习领域，Gradient-Based Learning（基于梯度的学习）是一种核心的优化技术，用于调整模型参数以最小化损失函数。损失函数反映了模型预测与实际数据之间的差距，是衡量模型性能的关键指标。本文主要涉及以下几个方面： 1.1 引入基于梯度的学习损失函数可以分为两种类型：训练损失和泛化损失。训练损失是模型在训练集上的平均损失，而泛化损失则是对整个潜在数据分布的期望损失。在监督学习中，每个样本`z`由输入`x`和对应的标签`y`组成，模型`f_θ(x)`通过参数`θ`预测`y`。 1.2 梯度梯度是函数`C(θ)`关于参数`θ`变化率的向量表示，尤其是在微小的参数变化`δθ`下，它描述了成本函数`C`的增减趋势。对于多维参数`θ`，梯度`∂C(θ)/∂θ`是一个包含每个参数`θ_i`导数的向量，其他参数保持不变。 1.3 梯度下降梯度下降是基于梯度的学习中最基础的优化算法。目标是找到使成本函数`C(θ)`最小化的参数`θ`。如果能解出`∂C(θ)/∂θ = 0`，则可以找到极值点，包括最小值、最大值和鞍点。但在实际操作中，通常采用迭代的方式更新参数，每次沿着梯度的反方向移动一小步，即`θ := θ - η * ∇C(θ)`，其中`η`是学习率。 1.4 学习率学习率`η`是梯度下降中一个关键的超参数，它决定了每次迭代时参数更新的幅度。过大可能导致振荡甚至发散，过小则可能导致收敛速度过慢。实践中，常使用固定学习率、动态学习率或者自适应学习率策略如Adagrad、RMSprop或Adam来平衡收敛速度和稳定性。 1.5 随机梯度下降（SGD）和小批量随机梯度下降（Mini-batch SGD）为了提高效率并减少噪声的影响，实际应用中往往不使用全部训练样本的梯度，而是取单个样本（SGD）或一小批样本（Mini-batch SGD）的梯度进行更新。SGD虽然有较高的方差，但计算速度快，适合大数据集。Mini-batch SGD则在速度和稳定性之间取得平衡，是目前深度学习中常用的优化方法。总结起来，基于梯度的学习方法是机器学习中优化模型参数的关键手段，涉及梯度的理解、梯度下降算法的运用以及学习率和批量大小的选择，这些都直接影响到模型的训练效果和效率。在实际问题中，理解和掌握这些概念对于构建有效的机器学习模型至关重要。

Machine Learning Notes

Gradient-Based Learning

1.1 Introduction to Gradient-Based Learning

Consider a cost function C which maps a parameter vector θ to a scalar C(θ) which we would like to minimize.

In machine learning the cost function is typically the average or the expectation of a loss functional

C(θ) =

i=1

L(f

, z

)

(this is called the training loss) or

C(θ) =

L(f

, z)P (z)dz

(this is called the generalization loss), where in supervised learning we have z = (x, y) and f

(x) is a

prediction of y, indexed by the parameters theta.

1.2 The Gradient

The gradient of the function C of a single scalar θ is formally deﬁned as follows

∂C(θ)

∂θ

= lim

δθ→0

C(θ + δθ) − C(θ)

δθ

Hence it is the variation ∆C induced by a change ∆θ, when ∆θ is very small.

When θ is a vector, the gradient

∂C(θ)

∂θ

is a vector with one element

∂C(θ)

∂θ

per θ

, where we consider the other

parameters ﬁxed, we only make the change ∆θ

and we measure the resulting ∆C. When ∆θ

is small then

∆C

∆θ

becomes

∂C(θ)

∂θ

1.3 Gradient Descent

We want to ﬁnd a θ that minimizes C(θ). If we are able to solve

∂C(θ)

∂θ

= 0

then we can ﬁnd the minima (and maxima and saddle points), but in general we are not able to ﬁnd the

solutions of this equation, so we use numerical optimization methods. Most of these are based on the idea

1-1

下载后可阅读完整内容，剩余4页未读，立即下载

ruliubin

粉丝: 0
资源: 1

梯度下降与小批量梯度下降：机器学习中的优化方法

深度学习在文档识别中的应用

LeNet5深度学习手写字符识别论文解析

1998 LeNet论文：梯度学习在文档识别中的应用

LeCun-98-Gradient-Based Learning Applied to Document Recognition

Gradient-Based Learning Applied to Document Recognition

lenet5——Gradient-Based Learning Applied.pdf

Gradient-based learning applied to document recognition.pdf

Gradient-Based Learning Applied to Document Recognition.pdf

A supervised gradient-based learning algorithm for optimized.pdf

GRADIENT-BASED ACTIVE LEARNING QUERY STRATEGY.pdf

最新资源