深度学习最优化：斯坦福cs231n课堂笔记翻译

需积分: 10 56 浏览量更新于2024-09-07 收藏 736KB PDF 举报

"这篇资源是斯坦福大学计算机视觉课程CS231n的最优化笔记翻译，涵盖了深度学习中如何利用梯度找到损失函数的最小值，涉及随机搜索、随机局部搜索、梯度下降等优化策略。" 在深度学习中，最优化是一个核心概念，它的目标是寻找一组参数，使得损失函数的值达到最小。损失函数是衡量模型预测结果与真实值之间差距的指标，通常包括数据顺应项和正则化损失。数据顺应项衡量模型对训练数据的拟合程度，而正则化损失则用于防止过拟合，通过添加惩罚项限制模型复杂度。损失函数的可视化虽然在高维空间中直接展示是挑战性的，但可以通过在低维切片上进行观察。例如，可以随机选择一个权重矩阵，然后在单个或两个维度上移动，记录损失函数值的变化。这会产生一条曲线或一个二维图像，其中坐标轴表示参数变化，颜色表示损失函数的值。这种方法有助于理解损失函数的形状和行为。文章提到了几种最优化策略： 1. 随机搜索：在这种方法中，参数是随机选取的，以寻找可能的低损失区域。尽管它简单且易于实现，但可能效率较低，尤其是在高维空间中。 2. 随机局部搜索：这是一种改进的搜索策略，它在当前参数附近进行随机扰动，期望在局部最小值附近找到更好的解。这种方法通常比全局搜索更有效，但可能仍然无法保证找到全局最小值。 3. 跟随梯度：这是最优化中最常用的方法之一，即梯度下降。梯度下降通过沿着损失函数梯度的反方向更新参数，以期望降低损失。梯度是函数在某一点的局部变化率，表示了损失函数下降最快的方向。可以采用数值方法（如有限差分）或解析方法（微分）来计算梯度。在实际应用中，梯度下降分为批处理梯度下降、随机梯度下降和小批量梯度下降。批处理梯度下降在所有训练样例上计算梯度，而随机梯度下降仅使用一个样例，小批量梯度下降则在一小批样例上计算梯度，这通常在现代深度学习中更为常见，因为它在计算效率和收敛速度之间提供了良好的平衡。总结来说，最优化是深度学习中不可或缺的部分，涉及到选择合适的损失函数、理解其行为并采用有效的优化策略来找到最佳参数。这篇CS231n的笔记深入浅出地讲解了这些关键概念，对理解和实践深度学习模型的优化具有很高的价值。

CS231n

课

程

笔

记

翻

译

：

最

优

化

笔

记

原

文

如

下

内容列表：

简介

损失函数可视化

最优化

策略#1：随机搜索

策略#2：随机局部搜索

策略#3：跟随梯度

梯度计算

使用有限差值进行数值计算

微分计算梯度

梯度下降

小结

简

介

在上一节中，我们介绍了图像分类任务中的两个关键部分：

1. 基于参数的

评

分函

数

。

该函数将原始图像像素映射为分类评分值（例如：一个线性函数）。

损

失

函

数

。该函数能够根据分类评分和训练集图像数据实际分类的一致性，衡量某个具体参数集的质量好坏。

损失函数有多种版本和不同的实现方式（例如：Softmax或SVM）。

上节中，线性函数的形式是，而SVM实现的公式是：

对于图像数据，如果基于参数集做出的分类预测与真实情况比较一致，那么计算出来的损失值 )就很低。现在

介绍第三个，也是最后一个关键部分：

最

优

化

Optimization。最优化是寻找能使得损失函数值最小化的参数的

过程。

铺

垫

：一旦理解了这三个部分是如何相互运作的，我们将会回到第一个部分（基于参数的函数映射），然后将其拓

展为一个远比线性函数复杂的函数：首先是神经网络，然后是卷积神经网络。而损失函数和最优化过程这两个部分

将会保持相对稳定。

损

失

函

数

可

视

化

本课中讨论的损失函数一般都是定义在高维度的空间中（比如，在CIFAR-10中一个线性分类器的权重矩阵大小是

[10x3073]，就有30730个参数），这样要将其可视化就很困难。然而办法还是有的，在1个维度或者2个维度的方

向上对高维空间进行切片，就能得到一些直观感受。例如，随机生成一个权重矩阵，该矩阵就与高维空间中的一

个点对应。然后沿着某个维度方向前进的同时记录损失函数值的变化。换句话说，就是生成一个随机的方向并且

沿着此方向计算损失值，计算方法是根据不同的值来计算。这个过程将生成一个图表，其x轴是

下载后可阅读完整内容，剩余8页未读，立即下载

sunny_develop

粉丝: 124
资源: 15

深度学习最优化：斯坦福cs231n课堂笔记翻译

CS231n课堂笔记中文版,带书签.zip

CS231N 2017spring斯坦福计算机视觉课 配套PPT及笔记

cs231n课堂笔记翻译pdf版本（python-numpy）

cs231n课堂笔记翻译pdf版本(全部)

CS231n课程笔记翻译：最优化笔记（下） - 知乎专栏1

CS231n课程笔记翻译：最优化笔记（上） - 知乎专栏1

cs231n:斯坦福大学CS231N 2016任务

cs231n:斯坦福大学CS231N'18任务

CS231n：2019年Spring斯坦福大学CS231n的分配

cs231n-mammogram:使用CBIS-DDSM数据集将乳房X线照片分类为良性恶性。 斯坦福大学CS231n的课堂项目

最新资源

CS231N 2017spring斯坦福计算机视觉课配套PPT及笔记

cs231n-mammogram:使用CBIS-DDSM数据集将乳房X线照片分类为良性恶性。斯坦福大学CS231n的课堂项目