深度学习 Loss 震荡

时间: 2023-09-26 12:08:30 浏览: 78

深度学习 loss

### 深度学习中的损失函数详解 #### 1. 欧氏距离损失函数 (Euclidean Distance Loss) **定义**: 欧氏距离损失函数主要用于回归任务中，特别是当回归的目标值为实数时非常有效。该损失函数计算的是模型预测值与真实值之间的欧氏距离的平方误差，也称为均方误差(MSE)。 **公式**: \[ L = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \] 其中 \( y_i \) 表示第 \( i \) 个样本的真实值，\( \hat{y}_i \) 表示第 \( i \) 个样本的预测值，\( N \) 是样本总数。 **优点**: - 计算简单直观。 - 对于回归问题效果良好。 **缺点**: - 容易导致梯度消失或梯度爆炸问题，尤其是在深层网络中。 - 当预测值与真实值差距较大时，损失函数值会迅速增加，可能会导致优化过程不稳定。 **证明**: 以一个简单的神经元为例，假设输入为 \( x \)，权重为 \( w \)，偏置为 \( b \)，激活函数为 \( f(z) \) ，其中 \( z = wx + b \)。则损失函数 \( L \) 的导数为： \[ \frac{\partial L}{\partial w} = \frac{2}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i) \cdot (-x_i) \cdot f'(z) \] \[ \frac{\partial L}{\partial b} = \frac{2}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i) \cdot f'(z) \] 若取 \( f(z) = \sigma(z) \) 为sigmoid函数，则当 \( z \) 接近0或1时，\( f'(z) \) 接近于0，这可能导致梯度更新变得非常缓慢，即出现所谓的“饱和”现象。 #### 2. Sigmoid-Cross-Entropy Loss **定义**: 交叉熵损失函数常用于二分类问题中，它衡量两个概率分布之间的差异程度。在深度学习中，通常用于度量预测概率分布与实际概率分布之间的相似性。 **公式**: \[ L = -\frac{1}{N} \sum_{i=1}^{N} [y_i \log(\hat{y}_i) + (1-y_i) \log(1-\hat{y}_i)] \] 其中 \( y_i \) 表示第 \( i \) 个样本的真实标签（0或1），\( \hat{y}_i \) 表示预测的概率。 **优点**: - 能够很好地处理正负样本不平衡问题。 - 损失函数关于预测概率的变化是单调递增的，有利于梯度下降算法找到最优解。 **缺点**: - 对异常值敏感。 **证明**: 同样考虑一个简单的神经元，使用sigmoid激活函数 \( \sigma(z) \) 。则损失函数 \( L \) 的导数为： \[ \frac{\partial L}{\partial w} = \frac{1}{N} \sum_{i=1}^{N} (\hat{y}_i - y_i) \cdot x_i \] \[ \frac{\partial L}{\partial b} = \frac{1}{N} \sum_{i=1}^{N} (\hat{y}_i - y_i) \] 可以看出，该损失函数的梯度与激活函数的导数无关，当误差较大时，梯度更新快；误差较小时，更新慢，这有助于加快收敛速度。 #### 3. Softmax Loss **定义**: Softmax Loss 主要用于多分类问题中，它结合了Softmax函数和交叉熵损失函数。 **公式**: Softmax函数: \[ p_i = \frac{e^{f_i}}{\sum_{j=1}^K e^{f_j}} \] 其中 \( f_i \) 是模型对于第 \( i \) 类的未归一化分数，\( K \) 是类别总数。 Softmax Loss: \[ L = -\log(p_y) \] 其中 \( p_y \) 是真实类别的概率。 **优点**: - 能够给出每个类别的预测概率。 - 在多分类问题中表现优秀。 **缺点**: - 需要较大的数据集才能稳定训练。 - 对于不平衡的数据集敏感。 **推导**: Softmax函数给出的概率是否等于期望值取决于模型的参数设置。假设模型参数为 \( \theta \)，对于 \( K \) 个类别，Softmax Loss 的目标是最小化负对数似然函数： \[ L = -\log(p_y) = -\log\left(\frac{e^{f_y}}{\sum_{j=1}^K e^{f_j}}\right) \] 导数计算: \[ \frac{\partial L}{\partial \theta_j} = p_j - \delta_{jy} \] 其中 \( \delta_{jy} \) 是克罗内克函数，如果 \( j = y \) 则为1，否则为0。 #### 4. Smooth L1 Loss **定义**: Smooth L1 Loss 是一种改进版的L1 Loss，它在小误差区间内采用L2 Loss，而在大误差区间内采用L1 Loss。 **公式**: \[ L = \begin{cases} 0.5 (y - \hat{y})^2 / \delta & \text{if } |y - \hat{y}| < \delta \\ |y - \hat{y}| - 0.5 \delta & \text{otherwise} \end{cases} \] 其中 \( \delta \) 是平滑因子。 **优点**: - 对异常值鲁棒。 - 平滑处理可以避免梯度消失问题。 **缺点**: - 实现相对复杂。 #### 5. Hinge Loss **定义**: Hinge Loss 主要应用于支持向量机(SVM)等线性分类器中，旨在最大化分类间隔。 **公式**: \[ L = \max(0, 1 - t \cdot y) \] 其中 \( y \) 是预测值（范围通常在-1到1之间），\( t \) 是目标值（通常是±1）。 **优点**: - 有利于获得较好的泛化性能。 - 对于线性可分问题非常有效。 **缺点**: - 对于非线性可分问题表现不佳。 - 不适用于概率预测任务。以上介绍的几种损失函数都是深度学习中常用的损失函数类型，它们各自有着不同的应用场景和特点。在选择合适的损失函数时，需要根据具体问题的需求和数据特性来进行决策。

深度学习 Loss 震荡的常见原因是学习率过高或者批量大小过小。这些问题都会导致模型的训练过程不够稳定，导致 Loss 值的震荡。学习率过高会使得模型在更新参数时跨越较大的步长，导致模型在训练过程中无法找到全局最优解，而是停留在局部最优解。批量大小过小会导致模型难以学习到全局的特征，而是只能学习到局部的特征，从而导致模型的训练不够稳定。解决这些问题的方法包括调整学习率和批量大小，以及使用正则化技术来减少模型的过拟合。此外，还可以尝试使用更加高级的优化算法来帮助模型更快地收敛，如 Adam、RMSprop 等。

阅读全文

深度学习 Loss 震荡

相关推荐

零基础入门实战深度学习Pytorc

Lecture1_loss_深度学习_ADAM_手写数字识别_

val 的loss震荡

深度学习train_loss曲线收敛，但AUC值震荡是什么原因，如何解决

Andew Ng深度学习讲义

深度学习-神经网络求解解析

深度学习：神经网络训练的loss与acc曲线可视化

：Python深度学习：用Python探索深度学习的奥秘，打造智能应用

【R语言深度学习】：用Keras打造R语言中的深度学习模型

【深度强化学习】：深度学习与强化学习的完美结合技术剖析

深度学习基础介绍与原理解析

深度学习的基本概念与原理

batchsize为什么影响loss震荡

深度学习中loss曲线总体趋势减小，但在减小过程中会增加，这是什么原因

训练集的loss一直上升且震荡怎么解决

yolov5训练数据集，发现验证集的objectness loss一直在震荡

Font Awesome图标字体库提供可缩放矢量图标,它可以被定制大小、颜色、阴影以及任何可以用CSS的样式

EDAfloorplanning

数学建模培训资料 数学建模实战题目真题答案解析解题过程&论文报告 最低生活保障问题的探索 共20页.pdf

最新推荐

记录模型训练时loss值的变化情况

tensorflow2 5种优化器 SGD,SGDM,ADAGRAD,RMSPROP,ADAM 在鸢尾花数据集中的对比.docx

Font Awesome图标字体库提供可缩放矢量图标,它可以被定制大小、颜色、阴影以及任何可以用CSS的样式

EDAfloorplanning

数学建模培训资料 数学建模实战题目真题答案解析解题过程&论文报告 最低生活保障问题的探索 共20页.pdf

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包

数学建模培训资料数学建模实战题目真题答案解析解题过程&论文报告最低生活保障问题的探索共20页.pdf

数学建模培训资料数学建模实战题目真题答案解析解题过程&论文报告最低生活保障问题的探索共20页.pdf