深度学习优化算法解析：CPU与GPU差异及浮点运算对比

需积分: 0 96 浏览量更新于2024-07-01 收藏 1.03MB PDF 举报

第十三章深入探讨了深度学习中的优化算法，首先讲述了CPU和GPU之间的区别。CPU作为计算机的核心处理器，其主要职责是执行指令和处理数据，拥有复杂的四级缓存结构，以实现快速的实时响应和单任务处理。然而，这导致了在处理浮点运算时可能效率相对较低，因为它需要平衡多个指令集的负载，如多媒体解码。相比之下，GPU（图形处理器）的设计重点在于并行计算，其缓存结构较为简单，适合大量数据的批量处理。GPU特别擅长浮点运算，因为其专门设计用于此目的，使得其在处理速度上具有优势。显卡GPU还需要考虑与图形输出的兼容性，而专用的高性能GPU则更专注于浮点运算，可能不包含显示输出功能，从而专注于提升特定程序的计算能力。 CPU更关注单线程性能，追求的是指令流的连续性和低延迟，因此在控制部分的能耗较高，这限制了其在浮点运算方面的资源分配。而GPU通过牺牲部分控制部分的能耗，换取更高的并行处理能力，从而能够提供更高的吞吐量。在深度学习中，优化算法的选择至关重要，特别是在大规模训练和模型推理阶段。CPU和GPU各有优势，选择哪种平台取决于具体的应用需求，如实时性、精度要求、数据规模以及可用的计算资源。对于那些涉及大量矩阵运算和向量化操作的任务，GPU往往能提供显著的加速；而对于对延迟敏感的实时应用，CPU可能是更好的选择。理解这些差异有助于开发者根据项目特性和硬件配置来优化深度学习模型的训练和部署流程。

321

在线性支持向量机中，最优化问题可等价于

  







w,b

wbwxy

1min



上式相似于下式

 







wbywxl

其中

 

bywxl 

是 Hinge 损失函数，

可看做为正则化项。

13.14

如何进行特征选择（

feature selection

）？

13.14.1 如何考虑特征选择

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。

通常来说，从两个方面考虑来选择特征：

（1）特征是否发散：如果一个特征不发散，例如方差接近于 0，也就是说样本在这个特

征上基本上没有差异，这个特征对于样本的区分并没有什么用。

（2）特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除

移除低方差法外，本文介绍的其他方法均从相关性考虑。

13.14.2 特征选择方法分类

根据特征选择的形式又可以将特征选择方法分为 3 种：

（1）Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择

阈值的个数，选择特征。

（2）Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或

者排除若干特征。

（

）

Embedded

：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的

权值系数，根据系数从大到小选择特征。类似于 Filter 方法，但是是通过训练来确定特征的优

劣。

322

13.14.3 特征选择目的

（

）减少特征数量、降维，使模型泛化能力更强，减少过拟合；

（2）增强对特征和特征值之间的理解。

拿到数据集，一个特征选择方法，往往很难同时完成这两个目的。通常情况下，选择一种

自己最熟悉或者最方便的特征选择方法（往往目的是降维，而忽略了对特征和数据理解的目的）。

本文将结合 Scikit-learn 提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。

13.15

梯度消失

梯度爆炸原因，以及解决方法

13.15.1 为什么要使用梯度更新规则？

在介绍梯度消失以及爆炸之前，先简单说一说梯度消失的根源—–深度神经网络和反向传

播。目前深度学习方法中，深度神经网络的发展造就了我们可以构建更深层的网络完成更复杂

的任务，深层网络比如深度卷积网络，LSTM 等等，而且最终结果表明，在处理复杂任务上，

深度网络比浅层的网络具有更好的效果。但是，目前优化神经网络的方法都是基于反向传播的

思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。

这样做是有一定原因的，首先，深层网络由许多非线性层堆叠而来，每一层非线性层都可以视

为是一个非线性函数 f(x)f(x)(非线性来自于非线性激活函数），因此整个深度网络可以视为是一

个复合的非线性多元函数

我们最终的目的是希望这个多元函数可以很好的完成输入到输出之间的映射，假设不同的

输入，输出的最优解是 g(x)g(x) ，那么，优化深度网络就是为了寻找到合适的权值，满足

Loss=L(g(x),F(x))Loss=L(g(x),F(x))

取得极小值点，比如最简单的损失函数

假设损失函数的数据空间是下图这样的，我们最优的权值就是为了寻找下图中的最小值点，

对于这种数学寻找最小值问题，采用梯度下降的方法再适合不过了。

剩余44页未读，继续阅读

陈后主

粉丝: 35
资源: 340

深度学习优化算法解析：CPU与GPU差异及浮点运算对比

第十三章_优化算法1

13_第十三章_优化算法1

DeepLearning深度学习教程_第十三章_优化算法.pdf

"深度学习500问-Tan-05第五章 卷积神经网络(CNN)组成层与结构示例

T-AutoML：自动病变分割的深度学习算法

"深度学习与COVID-19诊断的优化加权平均集成技术

基于深度学习算法的PM2.5浓度预测研究：分解-集成-重构框架和深度学习效果

深度图像抠图：基于深度学习的算法解决图像抠像问题

"高增益观测器与深度学习活动识别算法的组合

证明:(1+tanα)/(1-tanα) = tan(π/4+α)

最新资源

"深度学习500问-Tan-05第五章卷积神经网络(CNN)组成层与结构示例