![](https://csdnimg.cn/release/download_crawler_static/88411859/bg5.jpg)
2.机器学习基础
--
梯度下降法
(批量)梯度下降法在每次迭代都需计算每个样本上损失函数的梯度并加和,计算复杂度较
大;为了降低迭代的计算复杂度,可以每次迭代只采集一个样本,计算该样本的损失函数
的梯度并更新参数,即随机梯度下降法。
小批量梯度下降法(Mini-Batch Gradient Descent)是批量梯度下降和随机梯度下 降的折
中。每次迭代时,随机选取一小部分训练样本来计算梯度并更新参数,这样既 可以兼顾
随机梯度下降法的优点,也可以提高训练效率。
提前停止法:验证集上错误率不再下降,就停止迭代。
--
过拟合和欠拟合
欠拟合:模型不能很好地拟合训练数据, 在训练集上的错误率比较高。一般是由于模型
能力不足造成的,说明其对训练样本的一般性质尚未学好。
过拟合:学习器把训练样本学习得“太好”,将训练样本本身的特点当做所有样本的 一
般性质,导致泛化性能下降。往往是由于训练数据少和噪声以及模型能力强等原因造成。
--
正则化
限制模型能力,使其不要过度地最小化经验风险,所有损害优化的方法都是正则化。
1 增加优化约束(L1/L2 约束、数据增强)/ 2 干扰优化过程(权重衰减、随机梯度下
降、提前停止)
--最小化期望错误等价于最小化偏差和方差之和
--Logistic
回归(熵、交叉熵)
熵:在信息论中,熵用来衡量一个随机事件的不确定性。熵越高,则随机变量的信息越
多;熵越低,则随机变量的信息越少 。
交叉熵:交叉熵是按照概率分布 q 的最优编码对真实分布为 p 的信息进行编码的长度。
给定
的情况下,p 和
越接近,交叉熵越小。p 和
越远,交叉熵就越大。
KL 散度:用概率分布
来近似
时所造成的信息损失量。
参数学习:Logistic 回归采用交叉熵作为损失函数,并用梯度下降法来对参数进行优化。
--
多分类问题
1“一对其余”方式:把多分类问题转换为 C 个“一对其余”的二分类问题。这种方式共需
要 C 个判别函数,其中第 c 个判别函数将类别 c 的样本和不属于类别 c 的样本分开。
2“一对一”方式:把多分类问题转换为 C(C-1)/2 个“一对一”的二分类问题。这种方式
共需要 C(C-1)/2 个判别函数,其中第(i,j)个判别函数是把类别 i 和类别 j 的样本分开。
“一对其余”和“一对一”都有一个缺陷:特征空间中会存在一些难以确定类别的区域。
3“argmax”方式:一种改进的“一对其余”方式,共需 C 个判别函数。对于样本
,若存
在一个类别
,相对于所有其他类别
1(
1≠
)有
c(
;
)>
c1(
,
),则
属于类别
。
从多类线性可分的定义可知,如果数据集是多类线性可分的,那么一定存在一个
“argmax”方式的线性分类器可以将它们正确分开。
--
Softmax 回归
Softmax 回归,也称为多项 (Multinomial) 或多类(Multi-Class)的 Logistic 回归。