吴恩达机器学习课件翻译：详解概率理论与监督学习方法

5星 · 超过95%的资源需积分: 9 55 浏览量更新于2024-07-21 收藏 2.22MB PDF 举报

吴恩达教授在斯坦福大学的《机器学习》公开课上深入浅出地讲解了机器学习的核心概念和方法。这门课程的主要目标是让学习者理解如何通过数据驱动的方式解决实际问题，利用概率理论和决策理论构建精确且量化的预测模型。以下是课程内容的概要： 1. **机器学习的动机与应用** - 定义机器学习：通过计算机系统从数据中自动学习规律，提升对未知数据的预测能力。 - 基础需求与应用领域：介绍所需的基本数学知识（如概率论、统计学）及其在推荐系统、图像识别、自然语言处理等领域的应用。 2. **监督学习与梯度下降** - 监督学习：一种学习方式，通过已标记的数据训练模型，如线性回归（最小均方算法）和逻辑回归。 - 梯度下降：优化算法，通过计算损失函数的梯度调整模型参数，如标准方程组推导和概率解释。 3. **欠拟合与过拟合** - 这些概念用于评估模型性能，欠拟合指模型复杂度过低，无法捕捉数据中的关键特征；过拟合则指模型过度拟合训练数据，导致泛化能力差。 - 局部加权线性回归和回归模型的概率解释有助于理解这些概念。 4. **牛顿法与广义线性模型** - 牛顿法用于寻找最优解，如在GLM（广义线性模型）中的应用。 - 广义线性模型包括指数族分布，如伯努利、泊松和伽马分布，以及Softmax回归，用于多分类问题。 5. **生成学习算法** - 生成学习关注的是学习数据的生成过程，如高斯判别模型和朴素贝叶斯。 - GDA（Generative Discriminative Algorithm）与Logistic回归的关系，以及朴素贝叶斯模型的原理和拉普拉斯平滑。 6. **朴素贝叶斯算法** - 作为文本分类的重要方法，朴素贝叶斯常用于邮件过滤、情感分析等场景。 - 与神经网络和支持向量机的比较，强调其简洁性和在特定问题中的高效性。 7. **最优间隔分类器** - 通过最大化间隔（如几何间隔）来构建分类器，例如支持向量机，以提高模型的泛化能力和稳定性。整个课程围绕着概率理论和决策理论，从基础概念到实际应用，深入探讨了监督学习、非监督学习和优化方法在机器学习中的关键作用。虽然翻译稿可能存在一定的局限性，但它为学习者提供了一个理解和实践机器学习的框架，适合进一步研究和探索。

4. 牛顿法与广义线性模型

4.1. 牛顿法求解最优值

在上面优化 cost function 的时候，我们采用了梯度下降法。在这里，我们采用另外一

种方法求解 󰇛󰇜的最小值(极小值)牛顿法()。

首先，选择一个接近函数 f(x)零点的 x

，计算相应的 f(x

)和切线斜率 f'(x

)(这里 f'表

示函数 f的导数)。然后我们计算穿过点(x

, f(x

))并且斜率为 f'(x

)的直线和 x轴的交点的

x坐标，也就是求如下方程的解：

f(x

) = (x

-x) * f'(x

)

我们将新求得的点的 x坐标命名为 x

，通常 x

会比 x0 更接近方程 f(x)=0的解。因

此我们现在可以利用 x

开始下一轮迭代。迭代公式可化简为如下所示：

n+1

= x

- f(x

) / f'(x

)

已经证明，如果 f'是连续的，并且待求的零点 x是孤立的，那么在零点 x周围存在一

个区域，只要初始值 x

位于这个邻近区域内，那么牛顿法必定收敛。并且，如果 f'(x)不

为 0, 那么牛顿法将具有平方收敛的性能. 粗略的说，这意味着每迭代一次，牛顿法结果的

有效数字将增加一倍。

回归到最大似然函数优化 󰇛󰇜(或 󰇛󰇜)，求解 󰇛󰇜的最大值也就相当于令 󰇛󰇜对 

的导数为 0，即求解 使得 󰇛󰇜，那么牛顿法迭代的过程就会变为：



:= 

 󰇛󰇜󰇛󰇜(一阶导数除以二阶导数)

其中 := 表示更新时的赋值。需要注意的是，无论是求解最大值还是最小值，该迭代

公式都是减号。(求取的极值，既可以是极大值也可以是极小值)

以上讨论的 都是一个值，而有时候 也可能是一个矩阵，比如在选择多个特征的线

性回归模型中。当 是一个矩阵的时候，牛顿法需要变换如下：



1





󰇛󰇜

其中，



()表示 ()对 的偏微分矩阵，而 H是一个 n*n 的矩阵(n表示特征数目，

实际上因加上截距项，常为(n+1)*(n+1))，称之为海森矩阵(hessian矩阵)，这里表示

()对 的偏微分后再对 的偏微分，定义如下：





󰇛󰇜









通常而言，牛顿法比批量梯度下降法收敛速度要快(牛顿法没有学习系数，且采用了

二阶导数)，但是由于需要求解 hessian矩阵逆矩阵，因此计算量较大，故牛顿法不适合 n

较大(特征较多)的优化求解。当使用牛顿法来优化 logistic模型中的 󰇛󰇜时，该方法又称

为费歇尔得分(fisher scoring)。

4.2. 广义线性模型

目前为止，我们讲解了一个回归模型和一个分类模型，在线性回归模型中，我们假设

 󰇛

)，在分类模型中，我们假设  Bernoulli()，其中 均是 x和 

的函数。然而，这两个模型只是一个广义线性模型(Generalized Linear Models)下的两种情

况而已。

4.2.1. 指数族分布

我们指定一类分布：

󰇛󰇜󰇛󰇜󰇛

󰇛󰇜󰇛󰇜󰇜

其中，称为该分布的自然参数(natural parameter)或标准参数(canonical parameter)，

通常是一个实数(也可能是实数矩阵，注意转置符号)；而 T(y)称之为充分统计量

(sufficient statistic)，统计量，依赖且只依赖于样本 y



，它不含总体分布的任何未知

参数，通常情况下 T(y) = y；󰇛󰇜是累计函数(cumulant function，log partition function

或 normalization factor)，󰇛󰇛󰇜󰇜主要是为了归一化，保证 󰇛󰇜的值在 0-1之间。

指数族分布主要是 a,b,T三个函数，而参数是 ，不同的 值将会得到不同的概率分布，

接下来分别以伯努力分布和高斯分布为例。

以伯努力(Bernoulli)分布为例：伯努力随机变量只有两个值 y 󰇝󰇞，假设伯努力分

布服从均值为 的 󰇛󰇜，那么 󰇛󰇜，󰇛󰇜- ，综合起来就是如下：

󰇛󰇜

󰇛󰇜



= 󰇛󰇛󰇜󰇛-󰇜󰇛󰇜 )

=exp( 󰇛󰇜󰇛 󰇜󰇛󰇛- 󰇜) )

= exp( 󰇛󰇛- 󰇜󰇛 󰇜󰇜

对比指数族分布，我们可以得到：󰇛󰇛- 󰇜，反过来由 可以求得 

1/( 1+exp(-󰇜 )(恰好是 sigmoid函数)。继续把 b,a,T求解完整，那么 T(y) = y，󰇛󰇜

󰇛󰇜󰇛󰇛󰇜󰇜， b(y) = 1。即伯努力分布可以是指数族分布的一种。

同样，我们考虑高斯分布。在推导回归问题的时候，我们提到最终的结果与高斯分布

中的 

没有关系，因此可以随意选择方差值，这里为了方便计算设定 

=1，那么：

󰇛󰇜







󰇡

󰇛󰇜





󰇢







󰇡

󰇛









󰇢







󰇡







󰇢󰇡







󰇢

因此，可以得到：，T(y) = y，󰇛󰇜



/2，b(y) =







󰇡







󰇢

当然还有很多其他的分布，比如泊松分布(Poisson，适合于描述单位时间内随机事件

发生的次数的概率分布，如某一服务设施在一定时间内受到的服务请求的次数，电话交换

机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、

DNA序列的变异数、放射性原子核的衰变数等等)，伽马分布(gamma，伽玛函数可将整数

拓展到了实数与复数域上)，指数分布(exponential，指数分布可以用来表示独立随机事件

发生的时间间隔，比如旅客进机场的时间间隔、时间序列问题等等)，贝塔分布(beta)，狄

利克雷分布(Dirichlet)等等。

4.2.2. 广义线性模型结构

不管是回归问题还是分类问题，我们可以推广到：预测一个随机变量 y,且 y是 x的函

数。为了推倒广义线性回归模型(GLM),我们需要以下三个假设：

1)  ExponentialFamily() ，假设试图预测的变量 y在给定 x，以 作为

参数的条件概率，属于以 作为自然参数的指数分布族。

2) 对于给定的 x，我们的目标是预测 T(y)的期望值。在我们的很多例子中，T(y)

= y，这就意味着我们通过学习到的假设(hypothesis)的预测结果 h(x)满足 h(x)

= E[y|x]。

3) 自然参数 与 x是线性关系，即 

x。

为了证明普通最小二乘法和 logistic回归是 GLM的一种特殊情况，我们使用 GLM的基

本假设重新推倒一下最小二乘法和 logistic回归。

对于普通最小二乘法，根据 GLM的第一个假设，我们有对于给定的 x,y服从高斯分布

󰇛

)，根据假设二和假设三，我们知道 h



(x) 󰇟󰇠

x；(其中 

在上一小节已经求得)。

同样对于 logistic回归，我们假设对于给定的 x，y服从伯努力分布，即 

Bernoulli()。对于 ，我们已经求得 󰇛󰇛-)) 。根据假设二和假设三，h



(x)

󰇟󰇠󰇛exp(-)) = 1/(1 + exp(-

x))。

更技术上的来说，对于 󰇛󰇜󰇟󰇛󰇜󰇠而言，g是自然参数 的函数，称之为正则响

应函数(canonical response function)，而对于 g

-1

则称之为正则关联函数(canonical link

function)。这样看，对于指数分布组而言正则响应函数只是辨别函数，比如对于伯努力分

布而言就是 logis+tic函数。

4.2.3. Softmax 回归

这里我们考虑一个更复杂的 GLM模型。对于分类问题，我们这里分类结果不是二元

分类，而是有 k个分类结果，即 󰇝󰇞，比如对于邮件分类，我们不想分成垃圾

邮件和非垃圾邮件，而是分成私人邮件，工作邮件和垃圾邮件。对于我们的响应变量(目

标变量)y仍然是离散的，不过数量超过两个，这里我们采用多项分布(multinomial

distribution)来分析。

为了推导出符合多分类的广义线性模型，我们需要让参数多项话。参数多项化的一种

方式是设定 k个参数分别为 



，来应对每一个分类结果的概率。但是这样的结果

可能是冗余的，更准确的说是不能保证各个结果之间的相互独立性(因为我们知道概率之

和等于一，即所有 

之和等于 1，那么最后一个类的参数值将会由之前的类的参数值决

定)。因此，我们只需要设定 k-1个参数 



k-1

，而 

= 1  󰇛

)，但是我们需要

注意的是：我们知道 

的值，但是 

并不是我们设定的参数。

为了更好的表示多项式指数族分布，我们定义 T(y)

k-1

，如下：

与之前不同，不再有 T(y) = y，而且 T(y)是一个 k-1维度的向量，(T(y))

表示向量

T(y)的第 i个元素。这里我们引入一种表达表达方式，1{·}表示如果大括号里为真，则结

果为 1，比如(1{True} = 1, 1{False} = 0，1{2 = 3} = 0。由此，我们找到了 T(y)与 y之间

的关系，T(y)

= 1{y = i}。因此，E[(T(y))

󰇠󰇛󰇜

。

因此，在多元广义回归模型下，我们根据独立事件概率乘法原则有：

󰇛󰇜 = 



󰇝󰇞





󰇝󰇞





󰇝󰇞

=



󰇝󰇞





󰇝󰇞









󰇝󰇞





= 



󰇛󰇜







󰇛󰇜











󰇛󰇜







= exp((T(y))

󰇛

) + (T(y))

󰇛

) +· · · +󰇛 





󰇛



󰇜







󰇜󰇛

))

= exp((T(y))

󰇛



) + (T(y))

󰇛



) + · · ·

+ (T(y))



󰇛



󰇜󰇛

))

󰇛󰇜󰇛

󰇛󰇜󰇛󰇜󰇜

因此，针对参数有如下结果：

对于 1至 k-1，

󰇛



)，转换一下结果为：󰇛

󰇜



，继续转换得到，



󰇛

󰇜

，根据 󰇛

) = 1，因此可以得到：





󰇛



󰇜





󰇛

) = 1

因此， 󰇛

) /



󰇛



󰇜





，该方程将 

和 

联系起来了，称之为 softmax 函

数。为了完成该模型，我们使用假设三，即对于 i从 1 到 k-1，

= 



x，其中 

n+1

。

此外，我们可以假设



=0，那么就像之前的矩阵，

= 



x = 0。因此，针对于给定 

的 y的条件概率：

󰇛󰇜

󰇛

) /



󰇛



󰇜





= exp(



x) /





󰇛







󰇜





这个针对于 󰇝󰇞的多元分类模型，称之为 softmax 回归(softmax regression)。

剩余106页未读，继续阅读

chrispher2012

粉丝: 0
资源: 2

吴恩达机器学习课件翻译：详解概率理论与监督学习方法

机器学习笔记（吴恩达视频翻译）

吴恩达机器学习课件

Coresera 吴恩达 机器学习系列课程课件及编程练习题

吴恩达机器学习python代码

我需要吴恩达机器学习的课后习题

吴恩达机器学习PPT

吴恩达机器学习jupyter notebook代码

coursera吴恩达机器学习

吴恩达机器学习sklearn

吴恩达机器学习juypter

最新资源

Coresera 吴恩达机器学习系列课程课件及编程练习题