《模式识别与机器学习》中文版精华解读

需积分: 10 151 浏览量更新于2024-07-19 收藏 20.59MB PDF 举报

"prml中文版 - 模式识别与机器学习中文版，是学习机器学习的经典著作" 本书《模式识别与机器学习》是机器学习领域的经典之作，由马春鹏翻译为中文，便于中文读者深入理解。书中涵盖了从概率论基础到高级机器学习算法的广泛内容，旨在帮助读者建立坚实的理论基础，并掌握实际应用技巧。 1. 概率论 - 书中的概率论部分介绍了概率密度、期望和协方差、贝叶斯概率以及高斯分布等基础知识。其中，贝叶斯概率是机器学习中重要的统计推理方法，它允许我们基于现有数据对未知参数进行更新。 2. 高斯分布 - 高斯分布是机器学习中常见的概率模型，尤其在回归和分类问题中广泛应用。书中详细讲解了如何进行曲线拟合的贝叶斯处理，以及高斯分布的性质和参数估计方法。 3. 模型选择与维度灾难 - 这些概念涉及选择最佳模型的挑战，特别是当特征数量增加时，过拟合的风险也随之增加。模型选择通常通过正则化来平衡模型复杂度和拟合程度。 4. 决策论 - 书中讨论了最小化错误分类率、最小化期望损失、拒绝选项、推断和决策等内容，这些都是构建有效机器学习模型的核心。决策论帮助我们在不确定性和风险中作出最佳选择。 5. 信息论 - 包括相对熵和互信息等概念，信息论为理解和度量数据的不确定性提供了工具，对理解和优化模型的性能至关重要。 6. 概率分布 - 书中深入探讨了二元变量、多项式变量、高斯分布及其变种，如贝塔分布、狄利克雷分布、学生t分布，以及混合高斯模型。这些分布是许多机器学习算法的基础。 7. 非参数化方法 - 核密度估计和近邻方法是非参数建模的例子，它们在没有事先假设数据分布的情况下提供了一种灵活的建模方式。 8. 回归的线性模型 - 线性模型是机器学习中最基础也最重要的模型类型之一。书中详细讲解了最小子平方方法、正则化、贝叶斯线性回归以及模型比较的方法，如证据近似，这些技术用于处理过拟合和选择最佳模型。通过以上内容，本书旨在提供一个全面的框架，让读者能够理解和应用各种机器学习方法，从基础的概率理论到高级的贝叶斯推断和决策分析。对于希望深入理解机器学习的读者来说，这本书是一份宝贵的资源。

图1.9:我们使⽤⼀个简单的例⼦来说明概率论的基本思想。有两个不同颜⾊的盒⼦，每个盒⼦中都有⽔

果，苹果⽤绿⾊表⽰，橘⼦⽤橙⾊表⽰。

⽬前我们关于多项式拟合的讨论⼤量地依赖于直觉。我们现在寻找⼀个更加形式化的⽅法解

决模式识别中的问题。我们要使⽤概率论的⽅法。概率论不仅提供了本书后续⼏乎所有章节的

基础，它也能让我们更深刻地理解本章中我们通过多项式拟合的问题引出的重要概念，能让我

们把这些概念扩展到更复杂的情况。

1.2 概率论

在模式识别领域的⼀个关键概念是不确定性的概念。它可以由测量的误差引起，也可以由数

据集的有限⼤⼩引起。概率论提供了⼀个合理的框架，⽤来对不确定性进⾏量化和计算。概率

论还构成了模式识别的⼀个中⼼基础。当与决策论（1.5节讨论）结合，概率论让我们能够根据

所有能得到的信息做出最优的预测，即使信息可能是不完全的或者是含糊的。

我们将通过⼀个简单的例⼦介绍概率论的基本概念。假设我们由两个盒⼦，⼀个红⾊的，⼀

个蓝⾊的，红盒⼦中有2个苹果和6个橘⼦，蓝盒⼦中有3个苹果和1个橘⼦（如图1.9所⽰）。现

在假定我们随机选择⼀个盒⼦，从这个盒⼦中我们随机选择⼀个⽔果，观察⼀下选择了哪种⽔

果，然后放回盒⼦中。假设我们重复这个过程很多次。假设我们在40%的时间中选择红盒⼦，

在60%的时间中选择蓝盒⼦，并且我们选择盒⼦中的⽔果时是等可能选择的。

在这个例⼦中，我们要选择的盒⼦的颜⾊是⼀个随机变量，记作B。这个随机变量可以取两

个值中的⼀个，即r（对应红盒⼦）或b（对应蓝盒⼦）。类似地，⽔果的种类也是⼀个随机变

量，记作F 。它可以取a（苹果）或者o（橘⼦）。

开始阶段，我们把⼀个事件的概率定义为事件发⽣的次数与试验总数的⽐值，假设总试验次

数趋于⽆穷。因此选择红盒⼦的概率为

，选择蓝盒⼦的概率为

。我们把这些概率分布记

作p(B = r)=

和p(B = b)=

。注意，根据定义，概率⼀定位于区间[0, 1]内。并且，如果事

件是相互独⽴的，并且包含所有可能的输出（例如在这个例⼦中，盒⼦⼀定要么是红⾊，要么

是蓝⾊），那么我们看到那些事件的概率的和⼀定等于1。

我们现在可以问这样的问题：选择到苹果的整体概率是多少？或者，假设我们选择了橘⼦，

我们选择的盒⼦是蓝盒⼦的概率是多少？我们可以回答这种问题，事实上也可以回答与模式识

别相关的⽐这些复杂得多的问题。前提是我们掌握了概率论的两个基本规则：加和规则（sum

rule）、乘积规则（product rule）。获得了这些规则之后，我们将重新回到我们的⽔果盒⼦的例

⼦中。

为了推导概率的规则，考虑图1.10所⽰的稍微⼀般⼀些的情形。这个例⼦涉及到两个随

机变量X和Y （例如可以是上⾯例⼦中“盒⼦”和“⽔果”的随机变量）。我们假设X可以取任意

的x

，其中i =1,...,M，并且Y 可以取任意的y

，其中j =1,...,L。考虑N次试验，其中我们

对X和Y 都进⾏取样，把X = x

且Y = y

的试验的数量记作n

。并且，把X取值x

（与Y 的取

值⽆关）的试验的数量记作c

，类似地，把Y 取值y

的试验的数量记作r

。

X取值x

且Y 取值y

的概率被记作p(X = x

,Y = y

)，被称为X = x

和Y = y

的联合概率

（joint probability）。它的计算⽅法为落在单元格i, j的点的数量与点的总数的⽐值，即：

p(X = x

,Y = y

(1.5)

}

图 1.10: 我们可以这样推导概率的加和规则和乘积规则：考虑两个随机变量，X，取值为{x

}，其

中i =1,...,M，和Y ，取值为{y

}，其中j =1,...,L。在这个例⼦中，我们取M =5和L =3。如果我

们考虑这些变量的总计N 个实例，那么我们将X = x

且Y = y

的实例的数量记作n

，它是对应的单元格

中点的数量。列i中的点的数量，对应于X = x

，被记作c

，⾏j中的点的数量，对应于Y = y

，被记

作r

。

这⾥我们隐式地考虑极限N →∞。类似地，X取值x

（与Y 取值⽆关）的概率被记

作p(X = x

)，计算⽅法为落在列i上的点的数量与点的总数的⽐值，即：

p(X = x

(1.6)

由于图1.10中列i上的实例总数就是这列的所有单元格中实例的数量之和，我们有c

，

因此根据公式（1.5）和公式（1.6），我们有：

p(X = x

j=1

p(X = x

,Y = y

) (1.7)

这是概率的加和规则（sum rule）。注意，p(X = x

)有时被称为边缘概率（marginal

probability），因为它通过把其他变量（本例中的Y ）边缘化或者加和得到。

如果我们只考虑那些X = x

的实例，那么这些实例中Y = y

的实例所占的⽐例被写

成p(Y = y

| X = x

)，被称为给定X = x

的Y = y

的条件概率（conditional probability）。它的

计算⽅式为：计算落在单元格i, j的点的数量列i的点的数量的⽐值，即：

p(Y = y

| X = x

(1.8)

从公式（1.5）、公式（1.6）和（1.8），我们可以推导出下⾯的关系：

p(X = x

,Y = y

= p(Y = y

| X = x

)p(X = x

) (1.9)

这被称为概率的乘积规则（product rule）。

到现在为⽌，我们相当仔细地区分随机变量（例如⽔果例⼦中的盒⼦B）和随机变量可以取

的值（例如盒⼦是红⾊时取值为r）。因此B取值为r的概率被记作p(B = r)。虽然这种记法避

免了歧义性，这种记号相当笨拙，并且在很多情况下没有必要。相反，我们简单地⽤p(B)表⽰

随机变量B的分布，p(r)表⽰这个分布对于特定的值r的估计，假定这种表达⽅式在给定上下⽂

的情况下不会造成歧义。

使⽤这种简洁的记法，我们可以⽤下⾯的形式表⽰概率论的两条基本规则：

sum rule p(X)=

p(X, Y ) (1.10)

product rule p(X, Y )=p(Y | X)p(X) (1.11)

这⾥p(X, Y )是联合概率，可以表述为“X且Y 的概率”。类似地，p(Y | X)是条件概率，可以表

述为“给定X的条件下Y 的概率”，p(X)是边缘概率，可以简单地表述为“X的概率”。这两个简单

的规则组成了我们在全书中使⽤的全部概率推导的基础。

p(B = b)=

(1.15)

注意，这两个式⼦满⾜p(B = r)+p(B = b)=1。

现在假设我们随机选择⼀个盒⼦，结果发现是蓝盒⼦。然后我们选择苹果的概率就是蓝盒⼦

中苹果的⽐例（等于

），因此p(F = a | B = b)=

。实际上，我们可以写出给定盒⼦种类的

条件下⽔果种类的全部四个概率：

p(F = a | B = r)=

(1.16)

p(F = o | B = r)=

(1.17)

p(F = a | B = b)=

(1.18)

p(F = o | B = b)=

(1.19)

还要注意，这些概率是归⼀化的，所以

p(F = a | B = r)+p(F = o | B = r)=1 (1.20)

类似地

p(F = a | B = b)+p(F = o | B = b)=1 (1.21)

我们现在使⽤加和规则和乘积规则来计算选择⼀个苹果的整体概率：

p(F = a)=p(F = a | B = r)p(B = r)+p(F = a | B = b)p(B = b)

(1.22)

使⽤加和规则，可以计算出p(F = o)=1−

。

反过来，假设我们知道被选择的⽔果是橘⼦，我们想知道它来⾃于哪个盒⼦。这需要我们在

给定⽔果种类的条件下估计盒⼦的概率分布，然⽽公式（1.16）⾄公式（1.19）给出的是在已知

盒⼦颜⾊的情形下⽔果的概率分布。我们可以使⽤贝叶斯定理来解决这种逆转的条件概率问

题：

p(B = r | F = o)=

p(F = o | B = r)p(B = r)

p(F = o)

(1.23)

根据加和规则，我们可以计算出p(B = b | F = o)=1−

。

我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前，有⼈问我们哪

个盒⼦被选中，那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率

（prior probability），因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔

果是橘⼦，我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率（posterior

probability），因为它是我们观察到F 之后的概率。注意，在这个例⼦中，选择红盒⼦的先验概

率是

，所以与红盒⼦相⽐，我们更有可能选择蓝盒⼦。然⽽，⼀旦我们观察到选择的⽔果是

橘⼦，我们发现红盒⼦的后验概率现在是

，因此现在实际上更可能选择的是红盒⼦。这个结果

与我们的直觉相符，因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多，因此观察到⽔果是橘⼦这件事

提供给我们更强的证据来选择红盒⼦。事实上，这个证据相当强，已经超过了先验的假设，使

得红盒⼦被选择的可能性⼤于蓝盒⼦。

最后，如果两个变量的联合分布可以分解成两个边缘分布的乘积，即p(X, Y )=p(X)p(Y )，

那么我们说X和Y 相互独⽴（independent）。根据乘积规则，我们可以得到p(Y | X)=p(Y )，

因此对于给定X的条件下的Y 的条件分布实际上独⽴于X的值。例如，在我们的⽔果盒⼦的例⼦

中，如果每个盒⼦包含同样⽐例的苹果和橘⼦，那么p(F | B)=P (F )，从⽽选择苹果的概率就

与选择了哪个盒⼦⽆关。

x

p(x)

P (x)

图1.12:离散变量的概率的概念可以扩展到联塑变量上的概率分布p(x)。x位于区间(x, x + δx)的概率

为p(x)δx，其中δx → 0。概率密度可以表⽰为累计密度函数P (x)的导数。

1.2.1 概率密度

既然考虑了定义在离散事件集合上的概率，我们也希望考虑与连续变量相关的概

率。我们会把我们的讨论限制在⼀个相对⾮正式的形式上。如果⼀个实值变量x的概率

落在区间(x, x + δx)的概率由p(x)δx给出（δx → 0），那么p(x) 叫做x的概率密度（probability

density）。图1.12说明了这个概念。x位于区间(a, b)的概率由下式给出：

p(x ∈ (a, b)) =

p(x) dx (1.24)

由于概率是⾮负的，并且x的值⼀定位于实数轴上得某个位置，因此概率密度⼀定满⾜下⾯两个

条件：

p(x) ≥ 0 (1.25)

∞

−∞

p(x) dx =1 (1.26)

在变量以⾮线性的形式变化的情况下，概率密度函数通过Jacobian因⼦变换为与简单的

函数不同的形式。例如，假设我们考虑⼀个变量的变化x = g(y)，那么函数f (x)就变成

了

f(y)=f(g(y))。现在让我们考虑⼀个概率密度函数p

(x)，它对应于⼀个关于新变量y的密度

函数p

(y)，其中下标的不同表明了p

(x)和p

(y)是不同的密度函数这⼀事实。对于很⼩的δx的

值，落在区间(x, x + δx)内的观测会被变换到区间(y, y + δy)中。其中p

(x)δx ≃ p

(y)δy，因此

(y)=p

(x)

= p

(g(y))|g

′

(y)| (1.27)

这个性质的⼀个结果就是，概率密度最⼤值的概念取决于变量的选择。

位于区间(−∞,z)的x的概率由累积分布函数（cumulative distribution function）给出。定义

为：

P (z)=

−∞

p(x) dx (1.28)

这满⾜P

′

(x)=p(x)，如图1.12所⽰。

如果我们有⼏个连续变量x

,...,x

，整体记作向量x，那么我们可以定义联合概率密

度p(x)=p(x

,...,x

)，使得x落在包含点x的⽆穷⼩体积δx的概率由p(x)δx给出。多变量概率

密度必须满⾜

p(x) ≥ 0 (1.29)

p(x) dx =1 (1.30)

剩余475页未读，继续阅读

录事参军

粉丝: 218
资源: 10

《模式识别与机器学习》中文版精华解读

PRML中文版.pdf

PRML中文版.mobi

prml算法的matlab实现

jupyter notebook:no module name prml

国科大 prml 课件

esl,prml 和 mlapp

载波抑制归零差分相位调制

信息论 互信息matlab

IEF评价matlab程序

请可视化和量化地解释迪利克雷分布，并推荐相关的机器学习实例和在经典机器学习书籍中的章节位置

最新资源

信息论互信息matlab