机器学习：迈向自主与广泛应用

机器学习

需积分: 10 23 浏览量更新于2024-07-20 2 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

 S’



{s’ | s’ 为 s 的最小一般化



s’

与

一致



中某成员比

s’

更（严格）一般

}

 S  S S’



从

中剪除比

中另一个假设更（严格）一般的所有假设

如果

是负例则



从

中剪除所有与

不一致的假设



对

中每一个与

不一致的假设



将

从

中剪除

 G’



{g’ | g’ 为 g 的最小特殊化



g’

与

一致



中某成员比

g’

更（严格）特殊

}

 G  G G’



从

中剪除比

中另一个假设更（严格）特殊的所有假设



例子：再次考虑本章前面的简单表示方式的例子：

Sunny Warm Normal Strong Warm Same

正

Sunny Warm High Strong Warm Same

正

Rainy Cold High Strong Warm Change

负

Sunny Warm High Strong Cool Change

正

候选剪除算法的运行历史如下：

= {

<?, ?,

…

, ?>}

= {

, , …, 

遇正例

: G

= G

（不变）

s =

, , …, 

S’ = {

Sunny Warm Normal Strong Warm Same

}

= {

Sunny Warm Normal Strong Warm Same

遇正例

: G

= G

（不变）

s =

Sunny Warm Normal Strong Warm Same

S’ = {

Sunny Warm ? Strong Warm Same

}

= {

Sunny Warm ? Strong Warm Same

遇负例

: S

= S

（不变）

g =

<?, ?,

…

, ?>

G’ = {

Sunny ?????

>,<

?Warm ????

>,<

?? Normal???

??? Weak??

>, <

???? Cool?

>, <

?????Same

}

标记

为负例的比

特殊一点的假设集合（利用第

个条件，

去掉不能覆盖前面正例的那些假设）

= {

Sunny ?????

>,<

?Warm ????

>,<

?????Same

}

= {

Sunny ?????

>,<

?Warm ????

>,<

?????Same

}

遇正例

: G

= {

Sunny ?????

>,<

?Warm ????

>,<

?????Same

}

s =

Sunny Warm ? Strong Warm Same

S’ = {

Sunny Warm ? Strong ? ?

}

= {

Sunny Warm ? Strong ? ?

输出

和

，这两个界集合划定了整个的版本空间（含

个与训练例一致

的假设）：

特殊界

= {

Sunny Warm ? Strong ??

中间

{

Sunny ? ? Strong ??

> <

Sunny Warm ????

> <

? Warm ? Strong ??

一般界

= {

Sunny ?????

>,<

?Warm ????

}

本例的结果与训练例的次序无关。当遇到更多的训练例时，

和

将单调地

越来越靠近，划定越来越小的版本空间。

算法的讨论

．收敛性。

若训练例无错，且目标概念包含在

中，则此算法计算出的版本空间收

敛于目标概念。（因为每一个训练例均排除一些对目标概念的模糊认识，

当充分多的训练例被观察到时，

和

这两个界将收敛于同一个假设，它

就是那个包含在

中的目标概念）。

．噪音处理。

此算法不能处理噪音。例如，若正例

被错标为负例，则目标概念与

不

一致，按算法步骤目标概念将被剪除，从而不可能计算出正确的目标概念。

关于噪音，本算法只有一点可以做到：若训练例中有噪音

或

目标概念不包

含在

中（假设

的表示方式无法描述目标概念），当有充分多的训练

例被观察到时，

和

这两个界将收敛于空集，即版本空间为空，表明

中没有与所有训练例一致的假设。

．训练例的次序。

如果学习系统能够自己做实验生成例子并通过请教外部教师知道生成的

例子是正是负，我们说该系统能够

查询

。假定系统已经计算出上面的含有

个假设的版本空间，下一步应该查询什么（即生成什么例子来请教外部

教师）？最理想的例子

应被版本空间中一半的假设判为真，被另一半

的假设判为假。无论教师说

是正例还是负例，算法必将把版本空间缩

小一半。例如在我们的简单实例中，

为<

Sunny Warm Normal weak Warm

Same

>。如果这样的

总是可以确定，系统只要做

 log

‖



次实验

就能发现目标概念。可惜，在多数问题里难以确定恰与版本空间中一半的

假设匹配的实例，所以通常要做多于

 log

‖



次实验才能找到目标

概念。

．未完全学习出的概念的应用。

当版本空间尚含有多个假设时，目标概念尚未完全学习出来。但是，仍然

可以用这个部分学习出的概念来判别新的例子。在特殊情况下判别的可信

度如同用真正的目标概念来判别时一样；多数情况下可信度会降低，但我

们可以给出可信度的度量。

例如在我们的简单实例中，用部分学习到的含

个假设版本空间来判

别下面

个新例子：

Sunny Warm Normal Strong Cool Change

正

负？

Rainy Cold Normal Light Warm Same

正

负？

Sunny Warm Normal Light Warm Same

正

负？

Sunny Cold Normal Strong Warm Same

正

负？

因为版本空间的所有假设均认为

是正例，所以目标概念也将判它为正

例。

因为版本空间的所有假设均认为

是负例，所以目标概念也将判它为负

例。

因为版本空间的假设一半认为

是正例，一半认为

是负例，所以

应

该被选择为下一个

查询

。

因为版本空间的假设

1/3

认为

是正例，

2/3

认为

是负例，所以

应该

按多数的意见被判定为负的，其可信度可置为

0.667

（若

中所有假设具

有相等的先验概率）。

2．6 归纳偏向

本节在候选剪除算法的框架下讨论归纳学习的几个根本问题，但结论对任何

概念小系统均有效。这些根本问题为：目标概念不在假设空间里怎么办？是否应

该使用包含一切可能假设的空间？假设空间的大小如何影响必须观察到的例子的

数量？假设空间的大小如何影响算法判别非训练例子的能力？

．

有偏向与无偏向的概念学习

在我们简单的表示方式中，对假设空间已经有了偏向：只认为那些表达为施

加于对象的各个属性的约束（

/?/



）的合取式是可能的假设。在此偏向下，

很普通的概念如（



,sky=sunny or sky=cloudy）也表达不了。回到以

前我们考察过的训练例：

Sunny Warm Normal Strong Warm Same

正

Cloudy Warm Normal Strong Warm Same

正

Rainy Warm Normal Strong Warm Same

负

则

中不含有正确的目标概念

（即

无法用简单的表达方式表示），候选剪除

算法返回空版本空间。

我们来看一看这个偏向究竟有多大。设实例问题中对象的六个属性分别可取

2,2,3,2,2,2 个值。对象空间

中共有 2*2*3*2*2*2=96 个对象，即‖

‖=96。每

一个可能的概念是

的一个子集，所有可能的概念总数为

的子集的个数

‖

10

。而简单的表示方式（合取式）只能表达

3*3*4*3*3*3+1=973

种可能的

假设（即可能的概念），即偏向的假设空间

只是完全的假设空间

H’

（可用简

单假设的任意合取，析取，非操作联合操作来表达）极小的一部分，亦即偏向是

极为严重的。

如果我们使用无偏向的假设空间

H’

，目标概念的表达问题是解决了，但又会

出来另一个同样麻烦的问题：候选剪除算法对训练例将不能做任何一般化工作。

换句话说，版本空间不能判定任何非训练例，为了收敛到目的概念，只有将所有

的例子均作为训练例！因为在

H’

的情况下，特殊界

中只有一个假设



观察到的

正例的析取，一般界

中也只有一个假设



观察到的负例的析取式的非。如果用

这样的版本空间

去判别任何非训练例

，

中总是一半假设将

判为正例，另

一半将

判为负例（设

hVS

判

为正，则有

h’  H’

，它判

为负，此外与

毫

无二致，故

h’

和

一样也与所有训练例一致，即

h’VS

），我们没有得到任何信

息。只有将所有的例子均作为训练例，才能得到目标概念。这样的学习显然是毫

无用处的。

．

归纳偏向的形式化定义

从上面的讨论我们可得出所谓

归纳学习的基本性质

：无偏见即无预言。（学

习系统若对目标概念无任何偏见，它也就没有任何依据去判别未见实例）。可见

偏见对于归纳学习来说是必不可少，至关重要的。首先，我们需要给归纳偏见一

个更严格的定义。

定义。

设有

：对象集

：

上的任一目标概念

：

的任意（无错的）训练数据集

{

x, c(x)

}

：概念学习算法（包括它所搜索的假设空间

）

：任一个对象

 X

L(x, D

)

：学习算法

完成在

上的训练之后对

的明确判定

则满足下面条件的最小限制

称为

的

归纳偏向

：



x, c,



x) ├ L(x, D

)



简单地说，学习算法

的归纳偏向

是使

对非训练例

的判别结果可靠的

附加条件。对未见例子的判别结果本是归纳推理的结果，一般不能保证是演绎推

理的结果。但是，用归纳偏向作为附加前提，归纳成为演绎。也就是说，如果归

纳偏向成立，学习算法对未见例所做出的判别都是正确的；但如果归纳偏向不成

剩余81页未读，继续阅读

QQ274827185

粉丝: 21
资源: 79

机器学习：迈向自主与广泛应用

AndrewNg 主讲 Machine Learning 官方 真实 讲义

机器学习MachineLearning讲义问题以及解答

Coursera 机器学习课程 Machine Learning Andrew Ng Stanford 讲义合集 lectures

机器学习machine learning 研究如何使计算机

amazon machine learning

pattern recognition and machine learning学习笔记

machine learning bishop pdf

Statistics and Machine Learning Toolbox

statistics and machine learning toolbox

machine learning for beginners下载

introduction to machine learning csdn 下载

现有rule-based learning和machine learning的差异点

machine learning mastery with r

foundations of machine learning答案

python machine learning machine and

machine learning an algorithmic perspective中文版

where can I get the latest information on machine learning?

mathematica for machine learning笔记

real world machine learning csdn

Machine learning knowledge outline

最新资源

AndrewNg 主讲 Machine Learning 官方真实讲义