没有合适的资源?快使用搜索试试~ 我知道了~
首页[机器学习.汤姆·米切尔].McGrawHill,.Tom.Mitchell.-.Machine.Learning
资源详情
资源评论
资源推荐

序 言
机器学习这门学科所关注的问题是:计算机程序如何随着经验积累自动提高性能?近年
来,机器学习被成功地应用于很多领域,从检测信用卡交易欺诈的数据挖掘程序,到获取用
户阅读兴趣的信息过滤系统,再到能在高速公路上自动行驶的汽车。同时,这个学科的基础
理论和算法也有了重大的进展。
这本教材的目标是展现机器学习中核心的算法和理论。机器学习从很多学科吸收了成果
和概念,包括统计学、人工智能、哲学、信息论、生物学、认知科学、计算复杂性和控制论
等。我相信,研究机器学习的最佳途径是从这些学科的观点看待机器学习,并且以此来理解
问题的背景、算法以及其中隐含的假定。这些在以往很难做到,因为 在这一领域缺少包容广
泛的原始资料。这本书的主要目的就是提供这样的一份资料。
由于素材的多学科性,这本书不要求读者具有相应的知识背景,而是在必要时介绍其他
一些学科的基本概念,如统计学、人工智能、信息论等。介绍的重点是与机器学习关系最密
切的那些概念。本书可以作为计算机科学与工程、统计学和社会科学等专业的大学生或研究
生的教材,也可作为软件研究人员或从业人员的参考。指导这本书写作的两条原则为:1.
它是在校大学生可以理解的;2.它应该包含博士生在开始研究机器学习前要掌握的内容。
指导这本书写作的第三条原则是:它应该体现理论和实践两者的平衡。机器学习理论致
力于回答这样的问题“学习性能是怎样随着给定的训练样例的数量变化的?”和“对于不同
类型的学习任务,哪个学习算法最适合?”利用来自统计学、计算复杂性和贝叶斯分析的理
论成果,这本书讨论了这一类理论问题。同时本书也覆盖了很多实践方面的内容:介绍了这
一领域的主要算法,并阐明了算法的运行过程。一些算法的实现和数据可以在互联网上通过
网址 http://www.cs.cmu.edu/~tom/mlbook.html 得到。其中包括用于人脸识别的神经网络、用
于信贷分析的决策树学习、及 分析文本文档的贝叶斯分类器各自的源代码和所需数据。我很
感谢那些帮助我创建这些在线资源的同事,包括 Jason Rennie、Paul Hsiung、Jeff Shufelt、
Matt Glickman、Scott Davies、Joseph O’Sullivan、Ken Lang、Andrew McCallum 和 Thorsten
Joachims。
致谢
在写作这本书的过程中,我幸运地得到了机器学习领域很多学科分支的技术专家的帮
助。没有他们的帮助这本书是不可能完成的。我深深地感激下面的科学家们,他们花时间检
阅本书的草稿,并且以他们各自领域的专长对我进行了指导。
(……)
我也很感谢各所大学的很多讲师和学生,他们实地测试了本书的很多草稿并提出了他们
的建议。尽管没有足够的版面来感谢上百名的学生、讲师和其他测试了草稿的人,我要感谢
下面各位,感谢他们特别有帮助的建议和讨论。
(……)

我感谢 Joan Mitchell 建立了本书的索引。我也感谢 Jean Harpley 帮助编辑了很多插图。
ETP Harrison 的 Jane Loftus 帮助整理了本书的手稿。我的编辑,McGraw Hill 出版社的 Eric
Munson 在项目的整个过程中提供了鼓励和意见。
通常,一个人最该感谢的是他的同事、朋友和家庭。对于我,尤其要表达自己的感激。
我很难想象有人比我在 Carnegie Mellon 拥有更好的智者云集的环境和更多的鼎力相助的朋
友。在这些很多帮助过我的人当中,我特别感谢 Sebastian Thrun,在这个项目的自始至终,
他一直对我进行着精神鼓励、技术指导等各种支持。我的父母,与以往一样的鼓励我并在最
恰当的时候问“已经完成了吗?”最后,我一定要感谢我的家人:Meghan,Shannon 和 Joan。
他们在不知不觉中以各种方式对此书作出了贡献。这本书是献给他们的。
Tom M. Mitchell

第
1
章
绪论
自从计算机被发明以来,人们就想知道它们能不能学习。如果我们理解了计算机学习的
内在机制,即怎样使它们根据经验来自动提高,那么影响将是空前的。想象一下,在未来,
计算机能从医疗记录中学习,获取 治疗新疾病的最有效方法;住宅管理系统分析住户的用电
模式,以降低能源消耗;个人软件助理跟踪用户的兴趣,并为其选择最感兴趣的在线新
闻……。对计算机学习的成功理解将开辟出全新的应用领域,并使其计算能力和可定制性上
升到新的层次。同时,透彻地理解机器学习的信息处理算法,也会有助于更好地理解人类的
学习能力。
目前,我们还不知道怎样使计算机的学习能力和人类相媲美。然而一些针对特定学习任
务的算法已经产生。关于学习的理论认识已开始逐步形成。人们开发出了很多实践性的计算
机程序来实现不同类型的学习,一些商业化的应用也已经出现。例如对于语音识别这样的课
题,至今为止,基于机器学习的算法明显胜过其他的方法。在数据挖掘领域,机器学习算法
理所当然地得到应用,从包含设备维护记录、借贷申请、金融交易、医疗记录等类似信息的
大型数据库中发现有价值的信息。随着对计算机的理解的日益成熟,机器学习必将在计算机
科学和技术中扮演越来越重要的角色!
通过一些特定的成就我们可以看到这门技术的现状:计算机已经能够成功地识别人类的
讲话(Waibel 1989;Lee 1989);预测肺炎患者的康复率(Cooper et al. 1997);检测信用卡
欺诈;在高速公路上驾驶(Pomerleau 1989);以接近人类世界冠军的水平对弈西洋双陆棋
①
表 1-1 机器学习的一些成功应用
这样的游戏(Tesauro 1992, 1995)。已有了很多理论成果能够对训练样例数量、假设空间大
小、和学得假设错误率这三者间的基本关系进行刻画。我们正在开始获取人类和动物学习的
原始模型,用以理解它们和计算机的学习算法间的关系(例如,Laird et al. 1986;Anderson
1991;Qin et al. 1992;Chi & Bassock 1989;Ahn & Brewer 1993)。在过去的十年中无论是应
用、算法、理论,还是生物系统的研究都取得了值得注目的进步。机器学习最近的几种应用
被归纳在表 1-1 中。Langley & Simon(1995)以及Rumelhart et al.(1994)调查了机器学习
的一些其他应用。
• 学习识别人类的讲话
所有最成功的语音识别系统都使用了某种形式的机器学习技术。例如,Sphinx 系统(参见
Lee 1989)可学习特定讲话者的语音识别策略,从检测到的语音信号中识别出基本的音素
(phoneme)和单词。神经网络学习方法(例如 Waibel et al. 1989)和 隐式 马尔可夫模型(hidden
Markov model)的学习方法(例如 Lee 1989)在语音识别系统中也非常有效,它们可以让系
统自动适应不同的讲话者、词汇、麦克风特性和背景噪音等等。类似的技术在很多信号解
释课题中有应用潜力。
• 学习驾驶车辆
①
译注:一种类似飞行棋的游戏,双方各持十五子,通过掷骰子来决定棋子移动的步数。

机器学习方法已被用于训练计算机控制的车辆,使其在各种类型的道路上正确行驶。例如
ALVINN 系统(Pomerleau 1989)已经利用它学会的策略独自在高速公路的其他车辆之间奔
驰,以 70 英里的时速共行驶了 90 英里。类似的技术可能在很多基于传感器的控制问题中
得到应用。
• 学习分类新的天文结构
机器学习方法已经被用于从各种大规模的数据库中发现隐藏的一般规律。例如,决策树学
习算法已经被美国国家航空和航天局(NASA)用来分类天体,数据来自第二帕洛马天文台
太空调查(Fayyad et al. 1995)。这一系统现在被用于自动分类太空调查中的所有天体,其
中包含了 3T 字节的图像数据。
• 学习以世界级的水平对弈西洋双陆棋
最成功的博弈类(如西洋双陆棋)计算机程序是基于机器学习算法的。例如,世界最好的
西洋双陆棋程序 TD-Gammon(Tesauro 1992, 1995)是通过一百万次以上的和自己对弈来学
习其策略的。现在它的水平能与人类的世界冠军相当。类似的技术被应用于许多实际问题,
其中需要高效地搜索庞大的搜索空间。
本书针对机器学习这个领域,描述了多种学习范型、算法、理论以及应用。机器学习从
本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信
息论、哲学、生理学、神经生物学等学科的成果。表 1-2 归纳了这些学科中影响机器学习的
关键思想。本书的素材基于不同学科的成果,然而读者不必精通每一个学科。来自这些学科
的关键理论将使用非专业的词汇讲解,其中不熟悉的术语和概念会在需要时加以介绍。
表 1-2 一些学科和它们对机器学习的影响
• 人工智能
学习概念的符号表示。作为搜索问题的机器学习。作为提高问题求解能力途径的学习。使
用先验的知识和训练数据一起引导学习。
• 贝叶斯方法
作为计算假设概率的基础的贝叶斯法则。朴素贝叶斯分类器。估计未观测到变量的值的算
法。
• 计算复杂性理论
不同学习任务中固有的复杂性的理论边界,以计算量、训练样例数量、出错数量等衡量。
• 控制论
为了优化预定目标,学习对各种处理过程进行控制,学习预测被控制的过程的下一个状态。
• 信息论
熵和信息内容的度量。学习的最小描述长度方法。编码假设时,它的最佳编码和与最佳训
练序列的关系。
• 哲学
“奥坎姆的剃刀”(Occam’s razor)
①
• 心理学和神经生物学
:最简单的假设是最好的。从观察到的数据泛化的理
由分析。
实践的幂定律(power law of practice),该定律指出对于很大范围内的学习问题,人们的反
应速度随着实践次数的幂级提高。激发人工神经网络的学习模式的神经生物学研究。
• 统计学
①
译注:也称“吝啬律(Law of Parsimony’”或“节约律(Law of Economy)”,主要思想为简单的
理论(或假设)优于复杂的,因英国哲学家奥坎姆(1285~1349)频繁使用这一原则,故称为“奥坎姆剃刀”。

在估计有限数据样本上的假设精度时出现的误差(例如偏差和方差)的刻画。置信区间,
统计检验。
1.1 学习问题的标准描述
让我们从几个实际的学习任务开始研究机器学习。根据本书的目的,我们给学习一个宽
广的定义,以使其包括任何计算机程序通过经验来提高某任务处理性能的行为。更准确地讲,
定义: 对于某类任务 T 和性能度量 P,如果一个计算机程序在 T 上以 P 衡量的
性能随着经验 E 而自我完善,那么我们称这个计算机程序在从经验 E
学习。
例如,对于学习下西洋跳棋
①
西洋跳棋学习问题:
的计算机程序,它可以通过和自己下棋获取经验,它担负
的任务是参与西洋跳棋对弈,它的性能用它赢棋的能力来衡量。通常,为了很好地定义一个
学习问题,我们必须明确这样三个特征:任务的种类;衡量任务提高的标准;经验的来源。
• 任务 T:下西洋跳棋
• 性能标准 P:比赛中击败对手的百分比
• 训练经验 E:和自己进行对弈
我们可以用以上方法定义很多学习问题,例如学习手写识别、学习自动驾驶机器人汽车。
手写识别学习问题:
• 任务 T:识别和分类图像中的手写文字
• 性能标准 P:分类的正确率
• 训练经验 E:已知分类的手写文字数据库
机器人驾驶学习问题:
• 任务 T:通过视觉传感器在四车道高速公路上驾驶
• 性能标准 P:平均无差错行驶里程(差错由人类的监督裁定)
• 训练经验 E:注视人类驾驶时录制的一系列图像和驾驶指令
这里对学习的定义很宽广,足以包括大多数惯于被称为“学习”的任务,就像我们日常
①
译注:为了更好理解本例,下面简要介绍一下这种跳棋。棋盘为 8×8 方格,深色棋格不可着子。可
单步行走,亦可每步跨对方一子单跳或连跳,被跨越的子被杀出局。到达对方底线的子成为王,可回向行
走(成为王前只可前行),又可隔空格飞行。下图为西洋跳棋棋盘示例(起始状态)。
剩余281页未读,继续阅读

安全验证
文档复制为VIP权益,开通VIP直接复制

评论0