没有合适的资源?快使用搜索试试~ 我知道了~
首页集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf
集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf
3星 · 超过75%的资源 需积分: 41 51 下载量 180 浏览量
更新于2023-03-03
评论
收藏 267KB PDF 举报
集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdf集成学习.pdfv
资源详情
资源评论
资源推荐
集成学习综述
梁英毅
摘要 机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习的首要
热门方向[1]。集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进
行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。本文对集成学习的概念
以及一些主要的集成学习方法进行简介,以便于进行进一步的研究。
一、 引言
机器学习是计算机科学中研究怎么让机器具有学习能力的分支,[2]把机器学习的目标
归纳为“给出关于如何进行学习的严格的、计算上具体的、合理的说明”。[3]指出四类问题
的解决对于人类来说是困难的甚至不可能的,从而说明机器学习的必要性。
目前,机器学习方法已经在科学研究、语音识别、人脸识别、手写识别、数据挖掘、医
疗诊断、游戏等等领域之中得到应用[1, 4]。随着机器学习方法的普及,机器学习方面的研
究也越来越热门,目前来说机器学习的研究主要分为四个大方向[1]:
a) 通过集成学习方法提高学习精度;
b) 扩大学习规模;
c) 强化学习;
d) 学习复杂的随机模型;
有关 Machine Learning 的进一步介绍请参考[5, 1,3, 4, 6]。
本文的目的是对集成学习的各种方法进行综述,以了解当前集成学习方面的进展和问
题。本文以下内容组织如下:第二节首先介绍集成学习;第三节对一些常见的集成学习方法
进行简单介绍;第四节给出一些关于集成学习的分析方法和分析结果。
二、 集成学习简介
1、 分类问题
分类问题属于概念学习的范畴。分类问题是集成学习的基本研究问题,简单来说就是把
一系列实例根据某种规则进行分类,这实际上是要寻找某个函数
)(xfy
=
,使得对于一个
给定的实例
x
,找出正确的分类 。机器学习中的解决思路是通过某种学习方法在假设空间
中找出一个足够好的函数 来近似 ,这个近似函数 就叫做分类器[7]。
y
h
f
h
2、 什么是集成学习
传统的机器学习方法是在一个由各种可能的函数构成的空间(称为“假设空间”)中寻
找一个最接近实际分类函数 的分类器
h
[6]。单个分类器模型主要有决策树、人工神经网
络、朴素贝叶斯分类器[6]等等。集成学习的思路是在对新的实例进行分类的时候,把若干
个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类[8,
9],以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的
方法就相当于多个决策者共同进行一项决策。
f
图表 1表示了集成学习的基本思想。图表 1中
的集成分类器包括了N个单一的人工神经网络分类器,对于同样的输入,N个人工神经网络
分别给出各自的输出( ),然后这些输出通过整合以后得到集成分类器整体的
输出结果作为最终分类。
n
OOO ,,,
21
L
图表 1 人工神经网络集成示意
在各种文献中集成学习(Ensemble Learning)也被称为 committee、classifier fusion、
combination、aggregation 等等[9],但是他们都是指把一系列的学习器集成起来共同解决一
个问题。
3、 为什么集成学习有效
Thomas G. Dietterich [8, 7]指出了集成学习有效可以归为三个方面的原因:统计上、计算
上和表示上:
a) 统计上的原因
对于一般的学习任务,往往要搜索的假设空间十分巨大,但是能够用于训练分类器的训
练集中实例个数不足够用来精确地学习到目标假设,这个时候学习的结果便可能是一系列满
足训练集的假设,而学习算法之能够选择这些假设的其中之一作为学习到的分类器进行输
出。然而通过机器学习的过拟合问题[6]我们看到,能够满足训练集的假设不一定在实际应
用中有同样好的表现,这样学习算法选择哪个假设进行输出的时候就面临着一定的风险,把
多个假设集成起来能够降低这种风险(这可以理解为通过集成使得各个假设和目标假设之间
的误差得到一定程度的抵消)。
b) 计算上的原因
已经证明了在人工神经网络学习和决策树学习中,学习到最好的人工神经网络或者是决
策树是一个 NP-hard 问题[1 , 8],其他的分类器模型也面临着类似的计算复杂度的问题。这
使得我们只能用某些启发式的方法来降低寻找目标假设的复杂度,但这样的结果是找到的假
设不一定是最优的。通过把多个假设集成起来能够使得最终的结果更加接近实际的目标函数
值。
c) 表示上的原因
由于假设空间是人为规定的,在大多数机器学习的应用场合中实际目标假设并不在假设
空间之中,如果假设空间在某种集成运算下不封闭,那么我们通过把假设空间中的一系列假
设集成起来就有可能表示出不在假设空间中的目标假设。关于表示上的原因比较特别,进一
步的说明可以参考[8, 9]。
4、集成学习有效的条件
虽然以上几方面的原因使得集成学习可能取得更好的学习效果,但是并不是所有的集成
方式都有效的,集成学习有效的条件是每个单一的学习器错误率都应当低于 0.5,否则集成
的结果反而会提高错误率[11, 12, 9, 10]。
此外,进行集成学习的每个分类器还应当各不相同,这个要求可以这样理解:如果每个
基本分类器分类结果差不多,则集成后的分类器整体和单个分类器做出的决策实际上没有什
么差异,这样集成后的分类器就难以保证比单个分类器有更好的性能了。
三、 集成学习方法介绍
从前面对集成学习的介绍可以看出,考察一个集成学习方法的时候应该考虑以下几方面
的问题:
a) 基本分类器之间是什么关系?
b) 怎么样生成多个不同的基本分类器?
c) 如何把多个基本分类器的分类结果整合起来?
我们下面将以这三个问题为线索对现在主要的集成学习方法进行简单的介绍:
1、 基本分类器之间的关系
按照基本分类器之间的种类关系可以把集成学习方法划分为异态集成学习和同态集成
学习两种[10]。
a) 异态集成学习
异态集成学习指的是使用各种不同的分类器进行集成,异态集成学习的两个主要代表是
叠加法(Stack Generalization)[13]和元学习法(Meta Learning)[14]。
叠加法的思想是把基本学习器分布在多个层次上,用多层的学习器来完成学习任务
[13]。第一层学习器按照一般学习器的方式来进行分类预测,然后第一层的预测结果作为第
二层的输入由第二层再进行预测……
William W. Cohen 等在[15]中利用叠加法的思想构造了一种新的串行学习算法,并且指
出这种串行学习方法比不串行的单个学习器性能上有所改进。
[13] 中对叠加法进行了详细的介绍。
元学习法的思想是训练一个元分类器来对所有的基本学习器的输出进行处理,最终得到
问题的输出。元学习法主要有仲裁法(arbiter)和合并法(combiner)两种,仲裁法是元分
类器从所有基本分类器的输出中选择合理的结果作为输出,例如投票方式;合并法是用某种
组合方法把所有基本分类器的输出合并成最终输出,Bagging、Boosting 等集成方法都是属
于合并法。
[14]中对元学习法给出了一个综述。
关于异态分类器的进一步资料可以参考[16]。
b) 同态集成学习
同态集成学习是指集成的基本分类器都是同一种分类器,只是这些基本分类器之间的参
数有所不同。同态集成的分类器包括有朴素贝叶斯集成、决策树集成[17]、人工神经网络集
剩余17页未读,继续阅读
siwen529724604
- 粉丝: 0
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论2