现实很难满足, 实际上, 个体学习器的"准确性"和"多样性"本身互为冲突, 此消彼长. 一般情况下, 准确性
很高之后, 要增加多样性就需牺牲准确性.
8.1.4 集成学习的分类
个体学习器间存在强依赖关系、必须串行生成的序列化方法, 代表是 Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法, 代表是 Bagging 和"随机森林"
(Random Forest)
8.2 Boosting
8.2.1 Boosting 的基本概念
Boosting 是一族可将弱学习器提升为强学习器的算法 . 这族算法的工作机制类似于如下:
1. 先从初始训练集训练出一个基学习器
2. 再根据基学习器的表现对训练样本分布进行调整, 使得先前基学习器做错的训练样本在后续受到更
多关注
3. 然后基于调整后的样本分布来训练下一个基学习器
4. 如此重复进行, 直至基学习器数目达到事先指定的值 , 最终将这 个基学习器进行加权结合.
8.2.2 AdaBoost 算法的数学推导(加性模型)
Boosting 族算法最著名的代表是 AdaBoost , 其描述如图 8.3 所示, 其中, , 是真实函
数.