实现
参考内容
回到顶部
1 什么是随机森林?
作为新兴起的、高度灵活的一种机器学习算法,随机森林(,简称 )拥有广泛的
应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,
也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近
几年的国内外大赛,包括 年百度校园电影推荐系统大赛、 年阿里巴巴天池大数据竞赛以及
数据科学竞赛 ,参赛者对随机森林的使用占有相当高的比例。此外,据我的个人了解来看,一大
部分成功进入答辩的队伍也都选择了 或者 算法。所以可以看出,
在准确率方面还是相当有优势的。
那说了这么多,那随机森林到底是怎样的一种算法呢?
如果读者接触过决策树(!"" )的话,那么会很容易理解什么是随机森林。随机森林就是
通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大
分支——集成学习(#$")方法。随机森林的名称中有两个关键词,一个是“随机”,一个
就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,这样的比喻还是很贴
切的,其实这也是随机森林的主要思想%%集成思想的体现。“随机”的含义我们会在下边部分讲到。
其实从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个
输入样本,& 棵树会有 & 个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指
定为最终的输出,这就是一种最简单的 "思想。
回到顶部
2 随机森林的特点
我们前边提到,随机森林是一种很灵活实用的方法,它有如下几个特点:
在当前所有算法中,具有极好的准确率'(")*!"!!)!!)
";
能够有效地运行在大数据集上'()+!";
能够处理具有高维特征的输入样本,而且不需要降维'(!),"-)
."/")."";
能够评估各个特征在分类问题上的重要性'(".",/.""-
"!"0!";
在生成过程中,能够获取到内部生成误差的一种无偏估计'(")"
","1",)""-;
对于缺省值问题也能够获得很好得结果'(2!".,""""
""!!)!/--",""
333333
1