Python实现的随机森林算法与简单总结_python代码对数据集进行划分,70%作为训练集,30%作为测试集

102 浏览量更新于2023-05-04 评论收藏 84KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

Python实现的随机森林算法与简单总结实现的随机森林算法与简单总结

本文实例讲述了Python实现的随机森林算法。分享给大家供大家参考，具体如下：

随机森林是数据挖掘中非常常用的分类预测算法，以分类或回归的决策树为基分类器。算法的一些基本要点：

*对大小为m的数据集进行样本量同样为m的有放回抽样；

*对K个特征进行随机抽样，形成特征的子集，样本量的确定方法可以有平方根、自然对数等；

*每棵树完全生成，不进行剪枝；

*每个样本的预测结果由每棵树的预测投票生成（回归的时候，即各棵树的叶节点的平均）

著名的python机器学习包scikit learn的文档对此算法有比较详尽的介绍: http://scikit-

learn.org/stable/modules/ensemble.html#random-forests

出于个人研究和测试的目的，基于经典的Kaggle 101泰坦尼克号乘客的数据集，建立模型并进行评估。比赛页面及相关数据

集的下载：https://www.kaggle.com/c/titanic

泰坦尼克号的沉没，是历史上非常著名的海难。突然感到，自己面对的不再是冷冰冰的数据，而是用数据挖掘的方法，去研究

具体的历史问题，也是饶有兴趣。言归正传，模型的主要的目标，是希望根据每个乘客的一系列特征，如性别、年龄、舱位、

上船地点等，对其是否能生还进行预测，是非常典型的二分类预测问题。数据集的字段名及实例如下：

PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked

1 0 3 Braund, Mr. Owen Harris male 22 1 0 A/5 21171 7.25 S

2 1 1

Cumings, Mrs. John Bradley

(Florence Briggs Thayer)

female 38 1 0 PC 17599 71.2833 C85 C

3 1 3 Heikkinen, Miss. Laina female 26 0 0

STON/O2.

3101282

7.925 S

4 1 1

Futrelle, Mrs. Jacques Heath

(Lily May Peel)

female 35 1 0 113803 53.1 C123 S

5 0 3 Allen, Mr. William Henry male 35 0 0 373450 8.05 S

值得说明的是，SibSp是指sister brother spouse，即某个乘客随行的兄弟姐妹、丈夫、妻子的人数，Parch指parents,children

下面给出整个数据处理及建模过程，基于ubuntu+python 3.4（ anaconda科学计算环境已经集成一系列常用包，pandas

numpy sklearn等，这里强烈推荐）

懒得切换输入法，写的时候主要的注释都是英文，中文的注释是后来补充的:-)

# -*- coding: utf-8 -*-

"""

@author: kim

"""

from model import *＃载入基分类器的代码

#ETL:same procedure to training set and test set

training=pd.read_csv('train.csv',index_col=0)

test=pd.read_csv('test.csv',index_col=0)

SexCode=pd.DataFrame([1,0],index=['female','male'],columns=['Sexcode']) ＃将性别转化为０１

training=training.join(SexCode,how='left',on=training.Sex)

training=training.drop(['Name','Ticket','Embarked','Cabin','Sex'],axis=1)＃删去几个不参与建模的变量，包括姓名、船票号，船舱号

test=test.join(SexCode,how='left',on=test.Sex)

test=test.drop(['Name','Ticket','Embarked','Cabin','Sex'],axis=1)

print('ETL IS DONE!')

#MODEL FITTING

#===============PARAMETER AJUSTMENT============

min_leaf=1

min_dec_gini=0.0001

n_trees=5

n_fea=int(math.sqrt(len(training.columns)-1))

#==============================================

'''''

BEST SCORE:0.83

min_leaf=30

min_dec_gini=0.001

n_trees=20

'''

#ESSEMBLE BY RANDOM FOREST

FOREST={}

tmp=list(training.columns)

tmp.pop(tmp.index('Survived'))

feaList=pd.Series(tmp)

for t in range(n_trees):

# fea=[] feasample=feaList.sample(n=n_fea,replace=False)#select feature

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

weixin_38539018

粉丝: 6
资源: 943

会员权益专享

Python实现的随机森林算法与简单总结

评论0

会员权益专享

最新资源

Python实现的随机森林算法与简单总结

评论0

随机森林概述

随机森林原理、示例、应用

python实现随机森林random forest的原理及方法

题目二：用numpy编写随机森林算法，并对加利福尼亚房价数据进行 预测，并展示模型评分

题目二：编写随机森林算法，并对葡萄酒数据/加利福尼亚房价数据（只选择一种即可）进行 预测，并展示模型评分，与 sklearn 自带的评估器建模结果进行对比

jupyter notebook 随机森林 遥感分类

随机森林 dataframe

数值分析房屋价格预测python实现

python 机器学习 图像识别

用python写一篇目标检测综述

房价预测python机器学习

python二分类模型

python 开发一个智能聊天

用python写一个简单的人体坐姿检测程序，对人们的 9 种常见坐姿正直、低头、左偏头、 右偏头、身体右斜、身体左斜、右手托腮、左手托腮、前趴进行分析。

在PYTHON3.11编制一段可学习的字母加数字4字符图片验证码识别程序

智能垃圾分类系统Python的技术架构

针对给定数据集ORL_Faces，提取多个图像的特征(可以采用多种特征） 并图像进行分类，分类方法自选。训练数据集和测试数据集采用随机划分的方法生成，测试样本占比为20%。图像 可以经过预处理。要求 给出程序和实验结果

随机森林的python代码

随机森林简单案例

决策树与随机森林算法,随机森林算法应用实例,Python

会员权益专享

最新资源

题目二：用numpy编写随机森林算法，并对加利福尼亚房价数据进行预测，并展示模型评分

题目二：编写随机森林算法，并对葡萄酒数据/加利福尼亚房价数据（只选择一种即可）进行预测，并展示模型评分，与 sklearn 自带的评估器建模结果进行对比

jupyter notebook 随机森林遥感分类

python 机器学习图像识别

用python写一个简单的人体坐姿检测程序，对人们的 9 种常见坐姿正直、低头、左偏头、右偏头、身体右斜、身体左斜、右手托腮、左手托腮、前趴进行分析。

针对给定数据集ORL_Faces，提取多个图像的特征(可以采用多种特征）并图像进行分类，分类方法自选。训练数据集和测试数据集采用随机划分的方法生成，测试样本占比为20%。图像可以经过预处理。要求给出程序和实验结果