基于鸢尾花数据集的CART分类与回归算法python实现

时间: 2023-08-02 07:06:20 浏览: 96

NJUSE 大数据分析课程作业，基于python实现使用多种方法分类鸢尾花数据集，推荐算法，MovieLens数据集

以下是基于鸢尾花数据集的CART分类与回归算法的Python实现： 1. 导入必要的库和数据集 ```python import pandas as pd from sklearn.datasets import load_iris # 加载鸢尾花数据集 iris = load_iris() X = pd.DataFrame(iris.data, columns=iris.feature_names) y = pd.DataFrame(iris.target, columns=['target']) ``` 2. 定义CART分类树和回归树的函数 ```python def find_best_split(df, target): """ 找到最佳分裂点 """ best_gini = 1 best_feature = None best_value = None # 计算当前节点的Gini指数 gini = calc_gini(df[target]) # 遍历每个特征，找到最佳分裂点 for feature in df.columns: values = set(df[feature]) for value in values: left = df[df[feature] < value] right = df[df[feature] >= value] if len(left) == 0 or len(right) == 0: continue cur_gini = (len(left)/len(df))*calc_gini(left[target]) + (len(right)/len(df))*calc_gini(right[target]) if cur_gini < best_gini: best_gini = cur_gini best_feature = feature best_value = value return best_feature, best_value def build_tree(df, target): """ 构建决策树 """ # 如果只有一个类别，返回该类别 if len(set(df[target])) == 1: return df[target].iloc[0] # 如果所有特征都相同，返回出现最多的类别 if len(df.columns) == 1: return df[target].mode()[0] # 找到最佳分裂点 best_feature, best_value = find_best_split(df, target) # 构建子树 left = df[df[best_feature] < best_value] right = df[df[best_feature] >= best_value] tree = {best_feature: {}} tree[best_feature]['<' + str(best_value)] = build_tree(left, target) tree[best_feature]['>=' + str(best_value)] = build_tree(right, target) return tree ``` 3. 计算Gini指数的函数 ```python def calc_gini(y): """ 计算Gini指数 """ n = len(y) counts = y.value_counts() gini = 1 for count in counts: p = count/n gini -= p**2 return gini ``` 4. 训练CART分类树 ```python # 合并特征和标签 df = pd.concat([X, y], axis=1) # 训练CART分类树 tree = build_tree(df, 'target') ``` 5. 定义CART回归树的函数 ```python def find_best_split_regression(df, target): """ 找到最佳分裂点（回归树） """ best_mse = float('inf') best_feature = None best_value = None # 计算当前节点的均方误差 mse = calc_mse(df[target]) # 遍历每个特征，找到最佳分裂点 for feature in df.columns: values = set(df[feature]) for value in values: left = df[df[feature] < value] right = df[df[feature] >= value] if len(left) == 0 or len(right) == 0: continue cur_mse = (len(left)/len(df))*calc_mse(left[target]) + (len(right)/len(df))*calc_mse(right[target]) if cur_mse < best_mse: best_mse = cur_mse best_feature = feature best_value = value return best_feature, best_value def build_tree_regression(df, target): """ 构建决策树（回归树） """ # 如果所有样本的目标值相同，返回该目标值 if len(set(df[target])) == 1: return df[target].iloc[0] # 找到最佳分裂点 best_feature, best_value = find_best_split_regression(df, target) # 构建子树 left = df[df[best_feature] < best_value] right = df[df[best_feature] >= best_value] tree = {best_feature: {}} tree[best_feature]['<' + str(best_value)] = build_tree_regression(left, target) tree[best_feature]['>=' + str(best_value)] = build_tree_regression(right, target) return tree ``` 6. 计算均方误差的函数 ```python def calc_mse(y): """ 计算均方误差 """ n = len(y) mse = sum((y - y.mean())**2)/n return mse ``` 7. 训练CART回归树 ```python # 加载波士顿房价数据集 from sklearn.datasets import load_boston boston = load_boston() # 将数据集转换为DataFrame X = pd.DataFrame(boston.data, columns=boston.feature_names) y = pd.DataFrame(boston.target, columns=['target']) # 训练CART回归树 df = pd.concat([X, y], axis=1) tree = build_tree_regression(df, 'target') ```

阅读全文

基于鸢尾花数据集的CART分类与回归算法python实现

相关推荐

手工实现KNN和朴素贝叶斯算法对鸢尾花数据进行自动分类 完整代码+数据 可直接运行

鸢尾花数据集，用于svm分类的数据集，MATLAB和python都可用

基于鸢尾花数据集的cart分类回归算法Python代码

基于鸢尾花数据集和波斯顿房价的cart分类回归算法Python代码

基于鸢尾花的cart分类回归算法Python代码

Python实现鸢尾花数据集分类及MovieLens推荐系统课程作业

python实现cart算法鸢尾花数据集并可视化

基于鸢尾花的CART分类树和回归树的python代码并给出分析

莺尾花数据集上实现了决策树算法python源码(带数据集).zip

决策树分类算法处理鸢尾花数据.zip

决策树算法实战：鸢尾花数据集的分类应用

cart决策树算法python实现

鸢尾花分类 ID3 C4.5 CART算法，Python代码包括超参数寻优，可视化决策树

不使用sklearn中的决策树方法，编程实现决策树构建算法（建议用python语言），并对鸢尾花数据集构建决策树。

鸢尾花分类 ID3 C4.5 CART算法，Python代码包括超参数寻优，包括树的剪枝，可视化决策树

数据挖掘CART算法python代码实例

基于CART算法生成决策树 python编写

ID3,C4.5,cart树鸢尾花分类python代码，并评判效果

最新推荐

机器学习分类算法实验报告.docx

基于python与Django的网上购物平台

数据库设计管理课程设计系统设计报告(powerdesign+sql+DreamweaverCS)超市管理系统设计与开发2

基于springboot的物流管理系统源码数据库文档.zip

深入浅出：自定义 Grunt 任务的实践指南

管理建模和仿真的文件

数据可视化在缺失数据识别中的作用

ABB机器人在自动化生产线中是如何进行路径规划和任务执行的？请结合实际应用案例分析。

网络物理突变工具的多点路径规划实现与分析

"互动学习：行动中的多样性与论文攻读经历"

手工实现KNN和朴素贝叶斯算法对鸢尾花数据进行自动分类完整代码+数据可直接运行