决策树算法python代码

以下是一个简单的决策树算法的Python代码示例： ```python import pandas as pd # 定义数据集 data = {'Outlook': ['Sunny', 'Sunny', 'Overcast', 'Rain', 'Rain', 'Rain', 'Overcast', 'Sunny', 'Sunny', 'Rain', 'Sunny', 'Overcast', 'Overcast', 'Rain'], 'Temperature': ['Hot', 'Hot', 'Hot', 'Mild', 'Cool', 'Cool', 'Cool', 'Mild', 'Cool', 'Mild', 'Mild', 'Mild', 'Hot', 'Mild'], 'Humidity': ['High', 'High', 'High', 'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'Normal', 'Normal', 'High', 'Normal', 'High'], 'Wind': ['Weak', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Weak', 'Weak', 'Strong', 'Strong', 'Weak', 'Strong'], 'Play': ['No', 'No', 'Yes', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes', 'Yes', 'Yes', 'Yes', 'Yes', 'No']} # 转换为数据框 df = pd.DataFrame(data) # 定义决策树算法 def decision_tree(data, target_attribute_name, attribute_names, default_class=None): # 如果数据为空，返回默认类别 if not data: return default_class # 如果所有目标属性值相同，返回该属性值 elif len(set(data[target_attribute_name])) == 1: return data[target_attribute_name].iloc[0] # 如果属性集为空，则返回数据中目标属性值最普遍的值 elif not attribute_names: return data[target_attribute_name].value_counts().idxmax() # 否则，按照信息增益最大的属性进行分割 else: # 计算每个属性的信息增益 gain = {attribute: information_gain(data, attribute, target_attribute_name) for attribute in attribute_names} # 选择信息增益最大的属性 best_attribute = max(gain, key=gain.get) # 创建一个新的决策树 tree = {best_attribute: {}} # 在属性集中删除最佳属性 remaining_attributes = [i for i in attribute_names if i != best_attribute] # 对于最佳属性的每个值，递归地构建子树 for value in get_values(data, best_attribute): subtree = decision_tree( get_examples(data, best_attribute, value), target_attribute_name, remaining_attributes, default_class=get_majority_class(data, target_attribute_name)) # 将新的子树添加到树中 tree[best_attribute][value] = subtree return tree # 计算信息熵 def entropy(data, target_attribute_name): from math import log2 entropy = 0 values = data[target_attribute_name].unique() for value in values: fraction = data[target_attribute_name].value_counts()[value] / len(data) entropy += -fraction * log2(fraction) return entropy # 计算信息增益 def information_gain(data, attribute_name, target_attribute_name): from math import log2 weighted_entropy = 0 values = get_values(data, attribute_name) for value in values: subset = get_examples(data, attribute_name, value) subset_entropy = entropy(subset, target_attribute_name) fraction = len(subset) / len(data) weighted_entropy += fraction * subset_entropy return entropy(data, target_attribute_name) - weighted_entropy # 获取数据集中某个属性的所有值 def get_values(data, attribute_name): return set(data[attribute_name]) # 获取数据集中某个属性值的子集 def get_examples(data, attribute_name, value): return data[data[attribute_name] == value].reset_index(drop=True) # 获取数据集中目标属性值最普遍的类别 def get_majority_class(data, target_attribute_name): return data[target_attribute_name].value_counts().idxmax() # 测试决策树算法 attribute_names = list(df.columns[:-1]) target_attribute_name = df.columns[-1] tree = decision_tree(df, target_attribute_name, attribute_names) print(tree) ``` 该代码将输出以下决策树： ``` {'Outlook': {'Overcast': 'Yes', 'Rain': {'Wind': {'Strong': 'No', 'Weak': 'Yes'}}, 'Sunny': {'Humidity': {'High': 'No', 'Normal': 'Yes'}}}} ```

阅读全文

决策树算法python代码

相关推荐

决策树算法Python代码实现,ipynb格式

使用受 scikit-learn 启发的 API 使用遗传 算法 构建决策树_python_代码_下载

决策树python代码

决策树算法python代码实现

C4.5决策树算法的Python代码和数据样本

西电数据挖掘作业——决策树算法python实现

Python决策树算法sklearn代码 DecisionTreeClassifier示例

C4.5决策树算法的Python代码和数据样本.zip

机器学习-C4.5-决策树-算法实现-C4.5决策树算法的Python代码和数据样本.zip

tree_python.rar_python_决策树_决策树 python_决策树python_决策树算法

数据科学工具箱 - C4.5决策树算法Python实现与数据样本下载

ID3决策树的Python代码

python代码实现ID3决策树算法

决策树,决策树算法,Python源码.rar

决策树,决策树算法,Python源码.zip

python机器学习决策树算法-相关代码

文档决策树算法及Python实现

决策树 python代码

python决策树代码

大家在看

GL3231S USB4.0读卡器Layout和原理图及相关的FW

keb变频器 f5中文说明书-维修安装调试

IPC-7351 使用说明

实验二DML语言一（数据插入、修改和删除.doc

ZYNQ_7020核心板原理图.pdf

最新推荐

基于ID3决策树算法的实现(Python版)

python使用sklearn实现决策树的方法示例

STM32之光敏电阻模拟路灯自动开关灯代码固件

PHP在线工具箱源码站长引流+在线工具箱源码+多款有趣的在线工具+一键安装

PageNow大数据可视化开发平台-开源版，基于SprigBoot+Vue构建的数据可视化开发平台，灵活的拖拽式布局、支持多种数据源、丰富的通用组件.zip

简化填写流程：Annoying Form Completer插件

管理建模和仿真的文件

CC-LINK远程IO模块AJ65SBTB1现场应用指南：常见问题快速解决

使用MATLAB写一个在柱坐标系中实现以下功能的代码：1) 生成具有损耗的平面电磁波模型；2) 调整电场分量Ex和Ey的幅度和相位，以仿真三种极化的形成？

TeraData技术解析与应用

使用受 scikit-learn 启发的 API 使用遗传算法构建决策树_python_代码_下载