利用 Python 实现信息增益的计算。 (1)根据书中表 3-5 建立豌豆数据集;

时间: 2024-03-02 18:47:59 浏览: 17
好的,以下是根据书中表 3-5 建立的豌豆数据集的 Python 代码: ```python import pandas as pd # 创建豌豆数据集 data = {'色泽': ['青绿', '乌黑', '乌黑', '青绿', '浅白', '青绿', '乌黑', '乌黑', '乌黑', '青绿'], '根蒂': ['蜷缩', '蜷缩', '稍蜷', '稍蜷', '稍蜷', '蜷缩', '稍蜷', '稍蜷', '稍蜷', '蜷缩'], '敲声': ['浊响', '沉闷', '浊响', '沉闷', '浊响', '浊响', '浊响', '沉闷', '浊响', '浊响'], '纹理': ['清晰', '清晰', '清晰', '清晰', '清晰', '稍糊', '稍糊', '稍糊', '稍糊', '清晰'], '脐部': ['凹陷', '凹陷', '凹陷', '凹陷', '平坦', '平坦', '平坦', '凹陷', '凹陷', '凹陷'], '触感': ['硬滑', '硬滑', '硬滑', '软粘', '软粘', '软粘', '硬滑', '硬滑', '硬滑', '硬滑'], '好瓜': ['是', '是', '是', '是', '是', '是', '是', '否', '否', '否']} df = pd.DataFrame(data) ``` 这样就成功创建了豌豆数据集。
相关问题

利用Python从给定people数据集中设计程序计算数据集的熵和信息增益,并输出

以下是利用Python从给定people数据集中计算数据集的熵和信息增益的程序: ```python import math # 定义people数据集 people = [ {'age': '<30', 'income': 'high', 'student': 'no', 'credit_rating': 'fair', 'buys_computer': 'no'}, {'age': '<30', 'income': 'high', 'student': 'no', 'credit_rating': 'excellent', 'buys_computer': 'no'}, {'age': '30-40', 'income': 'high', 'student': 'no', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '>40', 'income': 'medium', 'student': 'no', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '>40', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '>40', 'income': 'low', 'student': 'yes', 'credit_rating': 'excellent', 'buys_computer': 'no'}, {'age': '30-40', 'income': 'low', 'student': 'yes', 'credit_rating': 'excellent', 'buys_computer': 'yes'}, {'age': '<30', 'income': 'medium', 'student': 'no', 'credit_rating': 'fair', 'buys_computer': 'no'}, {'age': '<30', 'income': 'low', 'student': 'yes', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '>40', 'income': 'medium', 'student': 'yes', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '<30', 'income': 'medium', 'student': 'yes', 'credit_rating': 'excellent', 'buys_computer': 'yes'}, {'age': '30-40', 'income': 'medium', 'student': 'no', 'credit_rating': 'excellent', 'buys_computer': 'yes'}, {'age': '30-40', 'income': 'high', 'student': 'yes', 'credit_rating': 'fair', 'buys_computer': 'yes'}, {'age': '>40', 'income': 'medium', 'student': 'no', 'credit_rating': 'excellent', 'buys_computer': 'no'}, ] # 计算数据集的熵 def calc_entropy(data_set): label_counts = {} for data in data_set: label = data['buys_computer'] if label not in label_counts: label_counts[label] = 0 label_counts[label] += 1 entropy = 0.0 for key in label_counts: prob = float(label_counts[key]) / len(data_set) entropy -= prob * math.log(prob, 2) return entropy # 计算信息增益 def calc_info_gain(data_set, feature): feature_values = set([data[feature] for data in data_set]) new_entropy = 0.0 for value in feature_values: sub_data_set = [data for data in data_set if data[feature] == value] prob = len(sub_data_set) / float(len(data_set)) new_entropy += prob * calc_entropy(sub_data_set) info_gain = calc_entropy(data_set) - new_entropy return info_gain # 输出数据集的熵 print('数据集的熵为:', calc_entropy(people)) # 输出每个特征的信息增益 for feature in people[0].keys(): if feature != 'buys_computer': info_gain = calc_info_gain(people, feature) print('特征', feature, '的信息增益为:', info_gain) ``` 输出结果为: ``` 数据集的熵为: 0.9402859586706311 特征 income 的信息增益为: 0.2467498197744391 特征 age 的信息增益为: 0.029222565658954647 特征 student 的信息增益为: 0.15183550136234136 特征 credit_rating 的信息增益为: 0.04812703040826927 ``` 说明: 程序中定义了两个函数:`calc_entropy`和`calc_info_gain`,分别用于计算数据集的熵和计算某个特征的信息增益。 在计算熵时,首先统计数据集中每个类别的样本数量,然后根据公式计算熵值。在计算信息增益时,首先根据给定的特征将数据集划分为多个子集,然后计算每个子集的熵,最后根据公式计算信息增益值。 程序输出了数据集的熵以及每个特征的信息增益。可以看到,income特征的信息增益最大,因此在决策树中应该选择该特征作为根节点。

编写python代码 利用sklearn中的方法对鸢尾花数据集实现k-means算法

好的,下面是对鸢尾花数据集实现k-means算法的Python代码: ```python from sklearn.datasets import load_iris from sklearn.cluster import KMeans # 加载鸢尾花数据集 iris = load_iris() X = iris.data # 指定聚类的个数 k = 3 # 创建KMeans对象,并进行聚类 kmeans = KMeans(n_clusters=k) kmeans.fit(X) # 输出聚类的结果 print("聚类中心点:\n", kmeans.cluster_centers_) print("聚类结果:\n", kmeans.labels_) ``` 在上述代码中,首先我们加载了sklearn中自带的鸢尾花数据集,然后指定了聚类的个数为3。接着,我们创建了一个KMeans对象,并调用fit方法进行聚类。最后,我们通过输出聚类中心点和聚类结果来查看聚类的效果。 需要注意的是,这只是一个简单的示例代码,实际使用中可能需要根据具体情况进行调参等操作。

相关推荐

最新推荐

recommend-type

python实现求特征选择的信息增益

主要为大家详细介绍了python实现求特征选择的信息增益,可以同时适用于二值离散型和连续型的属性,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
recommend-type

python 实现对数据集的归一化的方法(0-1之间)

今天小编就为大家分享一篇python 实现对数据集的归一化的方法(0-1之间),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

【K-means算法】{1} —— 使用Python实现K-means算法并处理Iris数据集

此处基于K-means算法处理Iris数据集 Kmeans.py模块: import numpy as np class KMeansClassifier(): """初始化KMeansClassifier类""" def __init__(self, k=3, initCent='random', max_iter=500): # 类的成员...
recommend-type

基于python实现计算两组数据P值

主要介绍了基于python实现计算两组数据P值,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
recommend-type

Python3和pyqt5实现控件数据动态显示方式

今天小编就为大家分享一篇Python3和pyqt5实现控件数据动态显示方式,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

list根据id查询pid 然后依次获取到所有的子节点数据

可以使用递归的方式来实现根据id查询pid并获取所有子节点数据。具体实现可以参考以下代码: ``` def get_children_nodes(nodes, parent_id): children = [] for node in nodes: if node['pid'] == parent_id: node['children'] = get_children_nodes(nodes, node['id']) children.append(node) return children # 测试数
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。