数据挖掘第四章:决策树与信息熵在分类中的应用

需积分: 30 7 下载量 19 浏览量 更新于2024-08-13 收藏 2.83MB PPT 举报
"本资源为数据挖掘原理与实践第四章的PPT,主要涉及信息熵在决策树分类中的应用。内容涵盖了第4讲的分类与回归相关知识,包括3.1概述、3.2决策树分类方法、3.3贝叶斯分类方法、3.4 K-最近邻分类方法、3.5集成学习方法和3.6回归方法。其中,通过具体的天气数据集weather来求解关于目标属性‘play ball’的信息熵。课程还提供了数据挖掘中各类分类算法的定义、步骤和区别,并举例说明了分类与回归、分类与聚类的不同应用场景。" 在这个案例中,我们关注的是数据挖掘中的分类问题,特别是如何利用信息熵来评估数据集的纯度。信息熵是衡量一个数据集不确定性的度量,常用于决策树算法中选择最佳分割属性。在给定的weather数据集中,目标属性是“play ball”,我们需要计算其熵。 数据集weather包含以下属性:outlook(天气)、temperature(温度)、humidity(湿度)、wind(风力)以及play ball(是否打棒球)。熵的计算公式是:\( H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i \),其中,\( p_i \) 是第i个类别的概率,n是类别总数。 为了计算“play ball”的熵,我们需要先统计每个类别的样本数量,然后计算每类占比,再代入公式。例如,对于“yes”和“no”两个类别,计算各自出现的频率,然后计算熵。 此外,PPT还介绍了多种分类方法,包括决策树、贝叶斯分类、K-最近邻(KNN)和集成学习等。决策树通过构建树形结构来做出预测,每个内部节点代表一个特征测试,每个分支代表一个测试输出,而叶子节点则代表类别决定。贝叶斯分类基于贝叶斯定理,利用先验概率和条件概率进行预测。KNN是一种懒惰学习方法,它不构建模型,而是依据最近的邻居的类别来预测新样本。集成学习则通过结合多个弱分类器形成强分类器,如随机森林和AdaBoost。 回归分析是另一种预测方法,但它的目标是预测连续变量,如未来销售额,而不是离散的类别。线性回归、非线性回归和逻辑回归是常见的回归模型。 这个资源提供了一个实际应用信息熵的案例,以及数据挖掘中分类和回归的基本概念,帮助学习者理解这些方法在实际问题中的应用。
194 浏览量
第1章 绪论 1—1 设英文字母E出现的概率为0.105,x出现的概率为0.002。试求E及x的信息量。 解:英文字母E的信息量为 =3.25bit 英文字母x的信息量为 =8.97bit 1—2 某信息源的符号集由A、B、C、D和E组成,设每一符号独立出现,其出现概率分别为1/4、l/8、l/8/、3/16和5/16。试求该信息源符号的平均信息量。 解:平均信息量,即信息源的熵为 = =2.23bit/符号 1—3 设有四个消息A、BC、D分别以概率1/4、1/8、1/8和l/2传送,每一消息的出现是相互独立的,试计算其平均信息量。 解:平均信息量 = =1.75bit/符号 1—4 一个由字母A、B、C、D组成的字。对于传输的每一个字母用二进制脉冲编码,00代替A,01代替B,10代替C,11代替D,每个脉冲宽度为5ms。 (1)不同的字母是等可能出现时,试计算传输的平均信息速率。 (2)若每个字母出现的可能性分别为 PA=l/5,PB=1/4,PC=1/4,PD=3/10 试计算传输的平均信息速率。 解:(1)不同的字母是等可能出现,即出现概率均为1/4。 每个字母的平均信息量为 = =2 bit/符号 因为每个脉冲宽度为5ms,所以每个字母所占用的时间为 2×5×10-3=10-2s 每秒传送符号数为100符号/秒 (2)平均信息量为 = =1.985 bit/符号 平均信息速率为 198.5 比特/秒 1—5 国际莫尔斯电码用点和划的序列发送英文字母,划用持续3单位的电流脉冲表示,点用持续1个单位的电流脉冲表示;且划出现的概率是点出现概率的l/3; (1)计算点和划的信息量; (2)计算点和划的平均信息量。 解:(1)因为划出现的概率是点出现概率的1/3,所以,点出现的概率为P1=3/4, 划出现的概率为P2=l/4。故,点的信息量为 =0.415bit 划的信息量为 =2bit (2)平均信息量 H= + =0.81 bit/符号 1—6 设一信息源的输出由128个不同符号组成,其中16个符号出现的概率为l/32,其余112个出现概率为1/224。信息源每秒发出1000个符号,且每个符号彼此独立。试计算该信息源的平均信息速率。 解:平均信息量 H= =6.405 bit/符号 平均信息速率