粗糙集理论优化的决策树构建算法

需积分: 9 65 浏览量更新于2024-08-11 收藏 234KB PDF 举报

"基于粗糙集理论的决策树构造算法 (2005年)" 粗糙集理论是一种处理不确定性和不完整性信息的数学工具，由波兰科学家Zdzisław Pawlak在1980年代提出。它通过识别数据中的等价关系和不精确边界来分析信息系统。在决策树构建中，粗糙集理论的应用能够帮助优化属性选择，减少冗余，并考虑属性间的依赖性。传统的决策树算法如ID3，主要依赖信息熵和信息增益来选择划分属性。然而，ID3算法的一个局限性在于它忽视了属性之间的相互依赖性，这可能导致决策树中子树的重复和属性的多次选择。为了解决这个问题，该论文提出了一个基于粗糙集理论的新启发式函数——属性重要性评价指标，作为信息熵函数。这个新方法首先计算每个属性的重要性，考虑了属性之间的依赖性和冗余性。通过这种方式，算法在选择属性时能更好地反映出属性间的关联性，避免了不必要的重复和冗余。此外，由于粗糙集理论能够处理不兼容决策表，因此这种方法不仅适用于常规的分类任务，还可以处理那些包含不一致或冲突信息的数据。在实际应用中，该方法通过实例验证了其正确性和有效性，结果表明它在构建决策树时优于传统方法。具体来说，它减少了决策树的复杂性，提高了决策树的可读性和解释性，同时保持了良好的分类性能。决策树是一种常见的机器学习模型，用于分类和回归任务。它通过一系列规则将数据集划分为不同的类别，每个内部节点代表一个属性测试，每个分支代表一个测试输出，而叶节点则代表决策结果。理想情况下，决策树应具有最少的叶节点和最浅的深度，以便于理解和解释。通过引入粗糙集理论，决策树构造过程变得更加智能和灵活。属性约简是粗糙集理论中的一个重要概念，它可以帮助减少决策树中的冗余属性，提高模型的效率和准确性。通过属性约简，我们可以找到一组最小的属性集，该集合可以保留原始数据集中的分类能力。基于粗糙集理论的决策树构造算法通过更全面地考虑属性间的依赖性和冗余性，改进了决策树的构建过程，提高了分类效果。这一方法对于处理复杂和不确定的数据集提供了新的解决方案，对于理解和优化决策树模型具有重要意义。

第

卷第

期

∞

年

月

南京工业大学学报

l. 27 No.4

July

2005

JOURNAL

NANJING

UNIVERSITY

TECHNOLOGY

基于粗糙集理论的决策树构造算法

常志玲，周庆敏，杨清莲

(南京工业大学信息科学与工程学院，江苏南京

210009)

摘

要:应用粗糙集理论，提出了一种利用新的启发式函数构造决策树的方法。该方法以属性重要性评价指标作

为信息煽函数，对条件属性进行选择，充分考虑、了属性间的依赖性和冗余性，弥补了

ID3

算法对属性间依赖性强调

不够的缺点，解决了决策树中子树的重复和有些属性在同一决策树上被多次选择的问题，该方法还能对不相容决

策表进行正确分类。实例表明该方法是正确有效的，而且明显优于传统的决策树构造方法。

关键词:粗糙集;决策树;属性约简

中图分类号:

TP18

文献标识码

文章编号:

1671

-7643(2005)04

-0080-04

决策树是指利用树形结构来表示决策集合，是

一种直观的知识表示方法，同时也是高效的分类器。

构造决策树的主要思想是以信息论为工具，在各非

叶结点选择重要的属性或属性组，自上而下地分割

训练实例集，直到满足某种终止条件。

理想的决策树分为

种:

(1)叶结点数最少;

(2)

叶子结点深度最小

;(3)

叶结点数最少且叶子结点深

度最小。但是理想的最优决策树已经被证明是一个

NP-h

缸

问题

[1]

多变量决策树

[2]

虽然叶结点数和深

度比较小，但是很难理解其含义。以

ID3

为代表的单

变量决策树只适应于多属性的决策表[匀，而且属性间

的相关性强调不够，这一缺点导致决策树中子树的重

复和有些属性在同一决策树上被多次选择。

本文应用粗糙集理论，给出了一种新的启发式

函数一一属性重要性评价指标作为信息恼函数来构

造决策树，这种启发式函数考虑了属性之间的依赖

性和冗余性，弥补了

ID3

算法对属性间依赖性强调

不够的缺点，解决了决策树中子树的重复和有些属

性在同一决策树上被多次选择的问题，该方法不但

可以对相容的决策表进行正确分类，而且可以对不

相容决策表进行正确分类。实例表明该方法是正确

有效的，而且明显优于传统的决策树构造方法。

粗糙集理论及相关概念介绍

粗糙集

(Rough

sets)

理论是由波兰科学家

收稿日期

:2004

-12

Pawlak

于

世纪

年代提出的一种处理不确定问

题的方法

[4]

它的要点就是将分类和知识联系在一

起，并用等价类关系形式化表示分类，可以理解为:

知识是用等价类

对离散空间的一种划分，记为

U/R=

，

几，…

，

，其中

就是

U/R

的一个等

价类。

决策表

一个决策表可以形式化定义为

[4.5]

: 5 = <

U ,

CUD

, V,

，

其中

，

几，…

，

是所感兴

趣对象的有限集合

，

CUD

是属性的有限集，其中

为条件属性集

，

为决策属性集，并且

，

cnD=

，

为属性集

CUD

的值域

，J:

U x

→

为一个

信息函数，表示任一对象的属性在

上的取值，即

元，

r)ε

尺，它指定了

中每一对象

的属性值。

。→

为知识表达语言中的决策规则，其中

和

分别称为

→

的因和果。对于一个决策表

，当

所有规则

→

为真时，则称决策表

是相容的，否

则称不相容。

属性约简及核

决策表的简化就是化简决策表中的条件属性，

化简后的决策表具有化简前的决策表的功能，但是

化简后的决策表具有更少的条件属性，因此同样的

决策表可以基于更少量的条件属性。令

和

为

中的等价关系族，当

posp

(Q) = pos(P_lrI)

(Q)

时，

称

rEP

为

中

省略的，否则

为

中

不省略

作者简介:常志玲(1

976

- )

.女，河南楼阳人，硕士生，主要研究方向为粗糙集理论、数据挖掘;

周庆敏(联系人)

.副教授.

E-mail:

mse@

时

edu.

。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38713057

粉丝: 3
资源: 946

粗糙集理论优化的决策树构建算法

基于粗糙集的决策树构造算法 (2010年)

论文研究-一种基于变精度粗糙集的C45决策树改进算法.pdf

基于粗糙集的属性约简算法研究

基于粗糙集理论的属性约简算法

基于粗糙集理论的属性约简算法的设计与实现,Matlab代码

基于粗糙集理论的属性约简算法的实验原理

基于粗糙集理论的属性约简算法的设计与实现

基于粗糙 集理论的 属性约简 算法的设 计与实现

基于粗糙集理论的属性约简算法的实验原理预习情况

matlab基于粗糙集理论的属性约简算法的设计与实现

最新资源

基于粗糙集理论的属性约简算法的设计与实现