第 卷第 期 西 南 师 范 大 学 学 报 自然科学版 年 月
Vol No Journal of Southwest China Normal University Natural Science Edition Dec
文章编号
基 于 粗 糙 集 的 不 相 容 决 策 表 属 性 约 简 算 法
梁凤兰
秦川
施化吉
宿迁学院 计算机系 江苏 宿迁 江苏大学 计算机学院 江苏 镇江
摘要 对 Skowron 可辨识矩阵方法进行分析 应用反例说明基于 Skowron 可辨识矩阵方法对不相容决策表属性约简
中存在一定的局限性针对这一问题 提出了一种基于互信息的求属性核方法 并在此基础上利用互信息作为启
发信息 在算法中加入了消除冗余属性的二次约简过程 构造一种完备的启发式属性约简算法实例分析表明该
算法能够有效地对不相容决策表进行属性约简 且具有较好的约简效果
关键词 互信息 属性约简 不相容决策表 核
中图分类号 TP18 文献标识码 A
在海量信息系统中的属性和实例数量非常巨大 有的属性并不重要 有的属性甚至是冗余的 这就使
属性约简变的非常必要属性约简可以在保持信息系统分类和决策能力不变的前提下 较好地剔除冗余属
性 并形成精简的规则库以帮助人们做出正确且简洁的决策
属性约简是粗糙集理论
Rough Set Theory研究的核心内容之一Skowron 教授等人提出的可辨识矩
阵方法是计算决策表属性约简的一个代表性方法
许多关于属性约简及其拓展的研究工作都是以 Skow
ron 可辨识矩阵为基础尽管 Skowron 可辨识矩阵方法得到了广泛的应用 但由于其没有充分考虑决策表中
数据之间不相容性的影响 运用 Skowron 可辨识矩阵方法对不相容决策表属性进行约简存在一定的局限
性
对此本文在粗糙集理论信息观的基础上提出了一种基于互信息的求属性核方法 并以互信息作为启发
信息 同时在算法中加入了消除冗余属性的二次约简过程 构造了一种新的启发式属性约简算法该算法
较好地解决了基于 Skowron 可辨识矩阵方法对不相容决策表属性约简中存在的不足
1粗糙集相关理论
在决策表中 人们关心的是哪些条件属性对于决策更重要本文以互信息的大小作为属性重要性的度
量 本节给出它们的基本概念 及判断冗余属性的判定定理
定义 1 信息系统IS 可由四元组 S U Q V f 表示 其中 U 是对象集合 即论域Q 是属性集
合 V
qQ
V
q
V
q
是属性 q 的值域 f 是一个信息函数 即对 x U q Q 有 fx q V
q
决策信息
系统是信息系统的子集 其属性集 Q C D C 为条件属性集 D 为决策属性集
设 U 为一个论域 PQ 为 U 上的 个等价关系族 可以认为 U 上任一属性集合是定义在 U 上的子集组
成的 代数上的一个随机变量 其概率分布可通过如下方法来确定
设 PQ 在 U 上导出的划分分别为 X X
X
X
n
Y Y
Y
Y
m
则 PQ 在 U 的子集组成的
代数上定义的概率分布为
收稿日期
作者简介 梁凤兰 女 江苏宿迁人 讲师 主要从事数据挖掘的研究