信息熵与粗糙集结合:一种连续属性多变量离散化新算法

需积分: 22 1 下载量 20 浏览量 更新于2024-08-12 收藏 402KB PDF 举报
"基于信息熵的粗糙集连续属性多变量离散化算法 (2013年)" 在数据挖掘和知识发现领域,属性离散化是一个关键步骤,它能将连续属性转换为离散属性,从而简化问题的复杂度,使规则更简洁、精确且易于理解。现有的离散化方法往往在选择断点时忽视了属性间的互斥性和属性内部断点的关联性,这可能导致丢失决策表中的不可分辨关系。因此,"基于信息熵的粗糙集连续属性多变量离散化算法"(PAD)应运而生,该算法由王举范和陈卓在2013年的《青岛科技大学学报(自然科学版)》上发表。 PAD算法的核心是采用信息熵作为选择断点的评估指标,信息熵是衡量系统不确定性的重要工具,它可以反映数据的纯度或信息含量。通过最大化信息熵,算法可以找到最能代表数据分布的断点,从而实现有效的离散化。此外,PAD算法以不可分辨关系作为停止标准,确保离散化过程不会破坏原始数据的决策关系。 为提高离散化效果,PAD算法还引入了5条断点预选确选策略。这些策略可能包括但不限于基于密度、频率、聚类等方法来预先筛选可能的断点,并进一步确定最佳断点,以达到最优的离散效果。实验结果显示,与Rosetta软件中的5种离散化算法相比,PAD算法在保持较高预测精度的同时,使用的断点数量更少,这意味着它在效率和准确性之间取得了更好的平衡。 关键词:粗糙集理论,不可分辨关系,离散化,信息熵。这个研究工作对于理解粗糙集理论在连续属性离散化中的应用以及如何利用信息熵优化离散化过程具有重要意义。同时,提出的断点预选和确选策略为离散化方法的设计提供了新的思路,对后续的数据处理和分析工作有积极的指导作用。 中图分类号:P208,表示该论文属于计算机科学与技术的范畴,文献标志码:A,通常表示这是原创性的科学研究论文。此篇论文的贡献在于提出了一种创新的离散化算法,对于提高数据挖掘的效率和准确性具有实际价值。