不完备信息系统处理:基于粗糙集的属性约简新算法

需积分: 9 0 下载量 118 浏览量 更新于2024-08-13 收藏 426KB PDF 举报
"基于粗糙集的属性约简算法 (2012年) - 西北大学学报(自然科学版),作者杨常清" 本文主要探讨的是如何利用粗糙集理论处理不完备信息系统的问题。粗糙集理论是一种在不确定和不完整数据环境中进行知识发现的工具,而属性约简是粗糙集中的核心概念,它旨在找到信息系统中最小的属性集合,该集合仍能保持原始数据的决策能力。 在经典粗糙集理论中,属性约简通常基于不可分辨关系,即两个对象在特定属性上如果无法区分,则被视为等价。然而,对于不完备信息系统,即存在缺失值或未知信息的数据集,这种经典方法可能不再适用。为此,杨常清提出了一种基于粗糙集扩充模型的有限容差关系方法。这种方法通过引入一个容差度量来处理缺失值,容差关系允许一定程度的不确定性,使得在处理不完备数据时更加灵活。 论文首先理论上证明了这个新算法的完备性,即算法能够找到系统的最小属性约简。接着,作者使用了UCI(University of California, Irvine)机器学习数据库,这是一个广泛用于验证和比较数据挖掘算法的标准数据集,对提出的属性约简算法进行了实证测试。测试结果显示,该算法不仅能够有效地处理不完备信息,而且在计算效率上有所提升,这意味着它可以在更大的数据集上快速运行。 此外,论文还强调了算法的实用性,特别是在那些数据不完整或存在噪声的领域,如医疗诊断、金融市场分析和模式识别等。这种属性约简算法的改进对于减少数据处理的复杂性和提高决策系统的性能具有重要意义。 关键词涵盖:粗糙集理论、属性约简、不完备信息系统和启发式算法。这些关键词表明,研究的主要关注点在于开发一种适应不完备数据环境的高效属性约简策略,这对于数据挖掘、知识发现和机器学习等领域具有重要应用价值。 中图分类号1511.1可能指的是计算机科学与自动化领域的知识表示和处理,而文献标识码A则表明这是一篇原创性的科学研究论文。文章编号1002-274X(2012)02-223-04则提供了出版的具体细节,便于后续引用和追踪研究进展。