不完备信息系统上的粗糙集理论数据挖掘方法

0 下载量 100 浏览量 更新于2024-08-14 收藏 359KB PDF 举报
"基于粗糙集理论不完备信息系统的数据挖掘 (2004年) - 四川大学学报(自然科学版)" 本文深入探讨了基于粗糙集理论在不完备信息系统中的数据挖掘方法。粗糙集理论是由波兰数学家Z. Pawlak在1982年提出的一种处理模糊和不确定信息的数学模型,它能在保持分类能力的前提下,通过知识约简来揭示数据背后的规则和结构。 在不完备信息系统中,数据通常存在缺失值,这给数据挖掘带来了挑战。传统的数据挖掘方法会先进行数据完备化,但这可能导致原始数据的失真,甚至使数据挖掘结果失去准确性。因此,作者提出了一种直接在不完备信息系统上进行数据挖掘的新方法,利用推广的粗糙集理论,无需预先完备化数据,从而保持了数据的原始性和挖掘结果的真实性。 该方法首先利用粗糙集理论对不完备信息系统进行知识约简,得到约简集,然后基于此构建知识层次树。知识层次树能够清晰地展示信息的层次结构。接着,通过设置规则的支持度阈值`s0`和置信度阈值`c0`,在知识层次树的压缩搜索空间中提取规则集。这种方式不仅简化了数据挖掘过程,还避免了因数据完备化造成的失真。 此外,文中还引入了新的概念,如知识规则的上、下支持度,上、下置信度,以及规则粗糙度。这些概念为用户提供了更全面的视角来理解和评估数据挖掘的结果,帮助他们在实际应用中更好地利用这些知识。 数据挖掘的目标是从海量数据中发现有价值的、新颖的、可理解的模式。在这个过程中,不完备信息系统的处理是关键。作者的方法提供了一种有效途径,能够处理含有缺失值的数据库、遗产数据库和集成数据仓库等复杂情况,增强了数据挖掘的准确性和实用性。 关键词:不完备信息系统、粗糙集、数据挖掘、规则粗糙度 分类号:TP391 文献标识码:A 这篇论文为不完备信息系统的数据挖掘提供了一种创新且实用的解决方案,不仅改进了传统方法的局限,也为实际应用中的决策制定和知识发现提供了有力的理论支持。