不完备信息系统上的粗糙集理论数据挖掘方法

100 浏览量更新于2024-08-14 收藏 359KB PDF 举报

"基于粗糙集理论不完备信息系统的数据挖掘 (2004年) - 四川大学学报(自然科学版)" 本文深入探讨了基于粗糙集理论在不完备信息系统中的数据挖掘方法。粗糙集理论是由波兰数学家Z. Pawlak在1982年提出的一种处理模糊和不确定信息的数学模型，它能在保持分类能力的前提下，通过知识约简来揭示数据背后的规则和结构。在不完备信息系统中，数据通常存在缺失值，这给数据挖掘带来了挑战。传统的数据挖掘方法会先进行数据完备化，但这可能导致原始数据的失真，甚至使数据挖掘结果失去准确性。因此，作者提出了一种直接在不完备信息系统上进行数据挖掘的新方法，利用推广的粗糙集理论，无需预先完备化数据，从而保持了数据的原始性和挖掘结果的真实性。该方法首先利用粗糙集理论对不完备信息系统进行知识约简，得到约简集，然后基于此构建知识层次树。知识层次树能够清晰地展示信息的层次结构。接着，通过设置规则的支持度阈值`s0`和置信度阈值`c0`，在知识层次树的压缩搜索空间中提取规则集。这种方式不仅简化了数据挖掘过程，还避免了因数据完备化造成的失真。此外，文中还引入了新的概念，如知识规则的上、下支持度，上、下置信度，以及规则粗糙度。这些概念为用户提供了更全面的视角来理解和评估数据挖掘的结果，帮助他们在实际应用中更好地利用这些知识。数据挖掘的目标是从海量数据中发现有价值的、新颖的、可理解的模式。在这个过程中，不完备信息系统的处理是关键。作者的方法提供了一种有效途径，能够处理含有缺失值的数据库、遗产数据库和集成数据仓库等复杂情况，增强了数据挖掘的准确性和实用性。关键词：不完备信息系统、粗糙集、数据挖掘、规则粗糙度分类号：TP391 文献标识码：A 这篇论文为不完备信息系统的数据挖掘提供了一种创新且实用的解决方案，不仅改进了传统方法的局限，也为实际应用中的决策制定和知识发现提供了有力的理论支持。

四川大学学报(自然科学版)

2004

年

月

第

卷第

期

]ournal

Sichuan University (Natural

Science

Editic

l!l)

文章编号

:0490-6756(2004)04-0744-05

Aug.

2004

No.4

基于粗糙集理论不完备信息系统的数据挖掘

胡

旺，冯伟森，李志蜀，韦力凡

(四川大学计算机学院，成都

6100(5)

摘要:提出了一种基于推广的粗糙集理论直接在不完备信息系统上边行数据挖掘的方法，并

给出了该方法的算法和实例.该方法利用粗糙集理论直接耐不完备信息系统进行知识的筒，

然后根据获得的约简集建立知识层次树，利用规则的支持度阀值

和置信度阀由

从知识

层次树的压缩搜索空间中提取不完备系统的规则集.该方法保持了原始数据和数据挖掘所获

得的知识的真实性.另外，还提出了知识规则的上、

支持度，上、

置信度，规则粗糙度

念，以便指导用户更好地利用数据挖掘所获得的知识.

关键词:不完备信息系统

粗糙集

数据挖掘:规则粗糙度

r+l

图分类号:

TP391

文献标识码

粗糙集

(Rough

Set)

理论是被兰数学家

Pawlak

于

1982

年提出的.它是一种新的处理模糊和不确定

性知识的数学推理工具，其主要思据是在保持分类能力不变的前提

，通过知识约筒，导出问题的决策或

分类规则[1，2

数据挖掘是知识发现过程的寸、环

它是在某种可接受的约束条件下，应用数据分析和数据发现算

，从大量数据中挖掘先前未知的、有效的、可实用的信息，并使用这些信息做出决策或丰富知识一个完整

的过程

[3J

不完备信息系统广泛地存在于日常实际数据中(如带有缺失值的数据库、遗产数据库、集成的数据仓

库等)，通常的数据挖掘方法是在数据预处理阶段，将不完备信息系统通过各种方法(如删除元组法、于

填的;法、均值法等)进行完备化.这使得原始数据和通过数据挖掘而获得的知识存在不同程度的失真，甚

至使得原有数据系统不可挖掘.

针对传统方法的不足，我们提出了一种基于推广粗糙集理论直接在不完备信息系统上进行数据挖掘

的方法，并引入了知识规则的上、

支持度，上、

置信度，规则粗糙度等新概念，指导其更好地利用数据挖

掘所得到的知识，具有明显的理论意义和实际的使用价值.

不完备信息系统

1. 1

不完各信息系统

:主义

称四元组

- ( U , A ,

fllc

且}，

α)

为信息系统.其中

，

是对象的非常有限集，称为论域

是

非空有限集，称为属性集合

、为属性

仨

的值域

:α

一如

为一单射，使论域

中任

~)G

素取属性

在

号

的某!准

值

[3J

在

r+l

，

仨

，

αε

，

创立)二矢，开表;示空值，则;f

ð;

为不完备信息系统.

不完备信息系统的常见处理方法

不完备信息系统的通常处理方法是采用某种手段使信息系统完备化.常见的数据完备化的方法

有[斗，6

8J;(

I)2!、略豆豆删除具有不完备性的元组;

(引人工填写空缺值;

(3)

使用全局常量填充空缺值;

(4)

使

用属性的平均值

常见值填充空缺值:

(5)

使用台;主元组属同一类的所有样本的平均值;

(6)

使用|口

归、

收稿日期

:2004

…

03-01

作者白布抨击阴

)

，男，

2002

级博士研究生

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38705014

粉丝: 4

不完备信息系统上的粗糙集理论数据挖掘方法

基于粗糙集理论的数据挖掘的应用

煤炭业基于粗糙集的非完备信息系统研究

04-黄兵-基于粗糙集的不完备信息系统知识获取理论与方法.nh

论文研究-基于粗糙集理论的不完备数据填补方法.pdf

基于粗糙集理论的振动信号数据挖掘研究.pdf

基于变精度粗糙集的不完备信息系统知识约简

基于粗糙集理论的数据挖掘研究.pdf

基于粗糙集理论的决策信息系统知识获取研究

拖拉机装配车间调度系统设计——基于粗糙集理论和大数据挖掘.pdf

编队对地攻击决策分析：基于粗糙集理论的不完备信息可靠性研究

最新资源