粗糙信息颗粒在数据挖掘中的应用与算法研究

需积分: 9 101 浏览量更新于2024-08-13 收藏 259KB PDF 举报

"基于粗糙信息颗粒的数据挖掘方法研究 (2004年)" 本文主要探讨了在数据挖掘领域中，如何处理包含噪声和不一致性的大型数据库和数据仓库数据的问题。作者彭玉楼和陈曦提出了一种基于粗糙信息颗粒的新方法，以改进经典粗糙集理论在处理此类数据时的效果。粗糙集理论由Z.Pawlak提出，是一种处理不确定性和不精确信息的数学工具，广泛应用于归纳学习。然而，原始的粗糙集模型假设数据集是无噪声且一致的，这在实际应用中并不总是成立。针对这一局限性，作者引入了“信息颗粒”的概念。信息颗粒是信息处理中的基本单元，它代表了数据中的一个特定部分或者特征，可以看作是数据的细化和抽象。在文中，作者首先介绍了信息颗粒的构造方法，即通过属性子集来引导信息颗粒的形成。随后，他们利用这些信息颗粒来描述知识，构建了一个基于信息颗粒的知识表示模型。这个模型允许对不一致的数据集进行更灵活的知识描述，因为它考虑了数据的不确定性。接下来，作者运用粗糙集的扩展模型来讨论知识的粗糙度问题。粗糙度是衡量知识不确定性的一个关键指标，它反映了知识边界模糊的程度。通过对信息颗粒的分析，作者提出了一种新的属性约简算法。该算法能够在设定最小置信度阈值的情况下，从不一致的数据集中有效地提取简洁的知识。这种方法不仅能够处理噪声数据，还能确保提取的知识具有一定的置信度，从而提高了数据挖掘的准确性和实用性。文章中包含了1个图表和2个表格，以及8篇参考文献，展示了研究的细致性和理论依据。关键词包括信息颗粒、粗糙集和数据挖掘，表明了本文的核心研究领域。通过这些方法，作者旨在克服经典粗糙集模型的局限性，提升在有噪声数据集上的知识发现能力，这对于数据挖掘领域的理论研究和实际应用具有重要意义。这篇文章深入研究了基于粗糙信息颗粒的数据挖掘方法，为处理不一致和噪声数据提供了新的理论支持和算法设计，有助于改善大数据环境下的知识提取效率和质量。

第

卷第

期

2004

年

月

湖南科技大学学报{自然科学版}

-19

No. 4

Dec. 2004

扭

Jrnal

Hunan

University

ier

芷恕

&11

臼阳、。

咱

(Natural

Science

Edition)

基于粗糙信息颗粒的数据挖掘方法研究

彭玉楼，陈曦

(长沙理工大学计算机与通信工程学院，湖南长沙

410076)

摘

要:大型的数据库和数据仓库中的数据往往是有噪声和不一致的，应用经典的粗糙集理论对其进行数据挖掘处理时，效呆

不够理想.引入信息颗粒的概念，给出了属性子集引导的信息颗粒的构造方法J.l基于信息颗拉的知识描述，并应用粗越集的扩展模

型讨论知识的粗糙度问题，提出了基于粗糙信息颗拉的属性约简算法，该算法在给定最小置信度阅值的情况下，可实现对不一绞数

据集的简洁知识提取.图1，表

，参

关键词:信息颗粒;粗糙集;数据挖掘

中图分类号:

TP311;

134. 1

文献标识码

数据挖掘

Data

Mining)

是从大量的、不完全的、

有噪声的数据中，提取隐含在其中的、人们每先不知道

的，但具有潜在应用价值并容易理解的知识的过程.数

据挖掘的根本任务是为了让人能够了解海量数据的内

容，即将数据变换为人可以理解的知识.

Pawlak

提

出的粗糙集理论为不确定、不精确、不完善系统的信息

处理提供了一种新的数学工具口

.2J

粗糙集模型是目

前使用较多的一种归纳学习方法，但是

Pawlak

粗糙

集模型应用于数据挖掘时，其局限性是要求数据集是

一致的，所获的知识是完全肯定的，但在一个有噪声的

数据集上要做到这一点，往往是很困难的.为此，引人·

信息颗粒的概念，并对

Pawlak

粗糙集模型加以某种

扩充，使其支持在有噪声的数据集上挖掘具有一定置

信度的简洁知识.

知识与信息颗粒

在认识处理中，知识被定义为一个或多个信息之间

的关联(关系或联系).若以圆圈代表信息，有向弧代表

信息间的关联，则可把知识表示为图

所示的形式，其

中

为关联的语义，

为关联强度口知识是人类实践经

验的总结和提炼，具有抽象和普遍的特性.人类在认识

事物时总是将事物的全体进行抽象，即进行信息的颗粒

收稿日期

:2003-11-10

基金项目:湖南省教育厅科研项日资助(项目编号:

03C083)

文章编号

:1672-9102(2004)04-0067-04

化，在这一过程中，尽管信息个体的某些细节丢失了，但

颗粒化的信息更有意义，更容易理解.所谓信息颗粒

Clnformation

Granule)

指人类在处理大量信息问题时，

按其各自的特征将其划分成若干简单的块，而每个如此

划分出来的块被看成一个信息颗粒(I

户

.5J

这就是知

识同信息颗粒与信息颗粒之间的关联.

'。

图

知识表示结构图

Fig.l

Structure

figure

ofknowledge

expression

粗糙集理论通过引人不可分辨关系作为其理论基

础，并在此基础定义了上下近似概念，在进行信息处理

时不需要附加先决条件.粗糙集理论为信息颗粒的构

造和描述提供了框架.

定义

称

S=<U

，

，[>

为信息系统，其中:

为对象的有限集合

，

U={Xl'

岛，…

，

}

为

属性的有限集.

A=CUD

其中:♂

是条件属性子集，

是决策属性子集.

V=U

仲

f:UXA

→

是映射关系，使得

卢(工乓

ρρ)ε

，

对

于每个

ρε A

，

作者简介

彭玉楼

(]968-)

!}J:

111

)j，

iPJI

水人，博

研究生，说师，主要研究方向为人工智能、图像处却

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38698863

粉丝: 1
资源: 920

粗糙信息颗粒在数据挖掘中的应用与算法研究

基于粗糙集的数据挖掘方法研究

人工智能-数据挖掘-基于粗糙集的数据挖掘方法研究.pdf

基于粗糙集的医疗数据挖掘研究与应用.pdf

一千字介绍基于粗糙集的知识获取算法

基于粗糙集理论的属性约简算法的设计与实现,Matlab代码

基于粗糙集理论的属性约简算法的设计与实现

python设计小型智能信息处理系统，模拟实现基于粗糙集理论的数据分析方法的完整代码

粗糙集理论与方法pdf

最新资源