基于可信度最优的连续属性离散化挖掘算法

需积分: 9 100 浏览量更新于2024-08-12 收藏 191KB PDF 举报

"一种基于可信度最优的数量关联规则挖掘算法" 本文主要探讨的是在数据挖掘领域，特别是数量关联规则挖掘中的一个关键问题：如何有效地处理连续属性并挖掘出最具可信度的数量关联规则。数量关联规则是指在数据集中，两个或多个连续属性之间的统计关联性，比如在股票市场中，股票的价格变化与其涨幅之间的关系。传统的关联规则挖掘主要关注离散属性，但在现实世界的数据中，连续属性更为常见，如股票价格、温度、体重等。在描述的算法中，首先采用等深度划分算法对连续属性进行离散化处理。等深度划分是一种将数据集分割成若干个具有相同大小（或近似相同）的子区间的方法，以此减少连续属性的复杂性，使其适应于挖掘规则。这个过程是至关重要的，因为它直接影响到挖掘结果的准确性和效率。接着，算法利用凸包处理技术来提取强规则中的最优数量关联区间。凸包是包含所有点的最小几何形状，这里可能是用来找出最能代表数据分布特征的区间。在数量关联规则中，高可信度的区间意味着在此范围内的属性值之间的关联性最强，对于决策支持和预测具有很高的价值。论文中提到的应用实例是股票市场的数量关联分析。通过对股票价格的离散化和最优关联区间提取，算法能够找出股票涨跌与价格之间的高可信度规则。实验结果显示，该算法在实际应用中表现出良好的效果，证明了其在数据挖掘领域的有效性。此外，文章还提到了一些已有的关联规则挖掘算法，如IBM的Intelligent Miner、Angoss Software的Knowledge Seeker以及DBMiner，这些都是针对布尔属性的算法。而数量关联规则在银行业务分析、股市分析等领域的应用则进一步强调了对这类规则挖掘的必要性。该研究提出的基于可信度最优的数量关联规则挖掘算法，通过连续属性的离散化和凸包处理，有效地解决了连续属性关联规则的挖掘问题，并在实际案例中展示了其优越性能。这为数据挖掘提供了新的工具和方法，尤其在处理涉及连续属性的数据集时，可以更精确地发现有价值的信息和规律。

第31卷第2期

2001年3月

东南大学学报

(自然科学版 )

JOURNAL OF SOUTHEAST UNIVERSITY (Natural Science Edition )

Vol.31 No.2

Mar . 2001

一种基于可信度最优的数量关联规则挖掘算法

吉根林

1,2

孙志挥

(

南京师范大学计算机科学系 ,南京 210097 )

(

东南大学计算机科学与工程系 ,南京 210096 )

摘要 :研究了数量关联规则挖掘过程中的连续属性离散化问题 ,描述了连续属性离散化方法 ,

包括连续属性区间划分算法和数据库样本大小的确定 ,提出了基于可信度最优的数量关联规

则挖掘算法 .该算法首先利用等深度划分算法对连续属性进行离散化 ,然后利用凸包处理技术

提取强规则中可信度最高的数量关联区间 ,它对于数量关联规则的优化有着重要的应用价值 .

应用该算法对股票行情进行了数量关联分析 ,提取股票涨跌与股票价格之间可信度最高的关

联规则 .实验表明该算法是非常有效的 .

关键词 :数量关联规则 ;数据挖掘 ;连续属性离散化

中图分类号 : TP311 文献标识码 : A 文章编号 :

1001 - 0505 (2001 )02-0031-04

收稿日期 :2000-10-17 . 作者简介 : 吉根林 ,男 ,1964 年生 , 副教授 ,博士研究生 .

基金项目 : 国家自然科学基金资助项目 (79970092 ).

近年来研究人员针对 Boolean 属性的关联规则挖掘提出了很多高效算法 ,并且已有若干原型和产

品

[1 ]

,例如 IBM 开发的 IntelligentMiner ,Angoss Software 开发的 KnowledgeSeeker ,加拿大 Simon Fraser 大学开发

的 DBMiner .对现有成果的考察表明 ,基于连续属性的关联规则 ,即数量关联规则的研究较少 .但是 ,数量

关联在银行存款分析 ,股市行情分析等众多领域都有重要应用价值 ,因此在国际上引起了重视 .Agrawal 等

人扩展 Boolean 属性的关联规则算法 ,将其应用于数量关联规则的挖掘 ,提出了基于支持度的部分 k 度完

全方法(partial k-completeness )

[2 ]

,Fukuda 提出了等深度划分(equi-depth partitioning )

[3 ]

的实现方法和二维优

化数量关联规则

[4 ]

等 .本文将研究一种基于可信度最优的形如( A∈[v

])　 C(其中 :A 为连续属性 ,

C 为布尔属性 )的数量关联规则挖掘方法 .

1 数量关联规则的基本描述

给定项集 I ={i

, i

,… ,i

},I 的每个元素是数据库中的数据项 ,关联规则

[5 ]

是如下形式的蕴涵 ,

X　 Y ,其中 : X 　 I ,Y 　 I ,且 X ∩ Y = 　 .关联规则设定 2 项约束 ,最小支持度(minsup )和最小可信度

(minconf).规则的支持度是指数据库中支持 X ∪ Y 的元组数占所有元组的比例 ;可信度是指支持 X 的元

组中 ,支持 Y 的元组所占比例 .最小支持度和最小可信度是用户说明的 2 个阀值 ,关联规则的挖掘就是发

现数据库中支持度和可信度大于最小支持度和最小可信度的全部规则 .关联规则挖掘的关键在于发现支

持度大于最小支持度的全部项集 ——— 强项集 .

数量关联规则是指包含 Boolean 属性和连续属性的关联规则 .例如(Balance ∈[v

]) 　 (CardLoan

= yes ).数量关联规则同样要满足支持度和可信度的约束条件 .如果规则的可信度大于用户给定的最小可

信度 ,则称该规则是可信的 .如果规则的支持度大于用户给定的最小支持度 ,则称该规则是强规则 .在可信

的规则中 ,支持度为最大的规则称为支持度最优的关联规则 .在强规则中 ,可信度为最大的规则称为可信

度最优的关联规则 .

2 连续属性的离散化

数量关联规则挖掘的关键步骤是连续属性的离散化 ,其实质就是将连续属性值划分成区间 .划分的方

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38606811

粉丝: 6
资源: 982

基于可信度最优的连续属性离散化挖掘算法

基于关联规则的数据挖掘算法分析.pdf

一种基于压缩矩阵的关联规则挖掘算法

基于GPU异构计算的关联规则挖掘算法及增量式情况的研究和简单实现1

Apriori关联规则挖掘算法研究.pdf

Apriori关联规则挖掘算法分析与改进

数据挖掘技术与关联规则挖掘算法探讨.pdf

地理信息关联规则挖掘算法的设计与应用

基于关联规则的数据挖掘算法研究

CNARM：一种带约束的高效负关联规则挖掘算法

数值关联规则挖掘算法研究

最新资源