数值关联规则挖掘算法研究

需积分: 0 191 浏览量更新于2024-09-05 收藏 202KB PDF 举报

"这篇论文探讨了数值关联规则挖掘方法，主要关注如何处理和分析数值型属性数据以发现有意义的关联规则。作者提出了一个新的算法，该算法通过对数值属性值域进行划分，将其转换为逻辑属性，从而简化数值关联规则的挖掘过程。通过这种方式，可以挖掘出更具概括性和易于理解的关联规则。论文还介绍了一种用于寻找频繁项目集的搜索算法，并利用纵向数据库格式优化了计算项目集支持度的效率。关键词包括数据挖掘、关联规则、区间、最小支持度和最小可信度。" 基于网络的数值关联规则挖掘方法是数据挖掘领域的一个重要研究课题。关联规则挖掘通常用于发现交易数据中的模式，例如在超市购物中，购买尿布的人可能也会购买啤酒。当数据中的属性是逻辑型（如“是/否”）时，已有许多成熟的算法，如Apriori等。然而，处理数值型属性的数据（如价格、重量等）时，挖掘关联规则更为复杂。论文作者提出的新算法旨在解决这一问题。他们利用数据自身的特性来确定数值属性的分割，将数值区间转化为逻辑属性，即所谓的“项目”。这种方法使得原本复杂的数值关系变得更容易理解和解释。通过这种方式转换，可以挖掘出更具有普遍性的规则，这些规则不仅在数值上成立，而且在逻辑上也具有意义。此外，论文中还介绍了一个搜索频繁项目集的算法，这是挖掘关联规则的关键步骤。频繁项目集是指在数据集中频繁出现的属性组合。为了提高效率，论文采用了纵向数据库格式，这是一种数据组织方式，可以简化支持度的计算。支持度是衡量规则频繁程度的指标，表示规则涉及的项目集在所有交易中出现的比例。最小支持度和最小可信度是挖掘关联规则时设定的两个阈值参数。最小支持度定义了一个规则必须在数据集中出现的最低频率，而最小可信度则衡量了规则的可靠性。这两个参数用来过滤掉不重要的或随机的规则，确保挖掘出的规则具有实际意义。这篇论文提供了数值属性关联规则挖掘的新方法，有助于提升数据分析的效率和结果的解释性，对于网络数据分析、商业智能以及各种依赖于数据挖掘的决策支持系统具有重要的理论与实践价值。

　2002 年 4 月系统工程理论与实践第 4 期　

文章编号: 100026788

(

2002

)

0420001209

基于网络的数值关联规则挖掘方法

陈富赞, 寇纪淞, 李敏强

(

天津大学管理学院, 天津 300072

)

摘要: 　关联规则

(

A ssociation Rules

)

发现的是属性间的关系. 属性可以是逻辑型的, 也可以是数值

型的Λ 在从逻辑型属性描述的数据中发现关联规则方面已经有许多比较成熟的算法, 而在数值型属性

方面则不然Λ将数值关联规则挖掘问题映射成逻辑关联规则挖掘问题是一种方便有效的方法Λ本文给

出了一个新的数值属性关联规则挖掘算法, 该算法利用数据本身的特征决定对数值属性值域的划分,

进而将划分后的所有区间映射为逻辑属性

(

项目

)

, 在此基础上可以挖掘出更容易理解、更具有概括性

的有效关联规则Λ 本文给出了一个发现频繁项目集搜索算法, 并采用一种纵向数据库格式来简化项目

集支持度的计算Λ

关键词: 　数据挖掘; 关联规则; 区间; 最小支持度; 最小可信度

中图分类号: 　

311. 13　　　　　　　　

文献标识码: 　

A L attice

based M ining A lgo rithm for

Q uantitative A ssociation Rules

CHEN Fu

zan

KOU J i

song

L IM in

qiang

(

School ofM anagem ent

T ianjin U niversity

T ianjin

300072,

China

)

Abstract

The association rules discovery the relations among the attributes

A n at2

tribute can be Boo lean o r quantitative

There are lo ts of algorithm s fo r m ining Boo lean

association rules

but few fo r quantitative

It is an efficient and convenient m ethod to

m app ing quantitative attributes into Boo lean attributes

A new algorithm fo r m ining

quantitative association rules is p resented in this paper

Q uantitative attribute values

are partitioned into basic intervals according to the their distribution in the database

and if po ssible

the adjacent basic itervals w ill be m erged

Then the intervals are

m apped into Boolean attributes

(

. ,

the item s

)

in th is w ay

M o re understandable

general interesting quantitative association rules can be m ined

The algorithm uses a

new searching p rocess to enum erate frequent item sets

Furthermo re

the algorithm us2

es a vertical database fo rm at to compute the suppo rt of each item set

w here each value

or interval is associated w ith a list of reco rds in w hich it occurs

Key words

data m ining

;

association rules

;

interval

;

m inim um suppo rt

;

m inim um

confidence

1　引言

数据挖掘

(

DataM ining

)

, 也称为数据库中的知识发现

(

Know ledge D iscovery in Database

KDD

)

, 是从

大量原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识Λ 数据挖掘是解决目前从大量数据中发现

有用信息的一个有效途径Λ 关联规则

(

A ssociation Rules

)

是数据挖掘中的一个非常重要的研究内容Λ 简单

收稿日期: 2000207229

资助项目: 国家自然科学基金

(

69974026, 70171002

)

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38743602

粉丝: 396

数值关联规则挖掘算法研究

论文研究-基于遗传算法的单维关联规则挖掘 .pdf

论文研究-可视化数据挖掘在中医流感症状分析中的应用 .pdf

基于非关系型数据库的大规模住院病案首页数据挖掘方法.pdf

基于遗传算法的非监督层次分类方法研究-基于遗传算法的非监督层次分类方法研究.pdf

基于MATLAB的空间关联规则数据挖掘系统设计与应用.pdf

基于语义相似性关联特征提取的大数据挖掘技术.pdf

大数据-算法-机械结构裂纹诊断的数值分析方法与应.pdf

基于模糊聚类的组合BP神经网络数据挖掘方法探究.pdf

论文研究-Pawlak近似空间中软集的软上（下）近似.pdf

最新资源