关联规则挖掘：新模型与正负相关探索

需积分: 8 96 浏览量更新于2024-08-12 收藏 204KB PDF 举报

"关联规则挖掘的新模型 (2004年) - 刘建华 - 福建师范大学学报(自然科学版) - 文章编号 1000-5277(2004)02-0032-04 - TP392 - A" 关联规则挖掘是数据挖掘领域中的一个重要分支，它旨在发现数据集中物品之间的有趣关系，这些关系通常以形式化的规则表示，如“如果购买了商品A，那么也有可能购买商品B”。经典的关联规则模型基于支持度（Support）和置信度（Confidence）这两个核心度量标准。支持度定义了一个项集（例如，商品组合）在所有交易中出现的频率，计算公式为：Support(X) = 频繁项集X在所有交易中出现的比例。置信度则表示在已知项集X出现的情况下，项Y出现的概率，计算公式为：Confidence(X→Y) = Support(X∪Y) / Support(X)。然而，传统关联规则模型存在一些局限性。首先，它主要关注正相关关系，即两个项同时出现的情况，而忽略了可能存在的负相关关系，比如“购买A商品的人较少购买B商品”。其次，该模型可能产生大量的冗余规则，这增加了用户的分析负担。此外，支持度和置信度的阈值设定直接影响到挖掘结果的数量和质量，选择合适的阈值并不总是直观的。刘建华在论文中分析了这些不足，提出了一个新的关联规则模型，旨在增强对正相关和负相关规则的挖掘能力。这个新模型可能包括对原有支持度和置信度的扩展或调整，例如引入新的度量指标来捕捉负相关性，或者通过改进的算法减少冗余规则的产生。这样的改进使得用户能够更全面地了解数据集中的各种关联，从而获得更有价值的洞察。在实际应用中，关联规则挖掘广泛应用于市场篮子分析、推荐系统、网络日志分析等多个领域。新的关联规则模型能够帮助业务决策者发现潜在的市场趋势，优化营销策略，或者提高系统推荐的准确性。通过深入研究和优化这些度量标准，我们可以更好地理解数据背后隐藏的模式，进一步提升数据挖掘的效率和效果。

第

卷第

期

2004

年

月

福建师范大学学报(自然科学版〉

Journal

Fujian Normal University (Natural Science Edition)

文章编号

1000-5277(2004)02-0032-04

关联规则挖掘的新模型

刘建华

(福建师范大学数学与计算机科学学院，福建福州

35000

No.2

Jun.2004

摘要:对关联规则的不足进行分析，提出了一新关联规则模型，此模型有助于挖掘关联规则的正相关与

负相关.并对经典模型进行一定改进.

关键词

数据挖掘;关联规则

相关性

中固分类号

TP392

文献标识码

A New

1\伍。

del

Mining

Association

Rules

LIU

Jian-hua

(School

Mathematics

and

Computer Science , Fujian

Normal

University

Fuzhou

350007

, China )

Abstract:

Analyzes

some

problem

the

classical

association

rules

method

and

then

introduce

new

algorithm

mining

association

rules

improve

the

classical

method

mining

association

rules.

Key

words:

data

mining;

association

rules;

association

数据挖掘就是利用算法从大量数据中产生大量的模式和规则，从而得到感兴趣或有用的知识.但

并不是每个模式和规则是用户感兴趣的.为了能判断一个规则是否是用户感兴趣的，这就需要一个度

量标准，用来度量用户对规则的感兴趣的程度，根据这个量化得到数据，从而可以淘汰一些不感兴趣

的规则.所以，用户对规则感兴趣的度量标准的研究是很重要的.

关联规则是数据挖掘运用广泛的一种挖掘方法，其普遍采用的模型是

Support-confidence

模型

[IJ

设

I={

白，

，

…

，

}

是二进制文字的集合，其中的元素称为项

(item).

记

为交易

(transaction)

的集

合，这里交易

是项的集合，并且

TCI.

对应每一个交易有唯一的标识，如交易号，记作

TID.

设

是一

个

中项的集合，如果

XCT

，

那么称交易

包含

一个关联规则是形如

→

的蕴涵式，这里

XCI

，

YCI

，

并且

n Y =

ø.

规则

→

在交易

数据库

中的支持度

(support)

是交易集中包含

和

的交易数与所有交易数之比，记为

support(X

→

Y),

support(X

•

I{TIX

YCT

，

I/IDI.

规则

→

在交易集中的可信度

(confidence)

是指包含

和

的交易数与包含

的交易数之比，

记为

confidence

•

，

即

conf

•Y)

I{TIX

YCT

，

TCD}I/I{TIXCT

，

给定一个交易集

，

挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度

(Sminsupp)

和最小可信度

(Cminconl)

的关联规则.

在该模型中，采用支持度

supp(X

和可信度

conf(X

→

来度量关联规则

→

的不确定性，

收稿日期

2003-12-19

基金项目:福建省教育厅基金资助项目(J

B0215

作者简介:刘建华

0967

一

)

，男，江西安福人，讲师，硕士.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38570202

粉丝: 9

关联规则挖掘：新模型与正负相关探索

应用关联规则构建质量活动链模型 (2004年)

统计学习基础-数据挖掘、推理与预测.2004

利用关联规则挖掘构建质量活动链模型

一种新颖的最小属性约简模型 (2004年)

水经济的效益扩散模型分析 (2004年)

挖掘机器人虚拟样机建模策略与仿真技术研究 (2004年)

扩展产生式规则的网络故障诊断专家系统 (2004年)

覆盖粗糙集的一般化 (2004年)

山东省经济发展区域差异分析 (2004年)

1-空间计量模型（LM、LR、WALD、Hausman检验等）相关数据（2004-2019年）-社科数据.zip

最新资源