挖掘关联知识：从海量数据中发现商业价值

版权申诉

162 浏览量更新于2024-07-03 收藏 425KB PDF 举报

"第五章关联挖掘.pdf" 关联挖掘是数据挖掘领域的重要技术，它主要目的是从海量数据中发现项集之间的有趣关系，这些关系通常表现为“如果…则…”的形式，称为关联规则。随着信息技术的发展，数据库中存储的数据量日益增大，关联挖掘成为了一种有效的工具，用于提取潜在的市场趋势和消费者行为模式。关联规则挖掘的核心任务是寻找频繁项集和生成关联规则。频繁项集是指在数据集中出现次数超过预设阈值的项集。关联规则则是基于频繁项集生成的，描述了项集间的概率关系。例如，“如果顾客购买了牛奶，那么他们也可能会购买面包”。这种规则可以帮助商家优化产品布局，实施精准营销，或者预测消费者的购买行为。市场购物分析是关联挖掘的典型应用场景。通过对购物篮数据的分析，商家可以识别出哪些商品经常一起被购买，进而调整商品陈列，实施捆绑销售策略，或者设计促销活动。例如，如果发现顾客购买牛奶的同时，购买面包的概率很高，商家可能会选择将牛奶和面包放在相近的位置，以增加两种商品的销售。关联挖掘的过程包括数据预处理、频繁项集挖掘和规则生成三个步骤。数据预处理涉及数据清洗、数据转换等，确保数据的质量和可用性。频繁项集挖掘阶段，通常采用Apriori、FP-Growth等算法，这些算法能够在满足最小支持度条件下找出所有频繁项集。最后，规则生成阶段根据频繁项集生成满足最小置信度的关联规则。 Apriori算法是一种经典的关联挖掘算法，它利用下述原理：如果一个项集是频繁的，那么它的任何子集也必须是频繁的。这个特性允许算法在早期阶段排除不可能成为频繁项集的候选集，从而减少计算量。FP-Growth算法则是通过构建FP树（频繁项集树）来高效地找到频繁项集，避免了重复扫描数据集。关联规则的评价通常依赖于两个关键指标：支持度和支持度。支持度衡量项集在所有交易中出现的比例，而置信度表示在已知项集A出现的情况下，项集B出现的概率。高支持度和高置信度的规则被认为是有意义的。本章将深入探讨关联挖掘的理论基础，包括市场购物分析的经典案例，关联挖掘的基本概念，以及不同的挖掘方法，如Apriori和FP-Growth算法的实现细节。通过学习这些内容，读者将能理解如何从大量数据中发现有价值的关联规则，以及如何应用这些规则进行商业决策和优化。

数据挖掘第五章 关联挖掘





项集





。它是由候选



项集



中的元素组成。



（



）为发现频繁

0

项集





，算法利用



 ⊕

，来产生一个候选



项集



；



中包含





















个



项集（元素）。接下来就扫描数据库



，以获得候选



项集



中的各元素（



项集）支持频度。如图-



所示。



项集支持频度























扫描数据库获得各项

集支持频度

项集支持频度





















与最小支持阈值相比

获得频繁项集



图-



搜索候选



项集和频繁



项集



（



）由此可以确定频繁



-项集





内容。它是由候选



-项集



中支持频度不小

于最小支持频度的各

0

项集。



项集支持频度







































根据频繁



-项集产生

候选



-项集

项集支持频度

























与最小支持阈值相比

获得频繁项集

扫描数据库已确定候

选

-项集的支持频度



图-



搜索候选



-项集和频繁



-项集



（



）所获得的候选



-项集



，其过程如表-



所示。首先假设



! ⊕=

，

即为

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，

+

，





+

，

+

，

+

，

+

。根据

#

性质“一个频繁项集的所有子集也应是

频繁的”，由此可以确定后四个项集不可能是频繁的，因此将它们从



除

去，从而也就节约了扫描数据库



以统计这些项集支持频度的时间。这里

需要强调的是，给定一个候选

−

项集



，只需要检查那些

−− 

项集

是否为频繁项集即可，因为

#$

算法是按层次进行循环搜索的。如图



所示。



项集支持频度















根据频繁



-项集产生

候选



-项集

项集支持频度









与最小支持阈值相

比获得频繁项集

扫描数据库以确定候

选

-项集的支持频度



图-



搜索候选



-项集和频繁



-项集



（



）连接操作：



! ⊕=



，



，



，



，



，



，



，



，



，



，



，



⊕



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



，



（



）利用



性质进行删减，即一个频繁项集的所有子集均应是频繁项集。以下就是判

断哪个候选项集包含一个非频繁项集过程：



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



。它们均属于





。所以



中保留



，



，



；



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



。它们均属于





。所以



中保留



，



，



；



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



。其中



，



不属于





。

所以



，



，



为非频繁项集，因此从



中除去



，



，



；



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



。其中



，



不属于





。

所以



，



，



为非频繁项集，因此从



中除去



，



，



；



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



。其中



，



不属于





。

所以



，



，



为非频繁项集，因此从



中除去



，



，



；



!" 

，



，



的



-项集（子集）为



，



，



，



和



，



，其中



，



不属于





。

所以



，



，



为非频繁项集，因此从



中除去



，



，



；



（



）所以得到删减后的候选





，



，



，



，



，



。



表



根据





产生候选



-项集



! 

剩余37页未读，继续阅读

智慧安全方案

粉丝: 3843
资源: 59万+

挖掘关联知识：从海量数据中发现商业价值

漫谈数据挖掘：从入门到精通

"大数据导论复习资料.pdf及课程讲稿精华集萃

清华大学数据挖掘算法课程第3章PPT课件

第5章 挖掘建模之关联规则.pdf

数据挖掘考试题目——关联分析.pdf

数据挖掘考试题目-关联分析.pdf

数据挖掘 机器学习原理与SPSS Clementine应用宝典 第4章 数据选择.pdf

互联网数据挖掘课程 北大NLP课程-自然语言处理系列课程 第05章 数据挖掘基础与关联规则挖掘 共65页.pdf

清华大学精品大数据全套课程PPT课件含习题（36页）第5章 R语言.pdf

高校图书馆读者满意度的数据挖掘.pdf

最新资源

第5章挖掘建模之关联规则.pdf

数据挖掘机器学习原理与SPSS Clementine应用宝典第4章数据选择.pdf

互联网数据挖掘课程北大NLP课程-自然语言处理系列课程第05章数据挖掘基础与关联规则挖掘共65页.pdf