数据挖掘实验：关联规则分析与Apriori算法

需积分: 0 166 浏览量更新于2024-08-04 收藏 171KB DOCX 举报

"应宇杰 19151633关联规则挖掘1 - 杭州电子科技大学计算机学院数据仓库与数据挖掘实验" 在数据挖掘领域，关联规则是一种重要的发现模式的方法，用于揭示数据集中的隐藏关系。关联规则通常应用于市场篮子分析，以发现顾客购买商品之间的关联性。实验1的目的是让学生了解关联规则的基本概念，掌握Apriori算法的原理，并能实际进行关联规则分析。 1. **关联规则** 关联规则是形如`A => B`的逻辑表达式，其中`A`和`B`都是项集，且都包含在项的全集`I`中。`A`和`B`不能相交（即`A ∩ B = ∅`）。一个关联规则表示如果事务中出现了`A`，那么通常也会出现`B`。支持度和置信度是评估规则强度的关键指标： - **支持度(support)**: 表示规则`A => B`在所有事务中出现的比例，即`support(A ∪ B)`。 - **置信度(confidence)**: 表示在包含`A`的事务中出现`B`的概率，即`confidence(A => B) = support(A ∪ B) / support(A)`，它代表了`A`到`B`的条件概率。 2. **频繁项集(frequent itemset)** 频繁项集是指在数据库中出现次数达到预设最小支持度阈值的项集。如果一个项集`I`在数据库中的事务中出现的频率大于或等于最小支持度`min_sup`，则`I`是频繁项集。 3. **Apriori算法** Apriori算法是挖掘关联规则的常用方法，它基于两个关键性质： - **频繁项集的闭包性质**: 如果一个项集是频繁的，它的任何子集也是频繁的。 - **抗剪枝性质**: 如果一个项集不是频繁的，那么它的任何超集也不会是频繁的。 Apriori算法的步骤如下： - **步骤1**: 生成所有单个项的频数，找到满足最小支持度的单项频繁项集。 - **步骤2**: 通过连接步骤1中的频繁单项集生成候选的双项集，然后检查它们的支持度，保留满足最小支持度的双项频繁项集。 - **步骤n**: 递归地生成更大大小的候选项集，直到无法找到新的频繁项集为止。 4. **挖掘过程** 挖掘关联规则分为两个阶段： - **阶段1**：找出所有频繁项集，这一步决定了算法的效率，因为生成的所有候选集都需要被检查以确定其频繁性。 - **阶段2**：基于阶段1找出的频繁项集，生成关联规则，并计算其支持度和置信度，筛选出满足最小支持度`min_sup`和最小置信度`min_conf`的强规则。在实验中，学生应学习如何应用Apriori算法来挖掘数据，理解和支持度和置信度的计算，以及如何使用这些指标来评估规则的强度和实用性。此外，实验也强调了挖掘过程中有效管理候选集生成和计算效率的重要性。

杭州电子科技大学计算机学院

数据仓库与数据挖掘

实验 1：关联规则挖掘

时间：2021 年 11 月 10 日学号：19151633 姓名：应宇杰

一、实验目的

1、了解关联规则的基本思想，理解频繁项集挖掘的一般过程和基本原理；

2、巩固 Apriori 算法的算法思想，能够进行关联规则分析。

二、实验原理

1、频繁项集

设 I={i1, i2,…,im}是项的集合，D 是数据库事务的集合，其中每个事务 T 是一个非空项集，

使得 T 包含于 I。每一个事务具有唯一的事务标识符 TID。设 A 是一个项集，事务 T 包含 A，

当且仅当 A 包含于 T。如果项集 A 中包含 k 个项，则称其为 k 项集。项集的出现频度是包含

项集的事务数，简称为项集的频度、支持度计数或计数。如果项集 I 的相对支持度满足预定

义的最小支持度阈值，则 I 是频繁项集。

2、关联规则、关联规则的挖掘

关联规则是形如 A=>B 的逻辑蕴含式，其中 A 包含于 I，B 包含于 I，A 不等于空集，B

不等于空集，并且 A 交 B 等于空集。如果事务数据库 D 中有 s%的事务包含 A 并 B，则称关

联规则 X=>Y 的支持度为 s%，实际上，支持度是一个概率值。若项集 A 的支持度记为 support(A)，

规则的置信度为 support(A 并 B)／support (A)。这是一个条件概率 P(B|A)。也就是：

support(A=>B)=P(A 并 B)

confidence(A=>B)=P(B|A)=support(A 并 B)／support(A)

同时满足最小支持度阈值（min_sup）和最小置信度阈值（min_conf）的规则称为强规则。

为方便计算，用 0%~100%之间的值，而不是 0.0~1.0 之间的值来表示支持度和置信度。

confidence(A=>B)式表明，规则 A=>B 的置信度容易从 A 并 B 的支持度计数推出。也就是说，

一旦得到 A、B 和 A 并 B 的支持度计数，则导出对应的关联规则 A=>B 和 B=>A，并检查它们

是否是强规则是直截了当的。因此，挖掘关联规则的问题可以归结为挖掘频繁项集。

一般而言，关联规则的挖掘是一个两步的过程：

（1）找出所有的频繁项集：根据定义，这些项集的每一个频繁出现的次数至少与预定

义的最小支持度计数 min_sup 一样。

（2）有频繁项集产生强关联规则：根据定义，这些规则必须满足最小支持度和最小置

信度。

由于第二步的开销远低于第一步，因此挖掘关联规则的总体性能由第一步决定。

下载后可阅读完整内容，剩余5页未读，立即下载

曹将

粉丝: 27
资源: 308

数据挖掘实验：关联规则分析与Apriori算法

应宇杰 19151633 聚类分析1

数塔应宇杰19151633 1

应宇杰+19151633+各种排序算法1

应宇杰_19151633_讲座心得体会1

应宇杰-19151633-数据结构思政报告1

应宇杰-19151633-计算机科学导引课程报告 1

19151633 应宇杰 实验报告1

选题4 19151633 应宇杰1

116+19151633+应宇杰1

19151633+应宇杰企业参观报告1

最新资源

19151633 应宇杰实验报告1