apriori算法案例
时间: 2023-12-10 14:07:25 浏览: 120
Apriori算法是一种经典的关联规则挖掘算法,用于发现数据集中的频繁项集和关联规则。下面我将通过一个简单的例子来介绍Apriori算法的基本流程。
假设我们有以下交易数据集:
| 交易ID | 购买商品 |
|--------|----------|
| 1 | A, B, C |
| 2 | A, C |
| 3 | B, C |
| 4 | A, B |
| 5 | A, C |
我们的目标是找到频繁项集和关联规则。
1. 第一步是扫描整个数据集,统计每个商品的支持度(出现的次数),并筛选出支持度不小于设定阈值(比如3)的商品,得到1-项集:
| 商品 | 支持度 |
|------|--------|
| A | 4 |
| B | 3 |
| C | 4 |
2. 第二步是根据1-项集,依次生成2-项集:
| 商品 | 支持度 |
|-------------|--------|
| A, B | 2 |
| A, C | 3 |
| B, C | 3 |
3. 第三步是根据2-项集,依次生成3-项集:
| 商品 | 支持度 |
|-------------|--------|
| A, B, C | 2 |
4. 经过上述步骤,我们得到了所有频繁项集,接下来我们可以根据频繁项集,生成关联规则。设定最小置信度为0.6,即只保留置信度不小于0.6的关联规则,我们得到以下关联规则:
| 关联规则 | 支持度 | 置信度 |
|-------------|--------|--------|
| A => C | 3 | 0.75 |
| C => A | 3 | 1.0 |
| B => C | 3 | 1.0 |
| C => B | 3 | 0.75 |
| A, C => B | 2 | 0.67 |
| B, C => A | 2 | 0.67 |
这些关联规则告诉我们,比如如果顾客购买了商品A和C,那么他们也很可能会购买商品B。
阅读全文