采用Apriori算法找出所有频繁项集以及其支持度
时间: 2023-09-15 21:16:16 浏览: 138
Apriori 算法的幻灯片
Apriori算法是一种挖掘关联规则的算法,可以用来找出数据集中频繁出现的项集。其基本思想是先找出单个元素的频繁项集,再逐步扩大项集的大小,直到不能再生成更多的频繁项集为止。下面是一个简单的例子:
假设我们有如下的交易记录:
```
TID Items
1 A, B, C, D
2 A, C, D, E
3 B, C, D
4 A, B, D, E
5 B, D, E
```
首先,我们需要确定最小支持度(即出现次数的阈值),假设设定为3次。那么我们可以得到单个元素的频繁项集:
```
Itemset Support
A 3
B 4
C 3
D 5
E 3
```
接下来,我们可以生成大小为2的项集,即由两个元素组成的项集。我们可以通过连接已知的频繁项集来生成候选项集,再检查其出现次数是否达到最小支持度。例如,我们可以通过连接A和B来生成{A,B}的候选项集,再检查其出现次数:
```
Itemset Support
{A,B} 2
{A,C} 2
{A,D} 3
{A,E} 1
{B,C} 3
{B,D} 4
{B,E} 2
{C,D} 3
{C,E} 1
{D,E} 3
```
可以看到,只有{A,D},{B,D},{B,C},{C,D}和{D,E}的支持度达到了最小支持度,因此它们是频繁项集。接下来,我们可以继续生成大小为3的项集,以此类推,直到不能再生成更多的频繁项集为止。
总结一下,Apriori算法的步骤如下:
1. 确定最小支持度(即出现次数的阈值)。
2. 生成单个元素的频繁项集。
3. 生成大小为2的项集,并检查其出现次数是否达到最小支持度。
4. 根据大小为2的频繁项集,生成大小为3的项集,并检查其出现次数是否达到最小支持度。
5. 继续生成更大的项集,直到不能再生成更多的频繁项集为止。
阅读全文