apriori算法案例可视化
时间: 2023-06-25 10:05:05 浏览: 172
Apriori算法是一种常用的关联规则挖掘算法,它可以用于发现数据集中的频繁项集,进而挖掘出它们之间的关联规则。在这个过程中,数据集的每个项都被看作是一个事务,而每个事务中包含了多个项。
为了更好地理解Apriori算法的工作原理,可以通过可视化的方式来展示它的执行过程。下面是一个简单的案例:
假设有以下5个交易记录,每个记录中有若干个商品:
```
T1: A, B, D
T2: A, C, D, E
T3: B, C, E
T4: A, B, C, E
T5: B, E
```
现在我们要找出其中的频繁项集,设最小支持度为2,即一个项集出现的次数必须不少于2次才能被认为是频繁项集。Apriori算法的执行过程如下:
1. 扫描所有的交易记录,统计每个项的出现次数,得到以下1项频繁集:
```
{A}, sup=3
{B}, sup=4
{C}, sup=3
{D}, sup=2
{E}, sup=3
```
2. 由于{D}的支持度小于最小支持度2,因此其它包含{D}的项集都不可能是频繁项集,可以将它们从候选集中剔除。得到以下2项频繁集:
```
{A}, sup=3
{B}, sup=4
{C}, sup=3
{E}, sup=3
```
3. 基于上一轮得到的频繁项集,生成候选2项集:
```
{A,B}, sup=2
{A,C}, sup=1
{A,E}, sup=2
{B,C}, sup=3
{B,E}, sup=3
{C,E}, sup=2
```
4. 扫描所有的交易记录,统计每个2项集的出现次数,得到以下2项频繁集:
```
{A,B}, sup=2
{B,C}, sup=3
{B,E}, sup=3
{C,E}, sup=2
```
5. 基于上一轮得到的频繁项集,生成候选3项集:
```
{B,C,E}, sup=2
```
6. 扫描所有的交易记录,统计每个3项集的出现次数,得到以下3项频繁集:
```
{B,C,E}, sup=2
```
通过可视化的方式展示Apriori算法的执行过程,可以更加清晰地理解它的工作原理和过程。在上述案例中,我们可以用柱状图或者其他图表来展示每个项集的支持度,以及候选项集和频繁项集的变化过程。
阅读全文