题) 利用Apriori算法找出下列数据所有2项集,并计算他们的支持度和置信度。 交易记录 商品名称和代码 160122330 面包(A),甜酱(B),芝麻酱(C) 160122331 面包(A),芝麻酱(C) 160122332 面包(A),芝麻酱(C),牛奶(D) 160122333 面包(A),啤酒(E) 160122334 牛奶(D),啤酒(E)
时间: 2023-12-19 22:05:18 浏览: 135
好的,这是一个关联规则挖掘的问题,我们可以利用Apriori算法进行求解。
首先,我们要确定最小支持度和最小置信度的阈值。在本题中,我们可以先设定最小支持度为50%,最小置信度为60%。
然后,我们可以根据交易记录,确定所有可能出现的1项集和它们的支持度。在本题中,所有可能出现的1项集包括:A、B、C、D、E,它们的支持度分别为4、1、3、2、2(即它们在5个交易记录中分别出现了4次、1次、3次、2次、2次)。
接下来,我们可以利用Apriori算法,依次求解所有可能出现的2项集及它们的支持度和置信度。具体步骤如下:
1. 由1项集生成2项集。对于本题中的1项集,我们可以按照字母顺序两两组合,得到所有可能出现的2项集:AB、AC、AD、AE、BC、BD、BE、CD、CE、DE。
2. 计算2项集的支持度。我们遍历所有交易记录,对于每个2项集,判断它是否出现在该交易记录中。如果出现,则该2项集的支持度加1。最终,我们可以得到所有2项集的支持度,如下表所示:
| 2项集 | 支持度 |
|-------|-------|
| AB | 0 |
| AC | 3 |
| AD | 1 |
| AE | 1 |
| BC | 2 |
| BD | 1 |
| BE | 1 |
| CD | 2 |
| CE | 1 |
| DE | 1 |
3. 根据最小支持度筛选出频繁2项集。由于最小支持度为50%,因此我们只保留支持度大于等于3的2项集,即AC、BC、CD。这三个2项集被称为频繁2项集。
4. 计算频繁2项集的置信度。我们遍历所有交易记录,对于每个频繁2项集和每个交易记录,判断它是否包含频繁2项集的前项和后项。如果包含,分别计算它们的支持度,然后根据置信度的定义计算置信度。最终,我们可以得到所有频繁2项集的置信度,如下表所示:
| 规则 | 置信度 |
|-------|-------|
| A->C | 0.75 |
| C->A | 1 |
| B->C | 1 |
| C->B | 0.67 |
| C->D | 0.67 |
| D->C | 0.5 |
5. 根据最小置信度筛选出强关联规则。由于最小置信度为60%,因此我们只保留置信度大于等于60%的关联规则,即A->C、B->C、C->A、C->D。这四个关联规则被称为强关联规则。
因此,本题中所有2项集及它们的支持度和置信度如下:
| 2项集 | 支持度 | 置信度 |
|-------|-------|-------|
| AB | 0 | - |
| AC | 3 | 0.75 |
| AD | 1 | 0.5 |
| AE | 1 | - |
| BC | 2 | 1 |
| BD | 1 | - |
| BE | 1 | - |
| CD | 2 | 0.67 |
| CE | 1 | - |
| DE | 1 | - |
强关联规则为A->C、B->C、C->A、C->D。
阅读全文