![](https://csdnimg.cn/release/download_crawler_static/86154829/bg6.jpg)
5
1)Apriori 算法是一种使用频繁项集的先验知识从而生成关联规则的一种算
法也是最有影响的关联规则挖掘算法。
2)定义:设 C(k)表示候选 k-项集 L(k)表示 C(k)中出现频率大于或
等于最小支持度阈值与事务总数的乘积的 k-项集,即 k-频繁项集或者是 k-大项
集。
3)Apriori 算法具有以下性质:任何非频繁的 (k-1)- 项集都不可能是频繁 k-
项集的子集。这是因为 如果含有 (k-1)-项集的事务占事务总数的百分比不大于
最小支持度阈值。那么含有该 (k-1)-项集与另外一项构成的 k 项集的事务占事务
总数的百分比就更不可能大于或等于最小支持度阈值了。如果用概念来解释的
话,含有 k-项集的事务构成的概念的内涵比含有 (k-1)- 项集事务所构成的概念的
内涵增加了那么它的外延必然会减小 所包含的事务数也必然减小。 因此,根据
这个性质可以在生成 k-项集之前先将 (k-1)- 项集中的非频繁项集删除通过删除候
(k-1)-项集中的非频繁项集得到 (k-1)-频繁项集。
4)Apriori 算法的步骤步骤如下
① 设定最小支持度 s 和最小置信度 c。
② Apriori 算法使用候选项集。首先产生出候选的项的集合,即候选项集
若候选项集的支持度大于或等于最小支持度则该候选项集为频繁项集。
③ 在 Apriori 算法的过程中,首先从数据库读入所有的事务,每个项都被
看作候选 1-项集得出各项的支持度再使用频繁 1-项集集合来产生候选 2-项集集
合。因为先验原理保证所有非频繁的 1-项集的超集都是非频繁的。
④ 再扫描数据库。得出候选 2-项集集合。再找出频繁 2-项集。并利用这
些频繁 2-项集集合来产生候选 3-项集。
⑤ 重复扫描数据库, 与最小支持度比较; 产生更高层次的频繁项集再从该
集合里产生下一级候选项集直到不再产生新的候选项集为止。
2.FP- 树频集算法
1)定义:针对 Apriori 算法的固有缺陷, J. Han 等提出了不产生候选挖掘频
繁项集的方法: FP-树频集算法。 采用分而治之的策略, 在经过第一遍扫描之后,
把数据库中的频集压缩进一棵频繁模式树( FP-tree ),同时依然保留其中的关
联信息,随后再将 FP-tree 分化成一些条件库, 每个库和一个长度为 1 的频集相