关联规则apriori算法
时间: 2023-09-15 14:17:45 浏览: 59
Apriori算法,一种寻找关联规则 的数据挖掘算法_python_代码_下载
5星 · 资源好评率100%
关联规则是数据挖掘中的一种重要技术,可以分析数据集中的项之间的关系,并找出频繁出现的项集。Apriori算法是一种基于频繁项集的关联规则挖掘算法,它通过扫描数据集多次来找出频繁出现的项集。
Apriori算法的基本思想是利用“先验知识”,即如果一个项集是频繁的,那么它的所有子集也一定是频繁的。具体地,Apriori算法通过以下步骤来发现频繁项集:
1. 扫描数据集,统计每个单项的出现次数,筛选出所有出现次数大于等于最小支持度阈值的项,形成频繁1-项集。
2. 基于频繁1-项集,构建候选2-项集,并扫描数据集,统计每个候选2-项集的出现次数,筛选出所有出现次数大于等于最小支持度阈值的项,形成频繁2-项集。
3. 基于频繁2-项集,构建候选3-项集,并扫描数据集,统计每个候选3-项集的出现次数,筛选出所有出现次数大于等于最小支持度阈值的项,形成频繁3-项集。
4. 重复上述过程,直到不能再生成新的频繁项集为止。
基于频繁项集,Apriori算法可以发现关联规则。对于每个频繁项集,可以产生很多候选规则,然后计算每个规则的置信度,保留置信度大于等于最小置信度阈值的规则即可。
需要注意的是,Apriori算法的缺点是需要多次扫描数据集,因此对于大型数据集而言,其效率较低。
阅读全文