如何计算某一数据集的某一特性的频繁相集
时间: 2024-05-23 07:09:20 浏览: 10
要计算某一数据集的某一特性的频繁相集,可以使用关联规则挖掘算法,如Apriori算法。具体步骤如下:
1. 定义频繁项集阈值(support threshold),例如设为0.5,表示出现频率大于等于0.5的项集为频繁项集。
2. 构建候选项集,即将所有可能的项集以及它们的出现频率都存储下来。
3. 根据数据集中的事务记录,扫描候选项集,并统计每个项集在数据集中出现的次数,得到支持度(support)。
4. 根据支持度筛选出频繁项集。
5. 生成关联规则,通过计算置信度(confidence)来确定规则的强度,最终输出满足置信度阈值的关联规则。
注意,为了避免出现假阳性(false positive),在第3步统计项集出现次数时,一般采用先验算法(Pruning)去掉那些出现次数不足阈值的子集,参考算法包括PCY算法、FP-growth算法等。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![ppt](https://img-home.csdnimg.cn/images/20210720083527.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)