Apriori算法挖掘3-项集:频繁项集与关联规则

需积分: 50 6 下载量 124 浏览量 更新于2024-08-20 收藏 14.77MB PPT 举报
在第3次迭代中,关联规则挖掘的主要焦点是发现大3-项集(即由3个不同项组成的频繁项集)。在这个迭代过程中,候选3-项集C3包括了如{I1, I2, I3}, {I1, I2, I5}, {I1, I3, I5}, {I2, I3, I4}, 和 {I2, I3, I5}等项集,它们的计数和相对频率(支持度S[%])表明了它们在数据集中出现的次数和占比。 - **关联规则概述**:关联规则挖掘是一种数据分析技术,用于识别数据中项集之间的关联性,这些关联可以以规则的形式表达,例如“如果购买了啤酒,那么很可能会购买尿布”。关联规则分析可以应用于购物篮分析,寻找商品组合间的规律。 - **基本概念**: - 事务:数据集中单个的购买行为或记录。 - 项:事务中的独立属性或产品。 - 项集:由一组相关的项组成。 - k-项集:包含k个不同项的集合,如1-项集是单个项,2-项集如{牛奶, 果冻},3-项集如{牛奶, 果冻, 啤酒}。 - **关联规则表示**: - 前项(X)和后项(Y):规则的组成部分,前者是前提,后者是结果。 - 支持度(s):反映规则在数据集中的普遍程度。 - 置信度(c):衡量规则的强度,即后项出现的概率在给定前项的情况下。 - **频繁项集**: - 用户需要设置最小支持度(min_sup)和置信度阈值(min_conf),以筛选出具有统计显著性的频繁项集。 - 频繁项集示例:L1(1-项集)、L2(2-项集)、L3(3-项集)展示了不同的频繁组合。 - **关联规则挖掘过程**: - 第一阶段:从数据集中找出所有支持度超过min_sup的频繁项集。 - 第二阶段:基于频繁项集生成关联规则,保留置信度大于等于min_conf的规则。 - **关联规则挖掘算法**: - 主要算法之一是Apriori算法,这是一种广度优先搜索的方法,通过递归地生成可能的项集,直到达到预设的支持度和置信度条件。 在第5章的关联规则部分,详细讲解了关联规则的概念、挖掘过程,以及Apriori算法的工作原理,强调了频繁项集在挖掘过程中的核心作用。通过实例,读者可以理解如何运用这些理论在实际场景中发现购物篮分析中的隐含关联。