评估关联规则兴趣度:支持度、置信度与提升度详解

需积分: 18 3 下载量 128 浏览量 更新于2024-08-21 收藏 211KB PPT 举报
关联规则的兴趣度度量是数据挖掘领域中的一个重要概念,它用于衡量在大量数据中发现的频繁项集之间的有趣模式或关联性。在进行关联规则挖掘时,评估规则的有趣程度通常涉及到客观度量和主观度量两部分。 客观度量主要依赖于两个指标: 1. **支持度(Support)**:支持度表示某个关联规则LHS(左-hand set,即规则左侧的商品集合)和RHS(右-hand set,即规则右侧的商品集合)同时出现的频率,即包含这两组商品的所有交易次数除以总交易次数。例如,如果在1000次交易中,购买尿布和啤酒的组合出现了200次,那么{尿布}→{啤酒}的规则支持度为200/1000。 2. **置信度(Confidence)**:置信度是指购买LHS商品的交易中,同时也购买RHS商品的概率。它是包含规则两边商品的交易次数除以只包含LHS商品的交易次数。如上例中,购买尿布的交易中有40%购买了啤酒,所以{尿布}→{啤酒}的置信度为40%。 然而,客观度量并不能完全反映用户兴趣,因为有趣与否是主观的,会因用户的不同而有所差异。一般认为一个规则有趣,如果它: - **出人意料**:比如尿布与啤酒的关联,这对传统思维来说可能是意外的发现。 - **可行动性强**:用户可以根据这些规则做出决策,如超市将尿布和啤酒放在一起,从而增加销量。 主观度量强调用户的个人喜好和行为,因此挖掘关联规则后,用户可能更关注那些既具有高支持度和置信度,又能满足他们个人需求或偏好,例如能带来实际利益或便利性的规则。例如,一个提升度高的规则,即置信度高于随机购买RHS商品的概率,可能更能吸引用户注意。 SAS软件在处理关联规则时,提供了提升度这一衡量标准,它是置信度与单独购买RHS商品概率的比值,有助于用户在众多规则中筛选出更具价值的那部分。通过结合客观度量和用户主观感受,可以更全面地评估和理解关联规则的价值。因此,在实际应用中,挖掘关联规则时既要考虑数据的统计特性,也要关注用户的实际需求和体验。