关联规则挖掘:支持度与置信度解析

需积分: 30 3 下载量 158 浏览量 更新于2024-07-11 收藏 1.03MB PPT 举报
"本文主要介绍了关联规则挖掘中的关键度量指标——支持度和置信度,以及它们在大型数据库分析中的应用。关联规则挖掘是从大量数据中找出有趣的、频繁出现的项集之间的模式和相关性,常用于购物篮分析、分类设计和捆绑销售等场景。" 关联规则挖掘是一种数据分析技术,它从事务数据库或关系数据库中寻找频繁出现的项集之间的关联和相关性。这一过程通常涉及到两个重要的度量标准:支持度和支持置信度。 支持度(Support)衡量的是项集在所有事务中的频率。对于项集A,支持度s表示事务集D中包含A的事务所占的百分比。例如,如果支持度为50%,这意味着在D中有一半的事务包含了项集A。在给出的例子中,规则"A  C"的支持度为50%,意味着在所有事务中,有50%的事务同时购买了A和C。 置信度(Confidence)则衡量的是在包含某项集A的事务中,同时也包含另一项集B的比例。公式为:置信度c = 支持度(A ∪ B) / 支持度(A)。若规则"C  A"的置信度为100%,这表明在所有购买了C的事务中,全部也购买了A,显示出强烈的关联性。 关联规则挖掘的一个经典案例是“尿布与啤酒”现象。通过分析购物数据,超市发现购买尿布的顾客中有相当一部分人会同时购买啤酒,因此将这两种商品放在一起,有效提升了销售额。购物篮分析是关联规则挖掘的一种具体应用,它通过分析顾客购买的商品组合来发现频繁项集,如通过布尔向量表示商品购买情况,但这种方法可能丢失了商品购买的顺序和数量等信息。 支持度和置信度是评估关联规则有趣性和强度的关键参数。在实际应用中,通常设定最小支持度和置信度阈值,只有满足这两个条件的规则才会被视为有意义。例如,如果设定最小支持度为50%,最小置信度为50%,则规则"A  C" (50%, 66.6%) 和 "C  A" (50%, 100%) 都是有效的关联规则。 关联规则的应用广泛,包括市场篮子分析以确定商品的联合销售策略,个性化推荐系统以提供更精准的产品搭配,甚至在医学领域用于发现疾病间的潜在关联。通过支持度和置信度的计算,我们可以从海量数据中提取出有价值的关联模式,为企业决策和市场营销提供有力的数据支持。