WEKA关联分析教程:支持度、置信度、提升度与平衡度解析

需积分: 15 9 下载量 144 浏览量 更新于2024-08-20 收藏 2.11MB PPT 举报
"关联分析-Weka完整教程,涵盖了数据挖掘工具Weka的使用,包括数据格式、数据准备、属性选择、可视化分析、分类预测、关联分析、聚类分析和扩展Weka等内容。教程旨在使用户熟悉Weka的基本操作,理解其各项功能,并掌握数据挖掘实验流程。Weka是一款源自新西兰怀卡托大学的开源数据挖掘软件,获得了ACM SIGKDD的数据挖掘和知识探索领域最高服务奖,包含了多种预处理、分类、回归、聚类和关联分析的机器学习算法。" 在关联分析中,我们关注的是发现数据集中物品或事件之间的有趣关系。这里有五个重要的度量用于评估这些关联规则: 1. **支持度(Support)**:支持度衡量前件(L)和后件(R)同时出现的频率,即在所有实例中,同时出现L和R的概率。计算公式为`support = Pr(L,R)`。 2. **置信度(Confidence)**:置信度表示在观察到前件L的情况下,后件R出现的概率。它是支持度除以前件的支持度,即`confidence = Pr(L,R)/Pr(L)`。置信度越高,规则L->R的可靠性越大。 3. **提升度(Lift)**:提升度是规则L->R的置信度与L和R独立情况下预期置信度的比值,即`lift = Pr(L,R) / (Pr(L)Pr(R))`。提升度等于1表示L和R独立,高于1则表示L和R相关,低于1表示负相关。 4. **平衡度(Leverage)**:平衡度衡量L和R共同出现的频率超过它们独立出现频率的程度。计算公式为`leverage = Pr(L,R) - Pr(L)Pr(R)`。当L和R完全独立时,平衡度为0,如果L和R完全相同,平衡度为1。 5. **可信度(Conviction)**:可信度用于衡量前件L和后件R的独立性,计算公式为`conviction = Pr(L)Pr(not R) / Pr(L,R)`。高可信度意味着在L发生时,R不发生的概率大大降低。 在Weka中,关联分析通常通过Apriori、FP-Growth等算法进行。用户可以通过Weka的Explorer界面选择数据集,应用关联规则算法,并设置支持度、置信度等阈值来挖掘有趣的关联规则。此外,Weka还提供了可视化工具帮助用户理解分析结果。通过学习和实践Weka,数据科学家和分析师可以有效地发现数据中的隐藏模式,为业务决策提供有价值的信息。