WEKA关联分析教程:支持度、置信度、提升度与平衡度解析
需积分: 15 144 浏览量
更新于2024-08-20
收藏 2.11MB PPT 举报
"关联分析-Weka完整教程,涵盖了数据挖掘工具Weka的使用,包括数据格式、数据准备、属性选择、可视化分析、分类预测、关联分析、聚类分析和扩展Weka等内容。教程旨在使用户熟悉Weka的基本操作,理解其各项功能,并掌握数据挖掘实验流程。Weka是一款源自新西兰怀卡托大学的开源数据挖掘软件,获得了ACM SIGKDD的数据挖掘和知识探索领域最高服务奖,包含了多种预处理、分类、回归、聚类和关联分析的机器学习算法。"
在关联分析中,我们关注的是发现数据集中物品或事件之间的有趣关系。这里有五个重要的度量用于评估这些关联规则:
1. **支持度(Support)**:支持度衡量前件(L)和后件(R)同时出现的频率,即在所有实例中,同时出现L和R的概率。计算公式为`support = Pr(L,R)`。
2. **置信度(Confidence)**:置信度表示在观察到前件L的情况下,后件R出现的概率。它是支持度除以前件的支持度,即`confidence = Pr(L,R)/Pr(L)`。置信度越高,规则L->R的可靠性越大。
3. **提升度(Lift)**:提升度是规则L->R的置信度与L和R独立情况下预期置信度的比值,即`lift = Pr(L,R) / (Pr(L)Pr(R))`。提升度等于1表示L和R独立,高于1则表示L和R相关,低于1表示负相关。
4. **平衡度(Leverage)**:平衡度衡量L和R共同出现的频率超过它们独立出现频率的程度。计算公式为`leverage = Pr(L,R) - Pr(L)Pr(R)`。当L和R完全独立时,平衡度为0,如果L和R完全相同,平衡度为1。
5. **可信度(Conviction)**:可信度用于衡量前件L和后件R的独立性,计算公式为`conviction = Pr(L)Pr(not R) / Pr(L,R)`。高可信度意味着在L发生时,R不发生的概率大大降低。
在Weka中,关联分析通常通过Apriori、FP-Growth等算法进行。用户可以通过Weka的Explorer界面选择数据集,应用关联规则算法,并设置支持度、置信度等阈值来挖掘有趣的关联规则。此外,Weka还提供了可视化工具帮助用户理解分析结果。通过学习和实践Weka,数据科学家和分析师可以有效地发现数据中的隐藏模式,为业务决策提供有价值的信息。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2021-03-08 上传
374 浏览量
177 浏览量
868 浏览量
点击了解资源详情
点击了解资源详情
深夜冒泡
- 粉丝: 19
- 资源: 2万+
最新资源
- 巧用google搜索技术,高效高速搜索
- bash shell英文原版教程
- sg3525涓枃璧勬枡(1).pdf
- 面向对象程序设计vc2
- AdobeInDesginPlugInDevelop
- 大学生求职指南精华版
- Klette R., Rosenfeld A. Digital Geometry.. Geometric Methods for Digital Image Analysis (Morgan Kaufmann, 2004)
- LM311.pdf技术资料
- Beginning Linux Programming (4nd edn)
- 如何获取中文的拼音字母
- IBM DB2通用数据库Windows版快速入门.pdf
- dos通用命令dos通用命令
- ArcObject入门教程
- 基于FPGA的神经网络自整定PID控制器设计
- 约束Delaunay三角剖分动态算法研究
- java基础习题集,非常不错的东东