WEKA关联分析教程:支持度、置信度、提升度与平衡度解析
需积分: 15 134 浏览量
更新于2024-08-20
收藏 2.11MB PPT 举报
"关联分析-Weka完整教程,涵盖了数据挖掘工具Weka的使用,包括数据格式、数据准备、属性选择、可视化分析、分类预测、关联分析、聚类分析和扩展Weka等内容。教程旨在使用户熟悉Weka的基本操作,理解其各项功能,并掌握数据挖掘实验流程。Weka是一款源自新西兰怀卡托大学的开源数据挖掘软件,获得了ACM SIGKDD的数据挖掘和知识探索领域最高服务奖,包含了多种预处理、分类、回归、聚类和关联分析的机器学习算法。"
在关联分析中,我们关注的是发现数据集中物品或事件之间的有趣关系。这里有五个重要的度量用于评估这些关联规则:
1. **支持度(Support)**:支持度衡量前件(L)和后件(R)同时出现的频率,即在所有实例中,同时出现L和R的概率。计算公式为`support = Pr(L,R)`。
2. **置信度(Confidence)**:置信度表示在观察到前件L的情况下,后件R出现的概率。它是支持度除以前件的支持度,即`confidence = Pr(L,R)/Pr(L)`。置信度越高,规则L->R的可靠性越大。
3. **提升度(Lift)**:提升度是规则L->R的置信度与L和R独立情况下预期置信度的比值,即`lift = Pr(L,R) / (Pr(L)Pr(R))`。提升度等于1表示L和R独立,高于1则表示L和R相关,低于1表示负相关。
4. **平衡度(Leverage)**:平衡度衡量L和R共同出现的频率超过它们独立出现频率的程度。计算公式为`leverage = Pr(L,R) - Pr(L)Pr(R)`。当L和R完全独立时,平衡度为0,如果L和R完全相同,平衡度为1。
5. **可信度(Conviction)**:可信度用于衡量前件L和后件R的独立性,计算公式为`conviction = Pr(L)Pr(not R) / Pr(L,R)`。高可信度意味着在L发生时,R不发生的概率大大降低。
在Weka中,关联分析通常通过Apriori、FP-Growth等算法进行。用户可以通过Weka的Explorer界面选择数据集,应用关联规则算法,并设置支持度、置信度等阈值来挖掘有趣的关联规则。此外,Weka还提供了可视化工具帮助用户理解分析结果。通过学习和实践Weka,数据科学家和分析师可以有效地发现数据中的隐藏模式,为业务决策提供有价值的信息。
2018-01-17 上传
2018-11-19 上传
2021-03-08 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
深夜冒泡
- 粉丝: 16
- 资源: 2万+
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明