没有合适的资源?快使用搜索试试~ 我知道了~
首页《RapidMiner数据分析与挖掘实战》第8章 关联分析与关联规则
《RapidMiner数据分析与挖掘实战》第8章 关联分析与关联规则
需积分: 50 16 下载量 87 浏览量
更新于2023-03-16
评论
收藏 655KB DOC 举报
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。 8.1.1 常用关联规则算法 常用关联算法如所表8 1所示。
资源详情
资源评论
资源推荐
《RapidMiner 数据分析与挖掘实战》第 8 章
第8章 关联分析与关联规则
8.1理解关联规则分析
下面通过餐饮企业中的一个实际情景引出关联规则的概念。客户在餐厅点餐时,面对
菜单中大量的菜品信息,往往无法迅速找到满意的菜品,既增加了点菜的时间,也降低了
客户的就餐体验。实际上,菜品的合理搭配是有规律可循的:顾客的饮食习惯、菜品的荤
素和口味,有些菜品之间是相互关联的,而有些菜品之间是对立或竞争关系(负关联),
这些规律都隐藏在大量的历史菜单数据中,如果能够通过数据挖掘发现客户点餐的规则,
就可以快速识别客户的口味,当他下了某个菜品的订单时推荐相关联的菜品,引导客户消
费,提高顾客的就餐体验和餐饮企业的业绩水平。
关联规则分析也成为购物篮分析,最早是为了发现超市销售数据库中不同的商品之间
的关联关系。例如一个超市的经理想要更多地了解顾客的购物习惯,比如“哪组商品可能会
在一次购物中同时购买?”或者“某顾客购买了个人电脑,那该顾客三个月后购买数码相机
的概率有多大?”他可能会发现如果购买了面包的顾客同时非常有可能会购买牛奶,这就导
出了一条关联规则“面包=>牛奶”,其中面包称为规则的前项,而牛奶称为后项。通过对面
包降低售价进行促销,而适当提高牛奶的售价,关联销售出的牛奶就有可能增加超市整体
的利润。
关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项
之间的关联关系,而这种关系并没有在数据中直接表示出来。
..1 常用关联规则算法
常用关联算法如所表 8-1 所示。
表 8-1常用关联规则算法
算法名称 算法描述
Apriori
关联规则最常用也是最经典的挖掘频繁项集的算法,其核心思想是
通过连接产生候选项及其支持度然后通过剪枝生成频繁项集。
182
《RapidMiner 数据分析与挖掘实战》第 8 章
FP-Tree
针对 Apriori 算法的固有的多次扫面事务数据集的缺陷,提出的不产
生候选频繁项集的方法。Apriori 和 FP-Tree 都是寻找频繁项集的算法。
Eclat 算法
Eclat 算法是一种深度优先算法,采用垂直数据表示形式,在概念格
理论的基础上利用基于前缀的等价关系将搜索空间划分为较小的子空
间。
灰色关联法
分析和确定各因素之间的影响程度或是若干个子因素(子序列)对
主因素(母序列)的贡献度而进行的一种分析方法。
本节重点详细介绍 Apriori 算法。
..2 Apriori 算法
以超市销售数据为例,提取关联规则的最大困难在于当存在很多商品时,可能的商品
的组合(规则的前项与后项)的数目会达到一种令人望而却步的程度。因而各种关联规则
分析的算法从不同方面入手减小可能的搜索空间的大小以及减小扫描数据的次数。Apriori
算法是最经典的挖掘频繁项集的算法,第一次实现了在大数据集上可行的关联规则提取,
其核心思想是通过连接产生候选项与其支持度然后通过剪枝生成频繁项集。
1. 关联规则和频繁项集
(1) 关联规则的一般形式
项集 A、B 同时发生的概率称为关联规则的支持度(也称相对支持度):
(
8-1
)
项集 A 发生,则项集 B 发生的概率为关联规则的置信度:
(
8-2
)
(2) 最小支持度和最小置信度
最小支持度是用户或专家定义的衡量支持度的一个阈值,表示项目集在统计意义上的
最低重要性;最小置信度是用户或专家定义的衡量置信度的一个阈值,表示关联规则的最
低可靠性。同时满足最小支持度阈值和最小置信度阈值的规则称作强规则。
183
《RapidMiner 数据分析与挖掘实战》第 8 章
(3) 项集
项集是项的集合。包含 k 个项的项集称为 k 项集,如集合{牛奶,麦片,糖}是一个 3
项集。
项集的出现频率是所有包含项集的事务计数,又称作绝对支持度或支持度计数。如果
项集 I 的相对支持度满足预定义的最小支持度阈值,则 I 是频繁项集。频繁 k 项集通常记作
。
(4) 支持度计数
项集 A 的支持度计数是事务数据集中包含项集 A 的事务个数,简称为项集的频率或计
数。
已知项集的支持度计数,则规则 的支持度和置信度很容易从所有事务计数、
项集 A 和项集 的支持度计数推出:
(8-3)
(8-4)
也就是说,一旦得到所有事务个数,A,B 和 的支持度计数,就可以导出对应
的关联规则 和 ,并可以检查该规则是否是强规则。
2. Ariori 算法:使用候选产生频繁项集
Apriori 算法的主要思想是找出存在于事务数据集中的最大的频繁项集,在利用得到的
最大频繁项集与预先设定的最小置信度阈值生成强关联规则。
(1) Apriori 的性质
频繁项集的所有非空子集也必须是频繁项集。根据该性质可以得出:向不是频繁项集 I
的项集中添加事务 A,新的项集 一定也不是频繁项集。
(2) Apriori 算法实现的两个过程:
184
《RapidMiner 数据分析与挖掘实战》第 8 章
1) 找出所有的频繁项集(支持度必须大于等于给定的最小支持度阈值),在这个过
程中连接步和剪枝步互相融合,最终得到最大频繁项集 。
连接步:
连接步的目的是找到 K 项集。对给定的最小支持度阈值,分别对 1 项候选集 ,
剔除小于该阈值的的项集得到 1 项频繁集 ;下一步由 自身连接产生 2 项候选
集 ,保留 中满足约束条件的项集得到 2 项频繁集,记为 ;再下一步由
与 连接产生 3 项候选集 ,保留 中满足约束条件的项集得到 3 项频繁集,
记为 这样循环下去,得到最大频繁项集 。
剪枝步:
剪枝步紧接着连接步,在产生候选项 的过程中起到减小搜索空间的目的。由于
是 与 连接产生的,根据 Apriori 的性质频繁项集的所有非空子集也必须
是频繁项集,所以不满足该性质的项集将不会存在于 中,该过程就是剪枝。
2) 由频繁项集产生强关联规则:由过程(1)可知未超过预定的最小支持度阈值的项集
已被剔除,如果剩下这些规则又满足了预定的最小置信度阈值,那么就挖掘出了
强关联规则。
下面将结合餐饮行业的实例来讲解 Apriori 关联规则算法挖掘的实现过程。数据库中部
分点餐数据如表 8-2:
表 8-2 数据库中部分点餐数据
185
剩余19页未读,继续阅读
海晏
- 粉丝: 5
- 资源: 36
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- ExcelVBA中的Range和Cells用法说明.pdf
- 基于单片机的电梯控制模型设计.doc
- 主成分分析和因子分析.pptx
- 共享笔记服务系统论文.doc
- 基于数据治理体系的数据中台实践分享.pptx
- 变压器的铭牌和额定值.pptx
- 计算机网络课程设计报告--用winsock设计Ping应用程序.doc
- 高电压技术课件:第03章 液体和固体介质的电气特性.pdf
- Oracle商务智能精华介绍.pptx
- 基于单片机的输液滴速控制系统设计文档.doc
- dw考试题 5套.pdf
- 学生档案管理系统详细设计说明书.doc
- 操作系统PPT课件.pptx
- 智慧路边停车管理系统方案.pptx
- 【企业内控系列】企业内部控制之人力资源管理控制(17页).doc
- 温度传感器分类与特点.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0