c4Data Warehousing
1、请简述数据仓库的基本架构。
底层是数据源,通过ETL工具放到数据仓库中,数据仓库为服务提供查询分析,这一层包含数据集市,
还包含元数据管理,由数据仓库我们可以通过olap服务器提供olap基本操作,向顶层提供各种数据分析
的信息服务。【顶层可以部署各种应用】
2、简述数据仓库中的数据模型及各模型特点。
企业级:首先通过etl工具,把数据源加载到数据仓库内,数据仓库根据主题划分为数据集市(数据仓库
即为多个数据集市的集合
数据集市:可能只对某一些主题感兴趣,每一个主题称为数据集市
虚拟仓库:在数据库上做一些视图
3、比较分析数据仓库与数据库的区别。
数据库是为事务型操作服务,数据仓库主要面向查询分析,面向事务操作的数据库并不能很好支持面向
查询分析的数据仓库的需求,所以分开
Chapter 4: Association Rule Mining
1. 频繁项集挖掘的实现 - Apriori算法:
候选项集的产生:从事务数据集中生成频繁一项集,然后通过连接和剪枝操作得到频繁k+1项
集。【利用频繁的k-1项集和1项集自连接得到可能的候选k项集】
使用先验原理对k+1项集进行过滤:如果一个k+1项集包含不频繁的k项集,那么它一定是不频
繁的,可以被剔除。
对每个候选频繁项集进行支持度计算:通过扫描事务数据库,计算每个频繁项集在数据集中的
支持度。
利用支持度阈值对候选频繁项集进行过滤:保留支持度大于等于最小支持度阈值的频繁项集。
2. 关联规则挖掘的内容:
关联规则挖掘旨在从给定的事务数据集中发现具有一定支持度和置信度的规则,称为强关联规
则。
过程包括:生成频繁项集(使用Apriori算法),对频繁项集进行二划分得到规则,通过计算
置信度过滤得到强关联规则。
3. 通过支持度和置信度可以有效评估关联规则的有效性吗?
支持度和置信度可以用来评估关联规则的有效性,但不能完全确定规则的有效性。其他评估方法包
括:
提升度(lift),可以衡量规则中的关联程度与随机事件之间的关系。
若=1,独立;
>1,正相关;【x发生提高y发生的概率】
<1,负相关【x发生降低y发生的概率】
相依表
Chapter 5 Classification