数据仓库与数据挖掘核心概念及任务解析

数据挖掘

数据仓库

需积分: 0 181 浏览量更新于2024-06-18 收藏 5.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"数据仓库与数据挖掘的个人复习资料，涵盖了数据挖掘的定义、知识发现过程、数据挖掘任务以及各种具体的数据分析技术，如关联规则、分类、回归、聚类和异常检测。此外，还讨论了数据集的主要特征、异常值检测方法以及不同属性类型的数据对象相似度计算。" 在数据仓库与数据挖掘领域，数据挖掘是关键的技术之一，其目的是从海量数据中发现有价值的信息和知识。数据挖掘通常包括预测性任务和描述性任务。预测性任务如回归和分类，根据某些属性的值来预测其他属性；而描述性任务如关联规则和聚类，则用于揭示数据中的模式和关系。知识发现（KDD）是数据挖掘的一个完整过程，它包含了多个步骤，包括数据清理、数据集成、数据选择、数据变换、数据挖掘以及知识评估。这些步骤确保了从原始数据到有用知识的转化。数据清理处理噪声和不一致性，数据集成解决来自不同数据源的问题，数据选择则针对特定任务进行数据过滤，数据变换统一数据格式，数据挖掘阶段实际执行模式搜索，最后通过知识评估来验证发现模式的有效性和实用性。数据挖掘任务主要包括分类、回归、关联规则挖掘、聚类和异常检测。分类是建立模型预测类标签，如决策树、朴素贝叶斯、支持向量机等；回归则是预测连续属性的值；关联规则挖掘寻找事务数据中的频繁项集；聚类对无标签数据进行分组，如K-means算法；异常检测则识别与正常模式显著不同的观测值。数据集的特征包括维度（特征数量）、稀疏性（空值比例）、分辨率（数据粒度）和分布（数据的统计特性）。识别异常值的方法有箱线图（超出IQR的值被视为异常）和3σ原则。对于包含不同属性类型的数据，计算对象相似度时，通常会分别处理标称属性、序数属性和数值属性，并取平均得到整体的相似度矩阵。了解这些基本概念和技术对于理解和应用数据仓库与数据挖掘至关重要，它们在业务分析、市场预测、风险管理等领域有着广泛应用。深入掌握这些知识将有助于提升数据分析和决策支持的能力。

资源详情

资源推荐

c4Data Warehousing  
1、请简述数据仓库的基本架构。  
底层是数据源，通过ETL工具放到数据仓库中，数据仓库为服务提供查询分析，这一层包含数据集市，
还包含元数据管理，由数据仓库我们可以通过olap服务器提供olap基本操作，向顶层提供各种数据分析
的信息服务。【顶层可以部署各种应用】
2、简述数据仓库中的数据模型及各模型特点。  
企业级：首先通过etl工具，把数据源加载到数据仓库内，数据仓库根据主题划分为数据集市（数据仓库
即为多个数据集市的集合
数据集市：可能只对某一些主题感兴趣，每一个主题称为数据集市
虚拟仓库：在数据库上做一些视图
3、比较分析数据仓库与数据库的区别。  
数据库是为事务型操作服务，数据仓库主要面向查询分析，面向事务操作的数据库并不能很好支持面向
查询分析的数据仓库的需求，所以分开
Chapter 4: Association Rule Mining  
1. 频繁项集挖掘的实现 - Apriori算法：
 
候选项集的产生：从事务数据集中生成频繁一项集，然后通过连接和剪枝操作得到频繁k+1项
集。【利用频繁的k-1项集和1项集自连接得到可能的候选k项集】
使用先验原理对k+1项集进行过滤：如果一个k+1项集包含不频繁的k项集，那么它一定是不频
繁的，可以被剔除。
对每个候选频繁项集进行支持度计算：通过扫描事务数据库，计算每个频繁项集在数据集中的
支持度。
利用支持度阈值对候选频繁项集进行过滤：保留支持度大于等于最小支持度阈值的频繁项集。
2. 关联规则挖掘的内容：
 
关联规则挖掘旨在从给定的事务数据集中发现具有一定支持度和置信度的规则，称为强关联规
则。
过程包括：生成频繁项集（使用Apriori算法），对频繁项集进行二划分得到规则，通过计算
置信度过滤得到强关联规则。
3. 通过支持度和置信度可以有效评估关联规则的有效性吗？
 
支持度和置信度可以用来评估关联规则的有效性，但不能完全确定规则的有效性。其他评估方法包
括：
提升度（lift），可以衡量规则中的关联程度与随机事件之间的关系。
若=1，独立；
>1，正相关；【x发生提高y发生的概率】
<1，负相关【x发生降低y发生的概率】
相依表
Chapter 5 Classification