韩佳炜《数据挖掘:概念与技术》详解——数据仓库与挖掘方法

需积分: 50 0 下载量 185 浏览量 更新于2024-07-22 收藏 1.83MB PDF 举报
"《数据挖掘:概念与技术》是一本经典的IT领域教材,由韩佳炜编写,适用于南京大学研究生和西安电子科技大学本科学位三课程学习。该书由J.Han和M.Kamber合著,于2000年由Morgan Kaufmann出版社出版。本书主要探讨了数据挖掘的基础概念、技术以及其在实际中的应用。 在第一章中,作者首先阐述了数据挖掘的起源和重要性,解释了为何在海量数据中寻找有价值的信息成为必要。作者明确了数据挖掘的范畴,包括在关系数据库、数据仓库、事务数据库以及高级数据库系统中的应用。数据挖掘的功能被详细分类,如概念/类描述(特征和区分)、关联分析、分类和预测、聚类分析、局外者分析以及演变分析,强调并非所有模式都同等重要,需要根据实际需求筛选。 第二章深入讨论了数据仓库及其与操作数据库的区别,特别是多维数据模型,如星形、雪花和事实星座,以及度量的分类和计算。作者还介绍了OLAP(在线分析处理)技术在数据仓库中的关键作用,涉及系统结构、设计步骤、OLAP服务器类型比较,以及数据仓库的实现细节,如有效计算、索引优化和元数据管理。 第三章则着重于数据预处理的重要性,讲解了为什么在挖掘前需要对原始数据进行清洗、转换和集成,以确保数据的质量和适用性。这一阶段的工作包括处理缺失值、异常值、数据集成等,是数据挖掘流程中不可或缺的一环。 通过阅读这本书,读者能够掌握数据挖掘的基本概念、技术原理,以及如何在实践中构建和利用数据仓库进行深度分析。这对于理解现代商业智能和数据分析至关重要,有助于培养数据分析师和决策支持系统的开发者。"