《数据挖掘:概念与技术》详解数据挖掘基础与OLAP技术

需积分: 33 2 下载量 3 浏览量 更新于2024-10-14 收藏 1.83MB PDF 举报
《数据挖掘:概念与技术》是一本由韩家炜和M.Kamber编著的专业书籍,于2000年由Morgan Kaufmann出版社发行。这本书是数据挖掘领域的重要参考资料,尤其适合对关系数据挖掘和数据仓库有兴趣的读者深入学习。作者首先介绍了数据挖掘的基本概念,包括其起源、重要性以及适用的数据源类型,如关系数据库、数据仓库、事务数据库和高级数据库系统。 在第一章中,作者详细探讨了数据挖掘的功能,包括概念/类描述(通过特征和区分来识别模式)、关联分析、分类和预测、聚类分析、局外者分析以及演变分析。作者提醒读者并非所有模式都具有实际价值,因此需要有选择地进行挖掘。此外,还讨论了数据挖掘系统的分类,以及面临的主要问题,比如数据质量问题、模型解释性和可扩展性等。 第二章深入讲解了数据仓库和OLAP(在线分析处理)技术在数据挖掘中的应用。数据仓库作为独立的系统,区别于操作型数据库,它的主要目的是支持决策支持而不是日常事务处理。作者阐述了多维数据模型,包括星形、雪花和事实星座的模式,并介绍了度量的分类和计算。这部分内容强调了概念分层的重要性,以及OLAP操作在多维数据模型上的应用,包括查询模型的构建。 第三章专门探讨数据预处理,这是数据挖掘过程中必不可少的步骤,因为原始数据可能存在噪声、缺失值或不一致性。预处理的目的包括数据清洗、数据集成、数据转换和数据规约,这些步骤旨在提高数据质量和可用性,以便后续的挖掘任务。 《数据挖掘:概念与技术》不仅涵盖了数据挖掘的基础理论,还深入探讨了数据仓库技术在数据挖掘中的实践应用,以及数据预处理的关键性。对于希望在这个领域深化理解的专业人士和学生来说,这本书提供了丰富的知识体系和实用的指导。