数据挖掘:概念、技术与数据仓库的探索

5星 · 超过95%的资源 需积分: 33 21 下载量 87 浏览量 更新于2024-07-24 收藏 1.83MB PDF 举报
"数据挖掘-概念与技术 第二版" 是一本关于数据挖掘领域的经典教材,作者为韩家炜和M. Kamber,由Morgan Kaufmann出版社于2000年出版。这本书深入探讨了数据挖掘的核心概念和技术,旨在帮助读者理解并掌握数据挖掘在不同数据类型上的应用。 在第一章“引言”中,作者首先提出了数据挖掘的重要性,解释了激发数据挖掘的原因。数据挖掘被定义为从大量数据中发现有价值知识的过程。书中详细讨论了在不同数据源上进行数据挖掘的可能性,包括关系数据库、数据仓库、事务数据库以及高级数据库系统和应用。接着,介绍了数据挖掘的主要功能,如概念描述、关联分析、分类与预测、聚类分析、局外者分析和演变分析。同时,也探讨了并非所有模式都具有实际价值的问题,以及数据挖掘系统的一般分类和面临的主要挑战。 第二章“数据仓库和数据挖掘的OLAP技术”专注于数据仓库的概念及其在数据挖掘中的角色。数据仓库是用于决策支持的非操作性数据库,与操作数据库系统有显著区别。作者介绍了多维数据模型,包括星形、雪花和事实星座模式,并讨论了度量、概念分层以及OLAP(在线分析处理)操作。此外,还阐述了数据仓库的系统结构,包括三层架构,以及ROLAP、MOLAP和HOLAP的不同类型。章节末尾提到了数据仓库的实现技术,如数据立方体的计算、索引优化、OLAP查询处理和元数据存储,以及数据仓库技术的进一步发展,如数据立方体的自发现和多粒度聚合。 第三章“数据预处理”强调了在数据挖掘之前对原始数据进行清洗、转换和规范化的重要性。预处理是确保数据质量的关键步骤,它包括处理缺失值、异常值、噪声和不一致性。这一章可能涵盖了数据集成、数据转换、数据规约以及数据标准化等主题。 本书为读者提供了一个全面的数据挖掘知识框架,从基本概念到实际应用,包括数据仓库和OLAP技术,以及预处理步骤,旨在帮助读者掌握数据挖掘的核心技术和实践方法。