数据挖掘经典:韩家炜《数据挖掘:概念与技术》概览

需积分: 33 5 下载量 166 浏览量 更新于2024-07-25 收藏 1.83MB PDF 举报
"数据挖掘概念技术(经典书籍)韩家炜.pdf" 这是一本由韩家炜撰写的数据挖掘领域的经典著作《数据挖掘:概念与技术》。书中详细介绍了数据挖掘的基础理论、方法和技术,旨在帮助读者理解并掌握数据挖掘的核心概念。 在第一章“引言”中,作者首先探讨了数据挖掘的起源及其重要性,指出数据挖掘是在大量数据中发现有价值信息的过程。接着,书中定义了数据挖掘,并阐述了在不同类型的数据库(如关系数据库、数据仓库、事务数据库和高级数据库系统)上进行数据挖掘的可能性。此外,还讨论了数据挖掘的各种功能,包括概念描述、关联分析、分类与预测、聚类分析、局外者分析和演变分析。作者提醒读者,并非所有模式都具有实际价值,因此数据挖掘系统需要能够识别和筛选出有意义的模式。最后,章节介绍了数据挖掘系统的分类以及面临的主要问题。 第二章“数据仓库和数据挖掘的OLAP技术”深入讲解了数据仓库的概念,强调了其与操作数据库系统的区别以及建立数据仓库的必要性。多维数据模型是这一章的重点,涵盖了从表和电子数据表到数据立方体的转变,以及星形、雪花和事实星座等多维数据库模式。此外,章节还讨论了度量、概念分层、OLAP操作、星形网查询模型,以及数据仓库的系统结构,包括三层结构、不同类型的OLAP服务器(ROLAP、MOLAP、HOLAP)的比较,以及数据仓库的实现技术,如数据立方体的有效计算、索引、查询处理和元数据存储。最后,章节展望了数据仓库向数据挖掘的过渡,提出了从OLAP到OLAP Mining的发展趋势。 第三章“数据预处理”则讨论了在数据挖掘之前对原始数据进行清洗、转换和规范化的重要性。预处理是确保数据质量的关键步骤,包括处理缺失值、异常值、重复值以及数据标准化和规范化。这一章还可能涉及特征选择、数据集成以及数据变换等步骤,为后续的数据挖掘分析打下坚实基础。 通过这三章内容,读者可以建立起对数据挖掘基本概念和技术的全面认识,理解数据仓库在数据挖掘中的角色,以及预处理在数据挖掘过程中的不可或缺性。这本书是学习数据挖掘领域知识的重要参考资料。