数据挖掘:概念与技术 - 韩家炜中文版概览

4星 · 超过85%的资源 需积分: 35 42 下载量 32 浏览量 更新于2024-12-22 2 收藏 1.83MB PDF 举报
"数据挖掘 概念与技术 by 韩家炜 中文版" 《数据挖掘:概念与技术》是韩家炜教授所著的一本关于数据挖掘的经典教材,其英文版名为"Data Mining: Concepts and Techiniques",由J. Han和M. Kamber共同撰写,并由Morgan Kaufmann在2000年出版。本书深入浅出地介绍了数据挖掘领域的核心概念和技术,是学习数据挖掘的宝贵资料。 在第一章“引言”中,作者首先阐述了数据挖掘的重要性和兴起的原因,指出数据挖掘是面对海量数据时寻找有价值信息的关键方法。接着,定义了数据挖掘这一术语,强调它主要应用于关系数据库、数据仓库、事务数据库以及高级数据库系统和应用。书中还列举了数据挖掘的六大功能:概念/类描述、关联分析、分类与预测、聚类分析、局外者分析以及演变分析,探讨了模式的有趣性以及数据挖掘系统的分类。此外,作者还讨论了数据挖掘面临的主要问题,如数据质量、噪声和异常值的处理等。 第二章“数据仓库和数据挖掘的OLAP技术”深入介绍了数据仓库的基本概念,包括操作数据库系统与数据仓库的区别、数据仓库的需求以及多维数据模型。其中,详细讨论了星形、雪花和事实星座等多维数据库模式,以及度量、概念分层和OLAP操作。此外,还涉及数据仓库的系统结构,如三层结构、不同类型的OLAP服务器(ROLAP、MOLAP、HOLAP)的比较,以及数据仓库的实现技术,如数据立方体的有效计算、索引、查询处理和元数据存储。 第三章“数据预处理”是数据挖掘的重要环节,作者强调了预处理的必要性,因为原始数据往往存在缺失值、不一致性、噪声等问题,需要通过清洗、转换和规约等步骤来提高数据的质量,从而提升数据挖掘的结果。这部分可能涵盖数据清洗、数据集成、数据变换、数据规约等多个方面。 这本教材通过丰富的实例和详尽的解释,帮助读者理解和掌握数据挖掘的核心概念和关键技术,是数据科学领域的重要参考资料,适合于学生、研究人员以及对数据挖掘感兴趣的从业者学习使用。