大数据挖掘权威指南:处理海量数据的艺术

5星 · 超过95%的资源 需积分: 10 13 下载量 40 浏览量 更新于2024-07-21 收藏 3.69MB PDF 举报
《挖掘大规模数据集》(Mining of Massive Datasets)是一本由Anand Rajaraman和Jeffrey David Ullman合著的专业书籍,两位作者分别在数据库和Web技术领域享有盛誉。Rajaraman是斯坦福大学计算机科学系助理教授,拥有丰富的商业背景,曾创办并被亚马逊、谷歌和沃尔玛收购的公司。Ullman则是美国国家工程院院士,著名的计算机科学家,以其在编译原理和数据库系统实现领域的贡献而闻名,他的学生包括谷歌创始人Sergey Brin。 本书专注于处理大规模数据的数据挖掘,特别强调了如何在无法一次性装入内存的大数据集上进行分析。它源自两位作者在斯坦福大学多年教学经验的积累,课程内容覆盖了Web挖掘(如网络分析)以及大型数据挖掘项目。书中提供的案例主要围绕互联网数据,如网页抓取、社交网络分析等,反映了大数据时代的实际挑战。 全书共包含三个课程的内容,分别是高级研究生课程CS345A(原名为Web Mining,现为CS246)、网络分析课程CS224W,以及大规模数据挖掘项目课程CS341。这本书的目标读者不仅限于研究生,对高级本科生来说也非常有价值,因为它探讨了如何从海量数据中提取有价值的信息和知识。 本书的核心理念在于介绍数据挖掘的技术、方法和工具,如何通过处理和分析大数据来解决现实世界中的问题,如用户行为理解、市场趋势预测、推荐系统等。书中深入浅出地讲解了数据预处理、模式识别、聚类、关联规则学习、分类、异常检测等各种数据挖掘技术,并且提供了许多实用的算法和案例,帮助读者理解和掌握在大数据环境下进行数据挖掘的实践技巧。 《挖掘大规模数据集》是一本具有理论深度和实践指导意义的教材,对于从事数据科学、信息技术和商业智能领域的专业人士以及对大数据感兴趣的学者和研究人员来说,都是一份不可或缺的学习资源。