《大数据技术基础》林子雨编著 - 大数据入门教程

需积分: 9 12 下载量 144 浏览量 更新于2024-07-19 收藏 5.5MB PDF 举报
"《大数据技术基础》是一本由厦门大学计算机科学系教师林子雨编著的教程,主要涵盖大数据的基础知识,适用于计算机专业研究生学习。教程内容包括大数据概述、关键技术与挑战、Hadoop、MapReduce、HDFS、Zookeeper、HBase、流计算、图计算、NoSQL数据库、云数据库、Google Spanner和Google Dremel等。各章节由林子雨及其团队成员分工编写,旨在提供免费的学习资源,但禁止用于商业目的。教程提供了丰富的网络资料和书籍来源,同时也包含了作者的原创内容。读者可通过指定链接免费下载PDF文档和教学PPT,并可向作者反馈意见和建议。该教程已应用于厦门大学的研究生课程,并在作者的个人主页和班级网站上可供参考。" 在《大数据技术基础》中,林子雨首先介绍了大数据的基本概念,包括它如何定义,以及大数据在当今社会中的重要性。大数据的产生源自于互联网、物联网以及各类传感器的广泛应用,导致数据量呈指数级增长。这些数据不仅规模庞大,而且类型多样、增长迅速,具有高复杂性和实时性。 接着,林子雨探讨了大数据的作用,强调其在预测分析、商业智能、个性化推荐、社会科学研究等领域的应用。大数据分析能够揭示隐藏在海量信息下的模式和趋势,为企业决策、公共服务和社会管理提供有力支持。 在区分大数据与大规模数据、海量数据时,林子雨指出,大数据不仅仅关注数据量的大小,更注重数据的价值、速度和多样性。它强调的是处理和分析这些数据的能力,以及从数据中提取知识和洞察的挑战。 教程还列举了典型的实例,如谷歌流感趋势项目,展示了大数据如何通过分析搜索引擎的查询数据,实时预测流感的传播趋势,这体现了大数据在公共健康领域的潜力。 通过学习本书,读者将能够理解大数据的核心概念,掌握大数据处理的关键技术,如Hadoop框架中的MapReduce分布式计算模型和HDFS分布式文件系统,以及Zookeeper协调服务、HBase分布式数据库、流计算和图计算算法,同时对NoSQL数据库和云数据库有深入认识。此外,读者还将接触到Google的创新技术,如Spanner全球分布式数据库和Dremel高性能数据分析系统。