Hadoop权威指南第4版:构建大规模分布式系统详解
5星 · 超过95%的资源 需积分: 39 126 浏览量
更新于2024-07-22
17
收藏 11.08MB PDF 举报
《Hadoop:权威指南》第四版是由Tom White所著,是一本专为程序员和管理员设计的全面指南,旨在帮助读者理解和构建可靠的、可扩展的分布式系统,特别是使用Apache Hadoop。本书针对的是数据分析师和Hadoop集群管理者,特别强调在Hadoop 2版本的基础上,介绍了新章节如YARN(Yet Another Resource Negotiator)和相关项目如Parquet、Flume、Crunch和Spark。
书中涵盖了Hadoop的基础组件,如MapReduce、Hadoop分布式文件系统(HDFS)、YARN以及它们的工作原理。作者深入探讨了MapReduce,包括开发应用程序的步骤,以及不同类型的格式和特性。对于Hadoop操作,读者可以学习如何设置和维护Hadoop集群,包括HDFS和MapReduce在YARN上的运行。此外,书还介绍了两种数据格式:Avro用于序列化数据,Parquet则适合处理嵌套数据。
数据导入工具如Flume(用于流数据)和Sqoop(用于批量数据转移)也在本书中有所涉及。同时,高级数据处理工具如Pig、Hive、Crunch和Spark与Hadoop的集成也被详细讲解。HBase分布式数据库和ZooKeeper分布式配置服务是其他关键主题,后者用于协调集群中的配置和协调工作。
本书还包含两个实际案例研究,展示了Hadoop在医疗系统和基因组数据分析中的应用。附录部分提供了安装Apache Hadoop的指南,以及使用Cloudera发行版的信息,还包括如何准备NCDC天气数据和对比旧版与新版Java MapReduce API。
《Hadoop:权威指南》第四版不仅是一个技术手册,也是对Hadoop生态系统全面而深入的理解指南,适合那些希望在这个领域深入学习和实践的专业人士。随着技术的不断更新,这本书不仅能帮助读者掌握基础知识,还能紧跟Hadoop技术的发展趋势。
2018-04-20 上传
2018-01-31 上传
2018-06-16 上传
2024-01-29 上传
2017-02-13 上传
2018-03-22 上传
142 浏览量
2019-03-19 上传
2018-05-25 上传
ramissue
- 粉丝: 354
- 资源: 1487
最新资源
- MATLAB实现小波阈值去噪:Visushrink硬软算法对比
- 易语言实现画板图像缩放功能教程
- 大模型推荐系统: 优化算法与模型压缩技术
- Stancy: 静态文件驱动的简单RESTful API与前端框架集成
- 掌握Java全文搜索:深入Apache Lucene开源系统
- 19计应19田超的Python7-1试题整理
- 易语言实现多线程网络时间同步源码解析
- 人工智能大模型学习与实践指南
- 掌握Markdown:从基础到高级技巧解析
- JS-PizzaStore: JS应用程序模拟披萨递送服务
- CAMV开源XML编辑器:编辑、验证、设计及架构工具集
- 医学免疫学情景化自动生成考题系统
- 易语言实现多语言界面编程教程
- MATLAB实现16种回归算法在数据挖掘中的应用
- ***内容构建指南:深入HTML与LaTeX
- Python实现维基百科“历史上的今天”数据抓取教程