深入理解Hadoop:权威指南第三版英文版
5星 · 超过95%的资源 需积分: 9 191 浏览量
更新于2023-03-16
1
收藏 7.73MB PDF 举报
"《Hadoop 权威指南(第三版)英文版》是关于Apache Hadoop生态系统的详尽指南,由Tom White撰写。本书涵盖了Hadoop的起源、与其它系统(如RDBMS、网格计算、志愿者计算)的比较,以及Hadoop的分布式文件系统(HDFS)设计和MapReduce编程模型的深入讲解。书中还讨论了Hadoop的版本、兼容性、数据存储和分析方法。"
在Hadoop生态系统中,MapReduce是核心的计算框架。通过一个天气数据集的例子,书中介绍了如何使用MapReduce进行数据分析,包括数据格式、Map和Reduce函数的使用,以及如何通过Java实现MapReduce程序。此外,还讲述了如何扩展MapReduce以适应大规模数据处理,并探讨了数据流、Combiner功能以及如何使用Hadoop Streaming和Hadoop Pipes与不同的编程语言(如Ruby和Python)集成。
HDFS是Hadoop的基础,用于海量数据的分布式存储。书中详细阐述了HDFS的设计理念,如块、NameNodes和DataNodes,以及HDFS联邦和高可用性特性。此外,还介绍了HDFS的命令行接口,基本的文件操作,不同层次的接口,如Java接口,以及如何读写数据。HDFS的数据一致性模型、distcp工具的使用和集群的平衡维护也是讨论的重点。
Hadoop I/O部分涉及数据完整性,包括HDFS中的数据校验、本地文件系统和ChecksumFileSystem。压缩和编码机制,如Codecs,以及它们如何影响输入分片在MapReduce中的应用。此外,序列化接口Writable和实现自定义Writable的方法,以及Avro这样的序列化框架和文件数据结构如SequenceFile和MapFile也被详细介绍。
在开发MapReduce应用程序章节中,读者将学习配置API、资源合并、环境配置、单元测试、Mapper和Reducer的编写,以及如何在集群上运行和调试作业。此外,还介绍了JobControl和Apache Oozie等工具来管理MapReduce工作流。
书中的第六章深入到MapReduce的工作原理,包括MapReduce作业执行的详细过程,经典的MapReduce和YARN(MapReduce 2)架构,以及它们如何处理失败。调度器如公平调度器和容量调度器,以及Shuffle和Sort阶段的运作方式也有所涵盖。
最后,第七章讨论了MapReduce的类型和格式,如默认的MapReduce作业、输入和输出格式,包括文本、二进制、多输入/输出和数据库输入/输出的处理方式。
《Hadoop 权威指南(第三版)英文版》是一本全面且深入的技术参考书籍,适合那些想要理解和掌握Hadoop及其相关技术的开发者和数据分析师。
2025-01-06 上传
2025-01-06 上传
2025-01-06 上传
2025-01-06 上传
2025-01-06 上传
2025-01-06 上传
coco_ethan
- 粉丝: 123
- 资源: 11
最新资源
- 安德罗塞克
- 电气设计笔记.zip
- 自适应蚁群算法在序列比对中的应用.zip
- tiramisu:项目将对从通过caffe处理的图像中提取的特征进行后处理
- Exam24h Helper - Tạo Khóa Học Online-crx插件
- 营运课退换货作业规范
- Algorithm
- 单机版五子棋源码.zip
- Ogre:Ogre 是一个用于使用 OPI 和 OPIOctopus900 的小型视野测量演示应用程序
- 百货常用促销手段
- Formation facile-crx插件
- stepik_lessons
- FFDoku:FFDoku,一个用于Firefox OS的数独!
- 初级java笔试题-brawl:开源大规模斗殴模拟器
- 拉扎鲁斯
- 精美蝴蝶图标下载