Apache Hadoop权威指南第4版:大数据存储与分析
需积分: 26 170 浏览量
更新于2024-07-20
收藏 9.6MB PDF 举报
"Hadoop权威指南第4版,英文版本,由Tom White撰写,全面介绍如何使用Apache Hadoop构建和维护可靠、可扩展的分布式系统,适合程序员和管理员阅读。"
《Hadoop权威指南》第四版是深入理解并运用Apache Hadoop的关键资源,尤其在大数据存储和分析领域具有广泛影响力。本书作者Tom White是一位在Hadoop技术和实用方法上都有深厚造诣的大师。此书不仅得到了Doug Cutting(Cloudera的创始人之一)的高度评价,而且因其清晰易懂的讲解方式,深受读者喜爱。
本版更新了关于Hadoop2的内容,新增了YARN(Yet Another Resource Negotiator)章节,这是Hadoop的下一代资源管理系统,负责集群的任务调度和资源分配。此外,书中还涵盖了如Parquet(列式存储格式)、Flume(数据收集系统)、Crunch(简化MapReduce编程的Java库)和Spark(快速大数据处理框架)等与Hadoop生态系统相关的项目。
本书旨在帮助读者掌握Hadoop的基础组件,包括:
1. **HDFS(Hadoop Distributed File System)**:分布式文件系统,是Hadoop的核心组成部分,用于存储大规模数据。书中将详细阐述其工作原理、数据块机制以及容错和复制策略。
2. **MapReduce**:一种并行处理和计算模型,通过“映射”和“化简”两个阶段处理数据。读者将学习如何编写MapReduce程序,理解其生命周期和优化技巧。
3. **YARN**:作为Hadoop的资源管理器,YARN改变了Hadoop的架构,使得集群可以支持多种计算框架。书中会详细介绍YARN的工作流程、资源调度和应用管理。
此外,书中还提供了最新的案例研究,展示了Hadoop在医疗系统和基因组数据处理中的应用,揭示了Hadoop在实际业务场景中的强大功能。
通过阅读本书,程序员能够掌握处理各种规模数据集的技能,而管理员则能了解如何高效地部署和管理Hadoop集群,确保系统的稳定运行。无论是对Hadoop初学者还是经验丰富的从业者,这都是一本不可多得的参考书籍。
2019-01-15 上传
2018-12-12 上传
2018-08-22 上传
2019-02-26 上传
2018-12-02 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
qq_14806125
- 粉丝: 5
- 资源: 11
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码