精通Hadoop:构建与维护可扩展分布式系统
需积分: 16 46 浏览量
更新于2024-07-23
收藏 15.93MB PDF 举报
"Hadoop.The.Definitive.Guide.3rd.Edition"
《Hadoop权威指南》第三版由Tom White撰写,全面介绍了如何利用Apache Hadoop构建可靠、可扩展的分布式系统,适合程序员进行大数据分析以及管理员搭建和管理Hadoop集群。书中包含实际案例,展示Hadoop解决特定问题的方法。新版涵盖了MapReduce新API、MapReduce 2及其更灵活的执行模型(YARN)等内容。
1. **Hadoop分布式文件系统(HDFS)**:学习如何在HDFS中存储大规模数据集,理解其分布式存储机制,包括数据冗余和故障恢复策略。
2. **MapReduce分布式计算**:掌握MapReduce编程模型,了解如何编写Map和Reduce任务,处理并行计算和数据分片。
3. **I/O构建块**:探讨Hadoop的数据和输入/输出组件,包括压缩、数据完整性、序列化(如Avro)和持久化。
4. **实际MapReduce程序开发**:发现编写真实世界MapReduce程序的常见陷阱和高级特性,优化性能和容错性。
5. **Hadoop集群设计与管理**:学习设计、构建和管理Hadoop集群的技巧,包括如何在云端运行Hadoop。
6. **数据导入**:使用Sqoop将关系数据库中的数据导入到HDFS,实现数据迁移。
7. **Pig查询语言**:利用Pig进行大规模数据处理,简化复杂的数据操作。
8. **Hive数据仓库系统**:通过Hive分析数据集,实现数据仓库的功能,支持SQL查询。
9. **HBase结构化和半结构化数据**:利用HBase存储和检索结构化和半结构化数据,提供实时查询能力。
10. **ZooKeeper分布式协调**:学习如何用ZooKeeper构建和管理分布式系统,确保服务的高可用性和一致性。
本书涵盖了从基础到进阶的Hadoop知识,旨在帮助读者深入理解Hadoop生态系统,利用Hadoop解决大数据挑战。无论你是初次接触Hadoop,还是寻求提升现有技能,这本书都是不可或缺的参考资源。
2014-06-05 上传
2013-09-11 上传
2012-07-01 上传
2012-10-15 上传
2014-02-10 上传
2013-04-14 上传
2012-06-22 上传
2013-02-06 上传
114 浏览量
socooltom
- 粉丝: 0
- 资源: 4
最新资源
- 使用FLEX 和 Actionscript开发FLASH 游戏(二)
- Linux 那些事儿之我是U 盘
- Cache在嵌入式处理器中的使用问题
- 老友记(friends)词频统计.txt
- 使用FLEX 和 Actionscript开发FLASH 游戏(一)
- sap 增强 badi userexit customerexit
- 信息系统安全技术.doc
- Spring+Struts+Hibernate的详解课件.pdf
- WPF入门电子书--新手入门的开始
- 代码找茬游戏 PHP
- matlab统计函数
- llinux设备驱动程序(第三版)
- linux内核完全注释
- 内存DC介绍及其使用
- 难得的EXTJS中文手册
- asp 生成 html 代码