Hadoop权威指南第三版:新功能与升级详解

5星 · 超过95%的资源 需积分: 10 335 下载量 151 浏览量 更新于2023-06-20 12 收藏 15.93MB PDF 举报
《Hadoop权威指南》第三版英文版是一本针对Apache Hadoop开源分布式计算框架的详尽指南。该书于2012年5月出版,旨在更新读者对Hadoop 1.x(包括0.20系列)到0.23系列的最新知识,涵盖了这些版本的核心技术和新特性。作者Tom White确保所有示例在最新版本的Hadoop上运行,并特别提到了在新旧API之间的转换,以便帮助读者适应技术的演进。 新版本的核心内容包括: 1. 新MapReduce API:书中大部分示例采用了新版本的MapReduce API,尽管旧API仍然存在,但新API成为主导,旧API的代码可以在书的官方网站上获取。这涉及到了新版本中的MapReduce 2 runtime,它是建立在分布式资源管理系统YARN之上的,作者详细解释了YARN的工作原理和使用方法。 2. 深入MapReduce实践:书中增加了对Maven打包MapReduce项目、Java环境配置、MRUnit单元测试以及输出提交器、分布式缓存等高级功能的讲解。此外,还专门介绍了如何处理Avro数据和使用Oozie进行简单工作流的运行。 3. HDFS增强:在第三章中,作者对HDFS的高可用性、联合特性以及WebHDFS和HttpFS进行了扩展介绍,这些都是Hadoop 0.23的重要更新。 4. 框架更新:章节关于Pig、Hive、Sqoop和ZooKeeper等工具的介绍都得到了扩充,反映了各自最新版本的功能和改进。 5. 改进与修订:作者对全书进行了大量的修正和提升,确保内容的准确性和实用性。 这本书不仅适合Hadoop初学者,也是经验丰富的开发者的必备参考,帮助他们掌握Hadoop生态系统的关键技术和最佳实践。对于希望在大数据处理领域深入学习的读者来说,这是不可多得的权威指南。