Hadoop 2革命:YARN、Parquet与Kafka的新篇章

4星 · 超过85%的资源 需积分: 10 22 下载量 5 浏览量 更新于2024-07-22 收藏 13.68MB PDF 举报
"Hadoop in Practice 第二版 英文版" 本书是关于Hadoop实践的第二版,专注于介绍Hadoop 2,这是当时生产就绪的Hadoop版本。相较于第一版(覆盖的是Hadoop 0.22,即Hadoop 1还未发布),Hadoop 2彻底改变了大数据处理的世界,并扩展了Hadoop平台,使其支持MapReduce之外的处理范式。书中新增了一章专门讨论YARN(Yet Another Resource Negotiator)基础和MapReduce在YARN环境下的运行方式,因为YARN是Hadoop 2中的新调度器和应用管理器,对社区来说既复杂又新颖。 Parquet作为一种新兴的数据存储格式,在HDFS中得到了广泛应用。它以列式存储数据,可以提高数据管道的空间和时间效率,并迅速成为存储数据的标准方式。第4章深入探讨了Parquet,包括如何支持复杂的对象模型如Avro,以及各种Hadoop工具如何使用Parquet。 自第一版以来,数据如何流入Hadoop也发生了变化,Kafka已成为新的数据管道,作为数据生产者和消费者的传输层,其中消费者可能是像Camus这样的系统,可以从Kafka将数据拉入HDFS。第5章关于数据进出Hadoop的处理,现在包含了Kafka和Camus的介绍。 这本书由Alex Holmes撰写,版权归Manning Publications Co所有,2015年出版。书中可能涉及的制造商和销售商用来区分其产品的标识被视为商标,如果Manning Publications知晓其商标权,这些标识将以首字母大写或全大写的形式印刷。 该书的出版遵循Manning的政策,即使用酸性免费纸张印刷书籍,以尽力保护书籍内容的持久性。此外,Manning还努力确保书中包含的信息准确无误,但不承担任何错误或遗漏的责任。 "Hadoop in Practice 第二版"是一本详尽介绍Hadoop 2及其生态系统最新进展的实用指南,涵盖了YARN、Parquet和Kafka等关键技术和工具,对于想要深入了解和使用Hadoop进行大数据处理的读者来说极具价值。