Hadoop权威指南第四版:英文原版PDF
5星 · 超过95%的资源 需积分: 10 47 浏览量
更新于2024-07-21
1
收藏 11.71MB PDF 举报
"Hadoop The Definitive Guide, 4th Edition.pdf - 一本关于Hadoop的大数据处理权威指南,由Tom White撰写,未提供中文翻译。本书深入介绍了Hadoop生态系统,包括其起源、核心组件HDFS(Hadoop Distributed File System)和MapReduce,以及在大规模数据处理中的应用。"
Hadoop是大数据处理领域的重要工具,源自于开源的网络搜索引擎项目Nutch。随着Google公开了他们的GFS(Google文件系统)和MapReduce技术,Hadoop应运而生,旨在解决分布式计算中的挑战。最初,Hadoop只是Nutch项目的一部分,由少数开发者兼职开发。然而,随着互联网数据量的急剧增长,它逐渐演化成为一个需要在数千台机器上运行的系统,超出了两个半职开发者的管理范围。
雅虎(Yahoo!)的介入加速了Hadoop的发展,他们组建了一个团队,并将Hadoop从Nutch中分离出来,使其成为一个独立的分布式计算平台。在雅虎的支持下,Hadoop迅速成长,能够真正应对互联网级别的大规模数据处理需求。
《Hadoop权威指南》第四版详尽地阐述了Hadoop的核心组件及其工作原理。Hadoop分布式文件系统(HDFS)是一种高度容错性的分布式存储系统,设计用于在廉价硬件上运行,可以存储和处理PB级别的数据。MapReduce是Hadoop中的并行计算模型,通过“映射”和“化简”两个阶段,实现了数据的分布式处理。
此外,书中还涵盖了Hadoop生态系统的其他关键组件,如YARN(Yet Another Resource Negotiator),它作为资源管理系统,负责调度和管理集群中的任务;HBase,一个基于HDFS的分布式NoSQL数据库,支持实时查询;Pig和Hive,提供高级语言接口,简化Hadoop上的数据处理任务;以及Spark和Storm等流处理框架,增强了Hadoop在实时分析和大数据处理中的能力。
这本书对于理解Hadoop如何处理大数据、如何构建和优化Hadoop集群,以及如何利用Hadoop进行数据分析具有很高的价值。无论是初学者还是经验丰富的开发人员,都能从中受益,掌握如何在实际环境中有效地利用Hadoop解决复杂的数据处理问题。
2018-04-20 上传
2018-06-16 上传
2015-09-09 上传
2017-02-13 上传
2024-01-29 上传
2018-06-21 上传
2018-03-22 上传
2016-06-23 上传
浮舟
- 粉丝: 627
- 资源: 380
最新资源
- GreWordApp:将提供用于练习的高频 GRE 单词列表的应用程序
- jdk-8u171-linux-x64.tar
- 第3节(2) 设计概念.zip-综合文档
- Oracle11gR2 (p10404530_112030_Linux-x86-64_3of7.zip)
- 0311、基于MSP430和nRF905的多点无线通讯模块.rar
- WatchFolder
- DrupalMobileAdmin-开源
- 通过SD卡升级程序实验(裸机版).rar
- matlab归零码功率谱源码-ese524:ese524
- c代码-输入5名学生的分数,并显示出他们的总分和平均分。
- Bird-Species-Classification-Streamlit:通过使用stramlit部署的Web界面对20种物种进行分类的Python应用程序
- BlackLeopardEngine-开源
- 名称生成器
- 通过U盘更新程序实验(裸机版).rar
- Hackbot1.0:一个学习用户活动并在学习后自动重复活动的Android应用
- 工程材料手册(非金属卷)软件版V1.zip