大数据入门：Hadoop生态及发展历程

99 浏览量更新于2024-08-29 收藏 1.27MB PDF 举报

随着互联网和物联网的飞速发展，大数据时代已经到来，据IDC预测，到2020年全球数据量将达到44ZB，传统的存储和架构已经无法应对如此庞大的数据挑战。在这个背景下，技术与业务的关系变得尤为重要。《大数据时代》一书提出了大数据的五个关键特征：大量性（Volume）、高速度（Velocity）、多样性（Variety）、低价值密度（Value）和真实性（Veracity）。这些特性促使Google在2003年发表了《Google FileSystem》（GFS），随后在2004年又推出了MapReduce，这些都是大数据处理的基础。 2006年，Nutch项目结合了GFS和MapReduce的思想，催生了Hadoop项目，由 Doug Cutting 等人主导。Hadoop的出现，特别是Hadoop Distributed File System (HDFS) 和 MapReduce 框架，解决了大规模数据存储和处理的问题，利用分布式计算能力，使得硬件资源理论上可以无限扩展。HDFS特别强调高容错性和部署在廉价硬件上的实用性，它的默认副本数为3，这是为了提高数据冗余和可靠性，同时考虑到硬件的物理布局，引入了机架感知(RackAwareness)的概念。深入理解HDFS的关键在于理解为何选择3个副本以及机架感知的原理。机架感知有助于优化数据复制策略，确保在故障发生时，数据能够快速恢复且尽可能地保持在同一机架内的节点上，从而减少网络延迟。此外，Hadoop还包括其他组件如YARN（Yet Another Resource Negotiator，用于资源管理和调度）、Hive（SQL查询接口）、Pig（一种数据流编程语言）等，它们扩展了Hadoop的应用场景，涵盖了离线分析、实时处理等多个领域。 Hadoop生态系统随着时间的推移不断演进，从最初的Hadoop 1.x版本发展到现在的Hadoop 2.x和更高版本，提供了更多的工具和服务，帮助企业更好地挖掘和利用大数据，驱动业务创新。大数据技术的发展既源于业务需求，也推动了技术的革新，两者相辅相成，共同塑造了现代科技的格局。

一步一步学习大数据：一步一步学习大数据：Hadoop生态系统与场景生态系统与场景

Hadoop概要

到底是业务推动了技术的发展，还是技术推动了业务的发展，这个话题放在什么时候都会惹来一些争议。

随着互联网以及物联网的蓬勃发展，我们进入了大数据时代。IDC预测，到2020年,全球会有44ZB的数据量。传统存储和技术

架构无法满足需求。在2013年出版的《大数据时代》一书中，定义了大数据的5V特点：Volume(大量)、Velocity(高速)、

Variety(多样)、Value(低价值密度)、Veracity(真实性)。

当我们把时间往回看10年，来到了2003年，这一年Google发表《Google File System》，其中提出一个GFS集群中由多个节

点组成，其中主要分为两类：一个Master node，很多Chunkservers。之后于2004年Google发表论文并引入MapReduce。

2006年2月，Doug Cutting等人在Nutch项目上应用GFS和 MapReduce思想,并演化为Hadoop项目。

Doug Cutting曾经说过他非常喜欢自己的程序被千万人使用的感觉，很明显，他做到了;下图就是本尊照片，帅气的一塌糊涂

2008年1月, Hadoop成为Apache的开源项目。

Hadoop的出现解决了互联网时代的海量数据存储和处理，其是一种支持分布式计算和存储的框架体系。假如把Hadoop集群抽

象成一台机器的话，理论上我们的硬件资源(CPU、Memoery等)是可以无限扩展的。

Hadoop通过其各个组件来扩展其应用场景，例如离线分析、实时处理等。

Hadoop相关组件介绍

本文主要是依据Hadoop2.7版本，后面没有特殊说明也是按照此版本

HDFS

HDFS,Hadoop Distributed File System (Hadoop分布式文件系统)被设计成适合运行在通用硬件(commodity hardware)上的分

布式文件系统。它和现有的分布式文件系统有很多共同点，例如典型的Master/Slave架构(这里不准备展开介绍);然而HDFS是

一个高度容错性的系统，适合部署在廉价的机器上。

关于HDFS主要想说两点。

1.HDFS中的默认副本数是3，这里涉及到一个问题为什么是3而不是2或者4。

2.机架感知(Rack Awareness)。

只有深刻理解了这两点才能理解为什么Hadoop有着高度的容错性，高度容错性是Hadoop可以在通用硬件上运行的基础。

Yarn

Yarn,Yet Another Resource Negotiator(又一个资源协调者)，是继Common、HDFS、MapReduce之后Hadoop 的又一个子项

目。Yarn的出现是因为在Hadoop1.x中存在如下几个问题：

1.扩展性差。JobTracker兼备资源管理和作业控制两个功能。

2.可靠性差。在Master/Slave架构中,存在Master单点故障。

3.资源利用率低。Map Slot(1.x中资源分配的单位)和Reduce Slot分开,两者之间无法共享。

4.无法支持多种计算框架。MapReduce计算框架是基于磁盘的离线计算模型,新应用要求支持内存计算、流式计算、迭代式计

算等多种计算框架。

Yarn通过拆分原有的JobTracker为：

1.全局的 ResourceManager(RM)。

2.每个Application有一个ApplicationMaster(AM)。

由Yarn专门负责资源管理,JobTracker可以专门负责作业控制,Yarn接替 TaskScheduler的资源管理功能,这种松耦合的架构方式

实现了Hadoop整体框架的灵活性。

Hive

Hive的是基于Hadoop上的数据仓库基础构架，利用简单的SQL语句(简称HQL)来查询、分析存储在HDFS的数据。并且把SQL

语句转换成MapReduce程序来数据的处理。

Hive与传统的关系数据库主要区别在以下几点：

1.存储的位置 Hive的数据存储在HDFS或者Hbase中，而后者一般存储在裸设备或者本地的文件系统中。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38531017

粉丝: 8
资源: 915

大数据入门：Hadoop生态及发展历程

联邦学习的大数据舞台：Hadoop与Spark中的数据协同

大数据技术：Hadoop 框架详细介绍

红象大数据：Hadoop数据加速与价值释放

大数据初识：Hadoop生态系统概览

腾讯大数据：Hadoop集群的挑战与解决方案

大数据入门：Hadoop生态与历史演进

大数据基础题库解析：Hadoop生态系统与MapReduce

尚硅谷大数据教程：Hadoop生态与实战技术全解

理解大数据技术：Hadoop生态圈解析

大数据技术解析：Hadoop生态与处理框架

最新资源