"互联网时代下的Hadoop系统架构与应用"

版权申诉

116 浏览量更新于2024-03-02 收藏 1.36MB PDF 举报

在21世纪的第一个十年，互联网的高速发展推动了信息技术的飞速进步，使得Web成为了最为广泛、前景最为看好、最具吸引力的信息传播技术。随着电子商务、社交网络等新兴行业的迅猛发展，互联网用户数量不断增加。根据中国互联网络信息中心发布的数据显示，在2010年底，中国网民规模达到了4.57亿，较2009年增加了7330万人。网络购物用户年增长率高达48.6%，是用户增长最快的应用之一。同时，以微博为代表的新型社交网站也迅速崛起，新浪微博注册用户数达到了2.75亿人，平均每天发布的微博数量高达8600万条。在这样一个信息爆炸的时代，图片在电子商务和社交网络中扮演着越来越重要的角色。无论是产品图片在电子商务网站上展示，还是用户在社交网络中分享的照片，都呈现出几何级数的增长。以国内外几大IT巨头为例，在2011年6月，Facebook用户已经上传了150亿张照片，总容量超过15PB。每周新增的照片数量高达2.2亿张，约为25TB。在高峰期，Facebook每秒处理的照片数量也达到了55万张。为了应对这种大规模的图片数据处理需求，传统的数据库系统已经无法满足。因此，出现了一种新的系统架构——Hadoop。Hadoop是一个开源的分布式存储和计算框架，最初是由Apache基金会开发的。Hadoop系统的关键优势在于其高度可伸缩性、高容错性和强大的并行处理能力。 Hadoop系统架构由多个关键组件构成，包括Hadoop Common、Hadoop Distributed File System（HDFS）、Hadoop YARN和Hadoop MapReduce。Hadoop Common是Hadoop的基础，提供了许多支持各个组件的工具和库。HDFS是Hadoop的分布式文件系统，用于存储大规模数据，实现了高扩展性和容错性。Hadoop YARN（Yet Another Resource Negotiator）是Hadoop的资源管理器，用于集群资源的管理和作业调度。Hadoop MapReduce是Hadoop的计算框架，负责将作业分成多个独立的任务，并在集群中并行执行这些任务。 Hadoop系统的工作流程一般分为数据存储和数据处理两个阶段。首先，数据会被分散存储在HDFS中，通过Hadoop Common提供的工具检索和管理数据。然后，用户可以通过Hadoop MapReduce来编写并提交作业，将数据处理任务分布在集群中的多个节点上并行执行。Hadoop YARN负责资源管理和作业调度，确保作业能够在集群中高效地执行。总的来说，Hadoop系统架构是为了应对大规模数据处理需求而设计的一种分布式存储和计算框架。它的出现填补了传统数据库系统在处理海量图片数据方面的不足，为企业提供了一种强大的工具来处理日益增长的图片数据。随着互联网技术的不断发展，Hadoop系统的应用范围将越来越广泛，为企业带来更多的商业机会和技术挑战。

(2) 在 HDFS 上运行的应用需要以流式访问它们的数据集。HDFS 具有很好

的数据批处理能力.HDFS 更注重用于数据访问的高吞吐量，而对于数据访问的延

迟和响应时间要求不做很严格处理。

（3) HDFS 上的应用一般都是处理海量数据集的程序。HDFS 上的文件大小

一般都在 GB 至 TB 的大小.HDFS 可以非常好的支持大文件存储。通过利用分布

式集群 HDFS 能提供非常高的数据传输带宽，HDFS 集群可以扩展到数百个节点。

同时一个 HDFS 文件系统可以支撑数以千万计的文件。HDFS 分布式文件系统可

以处理快速增长的、包含数以万计的对象、长度达 TB 的数据集，也可以管理成

千上万的 KB 规模的文件块。

（4) HDFS 采用一次写入多次读取的方式。在 HDFS 系统中一个文件经过创

建、写入和关闭之后就不允许再去修改这个文件,简化了数据一致性问题,实现了

高吞吐量访问数据的能力。一般情况下，每次写入的数据的大小和大规模读取的

模型基本一样，数据一旦被写入后，文件就不允许被修改了 .同时系统也支持小

规模的随机位置写入操作.MapReduce 应用和网络爬虫应用是适应这个模型的最

好应用说明。

(5) 通常应用请求的计算的数据附近化是最高效的，处理海量数据的时候做

到计算和数据距离最近可以得到最高的处理效率。所以 HDFS 具有计算程序优先

选择距离最近的数据的策略。如果遇到网络阻塞将对计算程序访问数据的速度产

生影响，采用附近化策略可以避免这种情况 ,同时可以提高系统整体处理数据的

吞吐量。把计算程序放到数据附近比把数据移动到计算的附近更高效.HDFS 为提

供了把应用程序移动到数据附近的接口。

（6) HDFS 具有非常好的平台可移植性.HDFS 使用 JAVA 开发，JAVA 本身就

具有跨平台的特性.HDFS 的可移植性推动它在大规模数据应用领域上的应用。同

时 HDFS 提供其他语言的接口，方便用户使用。

HDFS 分布式文件系统的以上特点可以充分保证数据的可靠性、安全性，保

证系统的多并发和高速处理海量数据的能力，同时基于以上的策略，HDFS 分布

式文件系统可以保证数据的一致性和自动修复，保证海量数据的安全和具有很好

的存储性能。

3.2 HDFS 系统架构

HDFS 采用 Master/Slave 的主从结构。一个 HDFS 集群是由一个主控节点

（Namenode)和一定数量的数据节点(Datanode)组成的，如图 1 所示。主控节点

剩余17页未读，继续阅读

G11176593

粉丝: 6825
资源: 3万+

"互联网时代下的Hadoop系统架构与应用"

《Hadoop系统搭建及项目实践》课件02Hadoop安装与配置管理.pdf

环视Hadoop Hadoop系统及其生态圈.pdf

Hadoop『Hadoop系统架构精要』.pdf

cp /opt/hadoop/hadoop-0.20.2.tar.gz /usr/local/ tar –zxvf hadoop-0.20.2.tar.gz

org.apache.hadoop.shaded.org.apache.commons.configuration2.Configuration

Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.Configurati

HADOOP_HOME and hadoop.home.dir are unset.

Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask

hadoop.proxyuser.hadoop.hosts

java.lang.ClassNotFoundException: org.apache.hadoop.yarn.exceptions.YarnException

最新资源