Hadoop入门：构建大数据时代的存储与分析解决方案

94 浏览量更新于2024-08-27 收藏 888KB PDF 举报

"拥抱大数据——初识Hadoop，轻松应对海量数据存储与分析所带来的挑战" Hadoop是一个基于Java的开源框架，旨在实现可靠、可扩展的分布式计算。它由Apache基金会维护，是大数据处理领域的重要组成部分。Hadoop的核心由两个主要组件构成：HDFS（Hadoop Distributed File System）和MapReduce。一、HDFS（分布式文件系统） HDFS是Hadoop的基石，设计用于处理和存储大规模数据集。其设计目标是在廉价硬件上实现高容错性和高可用性。HDFS采用了主从结构，由一个NameNode作为主节点负责元数据管理，多个DataNode作为从节点存储实际的数据块。数据在DataNodes间进行冗余备份，确保即使部分节点故障，数据也能被安全地恢复。二、MapReduce（分布式计算框架） MapReduce是Hadoop用于处理HDFS中存储的大数据的编程模型。它将复杂任务分解为两个阶段：Map阶段和Reduce阶段。Map阶段将原始数据分割并并行处理，Reduce阶段则对Map阶段的结果进行聚合，提供最终输出。Job是MapReduce作业的抽象，由一系列Task（Map任务和Reduce任务）组成，这些任务在集群中的节点上并行执行。三、Hadoop生态圈 Hadoop 2.x生态系统包括多个互补的项目，如YARN（Yet Another Resource Negotiator）、Hive（数据仓库工具）、Pig（数据分析工具）、Spark（快速通用的大数据处理引擎）、HBase（NoSQL数据库）等。这些项目共同构建了一个全面的大数据解决方案，覆盖了数据存储、查询、分析和处理的各个方面。四、YARN（资源管理系统） YARN是Hadoop 2.x引入的资源调度器，分离了资源管理和计算任务的调度，使得Hadoop集群能更好地支持多种计算框架。它将NameNode的功能限制在元数据管理上，而将集群资源的分配和监控交给ResourceManager，ApplicationMaster则负责具体应用的资源请求和任务调度。五、搭建Hadoop环境在Linux上搭建Hadoop环境通常涉及以下步骤：首先，安装Java Development Kit (JDK)作为运行Hadoop的基础；接着，下载并配置Hadoop，包括修改配置文件（如hdfs-site.xml和yarn-site.xml），设置环境变量，以及初始化和格式化HDFS；最后，启动Hadoop服务并验证其正确运行。六、Hadoop 2.x与3.x的区别 Hadoop 3.x相比2.x在可扩展性、性能和功能上都有所提升，例如增加了更多的NameNode HA选项、更大的Block大小、更好的资源调度优化以及支持更广泛的硬件类型等。总结来说，Hadoop是应对大数据挑战的关键工具，通过HDFS提供可靠的数据存储，MapReduce实现高效的分布式计算，而丰富的生态系统则提供了各种附加功能，使得企业能够构建复杂的大数据解决方案。理解和掌握Hadoop对于任何希望涉足大数据领域的专业人士都是至关重要的。

Spark属于内存计算，是小数据集上处理复杂迭代的交互系统，内存计算下，号称号称Spark 比 Hadoop 快100倍（通常这个号称的都有点吹牛逼，但spark确实在速度上突出，Spark the

fastest open source engine for sorting a petabyte）。

在实际生产中，如果数据需要快速处理而且资源充足，则可以选择spark；如果资源是瓶颈，则可以使用tez；可以根据不同场景不同数据层次做出选择。和其他计算框架一样，Spark

也是一个apache顶级项目。

5、Storm(流式计算框架)

6、Hive(数据仓库)

英文直译为蜂巢，在Hadoop是数据仓库，是一个apache顶级项目。

问题：Hive和下面的Hbase都是用于数据存储，两者有什么区别？

回答：如下表：

Hive Hbase

类型数据仓库 NoSql数据库/列式数据库

内部机制 MR 数据库引擎

增删查改只支持导入和查询都支持

7、Pig(数据流处理)

8、Mahout(数据挖掘库)

9、Zookeeper(分布式协作服务)

Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行，用于Hadoop操作的管理，而且很多Hadoop组件都依赖它。是一个具有高度可用性的服务，其

实即使不是Hadoop，很多组件要搭建集群基本上都需要用到Zookeeper来管理，如Solr集群、

注意：

10、Hbase(实时分布式数据库)

Hbase一个的面向列的NoSQL数据库，用在分布式架构中，HBase用于对海量海量数据进行快速读取/写入。hbase不是hadoop的子集，它和hadoop一样，是一个apache顶级项目。

Hive、Hbase都用户数据存储，那么它们与我们传统的关系型数据库有什么区别呢？如下表：

Hbase mysql

类型 NoSQL数据库、列式数据库关系型数据库

存储数据量大小 PB GB、TB

数据处理速度数据处理速度数百万条查询数百万条查询/秒秒数千条查询数千条查询/秒秒

存储方式按列存储按行存储

数据类型 Bytes 各个数据类型，如varchar、int、datetime等

上表中，Hbase与传统数据库最大的区别不是存储的数据量的大小，而是数据处理速度，Hbase可以轻松轻松应对PB级别的数据，传统数据库只能处理GB或TB级别数据，太大的数据量

会采用水平分表，字段太多采用垂直分表（注意：两种最大区别是处理速度，如果是存储数据量的话，注意：两种最大区别是处理速度，如果是存储数据量的话，Mysql的也已达到的也已达到PB级别，但是如果处理这么大的数据量，级别，但是如果处理这么大的数据量，CRUD会非常慢，会非常慢，

所以这里指的是处理速度所以这里指的是处理速度）

附：计算机中的存储单位

剩余11页未读，继续阅读

weixin_38649838

粉丝: 4
资源: 903

Hadoop入门：构建大数据时代的存储与分析解决方案

海量存储环境下存储系统的挑战与应对

剑指大数据——Flink学习精要（Java版)最终修订版

大数据与数据挖掘：面对海量数据的挑战与应对策略

PHP多数据库与大数据处理利器：处理海量数据的利器，轻松应对大数据挑战

Oracle数据库连接池与大数据：应对海量数据挑战，提升数据处理效率

MySQL去重与大数据：应对海量数据去重挑战，大数据去重实战指南

Oracle数据导出与大数据：应对海量数据挑战，实现数据价值最大化，赋能业务创新

阿里云大数据组件和hadoop大数据组件

大数据建模和Hadoop的关系

大数据期末作业hadoop

最新资源