Hadoop技术详解：从入门到实战

需积分: 0 149 浏览量更新于2024-07-26 收藏 707KB PDF 举报

本资源是一份详尽的Hadoop技术指南，涵盖了Hadoop的核心概念、使用方法以及其生态系统中的组件，包括MapReduce、Hadoop分布式文件系统(HDFS)、数据处理工具Pig和NoSQL数据库HBase。以下是对各个部分的概述： 1. **初识Hadoop**：这部分介绍了Hadoop的基本概念，强调了数据处理的重要性，以及Hadoop相较于其他系统的优点，如大数据处理能力、高可用性和容错性。它还简述了Hadoop的发展历程和Apache Hadoop项目的背景。 2. **MapReduce简介**：MapReduce是Hadoop的核心组件，用于大规模数据处理。章节通过实际案例（如气象数据集）演示如何使用Unix Tools进行预处理，然后用Hadoop进行分布式计算，涉及分布式、流处理和管道操作。 3. **Hadoop分布式文件系统 (HDFS)**：这部分深入解析HDFS的设计原理，讲解了文件系统的基本概念，包括命令行接口、Java接口和数据流管理，以及如何利用distcp进行并行复制和Hadoop归档文件功能。 4. **Hadoop的I/O**：这部分关注数据在Hadoop中的传输和处理，如数据完整性、压缩、序列化以及基于文件的数据结构设计。 5. **MapReduce应用开发**：详细介绍了如何配置API、开发环境，编写单元测试，以及在本地和集群上运行MapReduce作业，并讨论了性能优化和工作流程。 6. **MapReduce的工作原理**：深入解析MapReduce的工作流程，包括作业调度、shuffle和排序过程，以及不同类型和格式的应用。 7. **Hadoop集群安装与管理**：这部分指导读者如何搭建Hadoop集群，包括集群配置、SSH和Hadoop配置，以及在云计算环境中的部署。还有关于集群性能测试和管理的内容。 8. **Pig与HBase简介**：分别介绍了Pig，一个基于Hadoop的数据流语言，用于数据转换和处理；以及HBase，一个NoSQL数据库，用于存储非结构化数据。章节覆盖了安装、运行、比较和最佳实践。这份文档提供了丰富的学习材料，适合对Hadoop及其生态系统有深入了解和实践经验的开发者和数据分析师，无论是初学者还是进阶者都能从中受益。

09 年 4 月-- 赢得每分钟排序，59 秒内排序 500 GB(在 1400 个节点上)和 173 分钟内排

序 100 TB 数据(在 3400 个节点上)。

1.5 Apache Hadoop 项目

项目项目

项目

今天，Hadoop 是一个分布式计算基础架构这把"大伞"下的相关子项目的集合。这些项

目属于 Apache 软件基金会(http://hadoop.apache.org)，后者为开源软件项目社区提供支持。

虽然 Hadoop 最出名的是 MapReduce 及其分布式文件系统(HDFS，从 NDFS 改名而来)，但

还有其他子项目提供配套服务，其他子项目提供补充性服务。这些子项目的简要描述如下，

其技术栈如图 1-1 所示。

图 1-1：Hadoop 的子项目

Core

一系列分布式文件系统和通用 I/O 的组件和接口(序列化、Java RPC 和持久化数据结构)。

Avro

一种提供高效、跨语言 RPC 的数据序列系统，持久化数据存储。(在本书写作期间，Avro

只是被当作一个新的子项目创建，而且尚未有其他 Hadoop 子项目在使用它。)

MapReduce

分布式数据处理模式和执行环境，运行于大型商用机集群。

HDFS

分布式文件系统，运行于大型商用机集群。

Pig

一种数据流语言和运行环境，用以检索非常大的数据集。Pig 运行在 MapReduce 和 HDFS

的集群上。

Hbase

一个分布式的、列存储数据库。HBase 使用 HDFS 作为底层存储，同时支持 MapReduce

的批量式计算和点查询(随机读取)。

ZooKeeper

一个分布式的、高可用性的协调服务。ZooKeeper 提供分布式锁之类的基本服务用于构

建分布式应用。

Hive

分布式数据仓库。Hive 管理 HDFS 中存储的数据，并提供基于 SQL 的查询语言(由运行

时引擎翻译成 MapReduce 作业)用以查询数据。

Chukwa

分布式数据收集和分析系统。Chukwa 运行 HDFS 中存储数据的收集器，它使用

MapReduce 来生成报告。(在写作本书期间，Chukwa 刚刚从 Core 中的"contrib"模块分离出

来独立成为一个独立的子项目。)

第

第第

第 2 章

章章

章 MapReduce 简介

简介简介

简介

MapReduce 是一种用于数据处理的编程模型。该模型非常简单。同一个程序 Hadoop 可

以运行用各种语言编写的 MapReduce 程序。在本章中，我们将看到用 Java，Ruby，Python

和 C++这些不同语言编写的不同版本。最重要的是，MapReduce 程序本质上是并行的，因

此可以将大规模的数据分析交给任何一个拥有足够多机器的运营商。MapReduce 的优势在

于处理大型数据集，所以下面首先来看一个例子。

2.1 一个气象数据集

一个气象数据集一个气象数据集

一个气象数据集

在我们这个例子里，要编写一个挖掘气象数据的程序。分布在全球各地的气象传感器每

隔一小时便收集当地的气象数据，从而积累了大量的日志数据。它们是适合用 MapReduce

进行分析的最佳候选，因为它们是半结构化且面向记录的数据。

数据的格式

我们将使用 National Climatic Data Center(国家气候数据中心，NCDC，网址为

http://www.ncdc.noaa.gov/)提供的数据。数据是以面向行的 ASCII 格式存储的，每一行便是

一个记录。该格式支持许多气象元素，其中许多数据是可选的或长度可变的。为简单起见，

我们将重点讨论基本元素(如气温)，这些数据是始终都有且有固定宽度的。

例 2-1 显示了一个简单的示例行，其中一些重要字段加粗显示。该行已被分成多行以显

示出每个字段，在实际文件中，字段被整合成一行且没有任何分隔符。

例 2-1：国家气候数据中心数据记录的格式

1. 0057

5. 010016-99999-1990.gz

6. 010017-99999-1990.gz

7. 010030-99999-1990.gz

8. 010040-99999-1990.gz

9. 010080-99999-1990.gz

10. 010100-99999-1990.gz

11. 010150-99999-1990.gz

因为实际生活中有成千上万个气象台，所以整个数据集由大量较小的文件组成。通常情

况下，我们更容易、更有效地处理数量少的大型文件，因此，数据会被预先处理而使每年记

录的读数连接到一个单独的文件中。(具体做法请参见附录 C)

2.2 使用

使用使用

使用 Unix Tools 来分析数据

来分析数据来分析数据

来分析数据

在全球气温数据中每年记录的最高气温是多少？我们先不用 Hadoop 来回答这一问题，

因为答案中需要提供一个性能标准(baseline)和一种检查结果的有效工具。

对于面向行的数据，传统的处理工具是 awk。例 2-2 是一个小的程序脚本，用于计算每

年的最高气温。

例 2-2：一个用于从 NCDC 气象记录中找出每年最高气温的程序

1. #!/usr/bin/env bash

2. for year in all/*

3. do

4. echo -ne 'basename $year .gz'"\t"

5. gunzip -c $year | \

6. awk '{ temp = substr($0, 88, 5) + 0;

7. q = substr($0, 93, 1);

8. if (temp !=9999 && q ~ /[01459]/

&& temp > max) max = temp }

9. END { print max }'

10. done

该脚本循环遍历压缩文件，首先显示年份，然后使用 awk 处理每个文件。awk 脚本从

数据中提取两个字段：气温和质量代码。气温值通过加上一个 0 变成一个整数。接下来，执

行测试，从而判断气温值是否有效(值 9999 代表在 NCDC 数据集缺少值)，质量代码显示的

读数是有疑问还是根本就是错误的。如果读数是正确的，那么该值将与目前看到的最大值进

行比较，如果该值比原先的最大值大，就替换掉目前的最大值。当文件中所有的行都已处理

完并打印出最大值后，END 块中的代码才会被执行。

下面是某次运行结果的开始部分：

剩余75页未读，继续阅读

zhangdj2008

粉丝: 0
资源: 2

Hadoop技术详解：从入门到实战

docker部署hadoop资源包.txt

hadoop 资源代码归档

hadoop资源集合

hadoop资源集锦

Hadoop资源合集

Hadoop资源打包下载

hadoop资源 hadoop-3.0.0.tar tar文件

Apache Hadoop：Hadoop资源管理器YARN详解.docx

hadoop资源 hadoop-3.0.0-src.tar gz文件

连接hadoop资源的所需依赖jar包

最新资源