Hadoop入门指南：从安装到MapReduce实践

5星 · 超过95%的资源需积分: 34 82 浏览量更新于2024-07-23 6 收藏 435KB PDF 举报

"深入学习Hadoop大数据处理的指南" 在大数据处理领域，Hadoop是一个至关重要的工具，它提供了处理海量数据的能力。本资源旨在帮助初学者快速深入地理解Hadoop的原理，通过简单易懂的方式介绍其工作模式。作者在多个平台上分享了相关教程，包括CSDN主页、豆瓣主页和新浪博客，方便读者进一步学习和交流。首先，学习Hadoop的起点是安装。在开始之前，你需要一个合适的操作系统，通常选择Linux环境，因为Hadoop与开源社区的其他工具兼容性更好。接着，你需要了解不同版本的Hadoop，并根据需求选择合适的版本下载。安装过程中，Java JDK是必备的，因为Hadoop依赖Java运行。然后，按照指导安装Hadoop，包括配置环境变量、设置SSH和rsync，以便于集群通信。完成安装后，启动Hadoop服务并进行简单的测试，如运行Hadoop自带的示例程序，以确保系统正常运行。接下来，进入实际编程阶段，通过编写第一个MapReduce程序来理解Hadoop的核心概念。MapReduce是一种分布式计算模型，由Google提出，用于大规模数据集的并行处理。Hadoop将其实现，使得开发者可以编写处理大数据的程序。在这个过程中，你将学习到Map函数和Reduce函数的基本用法，以及如何统计词频作为实例。程序通常包含Mapper和Reducer两个阶段，通过编译、打包成JAR文件，然后提交到Hadoop集群执行，最后查看输出结果。 Hadoop分布式文件系统（HDFS）是Hadoop生态中的基石，提供高容错性和可扩展性的存储。文件系统从头说起，讲解了传统文件系统与HDFS的区别。在HDFS中，你可以将本地文件复制到分布式文件系统，这通过编写Java程序实现，包括定义文件路径、编写源代码、编译、打包和运行。此外，学习如何删除HDFS中的文件和读取文件内容同样重要，这些操作也是通过编写特定的Java程序完成的。通过这个资源，你将能够掌握Hadoop的基本安装步骤，理解MapReduce的工作原理，以及如何在HDFS上进行基本的文件操作。这些知识对于从事大数据处理、数据分析和数据挖掘的人员来说至关重要，能够帮助他们构建处理大规模数据的基础。随着对Hadoop的深入理解和实践，你将能够应对更复杂的数据挑战，从而在大数据时代中发挥关键作用。

第

章第一个

MapReduce

程序

1. Hadoop 从头说

1.1 Google

是一家做搜索的公司

做搜索是技术难度很高的活。首先要存储很多的数据，要把全球的大部分网页都抓下来，可想而知存储量有多大。

然后，要能快速检索网页，用户输入几个关键词找资料，越快越好，最好在一秒之内出结果。如果全球每秒有上亿

个用户在检索，只有一两秒的检索时间，要在全球的网页里找到最合适的检索结果，难度很大。

Google

用三个最重要的核心技术解决上述问题，它们分别是

GFS, MapReduce

和

BigTable

。

Google

发表了它们的

设计论文，但没有将它们开源，核心竞争力不可能开源的。论文在这里，有兴趣的同学可以去看看：

GFS

，

http://labs.google.com/papers/gfs-sosp2003.pdf

；

MapReduce

，

http://labs.google.com/papers/mapreduce-

osdi04.pdf

；

Bigtable

，

http://labs.google.com/papers/bigtable-osdi06.pdf

。

Google

的论文发表之后，

Doug Cutting

等人根据论文的思想，在开源项目

Nutch

的基础上实现了

Hadoop

。后来，

Doug Cutting

去了

Yahoo

，继续做

Hadoop

。后来，

Hadoop

的开发和应用开始爆发了。

在对应关系上看，

Hadoop MapReduce

对应

MapReduce

，

Hadoop Distributed File System (HDFS)

对应

GFS

，

HBase

对应

BigTable

。一般我们所说的

Hadoop

其实是指

Hadoop

体系，它包括

Hadoop MapReduce

，

HDFS

，

HBase

，还有其

他更多的技术。

Hadoop 体系

Hadoop

MapReduce

HDFS

HBase

Google 体系

MapReduce

GFS

BigTable

1.2 MapReduce

和

HDFS

是如何工作的

先用一种有助于理解的方式描述

MapReduce

和

HDFS

是如何工作的。假如有

1000G

的多个文本文件，内容是英文

网页，需要统计词频，也就是哪些单词出现过，各出现过多少次，有

1000

台计算机可供使用，要求速度越快越好。

最直接的想法是，把

1000G

的文件分成

1000

份，每台机器处理

数据。处理完之后，其他

999

台机器将处理结果

发送到一台固定的机器上，由这台机器进行合并然后输出结果。

Hadoop

将这个过程进行自动化的处理。首先看如何存储这

1000G

的文本文件。

HDFS

在这

1000

台机器上创建分布

式文件系统，将

1000G

的文件切分成若干个固定大小的文件块，每个块一般是

64M

大小，分散存储在这

1000

台机

器上。这么多机器，在运行的时候难免会出现有几台突然死机或者挂掉的情况，这导致上面存储的文件块丢失，会

导致计算出错。为避免这种情况，

HDFS

对每个文件块都做复制，复制成

～

个相同的块，放到不同的机器上，这

样死机的文件块在其他机器上仍然可以找得到，不影响计算。

MapReduce

其实是两部分，先是

Map

过程，然后是

Reduce

过程。从词频计算来说，假设某个文件块里的一行文

”字是

This is a small cat. That is a small dog.”

，那么，

Map

过程会对这一行进行处理，将每个单词从句子解析出来，

依次生成形如

<“this”, 1>, <”is”, 1>, <”a”, 1>, <”small”, 1>, <”cat”, 1>, <”that”, 1>, <”is”, 1>, <”a”, 1>, <”small”, 1>,

<”dog”, 1>

的键值对，

<”this”, 1>

“表示

this”

这个单词出现了

次，在每个键值对里，单词出现的次数都是

次，允许

有相同的键值对多次出现，比如

<”is”,1>

这个键值对出现了

次。

Reduce

过程就是合并同类项，将上述产生的相同的

键值对合并起来，将这些单词出现的次数累加起来，计算结果就是

<“this”, 1>, <”is”, 2>, <”a”, 2>, <”small”, 2>,

<”cat”, 1>, <”that”, 1>, <”dog”, 1>

。这种方式很简洁，并且可以进行多种形式的优化。比如说，在一个机器上，对本地

存储的

的文件块先

Map

，然后再

Reduce

，那么就得到了这

的词频统计结果，然后再将这个结果传送到远程

机器，跟其他

999

台机器的统计结果再次进行

Reduce

，就得到

1000G

文件的全部词频统计结果。如果文件没有那么

大，只有三四个

，就不需要在本地进行

Reduce

了，每次

Map

之后直接将结果传送到远程机器做

Reduce

。

具体地，如果用

Hadoop

来做词频统计，流程是这样的：

先用

HDFS

的命令行工具，将

1000G

的文件复制到

HDFS

上；

用

Java

写

MapReduce

代码，写完后调试编译，然后打包成

Jar

包；

执行

Hadoop

命令，用这个

Jar

包在

Hadoop

集群上处理

1000G

的文件，然后将结果文件存放到指定的目录。

用

HDFS

的命令行工具查看处理结果文件。

1.3 API

参考

开发过程需要的

API

全部在

Java API

和

Hadoop API

，在下面两个地方找：

Hadoop 1.2.1

的

API

文档：

http://hadoop.apache.org/docs/r1.2.1/api/index.html

Java JDK1.7

的

API

文档：

http://docs.oracle.com/javase/7/docs/api/

2. 词频统计

在这里，我们开始实现

Word Count

的

MapReduce

。这里的

Word Count

程序是从

Hadoop

的例子代码改编来的。

下面逐行解释代码，所有的类更详细的资料其实都可以在

1.3

节的两个

API

地址里找到：

“）

package com.brianchen.hadoop”

Java

提供包机制管理代码，关键词就是

package

，可以随意指定一个包的名字，诸如笔者的就

”是

com.brianchen.hadoop”

，只要不跟其他的包重复就可以。为了保证包的唯一性，

Sun

公司推荐用公司的域名的逆

”序作为包名，于是大家就在代码里看到诸如

org.apache.hadoop”

之类的包名。

2)”import java.io.IOException”

凡是以

java

开头的包，在

JDK1.7

的

API

里找类的资料。这一句从

java

的

包里导入

IOException

。

IOException

，

输入输出异常类。所谓异常，就是

Exception

，就是程序出错了，异常机制是

Java

的错误捕获机制。那么，

IOException

就是处理输入输出错误时候的异常，

是

Input

，

是

Output

。

3) “import java.util.StringTokenizer”

从

java

的

util

包引入

StringTokenizer

类。

StringTokenizer

”将符合一定格式的字符串拆分开。比如说，

This is a cat”

是一个字符串，这四个单词是用空格符隔开的，那么

StringTokenizer

”可以将它们拆成四个单词

This”

，

“

is”

”，

a”

“，

cat”

”。如果是用其他符号隔开，也能处理，比如

14;229;37”

这个字符串，这三个数字是分号隔开的，

StringTokenizer

”将它们拆成

14”

“，

229”

“，

37”

。只要指定了分隔符，

StringTokenizer

“ ”就可以将字符串拆开。拆开的

“ ”术语叫解析。

4)”import org.apache.hadoop.io.IntWritable”

凡是以

org.apache.hadoop

开头的包，在

Hadoop 1.2.1

的

API

找类的详细信息。从

hadoop

的

包里引入

IntWritable

类。

IntWritable

类表示的是一个整数，是一个以类表示的整数，是一个以类表示的可序列化的整数。在

Java

里，要表

示一个整数，假如是

，可以用

int

类型，

int

类型是

Java

的基本类型，占

个字节，也可以用

Integer

类，

Integer

类

封装了一个

int

类型，让整数成为类。

Integer

类是可以序列化的。但

Hadoop

觉得

Java

的序列化不适合自己，于是实现

了

IntWritable

类。至于什么是序列化，这个问题比较长，这个问题会在后面章节详细讲。

5) “import org.apache.hadoop.io.Text”

从

hadoop

的

包里引入

Text

类。

Text

类是存储字符串的可比较可序列化类。

6) “import org.apache.hadoop.mapreduce.Mapper”

Mapper

类很重要，它将输入键值对映射到输出键值对，也就是

MapReduce

里的

Map

过程。

7)”public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>”

定义一个自己的

Map

过程，类名是

TokenizerMapper

，它继承了

Hadoop

的

Mapper

“类。

<Object, Text, Text,

IntWritable>”

，这里，第一个参数类型是

Object

，表示输入键

key

的参数类型，第二个参数参数类型是

Text

，表示输

入值的类型，第三个参数类型也是

Text

，表示输出键类型，第四个参数类型是

IntWritable

，表示输出值类型。

在这个例子里，第一个参数

Object

是

Hadoop

根据默认值生成的，一般是文件块里的一行文字的行偏移数，这些

”偏移数不重要，在处理时候一般用不上，第二个参数类型是要处理的字符串，形如

This is a cat.”

。经过

Map

处理之

后，输出的就是诸如

<”This”, 1>

”的键值对，这个

This”

就是第三个参数类型，是

Text

类型，而

就是第四个参数类

型，是

IntWritable

。

8)“IntWritable one = new IntWritable(1)”

定义输出值，始终是

。

9) “Text word = new Text()”

定义输出键。

10) “public void map(Object key, Text value, Context context) throws IOException, InterruptedException ”

定义

map

函数，函数有三个参数，

key

是输入键，它是什么无所谓，实际上用不到它的，

value

是输入值。在

map

“函数中，出错的时候会抛出异常，所以有

throws IOException, InterruptedException ”

。至于

Context

类，这个类的定

义是在

TokenizerMapper

的祖先类

Mapper

的内部，不需要引入，如果去查看

Mapper

类的源代码的话，能看到

Context

类是继承

MapContext

类的。

11) “StringTokenizer itr = new StringTokenizer(value.toString())”

剩余70页未读，继续阅读

xiaoaikeke

粉丝: 0
资源: 9

Hadoop入门指南：从安装到MapReduce实践

最新资源