Hadoop入门教程：从零开始学习大数据处理

5星 · 超过95%的资源需积分: 34 60 浏览量更新于2024-07-24 2 收藏 435KB PDF 举报

"从零开始学习Hadoop的大数据入门教程，包含Hadoop的安装、第一个MapReduce程序以及HDFS分布式文件系统的使用" 这篇学习文档旨在帮助初学者深入理解并掌握Hadoop，一个开源的大数据处理框架。Hadoop是大数据处理领域的基石，它允许用户在廉价硬件上实现大规模数据处理，具有高容错性和可扩展性。首先，文档详细介绍了Hadoop的安装步骤，包括选择合适的操作系统（通常推荐Linux），选择和下载Hadoop的不同版本，安装必备的Java JDK，接着是Hadoop的安装、配置rsync和ssh服务。启动Hadoop后，通过运行简单的命令来测试其是否正常工作，这对于验证环境配置的正确性至关重要。在第二章，文档深入讲解了MapReduce编程模型，这是Hadoop处理大数据的核心。MapReduce由两个主要阶段组成：Map阶段和Reduce阶段，用于将大任务分解为小任务并进行并行处理。文档通过一个词频统计的例子，展示了如何编写标准形式的MapReduce程序，包括TokenizerMapper、IntSumReducer以及WordCount主类的源代码，并指导读者如何编译、打包和执行这些程序，最后查看运行结果。第三章则重点探讨了Hadoop分布式文件系统（HDFS）。HDFS是一个高度容错性的文件系统，适合存储大量数据。文档讲解了如何将本地文件复制到HDFS，删除HDFS中的文件，以及读取HDFS上的文件。通过FileCopy、FileDelete和FileCat等示例程序，读者可以学习到HDFS的基本操作，如编写Java程序进行文件操作，编译、打包及执行，以及验证操作结果。这个从零开始的学习资料涵盖了Hadoop的基础知识，对于想要进入大数据领域的初学者来说是一份宝贵的资源。通过这份教程，读者不仅能够掌握Hadoop的安装配置，还能理解并运用MapReduce解决实际问题，同时对HDFS的使用有了基础的认识，为进一步深入学习和实践Hadoop打下坚实基础。

第

章第一个

MapReduce

程序

1. Hadoop 从头说

1.1 Google

是一家做搜索的公司

做搜索是技术难度很高的活。首先要存储很多的数据，要把全球的大部分网页都抓下来，可想而知存储量有多大。

然后，要能快速检索网页，用户输入几个关键词找资料，越快越好，最好在一秒之内出结果。如果全球每秒有上亿

个用户在检索，只有一两秒的检索时间，要在全球的网页里找到最合适的检索结果，难度很大。

Google

用三个最重要的核心技术解决上述问题，它们分别是

GFS, MapReduce

和

BigTable

。

Google

发表了它们的

设计论文，但没有将它们开源，核心竞争力不可能开源的。论文在这里，有兴趣的同学可以去看看：

GFS

，

http://labs.google.com/papers/gfs-sosp2003.pdf

；

MapReduce

，

http://labs.google.com/papers/mapreduce-

osdi04.pdf

；

Bigtable

，

http://labs.google.com/papers/bigtable-osdi06.pdf

。

Google

的论文发表之后，

Doug Cutting

等人根据论文的思想，在开源项目

Nutch

的基础上实现了

Hadoop

。后来，

Doug Cutting

去了

Yahoo

，继续做

Hadoop

。后来，

Hadoop

的开发和应用开始爆发了。

在对应关系上看，

Hadoop MapReduce

对应

MapReduce

，

Hadoop Distributed File System (HDFS)

对应

GFS

，

HBase

对应

BigTable

。一般我们所说的

Hadoop

其实是指

Hadoop

体系，它包括

Hadoop MapReduce

，

HDFS

，

HBase

，还有其

他更多的技术。

Hadoop 体系

Hadoop

MapReduce

HDFS

HBase

Google 体系

MapReduce

GFS

BigTable

1.2 MapReduce

和

HDFS

是如何工作的

先用一种有助于理解的方式描述

MapReduce

和

HDFS

是如何工作的。假如有

1000G

的多个文本文件，内容是英文

网页，需要统计词频，也就是哪些单词出现过，各出现过多少次，有

1000

台计算机可供使用，要求速度越快越好。

最直接的想法是，把

1000G

的文件分成

1000

份，每台机器处理

数据。处理完之后，其他

999

台机器将处理结果

发送到一台固定的机器上，由这台机器进行合并然后输出结果。

Hadoop

将这个过程进行自动化的处理。首先看如何存储这

1000G

的文本文件。

HDFS

在这

1000

台机器上创建分布

式文件系统，将

1000G

的文件切分成若干个固定大小的文件块，每个块一般是

64M

大小，分散存储在这

1000

台机

器上。这么多机器，在运行的时候难免会出现有几台突然死机或者挂掉的情况，这导致上面存储的文件块丢失，会

导致计算出错。为避免这种情况，

HDFS

对每个文件块都做复制，复制成

～

个相同的块，放到不同的机器上，这

样死机的文件块在其他机器上仍然可以找得到，不影响计算。

MapReduce

其实是两部分，先是

Map

过程，然后是

Reduce

过程。从词频计算来说，假设某个文件块里的一行文

”字是

This is a small cat. That is a small dog.”

，那么，

Map

过程会对这一行进行处理，将每个单词从句子解析出来，

依次生成形如

<“this”, 1>, <”is”, 1>, <”a”, 1>, <”small”, 1>, <”cat”, 1>, <”that”, 1>, <”is”, 1>, <”a”, 1>, <”small”, 1>,

<”dog”, 1>

的键值对，

<”this”, 1>

“表示

this”

这个单词出现了

次，在每个键值对里，单词出现的次数都是

次，允许

有相同的键值对多次出现，比如

<”is”,1>

这个键值对出现了

次。

Reduce

过程就是合并同类项，将上述产生的相同的

键值对合并起来，将这些单词出现的次数累加起来，计算结果就是

<“this”, 1>, <”is”, 2>, <”a”, 2>, <”small”, 2>,

<”cat”, 1>, <”that”, 1>, <”dog”, 1>

。这种方式很简洁，并且可以进行多种形式的优化。比如说，在一个机器上，对本地

存储的

的文件块先

Map

，然后再

Reduce

，那么就得到了这

的词频统计结果，然后再将这个结果传送到远程

机器，跟其他

999

台机器的统计结果再次进行

Reduce

，就得到

1000G

文件的全部词频统计结果。如果文件没有那么

大，只有三四个

，就不需要在本地进行

Reduce

了，每次

Map

之后直接将结果传送到远程机器做

Reduce

。

具体地，如果用

Hadoop

来做词频统计，流程是这样的：

先用

HDFS

的命令行工具，将

1000G

的文件复制到

HDFS

上；

用

Java

写

MapReduce

代码，写完后调试编译，然后打包成

Jar

包；

执行

Hadoop

命令，用这个

Jar

包在

Hadoop

集群上处理

1000G

的文件，然后将结果文件存放到指定的目录。

用

HDFS

的命令行工具查看处理结果文件。

1.3 API

参考

开发过程需要的

API

全部在

Java API

和

Hadoop API

，在下面两个地方找：

Hadoop 1.2.1

的

API

文档：

http://hadoop.apache.org/docs/r1.2.1/api/index.html

Java JDK1.7

的

API

文档：

http://docs.oracle.com/javase/7/docs/api/

2. 词频统计

在这里，我们开始实现

Word Count

的

MapReduce

。这里的

Word Count

程序是从

Hadoop

的例子代码改编来的。

下面逐行解释代码，所有的类更详细的资料其实都可以在

1.3

节的两个

API

地址里找到：

“）

package com.brianchen.hadoop”

Java

提供包机制管理代码，关键词就是

package

，可以随意指定一个包的名字，诸如笔者的就

”是

com.brianchen.hadoop”

，只要不跟其他的包重复就可以。为了保证包的唯一性，

Sun

公司推荐用公司的域名的逆

”序作为包名，于是大家就在代码里看到诸如

org.apache.hadoop”

之类的包名。

2)”import java.io.IOException”

凡是以

java

开头的包，在

JDK1.7

的

API

里找类的资料。这一句从

java

的

包里导入

IOException

。

IOException

，

输入输出异常类。所谓异常，就是

Exception

，就是程序出错了，异常机制是

Java

的错误捕获机制。那么，

IOException

就是处理输入输出错误时候的异常，

是

Input

，

是

Output

。

3) “import java.util.StringTokenizer”

从

java

的

util

包引入

StringTokenizer

类。

StringTokenizer

”将符合一定格式的字符串拆分开。比如说，

This is a cat”

是一个字符串，这四个单词是用空格符隔开的，那么

StringTokenizer

”可以将它们拆成四个单词

This”

，

“

is”

”，

a”

“，

cat”

”。如果是用其他符号隔开，也能处理，比如

14;229;37”

这个字符串，这三个数字是分号隔开的，

StringTokenizer

”将它们拆成

14”

“，

229”

“，

37”

。只要指定了分隔符，

StringTokenizer

“ ”就可以将字符串拆开。拆开的

“ ”术语叫解析。

4)”import org.apache.hadoop.io.IntWritable”

凡是以

org.apache.hadoop

开头的包，在

Hadoop 1.2.1

的

API

找类的详细信息。从

hadoop

的

包里引入

IntWritable

类。

IntWritable

类表示的是一个整数，是一个以类表示的整数，是一个以类表示的可序列化的整数。在

Java

里，要表

示一个整数，假如是

，可以用

int

类型，

int

类型是

Java

的基本类型，占

个字节，也可以用

Integer

类，

Integer

类

封装了一个

int

类型，让整数成为类。

Integer

类是可以序列化的。但

Hadoop

觉得

Java

的序列化不适合自己，于是实现

了

IntWritable

类。至于什么是序列化，这个问题比较长，这个问题会在后面章节详细讲。

5) “import org.apache.hadoop.io.Text”

从

hadoop

的

包里引入

Text

类。

Text

类是存储字符串的可比较可序列化类。

6) “import org.apache.hadoop.mapreduce.Mapper”

Mapper

类很重要，它将输入键值对映射到输出键值对，也就是

MapReduce

里的

Map

过程。

7)”public class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>”

定义一个自己的

Map

过程，类名是

TokenizerMapper

，它继承了

Hadoop

的

Mapper

“类。

<Object, Text, Text,

IntWritable>”

，这里，第一个参数类型是

Object

，表示输入键

key

的参数类型，第二个参数参数类型是

Text

，表示输

入值的类型，第三个参数类型也是

Text

，表示输出键类型，第四个参数类型是

IntWritable

，表示输出值类型。

在这个例子里，第一个参数

Object

是

Hadoop

根据默认值生成的，一般是文件块里的一行文字的行偏移数，这些

”偏移数不重要，在处理时候一般用不上，第二个参数类型是要处理的字符串，形如

This is a cat.”

。经过

Map

处理之

后，输出的就是诸如

<”This”, 1>

”的键值对，这个

This”

就是第三个参数类型，是

Text

类型，而

就是第四个参数类

型，是

IntWritable

。

8)“IntWritable one = new IntWritable(1)”

定义输出值，始终是

。

9) “Text word = new Text()”

定义输出键。

10) “public void map(Object key, Text value, Context context) throws IOException, InterruptedException ”

定义

map

函数，函数有三个参数，

key

是输入键，它是什么无所谓，实际上用不到它的，

value

是输入值。在

map

“函数中，出错的时候会抛出异常，所以有

throws IOException, InterruptedException ”

。至于

Context

类，这个类的定

义是在

TokenizerMapper

的祖先类

Mapper

的内部，不需要引入，如果去查看

Mapper

类的源代码的话，能看到

Context

类是继承

MapContext

类的。

11) “StringTokenizer itr = new StringTokenizer(value.toString())”

剩余70页未读，继续阅读

Feigge

粉丝: 0
资源: 1

Hadoop入门教程：从零开始学习大数据处理

Hadoop 从零开始（1） ——CentOS 安装配置

最短路径系列之一从零开始学习Hadoop

从零开始hadoop

从零开始配置一个Hadoop集群要多久？

hadoop学习路线图

Hadoop从入门到精通

如果我要往机器学习、神经网络方向学习，我是先学习hadoop生态环境再学习机器学习神经网络的模型算法还是先学习机器学习神经网络的模型算法，再学习hadoop生态环境

hadoop学习笔记 hadoop基础知识

hadoop从入门到精通

如何入手学习hadoop

最新资源