Hadoop本地与伪分布模式实战：Grep与WordCount案例详解

108 浏览量更新于2024-08-30 收藏 868KB PDF 举报

本文主要介绍了Hadoop的两种非生产环境运行模式：本地运行模式和伪分布式模式，这些模式在开发过程中通常不会被广泛使用，但有助于理解Hadoop的基本工作原理。 **1. 本地运行模式** - **无需配置**：本地模式是在本地机器上直接运行Hadoop，前提是已经正确安装了Hadoop和设置了Java环境。无需复杂的网络配置或分布式集群，这对于测试和学习Hadoop非常方便。 - **官方案例演示**： - **Grep案例**：通过将Hadoop的xml配置文件复制到input目录，并执行`hadoop jar`命令，查找包含特定字符串（如'dfs'）的文件。运行成功后，输出结果会存储在output文件夹中，可以看到输出文件包含匹配的行。 - **WordCount案例**：使用官方提供的WordCount示例，创建一个文本文件，然后执行mapreduce命令统计单词出现次数。输出结果会以分片的形式存储，如`part-r-00000`。 **2. 伪分布式模式** - **HDFS与MapReduce结合**：在这个模式下，Hadoop的HDFS（分布式文件系统）和MapReduce组件在一个节点上运行，模拟分布式环境的部分特性。 - **步骤**： - **启动HDFS**：配置好Hadoop环境后，启动HDFS服务，并运行MapReduce程序，如Grep或WordCount，它们会利用HDFS进行数据处理。 - **YARN参与**：在伪分布式模式中，YARN（Yet Another Resource Negotiator）也参与进来，即使在单个节点上，它负责任务调度。 - **配置文件说明**：配置文件在这里起到了关键作用，尽管是单机部署，但需要设置成伪分布式模式，以便正确连接和协调各个模块。尽管本地模式和伪分布式模式不适用于大规模生产环境，但对于开发者来说，它们是理解Hadoop工作流程、调试和原型设计的理想起点。在实际开发中，开发者会倾向于选择完全分布式模式，以充分利用集群资源，提高性能和可扩展性。通过这些模式的学习，开发者能够更好地掌握Hadoop的底层原理和架构。

三三 Hadoop运行模式之本地运行模式和伪分布式模式运行模式之本地运行模式和伪分布式模式

文章目录文章目录1 本地运行模式1.1 官方Grep案例1.2 官方WordCount案例2 伪分布式模式2.1 启动HDFS并运行MapReduce程序2.1.1 分析2.1.2 执行步骤2.2 启动YARN并运行MapReduce

程序2.2.1 分析2.2.1 执行步骤2.3 配置文件说明

Hadoop运行模式包括：

(1) 本地模式(开发不会用)

(2) 伪分布式模式(开发不会用)

(3) 完全分布式模式(重要开发一定是用这种模式)

虽然本地模式和伪分布式模式开发不会用,但为了感受一下Hadoop的魅力,还是简单介绍一下.

1 本地运行模式本地运行模式

如果成功安装了Hadoop 和配置java和Hadoop的环境变量,就不用再作配置了.直接可以用了.

1.1 官方官方Grep案例案例

Grep 和linux的命令的作用一样都是查找文件的字符串的,我们来用以下.

创建在hadoop-2.7.2文件下面创建一个input文件夹

将Hadoop的xml配置文件复制到input

[andy@xiaoai hadoop-2.7.2]$ cp etc/hadoop/*.xml inp

执行share目录下的MapReduce程序

[andy@xiaoai hadoop-2.7.2]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

如果没有报错就是跑过了.

查看输出结果

执行成功之后我们可以看到Hadoop目录会新增加一个output文件夹.我们看一下output到底是什么?

[andy@xiaoai output]$ ls

part-r-00000 _SUCCESS

[andy@xiaoai output]$ cat part-r-00000

1 dfsadmin

[andy@xiaoai output]$

1.2 官方官方WordCount案例案例

wordcount 命令是统计词出现的次数的,我们来体验以下.

创建在hadoop-2.7.2文件下面创建一个wcinput文件夹

在wcinput文件下创建一个wc.input文件

在wc.input文件中输入以下内容

andy yarn

andy mapreduce

xiaoai

执行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

如下图:

[andy@xiaoai hadoop-2.7.2]$ cd wcoutput/

[andy@xiaoai wcoutput]$ ll

总用量 4

-rw-r--r--. 1 andy andy 35 2月 18 20:21 part-r-00000

-rw-r--r--. 1 andy andy 0 2月 18 20:21 _SUCCESS

[andy@xiaoai wcoutput]$ cat part-r-00000

andy 2

mapreduce 1

xiaoai 2

yarn 1

[andy@xiaoai wcoutput]$

它就会把每个词出现的次数给统计出来.

2 伪分布式模式伪分布式模式

伪分布式模式就是在一台机器上运行Hadoop的相关模块,但实际情况是不会出现只有一台机器在运行,所以伪分布式模式在实际生产中是不会用的,所以才叫伪分布式模式,但不代表它没

有用,伪分布式模式的配置可以让我们更好的理解Hadoop.

2.1 启动启动HDFS并运行并运行MapReduce程序程序

2.1.1 分析分析

（1）配置集群

（2）启动、测试集群增、删、查

（3）执行WordCount案例

2.1.2 执行步骤执行步骤

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38613548

粉丝: 4
资源: 934

Hadoop本地与伪分布模式实战：Grep与WordCount案例详解

云计算应用实验报告 武汉理工大学云计算应用 hadoop单机模式和伪分布式

hadoop的独立模式、伪分布模式、完全分布式、HA配置文件

基于单机的Hadoop伪分布式运行模拟实现

Hadoop伪分布式安装

Hadoop运行模式：从本地到分布式

Hadoop伪分布式模式搭建指南

单机模拟Hadoop伪分布式运行全攻略

【Hadoop伪分布式模式】：本地测试到集群仿真的无缝对接指南

hadoop伪分布式模式

运行Hadoop伪分布式实例

最新资源

云计算应用实验报告武汉理工大学云计算应用 hadoop单机模式和伪分布式