Ubuntu环境下Hadoop部署配置及运行指南

需积分: 9 126 浏览量更新于2024-07-31 收藏 680KB PDF 举报

"Ubuntu下Hadoop的配置与运行" 在Ubuntu操作系统上配置和运行Hadoop是一项重要的任务，尤其对于大数据处理和分布式计算的学习者而言。本文档由上海电力学院计算机与信息工程学院的周耀君撰写，详细记录了Hadoop在Ubuntu 9.10上的部署过程，包括单节点、单机伪分布以及多机器分布式运行的配置，并对比了不同部署模式，还展示了如何在Eclipse环境中运行Hadoop自带的WordCount示例。首先，部署Hadoop需要满足一定的资源需求： 1. 操作系统：Ubuntu 9.10 或更新版本，可以从官方网站免费下载。 2. Hadoop 0.20.0 包，可在Apache的镜像服务器上获取最新版本。 3. Sun Java 6 JDK，通过`apt-get install sun-java6-jdk`命令安装，系统会自动处理依赖。 4. SSH 包，用于安全的远程登录，通过`apt-get install ssh`安装。 5. Eclipse 开发环境，可以在Eclipse官网下载最新版。配置流程分为以下步骤： 1. 安装Ubuntu 9.04操作系统。 2. 更新deb软件包列表，使用`sudo apt-get update`命令。 3. 安装系统更新，使用`sudo apt-get upgrade`命令。 4. 安装JDK，执行`sudo apt-get install sun-java6-jdk`，并选择确认安装。 5. 设置Java-6-sun为默认Java程序，通过`sudo update-alternatives --config java`选择，然后用`sudo update-java-alternatives -s java-6-sun`设置。 6. 配置环境变量，编辑系统环境变量文件，如`sudo gedit /etc/environment`，添加`JAVA_HOME`和`CLASSPATH`。在配置Hadoop之前，确保系统环境变量正确设置，包括`JAVA_HOME`指向JDK的安装目录，`CLASSPATH`包含必要的库。接下来，解压Hadoop安装包到一个合适的目录，例如 `/usr/local/hadoop`，并配置Hadoop的环境变量（如`HADOOP_HOME`）。单节点配置涉及修改Hadoop配置文件，包括`core-site.xml`（主要配置HDFS的名称节点和数据节点）、`hdfs-site.xml`（定义HDFS副本数量等参数）、`mapred-site.xml`（指定JobTracker和TaskTracker）。对于伪分布式模式，需要在`hadoop-env.sh`中设置`JAVA_HOME`，并启动Hadoop守护进程。对于分布式运行，需要在所有节点上重复配置步骤，并在主节点上创建HDFS命名空间，然后启动集群。在所有节点上同步Hadoop的运行状态，使用SSH无密码登录。运行WordCount示例，首先需要将样例数据复制到HDFS，然后在Eclipse中创建一个Hadoop项目，导入Hadoop的jar包，编写WordCount类，最后提交作业到Hadoop集群执行。总结来说，配置和运行Hadoop在Ubuntu上涉及操作系统准备、JDK安装、Hadoop环境搭建、配置文件修改以及集群启动。整个过程需要对Linux系统和Hadoop原理有基本了解，而通过Eclipse运行示例代码可以帮助更好地理解Hadoop的MapReduce编程模型。

上海电力学院计算机与信息工程学院撰写人 : 周耀君 QQ:648134235

$ sudo bin/hadoop namenode -format

10/02/21 00:15:08 INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG: host = master/127.0.1.1

STARTUP_MSG: args = [-format]

STARTUP_MSG: version = 0.20.0

STARTUP_MSG: build =

https://svn.apache.org/repos/asf/hadoop/core/branches/branch-0.20

-r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009

************************************************************/

10/02/21 00:15:09 INFO namenode.FSNamesystem: fsOwner=root,root

10/02/21 00:15:09 INFO namenode.FSNamesystem:

supergroup=supergroup

10/02/21 00:15:09 INFO namenode.FSNamesystem:

isPermissionEnabled=true

10/02/21 00:15:09 INFO common.Storage: Image file of size 94

saved in 0 seconds.

10/02/21 00:15:09 INFO common.Storage: Storage directory

/tmp/hadoop-root/dfs/name has been successfully formatted.

10/02/21 00:15:09 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down NameNode at master/127.0.1.1

************************************************************/

(三) 启动 hadoop 监护进程

命令 $ bin/start-all.sh

starting namenode, logging to

/home/shiep205/hadoop/bin/../logs/hadoop-shiep205-namenode-

master.out

localhost: starting datanode, logging to

/home/shiep205/hadoop/bin/../logs/hadoop-shiep205-datanode-

- 5 -

剩余24页未读，继续阅读

Adialz

粉丝: 33

Ubuntu环境下Hadoop部署配置及运行指南

基于Ubuntu的Hadoop简易集群安装与配置

ubuntu 下的Hadoop配置与运行

ubuntu运行hadoop的wordcount

Ubuntu下Hadoop配置与运行详解

ubuntu下hadoop配置指南.pdf

ubuntu下hadoop配置指南.docx

Ubuntu下Hadoop 0.20.0部署与运行指南

Ubuntu下Hadoop安装与配置指南

Ubuntu环境下Hadoop的配置与运行指南

Ubuntu下Hadoop分布式配置指南

最新资源