Ubuntu环境下Hadoop配置与使用指南

需积分: 15 23 浏览量更新于2024-08-01 收藏 680KB PDF 举报

“Ubuntu_hadoop_configuration_tutorial” 这篇教程主要涵盖了在Ubuntu操作系统中配置和使用Hadoop的详细步骤，由上海电力学院计算机与信息工程学院的周耀君撰写。Hadoop是一个开源的大数据处理框架，而Ubuntu是流行的Linux发行版，两者结合提供了在Linux环境下运行Hadoop的理想平台。教程涉及的内容包括单节点、单机伪分布以及多机器分布式环境的配置，还有如何在Eclipse中运行Hadoop自带的WordCount示例。 #### 系统配置首先，你需要以下资源： 1. Linux Ubuntu 9.10：这是教程中使用的Ubuntu版本，但建议使用最新稳定版本以获取最新的安全更新和兼容性。 2. Hadoop 0.20.0：Hadoop的特定版本，通常应选择最新稳定版本以获得更好的性能和功能。 3. Sun Java 6 JDK：Hadoop需要Java环境支持，安装JDK是必不可少的步骤。 4. SSH包：用于远程登录和管理集群节点，确保安全性。 5. Eclipse：集成开发环境，用于编写和调试Hadoop程序。 #### 配置流程 1. 安装Ubuntu：按照标准流程安装Ubuntu操作系统。 2. 更新软件包列表：使用`sudo apt-get update`命令保持系统软件源是最新的。 3. 系统更新：通过`sudo apt-get upgrade`升级所有已安装的软件包到最新版本。 4. 安装JDK：使用`sudo apt-get install sun-java6-jdk`安装Java开发环境。 5. 设置默认Java：通过`sudo update-alternatives --config java`将Java-6-Sun设置为默认版本，并使用`sudo update-java-alternatives -s java-6-sun`确认设置。 6. 配置环境变量：编辑`/etc/environment`或`~/.bashrc`文件，添加`JAVA_HOME`和`CLASSPATH`系统环境变量，指向JDK的安装路径。 #### 进阶配置 1. 配置Hadoop：解压Hadoop安装包，根据Hadoop的官方文档配置Hadoop的相关配置文件，如`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`。 2. 格式化NameNode：首次启动Hadoop集群前，需要使用`hdfs namenode -format`命令对NameNode进行格式化。 3. 启动Hadoop服务：执行`start-dfs.sh`和`start-yarn.sh`启动Hadoop的DataNode、NameNode、ResourceManager等服务。 4. 配置SSH免密登录：在所有参与节点间设置SSH免密登录，便于集群操作。 5. 运行WordCount示例：将Hadoop的WordCount示例代码导入Eclipse，编译并提交到运行的Hadoop集群中，观察结果。这个教程旨在帮助初学者理解Hadoop的部署、配置和运行过程，同时也为有经验的开发者提供了在Ubuntu环境中操作Hadoop的参考。通过实际操作，学习者可以更好地掌握大数据处理的基本原理和实践技巧。

上海电力学院计算机与信息工程学院撰写人 : 周耀君 QQ:648134235

$ sudo bin/hadoop namenode -format

10/02/21 00:15:08 INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG: host = master/127.0.1.1

STARTUP_MSG: args = [-format]

STARTUP_MSG: version = 0.20.0

STARTUP_MSG: build =

https://svn.apache.org/repos/asf/hadoop/core/branches/branch-0.20

-r 763504; compiled by 'ndaley' on Thu Apr 9 05:18:40 UTC 2009

************************************************************/

10/02/21 00:15:09 INFO namenode.FSNamesystem: fsOwner=root,root

10/02/21 00:15:09 INFO namenode.FSNamesystem:

supergroup=supergroup

10/02/21 00:15:09 INFO namenode.FSNamesystem:

isPermissionEnabled=true

10/02/21 00:15:09 INFO common.Storage: Image file of size 94

saved in 0 seconds.

10/02/21 00:15:09 INFO common.Storage: Storage directory

/tmp/hadoop-root/dfs/name has been successfully formatted.

10/02/21 00:15:09 INFO namenode.NameNode: SHUTDOWN_MSG:

/************************************************************

SHUTDOWN_MSG: Shutting down NameNode at master/127.0.1.1

************************************************************/

(三) 启动 hadoop 监护进程

命令 $ bin/start-all.sh

starting namenode, logging to

/home/shiep205/hadoop/bin/../logs/hadoop-shiep205-namenode-

master.out

localhost: starting datanode, logging to

/home/shiep205/hadoop/bin/../logs/hadoop-shiep205-datanode-

- 5 -

剩余24页未读，继续阅读

freebsd13

粉丝: 1
资源: 1

Ubuntu环境下Hadoop配置与使用指南

Installation and configuration of Hadoop on Ubuntu

ubuntu上hadoop的安装及配置

hadoop 搭建教程

hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

raspberry_cluster_ubuntu_hadoop_spark_cassandra_zookeeper

Ubuntu_Hadoop部署笔记

Ubuntu_Hadoop分布部署.docx

hdfs-webdav.rar_hadoop_hadoop webdav_hadoop 系统_hadoop2.0 d_hdfs

hadoop_test.rar_API_client_hadoop test 作用_hadoop test_hadoop-te

Hadoop案例之单表关联输出祖孙关系.zip_Hadoop案例_hadoop_hadoop查询祖孙

最新资源