Ubuntu 16.04搭建Hadoop 2.7.2完全分布式集群教程

需积分: 44 177 浏览量更新于2024-09-10 4 收藏 20KB DOCX 举报

"该文档详细介绍了如何在Ubuntu 16.04虚拟机上搭建Hadoop完全分布式集群，包括所需的软件版本、环境设置、用户权限配置、SSH无密码登录的实现，以及Hadoop的下载、解压和配置过程。" 在Ubuntu 16.04虚拟机中构建Hadoop完全分布式集群是一项重要的任务，它允许用户处理大规模数据并行计算。以下将详细介绍整个过程中的关键知识点： 1. **所需文件**： - `hadoop-2.7.2.tar.gz`：这是Hadoop 2.7.2的源码包，用于安装Hadoop。 - `hadoop-eclipse-plugin-2.7.2.jar`：Eclipse插件，用于在Eclipse环境中集成Hadoop，方便开发和调试MapReduce程序。 - `eclipse-jee-juno-SR2-linux-gtk-x86_64.tar.gz`：Eclipse IDE for Java EE开发者，用于编写和管理Hadoop项目。 2. **前提条件**： - **Java开发套件(JDK)**：Hadoop需要Java环境，这里安装的是OpenJDK 7。确保`java-version`命令返回正确的版本信息。 - **OpenSSH服务器**：为了在集群中进行无密码SSH登录，需要安装`openssh-server`。 3. **用户和用户组设置**： - 创建`hadoop`用户组和名为`hduser`的用户，将`hduser`添加到`sudo`和`hadoop`组，以便用户具有必要的权限。 4. **配置SSH**： - 使用`ssh-keygen`生成RSA密钥对，设置空密码。 - 将公钥(`id_rsa.pub`)追加到`authorized_keys`文件，使得在集群内部可以无密码SSH登录。 - 通过`ssh localhost`测试SSH设置，如果成功，不应需要输入密码。 5. **下载Hadoop**： - 下载Hadoop 2.7.2版本，解压到适当目录，例如用户的主目录。 6. **配置Hadoop**： - 修改`etc/hadoop`目录下的配置文件，如`core-site.xml`, `hdfs-site.xml`, `mapred-site.xml`和`yarn-site.xml`，以定义Hadoop集群的参数，例如名称节点、数据节点、作业历史服务器等的地址。 - 配置环境变量，如在`~/.bashrc`或`~/.bash_profile`中添加HADOOP_HOME，并设置PATH变量。 7. **格式化名称节点**： - 在首次启动Hadoop集群时，需要使用`hdfs namenode -format`命令对名称节点进行格式化。 8. **启动和检查Hadoop服务**： - 启动Hadoop守护进程，如`start-dfs.sh`和`start-yarn.sh`。 - 使用`jps`命令检查各个节点的服务是否正常运行。 - 浏览`http://namenode_ip:50070`和`http://resourcemanager_ip:8088`来验证HDFS和YARN的Web界面。 9. **配置Eclipse**： - 安装Eclipse插件`hadoop-eclipse-plugin-2.7.2.jar`，以便在Eclipse中创建和运行Hadoop项目。 - 配置Eclipse的工作空间以指向Hadoop的安装目录。 10. **测试集群**： - 使用WordCount示例程序测试Hadoop集群，确保数据正确地在各节点间分布并进行计算。以上步骤完成后，你就成功构建了一个基于Ubuntu 16.04的Hadoop完全分布式集群。在整个过程中，注意文件权限、网络配置以及配置文件的正确性，这些都是确保集群稳定运行的关键。此外，对于遇到的问题，社区交流和持续学习是解决之道。

所需文件：

hadoop-2.7.2.tar.gz

http://pan.baidu.com/s/1o7BmskE

hadoop-eclipse-plugin-2.7.2.jar

http://pan.baidu.com/s/1gf17wVx

eclipse-jee-juno-SR2-linux-gtk-x86_64.tar.gz

http://pan.baidu.com/s/1nvSz5Ip

前提

安装 jdk 和 openssh

$ sudo apt-get install openjdk-7-jdk

$ java -version

java version "1.7.0_55"

OpenJDK Runtime Environment (IcedTea 2.4.7) (7u55-2.4.7-

1ubuntu1~0.13.10.1)

OpenJDK 64-Bit Server VM (build 24.51-b03, mixed mode)

$ sudo apt-get install openssh-server

openjdk 的默认路径是 /usr/lib/jvm/java-7-openjdk-amd64. 如果你的默认

路径和我的不同，请再后面的操作中替换此路径。

添加 Hadoop 用户组和用户

$ sudo addgroup hadoop

$ sudo adduser --ingroup hadoop hduser

$ sudo adduser hduser sudo

然后切换到 hduser 账户

配置 SSH

下载后可阅读完整内容，剩余5页未读，立即下载

WXteng

粉丝: 5
资源: 12

Ubuntu 16.04搭建Hadoop 2.7.2完全分布式集群教程

Ubuntu16.04伪分布式Hadoop3.1.3大数据集群配置指南

"虚拟机搭建Hadoop伪分布式及Hbase详细教程

Ubuntu 16.04下VirtualBox环境中Hadoop集群安装详解

虚拟机16.04安装过以及Hadoop、spark平台配置

VMware下Ubuntu 16.04配成功分式Hadoop 2.7.3环境与VMwareTools安装教程

VMware搭建Ubuntu16.04三节点Hadoop-2.7.1+Hbase-1.2.4完全分布式教程

Windows下搭建Linux虚拟机与Hadoop伪分布式实战

VMware12搭建Ubuntu16.04 hadoop-2.7.1+hbase-1.2.4完全分布式教程

hadoop2.6.5+Ubuntu16.04配置指南

Hadoop安装（ubuntu16.04+ hadoop-2.9.1.tar.gz+jdk-8u74-linux-x64.tar.gz）

最新资源