Ubuntu下安装Hadoop-0.16.3教程

5星 · 超过95%的资源 需积分: 10 7 下载量 148 浏览量 更新于2024-09-21 收藏 43KB DOC 举报
"在Linux环境下安装Hadoop的详细步骤与注意事项" 在Linux系统中安装Hadoop是分布式计算初学者的重要一步,本文将引导新手逐步完成这一过程。我们将使用两台Ubuntu 10.10机器,一台作为NameNode(主节点)——gislq-1,另一台作为DataNode(从节点)——gislq-2,IP地址分别为192.9.116.20和192.9.116.67。选用的Hadoop版本为hadoop-0.16.3.tar.gz,因为较新的0.21.0版本可能存在兼容性或配置问题。 首先,我们遇到了一个问题:使用新版本的Hadoop(0.21.0)时,执行`start-all.sh`命令会收到过时警告,并提示应使用hdfs命令,但使用hdfs命令时又出现“Hadoop common not found”的错误。这可能是一个已知的bug。为避免这个问题,我们选择安装较稳定的0.16.3版本,确保所有组件正常运行。 接下来是网络通信的验证。在安装Hadoop之前,确保两台机器之间可以互相ping通。这并不意味着仅仅ping命令成功就足够了,还需要确认在使用如scp、ssh等依赖主机名的命令时也能正常工作。在这个案例中,当尝试使用主机名gislq-2进行scp或ssh操作时,由于DNS解析问题导致连接超时。为解决此问题,我们需要编辑`/etc/hosts`文件。 在NameNode(gislq-1)的`/etc/hosts`文件中,需要添加所有集群机器的IP地址及其对应主机名,例如: ``` 127.0.0.1 localhost localhost 192.9.116.20 gislq-1 gislq-1 192.9.116.67 gislq-2 gislq-2 ``` 在DataNode(gislq-2)的`/etc/hosts`文件中,至少需要添加自身IP地址和NameNode的IP地址,如下: ``` 127.0.0.1 localhost localhost 192.9.116.20 gislq-1 gislq-1 192.9.116.67 gislq-2 gislq-2 ``` 完成上述配置后,再次尝试使用主机名进行scp或ssh操作,应当能够顺利执行。 安装Hadoop的步骤通常包括以下几点: 1. 下载Hadoop的tarball文件到Linux服务器。 2. 解压缩文件到一个合适的目录,例如 `/usr/local/hadoop`。 3. 配置环境变量。在`~/.bashrc`或`~/.bash_profile`文件中添加Hadoop的路径,并设置`HADOOP_HOME`。 4. 修改Hadoop配置文件,如`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`,设定NameNode和DataNode的相关参数。 5. 初始化HDFS,使用`bin/hadoop namenode -format`命令。 6. 启动Hadoop服务,执行`sbin/start-all.sh`。 7. 验证安装,可以通过`jps`命令查看各进程是否启动,或者通过Web UI(默认端口50070)检查NameNode的状态。 在安装过程中,还要注意以下几点: - 确保JDK已经安装并配置好,Hadoop依赖Java环境。 - 调整Linux系统的防火墙设置,允许Hadoop所需的端口(如50010, 50020, 8088等)通信。 - 如果使用虚拟机,考虑开启网络桥接模式,以便于主机和虚拟机之间的通信。 - 分配足够的内存给Hadoop进程,根据硬件资源调整`yarn-env.sh`和`mapred-env.sh`中的内存参数。 - 注意文件权限,确保Hadoop用户组对所有Hadoop相关的目录和文件有适当的读写权限。 通过这些步骤,你可以在Linux环境中成功安装并运行Hadoop,开始探索分布式计算的魅力。记住,安装过程可能会遇到各种问题,关键在于耐心调试和查阅文档。祝你在Hadoop的世界里学习愉快!