Ubuntu上安装与配置Hadoop单机模式实战

需积分: 0 0 下载量 160 浏览量 更新于2024-08-04 收藏 653KB DOCX 举报
"MPLab1-171850524-刘扬1" 在本次实验中,主要涉及了Hadoop的安装、配置以及基础操作,旨在让学生熟悉Hadoop的工作流程。以下是详细的步骤和相关知识点: 1. **系统安装** - 使用的操作系统是Ubuntu 18.04,这是一个广泛用于服务器和开发环境的Linux发行版,因其稳定性而受到青睐。 - 安装SSH服务,这对于远程管理Linux系统至关重要。SSH(Secure SHell)允许安全的远程登录,确保数据传输的安全。 2. **Java环境** - 实验要求安装Java 7,但在这里安装的是Java 8。OpenJDK 8可以通过`sudo apt-get install openjdk-8-jdk`命令进行安装,其路径通常为`/usr/lib/jvm/java-8-openjdk-amd64`。 - 配置环境变量,需要编辑用户的`.bashrc`文件,将Java的安装路径添加到`JAVA_HOME`变量,并确保`PATH`和`CLASSPATH`包含相应的路径。 3. **Hadoop安装** - 解压Hadoop 2.7.1安装包。Hadoop是一个开源的分布式计算框架,适用于大数据处理。 - 配置环境变量时,需要将Hadoop的bin目录添加到`PATH`,以使系统能识别Hadoop命令。 4. **SSH免密码访问** - 通过`ssh-keygen -t rsa`生成SSH密钥对,`id_rsa.pub`是公钥,将其内容追加到`~/.ssh/authorized_keys`文件中,以实现本地主机的SSH免密登录。 5. **Hadoop配置** - 需要修改的配置文件包括`core-site.xml`,`hdfs-site.xml`,`mapred-site.xml`和`yarn-site.xml`,这些文件位于`/etc/hadoop`目录下。 - `core-site.xml`:定义Hadoop的基本配置,如默认的文件系统。 - `hdfs-site.xml`:配置Hadoop分布式文件系统(HDFS)的参数,如副本数量。 - `mapred-site.xml`:配置MapReduce作业的相关属性。 - `yarn-site.xml`:配置YARN(Yet Another Resource Negotiator),Hadoop的资源管理和调度器。 6. **NameNode格式化** - `hadoop namenode -format`命令用于初始化NameNode,这是HDFS的主节点,存储文件系统的元数据。 7. **Hadoop启动与停止** - 使用`sbin/start-all.sh`启动所有Hadoop守护进程,包括DataNode、NameNode、NodeManager等。 - `sbin/stop-all.sh`则用于停止所有服务。 8. **实验数据** - 从给定的URL下载了3个电子书的文本文件,这些文件以PlainTextUTF-8格式存储,是Hadoop处理的数据源。 9. **实验体会** - 通过这个实验,学生可以了解Hadoop的基本工作流程,包括数据的上传、处理和结果获取。 在这个过程中,可能会遇到的错误可能包括配置文件的错误、Java版本不匹配、SSH设置问题以及Hadoop服务启动失败等,解决这些问题需要对Linux系统和Hadoop有深入的理解。通过这样的实践,有助于提升对分布式计算和大数据处理技术的实际操作能力。