Ubuntu上安装Hadoop伪分布式环境及WordCount实践

需积分: 0 0 下载量 51 浏览量 更新于2024-08-04 收藏 7.93MB DOCX 举报
"本次实验是北京邮电大学软件学院大数据原理与技术课程的实验一,目标是安装单机Hadoop系统。实验者需在本地电脑上安装伪分布式Hadoop,并用自带的WordCount程序处理英文网页数据。实验环境包括MacBook(Apple M1架构)和Ubuntu 20.04(arm64架构)的虚拟机,采用Hadoop 3.3.0版本。实验过程中遇到MacOS兼容性问题,但在Linux环境下成功完成。" 在实验过程中,涉及了以下几个重要的知识点: 1. **Java Development Kit (JDK) 安装**:Hadoop依赖Java环境,因此实验首先要求安装JDK。在Ubuntu系统中,使用`sudo apt install openjdk-13-jdk`命令可以安装JDK。安装完成后,需要配置环境变量,确保系统能够找到Java可执行文件。 2. **配置环境变量**:为了让系统能够在任何路径下执行Java命令,需要将JDK的bin目录添加到系统的PATH环境变量中。这通常在`~/.bashrc`或`~/.bash_profile`文件中完成,但实验中没有具体描述这个过程。 3. **SSH免密登录配置**:为了简化Hadoop集群间的通信,实验要求配置SSH免密登录。这通过生成SSH密钥对并将其公钥添加到`authorized_keys`文件中实现。执行`ssh-keygen -t rsa`生成密钥对,然后`cat ./id_rsa.pub >> ./authorized_keys`将公钥追加到授权文件,最后`chmod 0600 ~/.ssh/authorized_keys`设置权限,确保只有所有者可以读取。 4. **Hadoop的下载与安装**:选择适合硬件架构(arm64)的Hadoop版本,这里选择了3.3.0。下载完成后,需要解压缩并移动到适当位置,通常是用户的家目录。实验没有详细描述如何解压和移动文件,但通常使用`tar -zxvf hadoop-x.x.x.tar.gz`命令解压,然后使用`mv`命令移动。 5. **Hadoop配置**:实验提到配置Hadoop的配置文件,但未提供具体细节。在Hadoop中,主要的配置文件有`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`等,需要根据实际情况设置相关参数,如NameNode和DataNode的地址、HDFS的副本数量等。 6. **数据获取与上传**:实验要求获取网页数据并上传到HDFS。使用`curl`命令可以下载网页,`curl http://info.cern.ch/hypertext/WWW/TheProject.html > awebsite.html`,然后使用Hadoop的命令行工具将文件上传到HDFS的`/test-in`目录。 7. **运行WordCount程序**:Hadoop自带的WordCount程序用于统计文本中的单词出现次数。实验者需要编译Hadoop源代码(如果尚未编译),然后提交WordCount作业到Hadoop集群,执行类似`hadoop jar hadoop-examples-3.3.0.jar wordcount /test-in /test-out`的命令。 这个实验不仅涵盖了Hadoop的基本安装和配置,还涉及到Java环境的搭建、SSH安全配置以及数据处理的基本流程,对于理解和掌握Hadoop的大数据处理能力具有重要意义。