Ubuntu上安装Hadoop伪分布式环境及WordCount实践

需积分: 0 48 浏览量更新于2024-08-04 收藏 7.93MB DOCX 举报

"本次实验是北京邮电大学软件学院大数据原理与技术课程的实验一，目标是安装单机Hadoop系统。实验者需在本地电脑上安装伪分布式Hadoop，并用自带的WordCount程序处理英文网页数据。实验环境包括MacBook（Apple M1架构）和Ubuntu 20.04（arm64架构）的虚拟机，采用Hadoop 3.3.0版本。实验过程中遇到MacOS兼容性问题，但在Linux环境下成功完成。" 在实验过程中，涉及了以下几个重要的知识点： 1. **Java Development Kit (JDK) 安装**：Hadoop依赖Java环境，因此实验首先要求安装JDK。在Ubuntu系统中，使用`sudo apt install openjdk-13-jdk`命令可以安装JDK。安装完成后，需要配置环境变量，确保系统能够找到Java可执行文件。 2. **配置环境变量**：为了让系统能够在任何路径下执行Java命令，需要将JDK的bin目录添加到系统的PATH环境变量中。这通常在`~/.bashrc`或`~/.bash_profile`文件中完成，但实验中没有具体描述这个过程。 3. **SSH免密登录配置**：为了简化Hadoop集群间的通信，实验要求配置SSH免密登录。这通过生成SSH密钥对并将其公钥添加到`authorized_keys`文件中实现。执行`ssh-keygen -t rsa`生成密钥对，然后`cat ./id_rsa.pub >> ./authorized_keys`将公钥追加到授权文件，最后`chmod 0600 ~/.ssh/authorized_keys`设置权限，确保只有所有者可以读取。 4. **Hadoop的下载与安装**：选择适合硬件架构（arm64）的Hadoop版本，这里选择了3.3.0。下载完成后，需要解压缩并移动到适当位置，通常是用户的家目录。实验没有详细描述如何解压和移动文件，但通常使用`tar -zxvf hadoop-x.x.x.tar.gz`命令解压，然后使用`mv`命令移动。 5. **Hadoop配置**：实验提到配置Hadoop的配置文件，但未提供具体细节。在Hadoop中，主要的配置文件有`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`等，需要根据实际情况设置相关参数，如NameNode和DataNode的地址、HDFS的副本数量等。 6. **数据获取与上传**：实验要求获取网页数据并上传到HDFS。使用`curl`命令可以下载网页，`curl http://info.cern.ch/hypertext/WWW/TheProject.html > awebsite.html`，然后使用Hadoop的命令行工具将文件上传到HDFS的`/test-in`目录。 7. **运行WordCount程序**：Hadoop自带的WordCount程序用于统计文本中的单词出现次数。实验者需要编译Hadoop源代码（如果尚未编译），然后提交WordCount作业到Hadoop集群，执行类似`hadoop jar hadoop-examples-3.3.0.jar wordcount /test-in /test-out`的命令。这个实验不仅涵盖了Hadoop的基本安装和配置，还涉及到Java环境的搭建、SSH安全配置以及数据处理的基本流程，对于理解和掌握Hadoop的大数据处理能力具有重要意义。

扈涧盛

粉丝: 32
资源: 319

Ubuntu上安装Hadoop伪分布式环境及WordCount实践

实验1-安装Hadoop1

Hadoop课程实验和报告——Hadoop安装实验报告

实验1 安装Hadoop.doc

实验一 Hadoop安装教程_单机/伪分布式配置

Hadoop单机模式实验内容

Hadoop单机模式实验

Hadoop单机模式实验结果

Hadoop单机模式实验结果截图

Hadoop单机模式实验步骤

hadoop3单机版教程

最新资源