Ubuntu上安装Hadoop伪分布式环境及WordCount实践
需积分: 0 48 浏览量
更新于2024-08-04
收藏 7.93MB DOCX 举报
"本次实验是北京邮电大学软件学院大数据原理与技术课程的实验一,目标是安装单机Hadoop系统。实验者需在本地电脑上安装伪分布式Hadoop,并用自带的WordCount程序处理英文网页数据。实验环境包括MacBook(Apple M1架构)和Ubuntu 20.04(arm64架构)的虚拟机,采用Hadoop 3.3.0版本。实验过程中遇到MacOS兼容性问题,但在Linux环境下成功完成。"
在实验过程中,涉及了以下几个重要的知识点:
1. **Java Development Kit (JDK) 安装**:Hadoop依赖Java环境,因此实验首先要求安装JDK。在Ubuntu系统中,使用`sudo apt install openjdk-13-jdk`命令可以安装JDK。安装完成后,需要配置环境变量,确保系统能够找到Java可执行文件。
2. **配置环境变量**:为了让系统能够在任何路径下执行Java命令,需要将JDK的bin目录添加到系统的PATH环境变量中。这通常在`~/.bashrc`或`~/.bash_profile`文件中完成,但实验中没有具体描述这个过程。
3. **SSH免密登录配置**:为了简化Hadoop集群间的通信,实验要求配置SSH免密登录。这通过生成SSH密钥对并将其公钥添加到`authorized_keys`文件中实现。执行`ssh-keygen -t rsa`生成密钥对,然后`cat ./id_rsa.pub >> ./authorized_keys`将公钥追加到授权文件,最后`chmod 0600 ~/.ssh/authorized_keys`设置权限,确保只有所有者可以读取。
4. **Hadoop的下载与安装**:选择适合硬件架构(arm64)的Hadoop版本,这里选择了3.3.0。下载完成后,需要解压缩并移动到适当位置,通常是用户的家目录。实验没有详细描述如何解压和移动文件,但通常使用`tar -zxvf hadoop-x.x.x.tar.gz`命令解压,然后使用`mv`命令移动。
5. **Hadoop配置**:实验提到配置Hadoop的配置文件,但未提供具体细节。在Hadoop中,主要的配置文件有`core-site.xml`、`hdfs-site.xml`和`mapred-site.xml`等,需要根据实际情况设置相关参数,如NameNode和DataNode的地址、HDFS的副本数量等。
6. **数据获取与上传**:实验要求获取网页数据并上传到HDFS。使用`curl`命令可以下载网页,`curl http://info.cern.ch/hypertext/WWW/TheProject.html > awebsite.html`,然后使用Hadoop的命令行工具将文件上传到HDFS的`/test-in`目录。
7. **运行WordCount程序**:Hadoop自带的WordCount程序用于统计文本中的单词出现次数。实验者需要编译Hadoop源代码(如果尚未编译),然后提交WordCount作业到Hadoop集群,执行类似`hadoop jar hadoop-examples-3.3.0.jar wordcount /test-in /test-out`的命令。
这个实验不仅涵盖了Hadoop的基本安装和配置,还涉及到Java环境的搭建、SSH安全配置以及数据处理的基本流程,对于理解和掌握Hadoop的大数据处理能力具有重要意义。
2022-08-08 上传
164 浏览量
2018-09-24 上传
2024-09-20 上传
2023-04-30 上传
2023-04-30 上传
2023-04-30 上传
2023-04-30 上传
2023-04-30 上传
扈涧盛
- 粉丝: 32
- 资源: 319
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器