Hadoop学习入门:从准备到单机配置
需积分: 34 26 浏览量
更新于2024-09-27
收藏 656KB PDF 举报
"Hadoop学习笔记(一).pdf"
Hadoop是一种开源分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。这份学习笔记详细介绍了Hadoop的基本概念、环境准备和单机配置过程。
1. **准备工作**
在开始学习和使用Hadoop之前,需要确保你的系统满足必要的支持条件。Hadoop主要在GNU/Linux系统上作为开发和生产平台运行,已被证明可以在包含2000个节点的集群上稳定工作。然而,Windows系统仅作为开发平台,因为分布式操作在Windows上的测试并不充分,因此不推荐用于生产环境。在Windows上运行Hadoop,你需要安装Cygwin,它提供了一个类似Linux的环境,以便运行shell命令。
2. **Hadoop的基础需求**
- **JDK1.6**:Hadoop依赖Java Development Kit的特定版本,这里是JDK1.6。JDK是编写、调试和运行Java应用程序所必需的软件包。
- **Cygwin**:如上所述,Cygwin是Windows环境下运行Hadoop所必需的,因为它提供了模拟Linux环境的功能。
3. **安装Cygwin的注意事项**
安装Cygwin时,务必确保选择了OpenSSL组件,它位于"Net@Default"类别中。此外,安装过程中选择"For All Users"模式,而非"Just Me",以确保SSH服务能够在安装后正确启动。
4. **单机上配置Hadoop**
- **配置SSH**:SSH(Secure Shell)是远程登录和其他安全网络服务的协议,对于在单机上配置Hadoop是必需的。
- **步骤**:打开Cygwin命令提示符,执行`ssh-host-config`命令。在配置过程中,针对权限分离、是否安装SSH服务为服务等问题,根据提示进行相应设置。
配置SSH服务的具体步骤包括:
1. 打开Cygwin终端。
2. 输入命令`ssh-host-config`,按照提示进行操作。
3. 当被询问是否使用特权分离时,选择“否”。
4. 当询问是否将sshd安装为服务时,选择“是”。
5. 关于CYGWIN环境变量的值,根据需要进行设定。
这份笔记涵盖了Hadoop入门所需的基本知识,从系统准备到初步配置,是初学者了解和动手实践Hadoop的良好参考资料。后续章节可能包括Hadoop的安装、HDFS(Hadoop分布式文件系统)的理解、MapReduce编程模型的介绍以及集群配置等内容。通过深入学习,你可以掌握如何利用Hadoop进行大数据的存储和处理,为数据分析和挖掘打下坚实基础。
2013-11-07 上传
2020-01-31 上传
2020-03-24 上传
2023-06-01 上传
Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi
2023-04-03 上传
2023-12-03 上传
2023-06-01 上传
2023-05-25 上传
2023-07-28 上传
2023-05-27 上传
qachenzude
- 粉丝: 62
- 资源: 183
最新资源
- 社交媒体营销激励优化策略研究
- 终端信息查看工具:qt框架下的输出强制抓取
- MinGW Win32 C/C++ 开发环境压缩包快速入门指南
- STC8G1K08 PWM模块实现10K频率及易改占空比波形输出
- MSP432电机驱动编码器测路程方法解析
- 实现动静分离案例的css/js/img文件指南
- 爱心代码五种:高效编程的精选技巧
- MATLAB实现广义互相关时延估计GCC的多种加权方法
- Hive CDH Jar包下载:免费获取Hive JDBC驱动
- STC8G单片机实现EEPROM及MODBUS-RTU协议
- Java集合框架面试题精讲
- Unity游戏设计与开发资源全集
- 探索音乐盒.zip背后的神秘世界
- Matlab自相干算法GUI界面设计及仿真
- STM32智能小车PID算法实现资料
- Python爬虫实战:高效爬取百度贴吧信息