Hadoop学习入门:从准备到单机配置
需积分: 34 49 浏览量
更新于2024-09-27
收藏 656KB PDF 举报
"Hadoop学习笔记(一).pdf"
Hadoop是一种开源分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。这份学习笔记详细介绍了Hadoop的基本概念、环境准备和单机配置过程。
1. **准备工作**
在开始学习和使用Hadoop之前,需要确保你的系统满足必要的支持条件。Hadoop主要在GNU/Linux系统上作为开发和生产平台运行,已被证明可以在包含2000个节点的集群上稳定工作。然而,Windows系统仅作为开发平台,因为分布式操作在Windows上的测试并不充分,因此不推荐用于生产环境。在Windows上运行Hadoop,你需要安装Cygwin,它提供了一个类似Linux的环境,以便运行shell命令。
2. **Hadoop的基础需求**
- **JDK1.6**:Hadoop依赖Java Development Kit的特定版本,这里是JDK1.6。JDK是编写、调试和运行Java应用程序所必需的软件包。
- **Cygwin**:如上所述,Cygwin是Windows环境下运行Hadoop所必需的,因为它提供了模拟Linux环境的功能。
3. **安装Cygwin的注意事项**
安装Cygwin时,务必确保选择了OpenSSL组件,它位于"Net@Default"类别中。此外,安装过程中选择"For All Users"模式,而非"Just Me",以确保SSH服务能够在安装后正确启动。
4. **单机上配置Hadoop**
- **配置SSH**:SSH(Secure Shell)是远程登录和其他安全网络服务的协议,对于在单机上配置Hadoop是必需的。
- **步骤**:打开Cygwin命令提示符,执行`ssh-host-config`命令。在配置过程中,针对权限分离、是否安装SSH服务为服务等问题,根据提示进行相应设置。
配置SSH服务的具体步骤包括:
1. 打开Cygwin终端。
2. 输入命令`ssh-host-config`,按照提示进行操作。
3. 当被询问是否使用特权分离时,选择“否”。
4. 当询问是否将sshd安装为服务时,选择“是”。
5. 关于CYGWIN环境变量的值,根据需要进行设定。
这份笔记涵盖了Hadoop入门所需的基本知识,从系统准备到初步配置,是初学者了解和动手实践Hadoop的良好参考资料。后续章节可能包括Hadoop的安装、HDFS(Hadoop分布式文件系统)的理解、MapReduce编程模型的介绍以及集群配置等内容。通过深入学习,你可以掌握如何利用Hadoop进行大数据的存储和处理,为数据分析和挖掘打下坚实基础。
2013-11-07 上传
2020-01-31 上传
2020-03-24 上传
2020-12-17 上传
2022-11-03 上传
2012-11-25 上传
2022-10-30 上传
qachenzude
- 粉丝: 62
- 资源: 181
最新资源
- nanonote:一种简约的笔记应用程序
- IT-manuale-del-software-developer:软件开发人员指南
- TrackingDoc-crx插件
- C_Repository:C ++代码
- tsv2vcf-开源
- pandas_gbq_magic-1.1.2.tar.gz
- apollo-ps3:阿波罗保存工具(PS3)
- snews v1.7.1 英文版
- rmt:SUSE Customer Center的RPM存储库镜像工具和注册代理
- my_vim:我的vimrc
- RebootInBot
- dmnmgr-client:DMN管理器-具有附加功能的DMN编辑器,例如验证,模拟和基本git支持
- pandas_genomics-0.12.0.tar.gz
- 参考资料-基于STC单片机的电动客车空调控制系统设计.zip
- 金蝶虚拟机补丁-编码:#13397609虚拟机补丁.zip
- ToyChat-开源