Hadoop学习入门:从准备到单机配置

需积分: 34 2 下载量 26 浏览量 更新于2024-09-27 收藏 656KB PDF 举报
"Hadoop学习笔记(一).pdf" Hadoop是一种开源分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。这份学习笔记详细介绍了Hadoop的基本概念、环境准备和单机配置过程。 1. **准备工作** 在开始学习和使用Hadoop之前,需要确保你的系统满足必要的支持条件。Hadoop主要在GNU/Linux系统上作为开发和生产平台运行,已被证明可以在包含2000个节点的集群上稳定工作。然而,Windows系统仅作为开发平台,因为分布式操作在Windows上的测试并不充分,因此不推荐用于生产环境。在Windows上运行Hadoop,你需要安装Cygwin,它提供了一个类似Linux的环境,以便运行shell命令。 2. **Hadoop的基础需求** - **JDK1.6**:Hadoop依赖Java Development Kit的特定版本,这里是JDK1.6。JDK是编写、调试和运行Java应用程序所必需的软件包。 - **Cygwin**:如上所述,Cygwin是Windows环境下运行Hadoop所必需的,因为它提供了模拟Linux环境的功能。 3. **安装Cygwin的注意事项** 安装Cygwin时,务必确保选择了OpenSSL组件,它位于"Net@Default"类别中。此外,安装过程中选择"For All Users"模式,而非"Just Me",以确保SSH服务能够在安装后正确启动。 4. **单机上配置Hadoop** - **配置SSH**:SSH(Secure Shell)是远程登录和其他安全网络服务的协议,对于在单机上配置Hadoop是必需的。 - **步骤**:打开Cygwin命令提示符,执行`ssh-host-config`命令。在配置过程中,针对权限分离、是否安装SSH服务为服务等问题,根据提示进行相应设置。 配置SSH服务的具体步骤包括: 1. 打开Cygwin终端。 2. 输入命令`ssh-host-config`,按照提示进行操作。 3. 当被询问是否使用特权分离时,选择“否”。 4. 当询问是否将sshd安装为服务时,选择“是”。 5. 关于CYGWIN环境变量的值,根据需要进行设定。 这份笔记涵盖了Hadoop入门所需的基本知识,从系统准备到初步配置,是初学者了解和动手实践Hadoop的良好参考资料。后续章节可能包括Hadoop的安装、HDFS(Hadoop分布式文件系统)的理解、MapReduce编程模型的介绍以及集群配置等内容。通过深入学习,你可以掌握如何利用Hadoop进行大数据的存储和处理,为数据分析和挖掘打下坚实基础。