Hadoop入门指南：从零到集群搭建

需积分: 18 180 浏览量更新于2024-07-26 收藏 881KB PDF 举报

"Hadoop入门实战" Hadoop是一个开源的分布式计算框架，由Apache基金会开发，主要用于处理和存储海量数据。这个入门实战手册旨在帮助初学者理解Hadoop的基本概念、安装步骤以及实际操作，从而快速进入大数据处理的世界。 1. **概述** Hadoop的核心是两个主要组件：Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS 提供了一个高度容错性的文件系统，而MapReduce则是一个编程模型，用于大规模数据集的并行计算。 2. **为什么选择Hadoop？** - **系统特点**：Hadoop设计的目标是可扩展性、高容错性和高效的数据处理能力。它能够在廉价硬件上运行，且易于扩展，可以处理PB级别的数据。 - **使用场景**：Hadoop适用于需要处理大量非结构化或半结构化数据的场景，如日志分析、推荐系统、搜索引擎索引构建等。 3. **术语** - **HDFS**：Hadoop分布式文件系统，将大文件分块存储在多台节点上。 - **MapReduce**：一种编程模型，用于处理和生成大数据集，包含“映射”和“规约”两个阶段。 4. **Hadoop的单机部署** - **目的**：在本地机器上安装和配置Hadoop，用于学习和测试。 - **先决条件**：包括操作系统、Java环境、SSH设置等。 - **安装步骤**：包括下载Hadoop、配置环境变量、修改配置文件等。 5. **Hadoop集群搭建** - **免密码SSH设置**：为了在集群中简化节点间的通信，需要配置无密码SSH登录。 - **软件安装**：在所有节点上安装相同的Hadoop版本。 - **配置**：区分Master和Slave节点，配置Hadoop的相关配置文件。 - **初始化和启动**：格式化NameNode，启动DataNode、ResourceManager等服务。 - **测试**：通过运行简单的MapReduce任务验证集群功能。 6. **架构分析** - **HDFS**：包括NameNode、DataNode和Secondary NameNode，负责数据的存储和管理。 - **MapReduce**：包括Mapper和Reducer，Mapper将输入数据切分成键值对，Reducer聚合Mapper的结果。 - **综合架构**：Hadoop集群由多个节点组成，每个节点可以运行HDFS和MapReduce服务，通过网络进行通信和数据交换。 7. **管理界面与命令** - **运行状态界面**：提供可视化界面查看HDFS和MapReduce的状态。 - **命令行工具**：如`hadoop fs`命令用于交互式操作HDFS，`job`命令用于管理MapReduce作业。通过以上内容，初学者可以了解Hadoop的基本原理，掌握单机和集群的安装配置，以及进行基本的数据处理操作。对于想要深入大数据领域的学习者，这是一份非常实用的入门资料。

3.6.2 免密码ssh设置

现在确认能否不输入口令就用ssh登录localhost:

$ ssh localhost

如果不输入口令就无法用ssh登陆localhost，执行下面的命令：

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

3.6.3 执行

首先使用 hadoop 命令对 Hadoop File System (HDFS) 进行格式化。

首先，请求 namenode 对 DFS 文件系统进行格式化。在安装过程中完成了这个步骤，但是了解是否需

要生成干净的文件系统是有用的。

[hadoop@TEST085 hadoop-0.20.203.0]$ bin/hadoop namenode –format

注：在确认请求之后，文件系统进行格式化并返回一些信息：

11/07/12 17:47:12 INFO namenode.NameNode: STARTUP_MSG:

/************************************************************

STARTUP_MSG: Starting NameNode

STARTUP_MSG: host = TEST085/202.102.110.206

STARTUP_MSG: args = [-format]

STARTUP_MSG: version = 0.20.203.0

STARTUP_MSG: build =

http://svn.apache.org/repos/asf/hadoop/common/branches/branch-0.20-security-203 -r

1099333; compiled by 'oom' on Wed May 4 07:57:50 PDT 2011

************************************************************/

11/07/12 17:47:12 INFO util.GSet: VM type = 32-bit

11/07/12 17:47:12 INFO util.GSet: 2% max memory = 19.33375 MB

11/07/12 17:47:12 INFO util.GSet: capacity = 2^22 = 4194304 entries

11/07/12 17:47:12 INFO util.GSet: recommended=4194304, actual=4194304

www.linuxidc.com

Linux公社(LinuxIDC.com) 是包括Ubuntu,Fedora,SUSE技术，最新IT资讯等Linux专业类网站。

剩余52页未读，继续阅读

ad_ti_altera

粉丝: 0
资源: 1

Hadoop入门指南：从零到集群搭建

hadoop 入门

hadoop 入门

hadoop入门

Hadoop入门实战手册

hadoop入门实战手册.pdf

Hadoop入门实战手册.pdf

Hadoop入门实战手册 中文版）

探索分布式计算：Hadoop入门实战与日志分析

Hadoop入门实战：从单机到集群部署详解

Hadoop入门与实战指南

最新资源

Hadoop入门实战手册中文版）