没有合适的资源?快使用搜索试试~ 我知道了~
首页hadoop文档, hdfs mapreduce,环境搭建,例子介绍等
资源详情
资源评论
资源推荐

Hadoop 文档
http://www.hadoop.org.cn/document/cn/r0.17.0/
下面的文档是一些概念介绍和操作教程,可帮助你开始使用Hadoop。如果遇到了问
题,你可以向邮件列表求助或者浏览一下存档邮件。
• Hadoop快速入门
• Hadoop集群搭建
• Hadoop分布式文件系统
• Hadoop Map-Reduce教程
• Hadoop本地库
• API参考
• 维基
• 常见问题
Hadoop快速入门
• 目的
• 先决条件
o 支持平台
o 所需软件
Windows下的附加软件需求
o 安装软件
• 下载
• 运行Hadoop集群的准备工作
• 单机模式的操作方法
• 伪分布式模式的操作方法
o 配置
o 免密码ssh设置
o 执行
• 完全分布式模式的操作方法
目的

这篇文档的目的是帮助使用者快速完成单机上的Hadoop安装与使用以便使用者
对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上执
行简单的操作,或者运行简单的示例程序等。
先决条件
支持平台
• Hadoop 已在有 2000 个节点的 GNU/Linux 主机组成的集群系统上得到验
证。
• Win32 平台是作为
开发平台
支持的。分布式操作尚未在 Win32 平台上充分
测试,这导致 Win32 平台还不是一个
产品平台
。
所需软件
1. Java
TM
1.5.x,必须安装,建议选择 Sun 公司发行的 Java 版本。
2. ssh 必须安装并且保证 sshd 一直运行,以便用 Hadoop 脚本管理远端
Hadoop 守护进程。
Windows 下的附加软件需求
1. Cygwin - 提供上述软件之外的shell支持。
安装软件
如果你的集群尚未安装所需软件,你得首先安装它们。
以 Ubuntu Linux 为例:
$ sudo apt-get install ssh
$ sudo apt-get install rsync
在 Windows 平台上,如果安装 cygwin 时未安装全部所需软件,则需启动 cyqwin
安装管理器安装如下软件包:
• openssh - Net 类
下载
为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的 稳定发行
版。
运行 Hadoop 集群的准备工作

解压所下载的 Hadoop 发行版。编辑 conf/hadoop-env.sh 文件,至少需要将
JAVA_HOME 设置为 Java 安装根路径。
尝试如下命令:
$ bin/hadoop
将会显示 hadoop 脚本的使用文档。
现在你可以用以下三种支持的模式中的一种启动 Hadoop 集群:
• 单机模式
• 伪分布式模式
• 完全分布式模式
单机模式的操作方法
默认情况下,Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调
试非常有帮助。
下面的实例将未解压的
conf 目录拷贝作为输入,查找并显示匹配给定正则表达式
的条目。输出写入到指定的 output 目录。
$ mkdir input
$ cp conf/*.xml input
$ bin/hadoop jar hadoop-*-examples.jar grep input output
'dfs[a-z.]+'
$ cat output/*
伪分布式模式的操作方法
Hadoop 可以在单节点上以所谓的伪分布式模式运行,此时每一个 Hadoop 守护进
程都作为一个独立的 Java 进程运行。
配置
使用如下的
conf/hadoop-site.xml:
<configuration>
<property>
<name>fs.default.name</name>

<value>localhost:9000</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
免密码 ssh 设置
现在确认能否不输入口令就用 ssh 登录 localhost:
$ ssh localhost
如果不输入口令就无法用 ssh 登陆 localhost,执行下面的命令:
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
执行
格式化一个新的分布式文件系统:
$ bin/hadoop namenode -format
启动 Hadoop 守护进程:
$ bin/start-all.sh
Hadoop 守护进程的日志写入到
${HADOOP_LOG_DIR} 目录 (默认是
${HADOOP_HOME}/logs).
浏览 NameNode 和 JobTracker 的网络接口,它们的地址默认为:
• NameNode - http://localhost:50070/

• JobTracker - http://localhost:50030/
将输入文件拷贝到分布式文件系统:
$ bin/hadoop dfs -put conf input
运行发行版提供的示例程序:
$ bin/hadoop jar hadoop-*-examples.jar grep input output
'dfs[a-z.]+'
查看输出文件:
将输出文件从分布式文件系统拷贝到本地文件系统查看:
$ bin/hadoop dfs -get output output
$ cat output/*
或者
查看分布式文件系统上的输出文件:
$ bin/hadoop dfs -cat output/*
完成全部操作后,停止守护进程:
$ bin/stop-all.sh
完全分布式模式的操作方法
关于搭建完全分布式模式的,有实际意义的集群的资料 可以在这里找到。
Hadoop集群搭建
• 目的
• 先决条件
• 安装
• 配置
o 配置文件
o 集群配置
配置Hadoop守护进程的运行环境
配置Hadoop守护进程的运行参数
Slaves
日志
• Hadoop的机架感知
• 启动Hadoop
• 停止Hadoop
剩余113页未读,继续阅读


















anotherLillian
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制

评论9