没有合适的资源?快使用搜索试试~ 我知道了~
首页Hadoop与Spark集群部署实例.pdf
Hadoop与Spark集群部署实例.pdf
需积分: 1 143 浏览量
更新于2023-05-23
评论
收藏 669KB PDF 举报
该文档是本人之前在搭建分布式系统时,记录的文档,文档不仅有Hadoop和Spark的环境搭建流程,而且还有分布式运行实例代码,对于初学者来说非常有用,建议看一下。对应的博客教程请查看https://blog.csdn.net/havefun00/article/details/78933723
资源详情
资源评论
资源推荐

分布式集群搭建和测试
一、数据集
数据集主要采用的是从美国国家气候数据中心(NCDC)官网下载的美国自 1901 年
至今气象数据,这些数据按行并以 ASCII 格式存储,其中每一行是一条记录。该
存储格式支持丰富的气象要素,其中许多要素可以选择性地列入收集范围或其数
据所需的存储长度是可变的。下面是数据记录格式说明
接下来的实验中只选取了 2010 年的数据作为试验数据,数据大小为 111M,同时
只考虑大气温度这一要素进行试验,注意:原始数据中温度值都放大了 10 倍。
二、Hadoop 集群搭建
1、主要目的是搭建由 3 台计算机组成的集群系统,因此分析一下网络的拓扑结
构。

2、下面准备搭建集群系统,首先分析一下各节点的角色,下表列出了每个计算
节点机器在集群中的角色。
此次使用的三台主机均为 Ubuntu16.04 系统,主机名称分别为 cloud8,cloud9,
cloud10 对应 Master,Slave1,Slave2。所需安装的软件有 SSH,ZooKeeper,
JAVA,Hadoop,下面开始介绍在单台主机上安装这些软件,其他两台主机安装过
程大致相同。
3、SSH 安装:进入根用户,在命令框中输入命令 apt-get install ssh,然后
安装提示即可成功安装 SSH,SSH 的主要功能是提供主机间的远程登录,这有助
于 Master 对 Slave 的操纵,安装完成后,将 service ssh start 命令添加到
当前用户的环境变量文件中,这样以后当根用户登录系统之后 SSH 服务就会启
动。下面输入命令 ssh-keygen –t rsa –P “”用于生成远程登录的公钥,
之后将~/.ssh/id_rsa.pub 文件中的内用添加到三台机器的
~/.ssh/authorized_keys 文件中,这样做就能使三台主机之间远程登录了。
4、将下载好的 JAVA,Zookeeper,Hadoop 压缩包解压到/usr 文件夹下,然后
在在~/.bashrc 中添加环境变量:
Master
Slave1
Slave2

export JAVA_HOME=/usr/jdk
export PATH=$PATH:$JAVA_HOME/bin
export ZOOKEEPER_HOME=/usr/zookeeper
export PATH=$PATH:$ZOOKEEPER_HOME/bin
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
修改 Zookeeper 配置文件/usr/zookeeper/conf/zoo.cfg
#数据存储目录修改为:
dataDir=/root/zookeeper/tmp
#在最后添加 Zkserver 配置信息:
server.1=cloud8:2888:3888
server.2=cloud9:2888:3888
server.3=cloud10:2888:3888
设置本机 Zookeeper 的 id 值,echo 1 > ~/zookeeper/tmp/myid(Master 设置
为 1,Slave 机设置为 2,3)
5、配置 Hadoop:修改文件/usr/hadoop/etc/hadoop/hadoop-env.sh,将
JAVA_HOME 设置为/usr/jdk,修改核心配置文件/usr/hadoop/etc/hadoop/core-
site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://ns1</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/tmp</value>
</property>
<property>
<name>ha.zookeeper.quorum</name>
<value>cloud8:2181,cloud9:2181,cloud10:2181</value>
</property>
修改 HDFS 配置文件(/usr/hadoop/etc/hadoop/hdfs-site.xml):
<property>
<name>dfs.nameservices</name>
<value>ns1</value>
</property>
剩余10页未读,继续阅读


















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0