Hadoop入门与集群配置详解

需积分: 0 46 浏览量更新于2024-08-03 收藏 435KB PDF 举报

"这是关于Hadoop的知识点笔记，涵盖了Hadoop的核心组件、集群规划、安装步骤以及相关集群配置。" Hadoop作为一个开源的分布式计算框架，由Apache基金会开发，旨在处理和存储大规模数据集。它的核心组件包括HDFS（Hadoop Distributed File System）和YARN（Yet Another Resource Negotiator）。Hadoop的诞生可以追溯到其创始人Doug Cutting，他在2005年为应对海量数据处理而创建了这个项目。一、Hadoop组件 1. HDFS：Hadoop分布式文件系统是Hadoop的基础，它提供了一个高容错性的分布式存储机制。HDFS的主要组成部分包括： - NameNode：主节点，负责管理文件系统的命名空间和访问控制，存储文件的元数据。 - DataNode：工作节点，实际存储数据块，执行数据读写操作。 - SecondaryNameNode：辅助NameNode，定期合并NameNode的编辑日志，以防止NameNode的元数据文件过大。 2. YARN：作为资源调度器，YARN负责管理和分配集群中的计算资源。主要组件有： - NodeManager：每个节点上的守护进程，负责管理单个节点上的容器，执行应用程序的任务。 - ResourceManager：全局资源管理器，负责整个集群的资源分配和监控。 3. Hadoop MapReduce：Hadoop的分布式计算框架，主要包含两个阶段：Map阶段（数据拆分与并行处理）和Reduce阶段（聚合结果）。二、Hadoop安装与配置在安装Hadoop时，通常会遵循以下步骤： 1. 将Hadoop安装包上传到服务器的指定目录，如/opt/software。 2. 解压缩安装包到服务器的软件安装目录，如/opt/servers。 3. 配置环境变量，通过编辑/etc/profile文件，添加HADOOP_HOME路径，并更新PATH变量。 4. 使配置生效，执行`source /etc/profile`。 5. 检查Hadoop版本，运行`hadoop version`以确认安装成功。三、集群配置在集群环境中，还需要进行一系列配置，比如： 1. 修改Hadoop的配置文件，如hadoop-env.sh、core-site.xml、hdfs-site.xml、yarn-site.xml等，以适应集群环境。 2. 初始化HDFS，格式化NameNode。 3. 启动或停止Hadoop服务，如start-dfs.sh和start-yarn.sh。 4. 设置HDFS的副本数量、Block大小等参数，以优化性能和可靠性。在实际应用中，Hadoop被广泛应用于大数据处理、数据分析、日志分析等领域。理解并熟练掌握Hadoop的各个组件及其配置，对于构建和管理高效的大数据处理集群至关重要。

注意:

Hadoop安装目录所属用户和所属用户组信息，默认是501 dialout，而我们操作Hadoop集群的用

户使

用的是虚拟机的root用户，

所以为了避免出现信息混乱，修改Hadoop安装目录所属用户和用户组！！

四、分发脚本设置

编写集群分发脚本rsync-script

1. rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。

scp是把所有文件都复制过去。

2. 基本语法

选项功能

-r 递归

-v 显示复制过程

-l 拷贝符号连接

3. 基本功能

安装rsync

1. 三台虚拟机安装rsync (执行安装需要保证机器联网)

2. 把hadoop100机器上的/opt/software目录同步到hadoop102服务器的root用户下的/opt/目

录

集群分发脚本编写

在/usr/local/bin目录下创建文件rsync-script，文件内容如下：

<name>yarn.resourcemanager.hostname</name>

<value>hadoop102</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

chown -R root:root /opt/servers/hadoop-2.9.2

rsync -rvl $pdir/$fname $user@$host:$pdir/$fname

yum install rsync

rsync -rvl /opt/software/ root@hadoop101:$PWD

#!/bin/bash

#1 获取命令输入参数的个数，如果个数为0，直接退出命令

paramnum=$#

if((paramnum==0)); then

echo no params;

exit;

#2 根据传入参数获取文件名称

剩余12页未读，继续阅读

D3090785227

粉丝: 0
资源: 1

Hadoop入门与集群配置详解

大数据Hadoop学习笔记深度解析与就业指南

Hadoop学习笔记：分布式存储与计算组件详解

Hadoop学习笔记：掌握Java实现Hadoop编程

大数据知识点Hadoop详细笔记

hadoop集群安装笔记

hadoop的hdfs笔记

Hadoop云计算2.0笔记第一课Hadoop介绍

hadoop笔记

hadoop 笔记

Hadoop学习笔记

最新资源