Hadoop学习笔记:分布式存储与计算组件详解
需积分: 0 64 浏览量
更新于2024-06-29
1
收藏 61KB DOCX 举报
Hadoop学习笔记主要涵盖了Hadoop技术的基础概念、核心组件、工作原理、安装配置以及资源管理等内容。以下是详细的解释:
1. **基本思想**:
Hadoop是一种开源的大数据处理框架,其核心理念是实现大规模数据集的分布式处理和存储。通过将单个任务或数据切分成多个小部分,分别在集群的不同节点上并行执行,提高计算效率和容错能力。
2. **分布式存储**:
Hadoop使用Hadoop Distributed File System (HDFS)来存储数据。HDFS将数据分成固定大小的块,并将这些块复制到集群的不同节点上,通过NameNode(主节点)和DataNode(数据节点)进行管理和访问。这种设计确保了数据的冗余性和高可用性。
3. **Hadoop版本与组件**:
学习笔记提到的是Hadoop 2.7.6版本,该版本包含以下几个关键组件:
- **HDFS**:负责数据存储,主要包括NameNode(存储元数据)和DataNode(存储实际数据块)。
- **MapReduce**:分布式计算模型,用于处理大量数据。它由ApplicationMaster(任务调度器)和Worker(Task)组成。
- **YARN**:在Hadoop 1.X版本中,MapReduce与YARN(Yet Another Resource Negotiator)合并,但在2.7.6版本中分离,YARN主要负责资源管理和调度。
4. **资源调度**:
在分布式计算中,YARN负责根据任务需求分配CPU、内存和网络带宽等资源,确保每个任务在合适的节点上运行。Nodemanager是YARN的主要组件,负责监控和管理节点上的容器。
5. **Hadoop安装步骤**:
- 首先,确保三台虚拟机具备Java环境,包括设置主机名和IP地址。
- 通过SSH进行验证,确认主机名映射正确,如有问题检查`/etc/hosts`配置。
- 设置SSH免密登录,通过`ssh-keygen`生成公钥并分发到各个节点。
- 将Hadoop压缩包上传至服务器并解压至指定目录,如`/usr/local/soft/`。
6. **文件目录结构**:
安装过程中涉及到了`bin`目录,这是Hadoop工具的可执行文件所在,对于系统管理和操作至关重要。
Hadoop学习笔记强调了分布式存储和计算的核心概念,以及如何在实际环境中搭建和配置Hadoop集群,包括基础架构、资源管理和安装流程。掌握这些知识点有助于理解和应用Hadoop处理大数据。
2021-03-02 上传
2013-11-07 上传
2017-10-25 上传
2010-03-30 上传
2023-09-22 上传
2024-11-09 上传
2024-11-09 上传
2024-11-09 上传
张天靖09
- 粉丝: 2
- 资源: 1
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章