Hadoop学习笔记:分布式存储与计算组件详解

需积分: 0 0 下载量 64 浏览量 更新于2024-06-29 1 收藏 61KB DOCX 举报
Hadoop学习笔记主要涵盖了Hadoop技术的基础概念、核心组件、工作原理、安装配置以及资源管理等内容。以下是详细的解释: 1. **基本思想**: Hadoop是一种开源的大数据处理框架,其核心理念是实现大规模数据集的分布式处理和存储。通过将单个任务或数据切分成多个小部分,分别在集群的不同节点上并行执行,提高计算效率和容错能力。 2. **分布式存储**: Hadoop使用Hadoop Distributed File System (HDFS)来存储数据。HDFS将数据分成固定大小的块,并将这些块复制到集群的不同节点上,通过NameNode(主节点)和DataNode(数据节点)进行管理和访问。这种设计确保了数据的冗余性和高可用性。 3. **Hadoop版本与组件**: 学习笔记提到的是Hadoop 2.7.6版本,该版本包含以下几个关键组件: - **HDFS**:负责数据存储,主要包括NameNode(存储元数据)和DataNode(存储实际数据块)。 - **MapReduce**:分布式计算模型,用于处理大量数据。它由ApplicationMaster(任务调度器)和Worker(Task)组成。 - **YARN**:在Hadoop 1.X版本中,MapReduce与YARN(Yet Another Resource Negotiator)合并,但在2.7.6版本中分离,YARN主要负责资源管理和调度。 4. **资源调度**: 在分布式计算中,YARN负责根据任务需求分配CPU、内存和网络带宽等资源,确保每个任务在合适的节点上运行。Nodemanager是YARN的主要组件,负责监控和管理节点上的容器。 5. **Hadoop安装步骤**: - 首先,确保三台虚拟机具备Java环境,包括设置主机名和IP地址。 - 通过SSH进行验证,确认主机名映射正确,如有问题检查`/etc/hosts`配置。 - 设置SSH免密登录,通过`ssh-keygen`生成公钥并分发到各个节点。 - 将Hadoop压缩包上传至服务器并解压至指定目录,如`/usr/local/soft/`。 6. **文件目录结构**: 安装过程中涉及到了`bin`目录,这是Hadoop工具的可执行文件所在,对于系统管理和操作至关重要。 Hadoop学习笔记强调了分布式存储和计算的核心概念,以及如何在实际环境中搭建和配置Hadoop集群,包括基础架构、资源管理和安装流程。掌握这些知识点有助于理解和应用Hadoop处理大数据。