Hadoop入门学习：构建分布式计算与高可用架构

需积分: 10 189 浏览量更新于2024-07-17 收藏 1.04MB DOCX 举报

Hadoop阶段初识学习笔记主要介绍了Apache Hadoop的基本概念和核心特性，这是一个开源的分布式计算框架，由Doug Cutting和Mike Cafarella共同创建。Hadoop的核心理念是通过简单易用的编程模型来处理大规模数据集，其设计目标是能够无缝扩展到成千上万台计算机组成的集群，每台机器都负责部分计算和存储任务。首先，Hadoop官方网站（http://hadoop.apache.org/）提供了项目的详细介绍和下载资源。Hadoop的主要功能是实现高可用性和可扩展性，它不依赖单一硬件节点的可靠性，而是通过软件层面的设计来处理节点故障，确保服务的连续性。这意味着即使在某个节点出现故障时，Hadoop集群仍然能够继续运行，并能自动恢复数据处理任务。 Hadoop的核心组件包括Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一个分布式文件系统，用于存储大量数据，它将数据分散在多台机器上，提供高容错性和吞吐量。MapReduce则是一种编程模型，它将复杂的计算任务划分为多个独立的部分（映射阶段和规约阶段），分别在不同的节点上执行，最后将结果合并。学习Hadoop的第一天，你可以理解到Hadoop的优势在于其对大数据的高效处理能力和处理大规模并行计算的能力。通过Hadoop，开发者可以构建能够处理PB级别的数据的应用程序，而无需过多关注底层的复杂性。此外，Hadoop生态系统还包括其他工具如Hive（SQL查询接口）、Pig（高级数据流语言）和Spark（实时计算框架），它们进一步增强了Hadoop的功能和灵活性。 Hadoop阶段的学习将引导你步入一个强大的数据处理世界，让你掌握分布式计算的基础知识，以及如何利用Hadoop进行大数据的存储、处理和分析。这是一项必备技能，对于云计算、大数据分析和人工智能等领域都有广泛应用。

在 hadoop01 节点执行：

执行：ssh-keygen

然后一直回车



生成节点的公钥和私钥，生成的文件会自动放在/root/.ssh 目录下



然后把公钥发往远程机器，比如 hadoop01 向 hadoop02 发送

执行：ssh-copy-id root@hadoop01

此时，hadoop02 节点就是把收到的 hadoop 秘钥保存在

/root/.ssh/authorized_keys 这个文件里，这个文件相当于访问白名单，凡是

在此白明白存储的秘钥对应的机器，登录时都是免密码登录的。

当 hadoop01 再次通过 ssh 远程登录 hadoop02 时，发现不需要输入密码了。



在 hadoop02 节点执行上述上述步骤，让 hadoop02 节点连接 hadoop01 免密码登

录

4.配置自己节点登录的免密码登录

如果是单机的伪分布式环境，节点需要登录自己节点，即 hadoop01 要登录

hadoop01

剩余38页未读，继续阅读

迷茫的蚊子

粉丝: 1
资源: 9

Hadoop入门学习：构建分布式计算与高可用架构

Hadoop学习笔记

Hadoop 学习笔记.md

hadoop学习笔记.rar

初识hadoop之hadoop 安装

Spark学习笔记（一）Spark初识【特性、组成、应用】

Hive初识入门参考的笔记

Hadoop入门：初识Hadoop与MapReduce

Hadoop入门与集群搭建资源大合集

SL-ST 差速器3D模型 SL-ST 差速器

C#大型药品进销存管理系统源码数据库 Access源码类型 WinForm

最新资源