Hadoop入门：概念、原理与上机实践

版权申诉

155 浏览量更新于2024-06-28 收藏 1.12MB DOCX 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

"Hadoop的详细介绍和上机操作步骤.docx" Hadoop是一个开源的分布式计算框架，由Apache基金会开发，旨在处理和存储大规模数据集。它受到了Google的三篇关键技术论文的启发，包括Google文件系统（GFS）、MapReduce和BigTable。Hadoop的核心组件包括Hadoop分布式文件系统（HDFS）和MapReduce计算模型。 Hadoop简述： HDFS是GFS的开源实现，它是一个高度容错性的分布式文件系统，设计用于运行在普通硬件上，能够存储和处理PB级别的数据。HDFS通过数据块复制来保证数据的可靠性，即使部分节点故障也能保证数据的可用性。数据块通常设置为128MB或256MB大小，并在集群的不同节点上复制多次。 MapReduce是Google MapReduce的开源实现，它提供了一种编程模型，用于编写处理大规模数据集的应用程序。Map阶段将输入数据分割成键值对，并分配到集群的不同节点进行并行处理。Reduce阶段则将Map阶段的结果聚合起来，生成最终的输出。MapReduce在处理完成后，会将结果存储回HDFS。 HBase，灵感来源于BigTable，是一个基于Hadoop的数据存储系统，专为实时读写和随机访问大规模结构化数据而设计。与HDFS主要支持批处理不同，HBase适合在线事务处理（OLTP）场景。它是一个NoSQL数据库，提供列族存储、强一致性以及时间戳版本控制。 Hadoop生态系统还包括其他组件，如YARN（Yet Another Resource Negotiator），它是Hadoop的资源管理和调度器，负责管理集群的计算资源，为MapReduce和其他计算框架（如Spark）提供服务。此外，Hive是一个数据仓库工具，允许用户使用SQL-like查询语言（HQL）处理存储在Hadoop中的数据，而Pig则提供了一个高级语言（Pig Latin）用于分析大量数据。在上机操作中，你需要熟悉基本的Hadoop命令行工具，例如启动和停止Hadoop服务，检查HDFS的文件系统状态，以及执行MapReduce作业。对于MapReduce，你需要理解如何编写Mapper和Reducer类，以及如何定义输入输出格式。对于HBase，你需要掌握如何创建表，插入和查询数据，以及进行数据的扫描操作。学习Hadoop的目标是理解和掌握分布式计算的基本原理，以及如何在实际环境中部署和管理Hadoop集群。这包括了解数据分发策略、故障恢复机制、性能优化技巧，以及如何利用Hadoop处理复杂的数据分析任务。通过上机操作，你可以实践这些概念，从而深化对Hadoop的理解，并提升大数据处理能力。

资源详情

资源推荐

④ Secondary NameNode 与 Standby NameNode 并不冲突。Secondary

NameNode 是为了解决的是单个 NameNode 出现宕机时体现的容错性机制，而

Standby NameNode 解决的是在 HA 情况下，为 Active NameNode 提供的容错机制，

所以二者并不发生冲突，即高可靠性与高可用性的区别。

在 Active NameNode 失效之后，Standby NameNode 能够快速（几十秒的时

间）实现任务接管，因为最新的状态存储在内存中。

（4）创建检查点

① Secondary NameNode 请求主 NameNode 停止使用正在进行的 Edits 文

件，这样新的编辑操作就会记录到新的文件中，主 NameNode 还会更新所有存储

目录中的 seen_txid 文件。

② Secondary NameNode 通过 HTTP GET 获取 NameNode 上最近的 Fsimage

和 Edits 文件。

③ Secondary NameNode 将 Fsimage 文件载入内存，逐一执行 Edits 文件

中的事务，创建新的合并后的 Fsimage 文件。

④ Secondary NameNode 将新的 Fsimage 通过 HTTP PUT 发送回 NameNode，

NameNode 将其保存为临时的.ckpt 文件。

⑤ 主 NameNode 重新命名临时 Fsimage，以便日后使用。

2.4 Mapreduce

Hdfs 解决了数据存储的问题，然后就是计算。数据量大的情况下，可能存

在于不同节点，而 mapreduce 内部机制成功实现了移动计算，而不是移动数据，

大大提高计算效率，但是这些机制对开发者是透明的，也就是说，开发者并不需

要知道怎么写分布式程序，只要会写单机程序就可以实现分布式计算。

mapreduce 是由 N 个 mapper 和 M 个 reducer 两个阶段来共同完成的，由 N

个 mapper 接收客户端传来的数据并且有 M 个 reducer 整合 mapper 的输出，从而

实现“分而治之”的设计理念如图所示：

图 2

剩余15页未读，继续阅读

不吃鸳鸯锅

粉丝: 8431
资源: 2万+

Hadoop入门：概念、原理与上机实践

hadoop基本操作.docx

Hadoop详细安装配置过程.doc

hadoop安装（超详细）.docx

HADOOP_HOME and hadoop.home.dir are unset.

Hadoop中下载文件linux.docx

Exception in thread "main" org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExi

hadoop.zip和hadoop.tar.gz区别

idea中报错java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset. -see

idea运行代码提示HADOOP_HOME and hadoop.home.dir are unset.

本地spark连接服务器hive测试hadoop_home and hadoop.home.dir are unset 报错处理

虚拟机安装hadoop成功，idea运行代码提示java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.

java.lang.RuntimeException: java.io.FileNotFoundException: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.

Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched:

hadoop_home or hadoop.home.dir are not set.问题解决

kk@kk:/usr/local/hadoop1$ ./bin/hadoop version ERROR: Cannot execute /usr/local/hadoop/libexec/hadoop-config.sh.

Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.FunctionTask

错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.mrappmaster

cp /opt/hadoop/hadoop-0.20.2.tar.gz /usr/local/ tar –zxvf hadoop-0.20.2.tar.gz

org.apache.hadoop.hive.ql.metadata.hiveexception: java.lang.runtimeexception: unable to instantiate org.apache.hadoop.hive.ql.metadata.sessionhivemetastoreclient

最新资源