Hadoop运行模式与配置详解

需积分: 12 195 浏览量更新于2024-07-20 收藏 423KB DOC 举报

"这是关于Hadoop集群配置和运行模式的学习资料，由林健昌分享。" 在深入探讨Hadoop集群的运行模式和配置之前，我们首先理解Hadoop是Apache开源项目，是一个分布式文件系统，旨在处理和存储大规模数据。这份资料详细介绍了Hadoop集群的三种运行模式：单机模式、伪分布式模式和完全分布式模式。 1. 单机（本地）模式：这种模式适合开发人员在本地开发MapReduce程序，所有的组件都在同一个JVM进程中运行，使用本地文件系统而非HDFS。由于没有实际的分布式环境，它是最简单的模式，但不具备多节点协作的能力。 2. 伪分布式模式：适用于开发和测试环境，所有Hadoop守护进程（如NameNode、DataNode、TaskTracker等）在同一台机器的不同进程中运行。虽然模拟了分布式环境，但仍然受限于单一物理机的资源。 3. 完全分布式模式：这是生产环境常见的部署方式，由多台主机组成，每个主机上运行不同的守护进程，实现真正的分布式计算和存储。NameNode负责元数据管理，DataNode存储数据块，而TaskTracker执行计算任务。在配置Hadoop时，需要关注以下几点： - Namenode、Jobtracker和Tasktracker的端口设置是关键，确保通信正常进行。例如，Namenode的HTTP服务器通常监听50070端口，用于客户端访问；接收文件系统元数据信息的RPC端口是8020。Jobtracker的HTTP服务器和端口是50030，而Tasktracker的HTTP服务器和端口是50060。 - Hadoop的配置主要通过配置文件完成。早期版本中，核心配置包括hadoop-default.xml和hadoop-site.xml，但随着版本更新，这些文件已经不再使用。现在的配置文件有三个：core-site.xml、hdfs-site.xml和mapred-site.xml，它们分别用于设置Hadoop的基本参数、HDFS参数和MapReduce参数。 - core-site.xml中的重要参数包括fs.default.name，它定义了默认的NameNode地址，例如"hdfs://hostname:port"；还有hadoop.tmp.dir，这是一个临时目录，许多Hadoop组件的路径都会基于这个设置。 - hdfs-site.xml则包含HDFS相关的配置，如dfs.namenode.http-address（NameNode的HTTP服务地址）和dfs.datanode.data.dir（DataNode的数据存储位置）。 - mapred-site.xml则涉及MapReduce框架的配置，比如mapreduce.jobtracker.address（JobTracker的地址），这对于作业调度和任务分配至关重要。理解并正确配置这些参数对于优化Hadoop集群的性能和稳定性至关重要。通过灵活调整配置，可以根据硬件资源和应用需求来定制适合的集群环境。这份资料提供的信息对于学习和掌握Hadoop集群的管理和运维具有很高的价值。

灵活，方便共享源数据。

最后归纳一下 Hive 中表与外部表的区别：

1、在导入数据到外部表，数据并没有移动到自己的数据仓库目录下，也就是说外部表中的

数据并不是由它自己来管理的！而表则不一样；

2、在删除表的时候，Hive 将会把属于表的元数据和数据全部删掉；而删除外部表的时候，

Hive 仅仅删除外部表的元数据，数据是不会删除的！

那么，应该如何选择使用哪种表呢？在大多数情况没有太多的区别，因此选择只是个人喜

好的问题。但是作为一个经验，如果所有处理都需要由 Hive 完成，那么你应该创建表，否

则使用外部表！

14.Hbase 的 rowKey 怎么创建比较好？列簇怎么创建比较好？

答：rowKey 最好要创建有规则的 rowKey，即最好是有序的。HBase 中一张表最好只创建

一到两个列族比较好，因为 HBase 不能很好的处理多个列族。

HBase 是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase

很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。

既然 HBase 是采用 KeyValue 的列存储，那 Rowkey 就是 KeyValue 的 Key 了，表示唯一一行。

Rowkey 也是一段二进制码流，最大长度为 64KB，内容可以由使用的用户自定义。数据加

载时，一般也是根据 Rowkey 的二进制序由小到大进行的。

HBase 是根据 Rowkey 来进行检索的，系统通过找到某个 Rowkey (或者某个 Rowkey 范围)

所在的 Region，然后将查询数据的请求路由到该 Region 获取数据。HBase 的检索支持 3 种

方式：

（1）通过单个 Rowkey 访问，即按照某个 Rowkey 键值进行 get 操作，这样获取唯一一条

记录；

（2）通过 Rowkey 的 range 进行 scan，即通过设置 startRowKey 和 endRowKey，在这个范

围内进行扫描。这样可以按指定的条件获取一批记录；

（3）全表扫描，即直接扫描整张表中所有行记录。

HBASE 按单个 Rowkey 检索的效率是很高的，耗时在 1 毫秒以下，每秒钟可获取

1000~2000 条记录，不过非 key 列的查询很慢。

5.用 mapreduce 怎么处理数据倾斜问题

在 mapreduce 聚合 key 中所有 values 的时候，如果一个 key 对应了很多 values，就会产生数

据倾斜的问题。数据倾斜主要就是某个 key 下面对应的 value 太多，导致某个 reduce 节点执

行的数据过多，然后产生某个或者某几个 reduce 节点的执行效率过低，导致整个集群中的

任务执行效率较慢，可以使用 partion 对数据过多的节点进行再划分，划分成多个小的数据

块，输入到 reduce 进行处理。

16.hadoop 框架怎么来优化

答：hadoop 优化的范围太宽泛了，可以从某个方面具体来谈一谈，比如说 HBase 的

rowKey 和列族的创建的来进行数据存储的优化，可以从网络的拷贝对数据的优化，可以从

mapreduce 对数据的处理来谈优化，可以从参数方面来说优化等。

小文件问题，因为块现在默认为 64m，每个小文件都会占 64m

参数设置调优：

对于这些常用的参数设置，需要整体把握的一些主体思想：

（1）Reduce 个数设置：

A．如果 reduce 个数设置太小，单个 reducetask 执行速度很慢，这样出错重新调试的时间

花销就比较多。

B．如果怕 Reduce 个数设置太大，Shuffle 开销及调度开销很大，job 输出大量文件，影响

后续 Job 的执行。

C．推荐的 reduce 的个数。单个 reducetask 处理数据量介于 1~10G 之间，reduce 的个数要

少于 map 的个数。

（2）压缩中间数据，用 CPU 换磁盘和网络，设置 mapred.compress.map.output 设为 true

A．减少磁盘操作

B．减少网络传输数据量

17.hbase 内部机制是什么

答：内部机制更多的是借助 nosql 数据的关系模型，是建立的 hdfs 之上，提供高可靠性、

高性能、列存储、可伸缩、实时读写的数据库系统。

Zookeeper

1 保证任何时候，集群中只有一个 master

2 存贮所有 Region 的寻址入口。

3 实时监控 Region Server 的状态，将 Region server 的上线和下线信息实时通知给 Master

4 存储 Hbase 的 schema,包括有哪些 table，每个 table 有哪些 column family

Master

1 为 Region server 分配 region

2 负责 region server 的负载均衡

3 发现失效的 region server 并重新分配其上的 region

4 GFS 上的垃圾文件回收

5 处理 schema 更新请求

Region Server

1 Region server 维护 Master 分配给它的 region，处理对这些 region 的 IO 请求

2 Region server 负责切分在运行过程中变得过大的 region

可以看到，client 访问 hbase 上数据的过程并不需要 master 参与（寻址访问 zookeeper 和

region server，数据读写访问 regione server）， master 仅仅维护者 table 和 region 的元数据

信息，负载很低。

http://blog.csdn.net/christophe2008/article/details/7209396

18.我们在开发分布式计算 job 的时候，是否可以去掉 reduce 阶段

答：可以，例如我们的集群就是为了存储文件而设计的，不涉及到数据的计算，就可以将

mapReduce 都省掉。

20.mapreduce 的调度模式

答：公平调度模式和容量调度模式

调度器类型的配置是在 mapred-site.xml 文件中，将 mapred.jobtracker.taskscheduler 参数设置

为我们想要使用的调度器的类名

开发公平调度器的目的是解决 FIFO 调取器在大流量多用户环境中所滋生的一些问题

计算能力调度器（Capacity Scheduler）

<name>mapred.jobtracker.taskScheduler</name>

<value>org.apache.hadoop.mapred.CapacityTaskScheduler</value>

剩余35页未读，继续阅读

cs1049281836

粉丝: 0
资源: 11

Hadoop运行模式与配置详解

Jack更新版谷歌拼音安卓输入法词库下载与使用指南

全栈开发经验分享：QT实现的blackjack项目教程

2012年经典Java制作的BlackJack游戏回顾

ext学习资料，值得学习

sqoop 学习资料

spark学习资料

IT学习资料

python学习资料

scala学习资料

hive学习资料

最新资源