Hadoop集群运行模式详解与配置要点

jack20170105

需积分: 9 59 浏览量更新于2024-07-20 收藏 718KB DOC 举报

本文档主要介绍了Hadoop集群的三种运行模式及其注意事项，分别为单机（本地）模式、伪分布式模式和完全分布式模式。在Hadoop的世界里，理解这些模式对于有效地部署和管理集群至关重要。首先，单机（本地）模式是Hadoop开发过程中的基本用例，由于所有组件都在单个JVM中运行，不涉及分布式文件系统（DFS），而是利用本地文件系统，适合于快速开发和测试MapReduce程序。然而，这种方式只在最小规模的环境中使用，且不具备生产环境的高可用性。伪分布式模式是为开发和测试阶段设计的，所有守护进程，如NameNode、JobTracker和TaskTracker，都运行在同一台机器上。这种模式提供了类似集群的体验，但仍然在单一硬件上执行，有助于开发者熟悉各个组件的工作方式。完全分布式模式是Hadoop在生产环境中的典型部署，它涉及到多台主机构成的集群，每台主机分别运行特定的守护进程，如Namenode（管理元数据）、JobTracker（协调任务）和TaskTracker（执行实际计算）。在这种模式下，主节点和从节点分离，确保了高可用性和负载均衡。文档还提到了各守护进程的默认端口号，如Namenode的HTTP服务器和RPC端口（50070和8020）、JobTracker的HTTP端口（50030）、以及TaskTracker和DataNode的HTTP和数据传输端口。这些端口对于客户端与集群的交互至关重要。 Hadoop的核心配置以前通过hadoop-default.xml和hadoop-site.xml两个XML文件管理，但现在这些文件已被新的配置文件体系取代。现在，Hadoop的配置主要包括三个文件：core-site.xml（定义全局配置，如文件系统命名和临时目录）、hdfs-site.xml（针对HDFS的配置，如NameNode和DataNode的位置）以及mapred-site.xml（MapReduce配置，如任务调度策略）。核心配置文件的核心参数包括fs.default.name（指定NameNode的URI），以及hadoop.tmp.dir（临时目录设置，对HDFS和其他功能有重要影响）。在实际操作中，需要根据集群的具体需求和环境调整这些配置项。了解和掌握Hadoop的不同运行模式以及其配置细节是确保Hadoop集群稳定高效的关键。在开发和部署过程中，根据项目的实际需求选择合适的模式，并配置正确的参数，将有助于提升系统的性能和可靠性。

不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，

而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加

灵活，方便共享源数据。

最后归纳一下 Hive 中表与外部表的区别：

1、在导入数据到外部表，数据并没有移动到自己的数据仓库目录下，也就是说外部表中的

数据并不是由它自己来管理的！而内部表则不一样；

2、在删除表的时候，Hive 将会把属于表的元数据和数据全部删掉；而删除外部表的时候，

Hive 仅仅删除外部表的元数据，数据是不会删除的！

那么，应该如何选择使用哪种表呢？在大多数情况没有太多的区别，因此选择只是个人喜

好的问题。但是作为一个经验，如果所有处理都需要由 Hive 完成，那么你应该创建内部表，

否则使用外部表！

14.Hbase 的 rowKey 怎么创建比较好？列簇怎么创建比较好？

答：rowKey 最好要创建有规则的 rowKey，即最好是有序的。HBase 中一张表最好只创建

一到两个列族比较好，因为 HBase 不能很好的处理多个列族。

HBase 是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase

很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式。

既然 HBase 是采用 KeyValue 的列存储，那 Rowkey 就是 KeyValue 的 Key 了，表示唯一一行。

Rowkey 也是一段二进制码流，最大长度为 64KB，内容可以由使用的用户自定义。数据加

载时，一般也是根据 Rowkey 的二进制序由小到大进行的。

HBase 是根据 Rowkey 来进行检索的，系统通过找到某个 Rowkey (或者某个 Rowkey 范围)

所在的 Region，然后将查询数据的请求路由到该 Region 获取数据。HBase 的检索支持 3 种

方式：

（1）通过单个 Rowkey 访问，即按照某个 Rowkey 键值进行 get 操作，这样获取唯一一条

记录；

（2）通过 Rowkey 的 range 进行 scan，即通过设置 startRowKey 和 endRowKey，在这个范

围内进行扫描。这样可以按指定的条件获取一批记录；

（3）全表扫描，即直接扫描整张表中所有行记录。

HBASE 按单个 Rowkey 检索的效率是很高的，耗时在 1 毫秒以下，每秒钟可获取

1000~2000 条记录，不过非 key 列的查询很慢。

http://blog.csdn.net/silentwolfyh/article/details/51620724

5.用 mapreduce 怎么处理数据倾斜问题

在 mapreduce 聚合 key 中所有 values 的时候，如果一个 key 对应了很多 values，就会产生数

据倾斜的问题。数据倾斜主要就是某个 key 下面对应的 value 太多，导致某个 reduce 节点执

行的数据过多，然后产生某个或者某几个 reduce 节点的执行效率过低，导致整个集群中的

任务执行效率较慢，可以使用 partion 对数据过多的节点进行再划分，划分成多个小的数据

块，输入到 reduce 进行处理。

http://m.blog.csdn.net/article/details?id=32188615

16.hadoop 框架怎么来优化

答： hadoop 优化的范围太宽泛了，可以从某个方面具体来谈一谈，比如说 HBase 的

rowKey 和列族的创建的来进行数据存储的优化，可以从网络的拷贝对数据的优化，可以从

mapreduce 对数据的处理来谈优化，可以从参数方面来说优化等。

小文件问题，因为块现在默认为 64m，每个小文件都会占 64m

参数设置调优：

对于这些常用的参数设置，需要整体把握的一些主体思想：

（1）Reduce 个数设置：

A．如果 reduce 个数设置太小，单个 reducetask 执行速度很慢，这样出错重新调试的时间

花销就比较多。

B．如果怕 Reduce 个数设置太大，Shuffle 开销及调度开销很大，job 输出大量文件，影响

后续 Job 的执行。

C．推荐的 reduce 的个数。单个 reducetask 处理数据量介于 1~10G 之间，reduce 的个数要

少于 map 的个数。

（2）压缩中间数据，用 CPU 换磁盘和网络，设置 mapred.compress.map.output 设为 true

A．减少磁盘操作

B．减少网络传输数据量

17.hbase 内部机制是什么

答：内部机制更多的是借助 nosql 数据的关系模型，是建立的 hdfs 之上，提供高可靠性、

高性能、列存储、可伸缩、实时读写的数据库系统。

Zookeeper

1 保证任何时候，集群中只有一个 master

2 存贮所有 Region 的寻址入口。

3 实时监控 Region Server 的状态，将 Region server 的上线和下线信息实时通知给 Master

4 存储 Hbase 的 schema,包括有哪些 table，每个 table 有哪些 column family

Master

1 为 Region server 分配 region

2 负责 region server 的负载均衡

3 发现失效的 region server 并重新分配其上的 region

4 GFS 上的垃圾文件回收

5 处理 schema 更新请求

Region Server

1 Region server 维护 Master 分配给它的 region，处理对这些 region 的 IO 请求

2 Region server 负责切分在运行过程中变得过大的 region

可以看到，client 访问 hbase 上数据的过程并不需要 master 参与（寻址访问 zookeeper 和

region server，数据读写访问 regione server）， master 仅仅维护者 table 和 region 的元数据

信息，负载很低。

http://blog.csdn.net/christophe2008/article/details/7209396

18.我们在开发分布式计算 job 的时候，是否可以去掉 reduce 阶段

答：可以，例如我们的集群就是为了存储文件而设计的，不涉及到数据的计算，就可以将

mapReduce 都省掉。

20.mapreduce 的调度模式

答：公平调度模式和容量调度模式

调度器类型的配置是在 mapred-site.xml 文件中，将 mapred.jobtracker.taskscheduler 参数设置

剩余36页未读，继续阅读

cs1049281836

粉丝: 0
资源: 11

Hadoop集群运行模式详解与配置要点

Jack 2.04桥牌

四年级英语上册 Lesson12 John and Jack教案 冀教版.doc

高考英语语法专练.doc动词的时态和语态练习题.doc

四年级英语上册《Lesson 12 John and Jack》教案 冀教版.doc

四年级英语上册 John and Jack教案 （新版）冀教版.doc

jack老师：新常态下互联网思维与房地产营销创新.doc

6.javaBean.doc

四年级英语上册 Lesson 12 John and Jack 教案 （新版）冀教版.doc

datatables.doc.chm

16.深克隆.doc

最新资源

四年级英语上册 Lesson12 John and Jack教案冀教版.doc

四年级英语上册《Lesson 12 John and Jack》教案冀教版.doc

四年级英语上册 John and Jack教案（新版）冀教版.doc

四年级英语上册 Lesson 12 John and Jack 教案（新版）冀教版.doc