大数据资源宝典：Hadoop与CDH详解及面试精华

需积分: 9 17 浏览量更新于2024-07-18 收藏 2.24MB DOCX 举报

大数据资源宝典是一份深入解析大数据概念和技术的指南，它强调了大数据的定义，即海量、高增长率和多样化的信息资产，需要新的处理模式来挖掘其价值。大数据的特点被概括为5V，包括Volume（大量）、Velocity（高速）、Variety（多样）、Value（低价值密度）以及Veracity（真实性）。在这个领域，Hadoop是一个核心组件，尤其是Hadoop生态系统，如CDH（Cloudera Distribution Including Apache Hadoop）版本，其中CDH3对应Hadoop 1.0，而CDH4对应Hadoop 2.0。在Hadoop的使用中，如Hadoop-2.7.2-cdh4.1.2版本，涉及到了HDFS（Hadoop Distributed File System）的操作。写入数据时，客户端首先与NameNode交互，确认文件不存在和路径权限，然后获取数据块分配的Datanode列表。客户端通过FSDataOutputStream与Datanode建立多级数据分发通道，将数据按包发送，同时保持应答机制。读取数据则通过NameNode查找文件块位置，选择最近或随机的Datanode读取数据，并将其传输至客户端。在集群环境中，磁盘I/O通常是性能瓶颈，因为尽管现代硬件如固态硬盘的读速可达1Gbps，但写入速度通常远低于此，这在数据的读写操作中成为显著的制约因素。此外，CPU和内存处理速度相对于磁盘I/O来说相对较快，所以优化数据存储和I/O操作对于提升大数据处理效率至关重要。其他技术如Hive（用于数据仓库和数据提取转换加载作业）、Flume（数据收集系统）、Kafka（实时消息传递系统）以及MySQL等关系型数据库，在大数据场景下也有着广泛应用，它们各自承担着数据处理的不同环节，如数据存储、实时处理和数据管理等。大数据资源宝典涵盖了从概念理解、技术架构到实际操作的方方面面，帮助读者深入了解如何在实际项目中有效利用大数据，解决复杂的数据问题。

 监控集群中的 Region server 的工作状态。（通过监听 zookeeper 对于

ephemeral node 状态的通知）。

 管理数据库

 提供创建，删除或者更新表格的接口。

ZooKeeper

HBase 利用 ZooKeeper 维护集群中服务器的状态并协调分布式系统的工作。ZooKeeper

维护服务器是否存活，是否可访问的状态并提供服务器故障/宕机的通知。ZooKeeper 同时

还使用一致性算法来保证服务器之间的同步。同时也负责 Master 选举的工作。需要注意的

是要保证良好的一致性及顺利的 Master 选举，集群中的服务器数目必须是奇数。例如三台

或五台。

HBase 各组成部分之间的合作

ZooKeeper 用来协调分布式系统的成员之间共享的状态信息。Region Server 及 HMaster

也与 ZooKeeper 连接。ZooKeeper 通过心跳信息为活跃的连接维持相应的 ephemeral

node

每一个 Region server 都在 ZooKeeper 中创建相应的 ephemeral node。HMaster 通过监控

这些 ephemeral node 的状态来发现正常工作的或发生故障下线的 Region

server。HMaster 之间通过互相竞争创建 ephemeral node 进行 Master 选举。ZooKeeper

会选出区中第一个创建成功的作为唯一一个活跃的 HMaster。活跃的 HMaster 向

ZooKeeper 发送心跳信息来表明自己在线的状态。不活跃的 HMaster 则监听活跃 HMaster

的状态，并在活跃 HMaster 发生故障下线之后重新选举，从而实现了 HBase 的高可用性。

如果 Region server 或者 HMaster 不能成功向 ZooKeeper 发送心跳信息，则其与

ZooKeeper 的连接超时之后与之相应的 ephemeral node 就会被删除。监听 ZooKeeper 状

态的其他节点就会得到相应 node 不存在的信息，从而进行相应的处理。活跃的 HMaster

监听 Region Server 的信息，并在其下线后重新分配 Region server 来恢复相应的服务。不

活跃的 HMaster 监听活跃 HMaster 的信息，并在起下线后重新选出活跃的 HMaster 进行服

务

优点

 强一致性模型

 当一个写操作得到确认时，所有的用户都将读到同一个值。

 可靠的自动扩展

Rowkey 唯一原则

必须在设计上保证其唯一性。

1.7.4hbase 怎么做表设计，调节过什么参数

、列族的数量及列族的势

建议将 )/ 列族的数量设置的越少越好。当强，对于两个或两个以上的列族 )/ 并不

能处理的很好。这是由于 )/ 的 6 和压缩是基于 7 的。当一个列族所存储的

数据达到 6 的阈值时，该表中所有列族将同时进行 6 操作。这将带来不必要的

8, 开销，列族越多，该特性带来的影响越大。

此外，还要考虑到同一个表中不同列族所存储的记录数量的差别，即列族的势

"!#。当两个列族数量差别过大时会使包含记录数量较少列族的数据分散在多个

7 上，而 7 有可能存储在不同的 7  上。这样，当进行查询或  操作

的时候，系统效率将会受到影响。

$、行键"791#的设计

首先应该避免使用时序或单调"递减递增#行键。因为当数据到来的时候，)/ 首先需要

根据记录的行键来确定存储的位置，即 7 的位置，如果使用时序或单调行键，那么连

续到来的数据将被分配到同一个 7 中，而此时系统的其他 77  处于空

闲状态，这是分布式最不希望看到的状态。

、尽量最小化行键和列族的大小

在 )/ 中，一个具体的值由存储该值的行键、对应的列"列族：列#以及该值的时间戳决定。

)/ 中索引是为了加速随即访问的速度，索引的创建是基于“行键:列族：列:时间戳:值”

的，如果行键和列族的大小过大，甚至超过值本身的大小，纳闷将会增加索引的大小。并

且在 )/ 中数据记录往往非常之多，重复的行键、列将不但使索引的大小过大，也将加

重系统的负担

.、版本的数量

默认情况下为  个，可以通过 )!'% 进行设置，建议不要设置的过大

参数调优

1. hbase.regionserver.handler.count 定义了响应外部用户访问数据表请求的线程数。默

认值 10，较大的写入和使用较大缓存的扫描，设的小；单次请求开销较小的时候，设的大

2. hle.block.cache.size

。默认值

0.2

，越大越好

4. hbase.regionserver.global.memstore.size(

默认

HEAP_SIZE*0.4)

5. hbase.regionserver.global.memstore.size.lower.limit

…

1.1. hbase 与 mysql 的区别

$.

 的优点：

列的可以动态增加，并且列为空就不能存储数据，节省存储空间

剩余63页未读，继续阅读

BigDataer_DK

粉丝: 4
资源: 1

大数据资源宝典：Hadoop与CDH详解及面试精华

数据库宝典

JS数据宝典JS数据宝典

大数据面试宝典

程序员大数据面试宝典

大数据面试宝典.rar

大数据面试宝典 .docx

大数据面试宝典+简历模板

大数据开发宝典进阶版.zip

2022最新大数据面试宝典.pdf

2021最新最全大数据面试宝典-有答案

最新资源