大数据技术梳理：Hadoop Shuffle、Spark Shuffle与Hive、HBase优化

需积分: 0 127 浏览量更新于2024-06-30 收藏 6.91MB DOCX 举报

"该项目笔记涵盖了多个IT领域的知识点，包括大数据处理框架Hadoop、Spark、Hive和HBase，以及数据库理论、Zookeeper和Kafka。此外，还涉及到数据倾斜问题和消息队列MQ的基本概念。笔记中通过两个实际问题展示了SQL查询和Kafka的offset管理。" 1. Hadoop的Shuffle过程：在Hadoop MapReduce中，Shuffle阶段发生在Map任务和Reduce任务之间。首先，MapTask将处理后的数据暂存到内存缓冲区，当缓冲区满到一定阈值时，数据会被溢写到磁盘。在溢写过程中，会进行局部排序和合并（merge），确保相同分区的数据在一起，以便于Reduce任务的处理。 2. Spark的Shuffle流程： Spark的Shuffle操作与Hadoop类似，但在内存管理上有所不同。它使用HashPartitioner或RangePartitioner来决定数据如何在Executor之间分布。数据首先在Executor内存中进行排序，然后写入磁盘并生成临时文件。在Reduce阶段，数据被拉取并再次排序，以满足聚合或连接等操作的需求。 3. Spark on YARN的作业提交流程：当Spark运行在YARN上时，客户端首先提交作业到YARN资源管理器，资源管理器为作业分配Container，并启动ApplicationMaster。ApplicationMaster负责任务调度和资源申请，协调数据计算。 4. Spark的任务调度流程： Spark的任务调度主要包括DAGScheduler和TaskScheduler两部分。DAGScheduler将应用拆分为Stage，每个Stage是一系列可以并行执行的任务集。TaskScheduler则将Stage进一步拆分成任务，分配给Executor执行。 5. Hive调优： Hive优化主要关注查询计划、元数据、执行引擎等方面。例如，使用合适的JOIN类型，避免全表扫描，合理使用PARTITION、SORT BY、CLUSTER BY和DISTRIBUTE BY等语句来优化数据分布和查询效率。 6. Hive的架构及角色功能： Hive由Metastore、Driver、Compiler、Execution Engine和Storage Handler等组件构成。Metastore存储元数据，Driver解析和编译SQL，Compiler生成执行计划，Execution Engine执行计划，Storage Handler处理数据的读写。 7. HBase的架构及角色功能： HBase是分布式列式存储系统，基于HDFS。其核心组件包括Master、RegionServer和Zookeeper。Master负责 Region 的分配和监控，RegionServer存储数据并处理用户请求，Zookeeper用于集群的协调和故障恢复。 8. 数据倾斜问题与解决方案：数据倾斜是指数据在节点间不均匀分布，导致某些节点负载过高。解决方案包括调整分区策略、使用更复杂的哈希函数、手动负载均衡或数据预处理等。 9. Zookeeper的节点类型： Zookeeper节点分为持久节点、临时节点、有序节点和顺序持久节点，分别对应不同的生存时间和顺序标识。 10. Kafka的offset管理： Kafka的offset信息存储在Zookeeper中，基于Group进行管理，而不是每个Consumer。这样，即使Consumer失败，其他Consumer可以从Group的最新offset处继续消费，保证消息的连续性。 11. Kafka的分区分配策略：分区分配策略包括轮询（Round Robin）和范围（Range）。轮询是简单地按顺序分配，而范围根据Consumer的数量将分区均匀分配。 12. 消息队列MQ的基本概念： MQ是消息传递中间件，用于解耦应用系统，提供消息的可靠传输。它通常包含消息发送、接收、存储和消费等功能，支持事务、持久化和多种协议。 13. SQL查询示例： - Question1: 使用COUNT(DISTINCT UserId)统计每天登录的唯一用户数（UV），COUNT(Login)统计登录总次数，按照日期升序排列。 ``` SELECT DATE(ActioinTime) AS '日期', COUNT(DISTINCT UserId) AS 'UV', COUNT(Login) AS '登录总次数' FROM User_Actioninfo WHERE ActionTime BETWEEN '2011-11-01' AND '2011-11-24' GROUP BY DATE(ActioinTime) ORDER BY '日期'; ``` - Question2: 统计一个月内用户发送消息的频次分布，按消息次数升序排序。 ``` SELECT COUNT(*) AS '用户数量', SUM(CASE WHEN SendMessage = 1 THEN 1 ELSE 0 END) AS '消息次数' FROM User_Actioninfo WHERE ActioinTime BETWEEN DATE_SUB(CURDATE(), INTERVAL 1 MONTH) AND CURDATE() GROUP BY SendMessage ORDER BY '消息次数'; ``` 以上内容详细介绍了Hadoop、Spark、Hive、HBase、Zookeeper、Kafka以及MQ等相关技术的关键概念和应用场景，并结合实际问题展示了SQL查询和Kafka offset管理的实践。

15. sqoop

15.1 关系型数据库和 HBase 之间导数据

15.2 批量导入

15.3 sqoop 支持的比较少，DataX 支持的多

16. spark

二、 propaedutics

1. 大数据平台的数据绝大多数来源于日志数据，而绝大多数的大数据框架解决

的问题是日志数据的采集、清洗、存储和分析

1.1 日志数据不仅包括登录日志，还包括行为日志，比如用户点击了一个商

品，都会被记录下来

1.2 埋点

1.2.1 点击某链接则会生成相应日志信息，则这个链接称为埋点

2. 数据仓库

2.1 数据仓库是为了给公司所有部门提供统一的数据出口，可以把所有系统

的数据放到数据仓库系统

2.1.1 建立一套完善的数据仓库系统后，所有部门的数据都可以以统一的规

范存，所有部门的数据统一处理，获取的结果是综合了所有部门的数据

2.2 数据仓库的使用架构

2.2.1 ODS，将各部门的的数据源原样放到 ODS 层进行表重建，表名，列

类型都不变

2.2.2 DWD，

{1} 针对 ODS 层的数据进行 ETL，去敏，归一化

{2} 完成维度建模，创建维度表和实时表

2.2.3 DWS 轻度聚合，按照不同的粒度，比如日粒度、周粒度进行轻度汇

总，初步处理

2.2.4 DM

剩余47页未读，继续阅读

咖啡碎冰冰

粉丝: 18
资源: 292

大数据技术梳理：Hadoop Shuffle、Spark Shuffle与Hive、HBase优化

项目记录1

项目学习笔记

项目管理笔记

黑马头条项目笔记黑马头条项目笔记

缘梦项目笔记 csdn

云笔记项目springboot

springboot云笔记项目概述

springboot项目实战笔记

python项目实战之在线笔记管理系统

牛客网c++服务器项目笔记

最新资源