Kudu：大数据存储引擎的快速分析与读写解决方案

134 浏览量更新于2024-08-27 收藏 890KB PDF 举报

"Kudu是一个大数据存储引擎，设计目标是同时支持随机读写和OLAP分析。它弥补了HDFS和HBase/Cassandra在特定场景下的不足。Kudu采用Master-Slave架构，由MasterServer负责集群管理和元数据，TabletServer负责数据存储和读写服务。表的数据被分割成Tablet，Tablet分布于TabletServer上。KuduMaster存储表的Schema信息，管理TabletServer并处理数据重新部署。Tablets内部由RowSets组成，包括MemRowSets和DiskRowSets，后者按列组织数据，便于分析查询。DiskRowSet的变更数据分为REDODeltaFiles和UNDODeltaFiles，用于记录更新和回滚操作。" Kudu是为了解决大数据处理中的实时分析需求而诞生的，它的核心特点在于同时支持在线事务处理(OLTP)和在线分析处理(OLAP)。在传统的Hadoop生态系统中，HDFS更适合批处理和离线分析，但不擅长实时查询。而像HBase这样的键值存储系统则优化了随机读写，但对复杂查询支持不足。Kudu通过其独特的架构设计，试图在这两者之间找到平衡。 Kudu的架构基于Master-Slave模型，其中MasterServer扮演着关键的角色。MasterServer负责维护整个集群的状态，包括TabletServer的管理、元数据的存储，以及处理创建表、修改表结构等请求。当TabletServer出现故障时，MasterServer会协调数据的重新分配，确保数据的高可用性和一致性。 TabletServer是数据的实际存储和处理单元，它们负责存储Tablets，每个Tablet包含一部分表的数据。TabletServer提供数据读写服务，通过接收和处理来自客户端的请求。Tablets可以根据负载均衡策略分布在多个TabletServer上，以提高系统的扩展性和性能。在数据组织上，Kudu将Tablet进一步细分为RowSets，包括内存中的MemRowSets和磁盘上的DiskRowSets。MemRowSets用于临时存储新写入的数据，而DiskRowSets则持久化这些数据，并按列存储，有利于执行分析查询。DiskRowSet的变更数据分为REDODeltaFiles和UNDODeltaFiles，这使得Kudu能够支持ACID（原子性、一致性、隔离性和持久性）事务，同时还能高效地进行数据更新和回滚操作。 Kudu的这种设计使得它在实时分析和事务处理方面表现出色，特别是在需要快速响应更新和查询的场景下。由于其支持列式存储和高效的变更追踪机制，Kudu成为大数据领域中一个重要的组件，广泛应用于实时数据仓库、流处理和混合工作负载的解决方案中。

Kudu架构原理架构原理

1、kudu介绍

kudu 定位是「Fast Analytics on Fast Data」，是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎。

原数据存储于HDFS或HBase都有优缺点：

直接存放于HDFS中，适合离线分析，却不利于记录级别的随机读写。

直接将数据存放于HBase/Cassandra中，适合记录级别的随机读写，对离线分析却不友好。

2、kudu原理架构

采用了Master-Slave形式的中心节点架构，管理节点被称作 Master Server，数据节点被称作Tablet Server（可对比理解

HBase中的RegionServer角色）。

Mater Server：负责集群（TS）管理、元数据管理等功能

Tablet Server：负责数据存储，并提供数据读写服务

一个表的数据，被分割成1个或多个Tablet，Tablet被部署在Tablet Server来提供数据读写服务。 Kudu Master在Kudu集群

中，发挥如下的一些作用：

用来存放一些表的Schema信息，且负责处理建表等请求。

跟踪管理集群中的所有的Tablet Server，并且在Tablet Server异常之后协调数据的重部署。

存放Tablet到Tablet Server的部署信息。

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38557896

粉丝: 0
资源: 971

Kudu：大数据存储引擎的快速分析与读写解决方案

kudu_client

CDH 之 Kudu

KUDU介绍及实践

Kudu设计原理与HBase对比分析

kudu安装包

Kudu分布式存储引擎

Kudu分布式存储引擎视频教程

由浅入深掌握大数据列式存储NoSQL数据库Kudu视频教程

网易视频云：Kudu,支持快速分析新型Hadoop存储系统.docx

Kudu-Plus：下一代Kudu列式数据库可视化管理工具

最新资源