Greenplum：开源大数据引擎的MPP架构与高可用性详解

165 浏览量更新于2024-08-28 收藏 417KB PDF 举报

Greenplum，全称为Greenplum Database (GPDB)，是一款基于PostgreSQL开源技术的高性能、可扩展的数据仓库解决方案。它专为大规模数据分析而设计，相较于Hadoop这类批处理框架，Greenplum在存储、计算和分析方面表现更为出色。 GPDB的核心架构采用了Master/Slave模式，其中包含一个Master节点和多个Segment节点。Master节点主要负责管理和协调整个系统的运作，它存储的是系统元数据，包括数据库结构和配置信息，而不承载实际的数据。这种设计使得Master节点不会因数据量大而成为性能瓶颈，因为它专注于处理逻辑层面的任务，如接收客户端请求、解析SQL语句并生成执行计划。 Segment节点则是数据存储和处理的实际执行者，每个节点可以运行多个数据库实例，它们之间遵循共享-nothing架构（MPP，Massively Parallel Processing）。这意味着数据被均匀地分布到各个Segment上，这样可以实现水平扩展，通过并行查询来提升处理速度。Segment节点之间的通信完全依赖于内部网络，每个节点仅处理分配给它的部分数据，提高了查询效率。高可用性是Greenplum架构的一个关键特性，Master节点的高可用性通过Standby Master实现。Standby Master持续与Primary Master同步系统元数据和事务日志，当Primary Master发生故障时，Standby能够接管工作，确保服务的连续性。 Greenplum的Segment节点是数据库的主要组成部分，它们负责存储业务数据，并对客户端提交的SQL语句进行执行。由于Segment节点的分布式设计，即使在数据量巨大的情况下，查询性能也能得到优化。通过增加Segment节点的数量，系统性能可以随着资源的增加而线性增长，满足了大数据处理的弹性和性能需求。 Greenplum凭借其MPP架构、Master/Slave设计以及高可用性的实现，使得它在处理海量数据时展现出强大的性能和灵活性，是企业级大数据分析场景中的理想选择。

详解开源大数据引擎详解开源大数据引擎Greenplum的架构和技术特点的架构和技术特点

Greenplum的MPP架构

Greenplum（以下简称GPDB）是一款开源数据仓库。基于开源的PostgreSQL改造，主要用来处理大规模数据分析任务，相

比Hadoop，Greenplum更适合做大数据的存储、计算和分析引擎。

GPDB是典型的Master/Slave架构，在Greenplum集群中，存在一个Master节点和多个Segment节点，其中每个节点上可以运

行多个数据库。Greenplum采用shared nothing架构（MPP）。典型的Shared Nothing系统会集数据库、内存Cache等存储状

态的信息；而不在节点上保存状态的信息。节点之间的信息交互都是通过节点互联网络实现。通过将数据分布到多个节点上来

实现规模数据的存储，通过并行查询处理来提高查询性能。每个节点仅查询自己的数据。所得到的结果再经过主节点处理得到

最终结果。通过增加节点数目达到系统线性扩展。

图1 GPDB的基本架构

如上图1为GPDB的基本架构，客户端通过网络连接到gpdb，其中Master Host是GP的主节点（客户端的接入点），Segment

Host是子节点（连接并提交SQL语句的接口），主节点是不存储用户数据的，子节点存储数据并负责SQL查询，主节点负责

相应客户端请求并将请求的SQL语句进行转换，转换之后调度后台的子节点进行查询，并将查询结果返回客户端。

Greenplum Master

Master只存储系统元数据，业务数据全部分布在Segments上。其作为整个数据库系统的入口，负责建立与客户端的连

接，SQL的解析并形成执行计划，分发任务给Segment实例，并且收集Segment的执行结果。正因为Master不负责计算，所

以Master不会成为系统的瓶颈。

Master节点的高可用（图2），类似于Hadoop的NameNode HA，如下图，Standby Master通过synchronization process，保

持与Primary Master的catalog和事务日志一致，当Primary Master出现故障时，Standby Master承担Master的全部工作。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38635323

粉丝: 9
资源: 955

Greenplum：开源大数据引擎的MPP架构与高可用性详解

最新资源