Greenplum哈希分布详解：调试与集群扩容实战

26 浏览量更新于2024-08-28 收藏 715KB PDF 举报

Greenplum（GP）作为分布式数据库系统，其数据分布策略对于性能优化至关重要。本文主要探讨了Greenplum中的数据哈希分布，这是一种常用的分布策略，它根据用户指定的列（如`CREATE TABLE t1 AS SELECT gc1, g + 1 as c2 FROM generate_series(1, 10) g DISTRIBUTED BY (c1)`中的c1）进行数据的均匀分布，确保每个Segment（Greenplum的逻辑组成部分）处理相对均匀的数据量。在实际操作中，当使用默认的Master节点连接Greenplum时，无法直接查看Segment中的数据分布。为了观察Segment级别的数据分布，可以通过PostgreSQL的utility模式连接到Segment实例，例如使用`PGOPTIONS='-cgp_session_role=utility' psql -p 6000 postgres`命令。这允许我们查看特定Segment上的数据情况，这对于理解和优化数据分布极其有用。在集群管理中，如果需要扩容Greenplum系统，官方文档《GPDB 62 Docs》提供了详细的步骤。首先，需要进入`/home/gpadmin/`目录并使用`gpexpand`工具初始化新的Segment。用户会被提示是否开始扩容，以及输入新主机名和要添加的Primary Segments的数量。这一步骤将扩展Greenplum集群的规模，同时可能导致数据重新分配，以便保持负载均衡。当集群扩容完成后，原有的数据分布可能会改变，这时可以再次检查表t1的数据分布情况，以验证数据是否均匀分布在新的Segment上。通过这种方式，我们可以更好地理解Greenplum的哈希分布机制，并在必要时调整表的分布策略，以提高查询性能和系统的整体稳定性。在整个过程中，理解数据分布原则和如何正确操作是至关重要的。

Greenplum初探初探-数据哈希分布与集群扩容数据哈希分布与集群扩容

Greenplum（GP）是分布式数据库，因此，数据的分布是基础。GP提供了多种分布策略：哈希分布、随机分布和复制表。其

中，最常用的就是哈希分布。本篇文章我将向大家介绍GP的哈希分布。

首先，我们先回顾一下上篇文章用于调试的那张表：

CREATE table t1 AS SELECT g c1, g + 1 as c2 FROM

generate_series(1, 10) g DISTRIBUTED BY (c1);

大家可以看到建表语句末尾有DISTRIBUTED BY (c1)，这就表示上面这张表是一张哈希分布表，且通过列c1的值散列数据。

我们再来看下表里的数据：

因为psql默认连接的是Master，所以这里只能看到整张表的数据。如果我们想观察数据在Segment中的分布情况，那么有没有

办法只看某个Segment中存储的数据呢？答案是有的。由于Segment也是一个PostgresQL（PG）实例，psql提供了一个utility

模式，可以直接连接Segment（注意不要通过此模式，绕过Master，直接在Segment执行DDL或数据插入语句，这样做可能

会引发集群异常）。执行以下命令，直连Segment：

PGOPTIONS='-c gp_session_role=utility' psql -p 6000 postgres

连接上Segment后，再次查看Segment上t1表的数据：

由于我们上次搭建的环境只有一台Segment，表t1的数据理所当然全部存储在这台Segment上。所以，下面我们需要将集群扩

容，再将t1的数据重分布，然后再观察。

扩容

GP的官方文档中，有对扩容的详细介绍，具体可以查阅《GPDB62Docs》—— Chapter 4 Greenplum Database

Administrator Guide —— Managing a Greenplum System —— Expanding a Greenplum System。

1，初始化新的Segments

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38748055

粉丝: 4
资源: 960

Greenplum哈希分布详解：调试与集群扩容实战

greenplum-db-6.13.0-rhel7-x86_64.zip

GreenPlum-常用数据库命令.doc

基于Greenplum Hadoop- 分布式平台的大数据解决方案14-定义数据库对象(4)-表的分布和存储模式.zip

EMC_Greenplum电信--Mobile

greenplum--orca查询优化器详解1

greenplum-db-7.1.0-el8-x86-64和greenplum-db-7.2.0-el9-x86-64下载

Greenplum哈希分布详解：调试与集群扩容实践

greenplum greenplum-db-6.13.0-rhel7-x86_64.rpm分布式部署如何部署

第一节课-Greenplum 介绍-安装与部署.pdf

第二节课-Greenplum 备份-安全与高可用.pdf

最新资源