GreenPlum数据库详解：分布式架构与优势解析

需积分: 5 132 浏览量更新于2024-06-16 收藏 623KB PDF 举报

"GreenPlum最全学习手册" GreenPlum是一种专为数据仓库设计的高度可扩展的分布式数据库系统，源自PostgreSQL，但针对大规模数据处理进行了优化。它采用了shared-nothing架构，这意味着每个节点拥有独立的计算和存储资源，不共享任何硬件或数据，从而在高并发、高可用性、线性扩展性和性能方面表现出色。在Greenplum数据库集群中，Master节点是核心组件，负责处理客户端连接和SQL查询的分发。它不存储用户数据，而是保存全局系统目录，这是一个包含关于GreenPlum数据库系统元数据的系统表集合。Master节点对客户端进行身份验证，解析SQL命令，调度工作到各个Segment节点，并整合这些节点返回的结果，最后将完整结果返回给用户。用户可以通过标准的PostgreSQL接口，如psql、JDBC、ODBC或libpq，与数据库进行交互。 Segment节点是GreenPlum数据库的真正数据存储和处理单元，每个Segment都是一个独立的PostgreSQL实例，存储一部分数据并执行查询。这种分布式架构使得GreenPlum能够处理大规模数据，通过增加Segment节点数量实现系统性能的线性提升。 Greenplum数据库的另一个关键特性是其Mater/Slave架构。Master节点作为主控，Segment节点作为工作节点，每个Segment都有可能是一个主Segment和一个或多个备用Segment，用于提供容错和高可用性。系统通过预写式日志（WAL）实现数据完整性，所有修改先写入日志，然后应用到数据，保证了即使在系统故障时也能恢复数据一致性。然而，目前Segment镜像不支持WAL日志，这可能限制了其在某些情况下的故障恢复能力。在性能优化方面，Greenplum使用并行查询处理技术，每个Segment节点并行执行其分配的任务，显著提高了查询速度。这种分布式并行处理能力使得GreenPlum特别适合于大数据分析和复杂查询场景。 GreenPlum数据库是一个强大且灵活的大数据处理平台，特别适合于需要高并发、高可用性和线性扩展性的企业级数据仓库应用。通过其独特的架构和机制，GreenPlum为企业提供了高效的数据管理和分析解决方案。

ulimit -u 命令显示每个用户可以用的最大的进程数 max user processes,验证返回值为131072，需要注

意的事，有时候需要重启后才会生效。

因按照rpm的方式进行安装，所以需要系统内核能够提供安装环境，可后续执行安装的时候，按照

系统缺少的依赖相应进行安装。rpm的镜像网站：

；

只在主节点进行操作，操作用户为root

# noproc代表最大进程数8

# nofile代表最大文件打开数9

8. 创建gpadmin用户

groupadd gpadmin 1

useradd gpadmin -g gpadmin -s /bin/bash2

passwd gpadmin # 我创建的密码跟用户名一致3

4. 安装构建

1. 准备依赖

https://mirrors.aliyun.com/centos/7/os/x86_64/Pack

ages/

2. 执行安装

执行安装脚本，默认安装到/usr/local目录下。

rpm -ivh greenplum-db-6.26.0-rhel7-x86_64.rpm1

# 安装完毕后，建议手动更改安装路径，放在/home/gpadmin下，执行以下语句2

移动目录

1. 进入安装父目录1

cd /usr/local2

2. 将安装目录移动到/home/gpadmin3

mv greenplum-db-6.26.0 /home/gpadmin4

3. 删除软链接5

/bin/rm -r greenplum-db6

4. 在/home/gpadmin下建立软链接7

剩余22页未读，继续阅读

小菜鸡0626

粉丝: 128
资源: 2

GreenPlum数据库详解：分布式架构与优势解析

GreenPlum使用手册

GreenPlum入门学习手册

Greenplum官方学习手册

greenplum管理员手册

Greenplum数据库管理手册

greenplum开发规范手册.zip

greenplum数据库学习资料

greenplum学习资料-自整理

Greenplum数据库文档（中文）

Greenplum4.2.2管理员指南 中文版

最新资源

Greenplum4.2.2管理员指南中文版