Greenplum：海量数据处理的高效选择——并行架构与特性详解

版权申诉

130 浏览量更新于2024-07-03 收藏 1.33MB DOCX 举报

本文档主要探讨了在海量数据管理时代，如何选择适合企业数据战略的分布式并行处理数据库，特别是针对Greenplum这一主流产品。Greenplum是一款基于Hadoop的分布式数据库，它在处理大规模数据方面具有显著优势。 1. **概述** 面对大数据带来的挑战，企业数据仓库和数据中心的选型变得至关重要。在做出决策前，了解市场上不同解决方案的特性至关重要，以便满足海量管理、多样性、快速变化、高可用性和低成本等需求。 2. **Greenplum简介** - **基础架构** Greenplum由Master Sever和Segment Sever通过gNet Software Interconnect网络连接组成。Master Sever负责解析SQL，制定执行计划，将任务分发给Segment Sever，并收集执行结果。它不存储实际数据，仅保存元数据。Segment Sever则存储和处理业务数据，执行用户查询。 - **主要特性** - **Shared-nothing架构**：Greenplum采用易于扩展的架构，每个节点独立运行操作系统、数据库和硬件资源，节点间通过网络进行通信，确保高可扩展性。 - **gNet Software Interconnect**：内部通信通过高性能的软件Switch，支持通用NICs/switches，如GigE或10GigE，采用高扩展协议，能支持上千节点。 - **并行加载技术**：Greenplum采用并行数据流引擎，允许数据以高达4.5TB/小时的速度并行加载，甚至可以通过SQL操作外部表。 - **压缩存储**：支持ZLIB和QUICKLZ等多种压缩方式，压缩比可达到10:1，通过利用空闲CPU资源，有效减少I/O负载，提高存储效率。 3. **选择理由与应用场景** 了解Greenplum的这些特性，对于那些面临大量数据处理和存储的企业来说，如需要处理日志分析、在线交易、数据挖掘等场景，Greenplum可以提供高效、稳定且成本效益高的解决方案。在选择时，企业需评估其数据规模、性能需求以及预算，确保Greenplum能满足其当前和未来的业务增长需求。这篇文档深入剖析了Greenplum作为分布式并行处理数据库在海量数据环境中的优势和关键特性，为企业在数据战略规划中提供了有价值的参考依据。

精品好资料-如有侵权请联系网站删除

 用户不可灵活控制事务的提交，用户提交的处理将被自动视作整体事

务，整体提交，整体回滚。

 数据库需要额外的空间清理维护（vacuum），给数据库维护带来额外

的工作量。

 用户不能灵活分配或控制服务器资源。

 对磁盘 IO 有比较高的要求。

 备份机制还不完善，没有增量备份。

2.2 Vertica

2.2.1 基础架构

与以往常见的行式关系型数据库不同，Vertica 是一种基于列存储

（Column-Oriented）的数据库体系结构，这种存储机构更适合在数据仓库存储

和商业智能方面发挥特长。

常见的 RDBMS 都是面向行（Row-Oriented Database）存储的，在对某一

列汇总计算的时候几乎不可避免的要进行额外的 I/O 寻址扫描，而面向列存储

的数据库能够连续进行 I/O 操作，减少了 I/O 开销，从而达到数量级上的性能

提升。

同时，Vertica 支持海量并行存储（MPP）架构，实现了完全无共享，因此

扩展容易，可以利用廉价的硬件来获取高的性能，具有很高的性价比。

如下图，展示的是单节点上的 Vertica 的基本体系结构。

精品好资料-如有侵权请联系网站删除

剩余15页未读，继续阅读

xxpr_ybgg

粉丝: 6836

Greenplum：海量数据处理的高效选择——并行架构与特性详解

"最新MPP数据库对比：应对海量数据挑战的技术选型精华

MPP数据库深度解析：Greenplum的架构与特性

"Doris MPP数据库：高性能、高可用、高扩展特性

最新MPP数据库对比.docx

vertica&GP数据库的对比.docx

大数据平台MPP与Hadoop架构分析.docx

Hadoop、MPP技术介绍、对比与应用.docx

哪些设计影响了MPP DB的可扩展性.docx

传统分析与大数据分析的对比.docx

ELK与HAWQ综合对比_20230209.docx

最新资源