Amazon Redshift数据库开发全面指南

需积分: 50 144 浏览量更新于2024-07-18 1 收藏 7.09MB PDF 举报

"Amazon Redshift数据库开发人员指南是官方文档，涵盖了如何使用Amazon Redshift进行大数据处理和数据库开发。此指南适用于新用户和有经验的数据库开发者，详细介绍了Redshift的系统架构、性能特性和集成其他AWS服务的方法。" Amazon Redshift是一个基于云的数据仓库服务，由Amazon Web Services (AWS) 提供，它专为大规模数据分析设计。作为一款大数据解决方案，Redshift结合了列式存储、数据压缩和查询优化等特性，旨在提供高性能和高效率的分析能力。 **Amazon Redshift系统概览** Amazon Redshift采用了分布式架构，数据仓库系统架构支持分片（sharding）和并行处理，能够处理PB级别的数据。它利用大规模并行处理（MPP）来加速查询执行，使得多个节点可以同时处理不同部分的复杂查询，极大地提高了处理速度。 **性能特性** 1. **列式数据存储**：与传统的行式存储不同，列式存储更利于分析查询，因为可以只读取需要的列，减少了I/O操作。 2. **数据压缩**：Redshift自动对数据进行压缩，降低了存储需求，同时也减少了在处理数据时的网络传输量。 3. **查询优化器**：Redshift拥有强大的查询优化器，能够根据数据分布和统计信息制定最优的执行计划。 4. **结果缓存**：为了提高性能，Redshift会缓存查询结果，对于重复查询能快速返回结果。 5. **编译后的代码**：查询处理过程中的部分工作负载会被转化为编译后的机器代码，进一步提升执行效率。 **内部架构和系统操作** Redshift的内部架构包括多个节点，每个节点又包含多个段（segments），这种设计使得数据处理可以高度并行化。工作负载管理（Workload Management）允许管理员控制和调度查询，确保资源的公平分配。 **与其他服务的集成** 1. **Amazon S3**：可以方便地在Redshift和Amazon Simple Storage Service (S3)之间移动数据，用于数据导入和导出。 2. **Amazon DynamoDB**：可以与NoSQL数据库DynamoDB集成，实现结构化和非结构化数据的混合分析。 3. **SSH导入**：通过SSH可以直接从远程主机导入数据到Redshift。 4. **AWS Data Pipeline**：可以使用Data Pipeline自动化数据加载流程，定期更新数据仓库。 5. **AWSDatabaseMigrationService (DMS)**：用于迁移现有的数据库到Redshift，简化数据迁移过程。 **数据库使用入门** 入门Redshift涉及以下基本步骤： 1. 创建数据库实例。 2. 创建数据库用户，并管理权限。 3. 设计和创建数据库表。 4. 加载数据到表中，可以是从其他数据源如S3或CSV文件导入。 5. 使用SQL查询语言执行查询，分析存储在Redshift中的数据。这个官方指南提供了详细的步骤和示例，帮助开发者快速掌握Amazon Redshift的使用，充分利用其在大数据处理和分析领域的优势。

Amazon Redshift 数据库开发人员指南

数据仓库系统架构

Amazon Redshift 系统概览

主题

• 数据仓库系统架构 (p. 3)

• 性能 (p. 5)

• 列式存储 (p. 7)

• 内部架构和系统操作 (p. 8)

• 工作负载管理 (p. 9)

• 将 Amazon Redshift 与其他服务结合使用 (p. 9)

Amazon Redshift 数据仓库是一个企业级的关系数据库查询和管理系统。

Amazon Redshift 支持与多种类型的应用程序（包括商业智能 (BI)、报告、数据和分析工具）建立客户端连

接。

在执行分析查询时，您将在多阶段操作中检索、比较和计算大量数据以产生最终结果。

Amazon Redshift 通过大规模并行处理、列式数据存储和非常高效且具有针对性的数据压缩编码方案的组

合，实现高效存储和最优查询性能。此部分介绍了 Amazon Redshift 系统架构。

数据仓库系统架构

此部分介绍 Amazon Redshift 数据仓库架构的元素，如下图所示。

客户端应用程序

API 版本 2012-12-01

Amazon Redshift 数据库开发人员指南

数据仓库系统架构

Amazon Redshift 与各种数据加载和 ETL（提取、转换和加载）工具以及商业智能 (BI) 报告、数据挖掘和

分析工具集成。Amazon Redshift 基于行业标准 PostgreSQL，因此，大多数现有 SQL 客户端应用程序仅

处理最少量的更改。有关 Amazon Redshift SQL 和 PostgreSQL 之间的重要差异的信息，请参阅 Amazon

Redshift 和 PostgreSQL (p. 274)。

连接

Amazon Redshift 通过使用行业标准 PostgreSQL JDBC 和 ODBC 驱动程序与客户端应用程序进行通信。有

关更多信息，请参阅Amazon Redshift 和 PostgreSQL JDBC 以及 ODBC (p. 274)。

集群

Amazon Redshift 数据仓库的核心基础设施组件是集群。

集群包含一个或多个计算节点。如果集群预置有两个或更多计算节点，则一个额外的领导节点将协调这些

计算节点并处理外部通信。您的客户端应用程序仅直接与领导节点交互。计算节点对于外部应用程序是透明

的。

领导节点

领导节点管理与客户端程序的通信以及与计算节点的所有通信。它分析和制定执行计划以实施数据库操作，

特别是获得复杂查询的结果所需执行的一系列步骤。根据执行计划，领导节点编译节点、将编译后的节点分

发给计算节点，并将部分数据分配给每个计算节点。

领导节点仅在查询引用计算节点上存储的表时，才将 SQL 语句分发给计算节点。所有其他查询仅在领导节

点上运行。Amazon Redshift 设计为仅在领导节点上实施特定的 SQL 函数。如果使用这些函数中的任一函数

的查询引用驻留在计算节点上的表，则此查询将返回一个错误。有关更多信息，请参阅在领导节点上支持的

SQL 函数 (p. 273)。

计算节点

领导节点为执行计划的单个元素编译代码并将代码分配给各个计算节点。计算节点执行编译后的代码，并将

中间结果发送回领导节点以便最终聚合。

每个计算节点均拥有自己的专用 CPU、内存和连接的磁盘存储，这都由节点类型决定。当您的工作负载增加

时，您可以通过增加节点数和/或升级节点类型来增加集群的计算容量和存储容量。

Amazon Redshift 提供两种节点类型；密集存储节点和密集计算节点。每个节点提供两个存储选项。您可从

单个 160 GB 节点开始并向上扩展至多个 16 TB 节点以支持 PB 级数据或更多数据。

有关数据仓库集群和节点的更详细说明，请参阅内部架构和系统操作 (p. 8)。

节点切片

一个计算节点分为多个切片。将为每个切片分配节点的内存和磁盘空间的一部分，从而处理分配给节点的工

作负载的一部分。领导节点管理向切片分发数据的工作，并将任何查询或其他数据库操作的工作负载分配给

切片。然后，切片将并行工作以完成操作。

每个节点的切片数由集群的节点大小决定。有关每个节点大小所对应的切片数的更多信息，请转到 Amazon

Redshift Cluster Management Guide 中的关于集群和节点。

在创建表时，您可以选择将一个列指定为分配键。在将表与数据一起加载时，会根据为表定义的分配键将行

分配给节点切片。选择好的分配键将使 Amazon Redshift 能够使用并行处理来加载数据和高效执行查询。有

关选择分配键的信息，请参阅选择最佳分配方式 (p. 23)。

内部网络

Amazon Redshift 利用高带宽连接、紧邻和自定义通信协议来提供领导节点和计算节点之间的速度极快的私

有网络通信。计算节点在客户端应用程序绝对无法直接访问的独立的、隔离网络上运行。

API 版本 2012-12-01

Amazon Redshift 数据库开发人员指南

性能

数据库

一个集群包含一个或多个数据库。用户数据存储在计算节点上。您的 SQL 客户端与领导节点进行通信，进而

通过计算节点协调查询执行。

Amazon Redshift 是一个关系数据库管理系统 (RDBMS)，可与其他 RDBMS 应用程序兼容。虽然 Amazon

Redshift 提供了与典型 RDBMS 相同的功能（包括在线事务处理 (OLTP) 功能，例如，插入并删除数据），

但它已经过优化，可对大型数据集进行高性能的分析和报告。

Amazon Redshift 基于 PostgreSQL 8.0.2。Amazon Redshift 和 PostgreSQL 之间的差别非常大，您在设计

和开发数据仓库应用程序时需要注意这一点。有关 Amazon Redshift SQL 与 PostgreSQL 之间的差异的信

息，请参阅 Amazon Redshift 和 PostgreSQL (p. 274)。

性能

Amazon Redshift 通过使用这些性能功能来实现极快的查询执行。

主题

• 大规模并行处理 (p. 5)

• 列式数据存储 (p. 5)

• 数据压缩 (p. 5)

• 查询优化程序 (p. 6)

• 结果缓存 (p. 6)

• 编译后的代码 (p. 7)

大规模并行处理

大规模并行处理 (MPP) 支持对大量数据快速执行最复杂的查询。多个计算节点处理所有查询处理以获得最终

结果聚合，执行相同的编译后查询的每个节点的每个核心在整个数据的各个部分进行分段。

Amazon Redshift 将表行分配给计算节点，以便能并行处理数据。通过为每个表选择相应的分配键，可以优

化数据分配以均衡工作负载，并最大程度地减少节点间的数据移动。有关更多信息，请参阅选择最佳分配方

式 (p. 23)。

加载平面文件中的数据时将利用并行处理，方式是跨多个节点分配工作负载，同时从多个文件进行读取。有

关如何将数据加载到表的更多信息，请参阅加载数据的最佳实践 (p. 24)。

列式数据存储

数据库表的列式存储大大降低了总体磁盘 I/O 要求，它是优化分析查询性能的一个重要因素。按列式方式

存储数据库表信息将减少磁盘 I/O 请求数与需从磁盘加载的数据量。减少加载到内存中的数据量使 Amazon

Redshift 能够在执行查询时执行更多的内存中处理。有关更详细的说明，请参阅列式存储 (p. 7)。

在适当地对列进行排序时，查询处理器能够快速筛选出大型数据块子集。有关更多信息，请参阅选择最佳排

序键 (p. 23)。

数据压缩

数据压缩将降低存储要求，从而减少磁盘 I/O 来提高查询性能。在执行查询时，压缩的数据将读入内存，然

后在查询执行期间解压缩。将少量数据加载到内存中使 Amazon Redshift 能够分配更多内存来分析数据。

由于列式存储将按顺序存储类似数据，因此 Amazon Redshift 能够应用与列式数据类型关联的自适应压缩编

API 版本 2012-12-01

Amazon Redshift 数据库开发人员指南

查询优化程序

码。对表列启用数据压缩的最佳方式是，允许 Amazon Redshift 在您将表与数据一起加载时应用最优压缩编

码。要了解有关使用自动数据压缩的更多信息，请参阅使用自动压缩加载表 (p. 186)。

查询优化程序

Amazon Redshift 查询执行引擎集成了 MPP 感知的查询优化程序并采用了面向列式的数据存储。Amazon

Redshift 查询优化程序实施大量增强和扩展以便处理通常包含多表联接、子查询和聚合的复杂的分析查询。

要了解有关优化查询的更多信息，请参阅优化查询性能 (p. 230)。

结果缓存

为了缩短查询执行时间并改进系统性能，Amazon Redshift 在领导节点的内存中缓存特定查询类型的结果。

当用户提交查询时，Amazon Redshift 会在结果缓存中检查是否有查询结果的有效缓存副本。如果在结果缓

存中找到匹配项，则 Amazon Redshift 会使用缓存的结果而不执行查询。结果缓存对用户透明。

默认情况下，结果缓存处于启用状态。要为当前会话禁用结果缓存，请将

enable_result_cache_for_session (p. 870) 参数设置为 off。

在满足以下所有条件时，Amazon Redshift 将为新查询使用缓存的结果：

• 提交查询的用户具有在查询中所用对象的访问权限。

• 查询中的表或视图未更改。

• 查询不使用必须在每次运行时求值的函数，例如 GETDATE。

• 该查询不引用 Amazon Redshift Spectrum 外部表。

• 可能影响查询结果的配置参数未更改。

• 查询的语法与缓存的查询相符。

为了最大限度地提升缓存有效性和资源的使用效率，Amazon Redshift 不缓存一些非常大的查询结果

集。Amazon Redshift 会根据多个因素确定是否缓存查询结果。这些因素包括缓存中的条目数以及 Amazon

Redshift 集群的实例类型。

要确定查询是否使用了结果缓存，请查询 SVL_QLOG (p. 832) 系统视图。如果查询使用了结果缓

存，source_query 列会返回源查询的查询 ID。如果未使用结果缓存，则 source_query 列值为 NULL。

以下示例说明了由 userid 104 和 userid 102 提交的查询使用了来自 userid 100 运行的查询的结果缓存。

select userid, query, elapsed, source_query from svl_qlog

where userid > 1

order by query desc;

userid | query | elapsed | source_query

-------+--------+----------+-------------

104 | 629035 | 27 | 628919

104 | 629034 | 60 | 628900

104 | 629033 | 23 | 628891

102 | 629017 | 1229393 |

102 | 628942 | 28 | 628919

102 | 628941 | 57 | 628900

102 | 628940 | 26 | 628891

100 | 628919 | 84295686 |

100 | 628900 | 87015637 |

100 | 628891 | 58808694 |

有关用于创建上例中所显示结果的查询的详细信息，请参阅优化表设计 (p. 38)教程中的步骤 2：测试系统

性能以建立基准 (p. 42)。

API 版本 2012-12-01

Amazon Redshift 数据库开发人员指南

编译后的代码

领导节点跨集群的所有节点分发完全优化的编译后的代码。编译查询将消除与解释器关联的开销，从而加快

执行速度，特别是加快复杂查询的执行速度。编译后的代码将跨同一个集群中的多个会话进行缓存和共享，

因此同一查询的后续执行的速度将更快，通常甚至会使用不同的参数。

执行引擎为 JDBC 连接协议以及 ODBC 和 psql (libq) 连接协议编译不同的代码，使用不同协议的两个客户端

均将产生编译代码的首次成本。不过，使用相同协议的其他客户端将从共享缓存代码中获益。

列式存储

数据库表的列式存储是优化分析查询性能方面的一个重要因素，因为它将大大降低总体磁盘 I/O 要求并减少

需从磁盘加载的数据量。

以下一系列图示描述列式数据存储如何实现高效以及如何在将数据检索到内存中实现高效。

此第一个图示说明通常如何将数据库表中的记录（按行）存储到磁盘块中。

在典型的关系数据库表中，每个行均包含一条记录的字段值。在行式数据库存储中，数据块按顺序存储每个

连续列（构成整个行）的值。如果数据块大小小于记录的大小，整个记录的存储可采用多个数据块。如果块

大小大于记录的大小，整个记录的存储可能采用 1 个以下的数据块，从而导致磁盘空间的使用低效。在在线

事务处理 (OLTP) 应用程序中，大多数事务涉及频繁读取和写入整个记录的所有值，通常一次读取和写入一

条记录或几条记录。最终，行式存储已针对 OLTP 数据库进行优化。

下一个图示说明，借助列式存储，如何按顺序将每个列的值存储到磁盘块中。

使用列式存储，每个数据块可为多个行存储一个列的值。在记录进入系统后，Amazon Redshift 以透明方式

将数据转换为每个列的列式存储。

在此简化示例中，借助列式存储，每个数据块将三倍于记录数的列字段值保留为基于行的存储。这意味着，

与行式存储相比，为相同数目的记录读取相同数目的列字段值需要三分之一的 I/O 操作数。实际上，使用具

有大量列和大量行的表，存储效率甚至会更高。

API 版本 2012-12-01

剩余921页未读，继续阅读

坤宇辰大数据

粉丝: 3
资源: 3

Amazon Redshift数据库开发全面指南

spectrify:导出Redshift数据并转换为Parquet以与Redshift Spectrum或其他数据仓库一起使用

aws-lambda-redshift-loader:在AWS Lambda中实现的Amazon Redshift Database Loader

pgadmin3 连接redshift

python读取CSV写入redshift数据库，数据含有单引号和双引号

StringBooT项目 同时连接Mysql和RedShift数据库，同时mysql数据库是多数据源，项目启动时RedShif配置类中 private final DynamicRoutingDataSource dynamicRoutingDataSource; 无法加载

亚马逊云数据库的可视化工具

在构建实时数据湖仓架构时，Amazon Redshift和Flink如何协同工作以实现高效的数据处理和查询？

在实时数据湖仓架构中，如何利用Amazon Redshift与Flink进行数据处理和高效查询？

redshift 赋权

c++数据库开发行业产品有哪些

最新资源

StringBooT项目同时连接Mysql和RedShift数据库，同时mysql数据库是多数据源，项目启动时RedShif配置类中 private final DynamicRoutingDataSource dynamicRoutingDataSource; 无法加载