Vertica与Apache Hudi集成实战：变更数据捕获与分析

版权申诉

15 浏览量更新于2024-08-07 收藏 720KB DOC 举报

"Vertica集成Apache Hudi以实现高效的数据管理和分析" Apache Hudi是一个强大的开源框架，主要用于在大数据环境中处理和管理数据。它提供了一种变更数据捕获（CDC）机制，支持事务性操作，如更新、删除和增量操作，确保数据的一致性和准确性。Hudi的设计目标是优化Hadoop生态系统中的数据湖，使其既能支持实时查询，又能进行批量处理，实现了流式和批处理数据处理的统一。集成Vertica和Apache Hudi，可以极大地提升数据分析的效率和灵活性。Vertica是一个高性能的列式数据库，特别适合大规模的数据分析和查询。通过与Hudi的集成，Vertica可以直接访问存储在S3或S3兼容对象存储中的Hudi数据，无需将数据导入到Vertica内部，从而降低了数据迁移的成本和复杂性。在开始集成之前，需要准备以下环境： 1. Apache Spark环境：建立一个Spark集群，例如一个由1个Master和3个Worker组成的4节点集群。确保按照官方文档正确安装并配置Spark，以便使用Hudi进行数据处理。 2. Vertica分析数据库：这里使用的是Vertica Enterprise 11.0.0版本。为了与Hudi交互，需要在Vertica数据库中设置S3访问参数，包括AWS的访问密钥、秘密密钥、区域、端点等。这些设置可以通过执行SQL命令完成，确保Vertica能够连接到S3存储桶。 3. S3或S3兼容对象存储：在本例中使用了MinIO作为S3存储桶。需要在Spark集群中配置相应的Hadoop和AWS JAR文件，以便Spark能与S3进行通信。 4. JAR文件：包括`hadoop-aws-2.7.3.jar`和`aws-java-sdk-1.7.4.jar`，这些是Spark与S3交互所必需的库，应将它们放置在Spark的`jars`目录下。集成步骤如下： 1. 使用Apache Spark和Hudi处理数据：在Spark中，通过Hudi的API创建、更新和查询Hudi表，将数据写入S3。 2. 在Vertica中创建外部表：在Vertica数据库中定义一个外部表，指向S3上Hudi存储的数据。这样，用户就可以像查询普通Vertica表一样查询Hudi数据。 3. 配置S3连接：在Vertica中设置必要的S3连接参数，如AWS认证信息、地区和端点，确保Vertica可以正确访问存储在S3中的数据。 4. 查询和分析：一旦外部表配置完成，用户可以使用SQL直接在Vertica中查询和分析Hudi数据，而无需关心数据的实际存储位置。这种集成使得Vertica用户可以利用Hudi的强大功能，如实时更新和增量加载，同时保持对Vertica高性能查询能力的访问。这对于需要实时分析大量动态数据的场景尤其有价值，如实时监控、数据仓库和BI应用等。此外，由于数据保留在S3中，还可以降低存储成本，因为S3通常比传统的数据库存储更经济。 Vertica与Apache Hudi的集成提供了一个灵活且高效的解决方案，能够在大数据环境中进行高效的数据管理和分析，同时充分利用两个系统的优点。通过这种方式，企业可以更好地处理不断增长的数据量，实现快速的数据洞察，以支持其业务决策。

重磅！Vertica 集成 Apache Hudi 指南

1. 摘要

本文演示了使用外部表集成 Vertica 和 Apache Hudi。在演示中我们使用 Spark 上的

Apache Hudi 将数据摄取到 S3 中，并使用 Vertica 外部表访问这些数据。

2. Apache Hudi 介绍

Apache Hudi 是一种变更数据捕获 (CDC) 工具，可在不同时间线将事务记录在表中。 Hudi

代表 Hadoop Upserts Deletes and Incrementals，是一个开源框架。 Hudi 提供 ACID 事务、

可扩展的元数据处理，并统一流和批处理数据处理。

以下流程图说明了该过程。使用安装在 Apache Spark 上的 Hudi 将数据处理到 S3，并

从 Vertica 外部表中读取 S3 中的数据更改。

3. 环境准备

Apache Spark 环境。使用具有 1 个 Master 和 3 个 Worker 的 4 节点集群进行了测试。

按照在多节点集群上设置 Apache Spark 中的说明安装 Spark 集群环境。启动 Spark 多节

点集群。

Vertica 分析数据库。使用 Vertica Enterprise 11.0.0 进行了测试。

AWS S3 或 S3 兼容对象存储。使用 MinIO 作为 S3 存储桶进行了测试。

需要以下 jar 文件。将 jar 复制到 Spark 机器上任何需要的位置，将这些 jar 文件放在

/opt/spark/jars 中。

Hadoop - hadoop-aws-2.7.3.jar

AWS - aws-java-sdk-1.7.4.jar

在 Vertica 数据库中运行以下命令来设置访问存储桶的 S3 参数：

SELECT SET_CONFIG_PARAMETER(‘AWSAuth’, ‘accesskey:secretkey’);

SELECT SET_CONFIG_PARAMETER(‘AWSRegion’,’us-east-1’);

SELECT SET_CONFIG_PARAMETER(‘AWSEndpoint’,’:9000’);

SELECT SET_CONFIG_PARAMETER(‘AWSEnableHttps’,’0’);

endpoint 可能会有所不同，具体取决于 S3 存储桶位置选择的 S3 对象存储。

下载后可阅读完整内容，剩余5页未读，立即下载

书博教育

粉丝: 1
资源: 2837

Vertica与Apache Hudi集成实战：变更数据捕获与分析

Vertica数据库实践：math.pow反向操作与备份配置

Vertica 9.1.x 分析数据库全面指南

HPE Vertica 8.1.x Analytics Platform 完整指南

vertica基础学习笔记.doc

Python库 | apache-airflow-providers-vertica-2.0.0rc1.tar.gz

PyPI 官网下载 | apache-airflow-providers-vertica-1.0.1rc1.tar.gz

vertica-python-0.7.3.tar.gz

java后台查看所有订单源码-vertica.dplyr:vertica.dplyr

Python库 | sqlalchemy-vertica-0.0.4.tar.gz

Vertica 安装说明 v8.1.pdf

最新资源