云原生大数据架构下的实时计算与维表结果表选型探讨

版权申诉

147 浏览量更新于2024-07-18 收藏 1.31MB PDF 举报

"云原生大数据架构中实时计算维表和结果表的选型实践" 在当前的技术背景下，云原生大数据架构已经成为处理大规模数据和应对复杂需求的主要手段。传统的大数据架构，如基于Hadoop的HDFS、MapReduce和HBase，虽然在早期为数据存储和处理提供了强大的支持，但在面对互联网技术的快速发展、数据规模的急剧增长以及实时性需求的提升时，其局限性日益凸显。规模化是大数据架构演进的一个关键方向。随着数据量的爆炸性增长，传统的存储和计算方式不再适用。为了满足不同场景的需求，数据被分层处理，例如通过冷热数据分离，使用不同的存储组件，如HDFS用于冷数据存储，而Hudi等新型解决方案则用于热数据的快速访问和更新。实时化是大数据处理的另一大变革。传统的离线处理方式，如T+1报表，已无法满足实时推荐、监控等业务需求。因此，实时计算框架如Storm、Spark Streaming和Flink应运而生。Flink以其基于Dataflow模型的强实时处理能力，成为了实时计算领域的主流选择。云原生化则是大数据架构的最新发展趋势。它强调的是存储计算分离和Serverless，旨在提高资源利用率，实现弹性伸缩，并简化运维。数据湖的概念成为云原生大数据架构的核心，提供统一的数据管理和计算能力。存储服务化使得数据存储可以按需扩展，计算服务化允许动态调度计算资源，元数据管理服务化确保数据的高效检索。在云原生大数据架构中，实时计算涉及维表和结果表的选型。维表通常用于存储描述性的、不变或变化缓慢的数据，如地理位置信息、客户详情等，它们需要高效的查询性能。选择维表时，要考虑数据更新的频率、延迟要求以及查询模式。结果表则包含计算后的聚合数据，常常用于报表或决策支持。选型时需要平衡存储成本、计算效率和实时性。在实践中，可能会考虑使用如Apache Druid这样的实时OLAP数据库作为维表，因其支持快速查询和实时更新。对于结果表，可以选择Flink与Hudi结合的方式，利用Flink进行实时计算，Hudi提供增量更新和版本控制。此外，还可以结合Kafka等消息队列实现数据流处理，确保数据的实时流入和处理。云原生大数据架构下的实时计算维表和结果表选型，需要综合考量数据的特性和业务需求，选择最适合的存储、计算和管理方案，以确保系统的高效率、低延迟和弹性扩展能力。

源

表

：

主

要

代

表

消

息

系统类

的

输

⼊

，

⽐

如

afka

，

（

age

），

或

者

CDC

（

ptur

，

例

如

将

转

换

成

实

时

流

）

输

⼊

。

结

果

表

：

主

要

代

表

将

每

条

实

时

处

理

完

的

数据

写⼊

的⽬

标

存

储

，

如

，

等

数据

库

。

维

表

：

主

要

代

表

存

储

数据

维

度

信

息

的

数据

源

。

在

实

时

计

算

中

，

因

为

数据

采

集

端

采

集

到

的

数据

往往

⽐

较

有

限

，

在

做

数据

分

析

之

前

，

就

要

先

将

所

需

的

维

度

信

息

补

全

，

⽽

维

表

就

是

代

表

存

储

数据

维

度

信

息

的

数

据

源

。

常

⻅

的

⽤

户

维

表

有

，

edi

等

。

下

图

是

⼀个

完

整

的

实

时

计

算示

例

，

示

例中

的

任

务

，

这

个

任

务

的⽬

标是

计

算

每

分

钟

不

同

商

品

分

类

的

(

ross

cha

，

即

商

品

交

易

总

额

)

。

在

这

个

任

务

中

，

实

时

消

费

⽤

户

订

单

数据

的

afka

源

表

，

通过

edi

维

表

将

商

品

关

联

起

来

获

取

到

商

品

分

类

，

按

照

分

钟

间隔

的

滚

动

窗

⼝

按

商

品

分

类

将

总

计

的

交

易

⾦

额

计

算

出

来

，

将

最

后

的

结

果

写⼊

（

ela

aba

ice

，

如

）



结

果

表

中

。

源

表

⽤

户

订

单

数据

，

代

表

某

个

⽤

户

（

user_id

）

在

timestamp

时

按

price

的

价

格

购

买了

CREATE TEMPORARY TABLE user_action_source (

`timestamp` BIGINT,

`user_id` BIGINT,

`item_id` BIGINT,

`price` DOUBLE,SQs

) WITH (

'connector' = 'kafka',

'topic' = '<your_topic>',

'properties.bootstrap.servers' = 'your_kafka_server:9092',

'properties.group.id' = '<your_consumer_group>'

'format' = 'json',

'scan.startup.mode' = 'latest-offset'

);

维

表

物

品

详

情

CREATE TEMPORARY TABLE item_detail_dim (

id STRING,

catagory STRING,

PRIMARY KEY (id) NOT ENFORCED

剩余16页未读，继续阅读

安全方案

粉丝: 2538
资源: 3960

云原生大数据架构下的实时计算与维表结果表选型探讨

云原生大数据实践：从Spark到Kubernetes与MaxCompute的融合

云原生大数据混合算力部署与实践提升

"阿里云云原生架构白皮书：架构原则、技术实践与未来趋势

基于云原生消息系统构建实时数据仓库共28页.pdf.zip

大数据平台架构-巨衫 (2).pdf

2019_数据中台架构实践.pdf

金融行业分布式架构转型实践.pdf

数据湖存储架构选型_compressed.pdf

制造型企业数据存储架构最佳实践.pdf

HAWQ在预警情报大数据分布式存储中的应用研究.pdf

最新资源