知乎实时数仓演进:Flink替换SparkStreaming的实践

0 下载量 40 浏览量 更新于2024-08-28 收藏 361KB PDF 举报
"这篇文章主要介绍了知乎如何通过使用Flink逐步替换SparkStreaming来升级其实时数仓架构的过程。文章强调了实时数仓在数据智能和快速决策中的重要性,并概述了实时数仓的两个主要发展阶段。 实时数仓1.0版本采用SparkStreaming作为技术方案,主要目标是将ETL逻辑实时化。在这个阶段,系统主要处理流量数据的实时ETL,但并不计算实时指标。数据采集由SDK通过LogCollectorServer发送到Kafka,经过清洗和加工后,实时数据和离线数据被导入Druid,用于数据可视化。 在实时处理部分,由于实时数据流的不稳定性,采用了Lambda架构,包括StreamingETL和BatchETL两部分。StreamingETL部分主要涉及实时计算框架的选择,如SparkStreaming,以及如何保证数据的正确性和实现通用的ETL逻辑。SparkStreaming以其高容错、低延迟和可扩展性被选用,但在实时ETL中仍面临稳定性挑战。 随着实时数据处理需求的增长,知乎转向了实时数仓2.0版本,引入了FlinkStreaming来实现数据分层和指标计算的实时化。Flink相比SparkStreaming,提供了更强大的流处理能力和更稳定的性能,能更好地适应复杂的实时计算场景,支持更高效的数据处理和实时分析。 未来,知乎的实时数仓展望是构建StreamingSQL平台,完善元信息管理系统,并实现结果验收自动化,以进一步提升实时数据仓库的效率和智能化水平。这些改进将使得实时数仓不仅能支持更复杂的业务需求,还能优化运维流程,提高数据质量,确保决策的及时性和准确性。" 这篇总结详细地阐述了知乎实时数仓的演进历程,从1.0版本的SparkStreaming为基础的实时ETL,到2.0版本采用Flink实现数据分层和指标计算的实时化,以及对未来的规划,展示了实时数仓技术在数据智能和商业决策中的关键作用。
2021-10-13 上传
DataFunSummit 2021 图机器学习峰会PPT汇总,共31份。 2021图机器学习峰会共设置GNN基础模型、复杂图、大规模图平台、推荐与图、NLP与图、风控与图、生物计算与图等7大论坛,将从多个视角彻底了解图机器学习! 1. GNN基础模型 好的图表示到底是什么? 探索图神经网络的表达能力 图注意力多层感知器 Adaptive Universal Generalized PageRank Graph Neural Network 2. 复杂图 面向富文本网络的图神经网络及应用 视频人物社交关系图生成与应用 知识图谱的自监督学习与逻辑推理 Representing and Aligning Networks in Hyperbolic Spaces 3. 大规模图平台 高效、易用、开放的图深度学习平台DGL介绍及展望 面向美团业务场景的图学习平台 图数据库安全控制 Angel Graph大规模图计算平台 PyG 2.0 & GraphGym 图学习平台 4. 推荐与图 基于GNN的社交推荐算法设计和应用 图表征学习在美团推荐中的应用 图神经网络在推荐召回中的应用和挑战 Angel图神经网络在推荐场景下的实践 GNN算法的应用与专用训练框架 5. NLP与图 基于逻辑规则学习的知识图谱推理 基于图深度学习的自然语言处理,方法与应用 基于图神经网络的知识图谱表示 基于图学习的信息流挖掘与兴趣点建模 6. 风控与图 基于图神经网络的欺诈检测—从研究到应用 图机器学习在度小满金融风控中的应用 图神经网络的对抗攻防研究 图神经网络在反欺诈领域的应用 图神经网络在实时风控的应用 7. 生物计算与图 基于梯度向量场的分子三维结构生成 基于最优传输理论的无监督图压缩及其在时间线摘要上的应用 图机器学习在生物图上的应用 图预训练技术在生物计算领域的应用