贝壳OLAP平台架构的演进与优化
版权申诉
152 浏览量
更新于2024-07-05
收藏 2.31MB PDF 举报
"肖赞在2020年10月分享的贝壳OLAP平台架构演进历程,从初期的Hive到MySQL,再到基于Kylin的OLAP平台建设,以及后续支持多种OLAP引擎的平台发展。"
贝壳OLAP平台的架构演进主要分为三个阶段:
1. 第0阶段 - Hive到MySQL的初期阶段:
在这个阶段,贝壳的数据分析平台从无到有,采用了Hive作为大数据处理工具,然后将数据存储在MySQL中。然而,由于MySQL的分析能力有限,无法有效支持大数据量的存储和快速查询。此外,由于缺乏共性能力的沉淀,每次解决问题都需要针对具体需求进行定制开发,导致开发周期较长。
2. 第1阶段 - 基于Kylin的OLAP平台架构:
针对第一阶段的问题,贝壳引入了Apache Kylin作为OLAP引擎,它能够处理大规模数据并支持高并发、亚秒级查询。Kylin的核心是预计算,通过预先计算好多维分析的结果,提高查询效率。同时,贝壳构建了指标平台,对外提供统一的API,实现了指标的统一定义和口径管理。应用层通过指标API获取数据,而不是直接访问Kylin,简化了数据获取流程。
3. 第2阶段 - 支持多种OLAP引擎的平台建设:
随着业务的复杂性和数据量的增长,贝壳可能需要支持更多类型的OLAP引擎,以满足不同的分析需求。这一阶段的平台建设旨在提高灵活性和可扩展性,可能包括对其他OLAP引擎如Hadoop、HBase、Presto或Spark SQL的集成,以应对不同场景下的性能和功能需求。
在这个过程中,贝壳构建了数据仓库体系,包括ODS(操作数据存储)、DWD(明细数据层)、DWS(数据服务层),以及维度建模,确保数据的标准化和一致性。指标平台则扮演了关键角色,它不仅管理指标的定义和口径,还处理复杂的查询逻辑,如同环比计算和指标间的运算。
Apache Kylin作为选择的OLAP引擎,其特点是开源、高性能、大容量,特别适合电商、互联网等行业的大数据分析。它的预计算模型减少了在线查询时的计算压力,提高了用户体验。
总结来说,贝壳OLAP平台的演进反映了数据处理技术的发展趋势,从单一工具到多元化引擎,从简单的数据存储到复杂的分析平台,不断优化以满足大数据时代的需求。通过架构的迭代,贝壳能够更高效地处理和分析海量数据,为决策提供强有力的支持。
2022-03-18 上传
2022-09-23 上传
2022-03-18 上传
2022-03-18 上传
2022-03-18 上传
2022-03-18 上传
2022-03-18 上传
普通网友
- 粉丝: 13w+
- 资源: 9195
最新资源
- 深入浅出:自定义 Grunt 任务的实践指南
- 网络物理突变工具的多点路径规划实现与分析
- multifeed: 实现多作者间的超核心共享与同步技术
- C++商品交易系统实习项目详细要求
- macOS系统Python模块whl包安装教程
- 掌握fullstackJS:构建React框架与快速开发应用
- React-Purify: 实现React组件纯净方法的工具介绍
- deck.js:构建现代HTML演示的JavaScript库
- nunn:现代C++17实现的机器学习库开源项目
- Python安装包 Acquisition-4.12-cp35-cp35m-win_amd64.whl.zip 使用说明
- Amaranthus-tuberculatus基因组分析脚本集
- Ubuntu 12.04下Realtek RTL8821AE驱动的向后移植指南
- 掌握Jest环境下的最新jsdom功能
- CAGI Toolkit:开源Asterisk PBX的AGI应用开发
- MyDropDemo: 体验QGraphicsView的拖放功能
- 远程FPGA平台上的Quartus II17.1 LCD色块闪烁现象解析