唯品会大数据困境:Apache Kylin驱动的高效分析平台
165 浏览量
更新于2024-08-28
收藏 179KB PDF 举报
在唯品会的大数据应用中,Apache Kylin扮演了关键的角色,尤其是在解决数据分析效率低下和响应速度瓶颈的问题上。随着企业从传统的基于关系型数据库(RDBMS)的企业数据仓库(EDW)向大数据环境的转型,批量处理能力虽然得到显著增强,但实时、即席查询(Ad-hoc)的性能却成为了瓶颈。
在2015年,唯品会面临的主要挑战有两个:一是数据准备过程冗长且依赖性强,业务人员的需求需多次传递和确认,导致信息损失和效率低;二是缺乏适合进行数据提取和分析的工具,阻碍了业务人员快速响应市场变化。为了改变这种状况,大数据部门引入了自助多维分析平台,该平台基于Apache Kylin构建,它提供了灵活的维度建模和高效的数据查询能力,使得业务人员能够自主完成数据挖掘和分析,从而实现数据驱动的决策。
在数据引擎层面,唯品会经历了从基于Presto的行式OLAP(ROLAP)模型到同时整合Kylin和Presto双引擎的转变。Kylin以其高扩展性和快速响应能力,特别是在处理大规模数据集时,能够满足ad-hoc查询在10秒内的性能要求。这包括支持每查询10亿以上的明细数据汇总,同时保持查询维度在15个以内,指标不超过5个。通过Presto的列式存储架构以及Hive Connector访问HDFS,唯品会的数据分析平台实现了数据的高效管理和查询,降低了数据分析师的门槛,使得“人人都是数据分析师”的理念得以实现。
唯品会利用Apache Kylin解决了数据准备复杂、响应速度慢等问题,构建了一个自助式的多维分析平台,不仅提升了数据的可用性,还加快了决策响应速度,有力地推动了企业的增长。这表明在大数据时代,选择合适的工具和技术对于企业的数据驱动战略至关重要。
2021-10-22 上传
2021-09-03 上传
2017-04-17 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
2023-12-03 上传
2023-05-12 上传
weixin_38656337
- 粉丝: 4
- 资源: 921
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全