唯品会大数据困境:Apache Kylin驱动的高效分析平台

0 下载量 165 浏览量 更新于2024-08-28 收藏 179KB PDF 举报
在唯品会的大数据应用中,Apache Kylin扮演了关键的角色,尤其是在解决数据分析效率低下和响应速度瓶颈的问题上。随着企业从传统的基于关系型数据库(RDBMS)的企业数据仓库(EDW)向大数据环境的转型,批量处理能力虽然得到显著增强,但实时、即席查询(Ad-hoc)的性能却成为了瓶颈。 在2015年,唯品会面临的主要挑战有两个:一是数据准备过程冗长且依赖性强,业务人员的需求需多次传递和确认,导致信息损失和效率低;二是缺乏适合进行数据提取和分析的工具,阻碍了业务人员快速响应市场变化。为了改变这种状况,大数据部门引入了自助多维分析平台,该平台基于Apache Kylin构建,它提供了灵活的维度建模和高效的数据查询能力,使得业务人员能够自主完成数据挖掘和分析,从而实现数据驱动的决策。 在数据引擎层面,唯品会经历了从基于Presto的行式OLAP(ROLAP)模型到同时整合Kylin和Presto双引擎的转变。Kylin以其高扩展性和快速响应能力,特别是在处理大规模数据集时,能够满足ad-hoc查询在10秒内的性能要求。这包括支持每查询10亿以上的明细数据汇总,同时保持查询维度在15个以内,指标不超过5个。通过Presto的列式存储架构以及Hive Connector访问HDFS,唯品会的数据分析平台实现了数据的高效管理和查询,降低了数据分析师的门槛,使得“人人都是数据分析师”的理念得以实现。 唯品会利用Apache Kylin解决了数据准备复杂、响应速度慢等问题,构建了一个自助式的多维分析平台,不仅提升了数据的可用性,还加快了决策响应速度,有力地推动了企业的增长。这表明在大数据时代,选择合适的工具和技术对于企业的数据驱动战略至关重要。