唯品会大数据困境:Kylin驱动的自助多维分析平台

1 下载量 146 浏览量 更新于2024-08-31 收藏 179KB PDF 举报
在唯品会的大数据应用中,Apache Kylin扮演了关键的角色,尤其是在解决数据分析中的瓶颈问题。随着大数据技术的发展,传统的基于关系型数据库(RDBMS)的企业数据仓库(EDW)逐渐向批处理式处理模式转变,尽管批量处理的效率得到了提升,但实时、即席查询(Ad-hoc)的响应速度成为了主要挑战。 在2015年,唯品会在数据分析上面临两大难题:一是数据准备流程繁琐,业务人员和BI团队间的沟通复杂,导致信息传递效率低下,分析结果可能偏离初衷且延迟;二是缺乏合适的工具,阻碍了业务人员直接进行数据分析,使得数据门槛过高。这些问题严重影响了数据分析的时效性和灵活性。 为了解决这些问题,唯品会大数据部门引入了Apache Kylin,这是一个高性能的OLAP(在线分析处理)工具。Kylin提供了维度建模和数据准备的功能,允许业务人员根据需求自由定义维度和指标,实现自助式数据分析。它具有高扩展性,能够处理大规模数据,并保证在10秒内的Ad-hoc查询性能,这对于满足快速响应和实时洞察线上业务至关重要。 在数据引擎的选择上,唯品会最初采用了基于Presto的ROLAP模型,后来进一步升级到结合Kylin和Presto的双计算引擎架构。这使得系统能够在处理海量数据的同时,保证了查询速度,满足了对大量明细数据进行汇总,以及同时处理多个维度和指标的需求。 通过这些改进,唯品会成功降低了数据分析的门槛,提升了分析效率,实现了“让大数据成为增长引擎”的目标。如今,公司内部普遍倡导“人人都是数据分析师”,这种理念的普及得益于Kylin等工具的引入和优化。在数据和前端交互上,强大的数据引擎如Kylin确保了数据的高效利用,推动了公司的数据驱动决策和业务优化。