唯品会大数据困境：Apache Kylin驱动的高效分析平台

165 浏览量更新于2024-08-28 收藏 179KB PDF 举报

在唯品会的大数据应用中，Apache Kylin扮演了关键的角色，尤其是在解决数据分析效率低下和响应速度瓶颈的问题上。随着企业从传统的基于关系型数据库(RDBMS)的企业数据仓库(EDW)向大数据环境的转型，批量处理能力虽然得到显著增强，但实时、即席查询（Ad-hoc）的性能却成为了瓶颈。在2015年，唯品会面临的主要挑战有两个：一是数据准备过程冗长且依赖性强，业务人员的需求需多次传递和确认，导致信息损失和效率低；二是缺乏适合进行数据提取和分析的工具，阻碍了业务人员快速响应市场变化。为了改变这种状况，大数据部门引入了自助多维分析平台，该平台基于Apache Kylin构建，它提供了灵活的维度建模和高效的数据查询能力，使得业务人员能够自主完成数据挖掘和分析，从而实现数据驱动的决策。在数据引擎层面，唯品会经历了从基于Presto的行式OLAP（ROLAP）模型到同时整合Kylin和Presto双引擎的转变。Kylin以其高扩展性和快速响应能力，特别是在处理大规模数据集时，能够满足ad-hoc查询在10秒内的性能要求。这包括支持每查询10亿以上的明细数据汇总，同时保持查询维度在15个以内，指标不超过5个。通过Presto的列式存储架构以及Hive Connector访问HDFS，唯品会的数据分析平台实现了数据的高效管理和查询，降低了数据分析师的门槛，使得“人人都是数据分析师”的理念得以实现。唯品会利用Apache Kylin解决了数据准备复杂、响应速度慢等问题，构建了一个自助式的多维分析平台，不仅提升了数据的可用性，还加快了决策响应速度，有力地推动了企业的增长。这表明在大数据时代，选择合适的工具和技术对于企业的数据驱动战略至关重要。

ApacheKylin在唯品会大数据的应用在唯品会大数据的应用

背景介绍

引子：随着传统基于RDBMS的EDW往大数据的演进的过程中，Batch可处理的数据量越来越大，时间越来越快，但是Ad-hoc

的响应速度却始终是大数据的瓶颈。

在2015年唯品会的数据分析碰到了以下两个瓶颈：第一是数据准备的流程长，第二是缺少合适数据提取和分析工具。

首先，从数据准备流程来看，常见的流程是业务人员提出需求，BI同事定角度、找数据，如果数据不完善，还得继续找数据

开发。这就导致同一个需求，需要和不同的人反复沟通，在沟通过程中参与的人越多，信息衰减也就越厉害。再加上排期的等

待，最终的结果一方面可能与初衷有所偏差，另一方面时间一长也失去了对热点关注度，分析变得非常滞后，不能及时的反应

线上业务并加以改进。

其次，对于有分析能力的业务侧同学，没有趁手的工具就导致即使有能力准备撩袖子大干一场了也发现巧妇难为无米之炊，大

家只能感慨大数据的门槛太高了，又回到了第一点的长时间等待的恶性循环里去了。

我们总结下来，在唯品会这样规模的公司里，数据分析有两个痛点：

需要一个可以自由组合的维度和指标的平台，业务人员可以根据自己的视角自给自足的完成数据提取和分析；

这个平台，不仅数据要够丰富，即使大数据量响应速度也要快。

针对这两个痛点，本着“让大数据成为唯品会的增长引擎”这个目标，我们大数据部门的提供了一套完整的解决方案：自助多维

分析平台。我们通过有较高可扩展性的维度建模准备数据，在此之上搭建一套数据查询引擎，并配上操作简单的数据可视化前

端，为业务人员搭了数据分析的台子。随着大家数据分析技能的提升，人人都是数据分析师的这个理念就逐渐在公司内部扩展

开来了。

唯品会如何使用Kylin

数据和前端是皮和肉，需要通过好的数据引擎才能支撑起来。在数据引擎角度，我们通过一段时间的积累和演进，从基于

Presto的ROLAP模型进化到了基于Kylin和Presto的双计算引擎。往超大数据集也要快速ad-hoc响应的方向走近了一步。

第一阶段，我们的目标是在Ad-hoc响应时间<= 10秒的前提条件下，支持：

平均每次查询10亿+明细数据做汇总；

平均每个查询0-15个维度；

平均每个查询1-5个指标。

根据这个目标，我们选择使用Presto作为计算引擎，Presto MPP的架构 + 通过Hive Connector直接访问HDFS上的数据，为我

们提供良好的Ad-hoc响应速度和相对较低的维护成本。为了满足高Ad-hoc响应速度的需求，常见的做法是把HDFS上处理完

的数据同步到Ad-hoc响应友好的数据库中，比如GreenPlum或Hbase等，但这样的缺点是虽然速度上去了，但数据模型在

Hive和Ad-hoc库中需要维护两份并保持一致，维护的成本非常高。Presto的Connector机制很好的解决了这个问题，同时他的

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38656337

粉丝: 4
资源: 921

唯品会大数据困境：Apache Kylin驱动的高效分析平台

唯品会大数据平台技术实践.pdf

唯品会大数据实践方案.ppt

唯品会大数据存储和计算方案

唯品会大数据困境：Kylin驱动的自助多维分析平台

唯品会大数据实践：数据平台与应用建设

唯品会大数据平台资源管理与优化策略

唯品会大数据实时OLAP分析优化实践

唯品会oauth2.0

唯品会在供应链竞争方面的现状、潜在风险、以及对应解决风险的策略

唯品会联盟api接入流程文档v1.91

最新资源