唯品会大数据困境：Kylin驱动的自助多维分析平台

146 浏览量更新于2024-08-31 收藏 179KB PDF 举报

在唯品会的大数据应用中，Apache Kylin扮演了关键的角色，尤其是在解决数据分析中的瓶颈问题。随着大数据技术的发展，传统的基于关系型数据库（RDBMS）的企业数据仓库（EDW）逐渐向批处理式处理模式转变，尽管批量处理的效率得到了提升，但实时、即席查询（Ad-hoc）的响应速度成为了主要挑战。在2015年，唯品会在数据分析上面临两大难题：一是数据准备流程繁琐，业务人员和BI团队间的沟通复杂，导致信息传递效率低下，分析结果可能偏离初衷且延迟；二是缺乏合适的工具，阻碍了业务人员直接进行数据分析，使得数据门槛过高。这些问题严重影响了数据分析的时效性和灵活性。为了解决这些问题，唯品会大数据部门引入了Apache Kylin，这是一个高性能的OLAP（在线分析处理）工具。Kylin提供了维度建模和数据准备的功能，允许业务人员根据需求自由定义维度和指标，实现自助式数据分析。它具有高扩展性，能够处理大规模数据，并保证在10秒内的Ad-hoc查询性能，这对于满足快速响应和实时洞察线上业务至关重要。在数据引擎的选择上，唯品会最初采用了基于Presto的ROLAP模型，后来进一步升级到结合Kylin和Presto的双计算引擎架构。这使得系统能够在处理海量数据的同时，保证了查询速度，满足了对大量明细数据进行汇总，以及同时处理多个维度和指标的需求。通过这些改进，唯品会成功降低了数据分析的门槛，提升了分析效率，实现了“让大数据成为增长引擎”的目标。如今，公司内部普遍倡导“人人都是数据分析师”，这种理念的普及得益于Kylin等工具的引入和优化。在数据和前端交互上，强大的数据引擎如Kylin确保了数据的高效利用，推动了公司的数据驱动决策和业务优化。

ApacheKylin在唯品会大数据的应用在唯品会大数据的应用

背景介绍

引子：随着传统基于RDBMS的EDW往大数据的演进的过程中，Batch可处理的数据量越来越大，时间越来越快，但是Ad-hoc

的响应速度却始终是大数据的瓶颈。

在2015年唯品会的数据分析碰到了以下两个瓶颈：第一是数据准备的流程长，第二是缺少合适数据提取和分析工具。

首先，从数据准备流程来看，常见的流程是业务人员提出需求，BI同事定角度、找数据，如果数据不完善，还得继续找数据

开发。这就导致同一个需求，需要和不同的人反复沟通，在沟通过程中参与的人越多，信息衰减也就越厉害。再加上排期的等

待，最终的结果一方面可能与初衷有所偏差，另一方面时间一长也失去了对热点关注度，分析变得非常滞后，不能及时的反应

线上业务并加以改进。

其次，对于有分析能力的业务侧同学，没有趁手的工具就导致即使有能力准备撩袖子大干一场了也发现巧妇难为无米之炊，大

家只能感慨大数据的门槛太高了，又回到了第一点的长时间等待的恶性循环里去了。

我们总结下来，在唯品会这样规模的公司里，数据分析有两个痛点：

需要一个可以自由组合的维度和指标的平台，业务人员可以根据自己的视角自给自足的完成数据提取和分析；

这个平台，不仅数据要够丰富，即使大数据量响应速度也要快。

针对这两个痛点，本着“让大数据成为唯品会的增长引擎”这个目标，我们大数据部门的提供了一套完整的解决方案：自助多维

分析平台。我们通过有较高可扩展性的维度建模准备数据，在此之上搭建一套数据查询引擎，并配上操作简单的数据可视化前

端，为业务人员搭了数据分析的台子。随着大家数据分析技能的提升，人人都是数据分析师的这个理念就逐渐在公司内部扩展

开来了。

唯品会如何使用Kylin

数据和前端是皮和肉，需要通过好的数据引擎才能支撑起来。在数据引擎角度，我们通过一段时间的积累和演进，从基于

Presto的ROLAP模型进化到了基于Kylin和Presto的双计算引擎。往超大数据集也要快速ad-hoc响应的方向走近了一步。

第一阶段，我们的目标是在Ad-hoc响应时间<= 10秒的前提条件下，支持：

平均每次查询10亿+明细数据做汇总；

平均每个查询0-15个维度；

平均每个查询1-5个指标。

根据这个目标，我们选择使用Presto作为计算引擎，Presto MPP的架构 + 通过Hive Connector直接访问HDFS上的数据，为我

们提供良好的Ad-hoc响应速度和相对较低的维护成本。为了满足高Ad-hoc响应速度的需求，常见的做法是把HDFS上处理完

的数据同步到Ad-hoc响应友好的数据库中，比如GreenPlum或Hbase等，但这样的缺点是虽然速度上去了，但数据模型在

Hive和Ad-hoc库中需要维护两份并保持一致，维护的成本非常高。Presto的Connector机制很好的解决了这个问题，同时他的

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38625192

粉丝: 4
资源: 943

唯品会大数据困境：Kylin驱动的自助多维分析平台

唯品会大数据平台技术实践.pdf

唯品会大数据实践方案.ppt

唯品会大数据存储和计算方案

唯品会oauth2.0

唯品会在供应链竞争方面的现状、潜在风险、以及对应解决风险的策略

唯品会联盟api接入流程文档v1.91

唯品会移动端 html css

唯品会APP的更新过程以及app更新的内容

唯品会618页面prd文档

唯品会商品价格监控app

最新资源