美团点评的Apache Kylin应用实践：解决大数据查询痛点

9 浏览量更新于2024-08-28 收藏 625KB PDF 举报

"Apache Kylin在美团点评的应用主要解决了在大数据环境下即席查询和固化查询的效率问题。美团点评面临的问题包括数据维度增加导致维护成本上升、数据量增大造成MySQL性能瓶颈以及大数据平台计算压力增大。在调研了各种OLAP引擎后，美团点评选择了Apache Kylin作为固化查询场景的解决方案，因为Kylin能够在数据量、性能和灵活性之间找到平衡，特别是其预计算机制能够实现对超大数据集的秒级响应。" 在美团点评，OLAP(在线分析处理)需求主要分为两部分：即席查询和固化查询。即席查询允许用户通过编写SQL进行临时的数据分析，对响应时间的要求相对宽松，因此采用了Hive和Presto作为查询引擎。然而，固化查询则要求快速的响应时间，通常用于常规的数据取数和查看，以往是通过在数据仓库中预聚合数据然后导入MySQL来实现。随着业务的发展，这种方法面临了几个挑战： 1. 维度增加导致维护成本增加：随着业务的复杂性提升，维护各种维度组合的预聚合表变得困难，降低了数据开发的效率。 2. 数据量大导致MySQL性能瓶颈：当数据量超过千万行，MySQL的导入和查询速度显著下降，甚至可能导致系统崩溃。 3. 大数据平台计算压力过大：由于大多数查询需求依赖Hive和Presto，这使得集群的计算压力持续增长，无法满足业务增长的需求。在寻找解决方案的过程中，美团点评对比了多种OLAP引擎，如MPP架构的Presto、Impala、SparkSQL和Drill，以及搜索引擎架构的Elasticsearch。MPP系统虽然对数据量和灵活性有良好支持，但响应时间难以保证；搜索引擎架构系统如Elasticsearch虽然性能出色，但在处理大量扫描聚合查询时也会出现性能退化。最后，预计算系统Apache Kylin脱颖而出，因为它在数据入库时进行预聚合，牺牲了一定的灵活性以换取高性能，特别适合处理大数据集的秒级查询需求。 Apache Kylin的引入，解决了美团点评在固化查询中的响应时间问题，同时也优化了大数据平台的资源利用，有效缓解了计算压力。通过预计算和优化的查询性能，Kylin能够更好地应对美团点评的业务增长和数据复杂度，提升了数据分析的效率和用户体验。

ApacheKylin在美团点评的应用在美团点评的应用

美团点评的OLAP需求大体分为两类：

即席查询：指用户通过手写SQL来完成一些临时的数据分析需求。这类需求的SQL形式多变、逻辑复杂，对响应时间没有严格

的要求。

固化查询：指对一些固化下来的取数、看数的需求，通过数据产品的形式提供给用户，从而提高数据分析和运营的效率。这类

需求的SQL有固定的模式，对响应时间有比较高的要求。

我们针对即席查询提供了Hive和Presto两个引擎。而固化查询由于需要秒级响应，很长一段时间都是通过先在数仓对数据做预

聚合，再将聚合表导入MySQL提供查询实现的。但是随着公司业务数据量和复杂度的不断提升，从2015年开始，这个方案出

现了三个比较突出的问题：

随着维度的不断增加，在数仓中维护各种维度组合的聚合表的成本越来越高，数据开发效率明显下降;

数据量超过千万行后，MySQL的导入和查询变得非常慢，经常把MySQL搞崩，DBA的抱怨很大;

由于大数据平台缺乏更高效率的查询引擎，查询需求都跑在Hive/Presto上，导致集群的计算压力大，跟不上业务需求的增

长。

为了解决这些痛点，我们在2015年末开始调研更高效率的OLAP引擎，寻找固化查询场景的解决方案。

为什么选择Kylin

在调研了市面上主流的开源OLAP引擎后，我们发现，目前还没有一个系统能够满足各种场景的查询需求。其本质原因是，没

有一个系统能同时在数据量、性能、和灵活性三个方面做到完美，每个系统在设计时都需要在这三者间做出取舍。

例如:

MPP架构的系统（Presto/Impala/SparkSQL/Drill等）有很好的数据量和灵活性支持，但是对响应时间是没有保证的。当数据

量和计算复杂度增加后，响应时间会变慢，从秒级到分钟级，甚至小时级都有可能。

搜索引擎架构的系统（Elasticsearch等）相对比MPP系统，在入库时将数据转换为倒排索引，采用Scatter-Gather计算模型，

牺牲了灵活性换取很好的性能，在搜索类查询上能做到亚秒级响应。但是对于扫描聚合为主的查询，随着处理数据量的增加，

响应时间也会退化到分钟级。

预计算系统（Druid/Kylin等）则在入库时对数据进行预聚合，进一步牺牲灵活性换取性能，以实现对超大数据集的秒级响应。

有了这套框架，我们不难结合美团点评的自身需求特点，选择合适的OLAP引擎。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38711041

粉丝: 6
资源: 954

美团点评的Apache Kylin应用实践：解决大数据查询痛点

【案例分享】ApacheKylin在美团点评的应用

ApacheKylin在大数据系统中应用.pdf

ApacheKylin在唯品会大数据的应用

ApacheKylin在4399大数据平台的应用

美团点评优化OLAP：Apache Kylin解决大数据查询痛点

美团点评优化OLAP：Apache Kylin解决大数据分析痛点

大数据平台架构——美团点评用户行为分析系统的构建与优化 共46页.pdf

效率提升4倍，ApacheKylin在银联的实践

ApacheKylin分析型数据仓库 v3.1.1

ApacheKylin分析型数据仓库 v3.1.0

最新资源

大数据平台架构——美团点评用户行为分析系统的构建与优化共46页.pdf