Apache Kylin入门指南：分布式分析引擎和OLAP解决方案

需积分: 0 149 浏览量更新于2024-06-30 收藏 1.99MB PDF 举报

"Kylin入门学习资料1" Kylin是一个开源的分布式分析引擎，提供Apache Hadoop之上的SQL查询接口及多维分析（OLAP）能力，以支持超大规模数据。Kylin的本质是拿空间换时间，通过预计算把用户需要查询的维度以及他们所对应的考量的值，存储在多维空间里。 Kylin的主要特点是使用多维立方体预计算处理大数据查询，在Hadoop平台上提供亚秒级查询千亿记录的能力，提供标准SQL接口，查询性能比Hive快100~1000倍。其独创的稀疏立方体、压缩存储、微批处理构建等技术，很好的解决了大数据建立索引的指数级膨胀的难题，从而在查询速度上大大领先于其他基于MPP（大规模并行计算）等技术的解决方案。 Kylin是一个MOLAP系统，主要用于支持大数据生态圈的数据分析业务，通过预计算的方式将用户设定的多维立方体缓存到HBase中。Kylin与ROLAP系统Mondrian不同的是，Kylin需要预计算，而Mondrian不需要预计算，所有的查询可以通过实时的数据库查询完成。 Kylin的应用非常广泛，已经被国内外一线的互联网、金融、电信等公司越来越多地采用作为其大数据分析平台。Kylin也是第一个由中国人主导的Apache顶级项目，于2015年11月正式毕业成为Apache顶级项目，并获得了InfoWorld2015年Bossie最佳开源大数据工具奖。 Kylin的优点包括： * 高性能查询速度，查询性能比Hive快100~1000倍 * 支持超大规模数据，提供标准SQL接口 * 独创的稀疏立方体、压缩存储、微批处理构建等技术，解决了大数据建立索引的指数级膨胀的难题 * 良好的扩展性和可靠性，支持大数据分析业务 * 广泛应用于互联网、金融、电信等行业 Kylin的缺点包括： * 需要预计算，占用更多的存储空间 * 只支持HBase，目前不支持其他存储系统 * 需要专门的维护和管理，需要专业的技术人员 Kylin是一个功能强大且高性能的分布式分析引擎，广泛应用于大数据分析业务，具有广阔的发展前景。

这类维度的意思是可推导的维度，需要该维度对应的一个或者多个列可以和维度表的主

键是一对一的，这种维度可以大大减少 cuboid 个数，如下图：

derived dimension

例如 timeid 是时间这个维度表的主键，也就是事实表的外键，时间只精确到天，

那么 year、month、day 三列可以唯一对应着一个 time_id，而 time_id 是事实

表的外键，那么我们可以指定 year、month、day 为一个 derived 维度，实际存

储的时候可以只根据 timeid 的取值决定维度的组合，但这就要求我们在查询的

时候使用的 group by 必须指定 derived 维度集合中的所有列。

最后，简单介绍一下如何计算 cuboid 个数的，假设我们存在两个普通维度

brand、product，存在一个 hierarchy，包含四个维度分别为 year、quart、month

和 day，一个 derived 维度，指定 location 信息，包含 country、province 和

city 列，这相当于一共 9 个维度，但是根据上面的分析我们并不需要 512 分

cuboid。

第 0 层的 cuboid（不包含任何维度，不包含 group by），cuboid 的个数为

1，这个 cuboid 的成员个数也为 1；

第 1 层的 cuboid 包含一个维度，一共有 4 种组合（分别为 brand、product、

year、location，因为 quart 是 hierarchy 的第二个层级，不能单独 group by，

而 location 的三列可以视为一个整体），成员个数则有每一个维度的

cardinality；

第 2 层的 cuboid 有 7 种，分别为{brand、product}、{brand、year}、{brand、

location}、{product、year}、{product、location}、{year、location}和{year、

quart}；

第 3 层的 cuboid 有 8 种，分别为{brand、product、year}、{brand、product、

location}、{product、year、location}、{brand、year、location}、{brand、

year、quart}、{product、year、quart}、{location、year、quart}、{year、

quart、month}；

第 4 层的 cuboid 有 8 种，分别为{brand、product、year、location}、{brand、

product、year、quart}、{brand、location、year、quart}、{product、location、

year、quart}、{brand、year、quart、month}、{product、year、quart、month}、

{location、year、quart、month}、{year、quart、month、day}

第 5 层的 cuboid 有 7 种，分别为{brand、product、year、quart、location}、

{brand、product、year、quart、momth}、{brand、location、year、quart、

month}、{product、location、year、quart、month}、{brand、year、quart、

month、day}、{product、year、quart、month、day}、{location、year、quart、

month、day}

第 6 层的 cuboid 有 5 种，分别为{brand、product、year、quart、month、

location}、{brand、product、year、quart、momth、day}、{brand、location、

year、quart、month、day}、{product、location、year、quart、month、day}

第 7 层的 cuboid 有 1 中，为{brand、product、year、quart、month、day、

location}

所以一共 40 个 cuboid（kylin 计算的是 39 个，应该没有把第 0 层的计算在内）。

2.6、增量 Cube

由于 kylin 的核心在于预计算缓存数据，那么对于实时的数据查询的支持就不如

mondrian 好了，但是一般情况下我们数据分析并没有完全实时的要求，数据延迟几个小时

甚至一天是可以接受的，kylin 提供了增量 cube 的接口，kylin 的实现是一个 cube（这里是指

逻辑上的 cube）中可以包含多个 segment，每一个 segment 对应着一个物理 cube，在实际

存储上对应着一个 hbase 的一个表，用户定义根据某一个字段进行增量（目前仅支持时间，

并且这个字段必须是 hive 的一个分区字段），在使用的时候首先需要定义好 cube 的定义，

可以指定一个时间的 partition 字段作为增量 cube 的依赖字段，其实这个选择是作为原始数

据选择的条件，例如选择起始时间 A 到 B 的数据那么创建的 cube 则会只包含这个时间段的

数据聚合值，创建完一个 cube 之后可以再次基于以前的 cube 进行 build，每次 build 会生成

一个新的 segment，只不过原始数据不一样了（根据每次 build 指定的时间区间），每次查

询的时候会查询所有的 segment 聚合之后的值进行返回，有点类似于 tablet 的存储方式，但

是当 segment 存在过多的时候查询效率就会下降，因此需要在存在多个 segment 的时候将它

们进行合并，合并的时候其实是指定了一个时间区间，内部会选择这个时间区间内的所有

segment 进行合并，合并完成之后使用新的 segment 替换被合并的多个 segment，合并的执

行是非常迅速的，数据不需要再从 HDFS 中获取，直接将两个 hbase 表中相同 key 的数据进

行聚合就可以了。但是有一点需要注意的是当合并完成之后，被合并的几个 segment 所对应

的 hbase 表并没有被删除。实际的使用过程中对于增量的 cube 可以写个定时任务每天凌晨

进行 build，当达到一个数目之后进行 merge（其实每次 build 完成之后都进行 merge 也应该

是可以的）。

2.7、Cube 的词典树

Kylin 的 cube 数据是作为 key-value 结构存储在 hbase 中的，key 是每一个维度成员的组

合值，不同的 cuboid 下面的 key 的结构是不一样的，例如 cuboid={brand，product，year}下

面的一个 key 可能是 brand='Nike'，product='shoe'，year=2015，那么这个 key 就可以写成

Nike:shoe:2015，但是如果使用这种方式的话会出现很多重复，所以一般情况下我们会把一

个维度下的所有成员取出来，然后保存在一个数组里面，使用数组的下标组合成为一个 key，

这样可以大大节省 key 的存储空间，kylin 也使用了相同的方法，只不过使用了字典树（Trie

树），每一个维度的字典树作为 cube 的元数据以二进制的方式存储在 hbase 中，内存中也

剩余39页未读，继续阅读

LauraKuang

粉丝: 23
资源: 334

Apache Kylin入门指南：分布式分析引擎和OLAP解决方案

Apache Kylin初识1

1.kyLin-V2.4-开发板基础学习例程

kyLin-V3.1-开发板基础学习例程-keil-stm32F1xx

大数据学习资源之Kylin.pdf

Apache Kylin快速入门教程【中文高清版】

Apache Kylin入门到精通：大数据分析利器

Kylin权威安装与学习指南教程

Apache Kylin入门：预计算立方体提升Hadoop查询效率

Apache Kylin入门指南：亚秒级分析与集成详解

Kylin在机器学习与预测分析中的应用

最新资源