Apache Kylin：超大数据集的OLAP亚秒级查询引擎

118 浏览量更新于2024-08-28 收藏 283KB PDF 举报

Apache Kylin是一个强大的在线分析处理（OLAP）工具，专为大数据环境设计。它作为一个开源的海量数据分布式预处理引擎，允许用户通过ANSI SQL接口对TB至PB级别的数据进行快速查询，提供亚秒级的响应时间。Kylin在Hadoop生态系统中运行，将大数据分析的性能提升到新的水平。在使用Kylin的过程中，首先需要确定Hadoop集群上的星型模式数据集，星型模式是一种常见的数据仓库设计，由一个中心事实表和多个关联的维度表组成。接着，构建数据立方体（Cube），这是Kylin的核心部分。数据立方体是对原始数据进行预计算和聚合，以提高查询效率。构建过程包括定义模型、选择维度和度量、设定分区策略等。模型（Model）是Kylin中的关键概念，它定义了数据的逻辑结构。模型包含事实表和查找表，描述了它们之间的连接和过滤条件。事实表通常包含业务事件的主要数据，而查找表用于存储维度数据，提供丰富的分析上下文。立方体（Cube）是实际进行预计算的对象，它基于模型指定的表、维度和度量。每个立方体可以进一步划分为多个立方体段（CubeSegment），这些段对应于数据的不同时间或分区。当原始数据发生变化时，只需要更新受影响的立方体段，而不是整个立方体，从而提高了更新效率。在操作层面，Kylin通过作业（Job）来管理立方体的构建过程。作业跟踪立方体构建的每一步，包括状态信息，如新建（NEW）、等待（PENDING）、运行（RUNNING）、完成（FINISHED）或错误（ERROR）。用户可以通过监控作业状态来了解构建进度和结果。此外，Kylin提供了多种查询接口，如ODBC、JDBC和RESTful API，使得用户能够轻松地从各种应用程序中访问和分析数据。这些接口的使用确保了与其他系统的兼容性和灵活性。 Apache Kylin通过预计算和优化查询路径，显著提升了大数据环境下的多维分析能力，为企业决策支持和实时分析提供了强大的支持。它的易用性、高效性和与Hadoop的紧密集成，使其成为大数据OLAP领域的一个重要工具。

【干货分享】【干货分享】ApacheKylin：一个：一个OLAP利器利器

Apache Kylin 简介

1. Apache kylin 是一个开源的海量数据分布式预处理引擎。它通过 ANSI-SQL 接口，提供基于 hadoop 的超大数据集（TB-PB

级）的多维分析（OLAP）功能。

2. kylin 可实现超大数据集上的亚秒级（sub-second latency）查询。

1）确定 hadoop 上一个星型模式的数据集。

2）构建数据立方体 cube。

3）可通过 ODBC, JDBC,RESTful API 等接口在亚秒级的延迟内查询相

Apache Kylin 核心概念

1. 表（Table ）：表定义在 hive 中，是数据立方体（Data cube）的数据源，在 build cube 之前，必须同步在 kylin 中。

2. 模型（model）: 模型描述了一个星型模式的数据结构，它定义了一个事实表（Fact Table）和多个查找表（Lookup Table）

的连接和过滤关系。

3. 立方体（Cube）：它定义了使用的模型、模型中的表的维度（dimension）、度量（measure , 一般指聚合函数，如：

sum、count、average 等）、如何对段分区（ segments partition）、合并段（segments auto-merge）等的规则。

4. 立方体段（Cube Segment）：它是立方体构建（build）后的数据载体，一个 segment 映射 hbase 中的一张表，立方体实

例构建（build）后，会产生一个新的 segment，一旦某个已经构建的立方体的原始数据发生变化，只需刷新（fresh）变化的

时间段所关联的 segment 即可。

5. 作业（Job）：对立方体实例发出构建（build）请求后，会产生一个作业。该作业记录了立方体实例 build 时的每一步任务

信息。作业的状态信息反映构建立方体实例的结果信息。如作业执行的状态信息为 RUNNING 时，表明立方体实例正在被构

建；若作业状态信息为 FINISHED ，表明立方体实例构建成功；若作业状态信息为 ERROR ，表明立方体实例构建失败！作

业的所有状态如下：

1）NEW - This denotes one job has been just created.

2）PENDING - This denotes one job is paused by job scheduler and waiting for resources.

3）RUNNING - This denotes one job is running in progress.

4）FINISHED - This denotes one job is successfully finished.

5）ERROR - This denotes one job is aborted with errors.

6）DISCARDED - This denotes one job is cancelled by end users.

Apache Kylin 工作机制

1. Apache kylin 能提供低延迟（sub-second latency）的秘诀就是预计算，即针对一个星型拓扑结构的数据立方体，预计算多

个维度组合的度量，然后将结果保存在 hbase 中，对外暴露 JDBC、ODBC、Rest API 的查询接口，即可实现实时查询。数

据立方体一般由 Hive 中的一个事实表, 多个查找表组成。预计算的过程在 kylin 中就是 Cube 的 build 过程，如下图：

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38622777

粉丝: 5
资源: 938

Apache Kylin：超大数据集的OLAP亚秒级查询引擎

Apache Kylin：中国开源OLAP引擎的大数据利器

OLAP特点：Mondrian-OLAP详解及应用

OLAP实例解析：mondrian-olap的维度分析与度量值应用

ClickHouse：列式数据库OLAP利器

JPivot标签深度解析：OLAP前端展现利器

StOAP:单线程 OLAP 聚合处理器 (StOAP)

ClickHouse：高性能OLAP数据库详解

Druid：实时大数据OLAP技术详解与实践

Microsoft SQL Server 2008：OLTP与OLAP解析

IBM DB2基础教程：入门到OLAP概念

最新资源