Apache Kylin：大数据分析引擎的预计算力量

需积分: 10 5 浏览量更新于2024-07-17 收藏 2.09MB PDF 举报

Apache Kylin 是一个专为大数据分析设计的开源分布式分析引擎，最初由 eBay 开发并贡献给开源社区。它旨在解决现有商业BI工具（如 Tableau 和 Microstrategy）在处理大规模Hadoop数据时的性能瓶颈，如水平扩展困难、无法应对PB级别数据、缺乏Hadoop集成等问题。Kylin的核心理念是预计算，通过在Hadoop之上提供SQL查询接口和多维分析（OLAP）功能，实现实时且高并发的数据分析。 Kylin的基本架构包括以下几个关键组件： 1. **数据源与读取**： Kylin从Hive中获取源数据，这是大数据仓库中的常见选择，因为它能够处理海量数据。数据处理采用MapReduce技术，这是一种分布式计算模型，用于高效地执行大数据处理任务。 2. **立方体（Cube）构建**：立方体是Kylin的核心组件，它基于预计算原则，将复杂的聚合和多表连接操作转化为对预先计算好的数据块（Cuboid）的查询。每个Cuboid代表一组维度的特定组合，其中存储了聚合后的度量值。这种设计使得查询性能极佳，可以在亚秒级别处理大型Hive表。 3. **存储与查询接口**：预计算的结果通常存储在HBase中，这是一种高性能、分布式NoSQL数据库，适合大规模数据存储。Kylin提供了REST API、JDBC和ODBC接口，便于用户通过标准的SQL查询与主流分析工具（如Tableau、Excel等）无缝对接。 4. **REST Server**： REST Server是Kylin的核心服务，负责处理客户端的请求，如创建、构建、刷新和合并立方体等操作。它提供了RESTful接口，简化了管理和维护过程。 5. **标准SQL支持**： Kylin支持标准的ANSI SQL，这使得它能够与广泛使用的BI工具进行集成，无需额外的适配工作，提高了工作效率。 Apache Kylin通过其高效的预计算和分布式架构，为大数据时代的分析需求提供了一种强大的解决方案，尤其适用于那些依赖Hadoop进行数据处理的公司和团队。

UI 上提供了一个重要更新，即允许用户在 Cube 级别进行自定义配置，以覆盖

kylin.properties 中的全局配置。如在 cube 中定义 kylin.hbase.region.count.max 可以设置该

cube 在 hbase 中 region 切分的最大数量。

另一个重要的功能是 Diagnosis。用户经常会遇到一些棘手的问题，例如 Cube 构建任务

失败、SQL 查询失败，或 Cube 构建时间过长、SQL 查询时间过长等。但由于运维人员对 Kylin

系统了解不深，很难快速定位到 root cause 所在地。

当用户遇到查询、Cube/Model 管理的问题，单击 System 页面的 Diagnosis 按钮，系统

会自动抓取当前 Project 相关的信息并打包成 zip 文件下载到用户本地。这个包会包含相关的

Metadata、日志、HBase 配置等。当用户需要在 mailing list 求助，也可以附上这个包。

当一个 cube 构建任务执行失败或时间过长，用户可以单击 Job 下的 Diagnosis 按钮。同

样的，系统会抓取和下载 Job 相关信息成一个 zip 包。

Kylin 的企业级特性：

首先，毋庸置疑, Kylin 对外暴露的是标准的 SQL，支持大多数的 SELECT 语法，可以把各

种工具和系统直接对接进来。这意味着当您使用 Kylin 的时候，不需要对业务系统做额外的

改动。

第二，Kylin 提供了各种接入方式，如 ODBC、JDBC; 如果您的系统不使用这两种方式，

还可以使用 RESTful API 查询。

Kylin 架构天生就非常适合 Scale out，当查询量上升，单节点不能满足的时候，只需要

相应增加 Kylin 的节点就可以满足。

针对企业对安全的要求，我们有不同力度做安全控制。Kylin 有不同用户角色做不同的

事情，此外在 project 和 cube 层级可以定义 ACL 帮助在更细力度掌控对 cube 的使用。

企业通常会使用目录服务来管理用户和群组，Kylin 支持 LDAP 认证登录;如果对安全有更

高的要求，Kylin 还支持了基于 SAML 的单点登录(SingleSign-On)，只要做一些配置就可以完

成，不需要额外开发。

Kylin 提供了丰富的 RESTful API，非常方便从用各种已有系统，如任务调度，监控等接入

Kylin。Kylin 的 Web UI 做到的事情通过 API 都可以做到。

怎么样用 Kylin 来构建大数据的分析平台?

架构上就是个分层的结构，最底层是数据，放置在 HDFS，其上是 Hadoop 层，需要有

HBase、Hive、MapReduce 等。Kylin 运行中 Hadoop 之上，安装好了之后，业务系统连入 Kylin，

Kylin 把压力分布到 Hadoop 上做计算和查询。

有四种典型的部署架构，分别从简单到复杂：

第一种， Single instance 的部署。首先要有 Hadoop，版本在 2.4 或以上。加一台 Hadoop

客户机，下载 Kylin，即可一键启动。建模人员通过 Kylin Web 登录，进行建模和 cube 的创

建。业务分析系统或者工具发 SQL 到 Kylin，Kylin 查询 Cube 返回结果。

这种部署最大特点是简单;缺点也很明显: Kylin 是单点，并发请求上来的时候它会成为瓶

颈，所以需要 Cluster 的部署。

剩余25页未读，继续阅读

zhaiwuyan

粉丝: 3
资源: 17

Apache Kylin：大数据分析引擎的预计算力量

apache kylin操作使用教程

apache kylin ppt

Apache Kylin原理介绍

Kylin与Hive集成实战

Kylin的安装与配置

Kylin的架构与原理解析

Kylin在云端部署与扩展技术

Kylin的安装与配置指南

kylin搭建ftp服务器

装kylin3.2系统

最新资源