Apache Kylin v3.1 教程：Cube构建与优化

需积分: 1 84 浏览量更新于2024-07-09 收藏 15.13MB PDF 举报

"Apache Kylin v3.1 使用教程.pdf" Apache Kylin是一个开源的、分布式的分析型数据库，专门设计用于大数据环境下的超快速查询。它提供了亚秒级的交互式查询性能，使得业务分析师可以使用标准SQL在大规模的数据集上进行分析。此教程涵盖了Apache Kylin v3.1版本的详细使用方法。在开始之前，了解Kylin的基本概念是必要的。Kylin通过预计算（即立方体构建）和存储大量汇总数据来实现快速查询。它与Hadoop生态系统紧密集成，支持多种数据源，如HBase、Hive等，并可以与多种 BI 工具（如Tableau、QlikView、Excel等）无缝对接。在部署方面，本教程将指导你如何进行安装和配置。Kylin可以在单机模式下运行，也可以在集群模式下部署，以满足不同规模的需求。对于AWS EMR（Elastic MapReduce）用户，教程还特别介绍了在该平台上安装Kylin的步骤。此外，为了简化开发和测试环境的搭建，还提供了使用Docker容器化部署Kylin的方法。教程的核心部分是关于如何创建和管理Cube。Cube是Kylin中的核心概念，它是预先计算的多维数据结构，用于加速查询。你将学习如何使用Web界面创建Cube，定义维度和度量，以及设置切片和层次结构。此外，教程还详细解释了Cube的构建过程和Job监控，让你能够跟踪和调整构建作业。对于开发人员，教程介绍了如何使用Python客户端与Kylin进行交互，这使得自动化Cube管理和数据分析成为可能。同时，Kylin还支持从Kafka流中构建Cube，以实现实时数据分析。在优化方面，文档提供了关于如何设计和调整Cube以提高性能的建议。这包括Cube的优化构建策略，以及如何利用Kylin的CLI工具进行元数据备份和存储清理。在数据源集成部分，教程详细说明了如何设置JDBC和ODBC驱动，以及如何与Tableau、Excel、PowerBI等BI工具进行集成。对于更复杂的场景，例如Hybrid模型，教程也将指导你如何配置基于MySQL的Metastore，以支持更灵活的数据管理。最后，文档还列出了RESTful API的使用，这对于自动化任务和构建自定义应用程序非常有用。通过API，你可以直接与Kylin后端交互，构建和管理Cube。这份Apache Kylin v3.1使用教程是一份全面的学习资源，适合希望掌握Kylin的初学者以及需要进一步优化Kylin使用的企业IT团队。无论你是想快速上手还是深入研究，都能从中找到详尽的指导。请确保使用最新版本的文档以保持知识的时效性。

Hadoop:2.7+,3.1+(sincev2.5)

Hive:0.13-1.2.1+

HBase:1.1+,2.0(sincev2.5)

Spark(可选)2.3.0+

Kafka(可选)1.0.0+(sincev2.5)

JDK:1.8+(sincev2.5)

OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+

在HortonworksHDP2.2-2.6and3.0,ClouderaCDH5.7-5.11and6.0,AWSEMR

5.7-5.10,AzureHDInsight3.5-3.6上测试通过。

我们建议您使用集成的sandbox来试用Kylin或进行开发，比如HDPsandbox，且要保证其有

至少10GB内存。在配置沙箱时，我们推荐您使用BridgedAdapter模型替代NAT模型。

运行Kylin的服务器的最低配置为4coreCPU，16GB内存和100GB磁盘。对于高负载的

场景，建议使用24coreCPU，64GB内存或更高的配置。

Kylin依赖于Hadoop集群处理大量的数据集。您需要准备一个配置好HDFS，YARN，

MapReduce，Hive，HBase，Zookeeper和其他服务的Hadoop集群供Kylin运行。

Kylin可以在Hadoop集群的任意节点上启动。方便起见，您可以在master节点上运行

Kylin。但为了更好的稳定性，我们建议您将Kylin部署在一个干净的Hadoopclient节点上，

该节点上Hive，HBase，HDFS等命令行已安装好且client配置（如 core-

site.xml ， hive-site.xml ， hbase-site.xml 及其他）也已经合理的配置且其可以自动和其

它节点同步。

运行Kylin的Linux账户要有访问Hadoop集群的权限，包括创建/写入HDFS文件夹，Hive

表，HBase表和提交MapReduce任务的权限。

1. 从ApacheKylin下载网站下载一个适用于您Hadoop版本的二进制文件。例如，适用于

HBase1.x的Kylin2.5.0可通过如下命令行下载得到：

安装指南

软件要求

硬件要求

Hadoop环境

Kylin安装

安装指南

-16-本文档使用书栈网·BookStack.CN构建

运行 $KYLIN_HOME/bin/kylin.shstart 脚本来启动Kylin，界面输出如下：

1. Retrievinghadoopconfdir...

2. KYLIN_HOMEissetto/usr/local/apache-kylin-2.5.0-bin-hbase1x

3. ......

4. AnewKylininstanceisstartedbyroot.Tostopit,run'kylin.shstop'

5. Checkthelogat/usr/local/apache-kylin-2.5.0-bin-hbase1x/logs/kylin.log

6. WebUIisathttp://<hostname>:7070/kylin

Kylin启动后您可以通过浏览器 http://<hostname>:7070/kylin 进行访问。

其中 <hostname> 为具体的机器名、IP地址或域名，默认端口为7070。

初始用户名和密码是 ADMIN/KYLIN 。

服务器启动后，您可以通过查看 $KYLIN_HOME/logs/kylin.log 获得运行时日志。

运行 $KYLIN_HOME/bin/kylin.shstop 脚本来停止Kylin，界面输出如下：

1. Retrievinghadoopconfdir...

2. KYLIN_HOMEissetto/usr/local/apache-kylin-2.5.0-bin-hbase1x

3. StoppingKylin:25964

4. Stoppinginprogress.Willcheckafter2secsagain...

5. Kylinwithpid25964hasbeenstopped.

您可以运行 ps-ef|grepkylin 来查看Kylin进程是否已停止。

Kylin会在HDFS上生成文件，根目录是“/kylin/”,然后会使用Kylin集群的元数据表名作

为第二层目录名，默认为“kylin_metadata”(可以在 conf/kylin.properties 中定制).

通常, /kylin/kylin_metadata 目录下会有这么几种子目录： cardinality ,

coprocessor , kylin-job_id , resources , jdbc-resources .

1. cardinality :Kylin加载Hive表时，会启动一个MR任务来计算各个列的基数，输出结

2. coprocessor :Kylin用于存放HBasecoprocessorjar的目录；请勿删除。

3. kylin-job_id :Cube计算过程的数据存储目录，请勿删除。如需要清理，请遵循

storagecleanupguide.

4. resources :Kylin默认会将元数据存放在HBase，但对于太大的文件（如字典或快照），

使用Kylin

停止Kylin

HDFS目录结构

安装指南

-18-本文档使用书栈网·BookStack.CN构建

剩余272页未读，继续阅读

廷达罗斯猎犬

粉丝: 2
资源: 8

Apache Kylin v3.1 教程：Cube构建与优化

探索Apache Kylin v3.1.3：分析型数据仓库的最新进展

Apache Kylin手动搭建与入门教程：配置与实践

Apache Kylin：大数据实时分析解决方案

藏经阁-Apache Kylin_ Speed up Cubing.pdf

藏经阁-Flink Forward China ——Apache Kylin_大数据OLAP利器.pdf

Apache Kylin分析型数据仓库.rar

Apache Kylin大数据驱动商务革新.pptx

Apache Kylin的Streaming OLAP实现.pptx

基于Apache Kylin 的平台应用建设.rar

Apache Kylin加速大数据OLAP.pdf

最新资源