没有合适的资源?快使用搜索试试~ 我知道了~
首页Apache Kylin安装部署
资源详情
资源评论
资源推荐

1 概述
Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分
析(OLAP)能力以支持超大规模数据,最初由 eBay Inc. 开发并贡献至开源社区。
1.1 Kylin 是什么
可扩展超快 OLAP 引擎:
Kylin 是为减少在 Hadoop 上百亿规模数据查询延迟而设计
Hadoop ANSI SQL 接口:
Kylin 为 Hadoop 提供标准 SQL 支持大部分查询功能
交互式查询能力:
通过 Kylin,用户可以与 Hadoop 数据进行亚秒级交互,在同样的数据集上提供比 Hive 更
好的性能
多维立方体(MOLAP Cube):
用户能够在 Kylin 里为百亿以上数据集定义数据模型并构建立方体
与 BI 工具无缝整合:
Kylin 提供与 BI 工具,如 Tableau,的整合能力,即将提供对其他工具的整合

其他特性:
- Job 管理与监控
- 压缩与编码
- 增量更新
- 利用 HBase Coprocessor
- 基于 HyperLogLog 的 Dins#nc Count 近似算法
- 友好的 web 界面以管理,监控和使用立方体
- 项目及立方体级别的访问控制安全
- 支持 LDAP
1.2 技术架构
以上图表勾勒出 Cube 构建引擎(Cube Build Engine)是如何以离线处理方式将关系型数
据转化成键-值型数据的。其中的黄线部分还表现出在线分析数据的处理流程。数据请求
可以利用基于 SQL 的工具由 SQL 提交而产生,或者利用第三方应用程序通过 Kylin 的
RESTful 服务来实现。RESTful 服务会调用 Query Engine,后者则检测对应的目标数据集是
否真实存在。如果确实存在,该引擎会直接访问目标数据并以次秒级延迟返回结果。如
果目标数据集并不存在,该引擎则会根据设计将无匹配数据集的查询路由至 Hadoop 上的

SQL 处、即交由 Hive 等 Hadoop 集群负责处理。
Kylin 核心: Kylin OLAP 引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job
引擎及存储引擎等,同时包括 REST 服务器以响应客户端请求
扩展: 支持额外功能和特性的插件
整合: 与调度系统,ETL,监控等生命周期管理系统的整合
用户界面: 在 Kylin 核心之上扩展的第三方用户界面
驱动: ODBC 和 JDBC 驱动以支持不同的工具和产品,比如 Tableau
数据处理流程:
在面对极大数据时,简单问题也将带来涵盖巨大数据量的表内容扫描,给出应答的延时
状况也会变得无法接受,每一次运行查询时所需要的值是固定的,因此我们完全可以预
先进行计算并对结果加以存储、以备日后随时调用,从关系型到键-值型(Relational to
Key—Value,简称 KV)处理,处理过程将生成所有维度组合并将测得值显示出来 ,
Kylin 的构建正是以为基础,而且在对大规模数据进行处理时充分发挥了 Hadoop 生态
系统的强大能力
1. 从 Hive 当中读取数据(这些数据被保存在 HDFS 之上)
2. 运行 Map Reduce 任务以实现预计算
3. 将 cube 数据保存在 HBase 当中
4. 利用 Zookeeper 进行任务协调
5. 通过 restful API、JDBC、ODBC 等进行外部访问
1.3 适用场景
1. kylin 的响应时间和实际返回条数成正比,在单维度查询下,没有较大的优势,kylin 更
适合高度范化的聚合数据查询,专门负责处理规模极端庞大的数据集
2. 完全基于 Hadoop 生态系统下的大数据量秒级多维分析
剩余10页未读,继续阅读
















安全验证
文档复制为VIP权益,开通VIP直接复制

评论1