kylin不可以使用mapreduce或者spark作为构建引擎
时间: 2024-03-29 19:36:54 浏览: 85
这个说法不完全准确。Kylin默认使用Hadoop MapReduce作为构建引擎,但也可以支持使用Apache Spark作为构建引擎。
Kylin是一个OLAP(Online Analytical Processing)引擎,用于快速查询大规模数据集。在Kylin中,数据集被存储在Hadoop分布式文件系统(HDFS)上,并被划分为多个数据块进行分布式存储和处理。为了支持高效的查询和分析,Kylin会将数据集进行预处理和聚合,生成多维数据模型(Cube),并将其存储在HBase中。
在Kylin中,Cube的构建过程主要分为两个阶段:首先,Kylin会对源数据进行抽样和预处理,生成一个或多个Hadoop MapReduce作业;然后,Kylin会使用Cube构建引擎,对MapReduce作业的输出进行合并和聚合,生成Cube数据模型,并将其存储在HBase中。
在默认情况下,Kylin使用Hadoop MapReduce作为构建引擎,但也可以通过配置文件来支持使用Apache Spark作为构建引擎。Kylin使用Spark作为构建引擎的方式是通过将MapReduce作业转换成Spark作业来实现的,这样可以利用Spark的内存计算能力和分布式计算框架,提高构建速度和效率。
因此,Kylin既支持使用Hadoop MapReduce作为构建引擎,也支持使用Apache Spark作为构建引擎。在选择构建引擎时,需要根据具体的业务需求和系统规模进行合理的选择和配置,以实现最佳的性能和效率。
相关问题
apache kylin 架构
Apache Kylin 是一款开源的分布式分析引擎,旨在为 OLAP(联机分析处理)场景下大数据处理提供高效的解决方案。Kylin 架构设计主要包括四层:数据存储层、计算层、查询层和访问层。
数据存储层:Kylin 支持多种数据源,包括 HBase、Hive 和 RDBMS。在数据存储层,Kylin 将数据进行切分和存储,并构建多维数据模型和 Cube 模型,以此支持多维分析查询。
计算层:Kylin 计算层主要负责构建 Cube 数据模型,从而支持快速的多维分析。Kylin 使用 MapReduce、Spark 和 Flink 等分布式计算框架构建 Cube 模型,并且采用增量计算和全量计算相结合的方式,以保证数据的实时更新和高效查询。
查询层:Kylin 查询层主要提供两种查询方式:SQL 和 REST API。Kylin 查询层可以直接访问 Kylin Cube 数据模型,同时支持 SQL JOIN 和聚合操作,以支持丰富的多维分析操作。
访问层:Kylin 访问层主要负责提供数据可视化和 BI 工具集成。Kylin 支持多种数据可视化工具,如 Tableau、PowerBI 和 Superset 等,以及多个 BI 工具的集成,如 Apache Zeppelin、Apache Superset 和 Apache Druid 等。
总之,Apache Kylin 架构设计以分布式计算为核心,通过数据存储、计算、查询和访问四层框架提供高效、快速、多维的 OLAP 型数据分析解决方案,可广泛应用于电商、金融、广告等场景的数据分析处理。
阅读全文