首页- 对比druid，clickhouse,kylin,kawq,presto，spark sql，impala等主流开源离线数据分析引擎

- 对比druid，clickhouse,kylin,kawq,presto，spark sql，impala等主流开源离线数据分析引擎

时间: 2023-04-27 10:01:06 浏览: 178

基于开源工具的数据分析

数据收集相对比较简单，而要把原始信息转化为有用的数据则需要知道如何精确地抽取你想要的内容。通过这《基于开源工具的数据分析(影印版)》(作者Philipp K．Janert)的深入讲解，那些对数据分析感兴趣的中等或者富有经验的程序员将可以学习到在商业环境中与数据打交道的技术。你将了解到如何观察数据来找出它所包含的信息，如何在概念模型里捕捉到这些想法，然后把你的理解通过商业计划、度量标准的精确报告和其他方式反馈给你所在的机构。你将会通过《基于开源工具的数据分析(影印版)》每章结束部分的动手实践来慢慢体验各种概念。最重要的是，你将了解到如何思考你所希望获取的数据——而不是依赖于工具来替你思考。

这些主流开源离线数据分析引擎都有各自的特点和优势： 1. Druid：适合实时数据分析，支持快速的数据切片和聚合，能够快速响应查询请求，但不支持复杂的SQL查询。 2. ClickHouse：适合海量数据的离线分析，支持复杂的SQL查询和高效的数据压缩，能够快速处理大规模数据，但需要较高的硬件配置。 3. Kylin：适合多维数据分析，支持复杂的OLAP查询和多维数据模型，能够快速生成报表和可视化分析结果。 4. KAWQ：适合数据仓库的构建和管理，支持ETL和数据清洗等功能，能够快速构建数据仓库和数据集市。 5. Presto：适合分布式数据查询和分析，支持多种数据源和复杂的SQL查询，能够快速处理大规模数据，但需要较高的硬件配置。 6. Spark SQL：适合大规模数据处理和分析，支持复杂的SQL查询和机器学习算法，能够快速处理大规模数据，但需要较高的硬件配置。 7. Impala：适合高性能的数据分析和查询，支持复杂的SQL查询和高效的数据压缩，能够快速处理大规模数据，但需要较高的硬件配置。

阅读全文