请阐述shark和hive的关系以及shark有什么缺陷
时间: 2023-08-26 20:03:59 浏览: 288
Michael Armbrust:Fast distributed query processing with Shark
Shark是一种基于Apache Hive的分布式数据仓库系统,可以在Hadoop集群上运行SQL查询。Hive是一个基于Hadoop的数据仓库系统,它使用类似SQL的HiveQL查询语言,将查询转换为MapReduce任务执行。Shark则使用了Hive的元数据和查询语法,并通过将查询转换为Spark任务来提供更快的响应时间和更高的性能。
Shark的主要优点是运行速度快,可以处理大量数据,并且提供了类似SQL的查询语言。然而,Shark也有一些缺陷。首先,Shark的查询优化器不够智能,导致查询执行计划的生成不够高效。其次,Shark只支持部分HiveQL语言特性,不能完全兼容HiveQL。最后,Shark不支持所有的Hive的用户定义函数(UDFs)和用户定义聚合函数(UDAFs)。
总之,Shark是一种有前途的分布式数据仓库系统,但需要更多的开发和改进才能实现更高效的查询处理和更完整的HiveQL支持。
阅读全文