SQL on Hadoop：发展历程与框架解析

5星 · 超过95%的资源需积分: 9 67 浏览量更新于2024-07-21 1 收藏 1.15MB PDF 举报

"梁堰波在Hadoop 10周年庆典上分享了关于SQL on Hadoop的演进和发展，探讨了Hadoop生态系统的历史、RDBMS在Hadoop上的应用以及SQL on Hadoop的各种框架，包括CitusDB、Impala、Apache Kylin、BigSQL、PolyBase和Vortex等。他还介绍了Hive的发展历程，从2008年到Tez的引入，以及Hive的经典架构和优化方法。" 在过去的十年中，Hadoop作为大数据处理的关键技术，经历了巨大的发展。核心Hadoop代码量超过170万行，共有12,000多次提交，800多位贡献者参与其中，Hadoop生态系统的组件数量达到了25个以上。这个强大的生态系统催生了各种各样的解决方案，其中包括将关系型数据库管理系统（RDBMS）引入Hadoop，如依赖PostgreSQL和其他技术的数据虚拟化方案。 SQL on Hadoop是让业务分析师和数据科学家能够利用熟悉的SQL语言在Hadoop上进行查询和分析的重要工具。演讲中提到了几种SQL on Hadoop的方法，如： 1. **Hive**: 作为最早出现的SQL on Hadoop工具，Hive于2008年6月诞生，并在2014年引入Tez执行引擎以提高性能。经典的Hive架构包含HiveServer、HiveMetastore、UserClient等组件，通过HDFS和MapReduce执行SQL查询。 2. **Pig**: 2008年9月推出的Pig提供了一种高级语言用于大数据处理，但不直接支持SQL。 3. **Spark**: 2010年诞生的Spark在2014年推出了SparkSQL和DataFrame，使得在Spark上执行SQL变得可能。 4. **Impala**: 这是2012年10月推出的MPP（大规模并行处理）查询引擎，提供低延迟的SQL查询。 5. **Presto**: 2013年11月发布的Presto是一个快速、分布式、可运行在云环境中的SQL查询引擎，适合大规模数据分析。 6. **其他框架**：还包括CitusDB、Apache Kylin、BigSQL、PolyBase和Vortex等，这些工具各有特点，适用于不同的应用场景，选择使用时需根据具体需求来决定。演讲强调，SQL on Hadoop的历史和演进反映了Hadoop在大数据处理领域不断适应和创新的过程，以满足日益增长的数据处理和分析需求。随着技术的进步，SQL on Hadoop框架的性能、易用性和功能都在持续提升，为企业提供了更高效的数据洞察途径。

SQL on Hadoop history

Hive: June, 2008 -> Tez: 2014

Pig: September, 2008

Spark: 2010 -> Spark SQL/DataFrame: 2014

Impala: October, 2012

Presto: November, 2013

剩余28页未读，继续阅读

周建丁

粉丝: 1217
资源: 150

SQL on Hadoop：发展历程与框架解析

梁堰波：SQL on Hadoop

basic-spring-for-hadoop:Hadoop 与 Spring for Hadoop 的比较

Oracle PL-SQL 对应 hadoop hive 、 phoenix中常用的对应函

SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures

hadoop.dll-and-winutils.exe-for-hadoop2.9.0-on-windows_X64

hadoop.dll-and-winutils.exe-for-hadoop2.7.3-on-windows_X64

hadoop.dll-and-winutils.exe-for-hadoop2.7.7-on-windows_X64-master

基于SQL-on-Hadoop查询引擎的日志挖掘及其应用.pdf

陈跃国：SQL-on-Hadoop结构化大数据分析系统性能评测

基于SQL-on-Hadoop的分布式广电数据仓库的设计与实现.pdf

最新资源