百度大数据查询引擎Wing:新一代高性能与易用性升级
需积分: 16 76 浏览量
更新于2024-07-20
收藏 727KB PDF 举报
百度在2015年的中国数据库技术大会上,推出了名为Wing的新一代大数据查询引擎。该引擎由百度大数据部QE团队研发,旨在解决Hive等传统批处理查询工具在大数据处理中的局限性和挑战。Wing作为一款编译器,支持高级查询语言如HQL和CQuery,提供了一个统一的接口,使得开发者能够更方便地进行结构化数据处理。
Wing的技术发展和架构设计着重于以下几个关键方面:
1. **查询引擎功能**:
- QueryEngine作为一个编译器,负责将高级语言(如HQL)编译成低级执行指令,并对用户的计算逻辑进行优化,以减少数据传输和提升计算效率。
- 相比Hive,Wing的runtime性能提高了30%,在百度线上应用中,查询性能更是提升了4倍,显示出显著的性能提升。
2. **市场背景与对比**:
- 当时市场上已经存在多种QueryEngine系统,包括批处理的Hive、交互式的SparkSQL、Dremel、Impala以及流式计算的Storm。Wing定位在提供一个更高层次的抽象,让开发者可以更容易地利用这些框架的不同计算能力。
3. **从Hive到Wing的改进**:
- QueryEngine1.0版本(Hive)在当时面临社区版本更新频繁(0.8.1 vs 0.13.1)的问题,代码可维护性较差,不利于定制优化和bug修复。Hive的HQL也难以嵌入用户自定义逻辑。
- 为了克服这些问题,QueryEngine2.0(Wing)的设计目标是成为一个通用的结构化数据处理引擎组件,其接口支持HQL和CQuery,通过基于关系模型的优化和LLVM数据流分析来提升性能。此外,Wing完全由QueryEngine团队自主开发和维护,保证了代码的稳定性和定制性。
4. **服务规模与应用场景**:
- 百度的QueryEngine服务每天处理的数据量达到2PB,每天有大约14-15万个会话,主要用于大规模的例行任务,如广告和搜索等应用的ETL(提取、转换、加载)过程。
5. **架构设计**:
- Wing的架构包括前端,它接受不同描述语言的查询并转化为统一的中间表示;语义分析阶段进行类型检查、列引用检查、函数检查和关系算子语义验证;优化器负责对中间表示进行关系代数优化;最后,Runtime负责执行实际的计算逻辑,而Backend则驱动Runtime算子的执行。
Wing的发布标志着百度在大数据查询处理领域的技术进步,通过优化查询执行、提升可维护性,以及更好地集成到各种计算框架,为内部业务提供了强大的数据处理能力。随着大数据技术的发展,Wing的后续版本可能还会有更多创新和改进,以适应不断变化的需求。
2015-04-28 上传
2021-10-14 上传
2021-07-15 上传
点击了解资源详情
点击了解资源详情
2021-04-11 上传
2021-03-12 上传
2019-10-28 上传
cyechina
- 粉丝: 6
- 资源: 6
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载