小米集团SQL on Hadoop实践与优化:从架构到解决方案
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
本文档深入探讨了在小米集团内部对SQL on Hadoop技术的应用与优化实践,作者是周康,他分享了该团队作为元数据服务和Ad-hoc查询服务提供商的角色,服务范围涵盖了Hive、Kylin、Druid、Doris和MiQuery等工具。主要讨论内容分为两个部分:概述和小米的实践与优化。 在概述部分,作者首先介绍了小米的集群架构,包括7个海外集群,其中包含大量数据,如11个表、450万+分区和超过20万的SparkSQL查询。有效查询数分别达到了10万次(HiveSQL)和25万次(SparkSQL)。这展示了大数据处理在小米的广泛应用和高并发需求。 SQL on Hadoop路由方案是核心部分,面临的主要挑战是如何提供统一的访问接口、灵活的智能引擎以及适应不同的场景需求。为此,团队采用了SQLProxy方案,它作为一个统一接入点,根据场景不同划分为HiveSQL和SparkSQL服务。SQLProxy通过改造SparkThriftServer,实现了去中心化、无Hadoop依赖,并支持按Session和队列限制并发连接,同时还提供了HTTP模式下的自定义鉴权功能。 针对PowerBI的需求,SQLProxy进行了个性化改造,允许其与PowerBI无缝集成,支持SparkSQL,但PowerBI原生不支持Kylin、Druid和Doris。通过PowerBIonSQLProxy,用户可以使用HTTP模式接入,享受对多种OLAP引擎的支持,且能自定义认证逻辑和业务数据权限。 Hiveserver2的部署架构也得到了关注,包括LVS的权重调整、元数据服务的动态扩展以及服务的Online和StandBy模式,以确保高可用性和资源管理的灵活性。SparkSQLOLAP方案则提出了SparkSQL服务化的解决方案,强调了Session级别的隔离、资源管理和基于Metastore的元数据管理。 整体而言,本文详细描述了小米在利用SQL on Hadoop技术应对海量数据处理中的实践策略和优化过程,对于其他企业寻求同类问题的解决方案具有很高的参考价值。
剩余27页未读,继续阅读
- 粉丝: 12w+
- 资源: 9195
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 社交媒体营销激励优化策略研究
- 终端信息查看工具:qt框架下的输出强制抓取
- MinGW Win32 C/C++ 开发环境压缩包快速入门指南
- STC8G1K08 PWM模块实现10K频率及易改占空比波形输出
- MSP432电机驱动编码器测路程方法解析
- 实现动静分离案例的css/js/img文件指南
- 爱心代码五种:高效编程的精选技巧
- MATLAB实现广义互相关时延估计GCC的多种加权方法
- Hive CDH Jar包下载:免费获取Hive JDBC驱动
- STC8G单片机实现EEPROM及MODBUS-RTU协议
- Java集合框架面试题精讲
- Unity游戏设计与开发资源全集
- 探索音乐盒.zip背后的神秘世界
- Matlab自相干算法GUI界面设计及仿真
- STM32智能小车PID算法实现资料
- Python爬虫实战:高效爬取百度贴吧信息