腾讯TDW中的Hive实践与未来规划
需积分: 10 197 浏览量
更新于2024-07-21
收藏 1.07MB PDF 举报
"腾讯内部使用的Hive在分布式数据仓库TDW中的实践和应用"
在腾讯的分布式数据仓库系统中,Hive扮演着至关重要的角色。腾讯分布式数据仓库(Tencent Distributed Data Warehouse,简称TDW)是基于Hadoop、Hive以及PostgreSQL等技术构建的大型系统,它针对腾讯的特定需求进行了大量的定制和优化。作为腾讯内部最大的分布式系统,TDW集成了公司的各种业务数据,为内部用户提供离线海量数据分析服务,涵盖了数据挖掘、产品报表以及经营分析等多个领域。
TDW的主要特性包括强大的容灾能力,即使集群中部分节点故障,仍能保持存储和计算的正常运行。此外,其存储和计算能力可通过添加更多节点实现线性扩展。TDW支持丰富的SQL语句,包括选择(select)、插入(insert)、连接(join)、条件筛选(where)、分组(group by)、窗口函数、多维分析(如rollup、cube、grouping),以及对PostgreSQL、Oracle等外部数据源的访问。系统还提供了过程语言PL/python,用于编写复杂逻辑,并具备任务调度系统和图形化的任务依赖配置。
TDW的核心架构由Hive、MapReduce、HDFS和PostgreSQL组成。Hive负责将SQL查询转化为MapReduce任务或PostgreSQL查询,MapReduce执行并行计算,HDFS提供分布式存储,而PostgreSQL则用于处理小规模数据的存储和计算。开发人员可以使用TDW提供的集成开发环境TDWIDE和命令行工具PLClient进行交互。
目前,TDW的运营现状显示出其在腾讯内部的广泛使用。系统拥有超过5000台机器,最大的集群包含约2000个节点,覆盖了腾讯90%以上的产品。每天有200多个活跃用户在TDW集成开发环境中进行开发,运行的分析SQL数量高达50000+,翻译成的MRjob数达到100000+,并且在过去的半年中,系统的服务水平协议(SLA)达到了99.99%,表现出极高的稳定性和可靠性。
总结来说,Hive在腾讯的TDW系统中被深度利用,不仅提供了强大的数据处理和分析能力,而且在容错性、扩展性和用户友好性方面都有出色的表现。通过不断的优化和定制,Hive在腾讯的分布式数据仓库实践中发挥了关键作用,支撑着腾讯各个业务的高效数据洞察和决策支持。
2021-01-09 上传
2021-09-07 上传
2014-08-20 上传
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
点击了解资源详情
tengkong22
- 粉丝: 18
- 资源: 23
最新资源
- C语言数组操作:高度检查器编程实践
- 基于Swift开发的嘉定单车LBS iOS应用项目解析
- 钗头凤声乐表演的二度创作分析报告
- 分布式数据库特训营全套教程资料
- JavaScript开发者Robert Bindar的博客平台
- MATLAB投影寻踪代码教程及文件解压缩指南
- HTML5拖放实现的RPSLS游戏教程
- HT://Dig引擎接口,Ampoliros开源模块应用
- 全面探测服务器性能与PHP环境的iprober PHP探针v0.024
- 新版提醒应用v2:基于MongoDB的数据存储
- 《我的世界》东方大陆1.12.2材质包深度体验
- Hypercore Promisifier: JavaScript中的回调转换为Promise包装器
- 探索开源项目Artifice:Slyme脚本与技巧游戏
- Matlab机器人学习代码解析与笔记分享
- 查尔默斯大学计算物理作业HP2解析
- GitHub问题管理新工具:GIRA-crx插件介绍