赵伟分享:腾讯TDW中HIVE的实战与关键特性
需积分: 10 46 浏览量
更新于2024-07-23
1
收藏 1.07MB PDF 举报
赵伟在2012年的HBTC大会上分享了腾讯分布式数据仓库(TDW)中HIVE的实际应用和实践经验。作为腾讯数据平台部的一员,赵伟专注于海量数据处理平台的研发,对HIVE、Hadoop、PostgreSQL等技术有深入理解。HIVE在TDW中的角色至关重要,它是一个建立在Hadoop之上,使用类SQL(HiveQL)语言处理结构化数据的数据仓库工具。HIVE支持基本的SQL操作,如SELECT、JOIN、WHERE等,以及自定义函数(UDF)、聚合函数(UDAF)等,提供了丰富的功能。
TDW是腾讯内部最大的分布式系统,基于Hadoop、HIVE和PostgreSQL进行了大量的定制和优化,用于集中存储和处理各业务部门的关键数据,为数据挖掘、产品报表和经营分析等提供服务。该系统具有容灾和线性扩展的能力,确保即使在单个节点故障时,也能保持存储和计算的稳定。TDW支持SQL语言的多样化,包括SQL函数、过程语言(PL/python),以及多维分析功能如rollup、cube和grouping。
除了HIVE,TDW的核心架构还包括MapReduce用于并行计算,HDFS提供分布式存储,而PostgreSQL则处理小规模的数据存储和计算。开发人员可以利用集成开发环境TDWIDE、命令行工具PLClient以及图形化的任务调度系统进行开发和任务配置。系统还提供元数据管理功能,如访问系统数据库、执行特定SQL操作(如showprocesslist和killquery)等。
目前,TDW已经部署了超过5000台机器,最大集群包含约2000个节点,覆盖腾讯90%以上的产品。活跃的集成开发环境用户数超过200人,每天运行的分析SQL数量高达50000条,且这些SQL会转换成约100000个MapReduce作业。在过去半年里,系统的可用性达到了99.99%,显示出其高效稳定的性能。
赵伟的分享详细阐述了HIVE在腾讯分布式数据仓库TDW中的核心作用,展示了如何通过HIVE进行大规模数据分析,并强调了TDW在公司业务中的广泛应用和卓越的性能表现。
2013-11-27 上传
2016-01-06 上传
2017-11-08 上传
点击了解资源详情
点击了解资源详情
2014-05-29 上传
2014-05-29 上传
2014-05-29 上传
阿斗
- 粉丝: 28
- 资源: 167
最新资源
- C语言数组操作:高度检查器编程实践
- 基于Swift开发的嘉定单车LBS iOS应用项目解析
- 钗头凤声乐表演的二度创作分析报告
- 分布式数据库特训营全套教程资料
- JavaScript开发者Robert Bindar的博客平台
- MATLAB投影寻踪代码教程及文件解压缩指南
- HTML5拖放实现的RPSLS游戏教程
- HT://Dig引擎接口,Ampoliros开源模块应用
- 全面探测服务器性能与PHP环境的iprober PHP探针v0.024
- 新版提醒应用v2:基于MongoDB的数据存储
- 《我的世界》东方大陆1.12.2材质包深度体验
- Hypercore Promisifier: JavaScript中的回调转换为Promise包装器
- 探索开源项目Artifice:Slyme脚本与技巧游戏
- Matlab机器人学习代码解析与笔记分享
- 查尔默斯大学计算物理作业HP2解析
- GitHub问题管理新工具:GIRA-crx插件介绍