赵伟在2012年的HBTC大会上分享了腾讯分布式数据仓库(TDW)中HIVE的实际应用和实践经验。作为腾讯数据平台部的一员,赵伟专注于海量数据处理平台的研发,对HIVE、Hadoop、PostgreSQL等技术有深入理解。HIVE在TDW中的角色至关重要,它是一个建立在Hadoop之上,使用类SQL(HiveQL)语言处理结构化数据的数据仓库工具。HIVE支持基本的SQL操作,如SELECT、JOIN、WHERE等,以及自定义函数(UDF)、聚合函数(UDAF)等,提供了丰富的功能。 TDW是腾讯内部最大的分布式系统,基于Hadoop、HIVE和PostgreSQL进行了大量的定制和优化,用于集中存储和处理各业务部门的关键数据,为数据挖掘、产品报表和经营分析等提供服务。该系统具有容灾和线性扩展的能力,确保即使在单个节点故障时,也能保持存储和计算的稳定。TDW支持SQL语言的多样化,包括SQL函数、过程语言(PL/python),以及多维分析功能如rollup、cube和grouping。 除了HIVE,TDW的核心架构还包括MapReduce用于并行计算,HDFS提供分布式存储,而PostgreSQL则处理小规模的数据存储和计算。开发人员可以利用集成开发环境TDWIDE、命令行工具PLClient以及图形化的任务调度系统进行开发和任务配置。系统还提供元数据管理功能,如访问系统数据库、执行特定SQL操作(如showprocesslist和killquery)等。 目前,TDW已经部署了超过5000台机器,最大集群包含约2000个节点,覆盖腾讯90%以上的产品。活跃的集成开发环境用户数超过200人,每天运行的分析SQL数量高达50000条,且这些SQL会转换成约100000个MapReduce作业。在过去半年里,系统的可用性达到了99.99%,显示出其高效稳定的性能。 赵伟的分享详细阐述了HIVE在腾讯分布式数据仓库TDW中的核心作用,展示了如何通过HIVE进行大规模数据分析,并强调了TDW在公司业务中的广泛应用和卓越的性能表现。
- 粉丝: 28
- 资源: 167
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建Cadence PSpice仿真模型库教程
- VMware 10.0安装指南:步骤详解与网络、文件共享解决方案
- 中国互联网20周年必读:影响行业的100本经典书籍
- SQL Server 2000 Analysis Services的经典MDX查询示例
- VC6.0 MFC操作Excel教程:亲测Win7下的应用与保存技巧
- 使用Python NetworkX处理网络图
- 科技驱动:计算机控制技术的革新与应用
- MF-1型机器人硬件与robobasic编程详解
- ADC性能指标解析:超越位数、SNR和谐波
- 通用示波器改造为逻辑分析仪:0-1字符显示与电路设计
- C++实现TCP控制台客户端
- SOA架构下ESB在卷烟厂的信息整合与决策支持
- 三维人脸识别:技术进展与应用解析
- 单张人脸图像的眼镜边框自动去除方法
- C语言绘制图形:余弦曲线与正弦函数示例
- Matlab 文件操作入门:fopen、fclose、fprintf、fscanf 等函数使用详解