赵伟分享：腾讯TDW中HIVE的实战与关键特性

需积分: 10 46 浏览量更新于2024-07-23 1 收藏 1.07MB PDF 举报

赵伟在2012年的HBTC大会上分享了腾讯分布式数据仓库（TDW）中HIVE的实际应用和实践经验。作为腾讯数据平台部的一员，赵伟专注于海量数据处理平台的研发，对HIVE、Hadoop、PostgreSQL等技术有深入理解。HIVE在TDW中的角色至关重要，它是一个建立在Hadoop之上，使用类SQL（HiveQL）语言处理结构化数据的数据仓库工具。HIVE支持基本的SQL操作，如SELECT、JOIN、WHERE等，以及自定义函数（UDF）、聚合函数（UDAF）等，提供了丰富的功能。 TDW是腾讯内部最大的分布式系统，基于Hadoop、HIVE和PostgreSQL进行了大量的定制和优化，用于集中存储和处理各业务部门的关键数据，为数据挖掘、产品报表和经营分析等提供服务。该系统具有容灾和线性扩展的能力，确保即使在单个节点故障时，也能保持存储和计算的稳定。TDW支持SQL语言的多样化，包括SQL函数、过程语言（PL/python），以及多维分析功能如rollup、cube和grouping。除了HIVE，TDW的核心架构还包括MapReduce用于并行计算，HDFS提供分布式存储，而PostgreSQL则处理小规模的数据存储和计算。开发人员可以利用集成开发环境TDWIDE、命令行工具PLClient以及图形化的任务调度系统进行开发和任务配置。系统还提供元数据管理功能，如访问系统数据库、执行特定SQL操作（如showprocesslist和killquery）等。目前，TDW已经部署了超过5000台机器，最大集群包含约2000个节点，覆盖腾讯90%以上的产品。活跃的集成开发环境用户数超过200人，每天运行的分析SQL数量高达50000条，且这些SQL会转换成约100000个MapReduce作业。在过去半年里，系统的可用性达到了99.99%，显示出其高效稳定的性能。赵伟的分享详细阐述了HIVE在腾讯分布式数据仓库TDW中的核心作用，展示了如何通过HIVE进行大规模数据分析，并强调了TDW在公司业务中的广泛应用和卓越的性能表现。

TDW特性

特性

说明

存储和计算容灾集群中个别节点down机不影响存储和计算

存储和计算线性扩展通过添加节点线性扩展存储和计算能力

SQL语言

select、insert、join、where、groupby、having、limit

、orderby、分区、视图等

SQL函数简单函数、聚合函数、窗口函数、数据挖掘函数

过程语言以python语言为母体的PL/python

多维分析 rollup、cube、grouping

MapReduce 允许提交MR任务

多种存储结构文本/结构化/列存储/ProtoBuf/DB存储

SQL/MED 可访问和管理PostgreSQL、Oracle数据

开发工具集成开发环境TDW IDE、命令行工具PLClient

任务调度系统图形化的任务依赖配置、数据流转配置

系统DB 元数据与普通表一样可以通过TDW SQL进行访问

其他

Show processlist、kill query、select expr、insert

values、show create table、comment on操作等

剩余24页未读，继续阅读

阿斗

粉丝: 28
资源: 167

赵伟分享：腾讯TDW中HIVE的实战与关键特性

中科院徐俊刚信息学院数据仓库课件PPT（配46或23讲视频课程）(5.68或12.35M的不全且有问题）

2015大数据实战：真实电商数据仓库详解

分布式数据仓库Hive大全

配电网可靠性研究：评估方法与分布式电源影响

孚链科技CEO赵伟：专利是区块链不能忽视的战场.pdf

Hive数据仓库技术分享与实践指南

赵伟：Hive在腾讯分布式数据仓库实践分享

OSTC开源技术大会-赵伟-基于开源软件构建腾讯大数据平台

大数据开放日-深圳-腾讯大数据基础平台介绍-赵伟

基于隐马尔科夫模型的LTE室外指纹定位研究与实践_赵伟.caj

最新资源