腾讯TDW:分布式数据仓库在海量数据处理中的应用
5星 · 超过95%的资源 需积分: 10 70 浏览量
更新于2024-07-28
2
收藏 3.58MB PPT 举报
“海量数据处理的大杀器:腾讯分布式数据仓库”
腾讯分布式数据仓库(Tencent Distributed Data Warehouse,简称TDW)是腾讯公司为应对海量数据处理需求而构建的核心部件。作为腾讯海量数据处理平台的重要组成部分,TDW在2012年7月就已经开始发挥作用,它基于开源的Hadoop和Hive系统,并进行了大量优化和改造,以适应腾讯内部的各种业务场景。
TDW的主要特性包括:
1. **天然容灾**:即使集群中的个别节点出现故障,也不会影响数据的存储和计算,保证了系统的高可用性。
2. **线性扩展**:通过增加硬件节点,可以线性扩展存储容量和计算能力,以满足不断增长的数据处理需求。
3. **SQL支持**:提供了丰富的SQL语法支持,包括SELECT、INSERT、JOIN、WHERE、GROUP BY、HAVING、LIMIT、ORDER BY等,方便用户进行数据分析。
4. **SQL函数**:包含简单函数、聚合函数、窗口函数以及数据挖掘函数,满足复杂的数据处理和分析需求。
5. **过程语言**:使用基于Python的PL/python,支持编写复杂的处理逻辑。
6. **多维分析**:支持rollup和cube操作,便于进行多角度的数据透视和汇总。
7. **MapReduce支持**:允许用户直接提交MapReduce任务,与Hadoop生态系统无缝对接。
8. **多种存储结构**:提供可压缩的文本、结构化和列存储,以及ProtoBuf格式,优化存储效率。
9. **SQL/MED**:能够访问和管理PostgreSQL、Oracle等外部数据库数据。
10. **开发环境**:集成开发环境TDWIDE和命令行工具PLClient,提供便捷的开发和管理体验。
11. **管理台**:图形化的任务管理和数据流转配置,使系统管理更加直观易用。
12. **可定制功能**:根据腾讯的业务特性,TDW还允许进行功能定制,以满足特定需求。
TDW的架构包括查询引擎、计算引擎和存储引擎,形成了一个分层结构。它不仅支持离线数据处理,还与BI(商业智能)库紧密集成,通过操作台、后台接入、数据流转、工作流(USP)、计算引擎(CE)和查询引擎(QE)等组件,实现从数据开发、挖掘到展现的完整流程。此外,TDW还可以与PostgreSQL、Oracle等传统数据库协同工作,提供更加灵活的数据存储和处理方案。
腾讯分布式数据仓库TDW是腾讯应对大数据挑战的关键工具,它通过提供高效、稳定、易用的平台,为海量数据的存储、处理和分析提供了强有力的支持,推动了腾讯在大数据领域的技术创新和业务发展。
2021-10-16 上传
2021-07-02 上传
点击了解资源详情
2014-05-29 上传
点击了解资源详情
点击了解资源详情
Zhang@csdn
- 粉丝: 24
- 资源: 19
最新资源
- ballista:现代网络的互操作性系统
- gsheet-planner:聪明的,可自动排序的Google表格计划器
- 翻译翻译什么叫HTML5(一)配套代码资源包
- Towering Yoga Masters Free Game-crx插件
- 我的
- Toolint-tests-Empty-TC-Add-Tools-2021-03-11T20-17-21.121Z:为工具链创建
- List:用CodeSandbox创建
- timecat-mmo::smiling_cat_with_heart-eyes: 时间猫,但是一个 MMO
- 视觉暂留测试工具-crx插件
- 变色龙:BAOBAB服务器的“第二层”模型交互层
- Perifa_Acessa:Com recursos de voz(acessibilidade)podendo ser a Alexa(Firefox)ou o Watson(Microsoft),Recursos de Hand Talk eImplementaçõesde melhorias a fazer,esteéum eta(protótipo)
- posterus:具有取消功能,可调度控制和协程的可组合异步原语(期货)
- OS-Places:演示和代码示例的OS Places存储库
- Commando Girl Free Games-crx插件
- PSTools GUI:PSTools 的图形前端-开源
- 彼得里斯