淘宝Hadoop实践:2010年云梯系统与改造
需积分: 9 131 浏览量
更新于2024-07-31
收藏 590KB PPTX 举报
"Hadoop在淘宝的实践与应用"
在2010年的Hadoop China大会上,淘宝分享了其在分布式数据处理方面的实践经验,主要集中在Hadoop的使用、扩展与改造,以及Hive的实践和分布式数据仓库的构思。以下是详细的知识点解析:
1. **淘宝数据平台**:淘宝的核心数据主要来源于Oracle备库,同时也包括MySQL备库、日志系统等多源数据。数据结构大部分是结构化的,并且遵循一定的模式。
2. **云梯1(TianTunnel)**:这是一个大规模的Hadoop集群,总容量达到9.3PB,拥有77.09%的高利用率。集群由1100台机器组成,其中包括8CPU(超线程)的Master节点和不同配置的Slave节点。云梯1每天处理约18000个作业,扫描约500TB的数据,服务于474个用户和38个用户组。
3. **硬件配置**:Slave节点硬件配置不一,部分机器磁盘利用率高,需要定期进行Rebalance以优化存储。同时,云梯1有完善的故障管理策略,如限制单机速度控制在10M/s,避免夜间维护影响正常运行。
4. **Hadoop版本与定制**:云梯1基于0.19.1版本的Hadoop,但进行了大量自定义补丁,包括来自官方社区的0.19.2, 0.20, 0.21等版本的特性。特别的是,客户端和服务端代码的分离,使得云梯管理员仅需关注服务端升级,确保向下兼容。
5. **安全性增强**:引入了密码认证(hadoop.job.ugi),正在开发扩展ACL以支持用户访问其他组的数据。此外,还增强了调度器功能,基于FairScheduler改造,允许动态调整slots。
6. **容错机制**:实现了Slave单磁盘容错,当DataNode出现硬盘故障时,集群仍能继续运行,降低了对整体服务的影响。Master节点采用了容灾方案,包括3个Master节点和1个Standby节点,通过VirtualIP实现NameNode和JobTracker的高可用。
7. **Hive实践**:云梯1上也进行了Hive的实践,但具体改造细节未详述。可以推测,改造可能涉及到性能优化、功能增强以适应淘宝的业务需求。
8. **分布式数据仓库构思**:虽然没有详细描述,但淘宝可能在考虑构建更高效、更安全的分布式数据仓库,以满足日益增长的数据处理和分析需求。
淘宝在2010年的Hadoop应用已经相当成熟,不仅在硬件层面实现了大规模的集群管理和容错机制,还在软件层面进行了深度定制和优化,为后来的Hadoop应用提供了宝贵的经验。
1692 浏览量
118 浏览量
107 浏览量
172 浏览量
118 浏览量
2021-08-08 上传
628 浏览量
点击了解资源详情
点击了解资源详情
GiottoX27
- 粉丝: 3
- 资源: 1
最新资源
- 先进算法讲义-中科大.pdf 需要的下吧
- TD-SCDMA Principle -李世鹤
- rhce5 启动引导troubleshooting实验笔记
- 软件体系结构(ppt版)
- C和C++嵌入式系统编程
- Java企业版中性能调节的最佳实践.pdf
- Log4j中文手册2006_04_07_205056_ZCxoePRlHJ_2.pdf
- AutoCADAutoCAD 2005中文版是美国AutoDesk公司推出的AutoCAD软件的最新版本,它在以前版本的强大功能之上又增加了新的功能。通过本章的学习,读者将对AutoCAD 2005中文版有一个整体上的了解,学会安装和启动的方法,初步了解AutoCAD 2005中文版的界面组成。
- 全国等级考试 二级vf机试题
- The Definitive Guide to Grails Second Edition
- LINUX电子书
- IGBT 应用系统资料!
- 单片机恒温箱温度控制系统的设计
- ARM的嵌入式系统硬件结构设计经典
- MATLAB偏微分方程工具箱简介
- TestLink1.7RC3使用说明书.doc