淘宝Hadoop实践：2010年云梯系统与改造

需积分: 9 131 浏览量更新于2024-07-31 收藏 590KB PPTX 举报

"Hadoop在淘宝的实践与应用" 在2010年的Hadoop China大会上，淘宝分享了其在分布式数据处理方面的实践经验，主要集中在Hadoop的使用、扩展与改造，以及Hive的实践和分布式数据仓库的构思。以下是详细的知识点解析： 1. **淘宝数据平台**：淘宝的核心数据主要来源于Oracle备库，同时也包括MySQL备库、日志系统等多源数据。数据结构大部分是结构化的，并且遵循一定的模式。 2. **云梯1（TianTunnel）**：这是一个大规模的Hadoop集群，总容量达到9.3PB，拥有77.09%的高利用率。集群由1100台机器组成，其中包括8CPU（超线程）的Master节点和不同配置的Slave节点。云梯1每天处理约18000个作业，扫描约500TB的数据，服务于474个用户和38个用户组。 3. **硬件配置**：Slave节点硬件配置不一，部分机器磁盘利用率高，需要定期进行Rebalance以优化存储。同时，云梯1有完善的故障管理策略，如限制单机速度控制在10M/s，避免夜间维护影响正常运行。 4. **Hadoop版本与定制**：云梯1基于0.19.1版本的Hadoop，但进行了大量自定义补丁，包括来自官方社区的0.19.2, 0.20, 0.21等版本的特性。特别的是，客户端和服务端代码的分离，使得云梯管理员仅需关注服务端升级，确保向下兼容。 5. **安全性增强**：引入了密码认证（hadoop.job.ugi），正在开发扩展ACL以支持用户访问其他组的数据。此外，还增强了调度器功能，基于FairScheduler改造，允许动态调整slots。 6. **容错机制**：实现了Slave单磁盘容错，当DataNode出现硬盘故障时，集群仍能继续运行，降低了对整体服务的影响。Master节点采用了容灾方案，包括3个Master节点和1个Standby节点，通过VirtualIP实现NameNode和JobTracker的高可用。 7. **Hive实践**：云梯1上也进行了Hive的实践，但具体改造细节未详述。可以推测，改造可能涉及到性能优化、功能增强以适应淘宝的业务需求。 8. **分布式数据仓库构思**：虽然没有详细描述，但淘宝可能在考虑构建更高效、更安全的分布式数据仓库，以满足日益增长的数据处理和分析需求。淘宝在2010年的Hadoop应用已经相当成熟，不仅在硬件层面实现了大规模的集群管理和容错机制，还在软件层面进行了深度定制和优化，为后来的Hadoop应用提供了宝贵的经验。

淘宝数据的形状

•

核心数据来源于 Oracle 备库

•

大部分数据结构化，数据具有模式

•

稠密

剩余16页未读，继续阅读

GiottoX27

粉丝: 3
资源: 1

淘宝Hadoop实践：2010年云梯系统与改造

基于Hadoop技术的大数据就业岗位数据分析.docx

2011 hadoop中国云计算大会

gp for hadoop

李建伟：Hadoop新技术介绍

1、Hadoop环境搭建.docx

基于Hadoop分布式的海量图像检索方法研究.pdf

HiBench：Hadoop集群性能分析工具

Hadoop权威指南第四版英文PDF

Hadoop在中国：HBase权威指南概述

深入理解Pancm项目的Hadoop与Spark资源

最新资源