淘宝Hadoop实践:2010年云梯系统与改造

需积分: 9 2 下载量 131 浏览量 更新于2024-07-31 收藏 590KB PPTX 举报
"Hadoop在淘宝的实践与应用" 在2010年的Hadoop China大会上,淘宝分享了其在分布式数据处理方面的实践经验,主要集中在Hadoop的使用、扩展与改造,以及Hive的实践和分布式数据仓库的构思。以下是详细的知识点解析: 1. **淘宝数据平台**:淘宝的核心数据主要来源于Oracle备库,同时也包括MySQL备库、日志系统等多源数据。数据结构大部分是结构化的,并且遵循一定的模式。 2. **云梯1(TianTunnel)**:这是一个大规模的Hadoop集群,总容量达到9.3PB,拥有77.09%的高利用率。集群由1100台机器组成,其中包括8CPU(超线程)的Master节点和不同配置的Slave节点。云梯1每天处理约18000个作业,扫描约500TB的数据,服务于474个用户和38个用户组。 3. **硬件配置**:Slave节点硬件配置不一,部分机器磁盘利用率高,需要定期进行Rebalance以优化存储。同时,云梯1有完善的故障管理策略,如限制单机速度控制在10M/s,避免夜间维护影响正常运行。 4. **Hadoop版本与定制**:云梯1基于0.19.1版本的Hadoop,但进行了大量自定义补丁,包括来自官方社区的0.19.2, 0.20, 0.21等版本的特性。特别的是,客户端和服务端代码的分离,使得云梯管理员仅需关注服务端升级,确保向下兼容。 5. **安全性增强**:引入了密码认证(hadoop.job.ugi),正在开发扩展ACL以支持用户访问其他组的数据。此外,还增强了调度器功能,基于FairScheduler改造,允许动态调整slots。 6. **容错机制**:实现了Slave单磁盘容错,当DataNode出现硬盘故障时,集群仍能继续运行,降低了对整体服务的影响。Master节点采用了容灾方案,包括3个Master节点和1个Standby节点,通过VirtualIP实现NameNode和JobTracker的高可用。 7. **Hive实践**:云梯1上也进行了Hive的实践,但具体改造细节未详述。可以推测,改造可能涉及到性能优化、功能增强以适应淘宝的业务需求。 8. **分布式数据仓库构思**:虽然没有详细描述,但淘宝可能在考虑构建更高效、更安全的分布式数据仓库,以满足日益增长的数据处理和分析需求。 淘宝在2010年的Hadoop应用已经相当成熟,不仅在硬件层面实现了大规模的集群管理和容错机制,还在软件层面进行了深度定制和优化,为后来的Hadoop应用提供了宝贵的经验。